Está en la página 1de 50

Cap.

VII

136

Estadstica no paramtrica

Captulo

VII

Anlisis de datos categricos y anlisis de


variables de distribucin libre

.................................
Objetivo del
Captulo

............................
Desarrollar la metodologa de
prueba de hiptesis para variables
de distribucin libre. Analizar las
aplicaciones

para

variables

ordinales y nominales.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

137

7.1 Introduccin
Consideramos a los mtodos estadsticos no paramtricos como aquellos que no requieren
conocimientos de ningn parmetro de la poblacin, tambin denominados de distribucin libre.
As tambin existen situaciones en algunos problemas cuando las variables que intervienen no
necesariamente son variables intervalares; en algunos casos pueden ser variables nominales o
variables ordinales. Y en el caso de que exista asociacin lineal entre las variables dependientes e
independientes, pero del tipo mencionado con anterioridad, no resulta conveniente aplicar el
coeficiente de correlacin de Pearson, si no cumplen las condiciones y requisitos de uso que
requiere en este caso el citado coeficiente. Entonces se podr usar el coeficiente de Spearman (r s),
el cual es un caso particular del coeficiente de Pearson (r xy).
La expresin datos categricos se refiere al tipo de datos obtenidos al medir variables utilizando
una escala de medida nominal o de escala ordinal con pocos niveles, estos tipos de variables
abundan en las investigaciones sociales y/o psicolgicas. En una investigacin clnica se pueden
encontrar variables como el tipo de trastorno psicolgico (neurosis, esquizofrenia, ansiedad,
depresin, etc), o se puede clasificar a los pacientes como tratados y no tratados, recuperados y no
recuperados. En una investigacin social se puede clasificar a los sujetos de acuerdo con las
actitudes u opiniones que manifiestan hacia un objeto en particular (desde muy de acuerdo, hasta
muy en desacuerdo)
Estudiaremos el anlisis para:
1. Dos variables que pueden ser intervalares pero que no cumplen los supuestos bsicos de
pruebas paramtricas vistas en el captulo anterior, o tambin es el caso que las dos
variables sean ordinales (r de Spearman)
2. Una variable: proporciones y bondad de ajuste (prueba Binomial y Chi cuadrado
respectivamente)
3. Dos variables: tablas de contingencia bidimensionales (Chi cuadrado de Pearson, medidas
de asociacin para datos ordinales y nominales).
4. Mltiples variables: MODELOS LOGLINEALES JERRQUICOS, Modelos LOGIT

7.2 Anlisis de datos categricos con dos variables relacionadas o tambin dos variables
intervalares que no cumplen los requisitos que exigen las pruebas paramtricas
Coeficiente de correlacin por rangos de Spearman
Este coeficiente de correlacin se utiliza cuando una o ambas escalas de medidas son ordinales,
ejemplo: una variable es el orden de llegada en una carrera y la otra la estatura de los corredores.
Es especialmente til en el caso donde el tamao de muestra es pequeo (menor de 30), es decir el
nmero de pares de puntajes n que se desea asociar. Cuando el nmero de dichos pares es muy
grande, por el teorema del lmite central, la condicin de normalidad se minimiza, y el modelo
que se emplea es uno paramtrico; tambin, cuando los puntajes se jerarquizan (o se ponen en
correspondencia biunvoca con el conjunto de nmeros ordinales) se prevean muchos empates,
esto es que en el ordenamiento varios puntajes tendrn el mismo nmero ordinal. Si ests dos
situaciones ocurrieran, lo ms conveniente es utilizar el coeficiente de correlacin de Pearson.
Pero si el nmero de puntajes que se desean correlacionar fuera n < 30, y los empates son pocos
entonces se puede trabajar con el coeficiente de Spearman.
El coeficiente de correlacin por rangos (r s) se calcula aplicando la siguiente frmula:

rs = 1

d2

n(n2 1)

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

138

Para el clculo de (rs) es necesario obtener la diferencia d entre los rangos, y si una de las escalas
no es ordinal, entonces se asigna rango a las puntuaciones.
Adems de obtener el grado de asociacin entre dos variables con r s, se puede saber acerca de la
dependencia o independencia de dos variables aleatorias, como sigue:
Prueba bilateral:
H0 : La variable x y la variable y son mutuamente independientes.
Ha : i) Cundo existe la tendencia de que los valores altos de x sean pareados con los valores
altos de y.
ii) Cuando existe la tendencia de que los valores bajos (o pequeos) de x sean pareados con
los valores altos (o grandes) de y.

Ejemplo de aplicacin:
A un grupo de 10 estudiantes de la UPeU se les aplic una prueba de matemticas (x) y una prueba
de lgica (y), se obtuvieron los siguientes puntajes (escala de 0 100):
Estudiante
x
y
A
84
52*
B
75
39
C
98*
48
D
70** 32**
E
75
40
F
80
36
G
83
38
H
75
37
I
84
50
J
90
46
Sumatoria
* Calificacin ms alta
** Calificacin ms baja
a) Se desea saber el grado de semejanza entre las calificaciones obtenidas por los estudiantes en
las pruebas x e y
b) H0: Las calificaciones obtenidas en matemticas son mutuamente independientes de las
calificaciones obtenidas en lgica por los 10 estudiantes, contra la alternativa bilateral, al 0.05
de nivel de significancia.
Ha: Existe una correlacin positiva o negativa entre las calificaciones obtenidas en ambas
pruebas (dependencia).
Solucin
Dar rango a los datos de las variables x e y de menor a mayor o viceversa, luego realizar las
diferencias de estos rangos (x-y), elevar al cuadrado estas diferencias, finalmente sumar estas
diferencias y usar este total en la formula.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estudiante

139

Estadstica no paramtrica

A
84
B
75
C
98*
D
70**
E
75
F
80
G
83
H
75
I
84
J
90
Sumatoria
* Calificacin ms alta
** Calificacin ms baja

y
52*
39
48
32**
40
36
38
37
50
46

a) Aplicando la formula de rs

Rango de x Rango de
y
3.5
1
8
6
1
3
10
10
8
5
6
9
5
7
8
8
3.5
2
2
4

rs = 1

d2

n(n2 1)

rs

Rx-Ry=d
2.5
2
-2
0
3
-3
-2
0
1.5
-2

6(4 2.5)
1 0(1 0 0 1)

d2
6.25
4
4
0
9
9
4
0
2.25
4
42.5

1 0.2 5 7 6 0.7 4 2

b) A fin de comprobar la hiptesis propuesta anteriormente acerca de la dependencia o


independencia entre las calificaciones obtenidas por los estudiantes, lo haremos al 5 % de
nivel de significancia y una prueba de hiptesis de dos colas en el SPSS
Pasos a seguir en el SPSS (en el SPSS solamente introducir la data, tal cual es y el software se
encarga de hacer los rangos y las respectivas diferencias)
Analizar<correlaciones bivariadas<pasar las dos variables<marcar la prueba de Spearman<aceptar

Salida en el SPSS
Correlaciones
Matemticas
Rho de Spearman

Matemticas

Lgica

Coeficiente de
correlacin
Sig. (bilateral)
N
Coeficiente de
correlacin
Sig. (bilateral)
N

Lgica

1.000

.739(*)

.
10

.015
10

.739(*)

1.000

.015
10

.
10

* La correlacin es significativa al nivel 0,05 (bilateral).


Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

140

b. Sig 0.015 < 0.05, por lo tanto concluimos que existe una correlacin significativa entre los
cursos
Coeficiente TAU ( ) de Kendall
Esta medida de correlacin est basada en intervalos jerarquizados de las observaciones, ms que
en los nmeros mismos, con la ventaja de que la distribucin de dicho coeficiente no depende de la
distribucin de x e y; siempre y cuando las observaciones representadas por x e y sean
independientes y continuas. Este coeficiente desarrollado por Kendall (1938), es preferido por
algunos investigadores sobre el coeficiente de Spearman, no obstante que ( ) es ms difcil de
calcular que (rs), la ventaja principal de Kendall es que su distribucin tiende a la distribucin
normal ms rpidamente que la de Spearman.
La formula est definida por:

P Q
n (n 1)
2

Donde: n = Nmero de casos o sujetos


P = Suma de rangos ms altos
Q = Suma de rangos ms bajos

Ejemplo de aplicacin
Considerando una situacin de indisciplina en un grupo de nios de 5 aos de edad en una
guardera, a nueve nios (que aparentemente eran los catalogados ms agresivos tanto por sus
padres como por la persona encargada de ellos en la guardera), se les aplic una prueba para
confirmar el grado de agresividad. Por una semana se hicieron registros observacionales, da a da
y bajo ciertas condiciones, por lo que los registros obtenidos en promedio fueron los siguientes:
(ROy), registros observacionales en la guardera; (ROx), registros observacionales en sus hogares,
Ry, rangos o intervalos en la guardera Rx, rangos o intervalos en sus hogares.
Nios
A
B
C
D
E
F
G
H
I

ROx
84
80
78
76
70
64
62
50
47

ROy
60
64
71
61
58
57
54
55
52

Rx
1
2
3
4
5
6
7
8
9

Ry,
4
2
1
3
5
6
8
7
9

Calcular e interpretar el coeficiente de correlacin


de Kendall entre lo detectado por los padres y lo
detectado por la guardera.

Paso 1.
Cada distribucin de puntajes que representa a cada variable x o y, se jerarquiza de
la misma manera que cuando se calcula el coeficiente de Spearman para obtener Rx y Ry, Pero
con la modificacin de que un conjunto de rangos (x o y) debe estar ordenado en una secuencia
natural y creciente. El objetivo de este paso es tener una referencia que se utilizar ms adelante.
Paso 2.
Se obtiene la columna (P) de rangos ms altos y la columna (Q) de rangos ms
bajos que tengan como referencia la columna Ry. Esto se obtiene de la siguiente manera: se
considera el valor numrico del primer nio (en la columna Ry., 4, en nuestro ejemplo) y se
cuenta hacia abajo cuntos valores numricos son menores que l (en este caso 2,1 y 3 son los tres
valores menores que l); tambin se cuentan cuntos valores son mayores que l (5, 6, 8, 7, y 9
son los cinco valores mayores que l).

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

Rx
1
2
3
4
5
6
7
8
9

141

Ry
Primer sujeto
4
2
Tres rangos ms
1
bajos que el
3
primer sujeto
5
Cinco rangos
6
ms altos que
8
el primer
7
sujeto
9
Cantidad P de rangos ms Cantidad Q de rangos ms
altos
bajos
5
3

Para obtener el segundo sujeto (2 en nuestro ejemplo), hay uno ms bajo que l (el 1 es ms bajo
que el segundo sujeto) y seis ms altos que el segundo sujeto (3, 5, 6, 8,7 y 9).
Rx
1
2
3
4
5
6
7
8
9

Ry
4
2
1
3
5
6
8
7
9

Segundo sujeto
Un rango
ms bajo que
el segundo
sujeto
Seis rangos
ms altos que
el segundo
sujeto

Cantidad de rangos ms
altos (P)
5
6

Cantidad de rangos ms
bajos (Q)
3
1

En el caso de nuestro tercer sujeto (1) se excluyen los sujetos anteriores a l y se sigue contando
haca abajo cuntos hay menores que l y cuntos mayores en su valor numrico.
Para nuestro tercer sujeto (1) no hay un valor numrico menor que l (0) pero hay 6 ms altos 3, 5,
6, 8,7 y 9).
Rx
1
2
3
4
5
6
7
8
9

Ry
4
2
1
3
5
6
8
7
9

Tercer sujeto
(Cero rangos
ms bajos que
l)
Seis rangos
ms altos que
el tercer
sujeto

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

142

Estadstica no paramtrica

Cantidad de rangos ms altos (P)


5
6
6

Cantidad de rangos ms bajos (Q)


3
1
0

Se seguir sucesivamente este mtodo hasta el ltimo sujeto, que siempre va a ser cero rangos ms
altos y cero rangos ms bajos.
Paso 3. Una vez que se tienen todas las columnas anteriores se obtiene la sumatoria de la columna
de rangos ms altos, la cual la denotaremos como P.
A la sumatoria de la columna de rangos ms bajos, la denotaremos con Q.

Sujetos

ROx

ROy

Rx

Ry,

A
B
C
D
E
F
G
H
I

84
80
78
76
70
64
62
50
47

60
64
71
61
58
57
54
55
52

1
2
3
4
5
6
7
8
9

4
2
1
3
5
6
8
7
9

Rangos
Rangos
ms altos ms altos
P
Q
5
3
6
1
6
0
5
0
4
0
3
0
1
1
1
0
0
0
31

Paso 4 El resultado se sustituye en la formula (


P Q
n(n 1)
2

31 5
9(9 1)
2

26
36

) Tau de Kendall
Donde:
n=9
P = 31
Q=5

0.72

Interpretacin: Existe una correlacin significativa entre lo detectado por los padres y lo
detectado por la guardera con respecto al nivel de agresividad de los nios menores de 5 aos.
Reporte en el SPSS
Correlaciones

Registro_guardera
Tau_b de Kendall

Registro_guardera

Registro_hogar

Coeficiente de
correlacin

Registro_hogar

1.000

.722(**)

Sig. (bilateral)
N

.007

Coeficiente de
correlacin

.722(**)

1.000

Sig. (bilateral)
N

.007
9

.
9

** La correlacin es significativa al nivel 0,01 (bilateral).

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

143

Estadstica no paramtrica

7.3 Anlisis de datos categricos con una variable


Se contrastan hiptesis para proporciones y sobre bondad de ajuste, si la variable es dicotmica o
dicotomizada (es decir, si slo tiene dos categoras), puede utilizarse la prueba Binomial (tambin
llamada contraste para una proporcin). Para contrastar la hiptesis nula de que la proporcin de
cualquiera de las dos categoras de la variable toma un determinado valor. Si la variable es
politmica se utiliza la prueba de bondad de ajuste, es decir, si las proporciones observadas o
empricas se ajustan a una determinada distribucin terica (Chi cuadrado).
Prueba Binomial para una muestra
La prueba Binomial permite averiguar si una variable dicotmica sigue o no un determinado
modelo de probabilidad, es decir permite contrastar la hiptesis de que la proporcin observada de
aciertos se ajusta a la proporcin terica de una distribucin Binomial. En el SPSS si el tamao de
muestra es pequeo, es decir menor o igual a 25 datos use la prueba Binomial, si por el contrario
trabaja con grandes muestras, es decir mayor de 25 utiliza la distribucin normal.
Ejemplo: Usando la data que ofrece el SPSS Datos de empleados.sav. Asumiendo que el 70% de
los empleados de los EEUU es de raza blanca, se quiere saber si en la muestra de esta entidad
bancaria de donde provienen los datos de este ejemplo; este % se mantiene (se utilizar la variable
minora (clasificacin tnica))
Pasos: Analizar<pruebas no paramtricas<Binomial<pasar la variable a estudiar<en contratar
variable introducir el porcentaje .70) <aceptar

Resultados
El SPSS toma como categora de referencia la correspondiente al primer caso del archivo de datos.
En nuestro ejemplo el primer caso le corresponde el cdigo 0, la categora de referencia es la
categora minora = no es decir raza blanca. Las hiptesis a contrastar son:
Ho: m i orn i a0 0.7
Ha: m i orn i a0 0.7
Prueba binomial

Categora
Clasificacin
de minoras

Grupo 1
Grupo 2
Total

Proporcin
observada

No (raza blanca)

370

.8 (0.78)

S (raza de color)

104
474

.2
1.0

Prop. de
prueba
.7

Sig. asintt.
(unilateral)
.000(a)

a Basado en la aproximacin Z.
La proporcin de casos en la categora de referencia es 0.78 (370/474) y la proporcin de prueba
es 0.70
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

144

Ms del 70% de los empleados en la entidad bancaria pertenece a la raza blanca?


Puesto que el nivel crtico (sig 0.000<0.05), rechazamos la Ho, por lo tanto concluimos que la
verdadera proporcin poblacional de sujetos blancos (minora=no) es mayor del 70%.
Ejemplo: Con la misma data del ejemplo anterior datos de empleados.sav que lo tiene el
SPSS
Se desea probar estadsticamente que la proporcin de hombres son mayores al de mujeres de los
empleados de un banco respecto a sus tres categoras laborales:
Primero segmentamos archivo en funcin de la categora laboral: comparar grupos de casos

Ho: la proporcin entre hombres y mujeres no difieren

G ner o

Dir ect ivo

G ner o

1
2

M asculino
Fem enino

M asculino

1
2

M asculino
Fem enino

Asymp. Sig.
( 2- t ailed)

Segur idad

G r oup
G r oup
Tot al
G r oup
Tot al
G r oup
G r oup
Tot al

Test Pr op.

G ner o

O bser ved
Pr op.

Cat egor a labor al


Adm inist r at ivo

C at egor y

Bi nom i al Test

157
206
363
27
27
74
10
84

. 43
. 57
1. 00
1. 00
1. 00
. 88
. 12
1. 00

. 50

. 012a

. 50

. 000a

. 50

. 000a

a. Based on Z Appr oxim at ion.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

145

Conclusin:
Dado que el Sig para todos las categoras es menor del 5%, entonces decimos al nivel de
significancia del 5% que la categora laboral si difiere en todos los casos con respecto al gnero,
siendo al nivel administrativo la proporcin de mujeres es ms alta (57%) con respecto a los
hombres, sin embargo sucede lo contrario a nivel directivo la proporcin de hombres es ms alta
(88%) con respecto a las mujeres y es ms notable en el personal de seguridad donde el 100% son
hombres.

Prueba de Rachas
Rachas para probar la aleatoriedad (secuencia de casos que se est repitiendo)
Ejemplo
Los artculos que salen de un proceso se clasifican como defectuosos o no defectuosos. Se tuvo la
siguiente sucesin n de artculos observados en el tiempo.
DNNNNNNDDNNNNNNDDDNNNNNDNNNDDNNNDD
Sugieren estos datos una falta de aleatoriedad de defectuosos o no defectuosos?
Ho: existe aleatoriedad
Ha: No existe aleatoriedad

Aadir nuevo nombre


Pedir la prueba de Rachas para ver la aleatoriedad:

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

146

Prueba de rachas
ARTI CULO S.
RECO DI F
Valor de pr ueba a
Casos < Valor de pr ueba
Casos >= Valor de
pr ueba
Casos en t ot al
Nm er o de r achas
Z
Sig. asint t . ( bilat er al)

2
11
23
34
11
- 1. 751
. 080

a. Mediana

Como el nivel de significancia es 0.08, no podemos rechazar Ho, concluimos que si existe
aleatoriedad.
Prueba de Kolmogorov
Sirve para contrastar la hiptesis nula de que la distribucin de una variable se ajusta a una
determinada distribucin terica de probabilidad. A diferencia de las anteriores pruebas esta ha
sido diseada para evaluar el ajuste de variable categrica. La prueba de Kolmogorov tambin se
adapta a situaciones en la que interesa evaluar a situaciones de ajuste cuantitativo.
Ejemplo: Con la misma data datos de empleados.sav usar la variable Salario inicial
Ho: Las puntaciones de salario inicial se ajustan a una distribucin normal
Ha: Las puntaciones de salario inicial no se ajustan a una distribucin normal
Prueba de Kol mogorov- Smi rnov par a una muest ra
N
Par met r os nor m ales a, b

Dif er encias ms
ext r emas

Media
Desviacin t pica
Absolut a
Posit iva
Negat iva

Z de Kolm ogor ov- Smir nov


Sig. asint t . ( bilat er al)

Salar io inicial
474
$17, 016. 09
$7, 870. 638
. 252
. 252
- . 170
5. 484
. 000

a. La dist r ibucin de cont r ast e es la Nor mal.


b. Se han calc ulado a par t ir de los dat os.

Sig 0.000 < 0.05 por lo tanto rechazamos la Ho, es decir al nivel de significancia del 5%
concluimos que los datos no siguen una distribucin normal.
Ejemplo: (archivo autoaccidentes accidents.sav) base de datos sobre el n de accidentes
automovilsticos por conductor, as tambin como su edad y gnero. Cada caso representa un
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

147

conductor o chofer y que adems registra el n de accidentes en los 5 aos. Se desea probar que el
n de accidentes sigue una distribucin de Poisson (Alpha = 1%)
Ho: la variable sigue una distribucin de Poisson
(Poisson son para ocurrencias raras)
O ne- Sampl e Kol mogorov- Smi r nov Test

N
Poisson Par am et er
Most Ext r em e
Dif f er ences

a, b

Mean
Absolut e
Posit iv e
Negat ive

Kolm ogor ov- Sm ir nov Z


Asym p. Sig. ( 2- t ailed)

nmer o de
accident es
ms all de
5 aos
500
1. 72
. 065
. 065
- . 041
1. 460
. 028

a. Test dist r ibut ion is Poisson.


b. Calculat ed f r om dat a.

Los datos no se ajustan a una distribucin de Poisson


Es bueno reconsiderar pues sabemos que debe seguir una distribucin de Poisson, sera bueno
discernir por gnero.
Trabajar un Spli file (segmentar archivo)

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

148

Estadstica no paramtrica

Prueba de Kolmogorov-Smirnov para una muestra

sexo del asegurado


Masculino

nmero de
accidentes
ms all de 5
aos
250
1.98

N
Parmetro de Poisson(a,b)
Diferencias ms extremas

Media
Absoluta

.047
.047

Positiva
Negativa

-.033

Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)
N

Femenino

Parmetro de Poisson(a,b)
Diferencias ms extremas

.750
.627
250
1.47
.074

Media
Absoluta
Positiva

.074

Negativa

-.042

Z de Kolmogorov-Smirnov
Sig. asintt. (bilateral)

1.164
.133

a La distribucin de contraste es la de Poisson.


b Se han calculado a partir de los datos.

Para los dos casos el nivel de significancia es mayor del 0.05 por lo tanto no podemos rechazar la
Ho, por lo tanto demostramos que la variable sigue una distribucin de Poisson

7.4 Prueba Chi cuadrada


La prueba Chi-Cuadrada es una de las pruebas ms frecuentemente utilizadas para el contraste de
variables cualitativas, aplicndose para comparar si dos caractersticas cualitativas estn
relacionadas entre s, si varias muestras de carcter cualitativo proceden de igual poblacin o si los
datos observados siguen una determinada distribucin terica.
Para su clculo se calculan las frecuencias esperadas para compararlas con las observadas en la
realidad. Se calcula el valor del estadstico
O
e

Valor observado
Valor esperado =

, como:

e) 2

(o
e

; donde

to ta lfila x to ta lco lu mn a
to ta lg en era l

Supngase que en una determinada muestra se observan una serie de posibles sucesos E 1, E2, E3, . .
. , EK, que ocurren con frecuencias O1, O2, O3, . . ., OK, llamadas frecuencias observadas y que,
segn las reglas de probabilidad, se espera que ocurran con frecuencias e 1, e2, e3, . . . ,eK llamadas
frecuencias tericas o esperadas. Se desea saber si las frecuencias observadas difieren
significativamente de las frecuencias esperadas.
2

mide el grado de acuerdo entre frecuencias observadas y esperadas, suponiendo que Ho es


verdadera.
Est conformada por una familia de curvas asimtricas donde una es diferente de otra en funcin
de los grados de libertad. A medida que aumentan los grados de libertad las curvas son ms
extendidas a la derecha, as:

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

149

Tomado de Design and Analysis of Experiments in


Psychology and Education, por E. F. Lindquist. Derechos
reservados 1953 Houghton Mifflin Company

.
Las aplicaciones ms importantes de la distribucin Chi cuadrado, son:
Con una sola variable: Prueba de bondad de ajuste, ejemplo: prueba de normalidad
Con dos variables:
Prueba de independencia
Prueba de homogeneidad de poblaciones.
Cuando consideramos que los valores de una tabla han sido extrados de una poblacin, entonces
nos interesara probar las siguientes dos hiptesis:
La prueba de la Independencia, que se efecta para probar si hay asociacin entre las variables
categricas A y B
La prueba de Homogeneidad, que es una generalizacin de la prueba de igualdad de dos
proporciones. En este caso se trata de probar si para cada nivel de la variable B, la proporcin con
respecto a cada nivel de la variable A es la misma.
7.4.1 La prueba de la independencia
Permite determinar si dos variables categricas son independientes (no estn asociadas o no
estn relacionadas) cuando ambas se han medido en la misma unidad de anlisis.
Las n unidades de anlisis se clasifican en categoras mutuamente excluyentes de modo que las
frecuencias se presentan en una tabla de contingencia bivariada o de doble entrada o tabla de f
filas x c columnas.
Los totales marginales no estn controlados por el investigador.
Si designamos las columnas por r y las filas o renglones por k, se tendr una tabla de r x k.
Los grados de libertad sern iguales a n = (r-1)(k-1), as que en una tabla de "2 x 2", los grados
de libertad son: (2-1)(2-1)= 1 G.L.; en la tabla "3 x 4" ser (3-1)(4-1) = 6 G.L.
Si se tuviera los niveles de un solo criterio, tambin se utiliza la Chi- cuadrado, y los grados de
libertad es igual al nmero de niveles menos uno (n-1); el valor esperado para cada frecuencia es
el correspondiente al promedio.
Pasos para la prueba de hiptesis:
1. Hiptesis estadsticas:
Ho: Las dos variables categricas son independientes
(Es decir, no hay asociacin entre ellas)
Ha: Las dos variables categricas estn relacionadas
(Es decir, son dependientes)
2. Nivel de significancia:

= 0.5 0.01 0.10, etc.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

150

Estadstica no paramtrica

3. Funcin Pivotal:

(o

e)

4. Regiones:

5. Valor de la Chi cuadrada experimental:


6. Decisin: La regla de decisin consiste en rechazar la hiptesis nula a un nivel de
significacin si el valor calculado de la estadstica de prueba es mayor que el valor crtico de
extremo superior de una distribucin Chi- Cuadrada.
7. Conclusin
Ejemplo 1
La tabla siguiente muestra los resultados de un estudio en el que se clasificaron en forma cruzada
100 jvenes, en edad escolar, de acuerdo con el grado de delincuencia y el contacto con los padres
durante los ratos libres. Proporcionan estos datos evidencia suficiente como para indicar que las
dos variables estn relacionadas? sea = 0.05
Tiempo libre compartido
con los padres
Alto
Bajo

Delincuente
10
41

No
delincuente
29
20

Total
39
61

Ho: El grado de delincuencia es independiente del tiempo libre que comparten los padres con
sus hijos
Ha: El grado de delincuencia depende del tiempo libre que comparten los padres con sus hijos
Nivel de significancia:

= 0.5

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

151

Estadstica no paramtrica

Funcin Pivotal:

(o e)
e

Valor observado

Valor esperado =

to ta lfilax to ta co
l lu mn a
to ta l

Regiones:

Pasos para calcular el valor experimental


e11

3 9* 5 1
1 9.9
100
(1 0 1 9.9) 2
1 9.9

e12
( 2 9 1 9.1) 2
1 9.1

3 9* 4 9
1 9.1
100
( 4 1 3 1.1) 2
3 1.1

2
exp

e21

6 1* 5 1
3 1.1
100

( 2 0 2 9.9) 2
2 9.9

e22

6 1* 4 9
2 9.9
100

1 6.4 5 2

Valor experimental: 2 1 6.4 5 2


Decisin: El valor experimental es mayor (16.452 > 3.84) que el valor terico, por lo tanto
rechazamos la hiptesis nula.
Valor de p exacto da el SPSS (p=,000)
Conclusin: Al nivel de significancia del 1% podemos concluir que el grado de delincuencia
depende del tiempo libre que comparten los padres con sus hijos (p=,000).
Reporte en SPSS
1

Base de datos

2
Ponderar casos: Datos< Ponderar casos <ponderar casos mediante<pasar la variable
frecuencia< aceptar

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

Pedir la prueba Chi cuadrado

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

152

Cap. VII

153

Estadstica no paramtrica

Reporte
Tabla de contingencia Tiempo libre compartido *
DELINCUENCIA

Recuento

Tiempo libre ALTO


compartido BAJO
Total

DELINCUENCIA
NO
DELINCUENTE DELINCUENTE
10
29
41
20
51
49

Total
39
61
100

Prueba de hiptesis

Decisin: Como el valor Sig = 0.000 < 0.05, la prueba es significativa; esto es el grado de
delincuencia depende del tiempo invertido por los padres en sus hijos. Nota: no se puede hacer una
inferencia pues los datos pertenecen a una muestra no probabilstica.
Ejemplo 2.
Con la data que se encuentra
en el SPSS encuesta general USA 1991.sav encontrar si existe
alguna relacin entre el nivel de felicidad y la variable sexo

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

154

Estadstica no paramtrica

Solucin:
Abrir el archivo del SPSS encuesta general USA 1991.sav
Analizar<estadsticos descriptivos<tablas de contingencia

Reporte del SPSS:


Tabl a de cont i ngenci a Sexo del encuest ado * Ni vel de f el i ci dad
Nivel de f elicidad

Sexo del encuest ado

Hom br e

Mujer

Tot al

Recuent o
% de Sexo del
encuest ado
Recuent o
% de Sexo del
encuest ado
Recuent o
% de Sexo del
encuest ado

Muy f eliz
206

Bast ant e f eliz


374

No
dem asiado
f eliz
53

32. 5%

59. 1%

8. 4%

100. 0%

261

498

112

871

30. 0%

57. 2%

12. 9%

100. 0%

467

872

165

1504

31. 1%

58. 0%

11. 0%

100. 0%

Tot al
633

En el grfico de barras agrupadas observamos que al comparar el nivel de felicidad de hombres


frente a mujeres, se encuentra un mayor porcentaje a favor de los hombres, sin embargo la
diferencia es poca, al realizar la prueba de hiptesis comprobaremos si esta pequea diferencia es
significativa o no

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

155

Estadstica no paramtrica
Nivel de felicidad

100,0%

Muy feliz
Bastante feliz
No demasiado feliz
0,30%

0,33%

Recuento

80,0%

60,0%

0,57%

40,0%

0,59%

20,0%

0,13%
0,08%

0,0%
Hombre

Mujer

Sexo del encuestado


Pruebas de chi - cuadrado

Chi- cuadr ado de Pear son


Razn de ver osim ilt udes
Asociacin lineal por
lineal
N de casos vlidos

Valor
7. 739a
7. 936
4. 812

2
2

Sig. asint t ica


( bilat er al)
. 021
. 019

. 028

gl

1504

a. 0 casilas ( . 0%) t ienen una f r ecuencia esper ada inf er ior a 5.


La f r ecuencia m nim a esper ada es 69. 44.

Decisin: Al nivel de significancia del 5% concluimos que existe alguna relacin significativa
(sig=0.021) entre las variables, a favor de los varones, esto quiere decir que en mayor porcentaje
los varones presentan ms altos niveles de felicidad.
Nota: Existen tres factores que pueden alterar el resultado de las pruebas de asociacin e
independencia como lo son el tamao de la muestra, la fidelidad de los datos y el sesgo muestral;
antes de sacar alguna conclusin es necesario revisar estos factores ya que cualquiera de ellos
puede distorsionar severamente el resultado.
7.4.2 Prueba de la Homogeneidad
Supngase que en una determinada muestra se observan una serie de posibles sucesos E 1, E2, E3, . .
. , EK, que ocurren con frecuencias o 1, o2, o3, . . ., oK, llamadas frecuencias observadas y que,
segn las reglas de probabilidad, se espera que ocurran con frecuencias e1, e2, e3, . . . ,eK llamadas
frecuencias tericas o esperadas. Se desea saber si las frecuencias observadas difieren
significativamente de las frecuencias esperadas.
Ejemplo: Se presupone que la prevalencia de cncer se incrementa en el intervalo de edad 51 a 65
aos, mientras que entre los intervalos de edad de 36 a 50 y de 20 a 35 la proporcin no es tan alta;
se obtuvo una muestra observacional sobre un registro de pacientes que arrojan la siguiente tabla:

N de casos

20 - 35
19

EDAD
36 - 50
25

51 - 65
76

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

156

Deseamos contrastar si la prevalencia del n de casos de cncer es homognea a los intervalos de


edad o alternativamente que las proporciones de enfermos guardan una determinada relacin a 1,
1, 4 respectivamente, es decir que la proporcin de individuos en el ltimo intervalo de edad es el
doble que en el conjunto de los dos intervalos de edad.
Ho: las proporciones de individuos esperadas con cncer se ajustan para cada intervalo de edad
Ha: las proporciones de individuos esperadas con cncer no se ajustan para cada intervalo de edad
Pasos en el SPSS:
1. Dado que la data se encuentra en una tabla de frecuencia, la forma de introducir es la siguiente:
las edades se codifican (1=20-35), (2=36-50), (3=51-65), entonces en el SPSS en vista de datos
ingresamos la variable edad con sus cdigos respectivos, para la variable N de casos la respectiva
frecuencia para cada intervalo de edad, luego hacer como se indica a continuacin:
Datos<ponderar casos<ponderar casos mediante<pasar N_casos<aceptar

2. Analizar<pruebas no paramtricas<Chi cuadrado<seguir los pasos observando la siguiente


figura.

Reporte:

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

157

(df = grados de libertad)


Se puede observar que la 2 e x pe r i me n t a l 1.5 0 t2a b u l a r 5.9 9, por lo tanto estamos aceptando que las
proporciones de individuos con cncer si se ajustan a la proporcin de cada intervalo de edad.
Nota: se llega a la misma conclusin si observamos el Sig de la prueba: Sig =0.472 > 0.05 por lo
tanto no podemos rechazar la Ho.
Nota: En el caso que se rechaza la hiptesis nula cuando se realiza la prueba Chi cuadrado
Ho: No hay relacin entre las variables en estudio.
Entonces el prximo paso es determinar el grado de asociacin de las dos variables categricas,
para ello se usan las llamadas medidas de asociacin como:
Anlisis para medir la asociacin de variables nominal por nominal
Anlisis para medir la asociacin de variables ordinal por ordinal
Salida en el SPSS (para pedir la prueba, siga los siguientes pasos)
Analizar>estadsticos descriptivos>tablas de contingencia>pasar las variables (una a filas y la
otra a columnas)>clip en estadsticos>seleccionar el estadstico correspondiente>
continuar>aceptar

7.5 Anlisis para variables de nivel nominal por nominal


Coeficiente de contingencia C
Este es un coeficiente de correlacin para datos nominales colocados en una tabla de contingencia
(doble entrada) con un diseo mayor que 2x2. Con est se trata de determinar el grado de
asociacin, comparando varios grupos o categoras, y puede calcularse utilizando la siguiente
definicin:

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

158

Estadstica no paramtrica
2

Donde:
C = Coeficiente de contingencia
2
= Valor calculado de Chi Cuadrada.
n
nmero total de casos (tamao muestral)
El valor de C vara entre 0 y 1
C 0, significa que no hay asociacin entre las variables
C>.20, indica una buena asociacin entre las variables; sin embargo hay que tomar tambin en
consideracin el tamao de la tabla o de los datos.
Ejemplo de aplicacin (Pagano, 2009. Pg. 485)
Un investigador de la sexualidad humana quiere determinar si existe una relacin entre el gnero y
la hora del da preferida para tener relaciones sexuales. Se realiza una encuesta cuyos resultados
aparecen en la siguiente tabla; los datos de las entradas son la cantidad de individuos que prefieren
la maana, la tarde o la noche:
Gnero
Maana Tarde
Masculino
46
24
Femenino
28
21
Total
74
45

Noche
20
42
62

Total
90
91
181

Paso 1 Aplicando la definicin de la distribucin

vista anteriormente, se obtiene

= 12.380

Paso 2 Se calcula el coeficiente de contingencia C utilizando la formula:


2

1 2.3 8
0.2 5 3
1 8 1 1 2.3 8

Salida en el SPSS (para pedir la prueba, siga los siguientes pasos)


Analizar>estadsticos descriptivos>tablas de contingencia>all marque la prueba que corresponde
a su problema)
Medidas simtricas

Nominal por
Coeficiente de
nominal
contingencia
N de casos vlidos

Sig.
Valor
aproximada
,253
,002
181

Prueba de significancia
La significancia estadstica del coeficiente de contingencia se puede obtener a partir del Sig.
Aproximada ,002 <,05; por lo tanto el Coeficiente C es significativo, es decir existe relacin entre
el gnero y la hora del da preferida para tener relaciones sexuales, siendo el sexo masculino su
preferencia por las maanas mientras que el sexo femenino prefiere por las noches.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

159

Estadstica no paramtrica

Requisitos para el uso del coeficiente de contingencia:


1.
2.

Datos nominales.
Muestreo aleatorio. Con la finalidad de comprobar la significancia estadstica del
coeficiente de contingencia, la muestra se debe obtener en forma aleatoria.

Ejemplo de aplicacin
Se desea investigar la posible relacin entre la categora laboral que ocupa el trabajador y si
considera su vida excitante o aburrida. Emplear la data del SPSS encuesta general USA
1991.sav
Paso 1
Los datos obtenidos al realizar este estudio se concentran en una tabla de contingencia,
de la siguiente forma:
Tabla de contingencia Categora ocupacional * Su vida es excitante o aburrida?
Su vida es excitante o aburrida?
Categora
ocupacional

Directivo o profesional
liberal
Empleado tcnico,
administrativo o comercial

Servicios

Agricultura, forestal y
pesca
Produccin de precisin,
manufactura o reparacin
Operario, fabricacin y
mano de obra en general
Total

Recuento
% de Categora
ocupacional
Recuento
% de Categora
ocupacional

Excitante
129

Rutinaria
78

Aburrida
3

Total
210

61.4%

37.1%

1.4%

100.0%

125

156

13

294

42.5%

53.1%

4.4%

100.0%

56

73

135

41.5%

54.1%

4.4%

100.0%

16

25

64.0%

36.0%

.0%

100.0%

38

65

109

34.9%

59.6%

5.5%

100.0%

45

83

135

33.3%

61.5%

5.2%

100.0%

409

464

35

908

45.0%

51.1%

3.9%

100.0%

Recuento
% de Categora
ocupacional
Recuento
% de Categora
ocupacional
Recuento
% de Categora
ocupacional
Recuento
% de Categora
ocupacional
Recuento
% de Categora
ocupacional

Paso 2
41.829

Aplicando la definicin de la distribucin

Paso 3

Se calcula el coeficiente de contingencia C utilizando la formula:


2

vista anteriormente, se obtiene

4 1.8 2 9
0.2 1 0
9 0 8 4 1.8 2 9

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

160

Estadstica no paramtrica

Salida en el SPSS
Medi das si mt ri cas
Valor
Nom inal por
nom inal
N de casos vlidos

Coef icient e de
cont ingencia

Sig.
apr oxim ada

. 210

. 000

908

a. Asumiendo la hipt esis alt er nat iva.


b. Em pleando el er r or t pico asint t ico basado en la hipt esis
nula.

Prueba de significancia
La significancia estadstica del coeficiente de contingencia se puede obtener a partir de la
magnitud de la 2 obtenida con la siguiente regla de decisin:
Si

2
cr i t

, en to n cesC es significativo

Para nuestro ejemplo la 2 tabular o crtica con 10 gl. y al nivel de significancia de 5% es 18.31,
entonces dado que el valor calculado es de 41.829, esto es: 41.829 18.31, podemos concluir que
el coeficiente de contingencia calculado es estadsticamente significativo, por lo que se rechaza la
hiptesis nula; por lo que podemos concluir que se considera si la vida es excitante o aburrida esta
relacionada a la categora laboral que ocupa el trabajador, es decir se puede observar que la vida es
ms excitante para los profesionales que ocupan cargos directivos o profesionales liberales de
igual manera para aquellos que trabajan en agricultura forestal y pesca.
Llegamos a la misma conclusin observando el Sig=,000<0.05 que se obtiene al pedir el anlisis
del coeficiente de contingencia
Coeficiente de correlacion

(phi) para un diseo 2 x 2

Cuando ambas variables son nominales y dicotmicas, es posible determinar el grado de


asociacin entre las variables de inters. Este coeficiente ( ) tambin es un caso particular del
coeficiente de correlacin de Pearson, y se utiliza con cierta frecuencia, aunque no
necesariamente en este aspecto, en la elaboracin y anlisis de pruebas. En captulos posteriores
se considera la independencia o dependencia de dos variables en una nuestra determinada; cuando
se haga este anlisis, a partir de las hiptesis establecidas, si la conclusin estadstica a la que se
llega es la existencia de una dependencia, el anlisis estadstico ms lgico a seguir es conocer el
grado de asociacin que implica la dependencia entre las variables o las muestras. Para conocer
esto, necesitamos un nmero, y este nmero nos lo indicara el coeficiente de correlacin ( ),
pero recurdese que est supeditado al diseo 2 x 2, al tamao de muestra y a la proporcin de las
variables dicotomizadas. Cuando el nmero de casos en una variable es igual al de la otra variable,
el coeficiente ( ) tendr el mximo valor de 1; cuando los totales marginales son diferentes no
se alcanzara el mximo valor de 1.

Coeficiente

ad bc
(a b)(a c)(b d )(c d )

Ejemplo de aplicacin
Se desea establecer una escala de medicin de cierto rasgo de agresin en adultos. Pero existe una
interrogante, que consiste en saber si hay relacin entre el sexo de la persona y la respuesta
(dicotmica) ante una situacin que afecte su actitud hacia la agresin. Por lo que a 400 personas,
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

161

Estadstica no paramtrica

200 del sexo masculino y 200 del sexo femenino, se les emplea para establecer dicha escala y se
analizan las respuestas, obtenindose lo siguiente: de las personas del sexo masculino 160 estn de
acuerdo y 40 en desacuerdo; de las del sexo femenino 40 estn de acuerdo y y 160 no lo estn.
Calcule el coeficiente ( ) de correlacin y concluya, considerando los resultados obtenidos.
Solucin:
Paso 1 Se acomodan los datos obtenidos en una tabla de doble entrada, de dos reglones y dos
columnas (tabla de contingencia 2x2)
Masculino
Femenino
Total

Acuerdo
160 (a)
40 (c)
200

Paso 2 se aplica la definicin de (

Desacuerdo
40 (b)
160 (d)
200

Total
200
200
400

ad bc

(1 6 0
)(1 6 0
) (4 0)(4 0)

(a b)(a c)(b d )(c d )

(2 0 0
)(2 0 0
)(2 0 0
)(2 0 0
)

0.6 0

= 0.60
Salida en el SPSS
Medidas simtricas
Valor Sig. aproximada
Nominal por
nominal

Phi

,600

,000

V de Cramer

,600

,000

N de casos
vlidos

400

Prueba de significancia de
Para poder comprobar la significancia de dicho coeficiente se utilizar la siguiente definicin:
2

Donde:
n
=
=
2
=

Nmero total de casos, n =400


0.60
Valor Chi Cuadrado

Sustituyendo los valores anteriores se obtiene:

(4 0 0
)(0.6 0) 2

144

144

Este resultado se contrasta al valor crtico de ji cuadrada, calculado mediante la siguiente regla de
decisin R.D:
2
Si 2
c r i ,t en to n ces significativa
El valor crtico de la 2 est en funcin de los grados de libertad y el nivel de significancia
establecido con anterioridad.
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

162

Estadstica no paramtrica

Para un diseo de 2x2, los grados de libertad ser 1, entonces g.l. = 1


2
cri t

2
(5%)

3.84, por lo tanto

prueba es significativa, esto es

2
e xpe r i me nt al

1 4 4, entonces podemos concluir que la

=0.46 es significativo!

Requisitos de uso de
A fin de utilizar adecuadamente el coeficiente
como medida de asociacin entre las variables x
e y, dicotomizadas, se deben tomar en cuenta las siguientes condiciones:
1. Datos nominales. Las variables x e y, deben ser nominales y dicotomizables, ya que
nicamente se requeriran las frecuencias observadas (el nmero de veces que ocurren en
cierta nominacin).
2. Tabla de contingencia 2x2. Los datos deben poder colocarse en un diseo 2x2 (dos renglones dos columnas). Es inadecuado aplicar el coeficiente donde se comparan varias grupos o
categoras.
3. Muestreo aleatorio. Para poder comprobar la significancia y validez de
, la muestra en
estudio debe haber sido extrada en forma aleatoria (todos los elementos de la poblacin deben
tener la misma posibilidad de ser escogidos).
4. Cuando la muestra en estudio es pequea (un criterio es que la frecuencia observada, en dos
o ms casillas, sea menor que 10). Se utilizar la definicin de 2 , pero con la correccin de
Yates, tambin llamada de Pirie-Handem, que consiste en lo siguiente:
2

n a d b c 0.5

(a b)(a c)(b d)(c b)


Donde ad bc = valor absoluto de la diferencia entre ad y bc.
Lambda. Medida de asociacin que refleja la reduccin proporcional en el error cuando se
utilizan los valores de la variable independiente para pronosticar los valores de la variable
dependiente. Un valor igual a 1 significa que la variable independiente pronostica
perfectamente la variable dependiente. Un valor igual a 0 significa que la variable
independiente no ayuda en absoluto a pronosticar la variable dependiente.
Coeficiente de incertidumbre. Medida de asociacin que indica la reduccin proporcional
del error cuando los valores de una variable se emplean para pronosticar valores de la otra
variable. Por ejemplo, un valor de 0.83 indica que el conocimiento de una variable reduce en
un 83% el error al pronosticar los valores de la otra variable. SPSS calcula tanto la versin
simtrica como la asimtrica del coeficiente de incertidumbre.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

163

Estadstica no paramtrica

7.6 Anlisis para variables de nivel tipo ordinal por ordinal

Coeficiente Gamma
Medida de asociacin simtrica entre dos variables ordinales cuyo valor siempre est comprendido
entre menos -1 y 1. Los valores prximos a 1, en valor absoluto, indican una fuerte relacin entre
las dos variables. Los valores prximos a cero indican que hay poca o ninguna relacin entre las
dos variables.
d de Somers
La d de Somers es importante pues se puede pronosticar las categoras de columna a partir de las
categoras de fila; se usa para variables ordinales (filas y columnas). La d de Somers es una
extensin asimtrica de gamma.
Ejemplo:
Se quiere establecer la relacin entre las variables ingesta de agua segn el nmero de vasos por
da y si la persona tiene un horario establecido para beber este lquido tan importante para la salud.
La data se recogi haciendo uso de la metodologa de la encuesta y se muestra en la siguiente
tabla.
Tabla de contingencia AGUA * HORARIO

0
3
2

HORARIO
Casi siempre
1
6
16

3
8

Siempre
AGUA

Total

Ninguno
1 - 2 vasos
3 - 5 vasos
6 a ms
vasos

A veces

Total
2
2
5

3
11
23

10

28

11

47

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

164

Estadstica no paramtrica

Medidas direccionales

Valor
Ordinal
d de Somer
por ordinal

Simtrica
AGUA dependiente
HORARIO dependiente

Error tp.
asint.(a)

T
aproximada(b)

Sig.
Aproximada

-.100

.148

-.669

.503

-.108
-.092

.161
.137

-.669
-.669

.503
.503

a Asumiendo la hiptesis alternativa.


b Empleando el error tpico asinttico basado en la hiptesis nula.
Interpretacin: Cunto ms cercano el valor se encuentre a +1 o -1 mejor correlacin presentar y
su prueba de hiptesis Sig < 0.05
Para nuestro ejemplo la d de Somers presenta un valor de (d = -0.100) con una significancia de Sig
= 0.503. Por lo tanto podemos concluir que no existe ningn tipo de asociacin entre las variables.
Tau-b de Kendall
Medida no paramtrica de la correlacin para variables ordinales o de rangos que tiene en
consideracin los empates. El signo del coeficiente indica la direccin de la relacin y su valor
absoluto indica la magnitud de la misma, de tal modo que los mayores valores absolutos indican
relaciones ms fuertes. Los valores posibles van de -1 a 1, pero un valor de -1 o +1 slo se puede
obtener a partir de tablas cuadradas.
Tau-c de Kendall
Medida no paramtrica de asociacin para variables ordinales que ignora los empates. El signo del
coeficiente indica la direccin de la relacin y su valor absoluto indica la magnitud de la misma,
de tal modo que los mayores valores absolutos indican relaciones ms fuertes. Los valores posibles
van de -1 a 1, pero un valor de -1 o +1 slo se puede obtener a partir de tablas cuadradas.

7.7 Anlisis para variables nominal por intervalo:


Coeficiente Eta
Cuando una variable es categrica y la otra es cuantitativa, seleccione Eta. La variable categrica
debe codificarse numricamente. Es una medida de asociacin cuyo valor siempre est
comprendido entre 0 y 1. El valor 0 indica que no hay asociacin entre las variables de fila y de
columna. Los valores cercanos a 1 indican que hay gran relacin entre las variables. Eta resulta
apropiado para una variable dependiente medida en una escala de intervalo (por ejemplo, ingresos)
y una variable independiente con un nmero limitado de categoras (por ejemplo, sexo). Valores
de eta prximos a uno indicarn mucha dependencia. El cuadrado de este coeficiente (eta) puede
interpretarse como la proporcin de variabilidad de la variable dependiente, Y, explicada por los
valores de la independiente, X, por lo que puede utilizarse como medida del grado de asociacin
existente entre las variables en cuestin. (Ferran A. M, 1996).
Ejemplo:
Se quiere relacionar el promedio de los alumnos segn el saln al que pertenecen. Lo que se
pretende relacionar es el promedio de los estudiantes segn el saln al que pertenecen, y es que
probablemente el profesor de alguno de estos dos salones A o B tenga una mejor didctica y haga
obtener a sus estudiantes un mejor promedio.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

165

Estadstica no paramtrica

Para realizar este anlisis usamos el coeficiente Eta, pues se trata de relacionar una variable
dependiente numrica asociada a una independiente categrica nominal.
Pasos en el SPSS: analizar<estadsticos descriptivos<tablas de contingencia<pasar las variables
como se observa en la figura anterior<pedir el coeficiente Eta<continuar<aceptar
Salida del SPSS
Tabla de contingencia SALON * PROMEDIO
Recuento
PROMEDIO
14,00

15,00

16,00

17,00

18,00

19,00

Total

SALN A

11

SALN B

12

23

Total

Medidas direccionales
Valor
Nominal por intervalo

Eta

SALON dependiente

,846

PROMEDIO dependiente

,787

El coeficiente Eta, que se obtiene en el cuadro de salida presenta dos sentidos: Un primer caso
considerando al saln como variable dependiente, para este caso se obtiene un Eta igual a 0.846.
Un segundo caso, considerando al promedio, como la variable dependiente, para lo cual se obtiene
un Eta igual a 0.787. En nuestro caso la variable promedio se considera como dependiente, por lo
tanto Eta= 0.78, lo que indica que el promedio depende del saln donde provienen los alumnos, en
otras palabras alguno de los profesores (A o B) utilizan una mejor didctica lo cual hace obtener
un mejor promedio en sus estudiantes (saln B).
El cuadrado de Eta, se interpreta como la proporcin de la variabilidad de la variable dependiente
Y, explicada por los valores de la independiente, X. En nuestro ejemplo el cuadrado del
coeficiente explica
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

166

Eta2 = (,787)2 = 0.619 explica la variacin del promedio de los estudiantes en funcin al saln al
que pertenecen, la varianza de los datos que dependen del saln y que hacen predecir el promedio.
El grfico bivariado que ofrece el SPSS es:

7.8 Otras pruebas


Kappa.
La opcin kappa de Cohen mide el acuerdo entre las evaluaciones de dos jueces cuando ambos
estn valorando el mismo objeto. Un valor igual a 1 indica un acuerdo perfecto. Un valor igual a 0
indica que el acuerdo no es mejor que el que se obtendra por azar. Kappa slo est disponible para
las tablas cuadradas (tablas en las que ambas variables tienen el mismo nmero de categoras).
(Cohen, 1960).
Ejemplo:
La tabla siguiente ofrece una medida del grado de acuerdo existente entre dos observadores o
jueces al evaluar a 200 pacientes neurticos segn el tipo de neurosis padecida.
Resultado obtenido por dos jueces al diagnosticar una muestra de 200 pacientes
Segundo diagnstico
Primer
diagnstico Fbica Histrica Obsesiva Depresiva
Fbica
20
8
6
1
Histrica
7
36
14
4
Obsesiva
1
8
43
7
Depresiva
2
6
4
33
Total
30
58
67
45
En el SPSS: Primero ponderar casos.
Datos<ponderar casos<ponderar casos mediante<pasar la variablen_casos<aceptar
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

167

Estadstica no paramtrica

Aceptar

Pedir el coeficiente Kappa: analizar<estadsticos descriptivos<tablas de contingencia<pasar las


variables <pedir el coeficiente Kappa<continuar<aceptar
Medidas simtricas
Sig.
Valor
Medida de acuerdo

Kappa

N de casos vlidos

Error tp. asint.

,538

,046

T aproximada

aproximada

12,921

,000

200

a. Asumiendo la hiptesis alternativa.


b. Empleando el error tpico asinttico basado en la hiptesis nula.

El valor del estadstico Kappa (,538) y su nivel crtico (Sig aproximada 0.000) por lo tanto se
rechaza la hiptesis nula y concluimos que existe un grado de acuerdo mayor que el esperado por
el azar.
McNemar
Prueba no paramtrica para dos variables dicotmicas relacionadas. Contrasta los cambios en las
respuestas utilizando la distribucin de Chi-cuadrado. Es til para detectar cambios en las
respuestas debidas a la intervencin experimental en los diseos del tipo "antes-despus". Para las
tablas cuadradas de mayor orden se informa de la prueba de simetra de McNemar-Bowker.
Ejemplo
Se quiere estudiar si la aplicacin de un programa ha resultado efectivo en cuanto al mejoramiento
del dficit asertivo, se tom una muestra de agentes comunitarios (ACES) y se les capacit durante
4 meses. Al inicio se tomo un pretest y un postest despus de concluida la capacitacin; los
resultados se muestran en la siguiente tabla:

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

168

Estilo genrico de interaccin social que presentan los


ACES del Asentamiento Humano Virgen del Carmen la
Era, antes y despus de la aplicacin del programa.
Pre test
Pos test
N
%
n
%
Dficit asertivo
8 30.8 3 11.5
Estilo pasivo dependiente
11 42.3 9 34.6
Estilo agresivo
2
7.7
2
7.7
Estilo asertivo
5 19.2 12 46.2
Respecto al estilo genrico que tenan los agentes comunitarios antes de aplicar el programa de
intervencin el 30.8% presentaron un dficit asertivo, mientras que al finalizar el programa slo un
11.5% present este dficit. As tambin se observa que al inicio del programa el 42.31%
presentaban un estilo pasivo dependiente y despus de la aplicacin del programa este porcentaje
disminuy a un 34.6%. Adems el 19.2% de los ACES que alcanzaron un estilo asertivo inicial,
despus de la intervencin este se increment al 46.2%, observando el estilo de interaccin social
agresivo antes y despus de la intervencin el 7.7% se mantuvo aparentemente sin variacin, sin
embargo las dos personas que corresponden a este porcentaje inicial no son las mismas, las dos
personas que presentan esta conducta despus de la intervencin, inicialmente presentaron una
conducta pasiva dependiente.
Comprobacin de hiptesis
La tabla muestra la prueba de McNemar-Bowker (Pardo 2002) prueba no paramtrica de orden
mayor que dos, contrasta los cambios en las respuestas, utilizando la distribucin de Chi cuadrado.
Es til para detectar cambios de respuesta debidas a la intervencin experimental en los diseos
del tipo antes despus), para la relacin del estilo genrico de interaccin social que presentaron
los ACES antes y despus de la aplicacin del programa de intervencin Re hacer la vida, lo que
muestra que la potencia de la prueba (p_value ,014) es inferior al nivel de significacin
considerado ( = ,05), por lo tanto se rechaza la hiptesis nula de igualdad de proporciones y se
concluye que las proporciones de sujetos que participaron en el programa mejoraron su estilo
genrico de interaccin social, demostrndose la efectividad del programa.
Prueba de McNemar-Bowker para el estilo genrico de interaccin social que presentan los ACES
del Asentamiento Humano Virgen del Carmen la Era, antes y despus de la aplicacin del
programa.
Prueba de McNemar-Bowker

Prueba de McNemar-Bowker
N de casos vlidos

Valor

Gl

p-value

12.571

,014

26

Nota: Esta data es extrada de la tesis del Mag. Carlos Campos

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

7.9

Estadstica no paramtrica

169

PRUEBAS PARA DOS MUESTRAS INDEPENDIENTES (NO PARAMTRICAS)

Compara dos grupos de casos en una variable. Se puede trabajar con la prueba U de MannWhitney, la prueba de Kolmogorov Smirnov para dos muestras, la prueba de Moses de reacciones
extremas y la prueba de rachas de Wald-Wolfowitz.
Ejemplo: Se han desarrollado nuevos correctores dentales diseados para que sean ms comodos y
estticos, as como para facilitar un progreso ms rpido en la realineacin de la dentadura. Para
averiguar si el nuevo corrector debe llevarse tanto tiempo como el modelo antiguo, se eligen 10
nios al azar para que lleven este ltimo y otros 10 para que usen el nuevo. Mediante la prueba de
U de Mann-Whitney podra descubrir que de media, los nios que llevan el nuevo corrector tenan
que llevarlo puesto menos tiempo que los que llevaban el antiguo.
Datos: utilice variables numricas que puedan ordenarse.
Supuestos: utilice muestras independientes aleatorias. La prueba U de Mann-Whitney requiere que
las dos muestras probadas sean similares en la forma.
Se utiliza como alternativa a la prueba paramtrica de comparacin de medias de dos muestras
independientes; por lo tanto la escala de medida de la variable dependiente es cuando menos
ordinal. (para pruebas paramtricas no se debe usar las escalas de Likert).
En el SPSS:
U de Mann-Whitney: mezclados los datos de ambas muestras, se procede a ordenarlos de
menor a mayor; el estadstico de contraste es la suma de los rangos de cada grupo.
Reacciones extremas de Moses: se prueba si el rango de una variable ordinal es el mismo del
grupo control y en de comparacin, por lo que los valores son ordenados de forma ascendente.
Z de Kolmogorov-Smirnov: se prueba si la distribucin de una variable, la dependiente, es la
misma en dos grupos.
Rachas de Wald-Wolfowitz: Se ordenan los casos de ambos grupos conjuntamente de menor a
mayor para a continuacin, realizar una prueba de rachas usando como criterio el conjunto de
valores que pertenecen al mismo grupo.

7.10

Prueba de U Man Witney: ejemplo Empleados.sav

Es una excelente alternativa a la prueba T cuando no se cumplen los supuestos de normalidad y


homocedasticidad o cuando los datos son de tipo ordinal o nominal.
Ejemplo: empleados.sav
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

170

Ho: los grupos definidos por la variable minora proceden de poblaciones similares, por lo tanto
con igual promedio de salario inicial
Ha: los grupos definidos por la variable minora proceden de poblaciones distintas, por lo tanto
con diferente promedio de salario inicial

Ranks
Salar io inicial

Clasif icacin de minor as


No
S
Tot al

N
370
104
474

Mean Rank
249. 14
196. 10

Sum of Ranks
92180. 50
20394. 50

Test St at i st i csa
Mann- Whit ney U
Wilcoxon W
Z
Asym p. Sig. ( 2- t ailed)

Salar io inicial
14934. 500
20394. 500
- 3. 495
. 000

a. G r ouping Var iable: Clasif icacin de minor as

Los grupos definidos por la variable minara proceden de poblaciones con distintos promedios
Pruebas de reacciones extremas de Moses Test
Sirve para estudiar si existen diferencias en el grado de dispersin o de variabilidad
Frequenci es
Salar io inicial

Clasif icacin de minor as


No ( Cont r ol)
S ( Exper im ent al)
Tot al

N
370
104
474

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

171

Moses Test
Test St at i st i csa, b
O bser ved Cont r ol
G r oup Span

Sig. ( 1- t ailed)

Tr im med Cont r ol
G r oup Span

Sig. ( 1- t ailed)
O ut ie
l r s Tr im med f r om each End

Salar io inicial
467
. 000
434
. 990
18

a. Moses Test
b. G r ouping Var iable: Clasif icacin de minor as

Outlieres Valores atpicos


Podemos considerar que no se a considerado valores extremos y tomaramos sig=0.990
Por lo tanto rechazamos la Ho

Prueba de Kolmogorov-Smirnov para dos muestras


Esta prueba sirve para contrastar la hiptesis si la variables proceden de la misma poblacin
Frecuenci as
Salar io inicial

Clasif icacin de minor as


No
S
Tot al

N
370
104
474

Est ad st i cos de cont rast ea


Dif er encias ms
ext r emas

Salar io inicial
. 237
. 000
- . 237
2. 134
. 000

Absolut a
Posit iva
Negat iva

Z de Kolm ogor ov- Smir nov


Sig. asint t . ( bilat er al)
a. Var iable de agr upacin: Clasif icacin de minor as

Ho: Son de la misma poblacin


Sig<0.05 rechazamos que los dos grupos comparados difieren significativamente del salario inicial
Wald-Wolfowitz Test
Similar a la prueba de rachas para una muestra, permiten contrastar si los valores provienen de la
misma poblacin,requiere al menos una escala de medida ordinal, es sensible no solamente a la
diferencia de valores poblacionales.
Frequenci es
Salar io inicial

Clasif icacin de minor as


No
S
Tot al

N
370
104
474

Est ad st i cos de cont rast eb, c

Salar io inicial

M nim o posible
Mxim o posibe
l

Nm er o
de r achas
40a
200a

Z
- 16. 576
4. 923

Sig. asint t .
( unilat er al)
. 000
1. 000

a. Hay 25 empat es int er - gr upos que im plican 348 casos.


b. Pr ueba de Wald- Wolf owit z
c. Var iable de agr upacin: Clasif icacin de m inor as

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

172

PRUEBAS PARA VARIAS MUESTRAS INDEPENDIENTES


7.11

Prueba de H de Kruskal_Wallis

Este procedimiento contiene varias pruebas, todas ellas diseadas para analizar datos provenientes
con una variable independiente categrica (con mas de dos niveles que definen mas de dos grupos
o muestras) y una variable dependiente cuantitativa al menos ordinal, en la cual interesa comparar
las muestras
Ejemplo: Archivo Empleados

Directivos y administrativos
Ranks
Salar io inicial

Cat egor a labor al


Adm inist r at ivo
Segur idad
Dir ect ivo
Tot al

N
363
27
84
474

Mean Rank
192. 29
252. 59
428. 04

Test St at i st i csa, b
Chi- Squar e
df
Asymp. Sig.

Salar io inicial
203. 112
2
. 000

a. Kr uskal Wallis Test


b. G r ouping Var iable: Cat egor a labor al

Rechazamos la hiptesis de igualdad de promedios, las poblaciones comparadas difieren del


promedio de salario inicial o sea que hay diferencia entre estas dos categoras laborales.

PRUEBA PARA DOS MUESTRAS RELACIONADAS


Permiten analizar datos con medidas repetidas
7.12

Prueba de Wilcoxon y Signo, Mc Nemar

Wilcoxon y Signo, sirven para contrastar hiptesis sobre igualdad de mediana, Mac Nemar para
contrastar hipo sobre igualdad de proporciones (antes y despus).

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

173

Ranks
N
Salar io inicial Salar io act ual

474a
0b
0c
474

Negat ive Ranks


Posit ive Ranks
Ties
Tot al

Mean Rank
237. 50
. 00

Sum of Ranks
112575. 00
. 00

a. Salar io inicial < Salar io act ual


b. Salar io inicial > Salar io act ual
c. Salar io inicial = Salar io act ual

Los rangos deberan ser iguales (112575)


Test St at i st i csb

Z
Asymp. Sig. ( 2- t ailed)

Salar io inicial
- Salar io
act ual
- 18. 865a
. 000

a. Based on posit ive r anks.


b. Wilcoxon Signed Ranks Test

Rechazamos la hipo de igualdad de promedios son iguales, las variables comparadas difieren
significativamente
Sign Test
Frequenci es
N
Negat ive Dif f er ences a
Posit ive Dif f er ences b
Ties c
Tot al

Salar io inicial Salar io act ual

474
0
0
474

a. Salar io inicial < Salar io act ual


b. Salar io inicial > Salar io act ual
c. Salar io n
i icial = Salar io act ual

Test St at i st i csa

Z
Asymp. Sig. ( 2- t ailed)

Salar io inic ial


- Salar io
act ual
- 21. 726
. 000

a. Sign Test

Concluimos igual
Mac Nemar para variable de tipo (Arch. Fumar y no)
Una muestra aleatoria de 150 estudiantes se someti a un cuestionario de opinin acerca de si
fumar produce cncer al pulmonar. Obtenida la informacin se les dio una conferencia y se les
presento una exposicin llevada a cabo por un equipo de sanidad explicando los peligros de fumar
y se les explico la relacin sobre el efecto de fumar sobre el cncer pulmonar
(se les hizo una encuesta y luego recibieron una charla y se quiere ver que tan fructfera fue esa
charla)
Despus
de
la
conferencia
Antes de la
conferencia NO
SI
Total
NO
43
67 110
SI
10
30 40
150
A partir de estos datos se puede concluir que hay suficiente evidencia de que la conferencia y
exposicin realizada tiene efecto sobre la opinin de la gente acerca de fumar y el cncer pulmonar
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

174

ant es de l a conf erenci a & despues de l a conf erenci a

ant es de la conf er encia


1
2

despues de la
conf er encia
1
2
43
67
10
30

1=no
2=si
Test St at i st i csb

N
Chi- Squar e a
Asym p. Sig.

ant es de la
conf er encia &
despues de la
conf er encia
150
40. 727
. 000

a. Cont inuit y Cor r ect ed


b. M cNem ar Test

Ho: la probabilidad de que la conferencia no tenga efecto sobre la opinin de los estudiantes es
igual a que la probabilidad de que la conferencia si tenga efecto sobre la opinin de los estudiantes
Ha: la probabilidad de que la conferencia es mayor sobre la opinin de los estudiantes
El sig<0.05, rechazamos la Ho por lo tanto concluimos que si existe un efecto estadsticamente
significativo de que la conferencia cambie la opinin de los estudiantes a favor de que el fumar si
produce cncer
NPar Tests
Detecta diferencia en la distribucin de casos a travs de dos variables categricas relacionadas,
los valores distintos se enumeran (es si o es no)
Mar gi nal Homogenei t y Test

Dist inct Values


O f f - Diagonal Cases
O bser ved M H St at ist ic
Mean MH St at ist ic
St d. Deviat ion of M H
St at ist ic
St d. MH St at ist ic
Asym p. Sig. ( 2- t ailed)

ant es de la
conf er encia &
despues de la
conf er encia
2
77
57. 000
. 000
8. 775
6. 496
. 000

Indican que se diferencian las distribuciones para las dos variables o tambin que la distribucin de
casos a travs de las categoras de la variables antes es diferente que la distribucin de casos a
travs de las categoras despus
Por que se les llama marginal por que la suma de las columnas filas y columnas son diferentes
La prueba de MH es una extensin de la prueba de Mc Nemar de la respuesta binaria a la respuesta
multinomial
La media o valor esperados de la estadstica de la homogeneidad es 0.000
Conclusin: quiere decir que se diferencian las distribuciones para las dos variables (se basa en las
sumas marginales)

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

175

Estadstica no paramtrica

PRUEBA PARA K MUESTRAS RELACIONADAS


7.13

En dos direcciones por rangos de friedman (

2
r

Si se desean comparar varias muestras o grupos de puntajes pareados (a cada puntaje de un grupo
le corresponde otro puntaje del otro grupo o grupos; tambin se suelen llamar grupos o muestras
dependientes o correlacionas), y en las cuales los requisitos bsicos para los mtodos paramtricos
no se cumplen (los puntajes de dichos grupos no se distribuyen normalmente y no hay
homogeneidad de las varianzas), el pareamiento puede ser obtenido relacionando conjuntos de
sujetos en una o ms variables previas y aleatoriamente asignando a cada elemento del conjunto
pareado varias condiciones diferentes, o, si los mismos sujetos son elementos de cada grupo a
comprobar, entonces los conjuntos pareados resultan adecuados.
Esta prueba es una variacin de la prueba t (Student), que se utiliza para comprobar una misma
muestra medida dos veces. Por ejemplo, en el diseo antes-despus, se utiliza la siguiente frmula:
2
r

12
n k(k 1)

( Ri ) 2 3n(k 1)

Donde:

Ri )2

= Suma de rangos de cada uno de los grupos, elevada al cuadrado

= Nmero de grupos

= Nmero de conjuntos de mediciones

12 y 3

= Constantes

Ejemplo:
Suponga que se desea comprobar la hiptesis nula de que un grupo de 10 sujetos reaccionan de la
misma manera ante tres situaciones diferentes; Se obtienen los siguientes resultados, que se ubican
en cada uno de los tres grupos I, II, III
Puntajes
Sujeto
A
B
C
D
E
F
G
H
I
J

Grupo 1
25
30
21
28
19
22
31
17
25
33

Grupo 2
28
33
19
31
22
21
33
14
21
35

Grupo 3
29
32
16
32
23
25
34
21
24
37

Paso 1. Jerarquice los puntajes por regln, asignndole al ms pequeo el valor de 1

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

176

Estadstica no paramtrica

Sujeto

Grupo 1

Grupo 2

Grupo 3

R1 16

R2 18

R3 26

Paso 2 Despus de sumar los rangos por cada grupo se comparan entre s; si la hiptesis nula es
verdadera estas sumas sern iguales.
Paso 3. Se sustituyen los valores en forma de
12
n k( k 1)

2
r

2
r

12
(1 62
1 0(3)(3 1)

2
r

5.6

Ri ) 2

1 82

2
r

3n ( k 1)

2 62 )

3(1 0)(3 1)

Paso 4. Se encuentran los grados de libertad mediante la siguiente frmula:


gl = K-1
gl = 3-1 = 2
Paso 5. El estadstico de r2 se contrasta en la misma forma que la 2 ( Ji-cuadrada), utilizando
la tabla estadstica y con la siguiente regla de decisin: Si r2
hiptesis nula Ho.
En nuestro caso 2 (gl, ) = 5.99 para dos grados de libertad, y
2
r

<

(gl,

(gl.

), entonces se rechaza la

=5%, por lo que

) ya que 5.6 < 5.99, no se rechaza la hiptesis nula Ho.

Requisitos de uso del anlisis de varianza en dos direcciones por rangos de Friedman ( r2 )
1. Comparacin de una sola muestra medida dos o ms veces en diferentes condiciones, o una
comparacin entre dos o ms grupos pareados. (no se puede aplicar para contrastar diferencias
entre muestras independientes.
2. Datos ordinales: solo se requieren puntajes que puedan ser jerarquizados (ubicados en
intervalos ordenados).
3. Existe una relacin entre el tamao n de la muestra y el nmero de condiciones (variables) k.
Si K = 3, n debe ser igual o mayor que 10
Si K = 4, n debe ser igual o mayor que 5

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

177

PROBLEMAS DE REPASO DEL CAPTULO


1. Seale V o F dentro de cada parntesis segn considere que el enunciado respectivo es
verdadero o falso. Justificar la respuesta que considere falsa.
( ) La prueba Chi cuadrado ser estadsticamente significativa cuando las frecuencias Oi y
Ei son pequeas
( ) La prueba Chi cuadrado cuando se desea probar independencia, esta debe ser planteada
en Ha
2. En la base de datos del archivo trabajo.sav extrado del autor Bienvenido Visauta y colgado
en el SITE de Rosa Padilla se tiene las siguientes variables: a 1: aspectos que ms le preocupan
con 4 opciones de respuesta(Vida afectiva-Dinero-Armona familiar y Salud); a3: aspecto con
el que se siente ms satisfecho (Tiempo libre- Vivienda-calidad del medio ambiente-comprar
lo que desee); y una tercera, a5: estado de nimo ms frecuente (Contento-Solo-AburridoCansado-Deprimido-Eufrico-Preocupado). Desarrolle el anlisis correspondiente aplicando
pruebas de hiptesis para el cruce de variables.
3. Se registr la temperatura en la ciudad de Juliaca durante un mes (das hbiles), antes de
realizar los anlisis un requisito o supuesto bsico es comprobar si la muestra tiene un
comportamiento aleatorio. La data se ha colgado en el SITE de Rosa Padilla. la muestra se
comporta aleatoriamente?
4. Se desea estudiar la relacin que existe entre encontrar trabajo y el conocimiento de un
determinado idioma. Con tal objeto se realiz una encuesta, la distribucin de los resultados es
como sigue:
Conocimiento de
Encontrar
algn Idioma
Total
trabajo
Si
No
11
7
18
Si
4
10
14
No
15
17
32
Total
Al nivel del 1% probar la hiptesis de que el encontrar trabajo tiene relacin con el
conocimiento de algn idioma.
5. Los alumnos de primero y segundo semestre de la Facultad de Ciencias Humanas y Educacin
calificaron a 7 profesores, de acuerdo con la claridad de su exposicin. Los resultados fueron
tabulados de la siguiente manera:
Profesor
1
2
3
4
5
6
7

Primer
semestre
44
39
36
35
33
29
22

Segundo
semestre
58
42
18
22
31
38
38

De acuerdo con la data del ejemplo 1, determine qu tipo de anlisis se puede aplicar.
Respuesta: rs = 0.306

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

178

Estadstica no paramtrica

6. Se desea conocer el grado de correlacin entre las puntuaciones de un grupo de alumnos de la


Facultad de Ciencias Humanas y Educacin de dos clases diferentes, Psicologa y
Comunicaciones.
Psicologa Comunicacin

Rangos

X
67
67
70
70
72
79
80
81
87
95

Rx
1.5
1.5
3.5
3.5
5
6
7
8
9
10

Y
67
68
70
71
72
74
77
80
83
90

Diferencias
Ry
2
2
3
4
5
6
7
8
9
10

D
0.5
-0.5
0.5
0
0
0
0
0
0
0

D2
0.25
0.25
0.25
0.25
-

D2 1.00
Respuesta: rs = 0.994
7. En un estudio realizado a 200 mujeres casadas, sobre relaciones humanas, haba dos preguntas
que consistan en lo siguiente:
a) Considera exitoso su matrimonio?
b) Tuvo una niez feliz?
Se obtuvieron las siguientes respuestas:
Niez

Matrimonio
No exitoso Exitoso
40
70
60
30
100
100

Feliz
No feliz
Total

Total
110
90
200

Existe alguna relacin entre a) y b). Respuesta: C = 0.29,

(si)

8. Se quiere estudiar la relacin entre el grado de participacin en las asociaciones voluntarias y


el nmero de amigos cercanos. Esta relacin se indica en la siguiente muestra de 5
entrevistados:

Entrevistado
A
B
C
D
E

Participacin en asociaciones Nmero de


voluntarias (x) Rango
amigos (y)
1
2
3
4
5

mayor participacin

menor participacin

6
4
6
2
2

Determine el grado de asociacin entre la participacin en las asociaciones voluntarias y el


nmero de amigos.
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

179

9. Para averiguar la validez de un determinado examen de lectura, los investigadores lo aplicaron


a una muestra de 20 estudiantes cuya habilidad para leer haba sido previamente colocada por
rangos por su profesor. El puntaje del examen y el rango que el profesor dio para cada
estudiante se enumera a continuacin:
Rango del
Puntaje de profesor
Estudiante lectura (x)
(y)
A
28
18
B
50
17
C
92
1
D
85
6
E
76
5
F
69
10
G
42
11
H
53
12
I
80
3
J
91
2
K
73
4
L
74
9
M
14
20
N
29
19
O
86
7
P
73
8
Q
39
16
R
80
13
S
91
15
T
72
14
Qu procedimiento estadstico se podra aplicar para determinar el grado de asociasin entre
los puntajes de lectura y la categorizacin del profesor?
10. Se quiere ver la relacin que existe entre el coeficiente de inteligencia y la aptitud de mando,
los datos codificados se dan en la tabla siguiente:
Rango
de CI
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Rango de aptitud
de mando
4
2
9
1
7
10
8
13
5
3
11
6
12
15
14

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

180

Estadstica no paramtrica

Realizar el anlisis correlacional apropiado para los datos.


11. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific
a sus hijos en tres categoras en funcin de su peso en relacin con los percentiles P 10 y P90 de
la poblacin. El resultado se expresa en la tabla siguiente:
Peso del nio al nacer
Madre
Menor
de Entre P10 y Mayor de
fumadora? P10
P90
P90
Si
117
529
19
No
124
1147
117
Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la
muestra?
12. La Comisin Europea est interesada en conocer el grado de apoyo de los ciudadanos a la
Comisin Europea. Para ello, ha realizado encuestas en cada uno de los pases miembros. En la
siguiente tabla se muestran los resultados de Espaa y de Reino Unido:
OPININ
Constitucin
Europea
A favor En contra
Espaa
70
10
Reino
Unido
60
70

No contesta
20

Total
encuestados
100

20

150

A partir de la tabla anterior, se puede decir que la opinin de los ciudadanos respecto a la
constitucin Europea es homognea en los dos pases o bien cabe hablar de diferencias
significativas?
13. Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado
cultivo o si, por el contrario, lo hacen con algn tipo de preferencia (el centro, los extremos,
etc...), se divide un cultivo en 576 reas iguales y se cuenta el nmero de bacterias en cada
rea. Los resultados son los siguientes:
no
de
0
bacterias

no
de
229 211 93 35 7 1
reas
Obedecen los datos a una distribucin de Poisson?
14. Ante la sospecha de que el hbito de fumar de una embarazada puede influir en el peso de su
hijo al nacer, se tomaron dos muestras, una de fumadoras y otra de no fumadoras, y se clasific
a sus hijos en tres categoras en funcin de su peso en relacin con los percentiles P 10 y P90 de
la poblacin. El resultado se expresa en la tabla siguiente:
Peso del nio
Madre fumadora? Menor de P10 Entre P10 y P90 Mayor de P90
Si

117

529

19

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

181

Estadstica no paramtrica

No

124

1147

117

Hay una evidencia significativa a favor de la sospecha a la vista de los resultados de la


muestra?
15. La siguiente tabla recoge la distribucin de los triglicridos en suero, expresados en mg/dl en
90 nios de 6 aos:
Nivel de triglicridos Frecuencias
10 - 20

20 - 30

11

30 - 40

15

40 - 50

24

50 - 60

18

60 - 70

12

70 - 80

80 - 90

Contrastar la hiptesis de que el nivel de triglicridos en nios de 6 aos sigue una distribucin
Normal.
16. En un estudio diseado para determinar la aceptacin por una parte de los pacientes de un
nuevo analgsico, 100 mdicos seleccionaron cada uno de ellos una muestra de 25 pacientes
para participar en el estudio. Cada paciente despus de haber tomado el nuevo analgsico
durante un periodo de tiempo determinado, fue interrogado para saber si prefera ste o el que
haba tomado anteriormente con regularidad, obteniendo los siguientes resultados:
no de pacientes que no de mdicos que no total de pacientes
prefieren el nuevo

obtienen estos

que prefieren el

analgsico

resultados

nuevo analgsico

16

10

30

10

40

15

75

17

102

10

70

10

80

81

10 o ms

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

182

Estadstica no paramtrica

Total

100

500

Queremos saber si estos datos se ajustan a una distribucin binomial.


17. Disponemos de una muestra de 250 mujeres mayores de 18 aos, cuyos pesos son los
presentados en la tabla adjunta, y queremos saber si los datos de esta muestra provienen de una
distribucin Normal.
Pesos

no de mujeres

30 - 40

16

40 - 50

18

50 - 60

22

60 - 70

51

70 - 80

62

80 - 90

55

90 - 100

22

100 - 110 4

18. Comparamos dos muestras aleatorias de 10 hombres y de 10 mujeres de edades comprendidas


entre los 18 a 22 aos en un tem que mide su autoestima (escala de 0 a 10 puntos):
HOMBRES: 8, 7, 6, 8, 7, 5, 6, 4, 9, 9
MUJERES: 8, 6, 5, 6, 5, 4, 4, 4, 6, 4
a) Podemos afirmar que ambas muestras difieren significativamente en autoestima?
b) Podemos afirmar que la autoestima de los hombres es significativamente mayor que la de
las mujeres?
c) Resuelve la pregunta a) por medio de la prueba no paramtrica adecuada (U de MannWhitney)
19. EJERCICIO 2. Medimos la capacidad lectoescritora de 10 nios dislxicos a travs de un
cuestionario (escala de 0 a 100 puntos) antes y despus de recibir una terapia. Sus resultados
fueron:
ANTES: 70, 72, 80, 75, 77, 80, 74, 81, 76, 73
DESPUES: 74, 73, 84, 75, 84, 95, 88, 86, 80, 79
a) Ha aumentado la capacidad lectoescritora de los nios tras el tratamiento?
b) Resuelve la pregunta anterior por medio de la prueba no paramtrica adecuada (Wilcoxon)
20. Comparamos 4 tratamientos clnicos (A, B, C, D) asignando al azar 15 sujetos a los mismos.
Las puntuaciones de los sujetos en la VD (un cuestionario de escala de 0 a 150 puntos) fueron:
A: 42, 0, 63
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

183

B: 45, 64, 33, 29

C: 44, 82, 64, 74


D: 109, 120, 116, 97
a) Compara si las varianzas de los 4 grupos son similares
b) Analiza si hay diferencias entre los grupos
c) Cual es el grupo que rinde mejor? Y el peor?
d) Analiza la pregunta b) mediante la prueba no paramtrica adecuada (H de Kruskal_Wallis)
21. Una muestra al azar de 6 sujetos lee 1, 3 y 5 veces una lista de 50 palabras que deben
memorizar. Tras cada lectura se les pasa una tarea de recuerdo. Sus resultados (o aciertos)
fueron:
1 lectura: 15, 17, 14, 18, 18, 16
3 lecturas: 21, 25, 22, 24, 29, 27
5 lecturas: 28, 32, 34, 35, 30, 30
a) Analiza si se cumplen los supuestos del ANOVA
b) Incrementa el nmero de lecturas el recuerdo?
c) Donde se dan los mejores y peores resultados?
d) Analiza la pregunta b) mediante la prueba no paramtrica adecuada
22. Se desea conocer si hay diferencias significativas entre distintos grados de educacin primaria,
en la percepcin que los nios tienen del tiempo, de una pelcula, que dur 15 minutos. Los
nios fueron seleccionados al azar de su grupo, y se les pidi que estimaran el tiempo
aproximado que dur la pelcula (el tiempo en minutos). Se desconoce como se distribuyen los
puntajes. Los datos son:
1
3
5

60, 50, 60, 55 ,50, 60, 70, 65, 60, 50


45, 50, 40, 48, 45, 46, 49, 45, 51, 52
15, 20, 25, 20, 30, 35, 18, 24, 21, 33

Elabore las hiptesis estadsticas nula y alterna.


Qu diseo de investigacin es apropiado para este caso?, justifquelo.
Indique la prueba estadstica a utilizar y justifquelo.
Obtenga el valor calculado para esa prueba.
Obtenga el valor terico de las tablas de a acuerdo al tamao de los grupos
Decida si se rechaza la hiptesis nula al nivel alfa de .05
Indique si se justifica el anlisis post hoc, y en su caso, entre que grados hay diferencias.
H0: No hay diferencias significativas en la percepcin del tiempo de una pelcula entre tres
grados escolares.
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

184

Estadstica no paramtrica

H1: Si hay diferencias significativas en la percepcin del tiempo de una pelcula entre tres
grados escolares.

La prueba estadstica es la de Kruskall Wallis por ser la ms adecuada cuando se sospecha de


una distribucin que no es normal.
La Hc=23.9886 es mayor a la Ht=13.815 al nivel de a .001
Como es significativo el resultado de Kruskall Wallis se justifica el anlisis post hoc. Las
diferencias se encuentran entre:
1er y 3er z = 3.212 a .0007
1er y 5to z = 3.779 a .0001
3er y 5to z = 3.779 a .0001
El grupo de 1er ao percibe el tiempo ms largo que los alumnos de 3ero y 5o ao en la
percepcin de una pelcula con niveles de significancia ms all de .001
23. Se desea saber si hay diferente percepcin del tiempo en 10 nios de un determinado grado, de
acuerdo al tipo de pelcula, de accin (Acc), caricaturas (Car), historia (Hit), ciencia natural
(Cn). Se desconoce la distribucin de la variable. Todas las pelculas duraron 15 min. Los
datos son:
SUJETO
1
2
3
4
5
6
7
8
9
10

ACCIN
15
10
15
15
15
10
10
15
15
10

CARITATURAS
18
15
10
10
15
15
15
20
25
15

HISTORIA
30
35
20
30
40
40
20
35
30
15

C. NATURAL
40
30
25
25
40
35
25
45
35
15

Elabore las hiptesis estadsticas nula y alterna.


Qu diseo de investigacin es apropiado para este caso?, justifquelo.
Indique la prueba estadstica a utilizar y justifquelo.
Obtenga el valor calculado para esa prueba.
Obtenga el valor terico (de las tablas) para esa prueba.
Decida si al nivel a .05 si se rechaza la hiptesis nula.
Indique si se justifica el anlisis post hoc, si es as, entre qu tipo de pelculas hay diferencias
y cul fue percibida como ms corta y cul como ms larga.
H0: No hay diferencias significativas en la percepcin del tiempo en cuatro tipos de una
pelcula en nios de primaria.
H1: Si hay diferencias significativas en la percepcin del tiempo en cuatro tipos de una
pelculas en nios de primaria.
La prueba estadstica a utilizar es Friedman por ser una prueba no paramtrica (al
desconocerse la distribucin de la variable) y porque es la indicada para contrastes de ms de
dos mediciones repetidas.
La c r calculada 24.22 es mayor a c 16.268 terica al nivel a .001, por lo cual se concluye
que con una probabilidad de .001, se encuentra que hay diferencia en la percepcin del
tiempo segn el tipo de pelcula.
Se justifica el anlisis post hoc, ya que fue significativa la c r pero se desconoce entre que
pelculas pueda haber diferencias.
Accin y caricaturas z = 1.47 a .0708
Accin y Historia z = 2.803 a .0026
Accin y Ciencia Naturales z = 2.803 a .0026
Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro

Cap. VII

Estadstica no paramtrica

185

Caricaturas e Historia z = 2.803 a .0026


Caricaturas y Ciencias Naturales z = 2.803 a .0026
Historia y Ciencias Naturales z = 0.815 a .299
Hay diferencias en la percepcin del tiempo entre todas las mediciones excepto entre las
pelculas de Historia y Ciencias Naturales y las de Accin con Caricaturas, en donde no
fueron significativas al nivel a de .05.

Mtodos estadsticos aplicados a la investigacin - Mg. Rosa Padilla Castro