Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PUBLICACIONES
DE LA UNIVERSIDAD
PONTIFICIA COMILLAS
PEDIDOS:
Servicio de Publicaciones
c/ Universidad Comillas, 3
Tel.: 91 734 39 50 - Fax: 91 734 45 70
ESTADSTICA APLICADA A
LAS CIENCIAS SOCIALES
2008
Reservados todos los derechos. Queda totalmente prohibida la reproduccin total o parcial de este libro por cualquier procedimiento electrnico o
mecnico, incluyendo fotocopia, grabacin magntica o cualquier sistema
de almacenamiento o recuperacin de la informacin, sin permiso escrito
GHOD8QLYHUVLGDG3RQWLFLD&RPLOODV
NDICE
Pgs.
INTRODUCCIN ..............................................................................................
21
23
23
1.1.
1.2.
1.3.
1.4.
1.5.
24
25
25
26
26
26
2.1.
2.2.
2.3.
2.4.
27
29
31
32
35
35
1.1.
35
1.2.
1.3.
1.4.
La mediana ........................................................................................
La moda .............................................................................................
Comparacin de las medidas de tendencia central .......................
36
36
36
39
2.1.
2.2.
40
42
42
44
45
46
47
50
53
53
54
55
55
57
58
60
60
61
65
65
67
68
72
73
2.3.
2.4.
2.5.
2.6.
5.1.
5.2.
73
75
NDICE
Pgs.
5.3.
76
77
78
81
81
82
83
83
4.1.
4.2.
4.3.
4.4.
83
85
87
91
5. PERCENTILES ...................................................................................................
92
5.1.
5.2.
101
104
6.1.
6.2.
6.3.
6.4.
92
97
98
99
104
106
107
109
110
113
115
116
117
119
119
1.1.
1.2.
1.3.
1.4.
119
120
121
124
1.5.
1.6.
2.1.
2.2.
122
123
123
124
127
128
3.1.
3.2.
3.3.
3.4.
3.5.
10
128
131
132
133
134
134
135
137
138
139
140
NDICE
Pgs.
150
151
151
151
156
158
3.6.
3.7.
3.8.
3.9.
4.1.
4.2.
4.3.
141
142
146
146
147
150
159
159
160
162
163
164
166
168
168
168
170
171
11
176
177
177
178
179
179
179
179
180
180
180
180
183
184
187
187
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
1.7.
1.8.
187
188
188
188
189
189
190
191
191
2.1.
2.2.
2.3.
3. LOS
191
192
193
.................................................................................................
193
196
201
203
LA FIABILIDAD
12
NDICE
Pgs.
204
207
208
9.1.
9.2.
209
211
212
213
213
214
216
218
219
9.3.
10.1.
10.2.
10.3.
10.4.
217
219
219
220
220
221
221
222
223
224
224
224
225
226
13
228
229
229
230
231
233
237
237
238
240
241
4.1.
4.2.
4.3.
4.4.
Establecer entre qu limites (intervalos de confianza) se encuentra la media (m) de la poblacin (establecer parmetros poblacionales) .................................................................................................
Establecer los intervalos de confianza de una proporcin ...........
Comparar la media de una muestra con la media de una poblacin ...............................................................................................
Calcular el tamao N de la muestra para extrapolar los resultados
a la poblacin ....................................................................................
242
245
247
249
251
253
253
254
256
14
NDICE
Pgs.
4. CMO
...................................................
259
259
261
261
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
262
264
266
267
267
268
269
271
271
272
272
273
274
275
275
276
276
277
278
281
MAGNITUD DE LA DIFERENCIA
............................................................................
15
282
6.1.
6.2.
6.3.
6.4.
282
283
283
286
286
287
287
287
288
291
292
294
294
298
298
299
299
301
302
304
306
307
309
16
NDICE
Pgs.
309
312
314
315
316
316
317
318
319
319
319
8. MTODOS
................................................................................
320
Ji cuadrado ........................................................................................
Aplicacin de la distribucin binomial .........................................
8.2.1. Cuando N < 25 ..................................................................
8.2.2. Cuando N > 25 ..................................................................
8.2.3. La prueba de los signos: aplicacin de la distribucin binomial para comprobar cambios ......................................
321
322
322
322
8.1.
8.2.
10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIN CON DOS NIVELES CADA UNO .......
10.1. Tablas 2x2 para muestras independientes ......................................
10.1.1. Modelos de tablas 2x2: cmo clasificar a los sujetos .......
a) Sujetos clasificados segn dos grupos de pertenencia
o dos caractersticas personales .................................
17
324
326
326
327
328
328
328
328
329
330
331
332
333
333
333
334
335
335
336
336
337
337
337
338
338
338
339
340
341
344
345
345
346
346
347
18
NDICE
Pgs.
348
349
REFERENCIAS BIBLIOGRFICAS.....................................................................
351
356
359
19
INTRODUCCIN
21
si llega el caso algunas frmulas y procedimientos de uso comn, ampliar algn punto de especial inters, ver qu ms se puede hacer con unos datos o
resultados de unos anlisis, y quizs sobre todo contar con una ayuda tanto
para escoger un procedimiento adecuado de anlisis como para interpretar
correctamente lo que con el paso del tiempo se va olvidando. Con esta finalidad hay apartados referidos directamente a la interpretacin de determinados resultados estadsticos; adems abundan en algunos captulos notas a pie
de pgina y se van citando autores que puede venir bien consultar en un momento dado, incluso para disponer de justificaciones y fuentes de autoridad a
las que poder acudir en algunos puntos controvertidos o que simplemente
pueden no estar tan claros. La terminologa y estilo se apartan con frecuencia
del lenguaje convencional de corte ms acadmico o se utilizan simultneamente expresiones equivalentes ms informales.
No hay en esta publicacin una distincin ntida entre estadstica descriptiva y estadstica inferencial aunque la estadstica inferencial se trata de manera ms formal a partir del captulo dedicado a los intervalos de confianza de la
media (cap. 7). Los conceptos bsicos se van repitiendo en diversos contextos sin dar por hecho que en cada momento se recuerda y entiende todo lo
visto en los captulos precedentes. Al tratar de la correlacin ya se introduce
la significacin estadstica de estos coeficientes, para no presentar por separado lo que lgicamente va unido cuando se hace un anlisis de este tipo o
cuando posteriormente es necesario repasarlo.
En varios captulos hay un anexo dedicado a programas de anlisis estadsticos de diverso tipo localizables en Internet y al final un listado de direcciones con ms recursos. Se trata en cada caso de una breve seleccin porque
estos programas son muy abundantes. Aunque hojas de clculo como EXCEL
son ya un recurso comn y programas informticos como el SPSS estn fcilmente disponibles (tampoco siempre y en todas las situaciones), son muchas
las instituciones, departamentos de Universidades y otras de diverso carcter,
que tienen en Internet programas de uso muy sencillo y que adems pueden
ser muy tiles en la misma clase con una finalidad meramente didctica. Para
muchos anlisis los programas de Internet pueden ser la opcin de clculo
ms cmoda. Estos programas suelen estar pensados para alumnos que trabajan en su casa o para profesionales no expertos; no suplen la versatilidad del
SPSS pero son indudablemente tiles. Como las fuentes de Internet son con
frecuencia inestables, procuramos dar ms de una direccin para cada tipo de
anlisis; adems a partir de las direcciones reseadas es fcil buscar otras.
El ndice general est hecho pretendidamente de manera muy detallada, con
muchos apartados y subapartados, para que de alguna manera cumpla la funcin de un ndice de materias y se pueda localizar con facilidad lo que interese.
PEDRO MORALES VALLEJO
22
CAPTULO 1
23
f
|
|
|
||
|
||
||
|||
||
|||
||
|
|
||
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
1
0
1
1
2
1
0
2
0
2
0
0
3
2
3
2
1
1
2
0
f
|
|||
||
|
|
|
|
||
|
|
|
1
3
2
1
1
1
0
0
1
2
0
1
0
0
0
1
0
0
1
1
Intuitivamente parece ms natural comenzar por arriba con la puntacin o intervalo mayor; en los programas informticos (EXCEL, SPSS) se comienza por defecto con la
puntuacin ms baja.
24
25
2. REPRESENTACIONES GRFICAS
A partir de la distribucin de frecuencias podemos hacer diversos tipos de representaciones grficas. Estas representaciones grficas son especialmente tiles:
26
a) Para disponer de una visin de conjunto que sin ms clculos nos permite hacernos una idea de la situacin, comparar de manera intuitiva
varios grupos, etc.
b) Para comunicar resultados de manera intuitiva y fcilmente comprensible.
La mera distribucin de frecuencias ya puede cumplir con estos propsitos, pero los distintos tipos de grficos son una ayuda importante.
Aqu nos limitamos a exponer tres de los tipos de representaciones grficas ms comunes, polgonos de frecuencias, histogramas y diagrama de cajas. Estas y otras representaciones grficas tambin se encuentran ya programadas en hojas de clculo como EXCEL.
2.1. Polgono de frecuencias
Es una representacin grfica sencilla y clara; en la figura I tenemos el
polgono de frecuencias hecho a partir de las frecuencias agrupadas de la
tabla 2
Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuencias o nmero de casos;
Eje horizontal (X, o eje de las abscisas): corresponde a las puntuaciones.
Para mayor claridad en la presentacin del grfico, el eje horizontal suele
ser un 50% ms largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X
(horizontal) medir 15 aproximadamente.
Pasos que seguimos para construir un polgono de frecuencias:
1 En el eje de las abscisas (horizontal) se sealan los puntos inferiores
de cada intervalo, aadiendo un intervalo ms en cada extremo para
mayor claridad.
En la figura I el primer punto sealado es el 33: es el punto inferior del
intervalo aadido al comienzo (intervalo 33-35), con una frecuencia de
0. En el extremo superior la ltima puntuacin sealada es 78, ya que
es el lmite inferior del intervalo siguiente (78-80), tambin con frecuencia 0.
Aadiendo dos intervalos extremos con frecuencia 0 se consigue que el
polgono llegue hasta la lnea horizontal de las abscisas; la figura queda
cerrada y clara; sta es la razn por la que se aade un intervalo ms
en cada extremo.
27
Fig. I
POLGONO DE FRECUENCIAS
7
6
Figura I
5
4
Y
X
X
3
2
X
X
1
0
X
X
33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78
X
2 Sobre el punto medio de cada intervalo sealamos la frecuencia, a la altura que corresponda del eje vertical de las ordenadas (que representa las frecuencias). Si unimos los puntos con lneas rectas, tenemos un
polgono de frecuencias, si los unimos con un trazo curvo, tendremos
una curva.
En la tabla 3 y figura II hemos reducido el nmero de intervalos, agrupando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo ms
bajo comienza con 35 (mltiplo de 5). Nos quedan 9 intervalos.
Tabla 3
X
i=5
X
75-79
70-74
65-69
60-64
f
||
||||||
|||||
|||||||||
55-59
50-54
45-49
40-44
35-39
2
6
5
9
28
f
||||||||
|||
||||
|
||
8
3
4
1
2
Fig. II
9
8
7
6
5
4
3
2
1
0
Figura II
X
X
X
X
X
X
X
30
35
40
45
50
55
60
65
70
75
80
85
29
100f
frecuencias relativas (%) =
N
En la tabla 4 y figura III tenemos un ejemplo de dos polgonos de frecuencias relativas de dos grupos con distinto nmero de sujetos.
Tabla 4
X
i=6
grupo A
%
1
2
4
5
3
75-79
69-74
63-68
57-62
51-56
45-50
39-44
7
13
27
33
20
grupo B
%
1
6
5
2
4
2
N = 15
5
30
25
10
20
10
N = 20
Figura III.
POLGONOS DE FRECUENCIAS RELATIVAS DE DOS GRUPOS CON DISTINTO NMERO DE SUJETOS
40%
35%
Grupo A
30%
25%
20%
15%
10%
5%
0%
35.5
42.5
47.5
30
82.5
Figura IV
HISTOGRAMA CON POLGONO DE FRECUENCIAS SUPERPUESTO
9
8
7
Figura IV
6
5
4
3
2
1
0
30
35
40
45
50
55
31
60
65
70
75
80
85
Puntuacin ms alta
25%
Percentil 75 (Q3)
25%
Mediana (Percentil 50)
25%
Percentil 25 (Q1)
25%
Puntuacin ms baja
La figura V no es un diagrama de cajas, simplemente nos dice qu puntuaciones debemos calcular para hacer el diagrama. La mediana (o percentil 50)
divide al grupo en dos mitades con idntico nmero de sujetos, entre el percentil 75 (o cuartil 3, Q3) y la puntuacin ms alta tenemos un 25 % de sujetos y entre el percentil 25 (o cuartil 2, Q2) y la puntuacin ms baja tenemos
otro 25 %. Los percentiles y su clculo se entendern mejor al ver los distintos
tipos de puntuaciones, pero el concepto de percentil (tanto por ciento de sujetos que caen debajo de una puntuacin) se capta con facilidad.
En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del
grupo en trminos de puntuaciones directas (columna de la izquierda).
Estos diagramas de cajas son especialmente tiles para hacer una comparacin visual en dos tipos de situaciones:
a) Cuando tenemos dos o ms grupos medidos en la misma variable; ste
es probablemente el caso ms frecuente.
32
Psic.
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
Derch.
Ing.
Puntaje
ms alto
25%
Percentil
75
50%
25%
Mediana
Percentil
25
Puntaje
ms bajo
33
Figura VII
Psic.
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
Derch.
Ing.
Puntaje
ms alto
25%
Percentil
75
50%
25%
Mediana
Percentil
25
Puntaje
ms bajo
De un golpe de vista vemos que en Padre Nutricio el 50% central est concentrado en unas pocas puntuaciones (aproximadamente entre 35 y 40) y
que son adems las ms altas en trminos comparativos. Vemos tambin que
el lmite inferior del 50% central en Adulto coincide con el lmite superior del
50% central en Padre Punitivo (entre 28 y 29), etc.
34
CAPTULO 2
35
36
Moda = 7
M e d i a = 4.5
M e d i a n a = 5.5
M e d i a = 3.42
Tabla 2
Caso 1
6
5
4
3
2
1
Caso 2
6
5
4
3
2
1
37
|||||
(5)
Nos interesar utilizar la mediana cuando creamos que los sujetos con
puntuaciones extremas desvirtan la media en cuanto medida representativa de dnde est un grupo; las puntuaciones muy extremas (y que pueden ser atpicas) influyen en la media (en el clculo de la media entran todas las puntuaciones), pero no en la mediana. ste puede ser el caso de los
tems de evaluacin del profesorado; un pequeo nmero de alumnos poco representativos puede sesgar la media en una direccin (positiva o negativa) que no refleja el sentir o la opinin claramente mayoritaria de un grupo. En cualquier caso siempre es posible aportar ambos datos, la media y la
mediana.
La moda (en los dos casos de la tabla 2 corresponde a la puntuacin 6)
tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa
de inters a la media suele ser la mediana, no la moda.
En general nos interesar la mediana en vez de la media cuando los datos
sean claramente ordinales y siempre que interese no tener en cuenta puntuaciones muy extremas. La mediana es el valor utilizado en algunos anlisis especficos1.
3. La media se presta a muchos ms anlisis estadsticos de inters.
Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre
las otras medidas de tendencia central, y es la que utilizaremos rutinariamente; adems en el clculo de la media se utiliza toda la informacin
disponible.
Esta razn tiene ms peso en estadstica inferencial, cuando pretendemos inferir la media de una poblacin (al menos ver entre qu limites probables se encuentra) a partir de los datos de una muestra; con este planteamiento (y en otros semejantes) solemos utilizar la media; con un propsito
meramente descriptivo utilizaremos la medida que ms nos convenga (o ms
de una).
4. En la distribucin normal coinciden los valores de la media, la mediana y la moda.
En los ejemplos puestos hasta ahora, la media, la mediana y la moda tienen valores distintos; cuando la distribucin es normal (simtrica, acampanada) los tres valores de tendencia central son idnticos: la media es tambin
el valor con un mayor nmero de sujetos y divide a la muestra en dos mitades
iguales, como podemos ver en la distribucin de frecuencias de la tabla 3
1
La mediana se utiliza en el anlisis de tems en las escalas de Thurstone y para determinar las puntuaciones de corte (apto/no apto) cuando varios jueces examinan los
tems de una prueba objetiva (mtodos de Angoff y Nedelsky); en ambos casos se pretende prescindir de los juicios extremos; son temas que no tratamos aqu pero que ejemplifican la utilidad de la mediana.
38
Tabla 3
9
8
7
6
5
4
3
2
1
|
|||
||||
||||||||
|||||||||| 5 =
||||||||
||||
|||
|
media
mediana
moda
Grupo B
20
20
0
0
10
10
10
10
media = 10
media = 10
39
Podemos decir que se trata de dos grupos muy parecidos porque tienen la misma media? No, son grupos muy distintos. El grupo A es muy heterogneo, en este grupo A se puede decir que hay dos subgrupos muy diferenciados; el grupo B en cambio es muy homogneo, todos tienen
idntica puntuacin.
Las medidas de dispersin complementan la informacin que nos da
tanto la media (aqu vamos a poner el nfasis por ser la medida ms til y
utilizada) como la mediana o la moda; estas medidas de dispersin expresan en qu grado los grupos son ms bien homogneos, con los sujetos
muy parecidos unos a otros (como en el grupo B), o ms bien se trata de
grupos heterogneos, con mayores diferencias entre los sujetos (como en
el grupo A). La medida de dispersin ms til y utilizada es la desviacin tpica, que se utiliza siempre que se calcula la media como la medida de tendencia central.
Las medidas de dispersin que vamos a ver son las siguientes:
a) En relacin con la media:
1. La desviacin media, que se utiliza poco pero es sencilla y nos sirve de introduccin para la desviacin tpica.
2. La desviacin tpica y la varianza (que es la desviacin tpica elevada al cuadrado), que son las ms importantes;
3. El coeficiente de variacin, que se calcula a partir de la media y de
la desviacin tpica, y que tiene su utilidad especfica en determinadas situaciones.
b) En relacin con la mediana
La desviacin semi-intercuartlica, que expresa la dispersin o heterogeneidad en el 50% central del grupo (y en la que, lo mismo que la
mediana, se prescinde de las puntuaciones extremas).
c) En relacin con la moda:
La amplitud o recorrido, de menor importancia que las otras medidas
de dispersin.
2.1. La desviacin media
La medida de dispersin ms sencilla y fcil de comprender es la desviacin media; aunque apenas se utiliza es til comprender el significado de la
desviacin media como punto de partida sobre todo para entender la desviacin tpica, que es la medida de dispersin ms utilizada. La desviacin media la entenderemos fcilmente comparando las dos representaciones puestas la figura 1.
40
Fig. 1
media = 5
Grupo A
d = -2
media = 5
Grupo B
d = -2
d = -3
d = -1 d = -1
d = +3
d = -2 d = +2
|2+1+1+2|
Desviacin media del grupo A == 1.5
4
|3+2+2+3|
Desviacin media del grupo B == 2.5
4
5. Aunque ambos grupos tienen idntica media, son grupos muy distintos. A simple vista se observa que el grupo A es ms homogneo que el
grupo B; en el grupo B los sujetos se apartan ms de la media. Aunque
los dos grupos tienen idntica media, la dispersin del grupo B es ma-
41
Sobre el smbolo de la desviacin tpica hacemos una observacin para evitar confusiones. Aqu utilizamos siempre la letra ese griega minscula (s) como smbolo de la
desviacin tpica de la muestra, que es la que vamos a utilizar habitualmente, incluso es
frecuente designar a la desviacin tpica por el nombre del smbolo (sigma). Aunque no
hay una prctica uniforme, s conviene advertir que tambin es frecuente utilizar este smbolo (s) para expresar la desviacin tpica estimada de la poblacin (N-1 en el denominador), y reservar la letra s, ese latina, para expresar la desviacin tpica de la muestra (N en
el denominador). En algunas calculadoras se distinguen bien los dos smbolos con subndices: sn y sn-1. En el programa EXCEL la desviacin tpica de la muestra (dividiendo por N)
se denomina desvestp y la desviacin tpica de la poblacin (dividiendo por N-1) se denomina desvest.
42
Frmulas
Distinguimos dos frmulas segn se trate de la desviacin tpica de la
muestra o de una estimacin de la desviacin tpica de la poblacin representada por esa muestra.
1 Cuando se trata de la desviacin tpica que describe la dispersin de
una muestra (que es lo que hacemos normalmente) utilizamos la frmula [3]:
[3]
La letra x (equis minscula) es un smbolo habitual de la puntuacin diferencial de cada sujeto, que es simplemente la desviacin o diferencia de cada sujeto con respecto a la media, d = x = X
2 Cuando se trata de la estimacin de la desviacin tpica de la poblacin representada por una muestra se utiliza la frmula [4].
[4]
En este caso se trata de la estimacin de la desviacin tpica de una poblacin calculada a partir de los datos de una muestra. Al dividir por N-1 (y disminuir el denominador) aumenta el cociente: la desviacin tpica de una poblacin suele ser mayor que la desviacin tpica de una muestra, porque al
aumentar el nmero de sujetos es ms probable que haya sujetos con puntuaciones muy extremas (o muy altas o muy bajas) y consecuentemente aumenta-
43
[6]
3
En EXCEL (herramientas) en anlisis de datos (estadstica descriptiva) calcula la
desviacin tpica de la poblacin (dividiendo por N-1) lo mismo que en el SPSS (por defecto).
44
Ya hemos visto que el numerador de la varianza (la suma de las desviaciones individuales elevadas previamente al cuadrado) puede expresarse as:
45
mos las probabilidades de que se d por azar esa puntuacin; as podemos detectar qu resultados, por ser muy altos o muy bajos, son muy
improbables por azar. Este clculo de probabilidades es especialmente til en estadstica inferencial, ya ms en planteamientos de investigacin. Estos puntos se tratan en extensin en el lugar apropiado, al tratar ms adelante de la distribucin normal.
3. La desviacin tpica y la varianza se calculan con facilidad con sencillas
calculadoras con programacin estadstica y en los programas informticos como EXCEL.
Existen adems varios mtodos simplificados para calcular la desviacin tpica, pero estos mtodos slo dan aproximaciones y dada la facilidad con que pueden utilizarse las calculadoras y programas de ordenador, estos mtodos son ya menos tiles y justificables.
2.2.4. Propiedades de la desviacin tpica y de la varianza
La desviacin tpica y la varianza tienen adems propiedades matemticas
que las hacen ms tiles.
1. Si a las puntuaciones directas les sumamos una constante, la desviacin
tpica y la varianza no varan. Esto es obvio porque no varan las distancias inter-individuales.
Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.).
Tabla 5
media
desviacin tpica
Caso A
Caso B
(= A+2)
1
5
9
5
3.266
3
7
11
7
3.266
En el caso B hemos sumado dos puntos a cada sujeto del caso A; las medias son distintas (sube en dos puntos en el caso B), pero la desviacin tpica
es la misma porque las diferencias interindividuales son las mismas.
2. Si multiplicamos las puntuaciones directas por una constante, la desviacin tpica queda multiplicada por esa misma constante y la varianza queda
multiplicada por el cuadrado de esa constante.
Lo vemos tambin con un ejemplo: las puntuaciones del caso A las multiplicamos por 2 (tabla 6).
46
Tabla 6
media
desviacin tpica
varianza
Caso A
Caso B
(= A x 2)
1
5
9
5
3.266
10.67
2
10
18
10
6.53 ( = 3.266 x 2)
42.67 ( = 10.67 x 22)
47
to a una muestra de sujetos muy inteligentes tendremos una desviacin tpica ms pequea que la que podemos encontrar en una muestra normal, donde hay de todo.
sta es la interpretacin en principio ms obvia porque es lo que expresa directamente la desviacin tpica, pero, sobre todo cuando tenemos una desviacin mucho menor de lo esperado o de lo que es usual
encontrar en otras situaciones, cabe siempre el buscar alguna explicacin, como indicamos en los apartados siguientes.
b) Los sujetos pueden ser potencialmente muy distintos, pero pueden
tambin estar igualados por la facilidad o dificultad de la prueba
(examen, test, etc.). El test o instrumento, del tipo que sea, puede ser
poco discriminante y consecuentemente no detecta diferencias que
de hecho hay. El grupo puede ser muy homogneo pero slo tal como
lo mide un instrumento determinado. Por ejemplo, no es lo mismo poner como respuestas de un cuestionario s o no (a lo mejor todos responden s) que poner s, ms bien s, ms bien no y no: puede suceder que los que responden s (si slo pueden escoger entre s y no) se
dividan entre el s y el ms bien s.
De manera semejante una desviacin tpica muy pequea en un test de
conocimientos puede indicar no que el grupo es realmente muy homogneo (sujetos muy iguales) sino que el examen es muy fcil (todos
o casi todos saben todo) o muy difcil (casi nadie sabe nada): puede
haber diferencias en esos conocimientos que no se detectan con ese
test; el grupo es ms heterogneo de lo que manifiesta esa desviacin
tpica pequea.
c) Si se trata de calificaciones, una desviacin tpica pequea puede indicar que el profesor matiza poco, pone notas muy iguales.
En general una desviacin tpica pequea puede indicar que el procedimiento o instrumento utilizado para recoger los datos no recoge suficientemente diferencias que de hecho existen. El no detectar diferencias repercute por otra parte en otros anlisis estadsticos (por ejemplo
en el clculo de coeficientes de correlacin: no se detectan relaciones
si no hay diferencias claras entre los sujetos).
3. No hay un valor ideal de la desviacin tpica que pueda servir de referencia; cundo es grande o pequea se aprecia comparando unas con otras.
Dos desviaciones tpicas pueden compararse entre s directamente (lo mismo
que dos varianzas) si provienen de datos comparables (unidades comparables, la misma escala mtrica).
En ocasiones puede ser de utilidad conocer cul es el valor mximo posible de la desviacin tpica; este valor mximo posible es igual a:
48
[8]
2
Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de
acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total
desacuerdo), la puntuacin mxima posible es 5 y la puntuacin ms baja posible es 1; en este caso la desviacin tpica mayor posible es (5 - 1)/2 = 2.
Esta referencia suele ser poco til porque este valor mximo es difcilmente alcanzable en la mayora de las situaciones. Cuando los valores son 1 y 0 (s
o no, bien o mal, etc.), la desviacin tpica mayor posible es (1 - 0)/2 = .50.
Esta referencia con este tipo de datos es especialmente til, porque en estos
casos (respuesta 1 0) s es ms frecuente que la desviacin tpica obtenida
sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos estos comentarios al tratar despus de las puntuaciones dicotmicas).
4. La desviacin tpica indica qu puntuacin parcial pesa ms en una media final; a mayor desviacin tpica, mayor peso en la media final. En determinadas situaciones esta informacin puede ser muy til.
El que la puntuacin parcial con una mayor desviacin tpica pese ms en
una media final es por otra parte lgico: si todos reciben la misma o casi la
misma puntuacin (lo que supone una desviacin tpica muy pequea), no se
establecen diferencias; si por el contrario se asignan puntuaciones muy distintas a los sujetos (desviacin tpica grande) en una puntuacin parcial, las diferencias en la media final dependern ms de esas ocasiones en las que se asignaron puntuaciones (o notas) muy distintas.
Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Supongamos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (entre parntesis el nmero de orden de cada sujeto con cada examinador y en
la media final):
Tabla 7
49
El sujeto n 1, el de media final ms alta, es el mismo que el del examinador A, a pesar de que este examinador A est en minora ya que para los examinadores B y C el sujeto n 1 es el que tiene una calificacin ms baja. Pero
como el examinador A ha diferenciado ms sus calificaciones, est influyendo
ms en quin queda en el primer o en el ltimo lugar.
El que la puntuacin parcial con una mayor desviacin tpica tenga tambin un peso mayor en la media final puede ser de especial importancia en algunas ocasiones, como cuando del nmero de orden de los examinados se
siguen consecuencias importantes (concesin de becas, procesos de admisin o cualquier otro tipo de ventaja).
Los que califican de manera muy uniforme, sin diferenciar mucho, influyen menos: sumar a todos una misma cantidad no establece diferencias. Lo
mismo sucede si no se trata de examinadores distintos, sino del mismo examinador pero que ha calificado de manera muy distinta en distintas ocasiones
o con distintos tipos de pruebas.
Este peso distinto de las puntuaciones directas, segn sea mayor o menor
la desviacin tpica, se puede obviar de varias maneras; sobre todo utilizando
puntuaciones tpicas como veremos ms adelante.
5. La desviacin tpica entra en otros muchos clculos que iremos viendo (fiabilidad, error tpico, error tpico de la media, contraste de medias,
etc.).
6. La desviacin tpica permite el clculo de las puntuaciones tpicas individuales de las que tratamos ms adelante. Adems la relacin entre la desviacin tpica, y las puntuaciones tpicas, y la distribucin normal nos abrir la
puerta a la estadstica inferencial.
2.2.6. Media y desviacin tpica de los datos dicotmicos
Datos dicotmicos, o puntuaciones dicotmicas, son aquellos en los que
solamente hay dos categoras de respuesta o de clasificacin mutuamente
excluyentes. Cuando hay ms de dos posibilidades se trata de datos o puntuaciones continuas.
En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o datos, o variables) dicotmicas.
Adems de los datos propiamente dicotmicos (dos respuestas que se excluyen mutuamente) tambin podemos dicotomizar los datos continuos dividindolos en dos categoras, por ejemplo por encima de la media y por debajo de la media (o de la mediana), o apto (= 1) y no apto (= 0), etc.,
aunque en principio es preferible utilizar todas las respuestas sin reducirlas a
dos categoras.
50
Figura 2:
EJEMPLOS DE DATOS DICOTMICOS
La media (X) de los datos dicotmicos es igual a la proporcin de respuestas correctas o de unos, y el smbolo que suele utilizarse es p.
El concepto de media es el mismo que cuando se trata de otros tipos de puntuaciones: calculamos la media sumando todas las puntuaciones individuales
(que en este caso sern 1 0) y dividimos esta suma por el nmero de sujetos.
nmero de unos
Por lo tanto la media es: p = proporcin de unos = [9]
N
La proporcin de ceros (de respuestas incorrectas, de noes, etc.) se simboliza como q, y es igual al nmero de ceros dividido por el nmero de sujetos, o ms sencillamente, q = 1-p, ya que p + q = 1 ( ses + noes o unos +
ceros = el 100% de las respuestas).
nmero de ceros
q = proporcin de ceros = [10]
N
Si, por ejemplo, de 50 sujetos 30 responden s (o bien en la pregunta de
un examen) y 20 responden no (o mal a una pregunta):
La media ser:
30
p == .60
50
20
El valor de q ser: q == .40
50
Si multiplicamos por cien la proporcin de respuestas correctas (p), tenemos un tanto por ciento o un porcentaje: el 60% ha respondido correctamente (o ha respondido s). Si los 50 sujetos responden s (o correctamente),
51
[11]
s2 = pq [12]
Varianza:
52
Tabla 8
53
La frmula [13] es obvia (se trata de una media ponderada por el nmero de sujetos):
tenemos que SX = XN; que es el numerador
Si la media es
de esta frmula [13] (suma de todas las puntuaciones); el denominador (SN) es la suma
de todos los sujetos de todos los grupos.
Cuando el nmero de sujetos es el mismo en todas las muestras, la media
total es simplemente la media de las medias.
Lo vemos en dos ejemplos (tabla 9), que utilizaremos tambin para ver cmo se combinan desviaciones tpicas.
Tabla 9
54
stotal = desviacin tpica total, de todos los grupos unidos en uno solo;
Xtotal = media del total, de todos los grupos unidos en uno solo. 1 En
cada grupo multiplicamos cada N por la suma de la media y de
la desviacin tpica elevadas al cuadrado [N(X2 + s2)], 2 sumamos estos productos; 3 dividimos esta suma por el nmero total de sujetos (SN) y restamos la media total elevada al cuadrado (y que se supone calculada previamente). Si no extraemos la
raz cuadrada, lo que tenemos es la varianza comn a todos
los grupos.
b) Muestras de idntico tamao
Si las muestras son de idntico tamao, en la frmula [14] tendramos que
el denominador ser Nk, donde N es el nmero de sujetos que hay en cada
grupo y k es el nmero de grupos, por lo que la frmula [14] queda simplificada como se indica en [15].
5
El numerador se calcula fcilmente con una calculadora con programacin estadstica, introduciendo todas las medias y todas las desviaciones tpicas, en la funcin Sx2.
55
[19]
56
mula [17] para calcular la desviacin tpica de las dos muestras combinadas
en una nica muestra. En esta frmula [17] utilizada para combinar dos (o
ms) desviaciones tpicas tenemos ahora que:
N = N1 + N2;
La media ser la media total de las dos (o ms) muestras
2
SX ser la expresin [19] calculada en las dos (o ms) muestras y sumadas.
Es decir, substituyendo [19] en [18] tenemos la frmula [14] para combinar desviaciones tpicas.
Podemos preguntarnos ahora de dnde viene la frmula [17], que es la
que estamos utilizando para llegar a la frmula [14] y calcular la desviacin tpica de dos (o ms) muestras combinadas en una sola.
En la frmula de la desviacin tpica tenemos en el numerador un binomio
elevado al cuadrado. No hay ms que aplicar la frmula usual: (a - b)2 = a2 2ab + b2, y as llegamos a [18] y [17]:
Utilizando la varianza para simplificar, tenemos que:
y que
Tendremos que
y [17]
y as llegamos a [18]
57
Coeficiente de variacin:
[21]
Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (peso en Kg.)
Aparentemente los chicos difieren
media
chicos
chicas
66.87
51.06
desviacin
6.99
5.10
Si calculamos el coeficiente de variacin (haciendo las desviaciones relativas a la media) tenemos estos resultados:
6.69
V (chicos) = (100) = 10.45 Teniendo en cuenta la diferencia en66.87
tre las medias, entre las chicas encontramos ms variabilidad en peso (aun5.51
V (chicas) = (100) = 10.79 que no mucha ms).
51.06
El uso de este coeficiente de variacin en medidas educacionales o psicolgicas es muy cuestionable, porque su valor depende de la media, que a su
vez depende de la facilidad o dificultad de las preguntas, test, etc. Su interpretacin se presta a ambigedades. Si por ejemplo a un test de 10 preguntas
le aadimos otras 10 muy fciles, subir la media y bajar el valor de V.
Este coeficiente puede utilizarse y es especialmente til cuando se dan estas circunstancias:
1 Cuando las unidades lo son en sentido propio (como peso, altura,
con una unidad clara); menos aconsejable es utilizarlo en las medidas educacionales y psicolgicas habituales;
2 Cuando las medias son muy desiguales (como en el ejemplo anterior, peso en chicos y chicas).
3 Cuando las medidas son distintas (por ejemplo; dnde hay ms variabilidad, en peso o en altura?).
En el campo de los tests en general, puede ser til para comparar la variabilidad de un grupo en el mismo test aplicado en circunstancias distintas.
2.4. La desviacin semi-intercuartlica
Nos hemos centrado fundamentalmente en la desviacin tpica y en la
varianza porque se trata de dos conceptos fundamentales para el resto de
58
Es decir, y dicho de manera ms sencilla, entre 6.5 y 12.5 est el 50% central de los sujetos; la desviacin semi-intercuartlica (Q) ser:
[22] en este ejemplo tendramos
Este ejemplo est puesto para explicar el concepto; lo normal es que los lmites del 50% central no estn tan claros a simple vista; el clculo exacto lo
veremos al tratar de los percentiles, pues se trata simplemente de calcular por
interpolacin los percentiles 25 y 75, como se explica en su lugar.
59
60
de dispersin
61
de tendencia central
de dispersin
En el clculo de la media y de la desviacin tpica intervienen todas las puntuaciones individuales; son las dos medidas ms estables: si calculamos estas medidas en una serie de muestras de la misma poblacin, fluctan menos que las
dems medidas. Permiten adems otras muchas operaciones de gran inters y
son en principio las medidas descriptivas preferibles.
La desviacin semi-intercuartlica
(Q) se calcula solamente con el 50%
central de la distribucin: es la media
de dos puntuaciones: la que corresponde al percentil 75 (deja por arriba
el 25% de los sujetos) y la que corresponde al percentil 25 (deja por debajo el 25% de los sujetos).
Como quedan excluidos en el clculo
el 25% superior y el 25% inferior, tampoco se ve afectada por las puntuaciones extremas.
62
de tendencia central
de dispersin
La moda es simplemente la puntuacin con la mayor frecuencia, la obtenida por el mayor nmero de sujetos. Puede haber varias puntuaciones
con esta caracterstica (distribuciones
bimodales, plurimodales). Como medida de tendencia central es poco rigurosa, sobre todo en distribuciones
asimtricas. Se basa en las puntuaciones de dos sujetos que si son muy extremas y atpicas desvirtan la informacin.
La moda y la amplitud son las medidas menos rigurosas aunque pueden
tener su inters descriptivo.
La amplitud (o recorrido, y mal llamada a veces rango) es igual a la diferencia entre la puntuacin ms alta y
la puntuacin ms baja. Habitualmente se suma una unidad a esta diferencia porque se calcula a partir de los lmites de los valores extremos (si las
puntuaciones extremas son, por
ejemplo, 20 y 5, la amplitud no es
igual a 20 - 5 sino igual a 20.5 - 4.5 =
[(20 - 5) + 1]. Es una medida muy inestable porque depende solamente
de los dos valores extremos. En
muestras semejantes la amplitud puede ser muy diferente; basta que haya
sujetos muy atpicos en los extremos.
63
CAPTULO 3
LA DISTRIBUCIN NORMAL
65
El apartarse
mucho de la
media va siendo
ya muy raro
66
LA DISTRIBUCIN NORMAL
67
rizontal) de las abcisas (siempre cabe la posibilidad de una magnitud muy extrema)1.
En la prctica se considera que todos los casos estn comprendidos entre
-3 y +3 desviaciones tpicas; las probabilidades de que un valor exceda estos
lmites son del .0026% (2.6 por mil); la amplitud de la distribucin es por lo
tanto de unas 6 desviaciones tpicas (a efectos prcticos, aunque esto no es
exacto y depende del nmero de sujetos).
Los puntos de inflexin de la curva (puntos A y B en la figura 2) estn a
una desviacin tpica de la media.
Atendiendo al grado de apuntamiento o curtosis que presenta, decimos de
la curva normal que es mesocrtica (representada por la lnea continua en la figura 3). Para determinar la curtosis de cualquier otra distribucin la comparamos con este modelo (figura 3), y as calificamos a las distribuciones ms apuntadas que la normal leptocrticas y a las menos apuntadas platicrticas2.
Figura 3
Mesocrtica
Leptocrtica
Platicrtica
Asinttica viene del griego asmptotos, (asumptwtos que quiere decir que no
coincide, que no toca.
2
Curtosis (kurtwsis) significa en griego curvatura; los prefijos griegos leptos, mesos y platys significan respectivamente delgado, medio y ancho.
68
LA DISTRIBUCIN NORMAL
cer la probabilidad que tiene de ocurrir. La proporcin (o porcentaje si multiplicamos por 100) de casos esperados entre dos puntuaciones tpicas determinadas (o por encima o por debajo de cualquier puntuacin tpica) es siempre el mismo. Vemos en la figura 4 que, por ejemplo, entre la media (z = 0)
y una desviacin tpica (z = + - 1) se encuentra el 34.13% de los casos, o, dicho de otra manera, la probabilidad de que una observacin se encuentre entre la media y una desviacin tpica es de .34
Figura 4
34.13%
34.13%
2.15%
-3
-2
2.15%
13.59%
13.59%
-1
+1
+2
+3
69
Figura 5
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LMITES DE LA CURVA NORMAL
En la figura 5 tenemos:
a) La base (el eje de las abscisas, X) la hemos dividido en segmentos que
comprenden media desviacin tpica (.5s). El punto central corresponde a la media y tiene obviamente un valor de cero (no se aparta de
la media, coincide con la media, z = 0).
b) Vemos una serie de filas divididas en segmentos con distintos criterios,
pero utilizando la desviacin tpica como unidad; y en cada segmento
encontramos el porcentaje (aproximado) de casos que podemos esperar.
Por ejemplo, si nos fijamos en algunas de estas filas:
En la primera fila (comenzando por debajo) vemos que entre la media y
media desviacin tpica (entre 0 y .5 s; la tabla es simtrica) cae aproximadamente un 20% de los casos, entre 1s y 1.5 s tenemos el 9 % de los casos, y por encima o por debajo de 2 s el 2% de los casos (tambin podemos
decir que la probabilidad de obtener una puntuacin tpica superior a 2 es el
de 2%, etc.).
En la segunda fila entre -.5 s y +.5 s tenemos el 38% de los casos, por encima o por debajo de 1.5 s cae el 7 % de los casos.
70
LA DISTRIBUCIN NORMAL
En la tercera fila tenemos las mismas proporciones (redondeadas) ya vistas en la figura 4 pues los segmentos son de 1s
En la quinta fila vemos otro criterio para dividir la distribucin: entre -.25s
y +.25 s (en el centro de la distribucin) tenemos el 20% de los casos, entre
.+25 s y +.75 s (lo mismo que entre -.25 s y -.75 s) tenemos el 17% de los casos; etc. Cada segmento comprende .5 s (menos los dos extremos) y tenemos en total nueve agrupaciones; si numeramos estas agrupaciones de 1 (comenzando por la derecha) a 9, en su momento veremos que se trata de los
estaninos o eneatipos, unas puntuaciones muy utilizadas.
En la sexta fila (o cuarta por arriba) vemos que por debajo de 2 s tenemos
el 2% de los casos, y por encima el 98% de los casos, etc.
Esta figura 5 no es de gran utilidad prctica, pero nos ayuda a entender la
distribucin normal y las tablas correspondientes que encontraremos en los
textos.
Figura 6
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LMITES DE LA CURVA NORMAL
15%
70%
15%
5%
90%
5%
2.5%
95%
-1.96 -1.65
-1.04
2.5%
+1.04
+1.65 +1.96
71
-3
-2,5
-2
-1,5
-1
-0,5
72
0,5
1,5
2,5
1,1%
4,4%
32,5%
60,7%
13,5%
88,2%
32,5%
60,7%
13,5%
4,4%
1,1%
88,2%
100%
Figura 7
LA DISTRIBUCIN NORMAL
73
Observamos que el rea total de la distribucin queda dividida en dos partes, rea mayor y rea menor. Al menos estas reas mayor y menor suelen
figurar en todas las tablas.
Vamos a las tablas para ver los valores que corresponden a z = 1.64:
Puntuacin
tpica
rea de la
parte mayor
rea de la
parte menor
1.64
.9495
.0505
Cmo se interpreta:
rea de la parte mayor.
a) La proporcin de casos que caen por debajo de + 1.64 es de .9495 o
(multiplicando por 100) el 94.95 % de los casos tienen una puntuacin
inferior a z = + 1.64.
b) Si redondeamos los decimales tenemos que una puntuacin de z = +
1.64 supera al 95 % de los casos o, lo que es lo mismo, que en la distribucin normal una puntuacin tpica de +1.64 corresponde al Percentil 95.
rea de la parte menor.
a) La proporcin de casos que caen por encima de + 1.64 es de .0505 o
(multiplicando por 100 y redondeando) el 5 % de los casos tienen una
puntuacin superior a z = + 1.64.
74
LA DISTRIBUCIN NORMAL
Ahora las reas mayor y menor estn invertidas (la curva es simtrica).
Como en las tablas las puntuaciones tpicas estn sin signo ms o menos, los
valores son los mismos.
Puntuacin
tpica
rea de la
parte mayor
rea de la
parte menor
1.64
.9495
.0505
75
percentil
rea mayor
rea menor
76
LA DISTRIBUCIN NORMAL
En estos casos multiplicamos por dos el rea menor, porque nos fijamos
en los dos extremos de la distribucin (figura 11).
La probabilidad de obtener una puntuacin superior a 1.64 en trminos
absolutos es de .10 o del 10 %; un 5 % por encima de +1.64 y otro 5 % por debajo de 1.64.
Un caso de especial inters en estadstica inferencial es el de la tabla 12,
que corresponde a z = 1.96
Figura 12
La probabilidad de encontrar una puntuacin superior a 1.96 (positiva o negativa, en trminos absolutos) es del 5% (2.5% + 2.5%). El apartarse en 1.96 desviaciones tpicas de la media (independientemente del signo) se considera ya muy
inusual, muy poco probable; en muchos planteamientos de investigacin los resultados convencionalmente normales (el 95%) se sitan entre 1.96 y +1.96.
6. BREVE NOTA HISTRICA4
La distribucin normal ha sido descubierta y estudiada por diferentes personas de manera independiente, y no siempre se le ha atribuido a la misma
persona. En lo que podramos llamar historia de la distribucin normal podemos destacar estos nombres.
1. Abraham De Moivre (ltimo tercio del siglo XVII y primera mitad del
XVIII) es el primer autor en publicar una explicacin de la distribucin
4
Sobre la historia de la Distribucin Normal puede verse Lane, David (2007) (en la
referencias bibliogrficas; direccin de Internet).
77
normal (en 1733) tal como la entendemos ahora5. El objetivo y el contexto son los juegos de azar (probabilidades de ganar), aunque la
preocupacin de De Moivre era ms teolgica (el aparente desorden
del Universo es consistente con un plan inteligente; el caos es aparente porque tiene sus normas, etc.).
2. El marqus de Laplace y Carlos Federico Gauss (matemticos y astrnomos; ambos entre los siglos XVIII y primera mitad del XIX; Gauss fue
un prodigio de las matemticas) tambin estudiaron y desarrollaron la
distribucin normal (tambin denominada campana de Gauss), sobre
todo, aplicada a la observacin astronmica. Gauss denomin a esta
distribucin distribucin de errores (en sus observaciones sobre la rbita de los asteroides); de Gauss es tambin el concepto de error tpico de la media.
3. Quetelet (astrnomo belga) y Galton (ambos ya en el siglo XIX) son los
primeros en descubrir y estudiar las aplicaciones de la distribucin normal a las medidas de antropometra (altura, etc.) y a los fenmenos sociales, y de ah se pas a otro tipo de medidas (como de inteligencia y
a otras ya en el campo de la psicologa, educacin, etc.).
4. Finalmente a Karl Pearson (1857-1936) le debemos el trmino de curva normal.
inferior (percentil)
superior,
entre dos puntuaciones tpicas (la misma con distinto signo).
superior en trminos absolutos (fijndonos en las dos reas menores, como
en las figura 11 y 12)
Un direccin muy cmoda es la de Surfstat.australia: an online text in introductory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el
men Tables y escogemos Standard Normal (hay otras opciones) que presenta grficamente las diversas opciones (figura 13).
5
De Moivre deriva la distribucin normal como una expansin de la distribucin binomial.
78
LA DISTRIBUCIN NORMAL
Figura 13
a
-Z
z value
-Z
probability
Figura 14
-Z
79
CAPTULO 4
81
Las puntuaciones directas necesitan con frecuencia algn tipo de transformacin para que aporten informacin til o simplemente para poder interpretarlas con facilidad, o para poder comparar resultados individuales obtenidos con instrumentos distintos.
Es muy til tanto entender estas transformaciones como saber hacerlas
por estas razones:
a) Para poder interpretar adecuadamente las normas de los tests. Estas
normas o baremos son las claves para interpretar los resultados individuales; el usuario de los tests debe estar familiarizado con estos sistemas de transformacin e interpretacin de puntuaciones individuales.
b) No se trata ya solamente de poder interpretar adecuadamente las normas de un test, sino tambin de construirlas, es decir, de preparar las
claves de interpretacin para otros usuarios. Aunque los tests vienen ya
con sus normas, el preparar este tipo de normas o claves de interpretacin puede ser necesario por una serie de razones profesionales:
1. En tests o escalas de construccin propia;
2. Los tests publicados vienen con sus propias normas de interpretacin (en el manual del test); estas normas estn hechas a partir de
los datos obtenidos en una determinada muestra, pero si se utiliza
el test con una muestra muy distinta, puede ser necesario rehacer
esas normas con esa nueva muestra, ya que la muestra original puede no ser la adecuada como trmino de comparacin en un nuevo
grupo; lo mismo sucede cuando un test se adapta (o se traduce) para ser utilizado en otros mbitos culturales.
3. Con el paso del tiempo las normas de interpretacin pueden quedar obsoletas debido a diversos cambios sociales (puede variar incluso la capacidad lectora media, o las actitudes sociales, etc.); habr que preparar normas actualizadas con una nueva muestra
normativa (suele estimarse que la duracin media de las normas de
un test puede estar en torno a 10 aos).
c) Estas transformaciones de las puntuaciones directas tambin pueden
ser tiles en planteamientos de evaluacin o calificacin. No deben entenderse o interpretarse estas modalidades de transformacin de las
puntuaciones directas como sistemas o modos de calificacin, pero la
informacin que aportan puede ser tambin til con esta finalidad.
82
3. PUNTUACIONES DIFERENCIALES
Se denominan puntuaciones diferenciales a la diferencia entre cada puntuacin directa y la media de su distribucin.
Un smbolo frecuente de estas puntuaciones es x (equis minscula) y
tambin, para evitar confusiones con el smbolo de las puntuaciones directas
(X, equis mayscula), a veces se utiliza d:
x = d = (X -X)
Las puntuaciones superiores a la media tendrn signo positivo, y las inferiores tendrn signo negativo. Estas puntuaciones no suelen utilizarse como
expresin habitual de resultados individuales, pero intervienen en el clculo de las puntuaciones tpicas (y de la desviacin tpica como ya se vio en su
lugar).
4. L AS PUNTUACIONES TPICAS
4.1. Qu son las puntuaciones tpicas
Una puntuacin tpica expresa en cuntas desviaciones tpicas se aparta una puntuacin individual de la media de su grupo.
Las puntuaciones tpicas son por lo tanto puntuaciones diferenciales (diferencias con respecto a la media) expresadas tomando como unidad la desviacin tpica (s). En las puntuaciones tpicas s se puede decir que hay una unidad, que es la desviacin tpica.
83
[1]
El valor de z indica por lo tanto cuntas desviaciones tpicas contiene la diferencia X - X (a cuntas desviaciones tpicas equivale esa diferencia); la desviacin tpica es ahora nuestra unidad de medicin; el dato individual lo expresamos en trminos de desviaciones tpicas por encima o por debajo de la
media.
Por ejemplo imaginemos los resultados de tres sujetos (suponemos que la
muestra es mayor) en un examen; la media es X = 10 y la desviacin tpica es
s = 2 (tabla 1)
Tabla 1
84
Todos los datos quedan por lo tanto distribuidos en torno a una media =
0. El orden de los sujetos es naturalmente el mismo (el primero sigue siendo
el primero, etc.), pero los valores absolutos son muy distintos.
Por lo general estos valores, de signo ms y signo menos, tienen decimales
(se suelen conservar dos decimales) y los valores extremos tienden a estar entre -3 y + 3 cualquiera que sea la magnitud de las puntuaciones originales; es
muy difcil superar estos valores por encima o por debajo como se ha visto al
tratar de la distribucin normal.
Ya podemos ir intuyendo la utilidad de estas puntuaciones tpicas, por ejemplo para comparar y valorar resultados individuales. De todas las puntuaciones
derivadas, las puntuaciones tpicas son probablemente las ms interesantes y las
ms tiles. Su relacin con la distribucin normal las hace sumamente tiles.
4.2. Propiedades de las puntuaciones tpicas
Las puntuaciones tpicas tienen propiedades que las hacen especialmente
tiles:
1 La suma de las puntuaciones tpicas elevadas al cuadrado es igual al
nmero de sujetos:
Sz2= N
porque
Esta propiedad no tiene especial inters prctico, pero se utiliza en algunas demostraciones (por ejemplo, para demostrar que la desviacin tpica de
las puntuaciones tpicas es igual a 1, lo mismo que el valor mximo del coeficiente de correlacin de Pearson).
2 La media de las puntuaciones tpicas es igual a cero:
Z
=0
Sz
porque z = = 0
N
85
En B hemos sumado 12 puntos a cada sujeto con respecto a A, y en C hemos sumado 80 a las puntuaciones de B. Naturalmente las medias son distintas, pero las desviaciones tpicas son idnticas porque las distancias inter-individuales son las mismas: el grado de homogeneidad (diferencias de los
sujetos con respecto a su media) de los tres grupos es el mismo.
5 Si multiplicamos todas las puntuaciones directas por una constante,
la desviacin tpica queda multiplicada por esa constante, porque
en esa cantidad ha aumentado la diferencia con respecto a la media.
Lo vemos en este ejemplo:
grupo A:
8
grupo B (= Ax2):
16
10
20
12
24
media: 10
media: 20
s = 1.63
s = 3.26
Al multiplicar por dos las puntuaciones del grupo A, la desviacin tpica (lo
mismo que la media) tambin queda multiplicada por dos (1.63 x 2 = 3.26).
Estas dos propiedades son importantes porque nos permiten transformar
las puntuaciones tpicas en otras ms cmodas; son las puntuaciones tipificadas que veremos ms adelante.
86
6 En la distribucin normal hay una relacin exacta entre cada puntuacin tpica y el nmero de casos que caen por encima y por debajo de cada puntuacin, o lo que es lo mismo:
a) En la distribucin normal conocemos la probabilidad que tiene de
ocurrir cada puntuacin tpica,
b) En la distribucin normal a cada puntuacin tpica le corresponde
siempre el mismo percentil (o proporcin de sujetos o casos que
caen por debajo de esa puntuacin).
En estas propiedades radican muchas de las ventajas y de los usos de estas
puntuaciones y de sus puntuaciones derivadas, que veremos a continuacin,
como son las puntuaciones tipificadas y las puntuaciones normalizadas.
4.3. Utilidad de las puntuaciones tpicas
1. Al traducir todas las puntuaciones directas a puntuaciones tpicas tenemos una nica escala mtrica cualquiera que sea la magnitud de las puntuaciones originales, por lo que podemos comparar unos resultados con otros
con ms objetividad y realismo que si lo hacemos con las puntuaciones directas. Podemos comparar, por ejemplo, peso con altura (qu es ms, 58 Km. de
peso 1.69 m de altura?) o 20 respuestas correctas en un examen de 30 preguntas con otro resultado de 20 respuestas correctas en un examen de 50
preguntas.
Todo tipo de puntuacin, cualquiera que sea la unidad original, queda
transformado en un sistema comn; por lo tanto se puede comparar todo
con todo: resultados de exmenes con niveles de dificultad muy distintos, calificaciones puestas con criterios de exigencia distintos, etc., y tambin resultados que provienen de instrumentos distintos cuyas puntuaciones directas
no seran comparables (por ejemplo si el nmero de preguntas es distinto, o
si una es una prueba objetiva y otra una prueba abierta, etc.). Adems ya sabemos que en las puntuaciones tpicas la media es siempre 0 y la desviacin tpica es siempre 1 por lo que las puntuaciones superiores a la media son positivas, y las puntuaciones inferiores a la media son negativas. Una puntuacin
que coincida con la media del grupo, equivale siempre a una puntuacin tpica de cero.
2. Concretamente en el caso de exmenes (y en otros casos, pero el ejemplo de los exmenes es muy claro) las puntuaciones tpicas reflejan mejor
dnde est un sujeto (en trminos relativos, comparado con el resto de los
sujetos) independientemente de la facilidad o dificultad del examen.
Tenemos por ejemplo estos datos de dos exmenes de 20 preguntas (con
distinta media e idntica desviacin tpica):
87
media:
desviacin tpica
examen fcil
18
1.6
examen difcil
8
1.6
3
Ciudades ms fciles: Londres, Oporto, Venecia, Canberra, Dubln, Miln, Coimbra
y Bruselas.
Ciudades menos fciles: Montreal, Toronto, Madrs (ahora Chennai), Macao, Yakarta,
Bucarest, Praga y Orn.
Ciudades difciles: Iquitos, Manaos, Zamboanga, Sanaa, Cahabn, Chichicastenango,
Champerico y Kuala-Lampur (Iquitos est en Per, Manaos es la capital de la amazona brasilea, Zamboanga est en la isla filipina de Mindanao, Sanaa es la capital del Yemen, Kuala-Lampur es la capital de la Federacin Malaya; Cahabn, Chichicastenango y Champerico
no tienen especial dificultad si se conoce Guatemala).
88
Tabla 3
89
90
teniendo siempre en cuenta que se trata de puntuaciones relativas al grupo, por lo que es discutible utilizarlas para establecer el nivel mnimo para
el apto (que es preferirle determinar con otros criterios; el que sabe menos
puede saber lo suficiente). Es menos cuestionable su uso para asignar las
calificaciones ms altas (una puntuacin tpica en torno a +2, e incluso menor, indica ya un resultado excelente para lo que de hecho da de s un determinado grupo).
6. Para interpretar debidamente las puntuaciones tpicas hay que tener en
cuenta de qu tipo de datos se trata: no es lo mismo nmero de respuestas
correctas en una prueba objetiva que las calificaciones puestas por el profesor al corregir un examen abierto, notas, etc.
En principio estos clculos son de interpretacin ms clara cuando estn
hechos a partir de puntuaciones o resultados directos ms que cuando los
nmeros expresan calificaciones o juicios de valor.
4.4. Puntuaciones tipificadas (puntuaciones tpicas transformadas)
Las puntuaciones tipificadas son puntuaciones derivadas de las puntuaciones tpicas. El smbolo general de las puntuaciones tipificadas es Z (zeta mayscula); algunas puntuaciones tipificadas tienen sus smbolos particulares.
Las puntuaciones tpicas son incmodas para expresar resultados porque:
a) Prcticamente siempre tienen decimales,
b) Ms o menos la mitad de las puntuaciones tpicas tienen signo menos
(todas las inferiores a la media).
Por estas razones, y sobre todo para poder expresar resultados de tests de
manera ms fcilmente comprensible, suelen transformarse en otras puntuaciones ms cmodas.
Se trata de una transformacin linear, cuya frmula genrica es
Z = (z a) + b
[2]
donde a y b son dos constantes.
Es decir, todas las puntuaciones tpicas:
1 Se multiplican por una cantidad constante (a) y as se eliminan los decimales (estas puntuaciones se redondean y se expresan sin decimales);
2 Se les suma una cantidad constante (b) y as se elimina el signo menos.
Entre las puntuaciones tipificadas son muy utilizadas las puntuaciones T:
T = 10z + 50
[3]
Tambin es frecuente hacer estas transformaciones:
91
Z = 20z + 100
Z = 15z + 100
Z = 100z + 500
Al tipificar una serie de puntuaciones, automticamente tenemos una nueva media y una nueva desviacin tpica, que son siempre las mismas cualquiera que sea la escala mtrica de las puntuaciones directas originales:
1. La nueva media es igual a la constante que se suma a todas las puntuaciones.
Un sujeto cuya puntuacin directa coincidiera con la media de la distribucin, tendra z = 0, y su puntuacin T (frmula [3]) sera 10(0) + 50
= 50; si la constante que se suma es 100, la media sera 100, etc.
2. La nueva desviacin tpica es igual a la constante por la que se han
multiplicado las puntuaciones tpicas.
Un sujeto cuya puntuacin directa supere en una desviacin tpica a la
media, tendra una puntuacin tpica de z = 1, y su puntuacin T sera
T = 10(1) + 50 = 60 (la media, 50, + 1s = 50 +10).
Podemos establecer que los valores de la media y de la desviacin sean los
que queramos. Si deseamos transformar las puntuaciones de manera que la
media sea 20 y la desviacin tpica valga 5, tendremos que Z = 5z + 20, etc.
Lo mismo que en las puntuaciones tpicas, a cada puntuacin tipificada le
corresponde en la distribucin normal el mismo percentil.
Las puntuaciones tipificadas resultan mucho ms fciles de interpretar que
las puntuaciones directas, sobre todo cuando se trata de tests. Si los resultados de un test de inteligencia se han transformado de esta manera (como es
frecuente) Z = 20z + 100:
Un sujeto con una puntuacin de 100 est en la media (porque a la media
le corresponde una z igual a 0: (20)(0)+100 = 100.
Un sujeto que tenga 160 supera a la media en tres desviaciones tpicas
(100 +20 +20 +20); que es ya excepcional.
Un sujeto que tenga 60 (100 - 20 -20) est a dos desviaciones tpicas por
debajo de la media, y ya se va apartando mucho de la normalidad.
5. PERCENTILES
5.1. Concepto e interpretacin
1 Los percentiles indican el tanto por ciento de sujetos que estn por debajo de cada puntuacin.
Los percentiles son por lo tanto fciles de interpretar, de entender y de comunicar. Si un sujeto con una puntuacin de 19 (en un test, en una prueba
objetiva, etc.) supera al 45% de su grupo:
92
93
Desviacin semi-intercuartlica:
94
Figura 1
95
96
En la figura 2 podemos ver tambin (grficamente y de manera aproximada) cmo una misma diferencia en percentiles no corresponde a diferencias
iguales en puntuaciones tpicas, donde s cabe hablar de una unidad (la desviacin tpica).
Figura 2
97
98
f =
fa =
fam=
tervalos; unos 10 12 es lo normal; ms de 15 puede ser ya excesivo (cmo hacer esta agrupacin est explicado al comienzo, al tratar de la distribucin de frecuencias).
Valor o amplitud del intervalo; aqu i = 3 porque las puntuaciones
estn agrupadas de tres en tres. Si las puntuaciones estuvieran sin
agrupar (una sola puntuacin en cada intervalo) tendramos i =1.
No hay que confundir el nmero de intervalos (10 en este caso),
con el valor del intervalo (que interviene en algunas frmulas, como en el clculo de percentiles por interpolacin).
Frecuencia, o nmero de casos en cada intervalo.
Frecuencias acumuladas: se van sumando las frecuencias de abajo
arriba. La frecuencia acumulada en el intervalo superior debe ser
igual al nmero de sujetos (es til caer en la cuenta para detectar
posibles errores; en este caso N = 40 = fa en el intervalo ms alto).
Frecuencias acumuladas al punto medio; a cada frecuencia acumulada se le resta la mitad de su f correspondiente.
Tambin se calculan a veces los percentiles a partir de las frecuencias
acumuladas (P = [fa/N] 100), pero lo convencional es hacerlo a partir de las frecuencias acumuladas al punto medio. La razn de hacerlo as es porque suponemos que cada uno de los que estn en cada
intervalo (si pudiramos matizar mucho la medicin) superan a la
mitad de los que tienen idntica puntuacin y tienen por encima a la
otra mitad. Se supone que los que aparecen igualados en realidad
son distintos y as apareceran si los midiramos matizando ms.
Percentil, o tanto de por ciento de sujetos que caen debajo de cada puntuacin. Los percentiles se redondean y se presentan sin
decimales.
99
Vamos a calcular, por ejemplo, el Percentil 75. Corresponder a la puntuacin que deje por debajo al 75% de la muestra.
1 Calculamos el nmero de sujetos que necesitamos. El 75% de 58 es
igual a (58)(.75) = 43.5. El Percentil 75 ser la puntuacin que deje por
debajo a 43.5 sujetos o 75% de 58.
2 Buscamos en las frecuencias acumuladas, el nmero de sujetos que
necesitamos, que son 43.5
En este caso, como ninguna puntuacin deja por debajo a 43.5 sujetos,
localizamos la frecuencia acumulada inmediatamente inferior a la
que vamos buscando, que es 42; en la siguiente, que es 50, ya nos hemos pasado.
3 Identificamos el lmite superior de la puntuacin que corresponde a
la frecuencia acumulada localizada en el paso 2; en este caso el
percentil 75 tendr un valor de por lo menos 16.5 (sumamos medio
punto, .5, al valor superior del intervalo).
4 Calculamos el nmero de sujetos que todava nos faltan.
100
101
fa: Frecuencias acumuladas. Vamos sumando de abajo arriba, de manera que cada valor de fa (frecuencia acumulada) indica el nmero de
sujetos que tienen una puntuacin igual o inferior a la del intervalo.
As a la puntuacin directa 51-53 le corresponde una frecuencia acumulada de 9: 9 sujetos tienen una puntuacin de 53 o ms baja.
Cuando calculamos los percentiles por el mtodo habitual, las frecuencias suelen acumularse al punto medio, como hemos visto ya en el clculo directo.
(fa/N)/100: Es el tanto por ciento de sujetos que tienen esa puntuacin o
ms baja; son las frecuencias acumuladas relativas. Si no multiplica-
102
mos por 100, lo que tenemos es la proporcin (no porcentaje) de sujetos que tienen esa puntuacin o una puntuacin menor
Las columnas X y f son las mismas que hemos visto antes (X = puntuaciones directas agrupadas y f = frecuencia o nmero de casos en cada intervalo).
Estas frecuencias relativas acumuladas suelen redondearse, sin poner
decimales.
Una vez que tenemos las frecuencias acumuladas relativas o percentiles,
podemos hacer ya un grfico como el de la figura 4
El procedimiento para construir el grfico de las frecuencias acumuladas
es el siguiente:
1 En primer lugar calculamos los percentiles o frecuencias acumuladas
relativas que corresponden a cada puntuacin (tabla 8). Este clculo
tambin puede hacerse sin agrupar las puntuaciones (con intervalos de
i = 1), pero normalmente las agrupamos para tener un nmero de intervalos manejable.
2 En el eje vertical (eje Y, de las ordenadas) no ponemos las frecuencias,
sino los porcentajes. Dividimos este eje vertical (Y) de 1 a 100. Ya hemos indicado que estos grficos es preferible hacerlos con papel milimetrado, que simplifica mucho la confeccin del cuadro y se gana en
exactitud.
3 En el eje horizontal (X, de las abscisas) sealamos los lmites superiores de cada intervalo (y esto por el mismo concepto de frecuencia
acumulada, nos situamos en el lmite superior de cada posible puntuacin).
4 Por cada intervalo situamos el punto donde confluyen el lmite superior del intervalo y la frecuencia acumulada relativa calculada previamente. Los puntos resultantes se unen mediante una curva (en el
ejemplo se ha hecho con rectas y slo de manera aproximada). Si la
distribucin es simtrica el grfico tender a tener la forma de una S.
Observando el grfico que nos sirve de ejemplo puede verse cmo se calculan los percentiles, sin necesidad de operaciones. Basta con trazar desde
cualquier percentil (los porcentajes del eje vertical) una paralela al eje X de
las puntuaciones directas, y desde donde esta paralela corta la curva se traza
una perpendicular al eje X, que nos indicar la puntuacin directa correspondiente al percentil buscado.
En este caso la mediana (o percentil 50) es igual a 61: los que tienen una
puntuacin de 61 superan al 50% del grupo.
103
Figura 4:
GRFICO DE LAS FRECUENCIAS RELATIVAS ACUMULADAS (OJIVA)
100
95
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
15
10
5
0
Q3 = P75 = 65
M = P50 = 61
Q2 = P25 = 54
50.5 53.5 56.5 59.5 62.5 65.5 68.5 71.5 74.5 77.5
6. PUNTUACIONES NORMALIZADAS
Las puntuaciones normalizadas equivalen a las puntuaciones (tpicas o
tipificadas, o percentiles) que habra si la distribucin fuera normal. Por eso
mismo se denominan normalizadas: se supone que la distribucin es normal. Si de hecho la distribucin original se aparta mucho de la distribucin
normal, es discutible hacer esta transformacin. Frecuentemente la distribucin observada es parecida a la normal, y aumentando el nmero de sujetos
podemos suponer que la distribucin no se desviara mucho de la distribucin normal.
Las puntuaciones normalizadas pueden ser o puntuaciones tpicas o percentiles. Lo ms frecuente es que se trate de puntuaciones tpicas (o de sus
puntuaciones derivadas), pero los percentiles normalizados pueden ser sumamente tiles en ocasiones
6.1. Puntuaciones tpicas normalizadas
El proceso de clculo es semejante al clculo directo de los percentiles; realmente seguiremos el mismo proceso, con la diferencia final de que no utilizaremos el percentil sino la puntuacin tpica correspondiente a cada percentil en la distribucin normal.
104
1 Se calcula la proporcin de sujetos que caen debajo de cada puntuacin. Esta proporcin de sujetos se calcula as para cada puntuacin (como se
ha hecho en la tabla 6):
Proporcin de sujetos que caen
por debajo de cada puntuacin
frecuencia acumulada al
punto medio
fam
= =
nmero de sujetos
N
En esta tabla 9:
X
= puntuaciones directas
f
= frecuencia o nmero de casos
fa
= frecuencias acumuladas
fam = frecuencias acumuladas al punto medio (fa-f/2)
fam/N= fam dividido por el nmero de sujetos (N)
105
4
Podemos consultar las tablas de la distribucin normal o podemos acudir a alguna
fuente de Internet como Surfstat.australia: an online text in introductory Statistics
http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el men Tables y escogemos Standard Normal (figura 13 en el captulo de la distribucin normal) y sealamos la curva identificada con la letra a; tambin a partir de la columna fam/N de la tabla 9
podemos identificar el estanino correspondiente como veremos en el prximo apartado.
106
5
El trmino estanino (stanine en ingls) se deriva del ingls STAndard NINE-point
scale, nueve puntuaciones tipificadas o estandarizadas; en espaol tambin se emplea el
trmino eneatipo, de la raz griega enea que significa nueve. Este tipo de puntuaciones lo
desarroll y populariz la Fuerza Area de EE. UU. en 1942, durante la segunda guerra
mundial. Para interpretar muchos tests nueve intervalos puede ser suficiente; adems se
pretenda que todas las puntuaciones fueran de una sola cifra.
107
En la tabla 10 tenemos:
a) Los lmites de los estaninos en la distribucin normal, en puntuaciones
tpicas y en percentiles (aqu proporcin de casos que caen por debajo en la distribucin normal). La primera columna de las puntuaciones
tpicas nos indica la puntuacin tpica que equivale a cada percentil en
la distribucin normal, pero como referencia para localizar las puntuaciones normalizadas es ms cmodo calcular las proporciones de la segunda columna (que corresponden a la columna fam/N de la tabla 6)6.
b) El valor del estanino; se numeran los nueve intervalos. La media es 5
(intervalo central) y la desviacin vale 2 aproximadamente.
c) En la columna siguiente se puede observar cmo cada estanino comprende media desviacin tpica, excepto los dos extremos que quedan abiertos.
d) En la ltima columna tenemos el porcentaje de casos en cada estanino
en la distribucin normal.
Limitaciones de los estaninos.
a) Aunque de estanino a estanino podemos suponer que hay un incremento idntico (de .5 s), esto no sucede en las puntuaciones extremas, 1 y 9, pues tienen los lmites abiertos. En estas puntuaciones extremas puede haber sujetos muy distintos; se matiza menos en los
extremos de la distribucin y esto puede ser una limitacin (aunque esta limitacin afecta a muy pocos sujetos).
b) Otra limitacin es que se pueden magnificar pequeas diferencias en
los casos lmite entre estaninos contiguos.
Si deseamos un nivel mayor de matiz (no siempre deseable) podemos calcular puntuaciones tpicas normalizadas (consultando las tablas de la distribucin normal) en las que a cada percentil le corresponde una puntuacin tpica, o podemos utilizar otros criterios para dividir la distribucin normal
(como puede verse ms adelante en la tabla 12).
Podemos calcular los estaninos de diversas maneras.
1. Si calculamos las puntuaciones tpicas de los sujetos y las agrupamos
en intervalos segn los lmites de cada estanino en puntuaciones tpicas (primera columna de la tabla 10), tendremos estaninos pero sin normalizar; este procedimiento es adems muy laborioso y no suele utilizarse.
2. Podemos ordenar las puntuaciones de ms a menos y seguimos los
porcentajes puestos en la ltima columna de la tabla 10: al 4% ms alto le asignamos el estanino 9, al 7 % siguiente el estanino 8, etc.
6
Tambin podramos utilizar la ltima columna de la tabla 8, sin multiplicar por 100.
108
109
Tabla 11
110
tpica (o una fraccin) como criterio. En la tabla 12 vemos varios tipos de puntuaciones que podemos comparar con facilidad.
Las puntuaciones tpicas y los percentiles que estn subrayados son los lmites de los estaninos, as el estanino 9 comienza a partir de z = + 1.75 o p = .959.
La escala 11 son los estaninos ya vistos, pero subdividiendo los intervalos
extremos donde puede haber sujetos muy diferentes; quedan en total 11 divisiones (de 0 a 10, o si se prefiere evitar el cero, de 1 a 11); puede ser una
buena alternativa a los estaninos y tambin es utilizada. La escala 20 (de 1 a
20, o de 0 a 19) es menos usual pero tiene un mayor nivel de matiz; cada intervalo comprende .25 s.
Tabla 12
PUNTUACIONES NORMALIZADAS: LMITES Y EQUIVALENCIAS
111
Ya hemos indicado que una limitacin de los estaninos est en que en los
extremos (estaninos 1 y 9) puede haber sujetos muy distintos (y con mayor
razn en los pentas). Con la escala 11 matizamos mejor en los extremos (los
estaninos 9 y 1 se subdividen y quedan 11 puntuaciones distintas). Si nos basta una clasificacin menos matizada, podemos utilizar los pentas. En todos estos casos se trata de puntuaciones agrupadas para minimizar pequeas diferencias.
Lo que s es claro es que si se desea dividir un grupo en subgrupos segn
sus resultados en algn tipo de un test (no necesariamente para calificar) no
hay que buscar que cada subgrupo tengo un idntico nmero de sujetos. En
la tabla 13 tenemos un grupo dividido en cinco subgrupos segn dos criterios. Los juicios verbales (muy bien, bien, etc.) son en este caso arbitrarios.
Tabla 13
112
puntuaciones tpicas que separan las pentas (por encima del percentil 93 corresponde un 5, entre los percentiles 93 y 64, corresponde un 4, etc.) (tablas
11 y 12).
6.3. Percentiles normalizados: clculo de los percentiles a partir de la
media y de la desviacin tpica
Cuando de un grupo solamente conocemos la media y la desviacin tpica en cualquier test y deseamos dar a los sujetos una clave de interpretacin
individual, podemos hacerlo a partir de estos datos, calculando una serie de
percentiles normalizados.
Hemos visto que si conocemos el percentil correspondiente a una determinada puntuacin directa, podemos ver en las tablas de la distribucin normal a
qu puntuacin tpica corresponde. Si una puntuacin deja por debajo el 84%
de los casos (o una proporcin de .84), ya sabemos que en la distribucin normal a esa puntuacin directa le corresponde una puntuacin tpica de z = 1
(porque por debajo de z =1 cae el 84% de los casos). A z = 0 (cuando la puntuacin directa coincide con la media), le corresponder el percentil 50.
De manera inversa, si conocemos una puntuacin tpica, ya sabemos a qu
percentil corresponde en la distribucin normal: si un sujeto tiene una puntuacin tpica de z = 1, ya sabemos que est en el percentil 84. Se trata de un
percentil normalizado: el que tendra ese sujeto si la distribucin fuera normal.
Sobre estos percentiles normalizados:
a) El clculo es muy sencillo: nos basta calcular las puntuaciones tpicas
de cada puntuacin directa y ver en las tablas el percentil correspondiente (en las tablas viene en forma de proporcin; multiplicamos por
100, redondeamos decimales, y ya tenemos el percentil en su expresin habitual).
Por ejemplo si la media es igual a 20.5 y la desviacin tpica es igual a
3.5 A qu percentil corresponder una puntuacin directa de 21?
21-20.5
La puntuacin tpica de X = 21 ser igual a z= = .14
3.5
En las tablas vemos que por debajo de z = .14 cae una proporcin de
casos de .555; multiplicando por 100 y eliminando los decimales tenemos que a X = 21 le corresponde el percentil 55.
b) Al consultar las tablas no hay que olvidar que si la puntuacin tpica es
positiva encontraremos el percentil en el rea mayor, y si la puntuacin tpica es negativa, encontraremos el percentil en el rea menor.
113
c) Si la distribucin de las puntuaciones reales, observadas, se aparta notablemente de la distribucin normal, estos percentiles pueden quedar
muy distorsionados. Con muestras razonablemente grandes el clculo
de estos percentiles normalizados tiene ms sentido.
d) Una utilidad clara de estos percentiles normalizados, y que es la que
realmente justifica este apartado, la tenemos cuando de un grupo slo conocemos la media y la desviacin tpica en algn test o escala, y
deseamos preparar unas normas o baremos para interpretar las puntuaciones individuales.
En estos casos nos puede bastar buscar las puntuaciones directas que
corresponden a una serie de percentiles previamente escogidos como
referencia suficiente. En la tabla 14 tenemos una serie de percentiles y
las puntuaciones tpicas que les corresponden en la distribucin normal; nuestra tarea ser localizar las puntuaciones directas (X) que corresponden a esas puntuaciones tpicas.
Tabla 14
X = (s)(z)+X
[6]
114
115
116
Figura 6
117
118
CAPTULO 5
119
120
Figura 1
DIAGRAMAS DE DISPERSIN
relacin positiva
moderna
ausencia de relacin
Tabla 2
121
En esta disposicin de los datos hemos dicotomizado el grupo por la mediana de respuestas correctas (15 alumnos 36 o menos y otros 15 alumnos
37 o ms). Con este planteamiento (sujetos agrupados en categoras) caben
otros anlisis que veremos en al captulo del ji cuadrado.
1.4. Correlacin, covarianza y dispersin: importancia de las diferencias
Es importante caer en la cuenta desde el principio de la importancia de
las diferencias interindividuales para poder comprobar relaciones: sin diferencias en los sujetos (u objetos) no podemos ver relaciones. Sin diferencias
122
123
son los mismos que cuando las dos variables son continuas (y podemos utilizar calculadoras y programas informticos que tienen ya programada la correlacin r de Pearson).
Cuando las dos variables son dicotmicas no se trata propiamente del coeficiente de Pearson (en principio referido a dos variables continuas) sino del
coeficiente f (fi); se puede incluir aqu porque realmente equivale al coeficiente de Pearson calculado con datos dicotmicos aunque tambin tiene frmulas especficas1. Tambin tiene sus peculiaridades (el valor mximo no es
siempre 1). En un apartado final (n 7) explicamos brevemente ste y otros tipos de coeficientes de relacin.
2. L A MEDIDA DE LA RELACIN
2.1. Cmo cuantificamos o medimos el grado de relacin
Es sencillo y til entender cmo podemos cuantificar (medir) esta variacin conjunta y adems ayuda a la comprensin e interpretacin de estas
medidas de relacin.
Si las dos variables estn
relacionadas y esta relacin
es positiva
Este estar por encima o por debajo de la media en dos variables simultneamente nos va a permitir cuantificar el grado de relacin, tal como se explica en la figura 3. Lo explicamos por pasos:
1 La distancia, o diferencia, de un sujeto con respecto a la media podemos expresarla de dos maneras:
1
Si en una calculadora con programacin estadstica introducimos unos y ceros, el
valor de r que nos d es el valor de f, por eso tiene sentido incluir aqu este coeficiente.
124
125
[1]
Correlacin:
[2]
Por lo tanto correlacin (smbolo rxy o simplemente r) y covarianza (smbolo sxy) expresan lo mismo: cuantifican el grado de covariacin y a ese grado de covariacin le denominamos relacin. Realmente el coeficiente de
correlacin no es otra cosa que la covarianza calculada con puntuaciones tpicas.
Correlacin y covarianza se relacionan mediante estas frmulas:
sxy
rxy (correlacin) =
[3]
sx sy
[4]
126
127
128
El coeficiente de correlacin entre A y B es exactamente r = 1, la mxima relacin posible; sin embargo sus medias son muy distintas: el personaje A tiene una media de 5.5 (muy alta en una escala de 1 a 6, gusta
a todos) y el personaje B muy baja (1.5, no gusta a nadie). Lo que sucede es que los que valoran mejor al personaje A tambin valoran mejor
(en trminos relativos) al personaje B y viceversa: los sujetos que valoran menos al personaje A tambin valoran menos al personaje B.
El personaje C tiene una media de 4, su relacin con A es r = 0 y su relacin con B es tambin r = 0: cmo valoran los sujetos a los personajes A y B no tiene nada que ver con cmo valoran al personaje C2.
En la tabla 6 tenemos otro ejemplo de cuatro alumnos con calificaciones en cuatro asignaturas.
Tabla 6
En este ejemplo:
Una tentacin es afirmar que entre Fsica y Matemticas hay una relacin muy alta, sin embargo la correlacin entre Fsica y Matemticas es
cero; no se puede decir que los alumnos tengan el mismo orden en las
2
Si quisiramos medir la proximidad o parecido en valores absolutos entre estos
personajes, habra que utilizar otra tcnica que se estudia en relacin con el Diferencial
Semntico de Osgood, la denominada distancia euclidiana (simbolizada D; puede verse
Morales, Urosa y Blanco, 2003, pg. 38). Un coeficiente de correlacin alto indica orden semejante, no medias semejantes.
129
e)
f)
g)
h)
i)
130
No medimos rasgos o caractersticas puras o abstractas, por eso los coeficientes de correlacin hay que interpretarlos teniendo en cuenta cmo han sido medidos esos rasgos. Cuando decimos que la autoconfianza est relacionada con el rendimiento acadmico, hay que
sobrentender tal como medimos o expresamos estas variables con estos instrumentos. sta es una razn (entre otras) por la que entre las
mismas variables podemos encontrar coeficientes de correlacin muy
distintos: a veces (cuando las medimos con instrumentos distintos) no
se trata realmente de las mismas variables exactamente, salvo en un
sentido muy genrico.
3.2. Correlacin y causalidad
La causalidad merece un comentario especfico porque en el contexto de la
correlacin es fcilmente fuente de errores de interpretacin (al menos es una
tentacin el interpretar algunas correlaciones como pruebas de causalidad).
El concepto de causa es complejo y el lugar propio para su estudio est
ms en la filosofa que en los anlisis estadsticos. En nuestro contexto podemos dar una definicin puramente operacional de causalidad para su uso limitado a la investigacin experimental: establecemos una relacin de causa
a efecto cuando podemos mostrar que una variable independiente sistemticamente produce cambios (influye) en una variable dependiente, una
vez controlado el influjo de otras variables extraas.
Con esta nocin de causalidad s podemos hacer unos comentarios sobre
correlacin y causalidad.
a) Una correlacin no puede interpretarse como prueba de una relacin
causal; el que dos variables covaren, se den juntas, no quiere decir
que una sea causa de la otra. Una correlacin s nos puede dar pistas
para proponer hiptesis sobre posibles relaciones causales.
Aunque de hecho hubiera una relacin de causa a efecto, esta relacin
no queda demostrada por un coeficiente de relacin.
b) Para poder hablar de causalidad, al menos como hiptesis, hay que poder excluir otras explicaciones. Frecuentemente la explicacin de por
qu dos variables estn relacionadas entre s es que ambas estn a su
vez relacionadas con una tercera variable (que tampoco es necesariamente causa de las otras dos pero s puede ser una buena explicacin). Peso y altura estarn relacionadas en una muestra de nios de 2
a 10 aos porque tanto el peso como la altura estn relacionados con la
edad.
c) El coeficiente de correlacin trata las dos variables como simtricas:
nos da lo mismo calcular la correlacin de A con B que la de B con A. Si
131
132
[6]
Tenemos, por ejemplo, estos dos coeficientes de correlacin calculados en
las mismas dos variables en dos muestras distintas:
En una muestra de N = 60 r = .45
En una muestra de N = 120 r = .30
Correlacin media:
Esta media ponderada es de clculo sencillo, de fcil comprensin y no
distorsiona ms la verdadera media que lo que la distorsiona la transformacin de Fisher4. Si el nmero de sujetos es el mismo se calcula directamente
la media aritmtica.
Tambin es frecuente utilizar la mediana en vez de la media (el uso de la
mediana es siempre apropiado) cuando se dispone de una serie de coeficientes de correlacin y se quiere indicar una medida de tendencia central.
Como siempre que se utiliza la mediana en vez de la media hay que recordar dnde est la diferencia entre ambos estadsticos. Como la mediana es
simplemente el valor central que divide a la muestra (de coeficientes en este
caso) en dos mitades iguales, no se ve afectada por valores extremos que s se
influyen y se notan en la media. Unos pocos coeficientes atpicos (o muy altos o muy bajos), o un solo coeficiente muy atpico, pueden sesgar la media
como valor representativo en una direccin. En estos casos puede ser preferible utilizar la mediana, o ambos valores, la media y la mediana.
3.4. El coeficiente de determinacin
El coeficiente de correlacin elevado al cuadrado (r2) se denomina coeficiente de determinacin e indica la proporcin (o porcentaje si multiplicamos por 100) de variabilidad comn: indica la proporcin de varianza de
una variable determinada por o asociada a la otra variable.
En trminos ms simples, r2 indica el tanto por ciento (r2 x 100) de acuerdo, de rea comn o de variabilidad comn entre ambas variables. Un coeficiente de r = .50 indica un 25% de varianza comn entre ambas variables
(.502 =.25). Una correlacin de r = .50 entre un test de inteligencia abstracta
4
La transformacin de Fisher tiene un sesgo positivo: la media resultante es ligeramente mayor de lo que debera ser. Con la media ponderada por el nmero de sujetos (frmula
[6]) la media que resulta es ligeramente menor, pero la desviacin es menor en trminos absolutos que la que provoca la transformacin de Fisher, y con muestras grandes (a partir de N
= 40) el margen de error es muy bajo y slo afecta al tercer decimal (Hunter y Schmidt, 1990).
133
y rendimiento en matemticas, indica que el 25% de las diferencias en matemticas (propiamente el 25% de la varianza en matemticas) tiene que ver
con (depende de o se explica por) las diferencias en el test de inteligencia
abstracta. Un coeficiente de .30 expresa solamente un .302 o un 9% de variabilidad en una variable asociada a la variabilidad o diferencias en la otra variable.
Los valores de r2 s pueden compararse entre s directamente; por ejemplo:
r = .20 indica un 4% de acuerdo entre las dos variables (.202 =.04);
r = .40 indica un 16% de acuerdo entre las dos variables (.402 =.16);
r = .60 indica un 36% de acuerdo entre las dos variables (.602 =.36).
Se ve con claridad que de r =.60 a r =.40 (del 16% al 36%) hay ms distancia que de r =.40 a r =.20 (del 16% al 4%), aunque aparentemente las diferencias sean idnticas (de .20). El elevar al cuadrado el valor del coeficiente
de correlacin ayuda a interpretarlo.
Los valores de r bajan drsticamente cuando los trasformamos en r2 y esto
puede hacernos pensar que las correlaciones bajas son de menor importancia.
Por ejemplo r = .32 significa solamente un 10% (.322) de varianza comn; muy
poco, solamente el 10% de la variabilidad (o de las diferencias) en una variable
est asociada a diferencias en otra variable. A pesar de esto no conviene infravalorar la importancia potencial de los coeficientes pequeos pues pueden aportar informacin de mucho inters o decir ms de lo que parece (lo veremos al
tratar de la valoracin de la magnitud de estos coeficientes). Aun as y en trminos generales, los coeficientes ms bien bajos (inferiores a .30) suelen tener
poco inters prctico aunque si son estadsticamente significativos (qu significa esta expresin lo vemos en el prximo apartado) se pueden prestar a una
buena elaboracin terica e interpretativa.
3.5. La significacin estadstica de los coeficientes de correlacin
3.5.1. Qu es un coeficiente de correlacin estadsticamente
significativo
Lo primero en lo que solemos fijarnos es en la magnitud del coeficiente
de correlacin. Antes podemos comprobar si el coeficiente es mayor de lo
que se puede esperar por puro azar.5
5
Hasta aqu hemos tratado de la correlacin dentro de la estadstica descriptiva;
ahora estamos ya en estadstica inferencial, tema que retomaremos al tratar del error tpico de la media y del contraste de medias. En muchos textos la estadstica meramente
descriptiva y la estadstica inferencial se tratan en captulos o partes distintas; aqu preferimos tratar conjuntamente todo lo referido a la correlacin, al menos lo que juzgamos ms
importante para interpretar adecuadamente estos coeficientes.
134
Podemos entenderlo con un ejemplo muy simple. Entre dos variables obviamente no relacionadas (como da de nacimiento y nmero de plantas
que uno tiene en su casa) difcilmente obtendremos r = 0.0000. Por simple
casualidad obtendremos algn valor, positivo o negativo, distinto de cero.
Con 5 sujetos un valor de r =.30 puede ser casual (una mera coincidencia;
un sujeto con muchas ventanas en su casa naci a finales de mes) y en cambio con 100 sujetos es muy improbable obtener r =.20 por casualidad, sin
que exista alguna relacin. Ya podemos intuir que con pocos sujetos necesitaremos un valor mayor para poder rechazar la casualidad, y que con muchos sujetos un valor pequeo es muy improbable que sea casual (o explicable por el error muestral, en trminos ms propios).
3.5.2. El modelo terico
Es importante entender el modelo terico en el que nos basamos para llegar a la conclusin de que un coeficiente de correlacin es mayor de lo que
podramos esperar por azar y poder afirmar por lo tanto que con toda probabilidad expresa una verdadera relacin (o correlacin estadsticamente significativa). El mismo modelo lo veremos tambin en planteamientos semejantes. Lo exponemos paso a paso, de manera muy sucinta.
1) Suponemos que calculamos el coeficiente de correlacin entre dos variables que no estn relacionadas (podemos pensar en el ejemplo anterior,
da de nacimiento y nmero de plantas que uno tiene en su casa).
2) Suponemos tambin que esta correlacin la calculamos en un nmero
muy grande de muestras (realmente no calculamos nada, se trata de un
modelo terico).
3) Aunque la correlacin esperada sea igual a cero (estamos suponiendo
que no hay relacin) no siempre obtendremos r = 0; por puro azar
unas veces tendremos una correlacin distinta de cero y positiva y
otras veces tendremos una correlacin distinta de cero y negativa,
aunque lo normal es que se trate de valores muy pequeos.
4) Al calcular muchos coeficientes de correlacin entre estas dos variables
que no estn relacionadas tendremos una distribucin normal de los
coeficientes de correlacin. Esta distribucin tendr su media y su desviacin tpica.
5) Estas distribuciones se denominan distribuciones muestrales (no es la
distribucin de unas puntuaciones individuales sino de estadsticos o
medidas de muchas muestras hipotticas; tambin hablaremos de la
distribucin muestral de la media).
6) La media de esta distribucin ser igual a cero (ste es nuestro supuesto en caso de no relacin); los valores positivos y negativos se anulan mutuamente.
135
La desviacin tpica de esta distribucin no la conocemos pero s podemos estimarla. En estos planteamientos (distribuciones muestrales
hipotticas) la desviacin tpica se denomina error tpico.
La interpretacin es la misma que hacemos de la desviacin tpica en
la distribucin normal, as por ejemplo el 95% de los casos caern entre la media (= 0) ms menos 1.96 errores tpicos, y solamente el 5%
de los coeficientes de correlacin se apartar de una media de cero en
+1.96 errores tpicos o en 1.96 errores tpicos, tal como aparece en la
figura 4. La mayora de los valores estarn en torno a cero.
Figura 4
correlacin media = 0
7) Cuando nos preguntamos si un coeficiente de correlacin es estadsticamente significativo, lo que nos preguntamos es si es probable que
ocurra cuando no hay relacin, o, lo que es lo mismo, si es probable
que ocurra cuando la media de las posibles correlaciones entre esas
dos variables es cero.
Si nuestro coeficiente es muy poco probable cuando no hay relacin,
es entonces cuando concluiremos que el coeficiente de correlacin es
estadsticamente significativo: es demasiado grande para ese nmero
de sujetos como para que sea casual y expresa por lo tanto una verdadera relacin distinta de cero. Dicho de otra manera, no pertenece a la
poblacin de coeficientes cuya media es cero.
8) Para decidir si un coeficiente de correlacin es probable o improbable
cuando la media de los posibles coeficientes de correlacin es cero, necesitamos un criterio (en qu punto empieza lo improbable).
El criterio convencionalmente aceptado es que lo que por azar sucede
ms de 5 veces de cada 100 est dentro de lo probable, y lo que por
136
azar sucede 5 o menos de 5 veces de cada 100 lo consideramos ya improbable o fuera de lo normal. A este criterio le denominamos nivel de
confianza, y se expresa a = .05 cuando consideramos poco probable
lo que sucede menos del 5% de las veces (tambin se expresa a veces
as: nivel de confianza del 95% que son las probabilidades de no equivocarnos al afirmar la relacin).
9) Ya sabemos que en la distribucin normal el 95% de los casos estn entre
la media (que es igual a cero en nuestro modelo de la figura 4) y ms menos 1.96 errores tpicos. Diremos por lo tanto que un coeficiente de correlacin es estadsticamente significativo cuando se aparte de la media
cero en ms de 1.96 errores tpicos. Volviendo a la figura 4, un coeficiente de correlacin es estadsticamente significativo si no est en el 95%
central de los posibles coeficientes de correlacin cuya media es cero.
Cuando la probabilidad de que ocurra en el caso de no relacin es inferior al 5% se expresa as: p < .05; si esta probabilidad es superior al 5%
lo expresamos as: p > .05.
10) Aunque nuestro nivel de confianza sea .05, tambin es informativo indicar si las probabilidades de que la correlacin son inferiores al 1%
(p<.01) o al 1/1000 (p < .001). Lo que se suele recomendar es indicar la
probabilidad exacta (por ejemplo p = .02) sin limitarse a poner si es superior o inferior (p<.05 o p.05) a una determinada probabilidad previamente especificada6.
3.5.3. Interpretacin de una correlacin estadsticamente
significativo
Es importante entender bien qu significa el decir que una correlacin es
o no es estadsticamente significativa.
Una correlacin estadsticamente significativa, por ejemplo p < .05,
quiere decir que si no hay relacin en la poblacin (es decir, si se da esa
condicin importante de ausencia de relacin) la probabilidad de obtener
un coeficiente de esa magnitud por puro azar es inferior al 5%.
En la prctica, y cuando una correlacin es estadsticamente significativa
(porque p <.05 si .05 es nuestro nivel de confianza):
a) Podemos afirmar con mucha seguridad que en la poblacin esa correlacin no es cero: si no hubiera ningn tipo de relacin es muy improbable obtener el coeficiente que hemos obtenido. Podemos afirmar el
hecho de la relacin.
6
Las probabilidades exactas, si no nos las da ya un programa de ordenador, se buscan fcilmente en alguna de las direcciones de Internet puestas en el Anexo II.
137
b) Lo que no podemos afirmar es que en muestras semejantes (de la misma poblacin) obtendramos coeficientes de magnitud semejante (interpretacin frecuente y errnea). Para hablar de la magnitud de la correlacin en general (en la poblacin) necesitamos acudir a los
intervalos de confianza de los que trataremos enseguida.
Cuando una correlacin no es estadsticamente significativa (porque p
>.05):
a) Una correlacin no significativa es una correlacin que no podemos
generalizar sin ms. Con los datos que tenemos no podemos afirmar
que en la poblacin (en otras muestras semejantes) hay una relacin,
aunque sea pequea, y distinta de cero.
b) Por otra parte una correlacin no significativa no es prueba de no relacin en la poblacin (podramos encontrarla quizs en muestras mayores, o utilizando otras medidas ms precisas, etc.; no probar que hay
relacin no es lo mismo que probar que no hay relacin).
Con muestras muy pequeas podemos encontrar coeficientes de correlacin relativamente grandes pero no estadsticamente significativos (el cero
es un valor probable; no nos permiten extrapolar el hecho de la relacin a
otras muestras de la misma poblacin).
Aunque con frecuencia los coeficientes de correlacin no estadsticamente significativos suelen ser pequeos (sobre todo en muestras grandes) cuando el signo de la relacin est en la direccin esperada y la muestra es pequea, es posible que obtengamos una correlacin estadsticamente
significativa en muestras mayores (al menos se puede proponer como hiptesis razonable).
Los coeficientes de correlacin estadsticamente significativos pero muy
bajos (caso frecuente en muestras relativamente grandes) suelen ser de poca
relevancia prctica, aunque no podemos despreciar sin ms los coeficientes
pequeos (si son estadsticamente significativos) porque pueden dar buen
juego interpretativo desde una perspectiva ms terica o metodolgica, como veremos despus.
3.5.4. Cmo comprobamos si un coeficiente de correlacin es
estadsticamente significativo
El primer paso por lo tanto para interpretar un coeficiente de correlacin es
comprobar si es mayor de lo que podra esperarse por azar, o utilizando la expresin habitual, comprobar si es estadsticamente significativo. Una correlacin estadsticamente significativa es una correlacin muy improbable por
138
.05
.5760
.01
.7079
.001
.8233
Aunque consultemos tablas o vayamos a direcciones de Internet que nos lo dan resuelto, conviene entender qu estamos haciendo.
8
Tablas semejantes figuran en muchos textos; tambin podemos consultar las direcciones de Internet puestas en el Anexo II.
139
Siempre que el valor de nuestra correlacin sea igual o mayor que el valor
indicado en la columna .05, podemos concluir que la correlacin es estadsticamente significativa (improbable por azar; ese coeficiente de correlacin
lo podramos encontrar, sin que se d relacin, 5 veces o menos de cada 100).
Si supera los valores de las columnas .01 .001 se indica de esta manera: p<
.01 p< .001.
Ya hemos indicado en el apartado anterior que este 5% es el lmite convencional y aceptado para rechazar el azar (el error muestral en trminos ms
apropiados) como explicacin, por lo que podramos concluir que s hay relacin aunque sta puede ser pequea y de poco valor prctico. Una correlacin estadsticamente significativa no significa una correlacin grande.
El poner un 5% de probabilidades de error (para afirmar que s hay relacin) es un criterio usual aunque arbitrario; si uno desea ms seguridad puede poner como lmite un 1% de probabilidad de error; son los dos lmites
convencionales ms utilizados.
b) Con muestras de ms de 100 sujetos
Vemos en cuntas desviaciones tpicas (errores tpicos) se aparta nuestro coeficiente de correlacin de una correlacin media de cero; es decir calculamos
la puntuacin tpica (z) correspondiente a nuestro coeficiente de correlacin:
[7]
[8]
En el numerador de la frmula [7] tenemos la diferencia entre nuestra correlacin y una correlacin media de cero; lo que tenemos en el denomina-
140
dor es el error tpico (o desviacin tpica) de la distribucin de las correlaciones cuando la correlacin media es cero. Lo que hemos hecho es por lo
tanto calcular una puntuacin tpica: nos indica, utilizando los trminos convencionales, en cuntas desviaciones tpicas (o errores tpicos) se aparta
nuestra correlacin de una correlacin media de cero. Y ya sabemos (por las
tablas de la distribucin normal) que un valor que se aparte de la media en
ms de 1.96 desviaciones (fijndonos en ambos extremos de la distribucin)
slo ocurre por azar 5 veces de cada 100 o menos.
Por ejemplo: encontramos una correlacin de r = .14 en una muestra de
275 sujetos; aplicando la frmula [8] (ms sencilla que la [7]) tendremos que
que supera el valor de z = 1.96 por lo que podemos
concluir que una correlacin de r = .14 en esa muestra, en el caso de no relacin, la obtendramos por azar menos de cinco veces de cada 100 (p< .05);
nuestra conclusin ser que esa correlacin es estadsticamente significativa.
c) Cuando de los mismos sujetos tenemos varios coeficientes de
correlacin
En vez de aplicar la frmula [7] o la frmula [8] a cada coeficiente, podemos construir nuestras propias tablas, cuando el nmero de sujetos es siempre el mismo y los valores de z de inters tambin son siempre los mismos
(los que figuran en la tabla 6). En la frmula [7] podemos despejar los valores
de r que nos interesan:
Si
podemos despejar r;
[9]
Por ejemplo, si nuestros sujetos son N = 212, nuestras tablas sern estas9:
Para p .05
Para p .01
Para p .001
9
Dado un nmero determinado de sujetos (N) los valores correspondientes a .05,
.01 y .001 nos lo da directamente Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp, buscando minimum r to be significant. Esta direccin, y otras que nos dan la
misma informacin, tambin est en el Anexo II.
141
sr =
[10]
sr =
[11]
El error tpico, lo mismo que una desviacin tpica, nos indica el margen
de variabilidad probable (de oscilacin) de los coeficientes de correlacin si
los calculramos en muchas muestras. Como suponemos una distribucin
normal, el 95% de los casos de los coeficientes de correlacin caen entre la
correlacin obtenida en la muestra (la media de la distribucin) ms 1.96
10
En este apartado, lo mismo que en el anterior, no nos limitamos a hablar de la correlacin obtenida en una muestra concreta que describe la relacin entre dos variables en
esa muestra, sino que estamos tratando de la correlacin en la poblacin. Cuando a partir de los datos obtenidos en una muestra deducimos los valores probables en la poblacin
(extrapolamos) estamos ya en estadstica inferencial y no meramente descriptiva.
142
errores tpicos y la correlacin obtenida menos 1.96 errores tpicos. Estos son
los intervalos de confianza de la correlacin, como podemos ver representado en la figura 5 (con un nivel de significacin de .05).
Figura 5
95% de los
coeficientes
de correlacin en
muestras de la
misma poblacin
Lmite mnimo
probable en la
poblacin
Lmite mximo
probable en la
poblacin
143
Vemos que entre estos lmites extremos probables no se encuentra el cero, por eso la correlacin es estadsticamente significativa (distinta de cero
en la poblacin), aunque el lmite inferior es casi cero.
Vamos a ver un ejemplo de correlacin no estadsticamente significativa.
En una muestra de N = 120 y r = .14 vemos que (frmula [8])
z = .14
120 1 = 1.53
Como no llegamos al valor crtico de 1.96 concluimos que p > .05; la probabilidad de obtener un coeficiente de esa magnitud es superior al 5%. Nuestra conclusin ser que esta correlacin no es estadsticamente significativa.
Calculamos ahora los lmites extremos (intervalos de confianza) de ese
coeficiente en la poblacin:
Lmite inferior:
1
.14 1.96 () = .14 - .179 = -.04
120 1
Lmite superior:
1
.14 + 1.96 () = .14 + .179 = +.319
120 1
144
Tabla 7
otras muestras esta conflictividad suele ser aparente como podemos comprobar si calculamos entre qu lmites pueden oscilar estos coeficientes: cualquiera de los dos coeficientes podran caer dentro de los lmites del otro11.
Aqu es oportuno hacer dos observaciones:
1. Cuando calculamos los intervalos de confianza de un coeficiente de
correlacin (o de cualquier otro estadstico) estamos comprobando tambin
si ese coeficiente de correlacin es estadsticamente significativo (si est
dentro de lo probable una correlacin igual a cero en la poblacin).
Por ejemplo, con N = 120 obtenemos una correlacin de r = .15. Este coeficiente lo hemos calculado en una muestra concreta y ahora nos preguntamos entre qu lmites se encuentra ese coeficiente de correlacin en la poblacin representada por esa muestra.
El error tpico es (frmula [10]) 1 / 120 1 = .0916, luego los lmites estarn entre .15 (1.96)(.0916); como (1.96)(.0916) = .179, los lmites estarn
entre .15 .179:
Lmite mnimo: .15-.179 = -.03
En la poblacin esa correlacin de .15, calculada en 120 sujetos, se encuentra entre -.03 y + .33, el lmite mnimo tiene signo menos, luego cero es
un valor posible; no se trata por lo tanto de una correlacin estadsticamente
11
Los intervalos de confianza del coeficiente de correlacin tambin podemos calcularlos muy fcilmente en programas de Internet (Anexo II; uno muy cmodo es el de
VassarStats).
145
significativa. Siempre que entre los valores extremos posibles (mximo y mnimo) de la correlacin hay un cambio de signo, entra como posible el valor
cero y la correlacin ya no es en ese caso estadsticamente significativa (puede ser cero en la poblacin).
2. Los intervalos de confianza son ms informativos que el decir simplemente si un coeficiente de correlacin es o no es estadsticamente significativo; nos dicen entre qu valores probables puede oscilar ese coeficiente en
la poblacin representada por la muestra. Lo que suele recomendarse es
aportar tambin los intervalos de confianza.
3.7. Cmo valorar la magnitud de la correlacin
Cundo un coeficiente de correlacin es suficientemente alto? No vamos
a tener una respuesta clara y de aplicacin universal, pero s se pueden dar
orientaciones para valorar la magnitud de estos coeficientes.
3.7.1. Orientaciones generales
Una vez que hemos comprobado que un coeficiente de correlacin es estadsticamente significativo (= muy improbable por azar y que por lo tanto
se puede interpretar como indicador de una verdadera relacin distinta de
cero), la cuestin siguiente es valorar la magnitud del coeficiente.
Como criterio orientador (sin convertirlo en norma) se suelen sugerir las
valoraciones indicadas en la tabla 8.
Tabla 8
un valor de r entre:
146
147
tre las dos variables (matizando siempre tal como la medimos) que es muy
pequea. Con muestras grandes es normal encontrar correlaciones estadsticamente significativas pero tan pequeas que pueden ser prcticamente irrelevantes. Aun as estos coeficientes pequeos pueden darnos informacin til
o buenas pistas para pensar al menos por qu no encontramos una relacin
apreciable donde cabra esperarla (este punto lo tratamos en el apartado siguiente). Adems, dadas las limitaciones de nuestros instrumentos de medicin, la relacin real puede ser mayor de la que somos capaces de cuantificar
(una imagen que nos puede ayudar es la de un iceberg: lo que somos capaces
de ver y cuantificar es mucho menor que lo que est sumergido).
1 Los coeficientes bajos (por ejemplo de .30) son poco tiles (o intiles)
desde una perspectiva prctica; por ejemplo para predecir resultados. Si dos
variables estn relacionadas, conociendo la puntuacin de un sujeto en una
variable, podemos predecir (o estimar) cul ser su puntuacin en la otra variable. Por eso se habla de la validez predictiva de los tests (admisiones, seleccin, etc.). Aun as tests con baja validez predictiva pueden ser predictores
tiles unidos a otros en correlaciones mltiples (que no tratamos ahora), pero esta utilidad habra que comprobarla13. En estos casos (validez predictiva
de los tests) tambin hay que tener en cuenta lo que explicamos en el apartado los coeficientes de correlacin corregidos por restriccin de la amplitud.
2 Coeficientes de correlacin muy pequeos, si son significativos (es decir, que probablemente no son cero en la poblacin), pueden estar indicando
alguna ley psicolgica14; el que la correlacin sea pequea puede significar no
que sea realmente pequea sino que medimos muy pobremente las variables
o que esta correlacin est contaminada por otras variables que no tenemos
en cuenta; casi nunca medimos variables puras (as la inteligencia, tal como la
medimos, puede estar contaminada por niveles de educacin, capacidad lectora, etc.).
3 Algunos autores15 sealan que una correlacin de .30 (aparentemente
baja) viene a indicar el tipo de relacin que un observador puede detectar casualmente; es una relacin detectable a simple vista; por ejemplo, cuando un
profesor cae en la cuenta, al cabo de los aos, de que entre los alumnos que
se sientan en las ltimas filas y junto a una ventana hay ms suspensos que entre los que se sientan en la primera fila esa relacin observable podra ser
del orden de r = .30 y ciertamente relevante.
13
El tema de la prediccin, obviamente muy relacionado con la correlacin, no lo estamos tratando aqu; puede verse tratado en el documento correlacin y regresin
(www.upcomillas.es/personal/peter).
14
Guilford y Fruchter (1973: 92).
15
Por ejemplo Cohen P. (1981) y Cohen J. (1988:80), y tambin otros autores hacen
la misma observacin. Cohen J. (1988:80) cita coeficientes de correlacin importantes que
son de este tipo de magnitud (.30).
148
4 Cuando las dos variables son dicotmicas (una puede ser participar o
no participar en una terapia, en un nuevo mtodo, experiencia, etc. y la otra
mejorar o no mejorar, sobrevivir o no sobrevivir, etc.) el coeficiente de correlacin es igual al tanto por ciento de xito; as una correlacin de .20 (que
indica que solamente hay un 4% de varianza comn) quiere decir que con ese
tratamiento han mejorado, sobrevivido, etc., un 20% ms de los que hubieran sobrevivido de no seguir ese tratamiento16. Este es un dato importante para valorar los coeficientes de correlacin, que aunque sean bajos pueden indicar un xito cualitativamente importante (es despreciable un 4% de
supervivientes (si r = .04) que de otra manera no hubieran sobrevivido?).
Sobre esta ltima valoracin e interpretacin de los coeficientes de correlacin hacemos dos observaciones:
1 Aunque literalmente se refiere a la correlacin entre dos variables dicotmicas (un caso especial de la correlacin de Pearson que en principio
requiere que al menos una variable sea continua), esta interpretacin
es tambin vlida cuando las variables son continuas (como escalas tipo Likert).17
2 Aunque este tipo de comprobaciones (por ejemplo eficacia de una terapia) las hacemos habitualmente comparando medias (comparando
dos grupos, uno experimental y otro de control) los resultados (t de
Student) se pueden convertir fcilmente en un coeficiente de correlacin que aade una informacin complementaria que no nos aporta la
t de Student, pues nos permite valorar la magnitud (y por lo tanto la
importancia) de la diferencia.18
Aunque estos planteamientos no sean los que ms nos interesen ahora
mismo al tratar de la correlacin de Pearson, no sobra intuir el valor informativo que puede tener una correlacin pequea.
16
Esta interpretacin (denominada Binomial Effect Size Display, BESD) elaborada
por Rosenthal y Rubin (1979, 1982; Rosenthal, 1987); la recogen tambin otros autores
(por ejemplo Hunter y Schmidt, 1990:202; Cohen, 1988:533) que revalorizan la informacin que pueden aportar a veces coeficientes pequeos de correlacin en determinadas situaciones. En los primeros autores citados pueden encontrarse una explicacin ms detallada y tablas que facilitan esta interpretacin. Sobre el Binomial Effect Size Display puede
verse en Internet Randolph y Edmondson (2005), que exponen su utilidad y limitaciones
y tambin cmo calcular este Binomial Effect Size Display a partir del tamao del efecto
(d de Cohen) si se ha hecho un contraste de medias (la t de Student puede transformarse
en un coeficiente de correlacin).
17
Rosenthal (1987: 114-115).
18
Las frmulas para convertir los valores de t en r y viceversa suelen verse tratando
del tamao del efecto en el contexto del contraste de medias.
149
150
Es posible aplicar las frmulas de correccin por atenuacin que dan una
estimacin de la correlacin que podramos obtener si la fiabilidad fuera
perfecta. De estas frmulas (que suponen una comprensin adecuada de lo
que es la fiabilidad) tratamos ms adelante.
b) Homogeneidad de la muestra
La relacin verificada (que es lo que indica el coeficiente de correlacin)
supone diferencias entre los sujetos en las variables cuya relacin nos interesa comprobar. Con muestras muy homogneas los coeficientes son bajos;
con muestras heterogneas es ms fcil detectar relaciones. Por ejemplo la relacin comprobada mediante el coeficiente r entre inteligencia y rendimiento escolar puede ser muy baja o nula si los alumnos han sido seleccionados precisamente por su inteligencia (no hay diferencias, o muy pequeas, en
una de las variables).
c) Instrumentos poco discriminantes
Tambin puede suceder que el poco matiz de algunas medidas no recoge
las diferencias que de hecho se dan, e impide encontrar coeficientes de correlacin altos. Se trata en definitiva de limitaciones en el instrumento de medida. Con frecuencia es ste el caso cuando:
a) Una de las variables son calificaciones escolares que apenas diferencian
a los alumnos, o son notas medias que tienen a parecerse mucho entre s.
b) Cuando medimos una variable con unas preguntas que admiten pocas
respuestas (como s o no, o poco, algo, mucho, cuando los sujetos podran matizar ms) y que por lo tanto no recogen la diversidad que de
hecho puede estar presente en la muestra.
La homogeneidad de la muestra puede estar provocada por el mismo instrumento, que no discrimina lo suficiente, y sin diferencias claras en la muestra y en ambas variables no se detectan relaciones. Este punto hay que tenerlo en cuenta en la construccin de instrumentos de medida (tests, escalas,
cuestionarios).
3.8. Los coeficientes de correlacin cuando unimos o separamos
submuestras
Este apartado es de inters porque muchas veces los sujetos de nuestras
muestras se pueden subdividir de muchas maneras (cursos, carreras, profesiones, sexos, procedencia), y tambin en las variables que correlacionamos
151
cabe distinguir varias subvariables (por ejemplo, en vez de, o adems de, una
nota media como criterio de rendimiento se pueden utilizar las notas de las
distintas asignaturas y tambin otros criterios disponibles).
En dos muestras distintas podemos encontrar una correlacin alta entre,
por ejemplo, un test de inteligencia y calificaciones en una asignatura, y al
unir las dos muestras podemos encontrarnos con que la correlacin baja
apreciablemente. Esto puede suceder si las medias en esa asignatura son muy
distintas en las dos muestras (como puede suceder si se trata de profesores
distintos, o con distinto criterio para calificar, etc.) Calculando coeficientes de
correlacin uniendo muestras distintas o separndolas podemos hacer que
aumenten o disminuyan las diferencias en una o en las dos variables y esto naturalmente afecta a los coeficientes de correlacin.
Presentamos (de manera un tanto exagerada para que quede ms claro)
algunos casos tpicos que ponen de relieve lo que puede suceder al unir o separar muestras.
Cuando una muestra est compuesta por submuestras (ambos sexos, diversas edades, o una muestra subdividible por cualquier otra variable) puede
merecer la pena calcular la correlacin dentro de cada submuestra; con frecuencia aparecen correlaciones en subgrupos concretos sin que aparezcan en
la muestra general; y al revs, puede no haber una relacin apreciable en una
submuestra y aparecen relaciones importantes cuando las unimos en una sola muestra.
Los grficos siguientes (diagramas de dispersin, con datos ficticios) ilustran situaciones que pueden ser frecuentes y en las que los coeficientes de
correlacin varan mucho si los calculamos en submuestras distintas o en toda la muestra20.
En el diagrama I (figura 6) tenemos que dentro de cada muestra r = 0, en
cambio si unimos las dos muestras en una sola, la correlacin pasa a ser muy
alta. Una muestra tiene las dos medias ms altas que la otra, y al unirlas en una
sola muestra tienden a coincidir los altos y los bajos en las dos variables.
20
152
Figura 6:
DIAGRAMA I
9
8
Caso 1
7
Subgrupo B, r = 0.00
6
Y
5
4
Subgrupo A, r = 0.00
Todos, r = 0.82
3
2
1
1
ste podra ser el caso de la correlacin entre peso (X) y edad (Y) en un
grupo de nios de cinco aos y en otro de diez aos. En cada grupo la correlacin es cero; las diferencias en edad (meses, semanas) y en peso son pequeas y sobre todo no son sistemticas (dos meses ms de edad no implica
pesar medio kilo ms). En cambio si juntamos los dos grupos y calculamos
la correlacin con todos sube a .82 (muy alta): ahora coinciden altos en edadaltos en peso y bajos en edad-bajos en peso. Como ejemplo puede ser irrelevante, pero es claro
En el diagrama II (figura 7) tenemos el caso opuesto: dentro de cada grupo la correlacin es alta, pero baja apreciablemente al unirlos en un solo grupo.
Posiblemente ambos grupos proceden de poblaciones distintas por lo que
respecta a las medias en la variable X (y esto podra comprobarse).
153
Figura 7:
DIAGRAMA II
9
8
Todos, r = 0.30
Caso 2
7
6
Y
5
4
Subgrupo B
Subgrupo A
r = 0.84
r = 0.84
3
2
1
1
154
Figura 8:
DIAGRAMA III
9
8
Caso 3
7
6
Y
Subgrupo B, r = 0.00
5
Todos, r = 0.92
4
3
Subgrupo A, r = 0.83
2
1
1
155
9
8
r = .64
7
6
Y
5
4
3
r = .00
2
1
1
5
X
156
Si calculamos la correlacin con los sujetos encerrados en el recuadro tenemos r = 0, no hay ninguna relacin como se aprecia a simple vista en el
diagrama, pero si aadimos un sujeto ms con puntuaciones muy altas en las
dos variables (altas en trminos relativos, comparadas con los de los dems
sujetos), la correlacin sube de 0 a .64. Tambin pueden bajar como podemos
ver en el diagrama V de la figura 10.
Figura 10:
DIAGRAMA V
9
8
r = .71
7
6
Y
5
4
3
r = .15
2
1
1
157
158
las diferencias en una de las variables y naturalmente bajan los coeficientes de correlacin (explicado antes a propsito del diagrama III, figura 8).
3 Cuando calculamos la correlacin entre una parte y el todo (como entre un tem y la puntuacin total de la que forma parte ese tem) en este caso la correlacin sube artificialmente y da una idea incorrecta sobre la verdadera relacin entre esa parte y el todo.
Para estas situaciones, que son frecuentes, disponemos de frmulas correctoras que nos dan una estimacin de la verdadera correlacin (o la correlacin exacta como en el caso 3).
4.1. Correlacin y fiabilidad: los coeficientes de correlacin
corregidos por atenuacin
Ya hemos indicado antes que la verdadera relacin puede ser mayor que la
que muestra un determinado coeficiente, debido a la falta de fiabilidad de los
instrumentos de medicin. Si el instrumento (test, escala, etc.) no detecta con
precisin las diferencias que hay entre los sujetos, la correlacin calculada puede ser inferior a la real (o superior en el caso de las correlaciones parciales)23.
Este apartado, que es importante situarlo en el contexto de los coeficientes de correlacin, supone un estudio previo de lo que son los coeficientes de
fiabilidad, pero se puede entender con slo una nocin bsica de lo que es
la fiabilidad (precisin en la medida).
4.1.1. Frmula de correccin por atenuacin
Disponemos de unas frmulas que nos permiten estimar cual sera el coeficiente de correlacin si la fiabilidad fuera perfecta. Se denominan frmulas
de correccin por atenuacin porque el coeficiente de correlacin est atenuado (disminuido) por la falta de fiabilidad de los instrumentos.
La frmula general de la correlacin corregida por atenuacin es:
rxx y ryy son los coeficientes de fiabilidad
de cada medida; en el denominador puede estar tambin slo la fiabilidad de uno
de los instrumentos si la del otro nos es
desconocida, como aparece ms adelante
en la frmula [13].
23
Una buena exposicin de los efectos de la baja fiabilidad en los coeficientes de correlacin y de la correccin por atenuacin puede verse en Osborne (2003).
159
24
160
todas sus imperfecciones y en este caso es preferible no hacer estas correcciones por atenuacin.
2 Tambin suele aplicarse la frmula de correccin por atenuacin
cuando se calcula la correlacin entre dos formas paralelas del mismo test,
como una forma de fiabilidad (para comprobar si las dos versiones del mismo test ordenan a los sujetos de manera semejante).
En este caso es discutible el calcular el error tpico (que se calcula a partir de los coeficientes de fiabilidad, que en este caso es un coeficiente de correlacin), porque este error (o margen de oscilacin de las puntuaciones individuales si los sujetos respondieran varias veces al mismo test) puede
parecer menor de lo que realmente es. En general siempre que de estos
clculos se derivan de alguna manera datos que van a influir en decisiones o
diagnsticos de sujetos, hay que tener en cuenta los errores de medicin (la
falta de fiabilidad de los instrumentos) en vez de suponer que no existen. Para la toma de decisiones tenemos que asumir las limitaciones que nuestros
instrumentos tienen de hecho.
3 Otra serie de aplicaciones de la correccin por atenuacin tienen que
ver con lo que suele denominarse validez predictiva, o correlacin entre un
predictor X y un criterio Y. El predictor puede ser, por ejemplo, un examen
o un test de admisin, y el criterio (que se desea predecir) pueden ser calificaciones, un examen final, o cualquier otra medida que refleje xito.
En estos casos el problema est en el criterio: la falta de fiabilidad del criterio hace bajar la correlacin entre predictor y criterio, y el test predictor
puede parecer menos vlido de lo que realmente es. En estos casos se aplica
esta frmula:
rxy = correlacin calculada entre el
predictor (X) y el criterio (Y)
ryy = fiabilidad del criterio
161
predictora del test o instrumento utilizado como predictor. Muchos de los llamados coeficientes de validez (que en este caso no son otra cosa que coeficientes de correlacin entre predictor y criterio) aportan de hecho poca informacin o son de interpretacin ambigua porque no se ha tenido en cuenta
la fiabilidad del criterio.
Un problema que suele encontrarse en estos planteamientos es la dificultad de calcular la fiabilidad del criterio. Frecuentemente todo el inters se
centra en el predictor (qu test se utiliza, etc.) y se descuida la calidad y fiabilidad del criterio (o variable que se pretende predecir, por ejemplo notas,
xito acadmico, etc.)26
4.1.3. Otras estimaciones de la correlacin modificando la
fiabilidad
Existen otras frmulas para estimar la correlacin que obtendramos entre
un predictor (X) y un criterio (Y), no si tuvieran la mxima fiabilidad, sino simplemente una fiabilidad distinta. Por fiabilidad distinta no hay que entender
una fiabilidad mayor necesariamente, tambin podra ser menor. Puede suceder que con tests ms breves (y probablemente de una fiabilidad menor pero con el consiguiente ahorro econmico, de tiempo, etc.) obtengamos casi
los mismos resultados que con tests ms largos.
Este planteamiento puede tener su inters porque la fiabilidad depende (en
parte) del nmero de tems (otras frmulas relacionan la longitud del test y fiabilidad). La fiabilidad perfecta no la tenemos nunca, pero s podemos conseguir
que aumente mejorando la calidad de los tems y aumentando su nmero.
Aunque este tipo de planteamientos se presentan sobre todo cuando interesa predecir el xito (en seleccin de personal, por ejemplo) estas frmulas
son aplicables tambin para analizar cualquier coeficiente de correlacin entre dos variables que en un sentido ms propio no puedan calificarse como
predictor y criterio.
Lo que se plantea con ms frecuencia es estimar la correlacin entre X e Y
si aumentamos la fiabilidad de ambos instrumentos (aadiendo ms tems).
La frmula aplicable en estos casos es la siguiente:
26
Cuando se pretende predecir xito acadmico (a partir de un test, de datos previos) el criterio suele ser nota media final con frecuencia poco fiable o de fiabilidad imposible de calcular. En estos casos (y otros) conviene disponer de varios criterios de xito
(nmero de sobresalientes, de suspensos, notas en determinadas asignaturas, etc.)
162
rxy
= correlacin obtenida entre X e Y
rxx y ryy = coeficientes de fiabilidad distintos (nuevos, deseados)
rxx y ryy = coeficientes de fiabilidad obtenidos de hecho
Si solamente vamos a modificar el coeficiente de fiabilidad de uno de los
dos instrumentos (X en este caso, pero podra ser Y) la frmula es sta:
rxy
rxx
rxx
163
jante dificultad, etc.) que los que ya tenemos; como esto no suele ser as
exactamente, habra que hablar de estimaciones de la nueva fiabilidad o correlacin al aumentar el nmero de tems.
Estas frmulas son de una utilidad en general muy limitada, pero pueden
tener su inters cuando nos interesa construir o modificar un test para que
tenga una clara validez predictiva o al menos una mayor validez (es decir,
una mayor correlacin entre el predictor y el criterio) que la que disponemos
(por ejemplo en procesos de seleccin, admisiones, etc.; buscamos una correlacin clara con criterios definidos); a la vez podemos controlar la fiabilidad del test predictivo aumentando el nmero de tems.
Estas frmulas suelen aplicarse:
a) En aquellos tests que se pueden manipular con facilidad porque resulta fcil aumentar el nmero de tems, como puede ser un examen objetivo de conocimientos.
b) En situaciones en las que es de gran inters la validez predictiva (como en procesos de admisin o seleccin, que por otra parte tampoco
suelen limitarse a un test).
No es habitual utilizar estas frmulas con otros tipos de tests (por ejemplo
en tests de personalidad, inteligencia, etc.) ya hechos y publicados, y que ya
tienen el nmero de tems decidido por el constructor del test.
4.2. Los coeficientes de correlacin corregidos por restriccin de
la amplitud
Ya hemos visto que cuando la muestra es ms homognea (los sujetos son
muy parecidos unos a otros en las dos o en una de las dos variables) baja el
valor del coeficiente de correlacin. No se comprueban relaciones si los sujetos no son distintos en las dos variables.
El que los coeficientes de correlacin sean menores cuando la muestra es
homognea plantea tambin problemas de validez predictiva en situaciones
de seleccin.
Vamos a suponer que ponemos un test de seleccin (el test X, el predictor) para admitir a los futuros alumnos de una universidad y nos quedamos
con los mejores, los que puntan muy alto en el test X. Entre los alumnos admitidos habr menos diferencias en lo que mida el test X que entre todos los
que se presentaron a las pruebas de admisin; hemos homogeneizado la
muestra mediante el proceso de seleccin.
Posteriormente queremos comprobar la validez del test X, y calculamos la
correlacin entre el test X y el criterio Y (por ejemplo calificaciones, o una
164
prueba objetiva de rendimiento). Podemos encontrarnos con que la correlacin es muy pequea y concluir que el test no es vlido (hay una relacin muy
pequea entre el predictor y el criterio). Esta conclusin puede ser discutible:
la correlacin la hemos calculado solamente con los alumnos admitidos y no
con todos los que se presentaron inicialmente y de los que tenemos datos en
el test X. La varianza en X de los admitidos es lgicamente ms pequea que
la varianza calculada en todos los que se presentaron, admitidos y no admitidos, y una varianza menor (grupo ms homogneo) hace bajar la correlacin
entre X e Y.
En estas situaciones podemos estimar la correlacin entre X e Y en el caso de que todos hubieran sido admitidos. Esta correlacin (se trata de una estimacin), calculada con todos los presentados, es la que podra darnos una
idea mejor sobre la validez predictiva del test X.
Esta correlacin estimada se puede calcular mediante esta frmula:
28
165
Por ejemplo: en un test de seleccin para entrar en una universidad encontramos que
En la muestra inicial (todos los candidatos que se presentan a la seleccin, incluidos naturalmente los que no admitidos) la desviacin tpica es
sinicial = 6
En la muestra seleccionada la desviacin tpica es
sseleccionada = 3
La correlacin entre el test de seleccin y un criterio (por ejemplo, nota
media al terminar el primer curso) es de .30; esta correlacin la calculamos
solamente en la muestra seleccionada, como es natural. Podemos preguntarnos Cul hubiera sido esta correlacin si la hubiramos podido calcular en
toda la muestra que se present al examen de admisiones?
Substituyendo tenemos:
En la primera frmula [16]:
166
discriminan ms, y los que mejor representan el constructo subyacente o rasgo que se desea medir). En la construccin y anlisis de instrumentos de medicin este paso es de mucho inters.
El problema surge del hecho de que ese tem tambin est sumado en el
total, con lo que la correlacin resultante es artificialmente alta. En realidad lo
que nos interesa es la correlacin de cada tem con la suma de todos los dems, es decir, con el total menos el tem en cuestin.
En algunos programas de ordenador29 ya est programada la correlacin
de cada tem con el total menos el tem, pero no siempre disponemos de estos programas. A veces lo ms cmodo (cuando no se dispone de un programa adecuado) es calcular la correlacin de cada tem con el total, sin ms30.
En este caso estas correlaciones artificialmente altas podemos dejarlas en su
magnitud exacta aplicando despus la frmula [18].
ri(T-i) = Correlacin entre un tem (o parte de un total) y el total menos ese tem (o correlacin entre un tem y la suma de todos
los dems)
riT =
Correlacin tem-total
si y sT: desviaciones tpicas del tem y del total
Sobre esta correccin:
a) Suponemos que la correlacin de cada tem con el total (con la suma
de todos los tems, riT) est calculada con un programa de ordenador,
lo mismo que las desviaciones tpicas de los tems y de los totales. Con
estos datos es fcil aplicar esta frmula [18] (o programarla).
b) Cuando los tems son muchos la diferencia entre riT y ri(T-i) es pequea.
c) En estas situaciones y para valorar estos coeficientes, es til estimar cul
sera el valor medio de la correlacin de cada tem con el total cuando 1)
realmente no hay relacin (correlacin cero entre los tems) y 2) todos
los tems o partes tuvieran igual varianza; en este caso la frmula [18]
nos da la estimacin de la correlacin de cada tem con el total 31:
donde k es el nmero de tems
29
30
31
167
5. CORRELACIONES PARCIALES
Una correlacin parcial entre dos variables es una correlacin que anula
o neutraliza una tercera variable (o ms variables): es la correlacin entre
dos variables igualando a todos los sujetos en otras variables.
Aqu tratamos solamente de las correlaciones parciales de primer orden.
Se denominan correlaciones parciales de primer orden aquellas en la que
neutralizamos (o mantenemos constante) solamente una tercera variable; en
las correlaciones parciales de segundo orden neutralizamos dos variables; el
procedimiento es similar aunque la frmula es algo ms complicada si no la
tenemos ya programada. En cambio las correlaciones parciales de primer orden son sencillas y muy tiles.
La correlacin parcial, como todos los coeficientes de correlacin relacionados con el coeficiente r de Pearson, comprueba solamente relaciones rectilneas.
5.1. Utilidad de las correlaciones parciales
La correlacin parcial es til para controlar variables y puede substituir
determinados diseos experimentales en los que se pretende no tener en
cuenta el influjo de una o dos determinadas variables
Los casos en que se utiliza ms son aquellos en los que se pretende controlar variables como la edad y la inteligencia.
Por ejemplo la correlacin entre peso y altura en un grupo de nios de
distinta edad se ver influida por la edad. Los nios mayores en edad tambin
sern de ms peso y de mayor estatura. La misma correlacin entre peso y altura en grupo de nios de la misma edad ser menor. La diversidad en edad
hace que la relacin entre peso y altura aumente.
Si queremos conocer la relacin entre peso y altura independientemente
de la edad, podramos hacer el clculo utilizando una muestra de la misma
edad, o comprobando la correlacin por separado en grupos homogneos en
edad. Otra manera de calcular la correlacin entre peso y altura prescindiendo de la edad (o suponiendo que todos los sujetos tienen la misma edad) es
a travs de las correlaciones parciales.
5.2. Frmula de las correlaciones parciales de primer orden
168
1
.338
.330
.224
1
.423
169
170
33
171
Tabla 10:
MATRIZ DE INTERCORRELACIONES (CUESTIONARIO DE COMUNICACIN N = 158,
ALUMNAS DE LA UNIV. COMILLAS, 1990)
2
1. Poltica
2. Lo que
me gusta
de TV.
3. Moral
sexual
4. Lo que
me gusta
en el otro
sexo
5. Limitac.
propias
6. Limit.
en mis
padres
7. Problemas
sexuales
8. Dinero
de que
dispongo
9. Mi
aspecto
fsico
10. Lo que
ms me
gusta en m
11. Plan fut.
profesional
12. Mis
depresiones
13. Divers.
favoritas
14. Economa
familiar
15. Sentim.
profundos
10
11
12
13
14
15
.392
.371 .291 .256 .105 .211 .234 .193 .316 .222 .190 .335 .297 .282
.327 .268 .315 .158 .117 .251 .260 .254 .287 .261 .455 .295 .243
.327
.673 .466 .355 .391 .337 .426 .348 .384 .359 .469 .243 .401
.226
.673
.315
.466 .473
.158
.117
.251
.260
.254
.287
.261
.455
.469 .450 .393 .374 .170 .320 .359 .382 .457 .319
.295
.243 .246 .229 .478 .290 .599 .291 .290 .260 .235 .223
.243
.401 .398 .514 .304 .313 .220 .475 .435 .129 .551 .395 .269
.473 .415 .321 .315 .503 .490 .435 .562 .450 .246 .398
.391 .188 .310 .557 .522 .347 .566 .393 .229 .514
1
172
.223 .395
1
.269
1
2 (.392)
13 (.455)
4 (.673)
3 (.673)
12 (.566)
14 (.478)
3 (.391)
14 (.599)
Item n
Tiene su mayor
correlacin con el tem n
9
10
11
12
13
14
15
5 (.557)
5 (.522)
13 (.457)
5 (.566)
3 (.469)
8 (.599)
12 (.551)
3. Y ahora nos preguntamos: de los tems que quedan hay alguno que tenga su correlacin ms alta con el 3 o con el 4? Pues s, el 7 tiene su correlacin mayor con el 3, y tambin el 13 tiene su mayor relacin con el 3 y
adems no la tiene baja con el 4, con lo que el cluster quedara as:
3
13
173
correlaciones mayores de cada tem que nos quedan, cual es la mayor? Es la correlacin entre el 8 y el 14, y ya tenemos el ncleo de un
segundo cluster.
8
14
14
6
5. Continuamos con nuestra bsqueda y de todas las correlaciones mximas de cada tem que nos van quedando observamos que la mayor
es la del 5 y 12, y que adems el 9 y el 10 tienen su mayor relacin con
el 5, y el 15 la tiene con el 12, con lo que nos queda un tercer cluster
que emerge del yo secreto y confidencial:
5
12
9 10
15
6. Vamos a por otro cluster. La correlacin mayor que nos queda es la del
tem 2 y 13. Pero resulta que el 13 ya est en el primer cluster. De todas
maneras vamos a ver qu pasa con este cluster; el 13 habr que dejarlo en este cluster o en el primero de todos.
2
13
13
11
174
cluster 2
cluster 3
cluster 4
12
13
15
11
14
10
correlacin
media:
r = .462
correlacin
media:
r = .438
correlacin
media:
r = .499
correlacin
media:
r = .358
relacin con
el sexo
dinero y
familia
cosas ms
personales
temas
fciles
El procedimiento es sencillo:
1 Para comenzar en cada tem buscamos con qu otro tem tiene su mayor correlacin (su pareja ms clara; y no viene mal tener presente
tambin con qu tem su segunda mayor correlacin)
2 Se localiza la correlacin mayor de todas, y ya tenemos dos tems que
sern el ncleo del primer cluster;
3 Se localizan los tems que tienen sus mayores correlaciones con cualquiera de los dos tems localizados en el paso anterior, y ya tenemos el
primer cluster
175
4 Buscamos la correlacin mayor de las que nos quedan, y ya tenemos el ncleo de un segundo cluster, y se sigue el proceso visto en el paso anterior.
5 Los tems dudosos los situamos en el cluster con el que tiene su mayor
correlacin media
Este mtodo es sencillo pero puede ser un tanto impreciso (depende de
los datos).
Ahora vendra el anlisis cualitativo (intentando encontrar sentido a los
tems que van juntos en el mismo cluster) y anlisis cuantitativos adicionales:
1 Una correlacin media ms alta indica cluster (anlogo a los factores rotados del anlisis factorial) ms claro, ms definido;
2 Las medias de cada cluster (no medias de las correlaciones sino de los
tems) daran el nivel de apertura o secretismo de estos clusters;
3 Habra que ver o explorar relaciones inter-cluster.
4 Un estudio ms completo nos llevara a explorar diferencias entre grupos (por ejemplo segn el sexo) en los distintos factores (clusters) o
en cada tem; tambin se podran explorar relaciones entre tems o
clusters y otras variables conocidas.
7. COEFICIENTES DE CORRELACIN MS IMPORTANTES
Nos hemos centrado en el coeficiente r de Pearson, pero hay otros muchos coeficientes de relacin o asociacin. En la tabla 13 damos una breve informacin sobre los ms utilizados. Esta informacin puede servir de gua o
de referencia rpida, aunque para utilizar algunos de estos coeficientes sea
necesario buscar informacin adicional.
De estos coeficientes el ms utilizado e importante es el primero, el coeficiente r de Pearson.
Los coeficientes 2, 3 y 4 podemos decir que pertenecen a la familia de los
coeficientes de Pearson; son aplicaciones especiales de este coeficiente.
Los coeficientes 5 y el 6 (rho y tau) son apropiados para datos ordinales,
cuando el dato que manejamos es el rango o nmero de orden del sujeto (u
objeto) y son especialmente tiles con muestras pequeas o muy pequeas35.
Los coeficientes 7, 8 y 9 son apropiados para datos nominales (sujetos clasificados en categoras) y estn relacionados con el ji cuadrado, de hecho se
utilizan como complemento del ji cuadrado. El coeficiente 7 (phi), para datos genuinamente dicotmicos (1 0) podemos tambin calcularlo con las
mismas frmulas que el coeficiente r de Pearson.
35
Estos coeficientes para datos ordinales suelen venir bien explicados en los textos
de mtodos estadsticos no paramtricos.
176
Tabla 13
coeficiente
variables
comentarios
Coeficiente r
de Pearson
(productomomento)
las dos
continuas
Coeficiente
biserial
puntual (rbp)
una continua
y otra
dicotmica
177
coeficiente
variables
comentarios
Coeficiente
biserial
puntual (rbp)
una continua
y otra
dicotmica
Coeficiente
de correlacin
biserial (rb)
178
coeficiente
variables
comentarios
Coeficiente
de correlacin
tetracrica (rt)
las dos variables Es una estimacin aproximada del coeficiente r de Pearson y menos fiable;
continuas
no se debe emplear con pocos casos
pero
(200 sujetos o ms); no es fcil comdicotomizadas
probar su nivel de significacin;
artificialmente
Si se puede, es preferible utilizar otra
alternativa (r de Pearson o f)
Coeficiente
rho (r) de
Spearman
(tambin se
utiliza el
smbolo sr).
Coeficiente
Tau (t) de
Kendall
Coeficiente
phi (f)
las dos variables Relacionado con el ?2; el valor de significacin es el mismo que el de ?2; no
dicotmicas
admite valores negativos;
Una limitacin es que el valor mximo
no es 1 necesariamente; slo se puede alcanzar cuando la proporcin de
unos es idntica en las dos variables;
Especialmente til para calcular las
correlaciones entre tems dicotmicos (de pruebas objetivas, tests, etc.).
179
coeficiente
variables
comentarios
Coeficiente
phi (F) de
Cramer
Coeficiente C
las dos variables
de Contingencia divididas en
dos o ms
categoras
(k = nmero
de columnas o
filas, el que sea
menor)
9
10 Coeficiente
eta (h)
Es el coeficiente apropiado para relaciones curvilneas; si se calcula el coeficiente r de Pearson cuando hay relacin curvilnea, el valor resultante es
ms bajo;
El valor de h es siempre positivo.
180
181
7. Un coeficiente de correlacin estadsticamente significativo quiere decir que es muy improbable si no hay relacin en la poblacin: en muestras semejantes obtendramos un coeficiente de correlacin distinto de cero (pero
no necesariamente de magnitud semejante al que hemos obtenido en nuestra muestra).
8. A partir del coeficiente de correlacin obtenido en una muestra y del
tamao N de esa muestra, podemos estimar entre qu lmites se encuentra
esa correlacin en la poblacin (intervalos de confianza).
9. Un coeficiente de correlacin no significativo no es prueba de que no
haya relacin en la poblacin (podramos encontrarla quizs en muestras
mayores, o utilizando otras medidas ms precisas, etc.)
10. Los coeficientes de correlacin tienden a bajar cuando:
a) Las muestras son homogneas (sin diferencias en ambas variables
no se detectan relaciones).
b) Los instrumentos de medicin discriminan poco (no establecen
bien las diferencias entre los sujetos).
c) La fiabilidad de los instrumentos es baja.
182
ANEXO I
Tablas del coeficiente de correlacin r de Pearson
(N entre 3 y 102)
Grados de
libertad.
= N-2
05
.01
.001
1
2
3
4
5
.9969
.9500
.8783
.8114
.7545
.9998
.9900
.9587
.9172
.8745
.9999
.9990
.9911
.9740
.9507
6
7
8
9
10
.7067
.6664
.6319
.6021
.5760
.8343
.977
.7646
.7348
.7079
.9249
.8982
.8721
.8471
.8233
11
12
13
14
15
.5529
.5324
.5139
.4973
.4821
.6835
.6614
.6411
.6226
.6055
.8010
.7800
.7603
.7420
.7246
16
17
18
19
20
.4683
.4555
.4438
.4329
.4227
.5897
.5751
.5614
.5487
.5368
.7084
.6932
.6787
.6652
.6523
25
30
35
40
45
.3809
.3494
.3246
.3044
.2875
.4869
.4487
.4182
.3932
.3721
.5974
.5541
.5189
.4896
.4648
50
55
60
65
70
.2732
.2609
.2500
.2405
.2319
.3541
.3386
.3248
.3127
.3017
.4433
.4244
.4078
.3931
.3799
183
Grados de
libertad
= N-2
.05
.01
.001
75
80
85
90
95
98
100
.2242
.2172
.2108
.2050
.1996
.1986
.1946
.2919
.2830
.2748
.2673
.2604
.2591
.2540
.3678
.3568
.3468
.3375
.3291
.3274
.3211
184
4. Correlacin parcial
http://faculty.vassar.edu/lowry/par.html (3) (se introducen los coeficientes de
correlacin entre tres variables (o cuatro) y calcula la correlacin parcial ente
dos coeficientes igualando a los sujetos en las variables restantes).
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
5. Correlacin mltiple
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
6. Diferencias estadsticamente significativas entre dos (o ms) coeficientes de correlacin
http://department.obg.cuhk.edu.hk/ResearchSupport/HomoCor.asp (2)
(calculados en muestras distintas)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
(calculados en muestras distintas)
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
(de la misma muestra o de distintas muestras)
http://www.psych.ku.edu/preacher/corrtest/corrtest.htm (en muestras distintas) (7)
7. Clculo del coeficiente de correlacin
http://calculators.stat.ucla.edu/correlation.php (5)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
Direcciones originales (Home):
(1) GraphPad, Free Online Calculators for Scientists,
http://graphpad.com/quickcalcs/index.cfm
(2) Department of Obstetrics and Gynaecology, The Chinese University
of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp
(3) VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar
College Poughkeepsie, NY USA
http://faculty.vassar.edu/lowry/VassarStats.html
(4) SISA, Simple Interactive Statistical Analysis
http://home.clara.net/sisa/index.htm#TOP
(5) Statistics Calculators, UCLA Department of Statistics,
http://calculators.stat.ucla.edu/
(6) Glass, Gene. V., Arizona State University College of Education, Online
Analysis of Data http://glass.ed.asu.edu/stats/analysis/ (o Gene V Glass Intro
to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources
for Statistics, en Online statistical calculators that can perform many different analyses.
(7) quantpsy.org, Kristopher J. Preacher, University of Kansas
http://www.psych.ku.edu/preacher/
185
CAPTULO 6
187
188
Figura 2
Validez:
Controlamos los
errores sistemticos
Fiabilidad:
Controlamos los
errores aleatorios
Podemos imaginar a dos tiradores apuntando a un blanco. Cuando hay validez (figura 1, cuando el tiro es vlido) se apunta al blanco aunque puede
haber poca precisin en el tiro. Los errores son aleatorios (falta de fiabilidad;
1
El tema de la validez no lo tratamos de manera expresa; puede verse tratado en Morales, Urosa y Blanco (2003. pgs 126 y ss.) y de manera ms extensa en Morales (2006, cap.
12 y 13).
189
fruto de defectos del arma, inestabilidad en el pulso, etc.), pero no son sistemticos (apuntamos al blanco que queremos).
Cuando hay fiabilidad hay precisin en el tiro. En este ejemplo (figura 2)
no hay validez: se apunta sistemticamente fuera del blanco, aunque hay una
mayor fiabilidad o precisin (los tiros estn ms prximos entre s).
Para evitar los errores aleatorios (y que aumente la fiabilidad) habr que
mejorar el instrumento. Para evitar los errores sistemticos habr que apuntar bien al blanco, y para eso hay que saber dnde est, y no a otro sitio. La
comprobacin de la validez sigue otros mtodos distintos (anlisis del contenido de los tems, verificar determinadas hiptesis sobre el significado pretendido, etc.) y salvo en casos especficos (como cuando se habla de validez
predictiva) no se concreta en el clculo de un coeficiente determinado.
De lo que vamos diciendo se desprende que en primer lugar nos debe
preocupar la validez ms que la precisin: podemos medir muy bien lo que
no queramos medir (memoria en vez de comprensin, por ejemplo en un
examen).
1.7. La fiabilidad no es una caracterstica de los instrumentos
La fiabilidad no es una caracterstica de un instrumento; es una caracterstica de unos resultados, de unas puntuaciones obtenidas en una muestra
determinada. Esto es importante aunque en el lenguaje habitual nos refiramos a la fiabilidad como si fuera una propiedad del instrumento. Esta manera de hablar (este test tiene una fiabilidad de) es muy frecuente, pero hay
que entender lo que realmente queremos decir. Lo que sucede es que un
mismo instrumento puede medir o clasificar bien a los sujetos de una muestra, con mucha precisin, y mal, con un margen de error grande, a los sujetos
de otra muestra. Con un mismo instrumento se mide y se ordena mejor a los
sujetos cuando estos sujetos son muy distintos entre s, y al revs, baja la fiabilidad si la muestra es ms homognea. Podemos visualizarlo con la imagen
de una balanza de poca precisin: si pesamos objetos que pesan entre 4 Kg.
y 10 Kg. no establecer diferencias en peso entre objetos que pesan casi lo
mismo y slo se diferencian en miligramos; en cambio esa misma balanza distinguir bien entre objetos con diferencias en peso de varios kilos. La balanza es la misma, pero su precisin (fiabilidad al distinguir segn unos objetos
pesen ms o menos) depende de las diferencias en peso de los objetos.
La fiabilidad se debe calcular con cada nueva muestra, sin aducir la fiabilidad obtenida con otras muestras como aval o prueba de la fiabilidad del
instrumento2.
2
El calcular el coeficiente de fiabilidad en cada nueva muestra es una de las recomendaciones de la American Psychological Association (Wilkinson and Task Force on Statisti-
190
Todo esto quedar mejor entendido al examinar las variables que inciden
en que un coeficiente de fiabilidad sea alto o bajo, pero es importante ver
desde el principio que en sentido propio la fiabilidad no es la propiedad de
un determinado instrumento, sino del conjunto de puntuaciones con l obtenido y que puede variar de una situacin a otra (y como en el ejemplo de
la balanza, va a estar en funcin de las diferencias entre los sujetos).
1.8. Fiabilidad y diferencias: teora clsica de la fiabilidad
En ltima instancia lo que nos va a decir un coeficiente de fiabilidad es si
el instrumento diferencia adecuadamente a los sujetos en aquello que mide
el test o escala. Con un test o escala pretendemos diferenciar a los sujetos;
establecer quin tiene ms o menos del rasgo que medimos. Los tests, sobre
todo los que miden rasgos psicolgicos, no nos seran tiles si de alguna manera no establecieran diferencias entre los sujetos. Ya veremos que, por lo
tanto, no hay fiabilidad sin diferencias. Por estas razones la fiabilidad de un
test de conocimientos o de un examen (prueba objetiva) no se puede interpretar automticamente como un indicador de la calidad del test, como comentamos en el apartado 11 sobre la interpretacin de estos coeficientes
cuando se trata de medir conocimientos. A esta teora de la fiabilidad basada
en las diferencias se le suele denominar teora clsica de la fiabilidad.
191
que los sujetos hayan podido cambiar. Una correlacin grande indica que en
las dos veces los sujetos han quedado ordenados de la misma o parecida manera. El intervalo de tiempo debe especificarse siempre (y suele estar en torno a las dos o tres semanas).
a) Este mtodo corresponde al concepto ms intuitivo de fiabilidad: un instrumento es fiable si en veces sucesivas aporta los mismos resultados.
b) No tiene sentido utilizarlo cuando est previsto un cambio en los sujetos, o cuando entre la primera y segunda vez se puede dar un aprendizaje. Por esto no es un mtodo apto para comprobar la fiabilidad de un
instrumento de medicin escolar porque puede haber aprendizaje de
una vez a otra, aprendizaje que puede incluso estar provocado por el
mismo instrumento. La fiabilidad del tipo test-retest tiene ms sentido
en la medicin de rasgos y actitudes ms estables.
c) Este coeficiente de correlacin podemos entenderlo como un coeficiente o indicador de estabilidad o de no ambigedad en la medida en que ambas ocasiones los resultados son parecidos (los sujetos
entendieron lo mismo de la misma manera y respondieron de manera
idntica o casi idntica).
d) Una fiabilidad alta de este tipo no es garanta de una fiabilidad alta con
otro de los enfoques, sobre todo con el de consistencia interna que
veremos enseguida y que es el ms importante. Puede haber una fiabilidad alta de este tipo, test-retest, con tems que preguntan cosas muy
distintas (como peso, altura, sexo, gusto por la msica, ao de nacimiento, etc.), pero con poca (o ninguna) consistencia interna porque
se estn preguntando cosas distintas cuyas respuestas no tendra sentido sumar en un total.
2.2. Mtodo: Pruebas paralelas
Se utiliza cuando se preparan dos versiones del mismo test; los tems son
distintos en cada test pero con ambos se pretende medir lo mismo. En este
caso el coeficiente de fiabilidad es la correlacin entre las dos formas paralelas, respondidas por los mismos sujetos.
a) Puede interpretarse como un coeficiente o indicador de equivalencia entre los dos tests: si la correlacin es alta, las dos formas del mismo test dan resultados parecidos, ordenan a los sujetos de manera parecida, ambas formas son intercambiables. Si la correlacin entre las
dos formas (respondidas con das u horas de diferencia) es baja, la
conclusin ms razonable no es que los sujetos han cambiado, sino
que las dos formas no estn equilibradas en sus contenidos y de alguna manera miden cosas distintas o con nfasis distintos.
192
b) Una confirmacin adicional de que las dos formas son realmente paralelas es comprobar si la correlacin media inter-tem dentro de cada
forma es de magnitud similar, lo mismo que la correlacin de los tems
de una forma con los de la otra versin.
c) Este tipo de fiabilidad, o prueba de equivalencia, es necesario siempre
que se disponga de dos o ms versiones del mismo test, y su uso queda en la prctica restringido a esta circunstancia no frecuente.
2.3. Mtodo: Coeficientes de consistencia interna3
Este es el enfoque ms utilizado y al que le vamos a dar una mayor extensin. Hay que hablar de enfoque ms que de mtodo pues son muchas las posibles frmulas en que se puede concretar en el clculo de la fiabilidad. Cuando se habla de fiabilidad sin ms matizaciones, hay que entender que se trata
de fiabilidad en el sentido de consistencia interna.
Lo que expresan directamente estos coeficientes es hasta qu punto las
respuestas son lo suficientemente coherentes (relacionadas entre s) como
para poder concluir que todos los tems miden lo mismo, y por lo tanto son
sumables en una puntuacin total nica que representa, mide un rasgo bien
definido. Por esta razn se denominan coeficientes de consistencia interna,
y se aducen como garanta de unidimensionalidad, es decir, de que un nico rasgo subyace a todos los tems. Hay que advertir sin embargo que un alto coeficiente de fiabilidad no es prueba de unidimensionalidad (tratado con
ms amplitud en el apartado 9.1).
El resto de la teora sobre la fiabilidad que exponemos a continuacin responde fundamentalmente a la fiabilidad entendida como consistencia interna. Cuando se habla de la fiabilidad de un instrumento y no se especifica otra
cosa, suele entenderse que se trata de la fiabilidad entendida como consistencia interna.
Como punto de partida podemos pensar que cuando observamos diferencias entre los sujetos, estas diferencias, que se manifiestan en que sus
3
Los coeficientes de consistencia interna tambin suelen denominarse coeficientes
de homogeneidad como si se tratara de trminos sinnimos, pero este trmino (coeficiente de homogeneidad) es impropio (como advierte Schmitt, 1996). La consistencia interna se refiere a las correlaciones entre los tems (relacin emprica) y la homogeneidad
se refiere a la unidimensionalidad (relacin lgica, conceptual) de un conjunto de tems
que supuestamente expresan el mismo rasgo.
193
puntuaciones totales (al sumar todas sus respuestas a los tems) son distintas, se deben:
1 En parte a que los sujetos son distintos en aquello que se les est midiendo; si se trata de un examen hay diferencias porque unos saben
ms y otros saben menos.
2 Las diferencias observadas se deben tambin en parte a lo que llamamos genricamente errores de medicin; por ejemplo, en este caso,
las respuestas distintas pueden estar ocasionadas por preguntas ambiguas, por la diferente capacidad lectora de los sujetos, etc.; no todo lo
que hay de diferencia se debe a que unos saben ms y otros saben
menos.
La puntuacin total de un sujeto podemos por lo tanto descomponerla
as:
X t = Xv + Xe
[1]
Xt =
Xv =
Xe =
Diferencias verdaderas
los sujetos son distintos en lo que estamos
midiendo.
Diferencias falsas
(errores de medicin)
194
s2v =
s2e =
s2t =
Varianza total, expresa todo lo que hay de diferente en las puntuaciones totales; unos sujetos tienen puntuaciones totales ms altas,
otros ms bajas, etc.; la varianza ser mayor si los sujetos difieren mucho entre s. Si lo que pretendemos con un instrumento de medida es
clasificar, detectar diferencias, una varianza grande estar asociada
en principio a una mayor fiabilidad.
Varianza verdadera; expresa todo lo que hay de diferente debido a
que los sujetos son distintos en lo que pretendemos medir, o dicho
de otra manera, expresa todo lo que hay de diferente debido a lo que
los tems tienen en comn, de relacin, y que es precisamente lo
que queremos medir. El trmino verdadero no hay que entenderlo
en un sentido cuasi filosfico, aqu la varianza verdadera es la que
se debe a respuestas coherentes (o respuestas relacionadas), y esta
coherencia (o relacin verificada) en las respuestas suponemos que
se debe a que todos los tems del mismo test miden lo mismo.
Varianza debida a errores de medicin, o debida a que los tems miden en parte cosas distintas, a lo que no tienen en comn. Puede haber otras fuentes de error (respuestas descuidadas, falta de motivacin al responder, etc.), pero la fuente de error que controlamos es la
debida a falta de relacin entre los tems, que pueden medir cosas
distintas o no muy relacionadas. El error aqu viene a ser igual a incoherencia en las respuestas, cualquiera que sea su origen (incoherencia sera aqu responder no cuando se ha respondido s a un tem de
formulacin supuestamente equivalente).
[3]
Por varianza verdadera entendemos lo que acabamos de explicar; la varianza total no ofrece mayor problema, es la que calculamos en los totales de
todos los sujetos; cmo hacemos operativa la varianza verdadera lo veremos al explicar las frmulas (de Cronbach y Kuder-Richardson). Expresando
la frmula [3] en trminos verbales tenemos que
195
Por respuestas coherentes hay que entender que no se responde de manera distinta a tems que supuestamente y segn la intencin del autor del instrumento, expresan el mismo rasgo. En una escala de actitud hacia la msica sera coherente estar de acuerdo con estos dos tems: me sirve de descanso
escuchar msica clsica y la educacin musical es muy importante en la
formacin de los nios; lo coherente es estar de acuerdo con las dos afirmaciones o no estar tan de acuerdo tambin con las dos. Un sujeto que est de
acuerdo con una y no con la otra es de hecho incoherente segn lo que pretende el autor del instrumento (medir la misma actitud a travs de los dos
tems). Esta incoherencia de hecho no quiere decir que el sujeto no sea coherente con lo que piensa; lo que puede y suele suceder es que los tems pueden
estar mal redactados, pueden ser ambiguos, medir cosas distintas, etc.; por estas razones la fiabilidad hay que verificarla experimentalmente.
En la varianza total (todo lo que hay de diferencias individuales en las
puntuaciones totales) influye tanto lo que se responde de manera coherente o relacionada, como lo que hay de incoherente o inconsistente (por la
causa que sea); la fiabilidad expresa la proporcin de consistencia o coherencia emprica.
En el denominador tenemos la varianza de los totales, por lo tanto la fiabilidad indica la proporcin de varianza debida a lo que los tems tienen en
comn. Una fiabilidad de .80, por ejemplo, significa que el 80% de la varianza se debe a lo que los tems tienen en comn (o de relacionado de hecho).
196
Podemos pensar que se trata de una escala de integracin familiar compuesta por dos tems y respondida por dos grupos de cuatro sujetos cada
uno. Los tems en este ejemplo podran ser:
1. En casa me lo paso muy bien con mis padres [s=1 y no =0]
2. A veces me gustara marcharme de casa [s = 0 y no = 1]
En estos ejemplos podemos observar:
1 Las desviaciones tpicas (lo mismo que las varianzas, s2) de los tems
son idnticas en los dos casos, adems son las mximas posibles (porque el 50% est de acuerdo y el otro 50% est en desacuerdo, mxima
dispersin). Desviaciones tpicas grandes en los tems (lo que supone
197
198
Tabla 2
199
200
ya que
201
Esta frmula [5] de la fiabilidad no es, por supuesto cmoda para calcularla (tenemos otras alternativas) pero pone de manifiesto qu es lo que influye
en la fiabilidad, por eso es importante.
Aumentar la fiabilidad si aumenta el numerador. Y lo que tenemos en el
numerador (frmula [5]) es la suma de las covarianzas de los tems (Ssxy =
Srxysxsy) que expresa a) todo lo que discriminan los tems (y ah estn sus
desviaciones tpicas) y b) por estar relacionados (y tenemos tambin las correlaciones inter-tem).
Si nos fijamos en la frmula [5] vemos que si los tems no discriminan (no
establecen diferencias) sus desviaciones tpicas sern pequeas, bajar el numerador y bajar la fiabilidad.
Pero no basta con que haya diferencias en los tems, adems tienen que estar relacionados; la correlacin entre los tems tambin est en el numerador
de la frmula [5]: si las desviaciones son grandes (como en el grupo B de la
tabla 1) pero los tems no estn relacionados (= respuestas no coherentes),
bajar la fiabilidad, porque esa no relacin entre los tems hace que las puntuaciones totales estn menos diferenciadas, como sucede en el grupo B. En
este caso vemos que cuando las desviaciones de los tems son muy grandes,
pero la correlacin inter-tem es igual a 0, la fiabilidad es tambin igual a 0.
La fiabilidad expresa por lo tanto cunto hay de diferencias en los totales
debidas a respuestas coherentes (o proporcin de varianza verdadera o debida a que los tems estn relacionados). Por eso se denomina a estos coeficientes coeficientes de consistencia interna: son mayores cuando las relaciones entre los tems son mayores. La expresin varianza verdadera puede
ser equvoca; en este contexto varianza verdadera es la debida a que los tems
estn relacionados, son respondidos de manera bsicamente coherente, pero no prueba o implica que de verdad todos los tems midan lo mismo.
Esta relacin emprica, verificable, entre los tems nos sirve para apoyar
o confirmar (pero no probar) la relacin conceptual que debe haber entre
los tems (ya que pretendidamente miden lo mismo), aunque esta prueba no
es absoluta y definitiva y requerir matizaciones adicionales (dos tems pueden estar muy relacionados entre s sin que se pueda decir que miden lo mismo, como podran ser edad y altura).
La frmula [4] puede transformarse en otra de clculo ms sencillo. Se
puede demostrar fcilmente que la varianza de un compuesto (como la varianza de los totales de un test, que est compuesto de una serie de tems que
se suman en una puntuacin final) es igual a la suma de las covarianzas entre los tems (entre las partes del compuesto) ms la suma de las varianzas
de los tems:
de donde
202
La expresin [k/(k-1)] (k= nmero de tems) la aadimos para que el valor mximo de este coeficiente pueda llegar a la unidad. El segundo miembro
de esta frmula [8], que es el que realmente cuantifica la proporcin de varianza debida a lo que los tems tienen en comn o de relacionado, puede alcanzar un valor mximo de [(k-1)/k] y esto solamente en el caso improbable
de que todas las varianzas y covarianzas sean iguales. Como [(k-1)/k] x [k/(k1)]= 1, al aadir a la frmula el factor [k/(k-1)] hacemos que el valor mximo
posible sea 1.
La frmula [8], tal como est expresada, corresponde al a de Cronbach
(para tems continuos); en la frmula Kuder-Richardson 20 (para tems dicotmicos, respuesta 1 0) sustituimos Ss2i por Spq pues pq es la varianza de
los tems dicotmicos (p = proporcin de unos y q = proporcin de ceros).
La parte de la frmula [8] que realmente clarifica el sentido de la fiabilidad
est en el segundo miembro que, como hemos visto, equivale a Srxysxsy/s2t
(suma de las covarianzas de todos los tems dividida por la varianza de los totales, frmulas [4] y [5]).
203
1 Cuando la muestra es heterognea; es ms fcil clasificar a los sujetos cuando son muy distintos entre s. Con muestras de sujetos muy
parecidos en el rasgo que queremos medir, todos respondern de manera parecida, y las varianzas de los tems y sus intercorrelaciones sern
pequeas.
2 Cuando la muestra es grande porque en muestras grandes es ms
probable que haya sujetos muy distintos (es la heterogeneidad de la
muestra, y no el nmero de sujetos, lo que incide directamente en la
fiabilidad); aunque tambin podemos obtener un coeficiente alto en
muestras pequeas si los sujetos son muy diferentes en aquello que es
comn a todos los tems y que pretendemos medir.
3 Cuando las respuestas a los tems son ms de dos, porque en
este caso hay una mayor probabilidad de que las respuestas difieran
ms, de que se manifiesten las diferencias que de hecho existen. Cuando el nmero de respuestas supera la capacidad de discriminacin de
los sujetos, la fiabilidad baja porque las respuestas son ms inconsistentes; en torno a 6 7, e incluso menos, suele situarse el nmero ptimo
de respuestas. Lo ms claro experimentalmente es que la fiabilidad sube al pasar de dos respuestas a tres.
4 Cuando los tems son muchos (ms oportunidad de que los sujetos
queden ms diferenciados en la puntuacin total) aunque un nmero
de tems grande puede dar una idea equvoca de la homogeneidad del
instrumento como indicaremos ms adelante (muchos tems poco relacionados entre s pueden llevar una fiabilidad alta en todo el instrumento sin que quede muy claro qu se est midiendo).
5 Cuando la formulacin de los tems es muy semejante, muy repetitiva (si hay diferencias entre los sujetos, aparecern en todos los
tems y subirn sus intercorrelaciones) aunque sta no es una caracterstica necesariamente deseable en un instrumento (que medira un
constructo definido con lmites muy estrechos). En general los constructos o rasgos definidos con un nivel alto de complejidad requerirn
tems ms diversificados y la fiabilidad tender a ser menor.
204
205
tendemos medir. Es ms, sin diferencias entre los sujetos no puede haber un
coeficiente de fiabilidad alto. La fiabilidad es una caracterstica positiva siempre que interese detectar diferencias que suponemos que existen. Esto sucede cuando medimos rasgos de personalidad, actitudes, etc., medir es, de alguna manera, establecer diferencias.
5. Una observacin importante: la interpretacin de estos coeficientes,
como caracterstica positiva o deseable, puede ser distinta cuando se trata de
comprobar resultados escolares en los que no hay diferencias o no se pretende que existan, por ejemplo en un examen de objetivos mnimos, o si se trata de verificar si todos los alumnos han conseguido determinados objetivos. A
la valoracin de la fiabilidad en exmenes y pruebas escolares le dedicamos
ms adelante un comentario especfico (apartado 11).
La valoracin de una fiabilidad alta como caracterstica positiva o de calidad de un test es ms clara en los tests de personalidad, inteligencia, etc., o
en las escalas de actitudes: en estos casos pretendemos diferenciar a los sujetos, captar las diferencias que de hecho se dan en cualquier rasgo; digamos
que en estos casos las diferencias son esperadas y legtimas. Adems en este
tipo de tests tambin pretendemos medir (en un sentido analgico) un nico rasgo expresado por todos los tems, mientras que en el caso de un examen de conocimientos puede haber habilidades muy distintas, con poca relacin entre s, en el mismo examen (aunque tampoco esto es lo ms habitual).
Aun con estas observaciones, en un examen largo, tipo test, con muchos o
bastantes alumnos, entre los que esperamos legtimamente que haya diferencias, una fiabilidad baja s puede ser un indicador de baja calidad del instrumento, que no recoge diferencias que probablemente s existen.
6. ndice de precisin. Hemos visto que el coeficiente de fiabilidad expresa una proporcin, la proporcin de varianza verdadera o varianza debida a lo que los tems tienen en comn. Tambin sabemos que un coeficiente
de correlacin elevado al cuadrado (r2, ndice de determinacin) expresa
una proporcin (la proporcin de varianza compartida por dos variables). Esto quiere decir que la raz cuadrada de una proporcin equivale a un coeficiente de correlacin (si r2 = proporcin, tenemos que
= r).
En este caso la raz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlacin entre las puntuaciones obtenidas (con nuestro instrumento) y las puntuaciones verdaderas (obtenidas con un test ideal que
midiera lo mismo). Este coeficiente se denomina ndice de precisin (tambin ndice, no coeficiente, de fiabilidad).
ndice de precisin robservadas.verdaderas =
[9]
206
207
208
apoya (pero no prueba) la hiptesis de que todos los tems miden bsicamente el mismo rasgo o atributo.
2 Los coeficientes de fiabilidad permiten calcular el error tpico de las
puntuaciones individuales; este error tpico puede incluso ser de un
inters mayor que el coeficiente de fiabilidad porque tiene aplicaciones
prcticas como veremos en su lugar.
3 Los coeficientes de fiabilidad obtenidos nos permiten estimar los coeficientes de correlacin que hubiramos obtenido entre dos variables
si su fiabilidad fuera perfecta (y que se denominan coeficientes de correlacin corregidos por atenuacin).
9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretacin unidimensional del rasgo medido
Como vamos exponiendo, la consistencia interna que manifiesta el coeficiente de fiabilidad apoya (pero no prueba) la interpretacin de que todos
los tems miden lo mismo (es lo que entendemos por unidimensionalidad;
que el instrumento mide un nico rasgo bien definido); esto es lo que en
principio se pretende cuando se construye un test o escala.
sta es la interpretacin y valoracin ms comn de estos coeficientes.
Simplificando, lo que decimos es esto: si unos sujetos tienden a estar de
acuerdo con todos los tems y otros responden en la zona del desacuerdo a
los mismos tems, esta coherencia de las respuestas nos dice que todos los
tems miden el mismo rasgo. Esta interpretacin, que es vlida en principio,
hay que relativizarla, porque en la fiabilidad influyen variables ajenas a la redaccin de los tems, que por otra parte pueden ser buenos (con criterios
conceptuales) pero no para cualquier muestra o para cualquier finalidad.
El interpretar una fiabilidad alta como indicador claro de que todos los
tems miden lo mismo no se puede aceptar ingenuamente; el coeficiente de
fiabilidad no es una medida de unidimensionalidad. Esto es importante
porque precisamente se aduce este coeficiente como prueba de que los tems
miden lo mismo, de que todos los tems expresan bien un mismo rasgo, y esto no est siempre tan claro.
Por otra parte (como ya se ha indicado en el n 7) una de las interpretaciones standard de estos coeficientes (en la misma lnea de apoyo a la unidimensionalidad del test) es que expresan la correlacin que obtendramos
con un test paralelo. Podemos concebir un test (o escala de actitudes, etc.)
como compuesto por una muestra aleatoria de tems tomada de un universo o poblacin de tems que miden lo mismo: la fiabilidad indicara la correlacin de nuestro test con otro de idntico nmero de tems tomados del mismo universo. En primer lugar no hay un valor ptimo del coeficiente de
fiabilidad y por otra parte esta interpretacin (derivada del modelo de Cron-
209
bach) supone al menos una condicin que no suele darse en la prctica: que
todas las correlaciones tem-total son de la misma magnitud. En la prctica es
preferible hablar de una estimacin de esa correlacin, que ser ms exacta
si somos muy restrictivos en la seleccin de los tems.
Hay que matizar la interpretacin de estos coeficientes porque no dependen exclusivamente de la redaccin de los tems, tambin dependen de la
complejidad o simplicidad de la definicin del rasgo que queremos medir, y
adems (y frecuentemente sobre todo) influyen en la fiabilidad caractersticas de la muestra. Hablando con propiedad, la fiabilidad ya sabemos que no
es una caracterstica del instrumento de medicin sino de las puntuaciones
con l obtenidas en una situacin dada y con una muestra determinada.
En estas observaciones nos fijamos sobre todo en los coeficientes de fiabilidad ms bien altos, porque no indican necesariamente que el instrumento es bueno, tambin prestaremos atencin a los coeficientes bajos, que pueden tener su explicacin e incluso ser compatibles con un buen instrumento.
Vamos a explicar por qu un coeficiente alto no expresa necesariamente
que los tems son suficientemente homogneos como para concluir que todos miden lo mismo, que hay suficiente homogeneidad conceptual como
para sumarlos en una nica puntuacin que refleja lo un sujeto tiene del rasgo que estamos midiendo y que consideramos expresado por la formulacin
de los tems.
Nos fijaremos en tres puntos:
1) Esta consistencia interna que cuantifican los coeficientes de fiabilidad expresa una relacin de hecho, estadstica, emprica, entre los
tems, pero la relacin emprica no supone necesariamente que hay
coherencia conceptual (que todos expresan bien el mismo rasgo).
2) Una fiabilidad alta puede deberse a un nmero grande de tems que
en ocasiones no se prestan a una interpretacin clara como descriptores de un nico rasgo, bien definido.
3) Una fiabilidad alta puede deberse tambin a una concepcin del rasgo muy limitada, expresada a travs de tems de contenido casi idntico, muy repetitivos.
Todo esto hay que tenerlo en cuenta para valorar estos coeficientes y no
dar necesariamente por bueno un instrumento porque hemos obtenido una
fiabilidad alta7.
Sobre los usos y abusos del coeficiente a puede verse Schmitt (1996).
210
211
el anlisis factorial) nos pueden llevar a la conclusin de que los subconjuntos de tems miden rasgos suficientemente distintos como para que sea cuestionable sumarlos en un total nico. Consistencia interna (tal como la cuantifican estos coeficientes) y unidimensionalidad son conceptos distintos,
por eso decimos que un coeficiente alto de fiabilidad es un apoyo pero no
una prueba de que el conjunto de tems que componen el instrumento mide un nico rasgo bien conceptualizado.
9.1.2. Fiabilidad y nmero de tems
El coeficiente de fiabilidad aumenta al aumentar el nmero de tems;
quiere esto decir que los tests ms largos son ms homogneos, que sus
tems miden con ms claridad el mismo rasgo? Obviamente no; los tems no
estn ms relacionados entre s por el mero hecho de ser ms en nmero; el
mismo Cronbach (1951) lo expresaba as: un galn de leche no es ms homogneo que un vaso de leche; un test no es ms homogneo por el mero hecho de ser ms largo.
El que al aumentar el nmero de tems aumente la fiabilidad se debe, al
menos en parte, a un mero mecanismo estadstico: cuando aumenta el nmero de tems (con tal de que estn mnimamente relacionados entre s) la suma de las covarianzas entre los tems (numerador de la frmula [4]) aumenta proporcionalmente ms que la varianza de los totales (denominador de la
frmula [4]). Una fiabilidad alta se puede obtener con muchos tems con relaciones bajas entre s, e incluso con algunas negativas; y puede suceder tambin que (como ya hemos indicado) dos (o ms) bloques de tems con claras
correlaciones entre los tems dentro de cada bloque, pero con poca o nula relacin con los tems del otro bloque den para todo el test un coeficiente alto
de fiabilidad. En este caso la homogeneidad del conjunto, y la interpretacin
de las puntuaciones como si expresaran un nico rasgo bien definido puede
ser cuestionable.
Por lo tanto:
a) No se debe buscar una fiabilidad alta aumentando sin ms el nmero de
tems, sin pensar bien si son realmente vlidos para expresar sin confusin el rasgo que deseamos medir. Una fiabilidad alta no es un indicador
cuasi automtico de la calidad de un test, sobre todo si es muy largo;
hace falta siempre una evaluacin conceptual de los tems (adems de
verificar empricamente su correlacin con el total del instrumento).
b) Con frecuencia con un conjunto menor de tems se puede conseguir
una fiabilidad semejante o no mucho ms baja que si utilizamos todos
los tems seleccionados en primer lugar, y varios subconjuntos de tems
pueden tener coeficientes de fiabilidad muy parecidos.
212
213
que podemos hacer a partir de los mismos. Uno de estos clculos es el del
error tpico de la medida.
El error tpico de la medida es de especial utilidad cuando se van a hacer
interpretaciones individuales, sobre todo si se derivan consecuencias importantes para los sujetos (aprobar, ser seleccionado para un puesto de trabajo, etc.), y con ms razn si se juzga que la fiabilidad del instrumento dista de ser ptima. Ya hemos indicado en otro lugar que una fiabilidad alta es
importante cuando los resultados (de un test) van a influir en la toma de decisiones sobre los sujetos (y el aprobar o suspender a un sujeto es una decisin importante).
9.2.1. Concepto y frmula del error tpico
El error tpico de la medida viene a ser la desviacin tpica de las puntuaciones individuales, e indica el margen de error o variacin probable de
las puntuaciones individuales. En trminos informales podemos decir que el
error tpico nos indica el margen de oscilacin probable de las puntuaciones
de una ocasin a otra o entre pruebas hipotticamente iguales o semejantes.
Nos puede servir para relativizar los resultados individuales, y de alguna manera neutralizar la baja fiabilidad de instrumento indicando y teniendo en
cuenta los mrgenes de error.
Vamos a pensar en un ejemplo sencillo, un examen tipo test. Cada alumno
tiene un resultado, su nmero de respuestas correctas.
Si cada alumno hubiera respondido a un nmero indefinido de exmenes,
no hubiera obtenido en todos exactamente el mismo resultado; sus posibles
resultados se hubieran distribuido segn la distribucin normal (figura 3).
Figura 3
214
Esta distribucin hubiera tenido su media y su desviacin tpica o error tpico de la medicin. Podemos suponer que la puntuacin de hecho obtenida es la media de la distribucin (aunque esto no es as exactamente, como
veremos despus al tratar de las puntuaciones verdaderas).
El error tpico de la medicin se calcula a partir del coeficiente de fiabilidad, y en muchos casos el mejor uso del coeficiente de fiabilidad es utilizarlo
para calcular el error tpico, (por ejemplo en exmenes o en cualquier test)
cuando interese situar a cada uno en su banda de posibles probables resultados. Esta banda de posibles resultados ser ms estrecha (con un error tpico
menor) cuando la fiabilidad sea alta, y ser ms amplia cuando baje la fiabilidad. Una baja fiabilidad de un instrumento puede quedar neutralizada si utilizamos el error tpico en la interpretacin de las puntuaciones individuales.
La frmula del error tpico podemos derivarla con facilidad de las frmulas
[2] y [3].
De la frmula [2] podemos despejar la varianza verdadera: s2v = s2t - s2e
y substituyendo esta expresin de s en [3]:
2
v
s2e
de donde = 1- r11
s2t
s2t s2e
s2e
r11 = = 1-
s2t
s2t
[10]
error tpico
Esta es la frmula de la desviacin tpica de los errores de medicin, denominada error tpico de la medida o de las puntuaciones individuales. Se calcula a partir de la desviacin tpica (de los totales del test) y del coeficiente de
fiabilidad calculados en la muestra. Si un sujeto hubiera respondido a una serie de tests paralelos semejantes, el error tpico sera la desviacin tpica obtenida en esa serie de tests. Se interpreta como cualquier desviacin tpica e indica la variabilidad probable de las puntuaciones obtenidas, observadas.
El error tpico es directamente proporcional al nmero de tems y en el caso de los tests con respuestas 1 0 (como en las pruebas objetivas) un clculo rpido (y aproximado) es el dado en la frmula [11]8:
[11]
error tpico
8
Puede verse explicado en Gardner (1970) y en Burton (2004). Hay varias frmulas
que permiten clculos aproximados del error tpico, del coeficiente de fiabilidad y de otros
estadsticos que pueden ser tiles en un momento dado (por ejemplo, y entre otros, Saupe, 1961; McMorris, 1972).
215
Aqu hay que hacer una observacin importante. Este error tpico se aplica en principio a todos los sujetos por igual; hay un error tpico que indica la
oscilacin probable de cada puntuacin. Esto no es as exactamente. Pensemos en un examen: el alumno que sabe todo, en exmenes semejantes seguira sabiendo todo, y el alumno que no sabe nada, en exmenes semejantes
seguira sin saber nada: la oscilacin probable en los extremos es menor que
en el centro de la distribucin. sta es una limitacin de esta medida del
error probable individual. Aun as es la medida ms utilizada aunque hay
otras9. Si la distribucin es normal (o aproximadamente normal) y las puntuaciones mximas y mnimas obtenidas no son las mximas o mnimas posibles (la amplitud real no es igual a la amplitud mxima posible), ste error tpico de la medida es ms o menos uniforme a lo largo de toda la escala de
puntuaciones.
Aqu nos limitamos a exponer el error tpico habitual, el que se utiliza normalmente y que tiene aplicaciones muy especficas, pero en situaciones aplicadas (como en exmenes) s conviene caer en la cuenta de que la posible variabilidad individual tiende a ser menor en los extremos de la distribucin.
9.2.2. Las puntuaciones verdaderas
Un punto importante para el clculo e interpretacin del error tpico es
que el centro de la distribucin de los posibles resultados no es para cada sujeto la puntuacin que ha obtenido. Si un sujeto obtiene una puntuacin de
120 y el error tpico es de se = 4.47, no podemos concluir que hay un 68% de
probabilidades (aproximadamente, es la proporcin de casos que suelen darse entre 1s) de que su verdadera puntuacin est entre 120 4.47. El centro de la distribucin no es en este caso la puntuacin obtenida, sino la denominada puntuacin verdadera (Xv) que se puede estimar mediante la
frmula [12]:
Estimacin de la puntuacin verdadera:
) (r11)] + X
v = [(X-X
X
[12]
En Mehrens y Lehmann (1973, pg. 106) puede verse cmo calcular el error tpico
de cada sujeto; es una frmula poco utilizada porque resulta laborioso calcularla para cada sujeto y a efectos prcticos son suficientes las expuestas en el texto.
216
(con un 5% de probabilidades de equivocarnos) estn entre 116 (1.96 errores tpicos); en este caso entre 116 (1.96)(4.47) o entre 107 y 125.
Estas puntuaciones verdaderas tienden a ser menores que las obtenidas
cuando estas son superiores a la media, y mayores cuando son inferiores a la
media. No debemos entender esta puntuacin verdadera (aunque ste sea el
trmino utilizado) como expresin de una verdad absoluta, que nos dice
exactamente lo que vale o sabe una persona en aquello en la que la hemos
medido. Hay que entender ms bien esta puntuacin verdadera como la
puntuacin ms probable que un sujeto hubiera obtenido si le hubiramos
medido repetidas veces en el mismo rasgo y con el mismo instrumento.
Las puntuaciones verdaderas y las puntuaciones observadas tienen una
correlacin perfecta (el orden de los sujetos es el mismo con las dos puntuaciones) por lo que el clculo de estas puntuaciones verdaderas no tiene
siempre una especial utilidad prctica; s puede tenerla cuando se desea precisamente utilizar el error tpico para precisar con mayor rigor y exactitud entre qu lmites o banda de resultados probables se encuentra la verdadera
puntuacin, como tratamos en el apartado siguiente.
9.2.3. Los intervalos de confianza de las puntuaciones individuales
Como el error tpico se interpreta como una desviacin tpica, si el error
tpico es de 4.47, hay un 68% de probabilidades de que la verdadera puntuacin estara entre 116 4.47 (la puntuacin verdadera ms-menos un error
tpico; es la proporcin de casos que caen en la distribucin normal entre la
media ms una desviacin tpica y la media menos una desviacin tpica, como se representa en la figura 1).
Podemos establecer intervalos de confianza con mayor seguridad, y as
podramos decir, con un 95% de probabilidades de acertar (z = 1.96) que la
puntuacin verdadera se encuentra entre 116 1.96se y en nuestro ejemplo
entre 116 (1.96)(4.47) o entre 116 8.76 (es decir, entre 107 y 125).
El error tpico nos sirve para relativizar las puntuaciones obtenidas, y ms
que pensar en una puntuacin concreta, la obtenida por cada sujeto, podemos pensar en una banda de posibles puntuaciones.
La puntuacin verdadera exacta de cada sujeto (la que hubiera obtenido
respondiendo a todos los tems del universo e tems o a muchas pruebas paralelas) no la sabemos, pero s podemos estimar entre qu lmites se encuentra, y esto puede ser de utilidad prctica en muchas ocasiones. Cuando en un
examen hay una puntuacin mnima para el apto, sumando a los que estn
en el lmite un error tpico, o margen de oscilacin probable, algunos quizs
superen holgadamente ese lmite; al menos hay un criterio razonablemente
objetivo, justificable y comn para todos.
217
En esta frmula rxy es el coeficiente de correlacin obtenido entre dos variables, X e Y, y rxx y ryy son los coeficientes de fiabilidad de cada variable; si conocemos solamente la fiabilidad de una de las dos variables, en el denominador tendremos solamente la raz cuadrada de la fiabilidad conocida.
Por ejemplo si entre dos tests o escalas tenemos una correlacin de .30 y
los coeficientes de fiabilidad de los dos tests son .50 y .70, la correlacin estimada corregida por atenuacin sera:
Vemos que la correlacin sube apreciablemente; y expresa la relacin entre las dos variables independientemente de los errores de medicin de los
instrumentos utilizados.
Sobre estas estimaciones de la correlacin entre dos variables (entre las
verdaderas puntuaciones de X e Y, sin errores de medicin) ya se han hecho
una serie de observaciones al tratar sobre los coeficientes de correlacin (en
el apartado 4.1. del captulo sobre correlacin y covarianza; se es el contex-
218
to apropiado); conviene tener en cuenta esas observaciones (que no repetimos aqu) sobre 1 en qu condiciones se debe utilizar esta frmula de correccin por atenuacin, 2 en qu situaciones es ms til y 3 otras frmulas distintas de correccin por atenuacin. Conviene repasar estas observaciones
antes de aplicar estas frmulas10.
219
eficientes de correlacin entre los tems son muy bajos. Por eso la fiabilidad
es mayor con muestras heterogneas, en las que hay mayores diferencias en
las respuestas. Con una muestra ms variada (o simplemente mayor, donde
es ms probable que haya sujetos muy diferentes) podemos encontrar una
fiabilidad alta. De todas maneras con una fiabilidad baja que no se deba a la
mala calidad del instrumento sino a la homogeneidad de la muestra, seguiremos clasificando mal (diferenciando, midiendo mal) a los sujetos de esa
muestra.
10.3. Definicin compleja del rasgo medido
Por supuesto una fiabilidad baja, sobre todo si la obtenemos con una muestra razonablemente heterognea, puede significar una concepcin del rasgo
excesivamente compleja o una construccin deficiente del instrumento. Aun
as podemos encontrar coeficientes bajos en tests reconocidos como buenos
porque miden rasgos definidos con un grado grande de complejidad11.
Rasgos definidos de manera compleja o muy genrica pueden tener
tems poco relacionados entre s y consecuentemente tendremos una fiabilidad baja aunque est presente la unidad conceptual pretendida por el autor.
Una consecuencia de definir los rasgos que medimos de manera muy compleja es que en estos casos es que se puede llegar a una misma puntuacin total por caminos distintos, y esto hay que asumirlo en la interpretacin. En
cualquier caso la fiabilidad debera estar dentro de unos mnimos aceptables
para poder afirmar que estamos midiendo, diferenciando a los sujetos segn
posean ms o menos del rasgo que supuestamente medimos12.
Cuando la fiabilidad es baja, observando la redaccin de los tems y cmo
se relacionan entre s, podemos llegar a la conclusin que es preferible una
concepcin ms simple del rasgo, sin mezclar ideas relacionadas pero no lo
suficiente, o dividir el instrumento en dos (o ms) instrumentos y medir aspectos distintos por separado con instrumentos distintos.
10.4. Utilidad del error tpico cuando la fiabilidad es baja
Una valoracin racional del coeficiente de fiabilidad tendr en cuenta tanto la homogeneidad de la muestra como la complejidad del instrumento, y en
cualquier caso con coeficientes bajos siempre es conveniente utilizar el error t11
Para Cattell (1964), que prefiere medir en sus tests rasgos complejos, la consistencia interna no tiene por que ser la mxima posible, sino la mxima compatible con la complejidad
deseada en la misma concepcin del constructo (optimum low, en expresin de Cattel).
12
Un tratamiento ms extenso de la fiabilidad y de la unidimensionalidad de los
tests puede verse en Morales (2006, cap. 9 y 10).
220
pico en la interpretacin de los resultados individuales. Cuando se trata de tomar decisiones sobre sujetos, o de dar un informe de cierta importancia (por
ejemplo en un psicodiagnstico) y la fiabilidad del instrumento es baja, es cuando puede ser de especial utilidad (e incluso de responsabilidad tica) no limitarse a informar con una puntuacin o resultado muy preciso, sino con una
banda de puntuaciones probables; esta banda o lmites probables de la puntuacin ser mayor cuando el error tpico sea mayor (y la fiabilidad ms baja).
221
222
unas cosas no implica saber otras, entonces lgicamente bajar la fiabilidad de todo el test (debido a la poca relacin entre unas y otras preguntas o ejercicios).
En un examen final ms o menos largo, donde hay de todo, fcil y difcil,
en una clase relativamente numerosa, en la que hay alumnos ms y menos
aventajados, una fiabilidad alta en una prueba objetiva nos indicar que detectamos bien diferencias que de hecho existen y que adems son legtimas o
al menos esperables. Cuando todos saben todo en un examen de esas caractersticas, esto puede significar que estamos igualando a la clase por su nivel
ms bajo y que el profesor no da juego a los ms capaces.
11.3. Fiabilidad y calificacin
Tambin hay que pensar que una fiabilidad alta indica en principio diferencias consistentes entre los alumnos, pero no indica necesariamente que los
de puntuacin ms baja no lleguen al nivel del apto. Si todos los alumnos estn en la parte alta de la distribucin pero bien diferenciados, la fiabilidad ser alta; en este caso los que saben menos pueden saber lo suficiente; y tambin puede suceder lo contrario, que los que saben ms que los dems no
sepan lo suficiente.
Lo que s parece claro es que una fiabilidad alta es deseable en todo instrumento de medida cuya funcin y utilidad est precisamente en que nos permite conocer si un sujeto tiene mucho o poco del rasgo que estamos midiendo y adems nos interesa diferenciar a unos sujetos de otros, o al menos es
razonable esperar diferencias claras entre los sujetos (como ya se ha indicado
en 11.2).
Lo que s puede ser siempre de utilidad en cualquier tipo de examen es
calcular y utilizar el error tpico de la medida o de las puntuaciones obtenidas (para lo cual necesitamos el coeficiente de fiabilidad)13, porque nos indica la banda probable de resultados en la que se encuentra cada alumno, y esta banda, aunque sea ms imprecisa, refleja mejor que un nmero exacto de
respuestas correctas por dnde se encuentra cada uno. En lenguaje coloquial
podramos decir que el error tpico expresa el margen de mala o buena
suerte del alumno ante unas preguntas concretas, y puede ayudar a relativizar
una mera suma de respuestas correctas. Si establecemos previamente una
puntuacin de corte para situar el aprobado, el sumar, por ejemplo, un error
13
223
tpico a los alumnos que estn en el lmite del apto puede ser una buena
prctica (como ya se ha indicado en el apartado 9.2.3)14.
Si en un examen tipo test sumamos a los que estn justo debajo del lmite propuesto para el aprobado dos erres tpicos nos ponemos prcticamente en el lmite mximo probable al que hubiera llegado ese alumno.
224
3. Cuando la mitad (o casi la mitad) de los tems son positivos y la otra mitad son negativos (favorables o desfavorables al rasgo medido, con distinta
clave de correccin), es til que las dos mitades estn compuestas una por
los tems positivos y otra por los negativos. En este caso la correlacin entre
los dos tipos de tems es muy informativa en s misma, aunque no se calcule
despus la fiabilidad por este procedimiento. Una correlacin entre los dos
subtests en torno a .50 o mayor indica suficiente coherencia entre los dos tipos de tems, y que no se manifiesta de modo apreciable la aquiescencia o
tendencia a mostrar acuerdo (o responder s) a tems que expresan ideas contradictorias.
12.1.2. Frmulas
De estas frmulas la primera y ms clsica es la de Spearman-Brown; ambos autores derivaron las mismas frmulas de manera independiente en 1910
(la frmula bsica de estos autores es la [21], de la que se derivan la [14], la
[22] y la [23]). La frmula que se conoce habitualmente como procedimiento de las dos mitades (vamos a ver que adems hay otras frmulas) y no suele faltar en ningn texto cuando se trata de la fiabilidad, es la frmula [14].
2r12
r11 =
1 + r12
[14]
Frmula de Spearman-Brown
225
En esta frmula entran tambin, adems de la correlacin de las dos mitades, las desviaciones tpicas de cada mitad.
3. Otras frmulas basadas en la particin de un test en dos mitades, y que
suelen encontrarse en algunos textos, son la [16] y la [17], que no requieren
el clculo de la correlacin entre las dos mitades; de todas maneras en estos
casos (particin del test en dos mitades) es siempre preferible la frmula
[15].
s21 y s22 son las varianzas de las dos
mitades,
s2t es la varianza de todo el test
Frmula de Flanagan16
s2d = Es la varianza de la diferencia entre las dos mitades.
Cada sujeto tiene dos puntuaciones, una en cada mitad: a cada sujeto se le restan ambas puntuaciones y
se calcula la varianza de estas diferencias.
Esta frmula tambin se conoce como frmula de Rulon que es el primero que la
expuso (en 1939) aunque Rulon se la atribuye a Flanagan (Traub, 1994).
17
Este coeficiente de fiabilidad (Kuder-Richardson o Cronbach) se calcula en el SPSS
en la opcin analizar, en escalas.
226
frmula Kuder-Richardson 20
(para tems dicotmicos)
227
k=
nmero de tems
Ss2i = es la suma de las varianzas de los tems
s2t = es la varianza de los totales
En la frmula [14] hemos supuesto que k =2 y r-ij = r12. De la frmula anterior [21] se derivan otras dos especialmente tiles, y que se pueden utilizar
aunque la fiabilidad no se calcule por el mtodo de Spearman-Brown.
228
12.3.1.
Disponemos de una frmula que nos dice (siempre de manera aproximada) en cunto aumentar la fiabilidad si aumentamos el nmero de tems
multiplicando el nmero de tems inicial, que ya tenemos, por un factor n. Es
en realidad una aplicacin de la misma frmula.
rnn =
r11 =
n=
A partir de una fiabilidad obtenida con un nmero determinado de tems puede verse en Morales, Urosa y Blanco (2003) una tabla con la fiabilidad que obtendramos multiplicando el nmero inicial de tems por un factor n.
229
n=
Naturalmente los nuevos tems deben ser parecidos a los que ya tenemos.
Si el nmero de tems que necesitamos para alcanzar una fiabilidad aceptable
es obviamente excesivo, posiblemente los contenidos del ncleo inicial de
tems no representan bien un rasgo definido con claridad (al menos para la
poblacin representada por esa muestra) y es preferible intentar otra cosa.
12.4. Estimacin de la fiabilidad en una nueva muestra cuya varianza conocemos a partir de la varianza y fiabilidad calculadas en
otra muestra
La fiabilidad hay que calcularla en cada muestra. Al obtener los datos con
un test en una nueva muestra no se puede aducir la fiabilidad obtenida en
otras muestras como prueba o garanta de que en la nueva muestra la fiabilidad ser semejante19. En definitiva la fiabilidad indica en qu grado el test diferencia a unos sujetos de otros y esto depende de la heterogeneidad de la
muestra; por lo tanto se puede ordenar bien a los sujetos de una muestra y
no tan bien a los de otra muestra distinta en la que los sujetos estn ms igualados. En nuevas muestras con una varianza menor, lo normal es que la fiabilidad baje.
Lo que s se puede hacer es estimar la fiabilidad en una nueva muestra conociendo su desviacin tpica a partir de la fiabilidad obtenida en otra muestra de la que tambin conocemos la desviacin tpica (Guilford y Fruchter,
1973:420), bien entendido que se trata solamente de una estimacin.
19
El obtener la fiabilidad en cada nueva muestra es una de las recomendaciones de la
American Psychological Association (5 edicin, 2001).
230
rnn =
231
respuestas
coherentes
respuestas
incoherentes
de acuerdo
de acuerdo
en desacuerdo
de acuerdo
232
233
4.
5.
6.
7.
8.
9.
unas condiciones que no se suelen darse. Aun as pueden tener su utilidad para clculos rpidos y aproximativos. Pueden encontrarse estas
frmulas en Saupe (1961) y en McMorris (1972), y para el error tpico
tambin en Burton (2004).
En las pruebas de rendimiento escolar no es siempre fcil dividir un
test o prueba en dos mitades equivalentes para calcular la fiabilidad por
el procedimiento de las dos mitades. Tambin se puede calcular a partir de dos mitades de tamao desigual o incluso a partir de tres partes
(con muestras grandes en este caso). Se trata de procedimientos menos conocidos pero que pueden ser de utilidad en un momento dado;
pueden encontrarse en Kristof (1974) y en Feldt (1975).
En los tests o pruebas objetivas de criterio (en los que hay una puntuacin de corte para distinguir al apto del no apto y consecuentemente la distribucin deja de ser normal) la fiabilidad se estima de
otras maneras (pueden verse diversos ndices en Mehrens y Lehmann,
1984, y en Berk, 1978); un ndice apropiado y sencillo es el coeficiente
de Livingston (puede verse en Mehrens y Lehmann, 1984; Black,
1999:291; en Black, 1999:292, tenemos tambin el ndice de discriminacin apropiado en los tests de criterio).
El coeficiente de fiabilidad tambin se puede calcular mediante el anlisis de varianza para muestras relacionadas, con los mismos resultados que la frmula del coeficiente a; puede verse en Hoyt (1941,
1952) y un ejemplo resuelto en Kerlinger (1975: 314-317) y en Fan y
Thompson (2001). La relacin entre fiabilidad y anlisis de varianza
tambin est explicada en Nunnally y Bernstein (1994: 274ss) y en Rosenthal y Rosnow (1991). Posiblemente como mejor se entiende la fiabilidad es desde el anlisis de varianza.
Cmo calcular los intervalos de confianza de los coeficientes de fiabilidad puede verse en Fan y Thompson (2001); Duhachek y Iacobucci
(2004) presentan tablas con el error tpico de a para diversos valores
del nmero de sujetos y de tems y de la correlacin media inter-tem.
El aportar estos intervalos de confianza es una de las recomendaciones
(guidelines) de la American Psychological Association (Wilkinson and
Task Force on Statistical Inference APA Board of Scientific Affairs, 1999).
Para verificar si dos coeficientes de fiabilidad (a) difieren significativamente puede verse Feldt y Kim (2006).
Fiabilidad inter-jueces. Un caso especfico es el clculo de la fiabilidad (o grado de acuerdo) entre diferentes evaluadores, cuando una
serie de jueces evalan una serie de sujetos, situaciones, etc. Puede utilizarse el anlisis de varianza para muestras relacionadas que responde a esta pregunta: las diferencias observadas (la varianza total):
Se deben a que los jueces son distintos en su forma de evaluar, o a que
234
20
La fiabilidad de los jueces calculada a partir del anlisis de varianza para muestras
relacionadas (disponible en EXCEL) es sencillo y de fcil comprensin por su relacin
con el coeficiente a de Cronbach; frmula y explicacin en Morales (2007a).
235
CAPTULO 7
ESTADSTICA INFERENCIAL:
EL ERROR TPICO DE LA MEDIA
237
238
Un punto importante es que aunque las muestras no tengan una distribucin normal, las medias de estas muestras s tienden a seguir la distribucin
normal.
5 La desviacin tpica de estas distribuciones muestrales se denomina
error tpico y se puede estimar a partir de los datos de una muestra. Por lo
tanto un error tpico es la desviacin tpica de una distribucin muestral, y
se interpreta como cualquier desviacin tpica.
Dos distribuciones muestrales, con sus errores tpicos, nos van a interesar
de manera especial:
1) la distribucin muestral de las medias;
2) la distribucin muestral de las diferencias entre medias de la misma
poblacin.
Estas distribuciones muestrales son modelos tericos que a partir de los
datos de una muestra nos van a permitir inferir conclusiones acerca de la poblacin a la que pertenece la muestra. Conociendo el error tpico de estas distribuciones podemos estimar entre qu limites se encuentra la media de la
poblacin o si dos muestras proceden de poblaciones distintas con media distinta. Ahora nos centramos en el error tpico de la media.
Conviene caer en la cuenta desde el principio de la utilidad del error tpico de la media. Es fcil obtener la media de una muestra en cualquier variable de inters, pero con frecuencia lo que nos interesa no es la media como
dato descriptivo de una muestra, sino conocer o tener una idea de por dnde anda la media en la poblacin representada por esta muestra. La media de
la poblacin no la vamos a conocer, pero s podremos estimar entre qu valores se encuentra.
La media de una muestra podemos interpretarla como una estimacin
(solamente una estimacin sujeta a error) de la media de la poblacin. Esta
estimacin ser ms precisa:
1 Si la muestra es aleatoria porque en ese caso representa mejor las caractersticas de la poblacin,
2 Si la muestra es grande (si la muestra comprendiera a toda la poblacin
tendramos el dato exacto, no una estimacin).
El error tpico, como es la desviacin tpica de todas las posibles muestras
de esa poblacin, nos va a permitir localizar entre qu lmites se encuentra la
media de la poblacin.
Este planteamiento es semejante al que nos encontramos en los sondeos
de opinin, como son las encuestas pre-electorales. Si el 48% de los sujetos
entrevistados dice que va a votar a un determinado candidato, esto no quiere decir que el 48% exacto de la poblacin le vaya a votar. Sin embargo los datos obtenidos de una muestra nos van a permitir estimar un tanto por ciento
239
En principio suponemos que la desviacin tpica de la muestra la hemos calculado dividiendo por N, como dato descriptivo de la dispersin en la muestra,
por eso al calcular el error tpico de la media utilizaremos la frmula [2].
240
241
La media de una muestra (X) es una estimacin de la media de la poblacin (m); pero decir que es una estimacin quiere decir que est sujeta a
error. La media exacta de la poblacin no la conocemos; pero s podemos estimar entre qu lmites extremos se encuentra, y esto a partir de la media de
una muestra y del error tpico de la media.
El error tpico de la media no es otra cosa que una estimacin de la desviacin tpica de las medias (de muestras de la misma poblacin), y se interpreta de la misma manera; as por ejemplo segn la distribucin normal, el
95% de las medias se encontrar entre -1.96s y + 1.96s; aqu s es propiamente sx-, el error tpico de la media.
Si tenemos estos datos de una muestra: N = 30, X = 62.8 y s = 7.9, tendremos que (frmula [2]):
242
Hay un 68% de probabilidades de que la media de la poblacin se encuentre entre la media de la muestra ms menos un error tpico:
entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27.
Hay un 95% de probabilidades de que la media de la poblacin se encuentre entre la media de la muestra ms menos 1.96 errores tpicos:
entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68.
Si deseamos mayor seguridad al establecer los lmites probables entre los
que se encuentra la media de la poblacin, podemos tomar como lmite 2.57
errores tpicos, porque sabemos que entre la media ms menos 2.57 desviaciones tpicas se encuentra el 99% de los casos. En este caso:
El lmite inferior de la media de la poblacin sera
El lmite superior de la media de la poblacin sera
Como ya hemos indicado estos lmites o mrgenes de error sern ms ajustados cuando el nmero de sujetos sea mayor. Es til visualizar el efecto del tamao de la muestra en los intervalos de confianza (tabla 1). Queremos saber,
por ejemplo, entre qu lmites se encuentra la media de la poblacin, estimada
243
Con una menor probabilidad de error (.01 en vez de .05) los lmites extremos
de la media en la poblacin son 7.77 y 8.23, una diferencia de .46 en vez de .36
244
245
(el 53%)
(el 67%)
El margen de error en nuestra prediccin es .0678 (casi un 7% redondeando). En la muestra encuestada ha respondido s el 60%, pero en la poblacin representada por esa muestra esperamos que responda s entre un 53%
y un 67%.
El ejemplo de los sondeos pre-electorales pone de relieve la importancia
de calcular los intervalos de confianza de una proporcin (y es lo que se hace y comunica cuando se publican estas encuestas), pero estos intervalos de
confianza son informativos casi en cualquier situacin. Cuando se hacen sondeos de opinin en grupos diversos (alumnos, padres de alumnos, grupos
246
En la tabla 3 podemos observar que en las muestras A y B responde afirmativamente la misma proporcin de sujetos (un 60%), pero al extrapolar los
resultados a las poblaciones representadas por esas muestras el margen de
error es mucho menor en la muestra A porque se trata de ms sujetos.
Al hablar de extrapolar a la poblacin los resultados de una muestra (en
este caso y en cualquier otro) hay que hacer una observacin importante. Estamos suponiendo que esa muestra es representativa de la poblacin, que no
est sesgada, y esto es lo se intenta conseguir con las muestras aleatorias.
Cuando ste no es el caso (responden los sujetos disponibles, los que quieren, etc.) siempre podemos pensar en la poblacin que pueda estar representada por esa muestra y ser cautelosos al generalizar los resultados. En cualquier caso siempre es ms seguro informar sobre los intervalos de confianza
sin limitarnos a una proporcin o porcentaje aparentemente exacto.
4.3. Comparar la media de una muestra con la media de una poblacin
Se trata ahora de verificar si podemos considerar que una muestra, cuya
media conocemos, pertenece a una poblacin cuya media tambin conoce
mos. Si tenemos la media de una muestra (X) y la media de una poblacin
(m), podemos preguntarnos Es posible afirmar que nuestra muestra, cuya
247
media conocemos, pertenece a (es una muestra aleatoria de) una poblacin
con media m? Si la respuesta es no, podremos afirmar que la muestra pertenece a una poblacin distinta, con una media distinta.
Al hablar de diferencias estadsticamente significativas estamos hablando
de diferencias no aleatorias, no explicadas por el error muestral, no esperables por azar. Esto lo afirmaremos con una determinada probabilidad de
error; es el nivel de significacin o nivel de confianza.
Es ms frecuente comparar las medias de dos muestras (para comprobar
si proceden de o pertenecen a poblaciones distintas con distinta media), pero tambin tiene su inters el comparar la media de una muestra con la media
de una poblacin cuando sta es conocida por otras investigaciones o estudios, o es la conclusin lgica de una determinada teora, o simplemente la
media de la poblacin es una hiptesis de trabajo; siempre podemos pensar
en medias hipotticas.
Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de
problemas y obtiene estos resultados: N = 40, X = 12.6 y s = 4.25. El profesor piensa que un resultado ptimo y posible hubiera sido obtener una media
de 15, y se pregunta puede considerarse esta muestra de 40 alumnos como
una muestra aleatoria de una poblacin cuya media fuera m = 15?
Este tipo de planteamientos puede tener su inters cuando la media de la
poblacin es una hiptesis plausible o hay datos de otros estudios, etc. Vamos
a suponer que el nivel de confianza que nos ponemos es de a = .01 (que corresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; slo el 1%
de los casos cae ms all de 2.57).
Podemos solucionar el problema de dos maneras.
1 Nuestra muestra pertenece a una poblacin cuya media en principio
desconocemos. Lo que s podemos hacer es estimar el lmite mximo de la
media de la poblacin a la que pertenece nuestra muestra, tal como hemos
visto antes, y con un riesgo mximo de error del 1%, tal como hemos fijado
previamente.
1. Calculamos el error tpico de la media,
2. Cules sern los lmites superior e inferior de la media de la poblacin,
con una probabilidad de error del 1%?
248
3. Nuestra conclusin es clara: nuestra muestra con media de 12.6 no pertenece a una poblacin hipottica cuya media fuera 15 porque el lmite
mximo de la poblacin de nuestra media es 14.35 y no llega a 15, luego nuestra muestra pertenece a otra poblacin con otra media, cuyo
lmite inferior no es 15.
Podemos visualizar el resultado con un sencillo grfico:
249
En [8] conocemos todos los valores que nos interesan para calcular N
z
Este valor corresponde al nivel de confianza y lo establecemos nosotros; habitualmente utilizaremos un nivel de confianza del .05 y z =
1.96 ( z = 2.57 si nuestro nivel de confianza es de .01)
pq Es la varianza de la poblacin, no la varianza de la muestra. Esta varianza no la conocemos, pero como a mayor varianza en la poblacin
har falta una muestra mayor, nos situamos en la situacin en que la
varianza es la mxima posible; en este caso p = q = .50, y pq = .25,
que es un valor constante.
e Es el margen de error que estamos dispuestos a aceptar y tambin lo
establece el investigador. Si por ejemplo estamos dispuestos a aceptar
un margen de error del 5%, esto quiere decir que si en la muestra encuestada en esta caso responde s el 35%, en la poblacin esperamos
que responda s entre el 30% y el 40%. ste 5% lo expresaremos en
forma de proporcin (o tanto por uno): .05
Vemos de nuevo que si queremos un margen de error pequeo (e, el denominador en 8) necesitaremos una muestra mayor.
Podemos ver la aplicacin de esta frmula [8] con un ejemplo. Vamos a
hacer una encuesta para extrapolar los resultados a una poblacin mayor
(muy grande, de tamao indefinido).
El margen de error que estamos dispuestos a aceptar es del 5% (e = .05),
de manera que si nos responden s el 50% de la muestra ya sabemos que en la
poblacin el s estar entre el 45% y el 55%
El nivel de confianza es del .05, que corresponde a z = 1.96
(1.96)(.25)
Necesitaremos una muestra de este tamao: N = = 384 sujetos
.052
Si el margen de error mximo que nos interesa es del 3% (e = .03), la
muestra necesaria sera de 1067 sujetos.
Hacemos algunas observaciones ya que el exponer y justificar brevemente
estas frmulas tiene un valor complementario para entender mejor el concepto y utilidad del error tpico, pero no tratamos aqu de manera expresa sobre el tamao de la muestra, tipos de muestreos y cmo hacerlos, etc.3
3
Puede verse ms informacin en la bibliografa mencionada y en otras muchas publicaciones; sobre el tamao de la muestra necesario tambin con otras finalidades (construir una escala de actitudes, hacer un anlisis factorial, etc.) puede verse Morales (2007b).
250
251
CAPTULO 8
EL CONTRASTE DE MEDIAS
253
b) Aunque no tengamos un diseo experimental, ni ningn planteamiento de investigacin propiamente dicho, muchas veces exploramos diferencias entre grupos, sin hiptesis previas, por simple curiosidad o
por inters personal. Tenemos los datos y los aprovechamos para descubrir cosas
c) El contraste (comparacin) de las medias de los subgrupos con puntuacin total ms alta y ms baja (en un examen, en un test, en una escala, etc.; en cualquier total que supone la suma de una serie de preguntas) tiene aplicaciones especficas:
1) Aporta informacin de inters (en qu se parecen ms y en que se
diferencian ms los altos y los bajos en cualquier variable).
2) Es una manera sencilla de analizar los tems de una escala o test, para quedarnos con los ms discriminantes (los ms diferenciadores): con estos tems tenemos una fiabilidad mayor, podemos reducir la longitud del instrumento, etc.
254
EL CONTRASTE DE MEDIAS
255
para interpretar los resultados, para ver si la diferencia es relevante, etc. Sobre
todo esto volveremos ms adelante, porque la confusin entre estadsticamente significativo y grande o relevante es muy frecuente.
En la prctica habitual:
1 Se responde en primer lugar a la primera pregunta: la diferencia Est
dentro de lo normal y aleatorio? Es mayor de lo que se podra esperar
si ambas muestras pertenecieran a la misma poblacin?
2 Despus se matiza y se completa la informacin respondiendo a la segunda pregunta sobre la magnitud de la diferencia (pequea, moderada, grande).
La estadstica inferencial ms tradicional se limita con frecuencia a responder a la primera pregunta, pero tambin es importante (y a veces ms importante) analizar la magnitud de la diferencia (cuestin a la que no suelen
responder muchos libros de texto).
Tercera pregunta
Cul es la relevancia, el inters que puede tener la diferencia que hemos
encontrado? Para valorar la relevancia tenemos que responder a las dos preguntas anteriores (la diferencia est dentro de lo normal? es grande, pequea?) y adems hay ya que tener en cuenta otro tipo de informacin ms
cualitativa: contexto, finalidad de la comparacin, etc.
3. EL
256
EL CONTRASTE DE MEDIAS
257
258
EL CONTRASTE DE MEDIAS
259
p < .01
p <.001
Los programas de ordenador suelen indicar la probabilidad exacta que corresponde a cada valor de z (p =.03, p = .002, etc.) y es el dato que se debe
manifestar si est disponible (la probabilidad exacta del valor de z (o t) tambin se encuentra fcilmente en programas de Internet)2.
2
260
EL CONTRASTE DE MEDIAS
261
La formulacin de la Hiptesis Nula quedara ms clara si aadimos (al menos mentalmente): porque si hay alguna diferencia entre las medias de los
dos grupos, esta diferencia est dentro de lo normal y se explica suficientemente por el error muestral, por factores aleatorios, etc.
Utilizando los smbolos convencionales expresaramos as estas hiptesis
(m es el smbolo de la media de una poblacin):
H o: m 1 = m 2
(o lo que es lo mismo m1 - m2 = 0)
Hiptesis Nula
Hiptesis Alterna: podemos expresarla de dos maneras
(no especificamos la direccin de la
H1: m1 m2
diferencia)
H1: m1 > m2 o m1 < m2 (s especificamos la direccin
de la diferencia)
2 Por qu distinguimos entre estos dos tipos de hiptesis (nula y alterna)
A primera vista puede parecer que la nica hiptesis que tenemos es la
alterna (que hay una diferencia, que un mtodo es mejor que otro, etc.) y
es sta la hiptesis que probamos o dejamos de probar. Sin embargo la hiptesis que ponemos a prueba es la Hiptesis Nula: es la que aceptamos
(o ms bien fracasamos en el intento de rechazarla y afirmamos que la diferencia est dentro de lo normal, o no es extrapolable) o la que rechazamos.
Aunque no tengamos hiptesis formuladas y prescindamos de las hiptesis nula y alterna, cuando contrastamos dos medias y encontramos una diferencia estadsticamente significativa, implcitamente estamos rechazando la
hiptesis nula, lo digamos o no. Estas hiptesis nulas de no diferencia estn
implcitas en el mismo modelo y procedimiento.
Una manera sencilla (aunque quizs incompleta) de entender y recordar
estos conceptos puede ser sta:
Identificar la Hiptesis Nula con diferencia casual, normal, aleatoria, probable, etc.,
Identificar la Hiptesis Alterna con diferencia improbable, no casual, etc.
(improbable si las dos muestras proceden de la misma poblacin, sin ms
diferencias que las puramente aleatorias o casuales).
En definitiva lo que vamos a hacer es determinar la probabilidad de que se
d una determinada diferencia entre dos muestras en el caso de que ambas
procedan de la misma poblacin, con la misma media y sin ms diferencias
que las que pueden explicarse por la variabilidad normal que hay en cualquier
grupo (eso significa pertenecer a la misma poblacin).
262
EL CONTRASTE DE MEDIAS
Si la diferencia es improbable
(p <.05) [improbable en el caso de que
las muestras procedan de la misma
poblacin]
263
Cuando no afirmamos como hiptesis la direccin de la diferencia (los nios y las nias son distintos en)
264
EL CONTRASTE DE MEDIAS
Figura 3
Si nuestra hiptesis es unilateral, nos fijaremos en un lado de la distribucin, y en vez de z = 1.96 necesitaremos llegar solamente a 1.64, porque por
encima de z = 1.64 (o por debajo de z = - 1.64) cae el 5% de los casos, tal como se muestra en la figura 4.
Figura 4
265
Figura 5
tual los valores de z (o de la t de Student) propios de las hiptesis bidireccionales; una explicacin ms amplia de estos dos tipos de hiptesis, direccionales y no direccionales, y
por qu se utilizan habitualmente hiptesis bidireccionales puede verse en Morales (pgina Web) (2008; sobre las hiptesis direccionales y no direccionales).
266
EL CONTRASTE DE MEDIAS
267
268
EL CONTRASTE DE MEDIAS
pan en el mtodo, en la terapia), con otro grupo que nos sirve de comparacin (grupo de control o de contraste)5 para verificar si el mtodo o la terapia
son eficaces. A simple vista podemos observar que el mtodo s es eficaz, vemos el cambio en los sujetos, etc., pero al hacer la comparacin podemos
comprobar que la diferencia est dentro de lo aleatorio y no rechazamos la
Hiptesis Nula. Esto puede suceder, y sucede con frecuencia, con muestras
pequeas.
En estos casos: 1 nos abstendremos de extrapolar el hecho de la diferencia, pero 2 si la diferencia es grande (y a favor de nuestro grupo experimental) podemos pensar que algo importante est pasando aqu con estos sujetos. De ah la importancia de disponer de un mtodo que nos permita
apreciar cundo una diferencia es grande (y lo veremos despus). Posiblemente aumentando el tamao de la muestra (o acumulando pequeas muestras) podremos rechazar (no aceptar) la Hiptesis Nula.
4.5.3. Tipos de errores
Con respecto a la Hiptesis Nula podemos cometer dos tipos de errores
objetivos:
1. Error tipo I: podemos no aceptar la Hiptesis Nula (y aceptar la diferencia entre las medias) cuando en realidad la Hiptesis Nula es verdadera (y esa diferencia est dentro de lo normal).
Este posible error objetivo lo controlamos con los niveles de confianza; un nivel de confianza de a = .05 (un 5% de probabilidades
de equivocarnos al afirmar la diferencia) se acepta como suficientemente seguro.
2. Error tipo II: podemos aceptar la Hiptesis Nula (y no afirmamos la diferencia) cuando en realidad la Hiptesis Nula es falsa (y s hay diferencia).
Se trata de un error que no solemos controlar. Las probabilidades
de cometer este error en el contraste de medias son muy altas pero se pueden minimizar utilizando un nmero grande de sujetos.
Con muchos sujetos se detectan con ms facilidad las diferencias
entre grupos, incluso las diferencias pequeas (las diferencias grandes se detectan con facilidad comparando muestras pequeas).
5
En trminos ms propios cuando hablamos de grupo de control estamos suponiendo que los sujetos han sido asignados aleatoriamente a los dos grupos, experimental y de
control; cuando esto no es as (como no suele serlo en muchas comparaciones porque trabajamos con grupos hechos) es preferible denominar al grupo que nos sirve como trmino de comparacin grupo de contraste.
269
En principio se pretende minimizar el error tipo I (como es afirmar la diferencia cuando realmente no la hay) y por eso se insiste en los niveles de confianza: es ms seguro (es la postura ms conservadora) decir no hay diferencia cuando realmente s la hay, que decir s hay diferencia cuando
realmente no la hay.
Una sencilla analoga nos puede ayudar a entender la importancia relativa de estos dos errores: en un juicio un error puede ser condenar a un verdadero inocente y otro error puede ser absolver a un verdadero culpable
(figura 7)6.
Figura 7
Esta analoga est inspirada en la pelcula doce hombres sin piedad, en la que un jurado tiene que decidir por unanimidad sobre la inocencia (por falta de pruebas) o la culpabilidad de un presunto culpable.
270
EL CONTRASTE DE MEDIAS
271
Los modelos tericos suponen que las muestras son aleatorias (y por lo
tanto representativas de la poblacin) y esto no sucede con frecuencia porque se trata de grupos hechos, sin que los sujetos hayan sido escogidos aleatoriamente de una poblacin mayor; en estos casos tenemos que pensar en la
poblacin que pueda estar representada por esas muestras concretas.
4.6.2. Es suficiente verificar si una diferencia es estadsticamente
significativa?
Podemos pensar que el limitarse a aceptar o rechazar la Hiptesis Nula
(de no diferencia) es poco informativo, porque la diferencia puede ser significativa y pequea o no ser significativa por falta de sujetos o no ser significativa
y a la vez grande (frecuente con pocos sujetos) En buena medida as es, limitarse a afirmar que una diferencia es (o no es) estadsticamente significativa es
poco e incompleto a pesar de la prctica ms habitual en investigacin, de ah
la necesidad de los clculos complementarios, sobre la magnitud de la diferencias, que trataremos ms delante. Es aqu donde se pone ahora el nfasis.
4.6.3. Cuando tenemos ms de dos muestras en el mismo planteamiento: anlisis de varianza
Con las frmulas del contraste de medias (t de Student) podemos comparar medias de dos en dos; pero cuando en el mismo planteamiento hay ms
de dos muestras tenemos que acudir a otros procedimientos (anlisis de varianza). No se pueden comparar las diversas muestras de dos en dos porque
en este caso las probabilidades de error al rechazar la Hiptesis Nula son ms
de las que indican las tablas (como queda explicado al tratar del anlisis de varianza; aqu basta con advertir que no se debe utilizar la t de Student cuando
hay ms de dos muestras)8.
8
Cuando tenemos slo dos grupos pero vamos a compararlos en muchas variables o
rasgos tambin puede suceder que algn contraste estadsticamente significativo realmente se deba a factores aleatorios (la probabilidad de error es pequea, pero no podemos tener una absoluta seguridad). En estos casos algunos autores recomiendan los llamados contrastes de Bonferroni (la publicacin de Carlo Emilio Bonferroni es de 1936), por eso no
sobra una nota aclaratoria. En estos contrastes se utiliza la misma t de Student pero con un
nivel de confianza ms estricto: se utiliza la probabilidad (p) que expresa nuestro nivel de
confianza dividida por el nmero de comparaciones previstas, as si nuestro nivel de confianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza
.05/3 = .0167. Tambin si conocemos la probabilidad exacta (p) podemos multiplicarla por
el nmero de contrastes para ver si llega a .05 (as si tenemos tres contrastes y p = .0167
tendremos p = (.0167)(3) = .05). La crtica hecha a este contraste es que es muy conservador; tiene poca potencia para rechazar la Hiptesis Nula cuando realmente es falsa (por
272
EL CONTRASTE DE MEDIAS
la frmula [2]
Estamos suponiendo que habitualmente calculamos la s de la muestra dividiendo por N-1; si la hubiramos calculado dividiendo por N, en los deno10
minadores tendramos N y no N-1 .
ejemplo y entre otros, Hancock y Klockars, 1996). Una crtica bien razonada a los ajustes de
Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by
epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference The main weakness is that the interpretation of
a finding depends on the number of other tests performed The likelihood of type II
errors is also increased, so that truly important differences are deemed non-significant
Bonferroni adjustments imply that a given comparison will be interpreted differently according to how many other tests were performed. Tambin se proponen estos niveles de
confianza ms estrictos cuando tenemos muchos coeficientes de correlacin, pero la crtica que puede hacerse es la misma
9
Podemos llevar a cabo un contraste de medias, sin necesidad de conocer las frmulas, con programas como EXCEL o SPSS, y tambin con los programas que podemos encontrar en Internet (anexo 4); sin embargo debemos entender qu estamos haciendo.
10
En los programas estadsticos (como el SPSS) lo normal es utilizar la desviacin tpica de la poblacin (dividiendo por N-1; con muestras relativamente grandes la diferencia
entre dividir por N o N-1 puede ser irrelevante).
273
Es til conocer de dnde viene esta frmula [2] (o [3]; es la misma). La varianza de un compuesto, por ejemplo la varianza de la suma de los tests 1 y 2,
no es igual a la varianza del test 1 ms la varianza del test 2, sino sta otra:
Podemos ver el parecido de esta expresin con el cuadrado de un binomio (de eso se trata):
274
EL CONTRASTE DE MEDIAS
El denominador es el error
tpico de la media de la
muestra
275
La interpretacin, cuando se trata de muestras grandes, se hace consultando las tablas de la distribucin normal (o en programas de Internet, anexo 4),
con grados de libertad igual a N1+N2-2. Como por lo general los niveles de
confianza que utilizamos son .05, .01 y .001, no necesitamos acudir a las tablas, pues ya conocemos los valores de referencia para muestras grandes:
Los valores de z utilizados habitualmente con muestras grandes son:
Si z es mayor que
La probabilidad de que la diferencia sea
aleatoria es inferior a
1.96
2.57
3.30
.05
.01
.001
276
EL CONTRASTE DE MEDIAS
277
Despus
Diferencia
4
3
5
6
4.5
1.118
4-2 = 2
3-3 = 0
5-4 = 1
6-5 = 1
1.0
.707
Utilizando la media y desviacin en cambio (despus menos antes) y aplicando la frmula 12, tendremos:
La correlacin entre antes y despus es r = .80; si utilizamos el denominador de la frmula [3] tendramos:
El resultado es el mismo, pero es claro que en este caso (muestras relacionadas) es preferible utilizar la frmula [9].
4.8. Variables que influyen en el valor de t (o z)
Los valores mximos y mnimos que solemos encontrar en las puntuaciones tpicas (y en la t de Student que es una puntuacin tpica, la puntuacin
tpica de una diferencia) suelen oscilar (pueden ser mucho mayores) entre 3
y +3; lo que queda fuera de 1.96 lo consideramos ya atpico, poco probable (slo en el 5% de los casos se supera por azar un valor de 1.96).
Sin embargo al calcular la t de Student nos encontramos con frecuencia con
valores muy altos, sobre todo cuando el nmero de sujetos es muy grande.
278
EL CONTRASTE DE MEDIAS
El cociente aumentar si aumenta el numerador (si la diferencia es grande), pero tambin aumentar, aunque el numerador sea pequeo (diferencia
cuantitativamente pequea) si disminuye el denominador
Qu factores influyen en que disminuya el denominador y que por lo tanto el cociente sea mayor?
En el denominador tenemos otro quebrado:
a) El cociente disminuir si disminuye el numerador (la varianza de los
grupos).
A mayor homogeneidad en los grupos (menor varianza), la diferencia ser significativa con ms probabilidad. Esto es adems conceptualmente razonable: no es lo mismo una diferencia determinada entre dos grupos muy heterogneos (mucha diversidad dentro de cada grupo) que entre dos grupos
muy uniformes Una diferencia entre las medias de dos grupos muy heterogneos puede variar si tomamos otras dos muestras igualmente muy heterogneas, pero si la diferencia procede de dos muestras con sujetos muy parecidos, con pequeas diferencias entre s, hay ms seguridad en que se
mantenga la diferencia entre otros pares semejantes de grupos.
b) El cociente disminuir si aumenta el denominador del denominador,
que es el nmero de sujetos. Con muestras grandes es ms fcil encontrar diferencias significativas.
Qu podemos decir sobre el hecho de que aumentando el nmero de sujetos encontramos fcilmente diferencias estadsticamente significativas? Que
con un nmero grande de sujetos podemos demostrar casi lo que queramos?
1 En parte s; con nmeros grandes encontramos con facilidad diferencias significativas. Pero esto no tiene que sorprendernos porque de hecho hay muchas diferencias entre grupos que se detectan con ms facilidad cuando los grupos son muy numerosos. En la vida real la
Hiptesis Nula (m1 = m2) suele ser falsa y cuando no la rechazamos suele ser por falta de sujetos.
279
2 Estas diferencias significativas que descubrimos, sobre todo con muestras grandes, son con frecuencia diferencias pequeas y a veces triviales. Una diferencia estadsticamente significativa no es una diferencia
necesariamente grande o relevante.
3 Disponer de un nmero grande de sujetos es como mirar de cerca:
vemos incluso las cosas pequeas. Disponer de un nmero pequeo
de sujetos es como mirar de lejos: slo vemos las cosas grandes. Diferencias grandes y obvias las descubrimos con pocos sujetos. Con muchos sujetos (si miramos de cerca) descubrimos muchas diferencias
entre grupos que pueden no tener mayor importancia.
4 Una diferencia no significativa, sobre todo si es grande y con muestras
pequeas, puede ser importante en una situacin dada (aunque no se
pueda extrapolar, puede decir algo relevante de la situacin analizada
o permite establecer como hiptesis que con muestras mayores s podramos encontrar una diferencia estadsticamente significativa).
Qu hacer entonces?
a) Por lo menos deberamos utilizar siempre las expresiones apropiadas y
no hablar simplemente de diferencias significativas, sino de diferencias estadsticamente significativas. El adverbio estadsticamente ya
expresa los lmites de nuestras conclusiones. Tambin se debe evitar la
expresin diferencia muy significativa, porque ese muy invita a pensar en diferencias grandes o relevantes: a mayor valor de z o t tenemos
ms seguridad, menos probabilidad de error al afirmar la diferencia
(que la diferencia no es cero), pero sin referencia directa a la magnitud
o a la relevancia de esa diferencia. Por otra parte esa mayor seguridad
es con frecuencia irrelevante pues ya ponemos el umbral de la seguridad (nivel de confianza) suficientemente alto.
b) Muchas veces nos bastar con saber si hay o no hay una diferencia estadsticamente significativa entre dos grupos, es decir, si difieren ms de
lo que podemos esperar casualmente entre muestras de la misma poblacin y podemos extrapolar el hecho de la diferencia (una diferencia
distinta de cero) a otros pares de muestras semejantes. Muchos planteamientos de investigacin se quedan aqu (y por eso con frecuencia se
quedan cortos; no se aprovechan bien los datos disponibles).
c) Aun en estos casos un valor significativo de t (una diferencia estadsticamente significativa) no debemos asumirla ingenuamente como un
criterio de certeza. Tenemos que considerar a qu poblaciones pueden
representar esas muestras para no hacer extrapolaciones poco prudentes; con frecuencia no son muestras aleatorias (porque se trata de grupos hechos, son las muestras que estn disponibles). La interpretacin
280
EL CONTRASTE DE MEDIAS
Grupo B
Responden s:
Responden no
65 (81%)
15 (19%)
52 (58%)
38 (42%)
117
53
(69%)
(31%)
80 (100%)
90 (100%)
170
(100%)
281
282
EL CONTRASTE DE MEDIAS
El clculo del tamao del efecto lo exige ya la poltica editorial de buenas revistas
(como Educational and Psychological Measurement, Thompson, 1996, y muchas otras
como Journal of Experimental Education y Journal of Applied Psychology, Hubbard y
Ryan, 2000; Huberty (2002) menciona 19 revistas en las que se exige presentar el tamao
del efecto) y figura en las orientaciones (guidelines) de la American Psychological Association (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs,
1999, American Psychological Association, 2001).
283
necer a uno u otro grupo, 1 0), y la otra variable es continua (la utilizada al
comparar las medias). Estos coeficientes son semejantes al coeficiente de correlacin de Pearson (r) y se interpretan de manera semejante; el trmino biserial-puntual indica que una de las dos variables es dicotmica.
La conversin del valor de t en un coeficiente de correlacin se hace mediante esta frmula:
grupo B
9
9
7
8
5
9
6
6
X= 8.25
s = .83
Calculamos la t de Student:
6.50
1.5
X
9
9
7
8
5
9
6
6
Y
1
1
1
1
0
0
0
0
284
EL CONTRASTE DE MEDIAS
N1
N2
gl
rbp
20
50
100
500
20
50
100
500
38
98
198
998
3.60
3.60
3.60
3.60
.50
.34
.25
.11
.25
.12
.06
.01
285
[12]
Los smbolos para expresar el tamao del efecto varan segn las frmulas
utilizadas para calcular la desviacin tpica del denominador; en la frmula [12]
utilizamos el smbolo d porque corresponde a una de las frmulas ms utilizadas (de Cohen). Con frecuencia se utiliza d como smbolo genrico del tamao
del efecto, pero hay otros smbolos que iremos viendo (como g y D) y que corresponden a otras frmulas; a veces se utiliza ES (del ingls Effect Size).
Aunque la desviacin tpica del denominador se puede calcular de diversas maneras (a partir de las desviaciones tpicas que ya conocemos en las
muestras) es en todo caso una estimacin de la desviacin tpica de la poblacin comn a ambos grupos. Lo que es importante ahora es captar que el tamao del efecto es una diferencia tipificada: una diferencia entre dos medias dividida por una desviacin tpica. Viene a ser lo mismo que una
puntuacin tpica (z) (como podemos ver por la frmula [12]), por lo que su
interpretacin es sencilla y muy til.
Antes de ver las frmulas especficas de la desviacin tpica del denominador, es de especial inters entender las interpretaciones y usos del tamao
del efecto, que se derivan del hecho de que se puede interpretar como una
15
Una presentacin completa del tamao del efecto en Coe (2000) (en Internet); tambin se encuentra ampliado en Morales (2007c, El tamao del efecto (effect size): anlisis complementarios al contraste de medias).
286
EL CONTRASTE DE MEDIAS
287
16
Una exposicin ms amplia sobre el origen del meta-anlisis y su utilidad puede verse en Morales (1993).
288
EL CONTRASTE DE MEDIAS
Figura 8
a) La media del grupo con media mayor se aparta una desviacin tpica de la media del grupo con media ms pequea. La media ms pequea es ahora igual a 0 y la media mayor es igual a 1 (se aparta 1s de
la otra media).
b) Segn las proporciones que nos indica la tabla de la distribucin normal, el sujeto medio del grupo con media mayor, supera al 84% de los
sujetos del grupo con media menor (con frecuencia el grupo de control). La misma puntuacin que en un grupo (el de media mayor) equivale al Percentil 50, en el otro grupo (con media menor) corresponde
al Percentil 84: el mismo sujeto medio del grupo con media mayor supera a un 34% ms de sujetos si lo incluimos en el grupo con media
ms baja.
Sobre cundo se puede considerar grande o pequeo un determinado valor
del tamao del efecto, suelen aceptarse estas orientaciones (Cohen, 1988)17:
d = .20 (pequeo),
d = .50 (moderado)
d = .80 (grande).
Estas orientaciones son un tanto arbitrarias aunque son muy aceptadas como razonables y citadas en la bibliografa experimental.
17
Otras valoraciones y su justificacin pueden verse en Lane, David (Rice University)
(2007) (en 18. Measuring Effect Size).
289
supera en su propio
grupo al
50 %
50 %
50 %
supera en el grupo
con media inferior al
58 % (diferencia pequea)
69 % (diferencia moderada)
79 % (diferencia grande)
La interpretacin basada en la distribucin normal es slo literalmente vlida si las distribuciones observadas en los dos grupos son normales; pero si
se apartan de la distribucin normal cabe hablar de aproximaciones; en cualquier caso se trata de un dato sobre la magnitud de la diferencia, una magnitud expresada en desviaciones tpicas y en el nmero de sujetos que caen por
debajo de esa puntuacin tpica.
La justificacin de estas valoraciones va en esta lnea:
a) Las diferencias pequeas (en torno a d = .20) pueden parecer muy
pequeas como referencia til y ciertamente su relevancia prctica
puede ser nula o escasa, pero estas pequeas diferencias pueden igualmente ser de inters en muchas situaciones: en reas nuevas de investigacin, en estudios meramente explorativos (para ver si merece la pena continuar), cuando los diseos son muy modestos y no se
controlan bien otras variables, o cuando se utilizan instrumentos de
medicin muy limitados o en perodo de experimentacin, etc.; en este tipo de situaciones podemos suponer que con mejores instrumentos y diseos estas diferencias podran mayores18.
b) Por diferencias moderadas (en torno a d = .50) se entienden aqu aquellas diferencias entre grupos que pueden detectarse por simple observacin o aquellas diferencias que la experiencia nos hace caer en la cuenta
de que efectivamente estn all (por ejemplo, un determinado tipo de
alumnos suele terminar mejor que los dems, etc.); traducidas estas diferencias a coeficientes de correlacin, estos coeficientes pueden tener un
valor en torno a .25 .30.
18
Como nota el autor (Cohen, 1988), en la investigacin sobre personalidad, psicologa clnica, etc., es normal encontrar diferencias (o correlaciones) pequeas en parte por
los problemas de validez en los instrumentos utilizados y en buena parte tambin por la
complejidad de las situaciones, interaccin entre variables, etc. Cohen (1988) justifica bien
estas valoraciones que propone simplemente como orientadoras.
290
EL CONTRASTE DE MEDIAS
Cohen (1988) cita aqu un comentario de Tukey: el confirmar diferencias muy grandes y obvias con anlisis estadsticos equivale a una canonizacin estadstica.
20
Sobre si se debe o no calcular y exponer el tamao del efecto cuando la diferencia
no es estadsticamente significativa es algo discutido entre autores (Gliner, Leech y Mor-
291
Un ejemplo real21:
Para evaluar la eficacia de una terapia familiar se comparan un grupo
experimental (N = 10) con un grupo de control (N = 11). El valor de t es
1.62, claramente no significativo; con estos datos no podemos afirmar que la
diferencia en las poblaciones sea distinta de cero. Con tan pocos sujetos (la
unidad de anlisis no es propiamente cada sujeto individual, sino cada familia) no es tan fcil obtener diferencias estadsticamente significativas, aunque
la diferencia est favor del grupo experimental (y de la eficacia de la terapia).
Encontramos sin embargo que el tamao del efecto (al comparar los dos
grupos en nivel de conflicto familiar despus de la terapia) es d = .69. Por
debajo de z = .69 cae el 75 % de los casos; esto quiere decir que la familia
media del grupo experimental supera en ausencia o disminucin de conflictos al 75 % de las familias del grupo de control. Es una diferencia de tamao
moderado-alto que indica que algo positivo y de inters est sucediendo
aqu; es un buen resultado que se puede quizs confirmar con mayor seguridad en estudios semejantes. Esta es una conclusin ms sensata que el limitarse a enunciar sin ms que la diferencia no es estadsticamente significativa, no ha habido cambio, aceptamos la hiptesis nula, etc. Por otra parte la
mera diferencia entre las dos medias no nos dice nada de particular si no la
traducimos al tamao del efecto para apreciar mejor la magnitud de esa diferencia. Una diferencia de magnitud apreciable (tal como lo vemos en el tamao del efecto) pero que no es estadsticamente significativa nos permite al
menos proponer y justificar hiptesis para futuras investigaciones.
5 Tamao del efecto y tamao de la muestra
El tamao de la muestra suele plantearse cuando interesa extrapolar los
resultados a la poblacin con un margen de error pequeo o al menos tolerable. Esto es lo que sucede con los sondeos de opinin de carcter sociolgico, y de este punto hemos tratado brevemente a propsito del error tpico de
la media.
Frecuentemente no estamos interesados directamente en extrapolar
nuestros resultados a una poblacin grande, sino en detectar posibles diferencias entre determinadas muestras; por ejemplo nos puede interesar verigan, 2002). Las recomendaciones de la A.P.A. son sin embargo muy claras always report
effect sizes (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs, 1999); una razn para calcular el tamao del efecto, aunque la diferencia no sea estadsticamente significativa, es adems que facilita el integrar los resultados de cualquier investigacin en un meta-anlisis.
21
Tomado de Olalla, Consuelo (1993), Relaciones familiares y su modificacin a travs de la terapia familiar sistmica. Tesis doctoral, Madrid, Universidad Pontificia Comillas.
292
EL CONTRASTE DE MEDIAS
d =.20
d =.80
d =.1.0 d =1.20
confianza
.05
392
174
63
32
25
16
12
.01
586
260
93
48
36
23
18
22
Estas cifras (redondendolas) las tomamos de Cohen (1988). Una exposicin detallada de las variables que influyen en el tamao de la muestra, incluido el tamao del efecto
deseado o previsto, y de las frmulas apropiadas para calcularlo pueden verse en otros
autores como Kirk (1995), Hinkle, Wiersma y Jurs (1998) y en otros autores.
293
donde
[13]
Las desviaciones tpicas de la frmula [13] (Cohen) se calculan dividiendo por N (desviacin tpica de las muestras)
23
El smbolo g lo pone Hedges en homenaje a Gene Glass, autor importante en el
campo del meta-anlisis.
294
EL CONTRASTE DE MEDIAS
Hedges: g=
donde
[14]
Las desviaciones tpicas de la frmula [14] (Hedges) se calculan dividiendo por N-1 (estimacin de la desviacin tpica de las poblaciones)
Estas desviaciones tpicas del denominador del tamao del efecto no son
otra cosa que una combinacin de las desviaciones tpicas de las dos muestras; por eso suelen denominarse desviacin tpica combinada (en ingls
pooled standard deviation). Podemos verlo fcilmente (en la frmula de Cohen se ve con ms facilidad): utilizamos ahora la varianza en vez de la desviacin tpica para eliminar la raz cuadrada:
Sabemos que s2 =
de donde
[15]
295
Tabla 3
Muestra A
Muestra B
16
12
14
14
14
1.414
1.633
18
14
16
18
16.5
1.658
1.915
Media
sn
sn-1
Cohen: s =
d=
Hedges: s =
g=
Es natural que el tamao del efecto sea mayor con la frmula de Cohen
porque el denominador es menor (las desviaciones tpicas de las muestras
son menores que las desviaciones tpicas estimadas en la poblacin).
Como en este ejemplo se trata de muestras de idntico tamao, podemos
utilizar la frmula [15] para calcular la desviacin tpica combinada:
296
EL CONTRASTE DE MEDIAS
Cohen: s =
Hedges: s =
[16]
sHedges =
[17]
sHedges=
Si en el mismo planteamiento tenemos ms de dos grupos, como sucede en el anlisis de varianza, podemos calcular la magnitud del efecto (o diferencia tipificada) entre
cualesquiera dos grupos utilizando en el denominador la desviacin tpica combinada de
todos ellos. En el anlisis de varianza para muestras independientes los cuadrados medios dentro de los grupos (el denominador de la razn F) es precisamente la combinacin
de las varianzas de los diversos grupos; esto se ve, naturalmente, al tratar del anlisis de varianza, pero no sobra indicarlo aqu
297
[19]
[18]
Las frmulas [18] y [19] son semejantes a las frmulas [16] y [17], substituyendo el valor de la desviacin tpica combinada por el tamao del efecto.
2 Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la
misma muestra)
Cuando se trata de muestras relacionadas, se utiliza en el denominador
la desviacin tpica del post-test; en estos casos se verifica la magnitud del
cambio:
[20]
Tambin es frecuente utilizar en el denominador la desviacin tpica combinada de antes y despus; en cualquier caso conviene indicar qu desviacin
tpica se ha utilizado.
3 Diferencia entre las medias de un grupo experimental y otro de control
(diseo experimental) sin pre-test
La frmula habitual (y con D, delta mayscula, como smbolo) es la propuesta por Glass, McGaw y Smith (1981), en la que se utiliza la desviacin tpica del grupo de control (dividiendo por N -1):
[21]
a) La alternativa a utilizar en el denominador la desviacin tpica del grupo de control, es la desviacin tpica combinada de los dos o ms
grupos (frmulas [12] o [13]); sta es tambin una prctica muy comn y autorizada.
b) El utilizar la desviacin tpica del grupo de control es ms recomendable cuando hay varios grupos experimentales con desviaciones tpicas
muy distintas, o cuando el grupo de control es muy grande.
298
EL CONTRASTE DE MEDIAS
[23]
Si se trata del tamao del efecto g de Hedges (14], para calcularlo a partir
de la t de Student podemos distinguir cuando se trata de muestras de tamao
idntico o desigual26:
con muestras de idntico tamao con muestras de tamao desigual
[24]
[25]
25
26
299
[26]
[27]
300
EL CONTRASTE DE MEDIAS
301
302
Teora subyacente:
relacin entre
puntuaciones tpicas y
probabilidad de
ocurrencia en la
distribucin normal.
La media es 0 en este
caso; sd es el error tpico
(desviacin tpica) de la
distribucin de las
diferencias entre medias
de la misma poblacin.
EL CONTRASTE DE MEDIAS
z (o t) pequea
La diferencia es muy
improbable si ambas
muestras pertenecen a
la misma poblacin.
Luego es ms probable
que las muestras procedan de poblaciones
distintas.
Luego es ms probable
que las muestras procedan de la misma poblacin.
El valor de z (o de t)
escogido como lmite
entre lo probable e
improbable depender
de nuestro nivel de
confianza.
4 Conclusiones
1 Rechazo el azar
(error muestral) como explicacin de la
diferencia.
2 Acepto
que
las
muestras pertenecen a poblaciones
distintas.
1 No rechazo el azar
(error muestral) como explicacin de la
diferencia
2 No acepto que las
muestras pertenecen a poblaciones
distintas.
La Hiptesis Nula establece que si hay diferencia, sta se explica por el error
muestral (que podemos convencionalmente denominar azar). Un s o un no a la
Hiptesis Nula es lo nico que afirmamos (con una determinada probabilidad de
error; el s o el no no son absolutos) mediante el clculo de la t de Student (o z).
Aceptaremos la Hiptesis Alterna si rechazamos (no aceptamos) la Hiptesis Nula, pero en este paso puede haber otras fuentes de error (un mal diseo, muestra
inadecuada, etc.). Tampoco concluimos si la diferencia es grande o pequea; simplemente afirmamos que es muy improbable que esa diferencia sea cero en la poblacin. Para apreciar la magnitud de la diferencia calculamos el tamao del
efecto.
303
Hiptesis Nula:
Es la negacin de la hiptesis del investigador
Si mi hiptesis es: el mtodo A es mejor que el mtodo B,
la hiptesis nula ser el mtodo A no es mejor que el B
304
EL CONTRASTE DE MEDIAS
Hiptesis Alterna:
Es la hiptesis del investigador, se acepta la Hiptesis Alterna (hay una diferencia distinta de cero) si no se acepta la Hiptesis Nula (se excluye el azar o el error
muestral como explicacin de la diferencia)
Aceptar la Hiptesis
Alterna
La diferencia es mayor de lo que se puede esperar por azar en caso de no diferencia; se puede extrapolar a las poblaciones representadas por esas muestras;
la diferencia entre las medias de las poblaciones representadas por esas muestras
es distinta de cero
Las medias pertenecen a muestras que proceden de poblaciones distintas
con distinta media.
305
N1 + N2 -2
N-1
0.05
.10
0.025
.05
0.005
.01
0.0005 (1)
.001 (2)
1
2
3
4
5
6.313752
2.919986
2.353363
2.131847
2.015048
12.70620
4.30265
3.18245
2.77645
2.57058
63.65674
9.92484
5.84091
4.60409
4.03214
636.6192
31.5991
12.9240
8.6103
6.8688
6
7
8
9
10
1.943180
1.894579
1.859548
1.833113
1.812461
2.44691
2.36462
2.30600
2.26216
2.22814
3.70743
3.49948
3.35539
3.24984
3.16927
5.9588
5.4079
5.0413
4.7809
4.5869
11
12
13
14
15
1.795885
1.782288
1.770933
1.761310
1.753050
2.20099
2.17881
2.16037
2.14479
2.13145
3.10581
3.05454
3.01228
2.97684
2.94671
4.4370
4.3178
4.2208
4.1405
4.0728
16
17
18
19
20
1.745884
1.739607
1.734064
1.729133
1.724718
2.11991
2.10982
2.10092
2.09302
2.08596
2.92078
2.89823
2.87844
2.86093
2.84534
4.0150
3.9651
3.9216
3.8834
3.8495
21
22
23
24
25
1.720743
1.717144
1.713872
1.710882
1.708141
2.07961
2.07387
2.06866
2.06390
2.05954
2.83136
2.81876
2.80734
2.79694
2.78744
3.8193
3.7921
3.7676
3.7454
3.7251
306
EL CONTRASTE DE MEDIAS
0.0005 (1)
.001 (2)
Grados de
libertad:
0.05
.10
0.025
.05
0.005
.01
26
27
28
29
30
1.705618
1.703288
1.701131
1.699127
1.697261
2.05553
2.05183
2.04841
2.04523
2.04227
2.77871
2.77068
2.76326
2.75639
2.75000
3.7066
3.6896
3.6739
3.6594
3.6460
1.644854
1.95996
2.57583
3.2905
307
308
CAPTULO 9
1. PLANTEAMIENTO GENERAL
Tenemos variables nominales o categricas cuando el dato disponible de
los sujetos es a qu categora de clasificacin pertenecen, como vamos a ver
en numerosos ejemplos. No disponemos de una puntuacin individual en
sentido propio; los datos son simplemente categoras de clasificacin y frecuencias en cada categora. Aunque habitualmente hablamos de sujetos, puede tratarse tambin de sucesos, objetos, etc.
La prueba del ji cuadrado1 (con su propia distribucin y sus propias tablas)
nos va a servir para analizar este tipo de datos, y va ser el mtodo central en esta exposicin porque es vlido para todas las situaciones que vamos a presentar.
El ji cuadrado y sus variantes metodolgicas (como la prueba exacta de
Fisher y el test de McNemar) no es por otra parte el nico mtodo de anlisis cuando tenemos a los sujetos clasificados en categoras; segn el planteamiento que tengamos disponemos tambin de otras alternativas de anlisis,
como son las aplicaciones de:
a) La distribucin binomial
b) El contraste de proporciones
1
En ingls chi square y a veces en espaol el anglicismo chi cuadrado; la letra griega utilizada como smbolo es c que se pronuncia como la jota espaola.
309
Con frecuencia estos anlisis son una alternativa ms sencilla al ji cuadrado. En vez de ver por separado estos mtodos (como es usual) los expondremos cuando sean aplicables, ya que con frecuencia los mismos datos se pueden analizar de diversas maneras con resultados idnticos o equivalentes y que
llevan a las mismas conclusiones. De esta manera se facilita el que cada uno escoja el mtodo que prefiera, y no se ven en contextos distintos mtodos de
anlisis que son vlidos en las mismas situaciones y con los mismos datos.
La presentacin que hacemos es por lo tanto por situaciones o modos de
organizar los datos, y no por mtodos de anlisis.
Las situaciones son sujetos clasificados en categoras de diversas maneras
y cada situacin est representada por un tipo de cuadro o tabla que permite
visualizar dnde encajan nuestros datos y nuestras preguntas. Los cuadros de
doble entrada, con dos criterios de clasificacin, se denominan tambin tablas de contingencia.
Podemos distinguir los cuatro modelos bsicos puestos en la figura 1. Aunque iremos poniendo numerosos ejemplos ms adelante, es til ver desde el
comienzo los diversos tipos o modelos de cuadros o tablas porque van centrando la atencin en las posibilidades que tenemos para analizar este tipo de
datos. Estas tablas de la figura 1 representan las distintas posibilidades.
Todas las denominadas preguntas bsicas puestas en la figura 1 podemos
hacerlas preguntando por una diferencia (difieren los grupos A y B en sus
preferencias, en sus respuestas, etc.?) o preguntando por una relacin (tiene que ver el pertenecer al grupo A o B con escoger una u otra opcin?).
Figura 1
310
Mediante la prueba estadstica del ji cuadrado podemos abordar todos estos planteamientos, para detectar diferencias y relaciones, por eso centramos el anlisis de los datos nominales en la prueba del ji cuadrado.
Como ya hemos indicado, en algunos casos, no en todos, hay otros mtodos de anlisis, como la aplicacin directa de la distribucin binomial y el
contraste de proporciones, que son equivalentes y los iremos introduciendo
en cada caso como alternativas de anlisis. Adems, aunque hay una frmula general del ji cuadrado aplicable en todos los casos, algunas situaciones representadas en estos cuadros admiten frmulas ms sencillas.
Para visualizar mejor los procedimientos que vamos a ver, podemos repetir los cuadros o tablas con los modos habituales de presentar los datos (tal
como estn en la figura 1), indicando los modos de anlisis aplicables en cada
caso (figura 2) aunque no siempre son intercambiables.
Figura 2
311
Se trata en definitiva de verificar la probabilidad de que ocurra casualmente lo que nos hemos encontrado en el caso de que no hubiera ni diferencias ni relaciones en la poblacin representada por esos datos. De la misma
manera que hay una distribucin normal que ya hemos aplicado en otros casos (medias, diferencias entre medias), hay otra distribucin normal para estos planteamientos2.
Como en otros casos semejantes procedemos de esta manera:
1 Calculamos un valor (en este caso denominado ji cuadrado)
2 Consultamos una tablas para comprobar si ese valor es probable o improbable
3 Tambin, y como sucede en el contraste de medias, despus de verificar si un valor de ji cuadrado es significativo (poco probable si no hay
relacin o diferencia), podemos cuantificar el grado de relacin mediante una serie de coeficientes para poder apreciar si la relacin es
grande o pequea e interpretar mejor los resultados.
2. QU COMPROBAMOS MEDIANTE EL c2
Vamos a centrar la explicacin del c2 en uno de los casos ms sencillos y
frecuentes, cuando tenemos a los sujetos clasificados en dos categoras de
clasificacin y cada categora tiene dos niveles o subcategoras.
Qu comprobamos mediante el c2 podemos verlo de manera intuitiva.
Por ejemplo clasificamos a un grupo de sujetos segn la variable sexo (ser
hombre o ser mujer) y segn sus respuestas (s o no) a una pregunta que es
la otra categora de clasificacin.
hombre
mujer
totales
60
(75%)
30
(25%)
90
No
20
(25%)
90
(75%)
110
80 (100%)
120 (100%)
200
total
2
Es la distribucin multinomial denominada de ji cuadrado y que se la debemos a
Karl Pearson, a quien ya conocemos a propsito del coeficiente de correlacin r de Pearson.
312
Posibilidad B
hombre
mujer
totales
40
(50%)
60
(50%)
100
No
40
(50%)
60
(50%)
80
(100%)
120
(100%)
totales
hombre
mujer
totales
80
(100%)
100
100
No
120
(100%)
100
200
totales
80
(100%)
120
(100%)
200
En este caso:
En este caso:
313
314
En los casos como los que nos han servido de ejemplo (tablas 2x2 o mayores) se trata de pruebas de independencia, y lo que comprobamos se puede
formular de dos maneras y es til verlo as:
1 Si existe relacin o asociacin entre las dos variables que han servido
de criterio de clasificacin;
2 Si dos o ms grupos (la pertenencia a un grupo es un criterio de clasificacin) difieren en el otro criterio de clasificacin (en realidad se trata del mismo planteamiento).
En cualquier caso lo que comprobamos es si las frecuencias observadas
(representadas en el apartado anterior como posibilidad B) se apartan significativamente de las frecuencias tericas o esperadas en el caso de no relacin
o no diferencia (representadas en el apartado anterior como posibilidad A).
El c2 lo que nos dice es si las frecuencias observadas estn dentro de lo
probable en el caso de no asociacin. A mayor valor de c2 corresponde una
menor probabilidad, por eso con un valor grande de c2 diremos que ese resultado es muy improbable si no hubiera relacin, y por lo tanto decimos
que s la hay.
Para expresarlo en trminos muy simples. En el apartado anterior hemos
visto dos posibilidades extremas A y B. Esos resultados hipotticos son muy
claros, pero tan claros es difcil que los encontremos. El valor de c2 nos viene
a decir lo siguiente:
a) Un valor de c2 pequeo nos dice que nuestros resultados podemos
equipararlos a la posibilidad A (no hay relacin); las frecuencias que
observamos se parecen mucho a las tericas o esperadas, a las que tendramos en caso de no asociacin o no diferencia).
b) Un valor de c2 grande nos dice que nuestros resultados podemos interpretarlos como la posibilidad B (s hay relacin), las frecuencias
que observamos se apartan mucho de las tericas o esperadas, las que
tendramos en caso de no asociacin o no diferencia.
4. CONDICIONES PARA UTILIZAR EL c2
1 Se trata siempre de observaciones independientes: al clasificar los sujetos (u objetos) en cada casilla debe haber sujetos distintos; no puede haber sujetos repetidos en ms de una casilla. Esta condicin es
esencial; en ningn caso debe haber sujetos clasificados en ms de un
lugar.
2 La segunda condicin es ahora muy discutida: que las frecuencias tericas o esperadas en cada casilla de clasificacin no sean inferiores a 5.
315
Recordamos que las frecuencias tericas o esperadas son las que habra (o las ms probables) en el caso de que no hubiera relacin entre
las variables (o diferencias entre los grupos clasificados). Es tolerable
que un 20% de las casillas tengan una frecuencia terica inferior a 5, pero no deben ser muy inferiores. Cuando las frecuencias tericas (ya veremos cmo se calculan) son muy pocas, se pueden juntar columnas o
filas adyacentes (si hay ms de dos) en una sola categora, con tal de
que tenga sentido lgico el hacerlo. Adems con muestras muy pequeas (N<20) y en tablas 2x2 tenemos como alternativa la prueba exacta de Fisher mencionada ms adelante.
Esta segunda condicin (necesidad de un nmero mnimo de frecuencias
tericas) la discuten ahora bastantes autores y se puede no tener en cuenta
(lo veremos ms adelante a propsito de la correccin de Yates); s conviene
mencionarla porque responde a una prctica muy generalizada y figura en
muchos textos.
N
(=)
k
Por ejemplo tenemos un grupo de 300 sujetos clasificados en una categora (preferencia por un color) dividida en tres niveles (tres colores: verde,
azul y rojo que pueden ser los colores del envase de un producto comercial;
tabla 2).
316
Tabla 2
prefieren
el color
Verde
160
Azul
100
Rojo
40
total
300
Estas son las frecuencias observadas, Cules seran las frecuencias tericas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 sujetos se repartiran por igual, y cada color tocara a 100 sujetos; las frecuencias tericas son por lo tanto 300/3 = 100.
Estas frecuencias tericas o esperadas podran ser otras distintas en otras
hiptesis; en definitiva lo que hacemos es comprobar si las frecuencias observadas se ajustan a las esperadas, por esta razn tambin se denomina a esta
comprobacin prueba de bondad de ajuste, porque comprobamos si nuestra distribucin se ajusta a un modelo terico.
b) Cuando hay dos criterios de clasificacin (cuadros de doble entrada)
Las frecuencias tericas de cada casilla son iguales al producto de las sumas marginales dividido por el nmero total de sujetos. En el caso de dos
categoras con dos niveles de clasificacin (podran ser ms) tendramos
(tabla 3):
Tabla 3
De dnde viene esta frmula para calcular las frecuencias tericas?; en las
frecuencias tericas hacemos un reparto proporcional de las frecuencias
observadas en la hiptesis de no diferencia o relacin. Es un sencilla regla de
tres si nos fijamos en el cuadro anterior:
317
Si nos da un valor igual o superior a 5 ya no hay por qu seguir calculando frecuencias tericas a no ser que sean necesarias para calcular el valor de
c2 (y no son necesarias en cuadros con cuatro casillas, 2x2, porque admiten
una frmula ms sencilla).
Es importante caer en la cuenta de que la suma de las frecuencias observadas debe ser igual a la suma de las frecuencias tericas: se trata del mismo nmero de sujetos (u objetos) repartidos con dos criterios: lo que observamos y lo que observaramos en el caso de no diferencia. Estas dos sumas
(de todas las frecuencias observadas y de todas las frecuencias tericas) con
frecuencia no son idnticas porque redondeamos los decimales o no utilizamos todos, pero deben ser muy parecidas.
6. GRADOS DE LIBERTAD
Los grados de libertad son necesarios para consultar las tablas de la distribucin de c2.
Recordamos el concepto de grados de libertad: el nmero de valores que
pueden variar libremente manteniendo o imponiendo previamente unas determinadas restricciones a los datos. Dicho de una manera ms sencilla y aplicable a este caso y a otros muchos: los grados de libertad son igual al nmero
de valores o datos que pueden variar libremente dado un determinado resul-
318
tado (o resultados). El concepto se entender mejor al ver cules son los grados de libertad precisamente en el ji cuadrado.
En los planteamientos ms frecuentes (no son los nicos) se calculan de
este modo:
a) Cuando hay un solo criterio de clasificacin
Grados de libertad = k -1 (nmero de categoras menos una)
En el ejemplo anterior en el que 300 sujetos estn clasificados segn elijan
A, B C (tres categoras de clasificacin) los grados de libertad sern 3-1 = 2.
Si partimos de un total de 300 sujetos divididos en tres categoras, en dos
de ellas podemos poner cualquier nmero (sus frecuencias pueden variar libremente) pero en la tercera ya no hay libertad para poner cualquier valor:
habr que poner lo que nos falte para llegar a 300.
b) Cuando hay dos criterios de clasificacin
Es decir, tenemos varias columnas y varias filas:
Grados de libertad = (f -1)(c -1)
(nmero de filas menos una) por (nmero de columnas menos una).
En el primer ejemplo que hemos puesto (cuadro 2x2): dos columnas
(hombre/mujer) y dos filas (s/no), los grados de libertad sern (2-1)(2-1) = 1.
En este caso partimos de los totales marginales como datos fijos y previos,
stas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, podemos variar libremente solamente la frecuencia (nmero) de una de las casillas: las dems vendrn forzadas para mantener los totales marginales (si partimos de que a + b = 90, uno de los dos, a b, pueden variar libremente,
pero el otro valor debe ser necesariamente lo que falte para llegar a 90).
319
La fraccin
Por ejemplo, preguntamos a un grupo de N = 60 si est a favor o en contra de una determinada proposicin y obtenemos estos resultados (tabla 4):
Tabla 4
A favor
40
En contra
20
total
60
Este anlisis es muy til pues es muy normal presentar a un grupo una serie de preguntas con respuestas s o no mutuamente excluyentes Cundo
predomina una de las dos respuestas ms all de lo probable por azar?
La pregunta que nos hacemos en nuestro ejemplo es si existe una diferencia estadsticamente significativa (por encima de lo puramente aleatorio) entre 40 y 20 (o entre dos proporciones o porcentajes obtenidos en la misma
muestra).
Tenemos dos maneras de llegar a una respuesta; una a travs del ji cuadrado, y otra utilizando la distribucin binomial; con ambas llegamos al
mismo resultado. Aunque aparentemente haya muchas frmulas, en realidad todas son equivalentes y muy sencillas; posiblemente con la [2] o con la
[5] podemos resolver todas las situaciones en las que queramos hacer este
anlisis.
320
8.1. Ji cuadrado
Tenemos dos sencillas frmulas que dan idntico resultado.
1. Podemos aplicar en primer lugar la frmula [1], que es la frmula general del ji cuadrado. Lo primero que tenemos que hacer es calcular las frecuencias tericas, que en este caso son 60/2 = 30: si no hubiera ms diferencia entre las dos respuestas que la puramente casual, la frecuencia terica ms
probable sera la que resulta de repartir por igual el nmero de sujetos entre
las dos categoras.
En las tablas vemos que con un grado de libertad (= k -1) los valores crticos de c2 son estos:
si c2 > 3.841 tenemos que p < .05
> 6.635
p < .01
> 10.827
p < .001
En nuestro ejemplo p < .01: no aceptamos la Hiptesis Nula y aceptamos
que la diferencia entre 40 (a favor) y 20 (en contra) es superior a lo que se
puede encontrar por azar en el caso de que no hubiera una diferencia mayor
de lo casual entre las dos posturas representadas por estas respuestas (a favor
o en contra o cualesquiera otras dos alternativas mutuamente excluyentes).
2. Sin entrar ahora en ms explicaciones podemos ver que en estos casos
(un grado de libertad) c2 = z2; el valor correspondiente de z para a = .05 recordamos que es 1.96 y 1.962 = 3.841, que es el valor correspondiente de c2.
En estos casos, un mismo grupo dividido en dos niveles de clasificacin,
tenemos sin embargo una frmula ms sencilla [2], en la que f1 y f2 son las dos
frecuencias, 40 y 20:
Esta frmula [2] podemos aplicarla siempre que N sea > 25; con nmeros
ms bajos (N < 25) tambin suele recomendarse aplicar la correccin de Yates, que consiste en restar una unidad al numerador antes de elevarlo al cuadrado (frmula [3]). De todas maneras ya veremos que la eficacia de esta correccin es muy discutida (porque corrige en exceso).
321
Con nmeros pequeos es sin embargo preferible prescindir de esta correccin y acudir directamente a las tablas de la distribucin binomial, que
nos dan directamente la probabilidad un obtener una determinada diferencia
entre dos frecuencias cuando N es muy bajo.
8.2. Aplicacin de la distribucin binomial
Cuando tenemos un grupo dividido en dos categoras podemos aplicar directamente la distribucin binomial. Cuando un grupo (sujetos, respuestas,
objetos) de tamao N se divide en dos categoras que se excluyen mutuamente (como antes, a favor o en contra) podemos ver si la proporcin de sujetos
en cada categora (p y q) se aparta significativamente de p = q = .50 (que sera la Hiptesis Nula: idntico nmero de sujetos encada categora). Vamos a
verlo con muestras pequeas (N < 25) y muestras que ya van siendo mayores
(N > 25).
8.2.1. Cuando N < 25
En estos casos no necesitamos hacer ningn clculo (ni aplicar la frmula
[3]); nos basta consultar las tablas de la distribucin binomial que nos dan
la probabilidad exacta que tenemos de encontrar por azar cualquier divisin
de N sujetos (N < 25) en dos categoras. Estas tablas podemos encontralas en
numerosos textos de estadstica y tambin disponemos de cmodos programas en Internet (Anexo II)5.
En estas tablas tenemos los valores de N y de X (nmero de sujetos en
cualquiera de las dos categoras) y la probabilidad de encontrar X en N sujetos o casos. Suponemos que en principio p = q, es decir que hay dos categoras con idntica probabilidad (p = q = .50).
8.2.2. Cuando N > 25
Cuando aumenta el nmero de casos o sujetos, la distribucin binomial se
va pareciendo a la distribucin normal. En estos casos podemos hacer algo
anlogo al contraste de medias.
5
Un programa muy cmodo es GRAPHPAD; basta introducir el nmero total de sujetos
(objetos, etc.) y el nmero de los clasificados en una de las dos categoras.
322
Esta distribucin normal y aleatoria (la que podemos esperar si entre las
dos categoras no hay ms diferencias que las casuales) tiene su media y su
desviacin tpica:
Media
Desviacin tpica
Pero como en este caso p = q = .50, tenemos que pq = .25, por lo tanto
la desviacin tpica ser igual a:
Desviacin tpica
323
324
Respuesta
antes
Respuesta
despus
Signo de la
diferencia
1
2
3
4
5
6
3
1
2
4
4
2
4
3
2
2
5
4
+
+
0
+
+
Tabla 6
Cambios negativos
1
Total de cambios
5
Tabla 7
325
frecuencias observadas:
frecuencias tericas:
A
170
200
A
200
200
C
230
200
total
600
600
Las frecuencias tericas son las que habra si no hubiera diferencias entre
las marcas; es la distribucin terica ms probable en caso de no diferencia:
nmero total de casos dividido por el nmero de categoras de clasificacin,
600/3 = 200 (las tres marcas son igualmente preferidas).
En este caso se aplica la frmula general del ji cuadrado (frmula [1])
que adems se puede utilizar en todos los casos:
326
z:
10%
-1.28
10%
-0.84
10%
-0.52
10%
-.025
10%
0.00
10%
10%
10%
10%
327
10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIN CON DOS NIVELES CADA UNO
Es ste uno de los planteamientos ms frecuentes y tiles, como los ejemplos puestos al comienzo para introducir el c2. En general los cuadros de doble entrada (cruzar los datos) son muy tiles para detectar ya de manera intuitiva diferencias y relaciones.
Podemos distinguir dos planteamientos: para muestras independientes (el
ms habitual) y para muestras relacionadas. En ambos casos la disposicin
de los datos es la misma.
10.1. Tablas 2x2 para muestras independientes
10.1.1. Modelos de tablas 2x2: cmo clasificar a los sujetos
El uso ms frecuente del ji cuadrado est seguramente en el anlisis de
este tipo de tablas (2x2; dos criterios de clasificacin cada uno dividido en
dos niveles), por esta razn exponemos diversos criterios que pueden emplearse para clasificar a los sujetos en dos categoras.
Proponemos cuatro modos de clasificar a los sujetos; realmente todos son
equivalentes, pero el tener a la vista ejemplos distintos nos puede sugerir preguntas a las que podemos responder con estos anlisis.
a) Sujetos clasificados segn dos grupos de pertenencia o dos caractersticas
personales
Los sujetos pueden pertenecer a dos grupos a la vez; el trmino grupo hay
que entenderlo con amplitud, y viene a ser lo mismo que participar de una caracterstica comn.
Por ejemplo, en una universidad podemos tener alumnos de primer curso
que pertenecen a una facultad o carrera (un grupo de pertenencia) y a la vez
pueden estar estudiando en su lugar habitual de residencia o pueden haber
venido de otra localidad (tabla 10).
328
Tabla 10
329
Como antes, podemos preguntarnos por la diferencia entre las dos carreras en aprecio de una asignatura; o lo que es lo mismo, podemos preguntarnos si hay relacin entre estudiar una carrera y juzgar que una asignatura es
til.
La pregunta anterior podemos proponerla con dos respuestas (de acuerdo o en desacuerdo) o con ms respuestas (desde muy en desacuerdo hasta muy de acuerdo); en este caso dicotomizamos (agrupamos en dos categoras) las respuestas. Cuando varias respuestas las reducimos a dos solamente,
estamos prescindiendo de informacin que de hecho tenemos disponible, y
en estos casos el ji cuadrado puede que no sea el mtodo ms apropiado para analizar los datos. De todas maneras el agrupar las respuestas en dos posibilidades para hacer un cuadro 2x2 es til para simplificar la informacin.
Cuando dicotomizamos las respuestas, una manera de hacerlo es utilizando la mediana (y en la zona del acuerdo y del desacuerdo quedar ms o menos el mismo nmero de sujetos), o podemos agrupar las respuestas segn
su significado literal; en cualquier caso debemos exponer qu es lo que hemos hecho.
c) Prueba de la mediana
Con este trmino, prueba de la mediana, se denomina otra manera de clasificar a los sujetos. que quedan clasificados en estos dos criterios: 1 segn
grupo de pertenencia y 2 segn estn por encima o por la debajo de la mediana comn en un mismo test o escala.
En el ejemplo anterior (tabla 11) veamos la posibilidad de dicotomizar las
respuestas a una sola pregunta. En este caso (tabla 12) no se trata ya de una
pregunta sino de todo un test, escala, etc., que mide de manera ms clara y
fiable una determinada caracterstica. Este anlisis tiene incluso su propio
nombre: prueba de la mediana.
El proceso es el siguiente:
1 Todo los sujetos, pertenecientes a dos grupos, responden al mismo
instrumento (test, escala).
2 Calculamos la mediana comn a todos los sujetos (la puntuacin que
divide a todos lo sujetos, juntndolos en un solo grupo, en dos mitades
iguales aproximadamente).
En un ejemplo similar anterior (tabla 11) podramos sustituir la pregunta sobre una asignatura por una escala de actitudes hacia la asignatura de
estadstica.
330
Tabla 12
331
Tabla 13
332
1 Ji cuadrado
a) Planteamiento y frmulas
Disponemos los datos como es usual (e incluyendo los porcentajes si es
conveniente con fines informativos).
Una observacin importante: Convencionalmente las frecuencias de las
cuatro casillas las simbolizamos con las cuatro letras a, b, c y d. Conviene ponerlas siempre de la misma manera porque en las frmulas asociadas a este
planteamiento se supone que se han puesto en ese orden; en alguna frmula que veremos esto es especialmente importante.
Cuando los datos se codifican como 1 0 (s o no, bien o mal, etc.), y el
cero significa mal, en desacuerdo, no, etc., es importante que el no, mal,
etc. (lo que codificamos con un 0) estn puestos en la fila c y d (para una variable), y en la columna a y c (para la otra variable), tal como lo ponemos
aqu. Los dos ceros confluyen en c; en ese ngulo se sitan los valores menores cuando se trata de coordenadas. Naturalmente el 0 y el 1 no tienen sentido como juicio de valor cuando slo significan pertenecer a un grupo u otro
(varn o mujer, un curso u otro, etc.).
Aunque podemos aplicar la frmula [1], disponemos de frmulas ms sencillas, como son las frmulas [7] y [8].
333
suele recomendarse cuando los sujetos son pocos (N < 40) o cuando alguna
frecuencia terica no llega a 5.
Aunque esta correccin de Yates (y el requisito de que las frecuencias
tericas no sean inferiores a 5) viene rutinariamente en muchos textos (y
en programas de ordenador), hace tiempo que se cuestiona su necesidad
o conveniencia porque una serie de estudios muestran que con esta correccin la prueba del ji cuadrado se convierte en una prueba demasiado
conservadora (no se rechaza la Hiptesis Nula cuando se podra rechazar
legtimamente)8.
La recomendacin tradicional es a) aplicar la correccin de Yates en tablas 2x2 cuando una frecuencia terica es inferior a 5 y b) no utilizar el ji cuadrado en tablas mayores si el ms del 20% de las frecuencias tericas es inferior a 5.
c) Orientaciones prcticas para tablas 2x2
Posiblemente la prctica ms aconsejable en tablas 2x2 es:
1) Prescindir de esta correccin (frmula [8]) y utilizar habitualmente la
[7]. Cuando no aplicamos esta correccin en las situaciones en las que
suele o sola ser recomendada, tenemos una prueba ms liberal9.
2) No utilizar el ji cuadrado con pocos sujetos (no muy inferior a N = 40
es una recomendacin segura).10
3) Con muestras muy pequeas (en torno a N = 20) utilizar la prueba
exacta de Fisher (en el apartado siguiente)
8
A pesar de que esta frmula [8] se sigue recomendando, ya se va viendo cuestionada en bastantes textos (como el de Daniel, 1981), suprimida y no recomendada en otros
como innecesaria (como en el de Runyon y Haber, 1984; Rosenthal y Rosnow, 1991; Spatz,
1993; Hinkle, Wiersma y Jurs, 1998), y esta no recomendacin es elogiada en recensiones
publicadas en revistas de prestigio en este campo (Morse, 1995). Estos autores mencionan
las investigaciones en las que se apoyan, y aqu los citamos a ttulo de ejemplo (se pueden
buscar ms citas autorizadas) porque la supresin de esta correccin de Yates (que data de
1934) todava supone ir en contra de una prctica muy generalizada. El consensus parece
ser que esta correccin hace del ji cuadrado una prueba excesiva e innecesariamente conservadora (Black, 1999:580). Otros autores (Heiman, 1996) siguen recomendando el que
las frecuencias tericas sean superiores a 5 (en tablas 2x2) pero omiten la correccin de Yates. Un comentario ms amplio y matizado sobre la correccin de Yates y otras alternativas
puede verse en Ato Garca y Lpez Garca (1996).
9
El programa de VassarStats (Internet, Anexo II) calcula el ji cuadrado con y sin la correccin de Yates.
10
No hay un acuerdo claro sobre el nmero mnimo de sujetos en el ji cuadrado; Rosenthal y Rosnow (1991:514) mencionan N = 20 pero advierten que frecuencias tericas
muy bajas pueden funcionar bien en muestras todava ms pequeas.
334
d) Ejemplo resuelto
Podramos utilizar la frmula [1], que se puede aplicar siempre, pero es
mucho ms cmoda la frmula [7] que es la que generalmente se utiliza en
estos casos.
Tenemos 161 sujetos clasificados segn el grupo al que pertenecen (A o B)
y sus respuestas a una pregunta (s o no). Disponemos los datos en un cuadro de doble entrada (tabla 14).
Tabla 14
Los grados de libertad son: (columnas menos una) por (filas menos una)
= (2-1) (2-1) = 1 totales 90 (100%) 71 (100%).
335
En el caso de tablas 2x2 y con variables dicotmicas (que se excluyen mutuamente) el coeficiente apropiado es el coeficiente ? (fi, frmula [15] que repetimos aqu), que es el mismo coeficiente r de Pearson cuando las dos variables son dicotmicas (1 y 0):
336
337
338
Si queremos saber si una pregunta est relacionada con la otra (si el saber una supone saber tambin la otra) utilizaremos la frmula convencional;
en este caso la [1] o la [7].
Pero si lo que queremos es comprobar si una pregunta es ms difcil que
la otra (como en este ejemplo), estamos en el mismo caso anterior (muestras
relacionadas, lo mismo que para comprobar un cambio)
La pregunta 1 la ha respondido correctamente el 65% (39 alumnos), y la
2 el 17% (10 alumnos). Como algunos alumnos han respondido bien las dos,
tenemos muestras relacionadas.
En ambos casos aplicamos la frmula [10] porque a + d = 41 (>10), y tenemos que:
339
10.2.3. Adaptacin de la prueba de McNemar (muestras relacionadas) para tablas mayores (nxn)
La frmula de McNemar es apropiada para tablas 2x2, pero se puede adaptar para tablas mayores, como en este ejemplo para comprobar un supuesto
cambio. La pregunta que se ha hecho antes y despus admite en este caso
tres respuestas: s, no s y no (podran ser otras categoras de respuesta o de
observacin, como bien, regular y mal si hay criterios claros para este tipo de
clasificacin).
Tabla 17a
Tabla 17b
Como en tablas semejantes, los noes (el nivel ms bajo) deben coincidir en
la celda inferior izquierda y los ses (el nivel ms alto) en la celda superior derecha (tabla 17a). Lo que hemos hecho (tabla 17b) es agrupar los cambios negativos (de s a no y a no s, y de no s a no) y los cambios positivos (de no a
no s y s y de no s a s), y ya tenemos los dos valores, a y d, de la frmula [10].
(32 10)2
Ahora podemos aplicar la frmula [10]: c = = 11.52, p < .001;
32 + 10
2
340
13
Otra alternativa para tablas 3x3 y muestras relacionadas podemos verla en Hinkle,
Wiersma y Jurs (1998).
14
Ejemplo tomado de W. Mendenhall y James E. Reinmouth (1978), Estadstica para
administracin y economa, Mxico, Grupo Editorial Iberoamericana.
341
Tabla 19
342
La relacin es ms bien baja, aunque se puede afirmar con mucha seguridad que s hay relacin.
Si queremos interpretar con ms detalle la informacin disponible, podemos fijarnos en qu casillas hay una mayor discrepancia entre las frecuencias
observadas y las tericas; esto nos lo indican los mismos valores del ji cuadrado, que son mayores en unas casillas que en otras. Lo que est ms claro
es la discrepancia:
En la casilla h
En la casilla a
En la casilla b
En los cuadros 2x2 la interpretacin suele ser ms fcil e intuitiva, en cuadros grandes no siempre es tan sencillo y hay que fijarse cmo se distribuyen
las frecuencias. Hay mtodos especficos para parcializar estos cuadros y hacer una interpretacin ms matizada15.
15
343
Con estos mismos datos podramos calcular tambin el coeficiente de correlacin r de Pearson. Para esto podramos codificar los datos as:
nmero de acciones: 1 (menos de 100),
2 (entre 100 y 500)
3 (ms de 500)
opinin:
3 (a favor),
2 (sin opinin)
1 (en contra).
Posiblemente para calcular este coeficiente sera preferible tener a los sujetos agrupados en ms categoras segn el nmero de acciones que tengan,
o sencillamente no agruparlos. Cuando agrupamos a los sujetos (y eliminamos diferencias individuales) los valores del coeficiente de correlacin no son
los mismos (suelen ser ms bajos) que si no agrupamos a los sujetos. Lo que
sucede es que a veces los nicos datos disponibles son los datos agrupados,
como los de este ejemplo.
12. COEFICIENTES DE RELACIN ASOCIADOS AL c2
Un valor alto de c2 nos da seguridad para afirmar que hay asociacin o relacin entre dos variables (o una diferencia entre dos o ms grupos), pero no
nos dice si la relacin es grande o pequea (como tampoco nos dice si es importante). Con un N grande es relativamente fcil obtener valores altos (estadsticamente significativos) de c2, sin que esto quiera decir que la relacin
entre las dos variables sea grande o importante.
Para apreciar la magnitud de la asociacin existen varios coeficientes derivados del c2 Estos coeficientes aportan una informacin anloga a la del tamao del efecto en el contraste de medias. Los ms utilizados son:
a) El coeficiente f (fi) cuando las dos variables son genuinamente dicotmicas (no dicotomizadas); en estos casos es el preferible.
b) El coeficiente de contingencia (C) con tablas nxn (ms de dos niveles al menos en uno de los dos criterios) pero hay otros que pueden
ser ms adecuados. Se pueden examinar las peculiaridades de cada
uno de los coeficientes disponibles para utilizar el que creamos ms
conveniente.
Para comparar coeficientes de relacin asociados al c2 dentro de un mismo estudio se debe utilizar el mismo coeficiente, porque los valores de los
distintos coeficientes no son estrictamente comparables entre s.
Exponemos a continuacin algunos de los coeficientes ms utilizados indicando sus particularidades para poder escoger el que en cada caso nos parezca ms conveniente.
344
a) Coeficiente de contingencia
Valor mximo de C cuando el nmero de filas (f)
es igual al de columnas (c):
El coeficiente f es un caso particular del coeficiente r de Pearson (y pueden emplearse las mismas frmulas o una calculadora programada con el coeficiente r); es estadsticamente significativo (no aleatorio) en el grado en
que lo es el valor de c2;
Se utiliza con datos dicotmicos (1 0) en cuadros 2x2; no es vlido para
datos dicotomizados (cuando los datos originales son continuos); en este caso podemos utilizar el c2 pero no este coeficiente.
345
346
347
p=
0.05
p=
0.01
1
3
4
5
6
7
8
9
10
11
12
3.84
7.82
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
6.64
11.35
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.73
26.22
p = Grados p =
0.001
de
0.05
libertad
p=
0.01
p=
0.001
10.83
16.27
18.47
20.52
22.46
24.32
26.13
27.88
29.59
31.26
32.91
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.32
46.80
48.27
49.73
13
14
15
16
17
18
19
20
21
22
23
22.36
23.69
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
Grados p =
de
0.05
libertad
24
25
26
27
28
29
30
40
50
60
70
p=
0.01
36.42 42.98
37.65 44.31
38.89 45.64
40.11 46.96
41.34 48.28
42.56 49.59
43.77 50.89
55.76 63.69
67.51 76.15
79.08 88.38
90.53 100.42
p=
0.001
51.18
52.62
54.05
55.48
56.89
58.30
59.70
73.41
86.66
99.62
112.31
Tablas adaptadas y abreviadas de Alexei Sharov, Virginia Tech, Blacksburg, VA, Quantitative Population Ecology, On-Line Lectures [ http://www.ento.vt.edu/~sharov/PopEcol/] http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html
Tablas ms completas y las probabilidades exactas de cualquier valor de ji cuadrado pueden verse en varias direcciones de Internet:
INSTITUTE OF PHONETIC SCIENCES (IFA) (Statistical tests h t t p : / / f o n s g 3 . l e t . u v a . n l / S e r v i c e / S t a t i s t i c s . h t m l), The Chi-square distribution h t t p : / / f o n s g 3 . l e t .
u v a . n l / S e r v i c e / S t a t i s t i c s / C h i S q u a r e _ d i s t r i b u t i o n . h t m l (calcula la probabilidad introduciendo los valores de ji cuadrado y los grados de libertad).
JONES, JAMES, Statistics: Lecture Notes http://www.richland.edu/james/lecture/m170/
http://www.richland.cc.il.us/james/lecture/m170/tbl-chi.html
LOWRY, RICHARD, Vassar Stats http://faculty.vassar.edu/lowry/VassarStats.html (buscar
en el men: distributions)
SHAROV, ALEXEI, On-line lectures Department of EntomologyVirginia Tech, Blacksburg,
VA [http://www.ento.vt.edu/~sharov/PopEcol/ Statistical Tables] http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html (tablas de c2 hasta 100 grados de
libertad, p = .05, .01 y .001).
STOCKBURGER , DAVID W. Introduction to Statistics: Concepts, Models, and Aplications
CRITICAL VALUES FOR THE CHI-SQUARE DISTRIBUTION http://www.
psychstat.smsu.edu/introbook/chisq.htm
WALKER, JOHN, RetroPsychoKinesis Project Home http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html [calcula la probabilidad (p) de c2 a partir de los
valores de c2 y de los grados de libertad, y el valor de c2 a partir de p (probabilidad) y grados de libertad].
348
349
REFERENCIAS BIBLIOGRFICAS
351
COHEN J. (1988), Statistical Power Analysis for the Behavioral Sciences, second edition. Hillsdale, N.J.: Lawrence Erlbaum.
COHEN, J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and
Psychological Measurement, 20, 1, 36-46.
COHEN, J. (1977), Statistical Power Analysis for the Behavioral Sciences. New York:
Academic Press, [2nd. edit., 1988, Hillsdale, N.J.: Erlbaum].
COHEN, P. A. (1981), Student Ratings of Instruction and Student Achievement: A Metaanalysis of Multisection Validity Studies. Review of Educational Research, 51,
281-309.
CRONBACH, L. J. (1951), Coefficient Alpha and the Internal Structure of Tests. Psychometrika, 16, 297-334.
CRONBACH, L. J. and SHAVELSON, R. J. (2004), My Current Thoughts on Coefficient Alpha
and Succesor Procedures. Educational and Psychological Measurement, 64
(3), 391-418.
DALLAL, G. E. (last revision 2001), The Little Handbook of Statistical Practice (en Frank
Anscombes Regression Examples http://www.StatisticalPractice.com (consultado 16, 04, 07).
DANIEL, W. W. (1981), Estadstica con aplicaciones a las ciencias sociales y a la educacin. Bogot: McGraw-Hill Latinoamericana.
DOWNIE, N. M. y HEATH, R. W. (1971), Mtodos estadsticos aplicados: Mxico: Harper;
(Madrid: Editorial del Castillo).
DUHACHEK, A. and IACOBUCCI, D. (2004), Alphas Standard Error (ASE): An Accurate and
Precise Confidence Interval Estimate. Journal of Applied Psychology, Vol. 89 Issue 5, p792-808.
ETXCHEBERRIA, J. (1999), Regresin mltiple. Madrid: La Muralla.
FAN, X. and THOMPSON, B. (2001), Confidence Intervals About Score Reliability Coefficients, please: An EPM Guidelines Editorial. Educational and Psychological Measurement, 61 (4), 517-531.
FELDT, L. S. (1975), Estimation of the Reliability of a Test Divided into Two Parts of Unequal Length, Psychometrika, 40, 4, 557-561.
FELDT, L. S. and KIM, S. (2006), Testing the Difference Between Two Alpha Coefficients
With Small Samples of Subjects and Raters. Educational and Psychological Measurement, 66 (4), 589-600.
FINK, A. (1998), Conducting Research Literature Reviews, From Paper to the Internet.
Thousand Oaks & London: Sage Publications.
FOX, J. (1993), Regression diagnostics: An Introduction. En LEWIS-BECK, MICHAEL S.
(Ed.). Regression Analysis. International Handbooks of Quantitative Applications in the Social Sciences, Volume 2. London: SAGE Publications, 245-334.
GARDNER, P. L. (1970), Test Length and the Standard Error of Measurement. Journal of
Educational Measurement 7 (4), 271273.
GLASS, G. V., MCGAW, B. and SMITH, M. L. (1981), Meta-Analysis in Social Research. Beverly Hills, Cal.: Sage Publications.
GLINER, J. A.; LEECH, N. L. and MORGAN, G. A. (2002), Problems With Null Hypothesis
Significance Testing (NHST): What Do the Textbooks Say? The Journal of Exprimental Education. 71 (1), 83-92.
352
REFERENCIAS BIBLIOGRFICAS
GMEZ FERNNDEZ, D. (1981), El ESP-E, un nuevo cuestionario de personalidad a disposicin de la poblacin infantil espaola. Revista de Psicologa General y Aplicada, 36, 450-472.
GUILFORD, J. P. (1954), Psychometric Methods, New York: McGraw-Hill;
GUILFORD, J. P. and FRUCHTER, B. (1973), Fundamental Statistics in Psychology and
Education. New York: McGraw-Hill (en espaol, Estadstica aplicada a la psicologa y la educacin, 1984, Mxico: McGraw-Hill).
HANCOCK, G. R. and KLOCKARS, A. J. (1996), The Quest for?: Developments in Multiple
Comparison Procedures in the Quarter Century Since Games (1971). Review of
Educational Research, 66, (3). 269 - 306.
HEDGES, L. V. and OLKIN, I. O. (1985), Statistical Methods for Meta-Analysis. Orlando,
FL: Academic Press.
HEIMAN, G. W. (1996), Basic Statistics for the Behavioral Sciences, 2nd edit. Boston:
Houghton Mifflin.
HERNNDEZ SAMPIERI, R. FERNNDEZ COLLADO, C. y BAPTISTA LUCIO, P. (2000), Metodologa
de la Investigacin. Segunda Edicin. Mxico: McGraw-Hill.
HINKLE, D. E.; WIERSMA, W. and JURS, S. G. (1998), Applied Statistics for the Behavioral
Sciences, fourth edition. Boston: Houghton-Mifflin.
HOLLEY, J.W. and LIENERT, G. A. (1974), The G Index of Agreement in Multiple Ratings,
Educational and Psychological Measurement, 34, 817-822.
HORST, P. (1953), Correcting the Kuder-Richardson Reliability for Dispersion of Item
Difficulties, Psychological Bulletin, 50, 371-374.
HOYT, C. J. (1941), Test Reliability Estimated by Analysis of Variance, Psychometrika, 3,
153-160.
HOYT, C. J. (1952), Estimation of Test Reliability for Un-Restricted Item Scoring Methods, Educational and Psychological Measurement, 12, 752-758.
HUBBARD, R. and RYAN, P. A. (2000), The Historical Growth of Statistical Significance Testing in Psychology-and Its Future Prospects. Educational and Psychological
Measurement, Vol. 60 (5), 661-681.
HUBERTY, C. J. (2002), A History of Effect Size Indices. Educational and Psychological
Measurement, Vol. 62 (2), 227-240.
HUNTER, J. E. and SCHMIDT, F. L. (1990), Methods of Meta-Analysis. Newbury Park: Sage
Publications.
JOURARD, S. M. (1971), Self-Disclosure, An Experimental Analysis of the Transparent
Self. New York: Wiley-Interscience.
KERLINGER, F. N., Investigacin del Comportamiento. Mxico: Interamericana.
KIRK, R. E. (1995), Experimental Design, Procedures for the Behavioral Sciences,
third edit. Pacific Grove: Brooks/Cole.
KIRK, R. E. (1996), Practical Significance: A Concept Whose Time Has Come. Educational and Psychological Measurement, 56 (5), 746-759.
KRISTOF, W. (1974), Estimation of the Reliability and True Score Variance from a Split of
a Test into Three Arbitrary Parts, Psychometrika, 39, 4, 491-499.
L ANE, D. (Rice University) (2007), HyperStat Online Statistics Textbook http://davidmlane.com/hyperstat/index.html (consultado 25, 03, 08).
L ANE, D. History of Normal Distribution http://cnx.rice.edu/content/m11164/latest/
(Last edited by David Lane on Jun 1, 2007; consultado 25, 03, 08).
353
L ANGLEY, R. (1973), Practical Statistics for Non-Mathematical People. New York: Drake.
LEACH, C. (1982), Fundamentos de estadstica, enfoque no paramtrico para ciencias sociales. Mxico: Limusa.
LIGHT, R. J., SINGER, J. D. and WILLETT, J. B. (1990), By Design, Planning Research on
Higher Education. Cambridge, Mass.: Harvard University Press.
LINTON, M., GALLO JR., PHILLIP S. and LOGAN, C. A. (1975), The Practical Statistician, Simplified Handbook of Statistics. Monterey: Brooks/Cole.
MAGNUSSON, D. (1976), Teora de los Tests, Mxico: Trillas.
MAHADEVAN, L. (2000), The Effect Size Statistic: Overview of Various Choices. Paper
presented at the annual meeting of the Southwest Educational Research Association, Dallas (January 27-29, 2000) (http://eric.ed.gov/ERICDocs/data/ericdocs2/content_storage_01/0000000b/80/10/b7/3a.pdf (consultado 1 de Enero
2007) (ERIC ED438308).
MCMORRIS, R. F. (1972), Evidence of the Quality of Several Approximations for Commonly Used Measurement Statistics, Journal of Educational Measurement, 9,
2, 113-122.
MCNEMAR , Q. (1962), Psychological Statistics, 3rd edit., New York: John Wiley and
Sons.
MEHRENS, W. A. and LEHMANN, I. J. (1973), Measurement and Evaluation in Education
and Psychology (3rd edition). New York: Holt, Rinehart and Winston.
MEREDITH, W. M. (1971), Manual de tablas estadsticas. Mxico: Trillas.
MORALES VALLEJO, P. (1993), Lneas actuales de investigacin en mtodos cuantitativos,
el meta-anlisis o sntesis integradoras. Revista de Educacin (Ministerio de
Educacin y Ciencia), Enero-Abril, 300, 191-221.
MORALES VALLEJO, P. (2006), Medicin de actitudes en Psicologa y Educacin. 3 edicin. Madrid: Universidad Pontificia Comillas.
MORALES VALLEJO, P. (2007a), Anlisis de varianza para muestras relacionadas.
www.upcomillas.es/personal/peter/Muestrasrelacionadas.pdf
MORALES VALLEJO, P. (2007b), Tamao necesario de la muestra: Cuntos sujetos necesitamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf
MORALES VALLEJO, P. (2007c), El tamao del efecto (effect size): anlisis complementarios al contraste de medias http://www.upcomillas.es/personal/peter/investigacion/Tama%F1oDelEfecto.pdf
MORALES VALLEJO, PEDRO (2008). Sobre las hiptesis direccionales y no direccionales.
http://www.upco.es/personal/peter/investigacion/Hipotesis.pdf
MORALES VALLEJO, P. UROSA SANZ, B. y BLANCO BLANCO, . (2003), Construccin de escalas
de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
MORSE, D. T. (1995), Book Review of Spatz, Chris, (1993), Basic Statistics: Tales of Distributions (5th Edit.). Pacific Grove, CA: Brooks/Cole. Educational and Psychological Measurement, 55 (1), 140-146.
MOSS, P. A. (1994), Can There Be Validity Without Reliability? Educational Researcher,
23, 2, 5-12.
NUNNALLY, J. C. (1978), Psychometric Theory. New York: McGraw-Hill.
NUNNALLY, J. C. and BERNSTEIN, I. H. (1994), Psychometric Theory, 3rd. Ed. New York:
McGraw-Hill.
354
REFERENCIAS BIBLIOGRFICAS
OSBORNE, J. W. (2003), Effect sizes and the disattenuation of correlation and regression
coefficients: lessons from educational psychology. Practical Assessment, Research & Evaluation, 8(11) http://PAREonline.net/getvn.asp?v=8&n=11.
OSBORNE, J. W. and OVERBAY, A. (2004), The power of outliers (and why researchers
should always check for them). Practical Assessment, Research & Evaluation,
9(6). Retrieved August 26, 2007 from http://PAREonline.net/getvn.asp?v=9&n=6
PERNEGER, T. V. (1998), Whats wrong with Bonferroni adjustments. British Medical Journal 1998;316:1236-1238 (disponible en http://www.bmj.com/cgi/content/full/
316/7139/1236, consultado 31, 03, 08).
PFEIFFER, J. W.; HESLIN, R. AND JONES, J. E. (1976), Instrumentation in Human Relations
Training. La Jolla, Ca.: University Associates.
RANDOLPH, J. J. and EDMONDSON, R. S. (2005), Using the Binomial Effect Size Display
(BESD) to Present Magnitude of Effect Sizes to the Evaluation Audience. Practical Assessment, Research & Evaluation, 10 (4), http://pareonline.net/pdf/
v10n14.pdf
RODRGUEZ OSUNA, J. (1993), Mtodos de muestreo. Casos prcticos. Cuadernos metodolgicos. Madrid: Centro de Investigaciones Sociolgicas (CIS).
ROSENTHAL, R. (1987), Judgment Studies, Design, analysis and meta-analysis. Cambridge: Cambridge University Press.
ROSENTHAL, R. (1991), Meta-Analysis Procedures for Social Research. Beverly Hills, CA:
Sage Publications.
ROSENTHAL, R. (1994), Parametric Measures of Effect Size. En COOPER, HARRIS and HEDGES, L. V. (Eds.), The Handbook of Research Synthesis. New York: Russell Sage
Foundation, 231-244.
ROSENTHAL, R. and ROSNOW, R. L. (1991), Essentials of Behavioral Research, Methods
and Data Analysis. Boston: McGraw-Hill.
ROSENTHAL, R. and RUBIN, D. B. (1979), A Note on Percent Variance Explained as A Measure of the Importance of Effects. Journal of Applied Social Psychology, 9 (5),
395-396.
RUNYON, R. P. y HABER, A. (1984), Estadstica para las Ciencias Sociales. Mxico: Fondo Educativo Interamericano.
SALKIND, N. J. (1998), Mtodos de Investigacin, 3 edicin, Mxico: Prentice-Hall.
SAUPE, J. L. (1961), Some Useful Estimates of the Kuder-Richardson formula number
20 Reliability Coefficient, Educational and Psychological Measurement, 21, 1,
63-71.
SCHMITT, N. (1996), Uses and abuses of Coefficient Alpha. Psychological Assessment, 8
(4), 350-353 (http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf).
SHROUT, P. E. AND FLEISS, J. L. (1979), Intraclass Correlations: Uses in Assessing Rater Reliability, Psychological Bulletin, 86, 420-428.
SIEGEL, S. N. (1972), Estadstica no paramtrica aplicada a las ciencias de la conducta. Mxico: Trillas. (La primera edicin en ingls es de 1956, New York:
McGraw-Hill).
SIEGEL, S. N. and CASTELLAN JR., N. JOHN (1988), Nonparametric Statistics For the Behavioral Sciences. Second edition. New York: McGraw-Hill.
SPATZ, C. (1993), Basic Statistics: Tales of Distributions, 5th Edit. Pacific Grove, CA:
Brooks/Cole.
355
356
REFERENCIAS BIBLIOGRFICAS
357
Proporcin de casos por debajo: percentil (multiplicando por 100) correspondiente a cada puntuacin tpica;
Puntuacin tpica positiva: rea mayor
Puntuacin tpica negativa: rea menor
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
rea
mayor
0.50
0.504
0.508
0.512
0.516
0.5199
0.5239
0.5279
0.5319
0.5359
rea
menor
0.50
0.496
0.492
0.488
0.484
0.4801
0.4761
0.4721
0.4681
0.4641
z
0.10
0.11
0.12
0.13
0.14
0.15
0.16
0.17
0.18
0.19
359
rea
mayor
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
rea
menor
0.4602
0.4562
0.4522
0.4483
0.4443
0.4404
0.4364
0.4325
0.4286
0.4247
z
0.20
0.21
0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.30
0.31
0.32
0.33
0.34
0.35
0.36
0.37
0.38
0.39
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0.48
0.49
0.50
0.51
0.52
0.53
0.54
0.55
0.56
0.57
0.58
0.59
0.60
0.61
rea
mayor
0.5793
0.5832
0.5871
0.591
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.648
0.6517
0.6554
0.6591
0.6628
0.6664
0.67
0.6736
0.6772
0.6808
0.6844
0.6879
0.6915
0.695
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.719
0.7224
0.7257
0.7291
rea
menor
0.4207
0.4168
0.4129
0.409
0.4052
0.4013
0.3974
0.3936
0.3897
0.3859
0.3821
0.3783
0.3745
0.3707
0.3669
0.3632
0.3594
0.3557
0.352
0.3483
0.3446
0.3409
0.3372
0.3336
0.330
0.3264
0.3228
0.3192
0.3156
0.3121
0.3085
0.305
0.3015
0.2981
0.2946
0.2912
0.2877
0.2843
0.281
0.2776
0.2743
0.2709
0.62
0.63
0.64
0.65
0.66
0.67
0.68
0.69
0.70
0.71
0.72
0.73
0.74
0.75
0.76
0.77
0.78
0.79
0.80
0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0.89
0.90
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1.00
1.01
1.02
1.03
360
rea
mayor
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.758
0.7611
0.7642
0.7673
0.7703
0.7734
0.7764
0.7794
0.7823
0.7852
0.7881
0.791
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.834
0.8365
0.8389
0.8413
0.8438
0.8461
0.8485
rea
menor
0.2676
0.2643
0.2611
0.2578
0.2546
0.2514
0.2483
0.2451
0.242
0.2389
0.2358
0.2327
0.2297
0.2266
0.2236
0.2206
0.2177
0.2148
0.2119
0.209
0.2061
0.2033
0.2005
0.1977
0.1949
0.1922
0.1894
0.1867
0.1841
0.1814
0.1788
0.1762
0.1736
0.1711
0.1685
0.166
0.1635
0.1611
0.1587
0.1562
0.1539
0.1515
z
1.04
1.05
1.06
1.07
1.08
1.09
1.10
1.11
1.12
1.13
1.14
1.15
1.16
1.17
1.18
1.19
1.20
1.21
1.22
1.23
1.24
1.25
1.26
1.27
1.28
1.29
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.37
1.38
1.39
1.40
1.41
1.42
1.43
1.44
1.45
rea
mayor
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.877
0.879
0.881
0.883
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.898
0.8997
0.9015
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
rea
menor
0.1492
0.1469
0.1446
0.1423
0.1401
0.1379
0.1357
0.1335
0.1314
0.1292
0.1271
0.1251
0.123
0.121
0.119
0.117
0.1151
0.1131
0.1112
0.1093
0.1075
0.1056
0.1038
0.102
0.1003
0.0985
0.0968
0.0951
0.0934
0.0918
0.0901
0.0885
0.0869
0.0853
0.0838
0.0823
0.0808
0.0793
0.0778
0.0764
0.0749
0.0735
1.46
1.47
1.48
1.49
1.50
1.51
1.52
1.53
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.61
1.62
1.63
1.64
1.65
1.66
1.67
1.68
1.69
1.70
1.71
1.72
1.73
1.74
1.75
1.76
1.77
1.78
1.79
1.80
1.82
1.81
1.83
1.84
1.85
1.86
1.87
361
rea
mayor
0.9279
0.9292
0.9306
0.9319
0.9332
0.9345
0.9357
0.937
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
0.9641
0.9656
0.9649
0.9664
0.9671
0.9678
0.9686
0.9693
rea
menor
0.0721
0.0708
0.0694
0.0681
0.0668
0.0655
0.0643
0.063
0.0618
0.0606
0.0594
0.0582
0.0571
0.0559
0.0548
0.0537
0.0526
0.0516
0.0505
0.0495
0.0485
0.0475
0.0465
0.0455
0.0446
0.0436
0.0427
0.0418
0.0409
0.0401
0.0392
0.0384
0.0375
0.0367
0.0359
0.0344
0.0351
0.0336
0.0329
0.0322
0.0314
0.0307
z
1.88
1.89
1.90
1.91
1.92
1.93
1.94
1.95
1.96
1.97
1.98
1.99
2.00
2.01
2.02
2.03
2.04
2.05
2.06
2.07
2.08
2.09
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
2.20
2.21
2.22
2.23
2.24
2.25
2.26
2.27
2.28
2.29
rea
mayor
0.9699
0.9706
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.975
0.9756
0.9761
0.9767
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
0.9821
0.9826
0.983
0.9834
0.9838
0.9842
0.9846
0.985
0.9854
0.9857
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.989
rea
menor
0.0301
0.0294
0.0287
0.0281
0.0274
0.0268
0.0262
0.0256
0.025
0.0244
0.0239
0.0233
0.0228
0.0222
0.0217
0.0212
0.0207
0.0202
0.0197
0.0192
0.0188
0.0183
0.0179
0.0174
0.017
0.0166
0.0162
0.0158
0.0154
0.015
0.0146
0.0143
0.0139
0.0136
0.0132
0.0129
0.0125
0.0122
0.0119
0.0116
0.0113
0.011
2.30
2.31
2.32
2.33
2.34
2.35
2.36
2.37
2.38
2.39
2.40
2.41
2.42
2.43
2.44
2.45
2.46
2.47
2.48
2.49
2.50
2.51
2.52
2.53
2.54
2.55
2.56
2.57
2.58
2.59
2.60
2.61
2.62
2.63
2.64
2.65
2.66
2.67
2.68
2.69
2.70
2.71
362
rea
mayor
0.9893
0.9896
0.9898
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
0.9918
0.992
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
0.9938
0.994
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
0.9953
0.9955
0.9956
0.9957
0.9959
0.996
0.9961
0.9962
0.9963
0.9964
0.9965
0.9966
rea
menor
0.0107
0.0104
0.0102
0.0099
0.0096
0.0094
0.0091
0.0089
0.0087
0.0084
0.0082
0.008
0.0078
0.0075
0.0073
0.0071
0.0069
0.0068
0.0066
0.0064
0.0062
0.006
0.0059
0.0057
0.0055
0.0054
0.0052
0.0051
0.0049
0.0048
0.0047
0.0045
0.0044
0.0043
0.0041
0.004
0.0039
0.0038
0.0037
0.0036
0.0035
0.0034
z
2.72
2.73
2.74
2.75
2.76
2.77
2.78
2.79
2.80
2.81
2.82
2.83
2.84
2.85
2.86
2.87
2.88
2.89
2.90
2.91
2.92
2.93
2.94
2.95
2.96
2.97
2.98
2.99
3.00
3.01
3.02
3.03
3.04
3.05
3.06
3.07
3.08
3.09
3.10
3.11
3.12
3.13
rea
mayor
0.9967
0.9968
0.9969
0.997
0.9971
0.9972
0.9973
0.9974
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.998
0.9981
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9986
0.9986
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.999
0.999
0.999
0.9991
0.9991
0.9991
rea
menor
z
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22
3.23
3.24
3.25
3.26
3.27
3.28
3.29
3.30
3.31
3.32
3.33
3.34
3.35
3.36
3.37
3.38
3.39
3.40
3.41
3.42
3.43
3.44
3.45
3.46
3.47
3.48
3.49
3.50
0.0033
0.0032
0.0031
0.003
0.0029
0.0028
0.0027
0.0026
0.0026
0.0025
0.0024
0.0023
0.0023
0.0022
0.0021
0.0021
0.002
0.0019
0.0019
0.0018
0.0018
0.0017
0.0016
0.0016
0.0015
0.0015
0.0014
0.0014
0.0013
0.0013
0.0013
0.0012
0.0012
0.0011
0.0011
0.0011
0.001
0.001
0.001
0.0009
0.0009
0.0009
363
rea
mayor
0.9992
0.9992
0.9992
0.9992
0.9993
0.9993
0.9993
0.9993
0.9994
0.9994
0.9994
0.9994
0.9994
0.9995
0.9995
0.9995
0.9995
0.9995
0.9995
0.9996
0.9996
0.9996
0.9996
0.9996
0.9996
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9998
0.9998
rea
menor
0.0008
0.0008
0.0008
0.0008
0.0007
0.0007
0.0007
0.0007
0.0006
0.0006
0.0006
0.0006
0.0006
0.0005
0.0005
0.0005
0.0005
0.0005
0.0005
0.0004
0.0004
0.0004
0.0004
0.0004
0.0004
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0002
0.0002