Estadistica Aplicada A Las Ciencias Sociales - Pedro Morales Vallejo

ecec
ESTADSTICA APLICADA A LAS

CIENCIAS SOCIALES
PUBLICACIONES
DE LA UNIVERSIDAD
PONTIFICIA COMILLAS
PEDIDOS:
Servicio de Publicaciones
c/ Universidad Comillas, 3
Tel.: 91 734 39 50 - Fax: 91 734 45 70
Pedro Morales Vallejo
ESTADSTICA APLICADA A
LAS CIENCIAS SOCIALES
2008
2008 PEDRO MORALES VALLEJO

2008 UNIVERSIDAD PONTIFICIA COMILLAS
Universidad Comillas, 3
28049 MADRID
Diseo de cubierta : Beln Recio Godoy

ISBN: ISBN 978-84-8468-355-1
EDICIN DIGITAL
Reservados todos los derechos. Queda totalmente prohibida la reproduccin total o parcial de este libro por cualquier procedimiento electrnico o
mecnico, incluyendo fotocopia, grabacin magntica o cualquier sistema
de almacenamiento o recuperacin de la informacin, sin permiso escrito
GHOD8QLYHUVLGDG3RQWLFLD&RPLOODV
NDICE
Pgs.
INTRODUCCIN ..............................................................................................
21
CAPTULO 1. ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES

GRFICAS .........................................................................................................
23
1. ORGANIZACIN DE LOS DATOS ..........................................................................
23
1.1.
1.2.
1.3.
1.4.
1.5.
La distribucin de frecuencias .........................................................

Agrupacin en intervalos .................................................................
Nmero de intervalos ......................................................................
Valor del intervalo ............................................................................
Cmo comenzar la agrupacin en intervalos .................................
24
25
25
26
26
2. REPRESENTACIONES GRFICAS ...........................................................................
26
2.1.
2.2.
2.3.
2.4.
Polgono de frecuencias ...................................................................

Polgono de frecuencias relativas ....................................................
Histograma .......................................................................................
Diagrama de cajas .............................................................................
27
29
31
32
CAPTULO 2. MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL

Y DE DISPERSIN ............................................................................................
35
1. MEDIDAS DE TENDENCIA CENTRAL .....................................................................
35
1.1.
La media aritmtica ..........................................................................
35
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.
1.2.
1.3.
1.4.
La mediana ........................................................................................
La moda .............................................................................................
Comparacin de las medidas de tendencia central .......................
36
36
36
2. MEDIDAS DE DISPERSIN: SU UTILIDAD ..............................................................
39
2.1.
2.2.
La desviacin media .........................................................................

La desviacin tpica y la varianza .....................................................
2.2.1. La desviacin tpica ............................................................
2.2.2. La varianza ..........................................................................
2.2.3. Ventajas de la desviacin tpica y de la varianza como medidas de dispersin ............................................................
2.2.4. Propiedades de la desviacin tpica y de la varianza ........
2.2.5. Usos e interpretaciones de la desviacin tpica ...............
2.2.6. Media y desviacin tpica de los datos dicotmicos ........
2.2.7. Combinacin de medias y desviaciones tpicas ...............
1 Para combinar dos o ms medias ...............................
2 Para combinar dos o ms desviaciones tpicas o varianzas ..........................................................................
40
42
42
44
45
46
47
50
53
53
54
a) Muestras de tamao desigual ...............................

b) Muestras de idntico tamao ...............................
55
55
El coeficiente de variacin (V) .........................................................

La desviacin semi-intercuartlica ...................................................
La amplitud o recorrido ...................................................................
Relacin entre la amplitud y la desviacin tpica ...........................
57
58
60
60
3. MEDIDAS DESCRIPTIVAS BSICAS: RESUMEN ..........................................................
61
CAPTULO 3. LA DISTRIBUCIN NORMAL ...................................................
65
1. APROXIMACIN INTUITIVA A LA DISTRIBUCIN NORMAL ........................................
65
2. CARACTERSTICAS Y PROPIEDADES DE LA DISTRIBUCIN NORMAL ...........................
67
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIN NORMAL ..........................
68
4. CMO DIBUJAR LA CURVA ANORMAL ...................................................................
72
5. CMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIN NORMAL ...................................
73
2.3.
2.4.
2.5.
2.6.
5.1.
5.2.
Puntuaciones tpicas positivas (superiores a la media) .................

Puntuaciones tpicas negativas (inferiores a la media) ..................
73
75
NDICE
Pgs.
5.3.
Puntuaciones tpicas positivas o negativas (en trminos absolutos) .................................................................................................
76
6. BREVE NOTA HISTRICA ...................................................................................
77
Anexo: La distribucin normal en Internet ....................................................
78
CAPTULO 4. TIPOS DE PUNTUACIONES INDIVIDUALES ...........................
81
1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIN ..........................................
81
2. PROPORCIN DE RESPUESTAS CORRECTAS ...........................................................
82
3. PUNTUACIONES DIFERENCIALES .........................................................................
83
4. PUNTUACIONES TPICAS ....................................................................................
83
4.1.
4.2.
4.3.
4.4.
Qu son las puntuaciones tpicas ....................................................

Propiedades de las puntuaciones tpicas ........................................
Utilidad de las puntuaciones tpicas ...............................................
Puntuaciones tipificadas (puntuaciones tpicas transformadas) ...
83
85
87
91
5. PERCENTILES ...................................................................................................
92
5.1.
5.2.
Concepto e interpretacin ..............................................................

Clculo de los percentiles ................................................................
5.2.1. Clculo directo ...................................................................
5.2.2. Clculo por interpolacin ..................................................
5.2.3. Clculo de los percentiles mediante la representacin
grfica de las frecuencias relativas acumuladas ................
101
6. PUNTUACIONES NORMALIZADAS .........................................................................
104
6.1.
6.2.
6.3.
6.4.
Puntuaciones tpicas normalizadas .................................................

Puntuaciones tpicas normalizadas y agrupadas: los estaninos y
otras puntuaciones ...........................................................................
6.2.1. Los estaninos ......................................................................
6.2.2. Las pentas ...........................................................................
6.2.3. Otras puntuaciones normalizadas ....................................
Percentiles normalizados: clculo de los percentiles a partir de
la media y de la desviacin tpica ....................................................
Equivalencias de diversos tipos de puntuaciones en la distribucin
normal ...............................................................................................
92
97
98
99
104
106
107
109
110
113
115

Pgs.
7. PUNTUACIONES TPICAS Y SUS PUNTUACIONES DERIVADAS: RESUMEN ......................
116
8. RESUMEN DEL CLCULO DE LAS PUNTUACIONES DERIVADAS ...................................
117
CAPTULO 5. CORRELACIN Y COVARIANZA ..............................................
119
1. CONCEPTO DE CORRELACIN Y COVARIANZA .......................................................
119
1.1.
1.2.
1.3.
1.4.
Relacin y variacin conjunta .......................................................

Los diagramas de dispersin ...........................................................
Otras maneras de visualizar la correlacin .....................................
Correlacin, covarianza y dispersin: importancia de las diferencias .........................................................................................................
Tipos de relaciones que cuantificamos mediante el coeficiente r
de Pearson ........................................................................................
Tipos de variables con las que se puede utilizar el coeficiente r de
Pearson ..............................................................................................
119
120
121
2. L A MEDIDA DE LA RELACIN .............................................................................
124
1.5.
1.6.
2.1.
2.2.
122
123
123
Cmo cuantificamos o medimos el grado de relacin ..................

Otras frmulas y procedimientos ...................................................
124
127
3. INTERPRETACIN DEL COEFICIENTE DE CORRELACIN R DE PEARSON .....................
128
3.1.
3.2.
3.3.
3.4.
3.5.
Interpretacin bsica .......................................................................

Correlacin y causalidad ..................................................................
Cmo calcular la media de varios coeficientes de correlacin .....
El coeficiente de determinacin .....................................................
La significacin estadstica de los coeficientes de correlacin ...
3.5.1. Qu es un coeficiente de correlacin estadsticamente
significativo .........................................................................
3.5.2. El modelo terico ...............................................................
3.5.3. Interpretacin de una correlacin estadsticamente significativa .................................................................................
3.5.4. Cmo comprobamos si un coeficiente de correlacin es
estadsticamente significativo ..........................................
a) Con muestras de 100 sujetos o menos ......................
b) Con muestras de ms de 100 sujetos .........................
10
128
131
132
133
134
134
135
137
138
139
140
NDICE
Pgs.
c) Cuando de los mismos sujetos tenemos varios coeficientes de correlacin .................................................

Los intervalos de confianza: magnitud de la correlacin en la
poblacin ..........................................................................................
Cmo valorar la magnitud de la correlacin ..................................
3.7.1. Orientaciones generales ....................................................
3.7.2. Sobre la interpretacin y utilidad de los coeficientes de
correlacin bajos ................................................................
3.7.3. Explicaciones posibles de coeficientes de correlacin muy
bajos ....................................................................................
a) Poca fiabilidad, o poca precisin, en los instrumentos de medicin ...................................................
b) Homogeneidad de la muestra ....................................
c) Instrumentos poco discriminantes ............................
150
151
151
Los coeficientes de correlacin cuando unimos o separamos submuestras ............................................................................................

Influjo en la correlacin de las puntuaciones extremas (outliers) ...
151
156
4. COEFICIENTES DE CORRELACIN CORREGIDOS .....................................................
158
3.6.
3.7.
3.8.
3.9.
4.1.
4.2.
4.3.
Correlacin y fiabilidad: los coeficientes de correlacin corregidos

por atenuacin ................................................................................
4.1.1. Frmula de correccin por atenuacin ............................
4.1.2. Cundo debe hacerse esta correccin por atenuacin ...
4.1.3. Otras estimaciones de la correlacin modificando la
fiabilidad .............................................................................
4.1.4. Relacin entre longitud del test y fiabilidad y longitud del
test y correlacin ................................................................
Los coeficientes de correlacin corregidos por restriccin de la
amplitud ...........................................................................................
Correccin de las correlaciones de una parte con el todo ..........
5. CORRELACIONES PARCIALES ...............................................................................

5.1.
5.2.
5.3.
141
142
146
146
147
150
159
159
160
162
163
164
166
168
Utilidad de las correlaciones parciales ............................................

Frmula de las correlaciones parciales de primer orden ..............
Cundo una correlacin parcial es estadsticamente significativa ...
168
168
170
6. CMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS .............
171
11

Pgs.
7. COEFICIENTES DE CORRELACIN MS IMPORTANTES .............................................

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
176
Coeficiente de correlacin r de Pearson .........................................

Coeficiente de correlacin biserial puntual ...................................
Coeficiente de correlacin biserial .................................................
Coeficiente de correlacin tetracrica ............................................
Coeficiente de correlacin rho (r) de Spearman ..........................
Coeficiente de correlacin tau (t) de Kendall ...............................
Coeficiente de correlacin phi (f) ..................................................
Coeficiente de correlacin phi (f) de Cramer ...............................
Coeficiente de Contingencia (C) .....................................................
Coeficiente eta (h) ...........................................................................
177
177
178
179
179
179
179
180
180
180
8. COEFICIENTE DE CORRELACIN: RESUMEN ..........................................................
180
Anexo I: Tablas de la correlacin ...............................................................

Anexo II: La correlacin en Internet .........................................................
183
184
CAPTULO 6. LA FIABILIDAD DE LOS TESTS Y ESCALAS ............................
187
1. CONCEPTOS PRELIMINARES BSICOS ....................................................................
187
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
1.7.
1.8.
Equivocidad del concepto de fiabilidad .........................................

Fiabilidad y precisin de la medida .................................................
Fiabilidad y margen de error en al medida ....................................
Fiabilidad y predictibilidad ..............................................................
Fiabilidad y validez ...........................................................................
Fiabilidad y validez: errores sistemticos y errores aleatorios ......
La fiabilidad no es una caracterstica de los instrumentos ............
Fiabilidad y diferencias: teora clsica de la fiabilidad ....................
187
188
188
188
189
189
190
191
2. ENFOQUES Y MTODOS EN EL CLCULO DE LA FIABILIDAD ....................................
191
2.1.
2.2.
2.3.
Mtodo: Test-retest ..........................................................................

Mtodo: Pruebas paralelas ...............................................................
Mtodo: Coeficientes de consistencia interna ...............................
3. LOS
COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FRMULA BSICA DE
191
192
193
.................................................................................................
193
4. REQUISITOS PARA UNA FIABILIDAD ALTA ..............................................................
196
5. L AS FRMULAS KUDER -RICHARDSON 20 Y a DE CRONBACH ...............................
201
6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD ...........
203
LA FIABILIDAD
12
NDICE
Pgs.
7. INTERPRETACIN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA .......................
204
8. CUNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO ....................
207
9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD ..................................................
208
9.1.
9.2.
Fiabilidad y unidimensionalidad: apoyo a la interpretacin unidimensional del rasgo medido ..........................................................

9.1.1. Una fiabilidad alta no es prueba inequvoca de que todos
los tems miden lo mismo: necesidad de controles conceptuales .............................................................................
9.1.2. Fiabilidad y nmero de tems ............................................
9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido ..
209
211
212
213
El error tpico de la medida .............................................................

9.2.1. Concepto y frmula del error tpico .................................
9.2.2. Las puntuaciones verdaderas ...........................................
9.2.3. Los intervalos de confianza de las puntuaciones individuales ..............................................................................
213
214
216
Los coeficientes de correlacin corregidos por atenuacin .........
218
10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO .....................................
219
9.3.
10.1.
10.2.
10.3.
10.4.
217
Inadecuada formulacin de los tems .............................................

Homogeneidad de la muestra .........................................................
Definicin compleja del rasgo medido ...........................................
Utilidad del error tpico cuando la fiabilidad es baja .....................
219
219
220
220
11. L A FIABILIDAD EN EXMENES Y PRUEBAS ESCOLARES ............................................
221
11.1. Fiabilidad y validez ...........................................................................

11.2. Fiabilidad y diferencias entre los sujetos ........................................
11.3. Fiabilidad y calificacin ....................................................................
221
222
223
12. FRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ................................
224
12.1. Frmulas basadas en la particin del test en dos mitades ............

12.1.1. Cmo dividir un test en dos mitades ................................
12.1.2. Frmulas .............................................................................
12.2. Frmulas de Kuder-Richardson y a de Cronbach ..........................
12.3. Frmulas que ponen en relacin la fiabilidad y el nmero de
tems ..................................................................................................
224
224
225
226
13
228

Pgs.
12.3.1. Cunto aumenta la fiabilidad al aumentar el nmero de

tems ....................................................................................
12.3.2. En cunto debemos aumentar el nmero de tems para
alcanzar una determinada fiabilidad .................................
12.4. Estimacin de la fiabilidad en una nueva muestra cuya varianza
conocemos a partir de la varianza y fiabilidad calculadas en otra
muestra .............................................................................................
229
229
230
13. RESUMEN: CONCEPTO BSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA ...

14. COMENTARIOS BIBLIOGRFICOS ........................................................................
231
233
CAPTULO 7. ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA

MEDIA ...............................................................................................................
237
1. INTRODUCCIN: ESTADSTICA DESCRIPTIVA Y ESTADSTICA INFERENCIAL: ESTADSTICOS

Y PARMETROS, POBLACIONES Y MUESTRAS ...........................................................
237
2. L AS DISTRIBUCIONES MUESTRALES Y EL ERROR TPICO ..........................................
238
3. EL ERROR TPICO DE LA MEDIA ..........................................................................
240
4. UTILIDAD DEL ERROR TPICO DE LA MEDIA ..........................................................
241
4.1.
4.2.
4.3.
4.4.
Establecer entre qu limites (intervalos de confianza) se encuentra la media (m) de la poblacin (establecer parmetros poblacionales) .................................................................................................
Establecer los intervalos de confianza de una proporcin ...........
Comparar la media de una muestra con la media de una poblacin ...............................................................................................
Calcular el tamao N de la muestra para extrapolar los resultados
a la poblacin ....................................................................................
242
245
247
249
Anexo: Los intervalos de confianza de la media y de las proporciones en

Internet .............................................................................................................
251
CAPTULO 8. EL CONTRASTE DE MEDIAS ....................................................
253
1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS

GRUPOS ..........................................................................................................
253
2. A QU PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS .....................
254
3. EL MODELO TERICO DEL CONTRASTE DE MEDIAS: L A DISTRIBUCIN MUESTRAL DE

DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIN ....................
256
14
NDICE
Pgs.
4. CMO
COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIN DE
...................................................
259
Modelo y frmula bsica ..................................................................

Hiptesis Nula e Hiptesis Alterna .................................................
1 Qu son las Hiptesis Nula y Alterna .....................................
2 Por qu distinguimos entre estos dos tipos de hiptesis
(nula y alterna) .......................................................................
Contrastes unilaterales y bilaterales ................................................
Esquema-resumen del proceso de verificacin de hiptesis ........
Interpretacin del significado de aceptar o no aceptar la hiptesis
nula: tipos de errores .......................................................................
4.5.1. Cuando no aceptamos la Hiptesis Nula .........................
4.5.2. Cuando aceptamos la Hiptesis Nula ...............................
4.5.3. Tipos de errores .................................................................
Observaciones sobre el contraste de medias: limitaciones y requisitos previos ................................................................................
4.6.1. Presupuestos tericos para poder utilizar el contraste de
medias .................................................................................
4.6.2. Es suficiente verificar si una diferencia es estadsticamente
significativa? ........................................................................
4.6.3. Cuando tenemos ms de dos muestras en el mismo planteamiento: anlisis de varianza ..........................................
Frmulas del contraste de medias ..................................................
4.7.1. Diferencia entre la media de una muestra y la media de
una poblacin .....................................................................
4.7.2. Diferencia entre dos medias de muestras independientes
(sujetos fsicamente distintos) ..........................................
1 Muestras grandes y de distinto tamao .....................
2 Muestras pequeas y de distinto tamao ..................
3 Diferencia entre dos medias de muestras independientes (grandes o pequeas) y de idntico tamao .....
4.7.3. Diferencia entre dos medias de muestras relacionadas
(comprobacin de un cambio) ........................................
Variables que influyen en el valor de t (z, Razn Crtica) ..............
259
261
261
DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
4.7.
4.8.
5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES) ..........................

6. ANLISIS
262
264
266
267
267
268
269
271
271
272
272
273
274
275
275
276
276
277
278
281
COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CMO CUANTIFICAR LA
MAGNITUD DE LA DIFERENCIA
............................................................................
15
282

Pgs.
6.1.
6.2.
6.3.
6.4.
Finalidad del tamao del efecto ......................................................

Procedimientos en el clculo del tamao del efecto .....................
6.2.1. El coeficiente de correlacin biserial puntual ................
6.2.2. Tamao del efecto (diferencia tipificada): .....................
6.2.2.1. Concepto y frmula general ...............................
6.2.2.2. Interpretacin del tamao del efecto (diferencia
tipificada) ............................................................
1 Comparacin de diferencias que provienen
de medidas obtenidas con instrumentos
distintos .........................................................
2 Sntesis cuantitativas de resultados que
provienen de estudios distintos ..................
3 Valoracin de la relevancia y significacin
prctica de las diferencias ...........................
4 El tamao del efecto cuando la diferencia
no es estadsticamente significativa .............
5 Tamao del efecto y tamao de la muestra ..
6.2.2.3. Frmulas del tamao del efecto: desviacin
tpica del denominador .......................................
1 Dos muestras independientes .....................
2 Dos muestras relacionadas (diferencia entre el
pre-test y el post-test de la misma muestra) ...
3 Diferencia entre las medias de un grupo
experimental y otro de control (diseo
experimental) sin pre-test ............................
4 Grupos experimental y de control cuando
los dos han tenido pre y post-test ...............
282
283
283
286
286
287
287
287
288
291
292
294
294
298
298
299
Transformaciones de unos valores en otros ...................................

Utilidad del tamao del efecto: resumen .......................................
299
301
ANEXO 1: Modelo del contraste de medias, resumen .....................................

ANEXO 2: Conceptos bsicos de estadstica inferencial ..................................
ANEXO 3: Tablas de la t de Student ...................................................................
Anexo 4: El contraste de medias en Internet .................................................
302
304
306
307
CAPTULO 9. ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI

CUADRADO (c2 ) LA DISTRIBUCIN BINOMIAL, EL CONTRASTE DE
PROPORCIONES ..............................................................................................
309
16
NDICE
Pgs.
1. PLANTEAMIENTO GENERAL ................................................................................
309
2. QU COMPROBAMOS MEDIANTE EL JI CUADRADO .................................................
312
3. FRECUENCIAS OBSERVADAS (O EMPRICAS) Y FRECUENCIAS TERICAS (O ESPERADAS) ..
314
4. CONDICIONES PARA UTILIZAR EL JI CUADRADO .....................................................
315
5. CLCULO DE LAS FRECUENCIAS TERICAS ...........................................................
316
a) Cuando tenemos un solo criterio de clasificacin dividido en varias

categoras ...............................................................................................
b) Cuando hay dos criterios de clasificacin (cuadros de doble entrada) ..
316
317
6. GRADOS DE LIBERTAD ......................................................................................
318
a) Cuando hay un solo criterio de clasificacin .......................................

b) Cuando hay dos criterios de clasificacin ..........................................
319
319
7. FRMULA GENERAL DEL JI CUADRADO .................................................................
319
8. MTODOS
APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN
................................................................................
320
Ji cuadrado ........................................................................................
Aplicacin de la distribucin binomial .........................................
8.2.1. Cuando N < 25 ..................................................................
8.2.2. Cuando N > 25 ..................................................................
8.2.3. La prueba de los signos: aplicacin de la distribucin binomial para comprobar cambios ......................................
321
322
322
322
DIVIDIDO EN DOS NIVELES
8.1.
8.2.
9. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN

dividido en ms de dos niveles (pruebas de bondad de ajuste) ...........
9.1.
9.2.
Cuando las frecuencias esperadas son las mismas ........................

Cuando las frecuencias esperadas son las de la distribucin
normal ..............................................................................................
10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIN CON DOS NIVELES CADA UNO .......
10.1. Tablas 2x2 para muestras independientes ......................................
10.1.1. Modelos de tablas 2x2: cmo clasificar a los sujetos .......
a) Sujetos clasificados segn dos grupos de pertenencia
o dos caractersticas personales .................................
17
324
326
326
327
328
328
328
328

Pgs.
b) Sujetos clasificados segn 1 grupo de pertenencia

y 2 respuestas a una pregunta ..................................
c) Prueba de la mediana ................................................
d) Un mismo grupo clasificado segn sus respuestas
a dos tems ..................................................................
10.1.2. Cmo analizar los datos .....................................................
1 Ji cuadrado ..................................................................
a) Planteamiento y frmulas .....................................
b) Observacin sobre la correccin de Yates y el
nmero de sujetos ................................................
c) Orientaciones prcticas para tablas 2x2 ...............
d) Ejemplo resuelto ...................................................
e) Clculo complementario: coeficiente de correlacin .........................................................................
2 Prueba exacta de Fisher ..............................................
3 Contraste entre proporciones (muestras independientes) ........................................................................
10.2. Tablas 2x2 para muestras relacionadas ...........................................
10.2.1. Procedimientos ..................................................................
a) Ji cuadrado (prueba de McNemar) ............................
b) Contraste entre proporciones relacionadas .............
10.2.2. Aplicaciones especficas .....................................................
a) Para comprobar cambios ............................................
b) Para comprobar una diferencia entre proporciones
relacionadas ................................................................
10.2.3. Adaptacin de la prueba de McNemar (muestras relacionadas) para tablas mayores (nxn) ....................................
329
330
331
332
333
333
333
334
335
335
336
336
337
337
337
338
338
338
339
340
11. DOS CRITERIOS DE CLASIFICACIN, CADA UNO DIVIDIDO EN DOS O MS NIVELES

(TABLAS NXN) .................................................................................................
341
12. COEFICIENTES DE RELACIN ASOCIADOS AL JI CUADRADO .....................................

a)
Coeficiente de contingencia ...........................................................
b)
Coeficienteo f ..................................................................................
c)
Coeficiente f de Cramer .................................................................
d)
Coeficiente T de Tschuprow ............................................................
344
345
345
346
346
13. VALORACIN DEL JI CUADRADO ..........................................................................
347
18
NDICE
Pgs.
ANEXO I: TABLAS DEL JI CUADRADO ..........................................................................
348
ANEXO II: JI CUADRADO Y ANLISIS AFINES EN INTERNET: JI CUADRADO, PRUEBA EXACTA

DE FISHER PRUEBA DE MCNEMAR, DISTRIBUCIN BINOMIAL, PRUEBA DE LOS SIGNOS ....
349
REFERENCIAS BIBLIOGRFICAS.....................................................................
351
Seleccin de direcciones de Internet con programas de anlisis estadsticos XII ....................................................................................................................
356
TABLAS DE DISTRIBUCIN NORMAL ...........................................................
359
19
INTRODUCCIN
Esta publicacin est pensada para un primer curso en carreras vinculadas

al campo de la educacin, de la psicologa y de la intervencin social, aunque
se trata de anlisis estadsticos comunes a otras muchas disciplinas; de hecho
algunas de las direcciones de Internet citadas (y utilizadas con frecuencia)
son de Facultades de Medicina. No se trata por lo tanto de cubrir todo el espectro temtico que cabra en un texto o curso completo de metodologa de
la investigacin sobre todo en Psicologa y Educacin. En cambio, y dada la
importancia que tienen los tests e instrumentos de medicin en general en la
prctica profesional de la Psicologa y de la Educacin, hay dos captulos ms
centrados en psicometra: uno corresponde a los tipos de puntuaciones y
confeccin de baremos o normas de interpretacin (cap. 4), y otro a la fiabilidad (cap. 6). El captulo sobre la fiabilidad de tests y escalas viene a continuacin del dedicado a la correlacin (cap. 5) dada la proximidad conceptual y
metodolgica entre ambos temas.
Los mtodos de anlisis estadstico y verificacin de hiptesis tratados son
bsicamente tres: los coeficientes de correlacin (cap. 5), el contraste de medias (cap. 8) y el ji cuadrado y mtodos afines (cap. 9); con estos anlisis se
pueden abordar ya muchas preguntas de investigacin. Al tratar sobre el contraste de medias damos especial importancia (y extensin) al denominado tamao del efecto para cuantificar de manera ms fcilmente interpretable la
diferencia entre dos medias; se trata de un punto importante (y sencillo) que
no lo vemos tratado en muchos textos.
Si la seleccin de contenidos es limitada y orientada a un curso bsico, el
tratamiento dado a algunos temas puede parecer excesivamente amplio para
un primer curso. Como profesor nunca he pretendido que mis alumnos supieran todo lo que en un principio fueron apuntes de clase, pero s que pudieran disponer de un texto de referencia para aclarar dudas, poder justificar
21
si llega el caso algunas frmulas y procedimientos de uso comn, ampliar algn punto de especial inters, ver qu ms se puede hacer con unos datos o
resultados de unos anlisis, y quizs sobre todo contar con una ayuda tanto
para escoger un procedimiento adecuado de anlisis como para interpretar
correctamente lo que con el paso del tiempo se va olvidando. Con esta finalidad hay apartados referidos directamente a la interpretacin de determinados resultados estadsticos; adems abundan en algunos captulos notas a pie
de pgina y se van citando autores que puede venir bien consultar en un momento dado, incluso para disponer de justificaciones y fuentes de autoridad a
las que poder acudir en algunos puntos controvertidos o que simplemente
pueden no estar tan claros. La terminologa y estilo se apartan con frecuencia
del lenguaje convencional de corte ms acadmico o se utilizan simultneamente expresiones equivalentes ms informales.
No hay en esta publicacin una distincin ntida entre estadstica descriptiva y estadstica inferencial aunque la estadstica inferencial se trata de manera ms formal a partir del captulo dedicado a los intervalos de confianza de la
media (cap. 7). Los conceptos bsicos se van repitiendo en diversos contextos sin dar por hecho que en cada momento se recuerda y entiende todo lo
visto en los captulos precedentes. Al tratar de la correlacin ya se introduce
la significacin estadstica de estos coeficientes, para no presentar por separado lo que lgicamente va unido cuando se hace un anlisis de este tipo o
cuando posteriormente es necesario repasarlo.
En varios captulos hay un anexo dedicado a programas de anlisis estadsticos de diverso tipo localizables en Internet y al final un listado de direcciones con ms recursos. Se trata en cada caso de una breve seleccin porque
estos programas son muy abundantes. Aunque hojas de clculo como EXCEL
son ya un recurso comn y programas informticos como el SPSS estn fcilmente disponibles (tampoco siempre y en todas las situaciones), son muchas
las instituciones, departamentos de Universidades y otras de diverso carcter,
que tienen en Internet programas de uso muy sencillo y que adems pueden
ser muy tiles en la misma clase con una finalidad meramente didctica. Para
muchos anlisis los programas de Internet pueden ser la opcin de clculo
ms cmoda. Estos programas suelen estar pensados para alumnos que trabajan en su casa o para profesionales no expertos; no suplen la versatilidad del
SPSS pero son indudablemente tiles. Como las fuentes de Internet son con
frecuencia inestables, procuramos dar ms de una direccin para cada tipo de
anlisis; adems a partir de las direcciones reseadas es fcil buscar otras.
El ndice general est hecho pretendidamente de manera muy detallada, con
muchos apartados y subapartados, para que de alguna manera cumpla la funcin de un ndice de materias y se pueda localizar con facilidad lo que interese.
PEDRO MORALES VALLEJO
22
CAPTULO 1
ORGANIZACIN DE LOS DATOS Y

REPRESENTACIONES GRFICAS
1. ORGANIZACIN DE LOS DATOS

Organizar los datos, e incluso hacer alguna representacin grfica como
las que iremos viendo, es muy importante porque:
a) Nos hacemos una idea preliminar de la situacin, nos da una visin de
conjunto muy til,
b) Se facilitan clculos posteriores, y, aunque los hagamos con un programa informtico, una buena sistematizacin de los datos puede sugerirnos posibles clculos y anlisis;
c) Se facilita la presentacin y comunicacin de todo tipo de resultados.
Tanto la distribucin de frecuencias (cuntos sujetos han obtenido cada
puntuacin) como las representaciones grficas que vamos a exponer (y muchas otras) las tenemos ya programadas en programas de ordenador y hojas
de clculo, pero aun as conviene saber cmo se hacen por varias razones:
a) No siempre tenemos todos los datos individuales introducidos en un
ordenador o en una hoja de clculo;
b) A veces partimos de una distribucin de frecuencias ya hecha previamente (o que encontramos publicada);
c) En cualquier caso es til ver paso a paso y entender cmo se hacen estas distribuciones de frecuencias y representaciones grficas.
23
1.1. La distribucin de frecuencias

El primer paso es siempre organizar la distribucin de frecuencias. La
frecuencia es el nmero de casos o sujetos que ha obtenido cada puntuacin. Para hacer esta distribucin ponemos en dos columnas la puntuacin
directa (X) y la frecuencia (f) o nmero de casos. En el ejemplo de la tabla 1
tenemos la distribucin de frecuencias de 40 sujetos que han respondido a
una escala de actitudes1.
Tabla 1.
X
77
76
75
74
73
72
71
70
69
68
67
66
65
64
63
62
61
60
59
58
f
|
|
|
||
|
||
||
|||
||
|||
||
|
|
||
57
56
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
1
0
1
1
2
1
0
2
0
2
0
0
3
2
3
2
1
1
2
0
f
|
|||
||
|
|
|
|
||
|
|
|
1
3
2
1
1
1
0
0
1
2
0
1
0
0
0
1
0
0
1
1
El nmero de intervalos se calcula por tanteo. El primer paso es calcular

el recorrido o amplitud que es igual a la puntuacin ms alta menos la
puntuacin ms baja ms uno.
Intuitivamente parece ms natural comenzar por arriba con la puntacin o intervalo mayor; en los programas informticos (EXCEL, SPSS) se comienza por defecto con la
puntuacin ms baja.
24
ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES GRFICAS
1.2. Agrupacin en intervalos

Cuando las posibles puntuaciones son muchas, podemos agruparlas en
intervalos para simplificar su presentacin e interpretacin. Los datos de la
tabla 1 estn sin agrupar. Podemos agruparlas de dos en dos, de tres en tres,
etc. Cada agrupacin se denomina un intervalo.
1.3. Nmero de intervalos
El criterio general es que no haya menos de 10 intervalos o agrupaciones,
porque con menos de 10 intervalos se pierde mucha informacin; adems algunos clculos posteriores se hacen tomando como dato el punto medio del
intervalo y resultan muy inexactos si los intervalos son muy pocos. Tampoco
es aconsejable que haya ms de 20 intervalos, porque se matiza ms de lo que
con frecuencia es necesario y los grficos resultantes pueden quedar poco
claros, sin resumir bien la informacin.
Sumamos una unidad a la diferencia entre las puntuaciones ms alta y ms
baja porque el recorrido o amplitud se calcula a partir de los lmites extremos; por esto sumamos .5 a la puntuacin ms alta y restamos .5 a la puntuacin ms baja: suponemos que la puntuacin mayor no es en este caso 77, sino
77.5, y que la ms baja no es 38, sino 37.5
Tabla 2.
(sobre la amplitud o recorrido tratareX
f
mos en el contexto de las medidas de dispersin).
75-77
||
2
En los datos de la tabla 1 la amplitud
72-74
||||
4
es 77.5 - 37.5 ( 77 - 38 + 1) = 40. Tene69-71
||
2
mos en principio 40 intervalos, que son
66-68
||
2
demasiados. Si agrupamos las puntua63-65
||||||||
8
ciones de dos en dos tendramos 20 in60-62
||||
4
tervalos, tambin demasiados quizs en
este caso, con slo 40 sujetos; si las
57-59
|||
3
agrupamos de tres en tres tenemos 14
54-56
||||||
6
intervalos, que es lo que hemos hecho
51-53
||
2
en la agrupacin que figura en la tabla 2.
48-50
|||
3
45-47
|
1
42-44
|
1
39-41
|
1
36-38
|
1
25
1.4. Valor del intervalo

El valor del intervalo (simbolizado por la letra i) es el nmero de puntuaciones que entran en cada intervalo (y que no hay que confundir con el nmero de intervalos).
En la tabla 1, el valor del intervalo es i = 1 (datos sin agrupar); en los datos
de la tabla 2 en cada intervalo hay tres puntuaciones, por lo que i = 3. El valor del intervalo se debe indicar siempre (como informacin y tambin porque entra en algunos clculos, como el de los percentiles por interpolacin,
como se ver en su lugar).
Es ms cmodo que el valor del intervalo (i) sea un nmero impar, porque
de esta manera el punto central del intervalo ser un nmero entero, sin decimales. Esto resulta ms cmodo porque el punto central del intervalo se utiliza
en operaciones hechas a partir de datos agrupados. De hecho no puede hablarse de ninguna norma o regla; los valores de i ms frecuentes son 2, 3, 5, 10 y 20.
Por otra parte el hacer clculos (como la media y otros) a partir de puntuaciones agrupadas y utilizando el punto medio del intervalo est menos justificado dada la facilidad de clculo que nos dan las calculadoras programadas y
los programas de ordenador. Estos clculos pueden hacerse siempre a partir
de las puntuaciones sin agrupar.
1.5. Cmo comenzar la agrupacin en intervalos
Para comenzar la agrupacin suele empezarse por las puntuaciones ms
bajas, las correspondientes al intervalo inferior. No se suele comenzar a partir
de la puntuacin ms baja de hecho, sino por la inmediatamente inferior que
sea mltiplo del valor del intervalo (i). Esta norma (que la puntuacin ms baja sea mltiplo del intervalo) responde a lo que suele proponerse y hacerse;
se trata de una convencin que no se sigue siempre.
En nuestro ejemplo (tabla 1) la puntuacin ms baja es 38, que no es mltiplo de 3 (en este caso i = 3, tabla 2), y tampoco lo es 37; por eso comenzamos a partir de 36, que s es mltiplo de 3 (36/3 = 12, nmero entero).
El ltimo intervalo, el superior, se completa hasta incluir tres puntuaciones (pues 3 es el valor de i en este caso). Como la puntuacin ms alta es 77,
no ha habido que aadir puntuaciones que de hecho nadie ha obtenido.
2. REPRESENTACIONES GRFICAS
A partir de la distribucin de frecuencias podemos hacer diversos tipos de representaciones grficas. Estas representaciones grficas son especialmente tiles:
26
a) Para disponer de una visin de conjunto que sin ms clculos nos permite hacernos una idea de la situacin, comparar de manera intuitiva
varios grupos, etc.
b) Para comunicar resultados de manera intuitiva y fcilmente comprensible.
La mera distribucin de frecuencias ya puede cumplir con estos propsitos, pero los distintos tipos de grficos son una ayuda importante.
Aqu nos limitamos a exponer tres de los tipos de representaciones grficas ms comunes, polgonos de frecuencias, histogramas y diagrama de cajas. Estas y otras representaciones grficas tambin se encuentran ya programadas en hojas de clculo como EXCEL.
2.1. Polgono de frecuencias
Es una representacin grfica sencilla y clara; en la figura I tenemos el
polgono de frecuencias hecho a partir de las frecuencias agrupadas de la
tabla 2
Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuencias o nmero de casos;
Eje horizontal (X, o eje de las abscisas): corresponde a las puntuaciones.
Para mayor claridad en la presentacin del grfico, el eje horizontal suele
ser un 50% ms largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X
(horizontal) medir 15 aproximadamente.
Pasos que seguimos para construir un polgono de frecuencias:
1 En el eje de las abscisas (horizontal) se sealan los puntos inferiores
de cada intervalo, aadiendo un intervalo ms en cada extremo para
mayor claridad.
En la figura I el primer punto sealado es el 33: es el punto inferior del
intervalo aadido al comienzo (intervalo 33-35), con una frecuencia de
0. En el extremo superior la ltima puntuacin sealada es 78, ya que
es el lmite inferior del intervalo siguiente (78-80), tambin con frecuencia 0.
Aadiendo dos intervalos extremos con frecuencia 0 se consigue que el
polgono llegue hasta la lnea horizontal de las abscisas; la figura queda
cerrada y clara; sta es la razn por la que se aade un intervalo ms
en cada extremo.
27
Fig. I
POLGONO DE FRECUENCIAS
7
6
Figura I
5
4
Y
X
X
3
2
X
X
1
0
X
X
33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78
X
2 Sobre el punto medio de cada intervalo sealamos la frecuencia, a la altura que corresponda del eje vertical de las ordenadas (que representa las frecuencias). Si unimos los puntos con lneas rectas, tenemos un
polgono de frecuencias, si los unimos con un trazo curvo, tendremos
una curva.
En la tabla 3 y figura II hemos reducido el nmero de intervalos, agrupando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo ms
bajo comienza con 35 (mltiplo de 5). Nos quedan 9 intervalos.
Tabla 3
X
i=5
X
75-79
70-74
65-69
60-64
f
||
||||||
|||||
|||||||||
55-59
50-54
45-49
40-44
35-39
2
6
5
9
28
f
||||||||
|||
||||
|
||
8
3
4
1
2
Fig. II
9
8
7
6
5
4
3
2
1
0
Figura II
X
X
X
X
X
X
X
30
35
40
45
50
55
60
65
70
75
80
85
Al reducir el nmero de intervalos el polgono queda simplificado y tiene

menos picos; la figura queda suavizada y tender a parecerse ms a la distribucin normal.
Es importante caer en la cuenta de que a menor nmero de intervalos se
pierde informacin aunque se puede ganar en claridad.
En la figura I hay dos picos centrales que sugieren una distribucin bimodal; y que han quedado reducidos a uno solo en la figura II. La figura queda
ms clara y suavizada. El hacer esto o no hacerlo (reducir el nmero de intervalos, simplificar la informacin) depender del tipo de informacin que se
quiere dar. Para dar una impresin grfica general, y sin pretender mucho matiz, es preferible en principio reducir el nmero de intervalos.
2.2. Polgono de frecuencias relativas
Los polgonos de frecuencias son especialmente tiles para comparar
grficamente dos o ms grupos. Los polgonos se superponen en el mismo
grfico y queda una representacin clara de los grupos.
Cuando los grupos son de distinto tamao, el incluir ms de un polgono de
frecuencias en el mismo grfico se presta a confusin. En este caso, para comparar grficamente dos o ms grupos, lo correcto no es utilizar frecuencias absolutas (el simple nmero de sujetos que hay en cada intervalo) sino frecuencias relativas: el tanto por ciento de sujetos que hay en cada intervalo. Estos tantos por
ciento son las frecuencias relativas. El clculo de las frecuencias relativas es muy
sencillo: el nmero de sujetos (o frecuencia, f) de cada intervalo se divide por el
nmero total de sujetos (N) y se multiplica por cien:
29
100f
frecuencias relativas (%) =
N
En la tabla 4 y figura III tenemos un ejemplo de dos polgonos de frecuencias relativas de dos grupos con distinto nmero de sujetos.
Tabla 4
X
i=6
grupo A
%
1
2
4
5
3
75-79
69-74
63-68
57-62
51-56
45-50
39-44
7
13
27
33
20
grupo B
%
1
6
5
2
4
2
N = 15
5
30
25
10
20
10
N = 20
Figura III.
POLGONOS DE FRECUENCIAS RELATIVAS DE DOS GRUPOS CON DISTINTO NMERO DE SUJETOS
40%
35%
Grupo A
30%
25%
20%
15%
10%
5%
0%
35.5
42.5
47.5
53.5 59.5 65.5 71.5 77.5

Punto medio de cada intervalo
30
82.5
El utilizar frecuencia relativas (tanto por ciento de sujetos en cada intervalo)

permite hacer grficos comparativos cuando los grupos tienen un nmero distinto de sujetos (comparamos tantos por ciento, no nmeros absolutos).
2.3. Histograma
Otra representacin grfica sencilla y de frecuente uso es el histograma. En
el histograma cada intervalo de frecuencias est representado por una barra.
Cmo hacer un histograma puede verse fcilmente en la figura IV, donde
aparece un histograma hecho a partir de los mismos datos de la tabla 3.
En el eje de las abscisas (la base horizontal) se sealan los valores
inferiores de cada intervalo.
En el eje de ordenadas (eje vertical) se sealan las frecuencias o
nmero de casos.
En el histograma de la figura IV se ha superpuesto un polgono de frecuencias para facilitar la comparacin y ver las diferencias entre el histograma
y el polgono de frecuencias.
Figura IV
HISTOGRAMA CON POLGONO DE FRECUENCIAS SUPERPUESTO
9
8
7
Figura IV
6
5
4
3
2
1
0
30
35
40
45
50
55
31
60
65
70
75
80
85
2.4. Diagrama de cajas

Para construir un diagrama de cajas se toman como referencia las puntuaciones que dividen al grupo en cuatro partes iguales en nmero de sujetos;
un 25 % en cada parte. En la figura V tenemos las puntuaciones de corte para dividir al grupo.
Figura V
Puntuacin ms alta
25%
Percentil 75 (Q3)
25%
Mediana (Percentil 50)
25%
Percentil 25 (Q1)
25%
Puntuacin ms baja
La figura V no es un diagrama de cajas, simplemente nos dice qu puntuaciones debemos calcular para hacer el diagrama. La mediana (o percentil 50)
divide al grupo en dos mitades con idntico nmero de sujetos, entre el percentil 75 (o cuartil 3, Q3) y la puntuacin ms alta tenemos un 25 % de sujetos y entre el percentil 25 (o cuartil 2, Q2) y la puntuacin ms baja tenemos
otro 25 %. Los percentiles y su clculo se entendern mejor al ver los distintos
tipos de puntuaciones, pero el concepto de percentil (tanto por ciento de sujetos que caen debajo de una puntuacin) se capta con facilidad.
En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del
grupo en trminos de puntuaciones directas (columna de la izquierda).
Estos diagramas de cajas son especialmente tiles para hacer una comparacin visual en dos tipos de situaciones:
a) Cuando tenemos dos o ms grupos medidos en la misma variable; ste
es probablemente el caso ms frecuente.
32
En la figura VI tenemos el grfico que corresponde a tres grupos de

alumnos universitarios (Psicologa, N = 65; Derecho, N = 65; Ingeniera N = 69) medidos con una escala de autoeficacia acadmica. La lnea que divide el recuadro corresponde a la mediana. De un golpe de
vista vemos dnde estn las puntuaciones ms altas y ms bajas y encerrado en un recuadro dnde se sita el 50% central del grupo (entre
los percentiles 75 y 25). La lnea doble dentro del recuadro indica dnde est la mediana, que divide al grupo en dos mitades iguales.
Figura VI
Psic.
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
Derch.
Ing.
Puntaje
ms alto
25%
Percentil
75
50%
25%
Mediana
Percentil
25
Puntaje
ms bajo
b) Cuando tenemos un mismo grupo medido en varias variables, como

sucede en el ejemplo de la figura VII. Cada variable est medida por un
idntico nmero de tems, por lo que son comparables las puntuaciones absolutas de cada subescala.
En la figura VII tenemos el grfico correspondiente a un nico grupo
de 283 sujetos que han respondido a un sencillo test que mide cinco
variables propias del Anlisis Transaccional. Cada variable est medida por ocho tems con respuestas de 1 (nada) a 6 (mucho), por lo que
las puntuaciones mxima y mnima posibles son 48 y 8.
33
Figura VII
Psic.
55
54
53
52
51
50
49
48
47
46
45
44
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
Derch.
Ing.
Puntaje
ms alto
25%
Percentil
75
50%
25%
Mediana
Percentil
25
Puntaje
ms bajo
De un golpe de vista vemos que en Padre Nutricio el 50% central est concentrado en unas pocas puntuaciones (aproximadamente entre 35 y 40) y
que son adems las ms altas en trminos comparativos. Vemos tambin que
el lmite inferior del 50% central en Adulto coincide con el lmite superior del
50% central en Padre Punitivo (entre 28 y 29), etc.
34
CAPTULO 2
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA

CENTRAL Y DE DISPERSIN
1. MEDIDAS DE TENDENCIA CENTRAL

1.1. La media aritmtica
Todos estamos familiarizados con la media aritmtica como valor representativo de un conjunto de puntuaciones; con frecuencia describimos un
grupo de manera sinttica diciendo cul es su media; si estamos hablando de
una clase no es lo mismo decir esta clase tiene una media de 7, que decir en
esta clase la media es 5
La frmula de la media no necesita demostracin porque expresa el mismo concepto de media: cunto correspondera a cada sujeto (u objeto) si todos tuvieran el mismo valor: sumamos todos los valores y dividimos esta suma por el nmero de sujetos.
X
Media aritmtica: X=
[1]
N
El smbolo habitual de la media es el mismo utilizado en las puntuaciones
directas (generalmente una X mayscula) con una raya horizontal encima
(pero tambin se utilizan otros smbolos como la letra M).
De la media podemos enunciar dos propiedades que tambin nos podran
servir para definirla.
a) Si a cada sujeto le calculamos su diferencia con respecto a la media (XX), la suma de estas diferencias es igual a cero: la suma de las diferencias positivas es igual a la suma de las diferencias negativas.
35
b) Si estas diferencias con respecto a la media las elevamos al cuadrado (y

todas sern positivas) y las sumamos, esta suma ser menor que la suma de las diferencias, tambin elevadas al cuadrado, con respecto a
cualquier otro valor distinto de la media.
Esta propiedad de la media nos permite definirla como el valor central
que hace que la suma de los cuadrados de las desviaciones con respecto a
este valor sea el mnimo posible. El mtodo de localizar la media buscando el
valor mnimo de la suma de cuadrados (de las diferencias con respecto a la
media elevadas al cuadrado) recibe el nombre de mtodo de los cuadrados
mnimos; no tiene especial importancia ahora, pero s lo tiene en otras aplicaciones de la estadstica (como en la recta de regresin) y es til estar ya familiarizados con este trmino.
1.2. La mediana
La mediana es el valor que divide las frecuencias en dos mitades iguales:
por encima de la mediana y por debajo de la mediana encontramos el mismo
nmero de sujetos.
La mediana es otro valor de tendencia central muy til. La mediana podemos buscarla, al menos de manera aproximada, por simple inspeccin de los
datos en una distribucin de frecuencias; el clculo preciso lo veremos en el
contexto de los percentiles (la mediana corresponde al percentil 50: el valor
que deja por debajo a la mitad de la muestra).
1.3. La moda
La moda es simplemente la puntuacin que tiene una mayor frecuencia
(donde encontramos un mayor nmero de casos).
Como medida de tendencia central es muy poco rigurosa. Adems podemos
encontrarnos con que puede haber ms de una puntuacin con idntico nmero de casos, o al menos dos o ms puntuaciones con una frecuencia que superan notablemente al resto de los valores de la distribucin (y por eso hablamos
de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polgono de frecuencias, nos encontraremos con dos o ms picos pronunciados).
1.4. Comparacin de las medidas de tendencia central
Los conceptos de media, mediana y moda son sencillos; lo que ms nos
interesa ahora es apreciar sus diferencias y caractersticas; sobre todo nos interesa comparar la media y la mediana.
36
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN
1. Cuando la distribucin no es normal (no es simtrica) y hay ms sujetos

por encima o por debajo de la media, la mediana es arrastrada hacia la zona de
la distribucin donde hay un mayor nmero de sujetos (ejemplos en la tabla 1).
Tabla 1
M o d a = 2 (puntuacin con mayor nmero de casos
Moda = 7
M e d i a n a = 2.5 (idntico nmero de

sujetos por encima y por debajo
M e d i a = 4.5
M e d i a n a = 5.5
M e d i a = 3.42
Cuando hay ms sujetos por debajo de la media que por

encima (como en este ejemplo, 8 por debajo y 4 por
encima) la mediana es menor que la media
Cuando hay menos sujetos por debajo de la media que

por encima (como en este ejemplo, 5 por debajo y 7 por
encima) la mediana es mayor que la media
Cuando la mediana es distinta de la media (la distribucin no es simtrica,

est sesgada hacia un lado de la distribucin), el valor de la mediana nos indica el sesgo de la distribucin: si la mediana es mayor que la media, hay ms sujetos en la parta alta de la distribucin, y si la mediana es menor que la media,
hay ms sujetos en la parte baja de la distribucin. Precisamente en esta diferencia entre la media y la mediana se basan algunas medidas de asimetra de
la distribucin.
2. La mediana no se ve afectada por las puntuaciones extremas de la
distribucin.
Esta caracterstica de la mediana es la que hay que tener en cuenta para valorar cundo nos puede interesar ms la mediana que la media (o adems de
la media) como medida de tendencia central.
Lo vemos fcilmente en estos dos ejemplos ficticios (tabla 2):
Tabla 2
Caso 1
6
5
4
3
2
1
Caso 2
|||||||||| (10) La mediana es 5,5; es la

|||||
(5) puntuacin que divide a
la nuestra en dos
|||||
(5)
mitades iguales (10
sujetos por encima y 10
sujetos por debajo); la
media es 5.25
6
5
4
3
|||||||||| (10) La mediana sigue

|||||
(5) siendo 5,5 (10 sujetos
por encima y 10 sujetos
por debajo), aunque la
media baja a 4,5
2
1
37
|||||
(5)
Nos interesar utilizar la mediana cuando creamos que los sujetos con
puntuaciones extremas desvirtan la media en cuanto medida representativa de dnde est un grupo; las puntuaciones muy extremas (y que pueden ser atpicas) influyen en la media (en el clculo de la media entran todas las puntuaciones), pero no en la mediana. ste puede ser el caso de los
tems de evaluacin del profesorado; un pequeo nmero de alumnos poco representativos puede sesgar la media en una direccin (positiva o negativa) que no refleja el sentir o la opinin claramente mayoritaria de un grupo. En cualquier caso siempre es posible aportar ambos datos, la media y la
mediana.
La moda (en los dos casos de la tabla 2 corresponde a la puntuacin 6)
tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa
de inters a la media suele ser la mediana, no la moda.
En general nos interesar la mediana en vez de la media cuando los datos
sean claramente ordinales y siempre que interese no tener en cuenta puntuaciones muy extremas. La mediana es el valor utilizado en algunos anlisis especficos1.
3. La media se presta a muchos ms anlisis estadsticos de inters.
Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre
las otras medidas de tendencia central, y es la que utilizaremos rutinariamente; adems en el clculo de la media se utiliza toda la informacin
disponible.
Esta razn tiene ms peso en estadstica inferencial, cuando pretendemos inferir la media de una poblacin (al menos ver entre qu limites probables se encuentra) a partir de los datos de una muestra; con este planteamiento (y en otros semejantes) solemos utilizar la media; con un propsito
meramente descriptivo utilizaremos la medida que ms nos convenga (o ms
de una).
4. En la distribucin normal coinciden los valores de la media, la mediana y la moda.
En los ejemplos puestos hasta ahora, la media, la mediana y la moda tienen valores distintos; cuando la distribucin es normal (simtrica, acampanada) los tres valores de tendencia central son idnticos: la media es tambin
el valor con un mayor nmero de sujetos y divide a la muestra en dos mitades
iguales, como podemos ver en la distribucin de frecuencias de la tabla 3
1
La mediana se utiliza en el anlisis de tems en las escalas de Thurstone y para determinar las puntuaciones de corte (apto/no apto) cuando varios jueces examinan los
tems de una prueba objetiva (mtodos de Angoff y Nedelsky); en ambos casos se pretende prescindir de los juicios extremos; son temas que no tratamos aqu pero que ejemplifican la utilidad de la mediana.
38
Tabla 3
9
8
7
6
5
4
3
2
1
|
|||
||||
||||||||
|||||||||| 5 =
||||||||
||||
|||
|
media
mediana
moda
Como veremos a continuacin, cada medida de tendencia central se utiliza

junto con otra medida de dispersin o de variabilidad, que completa el tipo
de informacin o resumen aportado por estas medidas de tendencia central.
2. MEDIDAS DE DISPERSIN: SU UTILIDAD

Todos estamos familiarizados con las medidas de tendencia central, como
lo es la media aritmtica. Es muy normal describir grupos o resultados calculando la media. Hemos visto otras medidas de tendencia central, como son la
mediana (la puntuacin que divide al grupo en dos mitades iguales) y la moda o puntuacin ms frecuente. Sin embargo la medida ms utilizada como
dato descriptivo que resume dnde est un grupo es la media aritmtica.
La limitacin de la media aritmtica (y de otras medidas semejantes) como
dato que describe adecuadamente los resultados obtenidos en un grupo, podemos verlo con un sencillo ejemplo.
Imaginemos que a dos clases (de cuatro alumnos cada una, para simplificar el ejemplo) les ponemos un examen de 20 preguntas objetivas. Cada pregunta puede estar bien (y vale 1) o mal (y vale 0). Obtenemos los resultados
puestos en la tabla 4 y vemos que los dos grupos tienen idntica media.
Tabla 4
Grupo A
Grupo B
20
20
0
0
10
10
10
10
media = 10
media = 10
39
Podemos decir que se trata de dos grupos muy parecidos porque tienen la misma media? No, son grupos muy distintos. El grupo A es muy heterogneo, en este grupo A se puede decir que hay dos subgrupos muy diferenciados; el grupo B en cambio es muy homogneo, todos tienen
idntica puntuacin.
Las medidas de dispersin complementan la informacin que nos da
tanto la media (aqu vamos a poner el nfasis por ser la medida ms til y
utilizada) como la mediana o la moda; estas medidas de dispersin expresan en qu grado los grupos son ms bien homogneos, con los sujetos
muy parecidos unos a otros (como en el grupo B), o ms bien se trata de
grupos heterogneos, con mayores diferencias entre los sujetos (como en
el grupo A). La medida de dispersin ms til y utilizada es la desviacin tpica, que se utiliza siempre que se calcula la media como la medida de tendencia central.
Las medidas de dispersin que vamos a ver son las siguientes:
a) En relacin con la media:
1. La desviacin media, que se utiliza poco pero es sencilla y nos sirve de introduccin para la desviacin tpica.
2. La desviacin tpica y la varianza (que es la desviacin tpica elevada al cuadrado), que son las ms importantes;
3. El coeficiente de variacin, que se calcula a partir de la media y de
la desviacin tpica, y que tiene su utilidad especfica en determinadas situaciones.
b) En relacin con la mediana
La desviacin semi-intercuartlica, que expresa la dispersin o heterogeneidad en el 50% central del grupo (y en la que, lo mismo que la
mediana, se prescinde de las puntuaciones extremas).
c) En relacin con la moda:
La amplitud o recorrido, de menor importancia que las otras medidas
de dispersin.
2.1. La desviacin media
La medida de dispersin ms sencilla y fcil de comprender es la desviacin media; aunque apenas se utiliza es til comprender el significado de la
desviacin media como punto de partida sobre todo para entender la desviacin tpica, que es la medida de dispersin ms utilizada. La desviacin media la entenderemos fcilmente comparando las dos representaciones puestas la figura 1.
40
Fig. 1
media = 5
Grupo A
d = -2
media = 5
Grupo B
d = -2
d = -3
d = -1 d = -1
d = +3
d = -2 d = +2
Diferencia media con respecto a la media grupal = 1.5
Diferencia media con respecto a la media grupal = 2 .5
1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos.

Las puntuaciones del grupo A son 3, 4, 6 y 7.
Las puntuaciones del grupo B son 2, 3, 7 y 8.
2. Ambos grupos tienen idntica media, X= 5
3. Cada sujeto tiene una desviacin (d) con respecto a la media (X) de su
grupo: unos porque no llegan a la media y otros porque se pasan y tienen una puntuacin superior a la media. Si un sujeto tuviera una puntuacin idntica a la media, su desviacin valdra d = 0, pero sigue
siendo vlido el concepto de desviacin con respecto a la media (cero en este caso).
4. Si dentro de cada grupo sumamos las desviaciones individuales (en valores absolutos, prescindiendo del signo) y dividimos esta suma por el
nmero de sujetos, tendremos la desviacin media del grupo (d)
|2+1+1+2|
Desviacin media del grupo A == 1.5
4
|3+2+2+3|
Desviacin media del grupo B == 2.5
4
5. Aunque ambos grupos tienen idntica media, son grupos muy distintos. A simple vista se observa que el grupo A es ms homogneo que el
grupo B; en el grupo B los sujetos se apartan ms de la media. Aunque
los dos grupos tienen idntica media, la dispersin del grupo B es ma-
41
yor que la dispersin del grupo A (o, lo que es lo mismo, el grupo A es

ms homogneo que el grupo B). Consecuentemente el grupo A tiene
una desviacin media ms pequea.
La desviacin media nos indica por lo tanto el grado de dispersin,
de homogeneidad, de parecido de unos sujetos a otros. Una misma
media de 5 puede proceder de un grupo en el que todos tienen un 5
(dispersin = 0, grupo muy homogneo, todos los sujetos son iguales), y una media de 5 tambin puede proceder de un grupo en el
que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una
misma media puede corresponder a grupos muy distintos y dar por
lo tanto una informacin descriptiva incompleta que se presta a conclusiones falsas o equvocas (por ejemplo, una renta media per capita muy elevada es compatible con importantes bolsas de pobreza en
la poblacin).
2.2. La desviacin tpica y la varianza
2.2.1. La desviacin tpica
1. En la prctica, y como medida de dispersin, no se usa la desviacin
media (aunque inicialmente se entiende con mayor facilidad) sino preferentemente la desviacin tpica, que es otra medida que indica igualmente el grado de dispersin o de heterogeneidad de las puntuaciones individuales.
2. Para calcular la desviacin tpica las desviaciones individuales se elevan
al cuadrado antes de sumarlas (y con esta operacin desaparecen los signos
negativos), y despus de dividir esta suma por el nmero de sujetos, se extrae
la raz cuadrada. El smbolo habitual de la desviacin tpica es la letra ese griega minscula (sigma: s; tambin es comn denominar la desviacin tpica
por el nombre del smbolo, sigma, o desviacin estndar, del ingls standard deviation).2
2
Sobre el smbolo de la desviacin tpica hacemos una observacin para evitar confusiones. Aqu utilizamos siempre la letra ese griega minscula (s) como smbolo de la
desviacin tpica de la muestra, que es la que vamos a utilizar habitualmente, incluso es
frecuente designar a la desviacin tpica por el nombre del smbolo (sigma). Aunque no
hay una prctica uniforme, s conviene advertir que tambin es frecuente utilizar este smbolo (s) para expresar la desviacin tpica estimada de la poblacin (N-1 en el denominador), y reservar la letra s, ese latina, para expresar la desviacin tpica de la muestra (N en
el denominador). En algunas calculadoras se distinguen bien los dos smbolos con subndices: sn y sn-1. En el programa EXCEL la desviacin tpica de la muestra (dividiendo por N)
se denomina desvestp y la desviacin tpica de la poblacin (dividiendo por N-1) se denomina desvest.
42
Frmulas
Distinguimos dos frmulas segn se trate de la desviacin tpica de la
muestra o de una estimacin de la desviacin tpica de la poblacin representada por esa muestra.
1 Cuando se trata de la desviacin tpica que describe la dispersin de
una muestra (que es lo que hacemos normalmente) utilizamos la frmula [3]:
[3]
s = desviacin tpica de la muestra

S = sumatorio, suma de (letra ese griega
mayscula)
X = cada una de las puntuaciones individuales (X mayscula),
X = media aritmtica
N = nmero de sujetos
La frmula de la desviacin tpica tambin suele expresarse as:

(d = desviaciones con respecto a la media) o tambin
La letra x (equis minscula) es un smbolo habitual de la puntuacin diferencial de cada sujeto, que es simplemente la desviacin o diferencia de cada sujeto con respecto a la media, d = x = X
2 Cuando se trata de la estimacin de la desviacin tpica de la poblacin representada por una muestra se utiliza la frmula [4].
[4]
La frmula es casi idntica; dividimos por N-1 (en

vez de por N) con lo que el valor de la desviacin
tpica ser algo mayor.
En este caso se trata de la estimacin de la desviacin tpica de una poblacin calculada a partir de los datos de una muestra. Al dividir por N-1 (y disminuir el denominador) aumenta el cociente: la desviacin tpica de una poblacin suele ser mayor que la desviacin tpica de una muestra, porque al
aumentar el nmero de sujetos es ms probable que haya sujetos con puntuaciones muy extremas (o muy altas o muy bajas) y consecuentemente aumenta-
43
r la desviacin tpica. Con nmeros grandes apenas hay diferencia (a efectos

prcticos da lo mismo dividir por 100 que dividir por 99), pero con nmeros
muy pequeos la diferencia puede ser importante3.
De la frmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y viceversa se pasa con facilidad. La desviacin tpica [3] la simbolizamos ahora como sn y la desviacin tpica de la frmula [4] la simbolizamos como sn-1 para
evitar confusiones.
El paso de [3] a [4] se capta con facilidad. Si despejamos S(X - X)2 en la
y substituyendo S(X - X)2 por
frmula [3] tenemos que

en la frmula [4] tendremos que:
[5] y de manera anloga tenemos que
[6]
Podemos ver estas transformaciones en un sencillo ejemplo:

Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones
son: sn = 2.494
sn-1 = 3.055
sn a partir de sn-1:
sn-1 a partir de sn
De estas frmulas es de especial utilidad la [6] porque algunos programas
de ordenador dan rutinariamente la desviacin tpica de la poblacin (sn-1)
cuando la que con frecuencia interesa es la desviacin tpica que describe la
dispersin de la muestra (sn).
2.2.2. La varianza
1. La varianza es simplemente la desviacin tpica elevada al cuadrado:
3
En EXCEL (herramientas) en anlisis de datos (estadstica descriptiva) calcula la
desviacin tpica de la poblacin (dividiendo por N-1) lo mismo que en el SPSS (por defecto).
44
Ya hemos visto que el numerador de la varianza (la suma de las desviaciones individuales elevadas previamente al cuadrado) puede expresarse as:
De esta manera se simplifican bastante algunas operaciones del anlisis

de varianza que no vemos en este momento. Este numerador de la varianza
se denomina tambin suma de cuadrados.
2. La varianza se interpreta de la misma manera que la desviacin tpica:
cuantifica la dispersin de una serie de puntuaciones. La interpretacin de la
desviacin tpica y de la varianza es la misma, aunque obviamente las magnitudes sern distintas.
La varianza es mayor que la desviacin tpica cuando la desviacin tpica
es > 1,
La varianza es menor que la desviacin tpica cuando la desviacin tpica es
<1
Como dato descriptivo es ms frecuente el uso de la desviacin tpica que
el de la varianza (aunque se utilizan los dos).
2.2.3. Ventajas de la desviacin tpica y de la varianza como
medidas de dispersin
La razn de utilizar la desviacin tpica (o la varianza) en vez de la desviacin media (u otras medidas de dispersin como son la amplitud o la desviacin semi-intercuartlica) son varias:
1. El clculo de la desviacin tpica se basa en todas las puntuaciones.
Otras medidas de dispersin, como la amplitud y la desviacin
semi-intercuartlica, utilizan menos datos y dicen menos,
aportan una informacin ms limitada. La amplitud (o recorrido) se basa solamente en las dos puntuaciones extremas y la
desviacin semi-intercuartlica (Q) expresa la dispersin en el
50% central del grupo. Estas medidas de dispersin tambin tienen su utilidad, pero la medida que en principio es preferible
utilizar la desviacin tpica.
La desviacin tpica y la varianza tienen mucha estabilidad, al menos
en trminos comparativos, cuando la utilizamos para estimar la variabilidad de una poblacin; cuando se calcula en varias muestras aleatorias
vara relativamente poco.
2. De la relacin existente entre la desviacin tpica y la distribucin normal se derivan numerosas aplicaciones muy tiles: si conocemos en
cuntas desviaciones tpicas se aparta un sujeto de la media, conoce-
45
mos las probabilidades de que se d por azar esa puntuacin; as podemos detectar qu resultados, por ser muy altos o muy bajos, son muy
improbables por azar. Este clculo de probabilidades es especialmente til en estadstica inferencial, ya ms en planteamientos de investigacin. Estos puntos se tratan en extensin en el lugar apropiado, al tratar ms adelante de la distribucin normal.
3. La desviacin tpica y la varianza se calculan con facilidad con sencillas
calculadoras con programacin estadstica y en los programas informticos como EXCEL.
Existen adems varios mtodos simplificados para calcular la desviacin tpica, pero estos mtodos slo dan aproximaciones y dada la facilidad con que pueden utilizarse las calculadoras y programas de ordenador, estos mtodos son ya menos tiles y justificables.
2.2.4. Propiedades de la desviacin tpica y de la varianza
La desviacin tpica y la varianza tienen adems propiedades matemticas
que las hacen ms tiles.
1. Si a las puntuaciones directas les sumamos una constante, la desviacin
tpica y la varianza no varan. Esto es obvio porque no varan las distancias inter-individuales.
Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.).
Tabla 5
media
desviacin tpica
Caso A
Caso B
(= A+2)
1
5
9
5
3.266
3
7
11
7
3.266
En el caso B hemos sumado dos puntos a cada sujeto del caso A; las medias son distintas (sube en dos puntos en el caso B), pero la desviacin tpica
es la misma porque las diferencias interindividuales son las mismas.
2. Si multiplicamos las puntuaciones directas por una constante, la desviacin tpica queda multiplicada por esa misma constante y la varianza queda
multiplicada por el cuadrado de esa constante.
Lo vemos tambin con un ejemplo: las puntuaciones del caso A las multiplicamos por 2 (tabla 6).
46
Tabla 6
media
desviacin tpica
varianza
Caso A
Caso B
(= A x 2)
1
5
9
5
3.266
10.67
2
10
18
10
6.53 ( = 3.266 x 2)
42.67 ( = 10.67 x 22)
3. La varianza en particular tiene una propiedad que la hace sumamente

til en algunos anlisis: la varianza se puede descomponer segn diversos orgenes de la variacin. Estas aplicaciones se ven en las tcnicas de anlisis de
varianza.
2.2.5. Usos e interpretaciones de la desviacin tpica
1. En principio, y como ya hemos visto, la desviacin tpica describe el grado de homogeneidad de los datos: ser ms baja en la medida en que los datos estn ms prximos a la media, aumentar si hay puntuaciones extremas
muy alejadas de la media, etc. Como dato puramente descriptivo suele utilizarse la desviacin tpica con preferencia a la varianza (que tambin puede
utilizarse).
La media y la desviacin tpica aportan datos descriptivos complementarios. Si se trata de datos escolares (y lo mismo con otros tipos de datos) permiten hacer diagnsticos rpidos de un grupo. Media baja y desviacin tpica
pequea: examen difcil para todos, o el profesor califica muy bajo a todos,
etc.; media baja y desviacin tpica grande puede indicar que hay un subgrupo demasiado bajo, etc.; se trata al menos de pistas razonables, pues para hacerse una idea ms cabal de la situacin habr que inspeccionar los datos (la
distribucin de frecuencias).
2. Al valorar e interpretar la desviacin tpica hay que tener en cuanta de
dnde vienen los datos: no es lo mismo el nmero respuestas correctas en
un examen que calificaciones puestas por un profesor. Ms en concreto es
interesante pensar por qu podemos encontrar desviaciones pequeas donde cabra esperar que fueran mayores.
As una desviacin tpica muy pequea puede indicar:
a) El grupo (el conjunto de datos) es muy homogneo, todos los sujetos
(u objetos) se parecen mucho entre s. En un test de inteligencia pues-
47
to a una muestra de sujetos muy inteligentes tendremos una desviacin tpica ms pequea que la que podemos encontrar en una muestra normal, donde hay de todo.
sta es la interpretacin en principio ms obvia porque es lo que expresa directamente la desviacin tpica, pero, sobre todo cuando tenemos una desviacin mucho menor de lo esperado o de lo que es usual
encontrar en otras situaciones, cabe siempre el buscar alguna explicacin, como indicamos en los apartados siguientes.
b) Los sujetos pueden ser potencialmente muy distintos, pero pueden
tambin estar igualados por la facilidad o dificultad de la prueba
(examen, test, etc.). El test o instrumento, del tipo que sea, puede ser
poco discriminante y consecuentemente no detecta diferencias que
de hecho hay. El grupo puede ser muy homogneo pero slo tal como
lo mide un instrumento determinado. Por ejemplo, no es lo mismo poner como respuestas de un cuestionario s o no (a lo mejor todos responden s) que poner s, ms bien s, ms bien no y no: puede suceder que los que responden s (si slo pueden escoger entre s y no) se
dividan entre el s y el ms bien s.
De manera semejante una desviacin tpica muy pequea en un test de
conocimientos puede indicar no que el grupo es realmente muy homogneo (sujetos muy iguales) sino que el examen es muy fcil (todos
o casi todos saben todo) o muy difcil (casi nadie sabe nada): puede
haber diferencias en esos conocimientos que no se detectan con ese
test; el grupo es ms heterogneo de lo que manifiesta esa desviacin
tpica pequea.
c) Si se trata de calificaciones, una desviacin tpica pequea puede indicar que el profesor matiza poco, pone notas muy iguales.
En general una desviacin tpica pequea puede indicar que el procedimiento o instrumento utilizado para recoger los datos no recoge suficientemente diferencias que de hecho existen. El no detectar diferencias repercute por otra parte en otros anlisis estadsticos (por ejemplo
en el clculo de coeficientes de correlacin: no se detectan relaciones
si no hay diferencias claras entre los sujetos).
3. No hay un valor ideal de la desviacin tpica que pueda servir de referencia; cundo es grande o pequea se aprecia comparando unas con otras.
Dos desviaciones tpicas pueden compararse entre s directamente (lo mismo
que dos varianzas) si provienen de datos comparables (unidades comparables, la misma escala mtrica).
En ocasiones puede ser de utilidad conocer cul es el valor mximo posible de la desviacin tpica; este valor mximo posible es igual a:
48
puntuacin mxima posible - puntuacin ms baja posible
[8]
2
Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de
acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total
desacuerdo), la puntuacin mxima posible es 5 y la puntuacin ms baja posible es 1; en este caso la desviacin tpica mayor posible es (5 - 1)/2 = 2.
Esta referencia suele ser poco til porque este valor mximo es difcilmente alcanzable en la mayora de las situaciones. Cuando los valores son 1 y 0 (s
o no, bien o mal, etc.), la desviacin tpica mayor posible es (1 - 0)/2 = .50.
Esta referencia con este tipo de datos es especialmente til, porque en estos
casos (respuesta 1 0) s es ms frecuente que la desviacin tpica obtenida
sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos estos comentarios al tratar despus de las puntuaciones dicotmicas).
4. La desviacin tpica indica qu puntuacin parcial pesa ms en una media final; a mayor desviacin tpica, mayor peso en la media final. En determinadas situaciones esta informacin puede ser muy til.
El que la puntuacin parcial con una mayor desviacin tpica pese ms en
una media final es por otra parte lgico: si todos reciben la misma o casi la
misma puntuacin (lo que supone una desviacin tpica muy pequea), no se
establecen diferencias; si por el contrario se asignan puntuaciones muy distintas a los sujetos (desviacin tpica grande) en una puntuacin parcial, las diferencias en la media final dependern ms de esas ocasiones en las que se asignaron puntuaciones (o notas) muy distintas.
Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Supongamos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (entre parntesis el nmero de orden de cada sujeto con cada examinador y en
la media final):
Tabla 7
Podemos observar que el orden (entre parntesis) de los alumnos en la

media final coincide con el orden del examinador A, que es el que tiene una
mayor desviacin tpica.
49
El sujeto n 1, el de media final ms alta, es el mismo que el del examinador A, a pesar de que este examinador A est en minora ya que para los examinadores B y C el sujeto n 1 es el que tiene una calificacin ms baja. Pero
como el examinador A ha diferenciado ms sus calificaciones, est influyendo
ms en quin queda en el primer o en el ltimo lugar.
El que la puntuacin parcial con una mayor desviacin tpica tenga tambin un peso mayor en la media final puede ser de especial importancia en algunas ocasiones, como cuando del nmero de orden de los examinados se
siguen consecuencias importantes (concesin de becas, procesos de admisin o cualquier otro tipo de ventaja).
Los que califican de manera muy uniforme, sin diferenciar mucho, influyen menos: sumar a todos una misma cantidad no establece diferencias. Lo
mismo sucede si no se trata de examinadores distintos, sino del mismo examinador pero que ha calificado de manera muy distinta en distintas ocasiones
o con distintos tipos de pruebas.
Este peso distinto de las puntuaciones directas, segn sea mayor o menor
la desviacin tpica, se puede obviar de varias maneras; sobre todo utilizando
puntuaciones tpicas como veremos ms adelante.
5. La desviacin tpica entra en otros muchos clculos que iremos viendo (fiabilidad, error tpico, error tpico de la media, contraste de medias,
etc.).
6. La desviacin tpica permite el clculo de las puntuaciones tpicas individuales de las que tratamos ms adelante. Adems la relacin entre la desviacin tpica, y las puntuaciones tpicas, y la distribucin normal nos abrir la
puerta a la estadstica inferencial.
2.2.6. Media y desviacin tpica de los datos dicotmicos
Datos dicotmicos, o puntuaciones dicotmicas, son aquellos en los que
solamente hay dos categoras de respuesta o de clasificacin mutuamente
excluyentes. Cuando hay ms de dos posibilidades se trata de datos o puntuaciones continuas.
En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o datos, o variables) dicotmicas.
Adems de los datos propiamente dicotmicos (dos respuestas que se excluyen mutuamente) tambin podemos dicotomizar los datos continuos dividindolos en dos categoras, por ejemplo por encima de la media y por debajo de la media (o de la mediana), o apto (= 1) y no apto (= 0), etc.,
aunque en principio es preferible utilizar todas las respuestas sin reducirlas a
dos categoras.
50
Figura 2:
EJEMPLOS DE DATOS DICOTMICOS
La media (X) de los datos dicotmicos es igual a la proporcin de respuestas correctas o de unos, y el smbolo que suele utilizarse es p.
El concepto de media es el mismo que cuando se trata de otros tipos de puntuaciones: calculamos la media sumando todas las puntuaciones individuales
(que en este caso sern 1 0) y dividimos esta suma por el nmero de sujetos.
nmero de unos
Por lo tanto la media es: p = proporcin de unos = [9]
N
La proporcin de ceros (de respuestas incorrectas, de noes, etc.) se simboliza como q, y es igual al nmero de ceros dividido por el nmero de sujetos, o ms sencillamente, q = 1-p, ya que p + q = 1 ( ses + noes o unos +
ceros = el 100% de las respuestas).
nmero de ceros
q = proporcin de ceros = [10]
N
Si, por ejemplo, de 50 sujetos 30 responden s (o bien en la pregunta de
un examen) y 20 responden no (o mal a una pregunta):
La media ser:
30
p == .60
50
20
El valor de q ser: q == .40
50
Si multiplicamos por cien la proporcin de respuestas correctas (p), tenemos un tanto por ciento o un porcentaje: el 60% ha respondido correctamente (o ha respondido s). Si los 50 sujetos responden s (o correctamente),
51
la proporcin de unos (la media) ser 50/50 = 1 ( el 100% de los sujetos ha

respondido correctamente o ha respondido s).
La desviacin tpica y la varianza de los datos dicotmicos (unos o ceros)
se puede calcular a partir de los valores de p y q:
Desviacin tpica:
[11]
s2 = pq [12]
Varianza:
Es habitual utilizar pq como smbolo de la varianza de los datos dicotmicos.

En el mismo ejemplo anterior, la desviacin tpica ser igual a
= .489, y la varianza ser igual a .4892 = .239 ( .24 redondeando los decimales).
La varianza mayor posible se dar cuando el 50% responde correctamente (o responde s) y el otro 50% responde incorrectamente (o responde no),
es decir, cuando el 50% de las respuestas se codifica con un uno y el otro 50%
con un cero. Es entonces cuando se da el mayor nmero de diferencias interindividuales.
En este caso tenemos que
p = q = .50;
la media es p =.50,
la desviacin tpica ser igual a
2
la varianza ser igual a .50 = .25,

Tambin se utilizan los smbolos convencionales (X, s); sin embargo los
smbolos p (media), pq (varianza) y
(desviacin tpica) son muy utilizados con este tipo de datos; realmente tanto pq como
son las frmulas
que tambin se utilizan como smbolos.
En los tems dicotmicos el valor mximo que puede alcanzar la desviacin tpica es .50 y el valor mximo de la varianza es .502 =.25. Como ya se indic antes, el valor mximo que puede alcanzar la desviacin tpica (con cualquier tipo
de puntuacin) es igual a la diferencia entre la puntuacin mxima posible y la
puntuacin ms baja posible dividida por dos; en este caso (1-0)/2 = .50.
El que la mxima varianza con estos datos (1 0) es .25 podemos verlo de
manera intuitiva en los datos simulados de la tabla 8, donde tenemos todos
los posibles resultados que podemos obtener si cuatro sujetos (N = 4) responden a una pregunta (respuestas: s = 1, no = 0).
Si todos responden s (1) o todos responden no (0), nadie se diferencia de
nadie y la varianza es cero. Si la mitad (el 50%) responde s y la otra mitad responde no es cuando tenemos el mximo nmero de diferencias y la mxima varianza. Si multiplicamos el nmero de los que responden s por el nmero de
los que responden no tenemos el nmero de diferencias entre los sujetos, y si
multiplicamos las proporciones tenemos la varianza. La unanimidad (todos
responden s o todos responden no) coincide con la varianza cero, y la mxima
diversidad coincide con la varianza mxima, que es (.50)(.50) = .25.
52
Tabla 8
El entender que la varianza mxima (lo ms lejano a la unanimidad en las

respuestas) es .25 tiene su importancia, no slo como referencia til, sino porque se trata de un valor que entra en la frmula para calcular el tamao necesario de la muestra para extrapolar los resultados a la poblacin (por ejemplo en
las encuestas pre-electorales); en estos casos suponemos que la varianza de la
poblacin es la mxima posible e igual a .25. La razn est en que a mayor varianza har falta una muestra mayor y para mayor seguridad nos ponemos en la situacin de que la varianza es la mayor posible (si la varianza fuera = 0, nos bastara preguntar a un solo sujeto, porque todos van a responder lo mismo)4.
La media y la desviacin tpica de los datos dicotmicos pueden calcularse
con las calculadoras que tienen programacin estadstica y programas informtico, de la misma manera que se calculan cuando las puntuaciones son
continuas (las frmulas son las mismas; si las puntuaciones son dicotmicas,
nos limitaremos a introducir unos y ceros).
2.2.7. Combinacin de medias y desviaciones tpicas
Con frecuencia acumulamos datos y clculos de diversos grupos. Las frmulas que combinan medias de diversos grupos en una media comn y diversas desviaciones tpicas en una desviacin tpica comn son muy tiles.
1 Para combinar dos o ms medias:
Xtotal = media total, o comn a varios grupos;
SXN = en cada grupo multiplicamos la media por su
N y sumamos estos productos (esta suma es
igual a la suma de todas las puntuaciones);
SN = suma de todos los N
4
En la ficha tcnica de las encuestas, que suele aparecer publicada en peridicos y

revistas, se suele especificar que el tamao de la muestra se ha calculado suponiendo que
p = q = .50 (tambin se empelan letras maysculas, P y Q).
53
La frmula [13] es obvia (se trata de una media ponderada por el nmero de sujetos):
tenemos que SX = XN; que es el numerador
Si la media es
de esta frmula [13] (suma de todas las puntuaciones); el denominador (SN) es la suma
de todos los sujetos de todos los grupos.
Cuando el nmero de sujetos es el mismo en todas las muestras, la media
total es simplemente la media de las medias.
Lo vemos en dos ejemplos (tabla 9), que utilizaremos tambin para ver cmo se combinan desviaciones tpicas.
Tabla 9
Cuando las muestras son de tamao desigual:
Cuando las muestras son de idntico tamao calculamos la media de las

medias:
2 Para combinar dos o ms desviaciones tpicas o varianzas:

Lo que no se puede hacer es calcular la media de las desviaciones tpicas;
para combinar las desviaciones tpicas de varios grupos como si se tratara de
un solo grupo aplicamos las frmulas [14] (muestras desiguales) y [15]
(muestras iguales).
54
a) Muestras de tamao desigual
stotal = desviacin tpica total, de todos los grupos unidos en uno solo;
Xtotal = media del total, de todos los grupos unidos en uno solo. 1 En
cada grupo multiplicamos cada N por la suma de la media y de
la desviacin tpica elevadas al cuadrado [N(X2 + s2)], 2 sumamos estos productos; 3 dividimos esta suma por el nmero total de sujetos (SN) y restamos la media total elevada al cuadrado (y que se supone calculada previamente). Si no extraemos la
raz cuadrada, lo que tenemos es la varianza comn a todos
los grupos.
b) Muestras de idntico tamao
Si las muestras son de idntico tamao, en la frmula [14] tendramos que
el denominador ser Nk, donde N es el nmero de sujetos que hay en cada
grupo y k es el nmero de grupos, por lo que la frmula [14] queda simplificada como se indica en [15].
En el numerador nos limitamos a sumar todas las medias y todas las

desviaciones previamente elevadas al cuadrado.
Con los datos mismos datos de la tabla 9 calculamos las desviaciones tpicas uniendo todas las muestras.
Muestras de tamao desigual [14]:
Muestras de idntico tamao [15]5:
5
El numerador se calcula fcilmente con una calculadora con programacin estadstica, introduciendo todas las medias y todas las desviaciones tpicas, en la funcin Sx2.
55
De dnde vienen estas frmulas para combinar desviaciones tpicas a

partir de los valores de las desviaciones, medias y nmero de sujetos de diversos grupos?
La frmula [14]6 es fcilmente demostrable, y no sobra conocer esta demostracin porque nos introduce en otras frmulas frecuentes de la desviacin tpica.
La frmula ms directa de la desviacin tpica es
Esta frmula no se demuestra en sentido propio (lo mismo que la de la
media aritmtica), simplemente expresa el concepto.
Hay otras frmulas, que se derivan de [16], para calcular la desviacin tpica sin necesidad de calcular las puntuaciones diferenciales (X-X). Lo que sucede es que estas frmulas que simplifican operaciones son menos tiles, ya
que disponemos de programas informticos y calculadoras con programacin
estadstica.
Una de estas frmulas para calcular la desviacin tpica a partir de las puntuaciones directas y de la media, es la que nos interesa para poder demostrar
la frmula que nos permite combinar desviaciones tpicas de varios grupos;
es la frmula [17] que viene en muchos textos; a partir de esta frmula [17]
llegamos con facilidad a la frmula [14] para combinar desviaciones tpicas o
varianzas.
Vamos a ver cmo de la frmula [17] llegamos a la frmula [14], que es la

propuesta para combinar desviaciones tpicas; despus veremos de dnde sale esta frmula [17].
Para simplificar esta demostracin utilizamos la varianza en vez de la desviacin tpica, as si elevamos al cuadrado la desviacin tpica expresada en
[17] tendremos que la varianza ser
Si en [18] despejamos SX2 tendremos
SX2 =N(s2+ X2)
[19]
La expresin que tenemos en [19] podemos verla ya en la frmula [14]. Si

de dos muestras conocemos los valores de N, X y s, podemos utilizar la fr6
Esta frmula la tomamos de McNemar (1962, pg. 24).
56
mula [17] para calcular la desviacin tpica de las dos muestras combinadas
en una nica muestra. En esta frmula [17] utilizada para combinar dos (o
ms) desviaciones tpicas tenemos ahora que:
N = N1 + N2;
La media ser la media total de las dos (o ms) muestras
2
SX ser la expresin [19] calculada en las dos (o ms) muestras y sumadas.
Es decir, substituyendo [19] en [18] tenemos la frmula [14] para combinar desviaciones tpicas.
Podemos preguntarnos ahora de dnde viene la frmula [17], que es la
que estamos utilizando para llegar a la frmula [14] y calcular la desviacin tpica de dos (o ms) muestras combinadas en una sola.
En la frmula de la desviacin tpica tenemos en el numerador un binomio
elevado al cuadrado. No hay ms que aplicar la frmula usual: (a - b)2 = a2 2ab + b2, y as llegamos a [18] y [17]:
Utilizando la varianza para simplificar, tenemos que:
Como en [17] tenemos que
y que
Tendremos que
y [17]
y as llegamos a [18]
2.3. El coeficiente de variacin (V)

Otra medida de dispersin, menos utilizada, es el coeficiente de variacin. En principio se utiliza para comparar dispersin cuando los instrumentos o unidades de medida son distintas, o cuando las medias de dos grupos
son muy desiguales.
La desviacin tpica viene expresada en las mismas unidades empleadas en
la medicin, por lo tanto dos desviaciones calculadas con instrumentos y unidades distintas no son comparables entre s directamente. Lo mismo sucede
cuando las medias son muy distintas (por ejemplo cuando las medias de dos
exmenes son muy distintas porque el nmero de preguntas es distinto).
En estos casos se utiliza el coeficiente de variacin o de variabilidad relativa: consiste sencillamente en dividir la desviacin tpica por la media (es decir, se trata de la desviacin relativa a la media); es habitual multiplicar por
100 este cociente.
57
Coeficiente de variacin:
[21]
Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (peso en Kg.)
Aparentemente los chicos difieren
media
chicos
chicas
66.87
51.06
desviacin
6.99
5.10
ms entre s que las chicas entre s (su

desviacin tpica es mayor; los chicos
tienen de manera natural ms mbito
de variacin), pero tambin es verdad que las medias son muy distintas.
Si calculamos el coeficiente de variacin (haciendo las desviaciones relativas a la media) tenemos estos resultados:
6.69
V (chicos) = (100) = 10.45 Teniendo en cuenta la diferencia en66.87
tre las medias, entre las chicas encontramos ms variabilidad en peso (aun5.51
V (chicas) = (100) = 10.79 que no mucha ms).
51.06
El uso de este coeficiente de variacin en medidas educacionales o psicolgicas es muy cuestionable, porque su valor depende de la media, que a su
vez depende de la facilidad o dificultad de las preguntas, test, etc. Su interpretacin se presta a ambigedades. Si por ejemplo a un test de 10 preguntas
le aadimos otras 10 muy fciles, subir la media y bajar el valor de V.
Este coeficiente puede utilizarse y es especialmente til cuando se dan estas circunstancias:
1 Cuando las unidades lo son en sentido propio (como peso, altura,
con una unidad clara); menos aconsejable es utilizarlo en las medidas educacionales y psicolgicas habituales;
2 Cuando las medias son muy desiguales (como en el ejemplo anterior, peso en chicos y chicas).
3 Cuando las medidas son distintas (por ejemplo; dnde hay ms variabilidad, en peso o en altura?).
En el campo de los tests en general, puede ser til para comparar la variabilidad de un grupo en el mismo test aplicado en circunstancias distintas.
2.4. La desviacin semi-intercuartlica
Nos hemos centrado fundamentalmente en la desviacin tpica y en la
varianza porque se trata de dos conceptos fundamentales para el resto de
58
los anlisis estadsticos. Son medidas de dispersin que se utilizan cuando se

utiliza la media aritmtica como medida de tendencia central.
Se utilizan tambin otros pares de medidas, tanto de tendencia central
(que ya hemos visto, como la mediana y la moda) como de dispersin, que
son ya de utilidad ms limitada, aunque tienen su lugar como descriptores de
un conjunto de puntuaciones.
La desviacin semi-intercuartlica es la medida de dispersin apropiada
cuando la medida de tendencia central es la mediana, y expresa la dispersin del 50% central del grupo, por lo que, lo mismo que la mediana, se prescinde tambin de las puntuaciones extremas.
El concepto es claro y podemos verlo en la distribucin de frecuencias de
la tabla 10.
Hemos dividido la muestra en cuatro partes con idntico nmero de sujetos (el 25% en cada una); los lmites de estas cuartas partes se denominan
cuartiles:
Lmite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3) = 12.5
Lmite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1) = 6.5
Tabla 10
Es decir, y dicho de manera ms sencilla, entre 6.5 y 12.5 est el 50% central de los sujetos; la desviacin semi-intercuartlica (Q) ser:
[22] en este ejemplo tendramos
Este ejemplo est puesto para explicar el concepto; lo normal es que los lmites del 50% central no estn tan claros a simple vista; el clculo exacto lo
veremos al tratar de los percentiles, pues se trata simplemente de calcular por
interpolacin los percentiles 25 y 75, como se explica en su lugar.
59
2.5. La amplitud o recorrido

La amplitud o recorrido (ambos trminos son usuales)7 es la medida de
dispersin que se utiliza cuando la moda es la medida de tendencia central.
Su clculo es muy simple:
Amplitud = (puntuacin ms alta menos la puntuacin ms baja) + 1 [23]
En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12
Observaciones sobre la amplitud:
1. Sumamos una unidad a la diferencia entre las puntuaciones extremas
(se trata de una convencin aceptada) porque nos situamos en los lmites extremos de ambas puntuaciones: el lmite superior de 15 sera
15.5 y el lmite inferior de 4 sera 3.5; la amplitud ser pues 15.5 - 3.5 =
12 ( 15 - 4 + 1).
2. Como indicador de dispersin es una medida dbil, pues se basa en slo dos puntuaciones, que adems pueden ser atpicas, poco representativas, y grupos semejantes pueden parecer muy distintos en dispersin, simplemente porque en algn grupo hay uno o dos sujetos con
puntuaciones inusualmente altas o bajas.
2.6. Relacin entre la amplitud y la desviacin tpica
En muestras relativamente grandes (de 500 o 600 sujetos) la amplitud o
recorrido suele comprender unas seis desviaciones tpicas (entre -3 y +3),
por lo que un clculo aproximado de la desviacin tpica consiste en dividir
la amplitud entre seis. Segn va bajando N (nmero de sujetos, tamao de la
muestra) la amplitud comprende menos desviaciones tpicas y si sube N
la amplitud suele comprender ms de seis desviaciones.
Tabla 11
A veces, y de manera errnea, se denomina rango a la amplitud, por confusin con

el ingls (amplitud o recorrido en ingls es range). El trmino rango significa propiamente nmero de orden (rank en ingls).
60
En la tabla 11 tenemos cuntas desviaciones tpicas podemos esperar

que comprenda la amplitud: dividiendo la amplitud por esa cantidad (x) tendramos una aproximacin del valor de la desviacin tpica8.
Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que
la amplitud o recorrido equivalga aproximadamente a 3.1 desviaciones, y con
1000 sujetos a 6.5 desviaciones.
Esta tabla no es til para calcular la desviacin tpica; en primer lugar porque
es muy sencillo calcular el valor exacto de la desviacin (utilizando un programa de ordenador o una calculadora con programacin estadstica) y porque,
como ya hemos indicado, la amplitud es una medida muy pobre que depende
solamente de dos puntuaciones que adems pueden ser atpicamente altas o
bajas. Sin embargo el hacer una estimacin del valor de la desviacin a partir de
la amplitud puede ser ocasionalmente til por varias razones.
Para hacernos una idea de por dnde puede ir el valor aproximado de la
desviacin tpica si en un momento dado no disponemos de medios para calcularla directamente,
Para ponernos sobre la pista de algn error de bulto en el clculo,
Para apreciar si la desviacin tpica exacta y bien calculada es mucho mayor o menor de lo que cabra esperar en un grupo de un determinado tamao. Si la desviacin tpica calculada es apreciablemente mayor de la esperada,
podemos comprobar si se debe a unos pocos sujetos con puntuaciones extremas muy atpicas.
3. MEDIDAS DESCRIPTIVAS BSICAS: RESUMEN

de tendencia central
de dispersin
La media es el centro de gravedad de

la distribucin: la suma de todas las
diferencias individuales con respecto
a la media es igual a cero.
La desviacin tpica ser mayor en la

medida en que las puntuaciones individuales se aparten ms de la media
(X-X). La desviacin tpica elevada al
cuadrado (s2) se denomina varianza, tambin se utiliza como medida
de dispersin y tiene propiedades especficas que la hacen muy til.
La tabla est tomada de Guilford y Fruchter (1973, pg. 73).
61
de dispersin
En el clculo de la media y de la desviacin tpica intervienen todas las puntuaciones individuales; son las dos medidas ms estables: si calculamos estas medidas en una serie de muestras de la misma poblacin, fluctan menos que las
dems medidas. Permiten adems otras muchas operaciones de gran inters y
son en principio las medidas descriptivas preferibles.
La mediana es igual al Percentil 50; es

la puntuacin que divide la distribucin en dos partes iguales: la mitad
de los sujetos tiene una puntuacin
superior a la mediana y la otra mitad
una puntuacin inferior.
En distribuciones asimtricas o con
puntuaciones extremas muy atpicas
(muy extremas) puede dar una idea
mejor que la media ya que la media
puede verse afectada por puntuaciones muy extremas y no representativas.
La mediana en cambio no se ve alterada por las puntuaciones extremas.
Ambas medidas, mediana y Q son las apropiadas:
La desviacin semi-intercuartlica
(Q) se calcula solamente con el 50%
central de la distribucin: es la media
de dos puntuaciones: la que corresponde al percentil 75 (deja por arriba
el 25% de los sujetos) y la que corresponde al percentil 25 (deja por debajo el 25% de los sujetos).
Como quedan excluidos en el clculo
el 25% superior y el 25% inferior, tampoco se ve afectada por las puntuaciones extremas.
1 en principio cuando se trata de puntuaciones

puramente ordinales;
2 siempre que se prefiera prescindir de los sujetos extremos porque distorsionan la informacin.
Ejemplos de uso de la mediana y Q: en el proceso de construccin de escalas

de Thurstone; los tems son evaluados por jueces y para evitar que pesen demasiado juicios extremos, se calculan la mediana y Q (en vez de la y ?) en cada tem. Tambin se utilizan a veces en los cuestionarios de evaluacin del profesorado, cuando interesa la opinin del centro de la clase y prescindir de los
extremos.
La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permiten adems hacer determinadas representaciones grficas. Los percentiles se
calculan en estos casos por interpolacin.
62
de dispersin
Moda: puntuacin con una

frecuencia mayor
Amplitud = [valor ms alto - valor

ms bajo] +1
La moda es simplemente la puntuacin con la mayor frecuencia, la obtenida por el mayor nmero de sujetos. Puede haber varias puntuaciones
con esta caracterstica (distribuciones
bimodales, plurimodales). Como medida de tendencia central es poco rigurosa, sobre todo en distribuciones
asimtricas. Se basa en las puntuaciones de dos sujetos que si son muy extremas y atpicas desvirtan la informacin.
La moda y la amplitud son las medidas menos rigurosas aunque pueden
tener su inters descriptivo.
La amplitud (o recorrido, y mal llamada a veces rango) es igual a la diferencia entre la puntuacin ms alta y
la puntuacin ms baja. Habitualmente se suma una unidad a esta diferencia porque se calcula a partir de los lmites de los valores extremos (si las
puntuaciones extremas son, por
ejemplo, 20 y 5, la amplitud no es
igual a 20 - 5 sino igual a 20.5 - 4.5 =
[(20 - 5) + 1]. Es una medida muy inestable porque depende solamente
de los dos valores extremos. En
muestras semejantes la amplitud puede ser muy diferente; basta que haya
sujetos muy atpicos en los extremos.
En la distribucin normal (simtrica, acampanada) media, mediana y moda

coinciden en un idntico valor.
63
CAPTULO 3
LA DISTRIBUCIN NORMAL
1. APROXIMACIN INTUITIVA A LA DISTRIBUCIN NORMAL

Posiblemente ya estamos familiarizados con la denominada distribucin
normal (o curva normal): la distribucin simtrica y de forma acampanada que nos indica que la mayora de los sujetos (u objetos) de una poblacin
determinada no se aparta mucho de la media: en la medida en que los sujetos
se van apartando ms de la media (porque se pasan o porque no llegan) van
siendo menos y menos.
Si representamos esta distribucin mediante un histograma simplificado,
tendramos algo parecido a lo que vemos en la figura 1.
Figura 1
Los sujetos que se van
apartando ms y ms
de la media van
siendo menos
La mayora
de los sujetos
se encuentran
prximos a la
media de
su grupo
65
El apartarse
mucho de la
media va siendo
ya muy raro
Lo primero que debemos captar es que la distribucin normal nos remite

a nuestra propia experiencia. Si nos fijamos en la estatura de la gente que nos
encontramos por la calle, vemos que la mayora de la gente es de estatura
normal, y aqu llamamos normal a lo ms frecuente; de hecho si vemos a alguien que se aparta mucho de la media (de lo habitual) no pasa desapercibido y nos llama la atencin. En la experiencia de cada da, normal y frecuente, aplicado a cualquier rasgo, son expresiones casi sinnimas. Cuando
decimos que alguien es muy abierto y sociable, lo que queremos decir es que
es ms abierto y sociable de lo que es normal, de lo que solemos encontrar
habitualmente, de la misma manera que decimos que una persona es muy callada cuando habla mucho menos que la mayora de la gente.
Casi sin darnos cuenta estamos haciendo juicios relativos a lo que es normal encontrar en la generalidad de las personas: el mucho y el poco, o el
muy, sobre todo aplicados a las caractersticas de las personas, dependen de
lo que es ms frecuente encontrar en nuestro medio. Si el muy abunda mucho, deja de ser muy para pasar a ser normal o frecuente y ya no merece el
muy que solemos reservar para lo excepcional que viene a ser lo raro o infrecuente.
Estos juicios, y esta distribucin normal, son relativos a cada poblacin:
un pigmeo de una estatura normal, cercana a la media de su poblacin y
muy frecuente en su propio grupo, pasa a ser muy bajito y excepcional si lo
incluimos en una poblacin de escandinavos: se aparta mucho de la media de
esa poblacin y ser muy difcil encontrar un escandinavo con esa estatura.
Sin embargo ese pigmeo tiene una estatura normal, que no se aparta mucho
de la estatura media de su grupo. En ambos grupos, escandinavos y pigmeos,
encontraremos una distribucin normal en estatura, aunque las medias de
los dos grupos sean muy distintas.
Esta consideracin (la normalidad es relativa a cada poblacin) nos llevar ms adelante a una serie de aplicaciones relevantes en la investigacin
psicolgica y educacional, no solamente para poder valorar si un resultado o
dato individual es atpico (si se aparta mucho de lo normal o esperado), sino,
por ejemplo, para determinar si unos sujetos que han pasado por una determinada experiencia pueden considerarse normales en la poblacin de los
que no han pasado por esa experiencia (en ese caso es posible que esa experiencia haya sido intil).
La distribucin normal que representamos mediante la curva normal,
es un modelo matemtico terico al que de hecho tienden a aproximarse
las distribuciones que encontramos en la prctica: estadsticas biolgicas,
datos antropomtricos, sociales y econmicos, mediciones psicolgicas y
educacionales, errores de observacin, etc.; es un modelo muy til por su
relacin con el clculo de probabilidades que nos va a permitir hacer inferencias y predicciones.
66
2. CARACTERSTICAS Y PROPIEDADES DE LA DISTRIBUCIN NORMAL

El hecho de que las magnitudes segn se van apartando de la media (en
cualquiera de las dos direcciones) van siendo mucho menos frecuentes lo expresamos grficamente mediante la curva normal, que es la representacin
grfica de una funcin matemtica que nos indica la probabilidad de encontrar (de que se d por azar, por factores aleatorios) cualquier magnitud (o
puntuacin) si conocemos en cuntas desviaciones tpicas se aparta de la media de su distribucin. La diferencia con respecto a la media, medida en desviaciones tpicas, es lo que llamamos una puntuacin tpica (z = X - X/s): a
cada puntuacin tpica le corresponde una probabilidad de ocurrencia y esta relacin entre diferencia con respecto a la media y probabilidad nos va a
ser de la mxima utilidad; ampliamos la explicacin en el apartado siguiente.
La distribucin normal es simtrica, unimodal, de forma acampanada
(figura 2); su altura mxima (que indica el mayor nmero de sujetos) se encuentra en la media, que coincide con la moda y la mediana (expresado en
trminos ms acadmicos, la ordenada mxima (Y) corresponde a una abscisa (X) igual a la media).
Figura 2
La distribucin normal es continua, vlida para cualquier valor de X (para

cualquier puntuacin o magnitud, representada en el eje horizontal de las
abscisas). En la figura 2 estn sealados los puntos que corresponden a la
media (0) y a tres desviaciones tpicas por encima y por debajo de la media.
La distribucin normal es asinttica, es decir, los extremos de la curva se
extienden indefinidamente en ambas direcciones; la curva no toca el eje (ho-
67
rizontal) de las abcisas (siempre cabe la posibilidad de una magnitud muy extrema)1.
En la prctica se considera que todos los casos estn comprendidos entre
-3 y +3 desviaciones tpicas; las probabilidades de que un valor exceda estos
lmites son del .0026% (2.6 por mil); la amplitud de la distribucin es por lo
tanto de unas 6 desviaciones tpicas (a efectos prcticos, aunque esto no es
exacto y depende del nmero de sujetos).
Los puntos de inflexin de la curva (puntos A y B en la figura 2) estn a
una desviacin tpica de la media.
Atendiendo al grado de apuntamiento o curtosis que presenta, decimos de
la curva normal que es mesocrtica (representada por la lnea continua en la figura 3). Para determinar la curtosis de cualquier otra distribucin la comparamos con este modelo (figura 3), y as calificamos a las distribuciones ms apuntadas que la normal leptocrticas y a las menos apuntadas platicrticas2.
Figura 3
Mesocrtica
Leptocrtica
Platicrtica
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIN NORMAL

Ya hemos indicado que si conocemos en cuntas desviaciones tpicas se
aparta un sujeto (o una observacin cualquiera) de la media, podemos cono1
Asinttica viene del griego asmptotos, (asumptwtos que quiere decir que no
coincide, que no toca.
2
Curtosis (kurtwsis) significa en griego curvatura; los prefijos griegos leptos, mesos y platys significan respectivamente delgado, medio y ancho.
68
cer la probabilidad que tiene de ocurrir. La proporcin (o porcentaje si multiplicamos por 100) de casos esperados entre dos puntuaciones tpicas determinadas (o por encima o por debajo de cualquier puntuacin tpica) es siempre el mismo. Vemos en la figura 4 que, por ejemplo, entre la media (z = 0)
y una desviacin tpica (z = + - 1) se encuentra el 34.13% de los casos, o, dicho de otra manera, la probabilidad de que una observacin se encuentre entre la media y una desviacin tpica es de .34
Figura 4
34.13%
34.13%
2.15%
-3
-2
2.15%
13.59%
13.59%
-1
+1
+2
+3
La distribucin normal nos permite conocer la probabilidad de que se d

una determinada magnitud expresada en puntuaciones tpicas. Si nos fijamos
en la figura 4, vemos que la probabilidad de que se d una puntuacin superior a z = 2 es el 2.15% (y otro 2.15% de probabilidades de que se d una puntuacin inferior a z = -2); la probabilidad de encontrar una puntuacin superior a z = 1 es del 15.74% (13.59 + 2.15), etc.
Estas probabilidades las tenemos en las tablas de la distribucin normal, donde podemos ver la proporcin de casos que caen por encima o
por debajo de cualquier puntuacin tpica (o, lo que es lo mismo, la probabilidad de obtener una puntuacin cualquiera por encima o por debajo de
cualquier puntuacin tpica o entre dos puntuaciones tpicas).
Antes de acercarnos a las tablas y aprender a manejarlas es til observar las
figuras 5 y 6. Los porcentajes puestos en estas figuras son slo aproximados
(eliminando decimales); para muchos usos estas aproximaciones son un dato
suficiente; en cualquier caso estas figuras nos ayudan en un primer momento
a comprender la utilidad de la distribucin normal y a utilizar las tablas en las
que encontraremos los valores exactos.
69
Figura 5
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LMITES DE LA CURVA NORMAL
En la figura 5 tenemos:
a) La base (el eje de las abscisas, X) la hemos dividido en segmentos que
comprenden media desviacin tpica (.5s). El punto central corresponde a la media y tiene obviamente un valor de cero (no se aparta de
la media, coincide con la media, z = 0).
b) Vemos una serie de filas divididas en segmentos con distintos criterios,
pero utilizando la desviacin tpica como unidad; y en cada segmento
encontramos el porcentaje (aproximado) de casos que podemos esperar.
Por ejemplo, si nos fijamos en algunas de estas filas:
En la primera fila (comenzando por debajo) vemos que entre la media y
media desviacin tpica (entre 0 y .5 s; la tabla es simtrica) cae aproximadamente un 20% de los casos, entre 1s y 1.5 s tenemos el 9 % de los casos, y por encima o por debajo de 2 s el 2% de los casos (tambin podemos
decir que la probabilidad de obtener una puntuacin tpica superior a 2 es el
de 2%, etc.).
En la segunda fila entre -.5 s y +.5 s tenemos el 38% de los casos, por encima o por debajo de 1.5 s cae el 7 % de los casos.
70
En la tercera fila tenemos las mismas proporciones (redondeadas) ya vistas en la figura 4 pues los segmentos son de 1s
En la quinta fila vemos otro criterio para dividir la distribucin: entre -.25s
y +.25 s (en el centro de la distribucin) tenemos el 20% de los casos, entre
.+25 s y +.75 s (lo mismo que entre -.25 s y -.75 s) tenemos el 17% de los casos; etc. Cada segmento comprende .5 s (menos los dos extremos) y tenemos en total nueve agrupaciones; si numeramos estas agrupaciones de 1 (comenzando por la derecha) a 9, en su momento veremos que se trata de los
estaninos o eneatipos, unas puntuaciones muy utilizadas.
En la sexta fila (o cuarta por arriba) vemos que por debajo de 2 s tenemos
el 2% de los casos, y por encima el 98% de los casos, etc.
Esta figura 5 no es de gran utilidad prctica, pero nos ayuda a entender la
distribucin normal y las tablas correspondientes que encontraremos en los
textos.
Figura 6
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LMITES DE LA CURVA NORMAL
15%
70%
15%
5%
90%
5%
2.5%
95%
-1.96 -1.65
-1.04
2.5%
+1.04
+1.65 +1.96
La figura 6 es anloga a la figura 5 aunque est hecha con otros criterios;

si nos fijamos con un poco de atencin podemos ver:
El 70% central de los casos cae entre 1.04 s; y las probabilidades de obtener unas puntuaciones mayores que +1.04 s 1.04 s son del 15%.
71
El 90% central de los casos caen entre s 1.65 s; y las probabilidades

de obtener unas puntuaciones mayores que +1.65 s o 1.65 s son del
5%; naturalmente las probabilidades de encontrar una puntuacin que
supere 1.65 s independientemente del signo son del 10% (un 5% en
cada extremo de la distribucin).
El 95% central de los casos caen entre 1.96 s (1.957 con ms exactitud); y las probabilidades de obtener unas puntuaciones mayores que
+1.96 s o 1.96 s son del 2.5%; y las probabilidades de encontrar una
puntuacin que supere 1.96 s independientemente del signo son del
5% (un 2.5% en cada extremo de la distribucin).
El 99% de los casos los tenemos entre 2.57 s y solamente un 1% de
los casos supera este valor (.5% en cada extremo de la distribucin).
De todos estos valores hay dos que encontraremos con frecuencia en el estudio de los anlisis estadsticos; son 1.96 y 2.57; la probabilidad de encontrar valores superiores (independientemente del signo) son respectivamente el 5% y el
1%, que son probabilidades aceptadas como lmite convencional de lo probable.
4. CMO DIBUJAR LA CURVA NORMAL

La altura (Y, y que representa la frecuencia o nmero de casos) en cualquier curva normal y en cualquiera de sus puntos (los valores de X, que representan la magnitud) guarda siempre una determinada proporcin con la altura mxima (que corresponde a la media). Esos puntos estn determinados
en puntuaciones tpicas (z): conocida una z, sabemos qu altura tiene la curva en ese punto con respecto a la altura mxima (o mayor frecuencia) que corresponde a de la media (z = 0).
-3
-2,5
-2
-1,5
-1
-0,5
72
0,5
1,5
2,5
1,1%
4,4%
32,5%
60,7%
13,5%
88,2%
32,5%
60,7%
13,5%
4,4%
1,1%
88,2%
100%
Figura 7
En la figura 7 se dan las alturas de algunos puntos concretos; son unos

puntos de referencia suficientes para dibujar la curva. Si por ejemplo la altura mxima es de 8 cm (la altura absoluta se escoge arbitrariamente), la altura
correspondiente a +1 y -1 desviaciones tpicas (los puntos de inflexin) ser
el 60.7% de 8cm, que es igual a 4.85 cm ([8/100]x 60.7).
5. CMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIN NORMAL

Las tablas de la distribucin se pueden presentar de maneras distintas y
hay que examinarlas en cada caso, pero la informacin es siempre la misma.
Lo que habitualmente interesa conocer es la probabilidad de obtener una
puntuacin mayor o menor que una determinada puntuacin tpica.
Recordamos que una puntuacin tpica indica la distancia o diferencia de
una puntuacin (u observacin) con respecto a la media expresada en desviaciones tpicas. La media corresponde siempre a z = 0; las puntuaciones tpicas superiores a la media tienen el signo ms y las puntuaciones tpicas inferiores a la media tienen el signo menos.
Cmo se utilizan las tablas de la distribucin normal lo veremos con unos
ejemplos3.
5.1. Puntuaciones tpicas positivas (superiores a la media)
Por ejemplo z = +1.64
1. Lo primero que tenemos que hacer es imaginar o dibujar una curva
normal (figura 8) en la que la media (z = 0) divide la distribucin en
dos reas de idntico tamao; por encima de la media cae el 50% de los
casos y por debajo tenemos el otro 50% de los casos.
Figura 8
Las tablas de la distribucin normal se encuentran al final de esta publicacin.
73
2. Como z = +1.64 es superior a la media, trazamos una lnea por dnde

ms o menos cae z = +1.64, lo que importa es dibujarla a la derecha de la
media (figura 9) que es donde estn todos los valores positivos (figura 9).
Figura 9
Observamos que el rea total de la distribucin queda dividida en dos partes, rea mayor y rea menor. Al menos estas reas mayor y menor suelen
figurar en todas las tablas.
Vamos a las tablas para ver los valores que corresponden a z = 1.64:
Puntuacin
tpica
rea de la
parte mayor
rea de la
parte menor
1.64
.9495
.0505
Cmo se interpreta:
rea de la parte mayor.
a) La proporcin de casos que caen por debajo de + 1.64 es de .9495 o
(multiplicando por 100) el 94.95 % de los casos tienen una puntuacin
inferior a z = + 1.64.
b) Si redondeamos los decimales tenemos que una puntuacin de z = +
1.64 supera al 95 % de los casos o, lo que es lo mismo, que en la distribucin normal una puntuacin tpica de +1.64 corresponde al Percentil 95.
rea de la parte menor.
a) La proporcin de casos que caen por encima de + 1.64 es de .0505 o
(multiplicando por 100 y redondeando) el 5 % de los casos tienen una
puntuacin superior a z = + 1.64.
74
b) La probabilidad de obtener una puntuacin tpica superior a + 1.64

es de .05 (slo el 5 % de los casos superan a z = + 1.64), o, lo que es lo
mismo, en la distribucin normal una puntuacin tpica de -1.64 corresponde al Percentil 5.
5.2. Puntuaciones tpicas negativas (inferiores a la media)
Por ejemplo z = -1.64 (figura 10).
Como z = -1.64 es inferior a la media (= 0), trazamos una lnea por dnde
ms o menos cae z = -1.64, lo que importa ahora es dibujarla a la izquierda de
la media (z = 0) que es donde estn todos los valores negativos, como ya hemos visto en la figura 4.
Figura 10
Ahora las reas mayor y menor estn invertidas (la curva es simtrica).
Como en las tablas las puntuaciones tpicas estn sin signo ms o menos, los
valores son los mismos.
Puntuacin
tpica
rea de la
parte mayor
rea de la
parte menor
1.64
.9495
.0505
Lo que va a variar cuando la puntuacin tpica es negativa (inferior a la

media) es la interpretacin de las reas mayor y menor.
75
rea de la parte mayor

El 95 % de los casos caen por encima de z = 1.64, o la probabilidad de
obtener una puntuacin superior a 1.64 es de .95 (o del 95 %).
rea de la parte menor.
a) La probabilidad de obtener una puntuacin tpica inferior a 1.64 es
de .05 (o del 5 %)
b) Una puntuacin tpica igual a 1.64 supera al 5 % de los casos, o, lo que
es lo mismo, en la distribucin normal una puntuacin tpica de z =
1.64 equivale al Percentil 5.
Las interpretaciones ms tiles y frecuentes son las que estn puestas en
cursiva:
1. Probabilidad de obtener una puntuacin tpica superior si es positiva o
inferior si es negativa. En ambos casos nos fijamos en el rea menor.
2. Percentil equivalente a cualquier puntuacin tpica, o tanto por ciento
de casos que caen por debajo porque son superados por esa puntuacin tpica:
Si la puntuacin tpica es positiva
Si la puntuacin tpica es negativa
percentil
rea mayor
rea menor
5.3. Puntuaciones tpicas positivas o negativas (en trminos absolutos)

Con frecuencia nos interesa conocer las probabilidades de obtener una
puntuacin mayor en trminos absolutos (superiores con signo ms e inferiores con signo menos).
Figura 11
76
En estos casos multiplicamos por dos el rea menor, porque nos fijamos
en los dos extremos de la distribucin (figura 11).
La probabilidad de obtener una puntuacin superior a 1.64 en trminos
absolutos es de .10 o del 10 %; un 5 % por encima de +1.64 y otro 5 % por debajo de 1.64.
Un caso de especial inters en estadstica inferencial es el de la tabla 12,
que corresponde a z = 1.96
Figura 12
La probabilidad de encontrar una puntuacin superior a 1.96 (positiva o negativa, en trminos absolutos) es del 5% (2.5% + 2.5%). El apartarse en 1.96 desviaciones tpicas de la media (independientemente del signo) se considera ya muy
inusual, muy poco probable; en muchos planteamientos de investigacin los resultados convencionalmente normales (el 95%) se sitan entre 1.96 y +1.96.
6. BREVE NOTA HISTRICA4
La distribucin normal ha sido descubierta y estudiada por diferentes personas de manera independiente, y no siempre se le ha atribuido a la misma
persona. En lo que podramos llamar historia de la distribucin normal podemos destacar estos nombres.
1. Abraham De Moivre (ltimo tercio del siglo XVII y primera mitad del
XVIII) es el primer autor en publicar una explicacin de la distribucin
4
Sobre la historia de la Distribucin Normal puede verse Lane, David (2007) (en la
referencias bibliogrficas; direccin de Internet).
77
normal (en 1733) tal como la entendemos ahora5. El objetivo y el contexto son los juegos de azar (probabilidades de ganar), aunque la
preocupacin de De Moivre era ms teolgica (el aparente desorden
del Universo es consistente con un plan inteligente; el caos es aparente porque tiene sus normas, etc.).
2. El marqus de Laplace y Carlos Federico Gauss (matemticos y astrnomos; ambos entre los siglos XVIII y primera mitad del XIX; Gauss fue
un prodigio de las matemticas) tambin estudiaron y desarrollaron la
distribucin normal (tambin denominada campana de Gauss), sobre
todo, aplicada a la observacin astronmica. Gauss denomin a esta
distribucin distribucin de errores (en sus observaciones sobre la rbita de los asteroides); de Gauss es tambin el concepto de error tpico de la media.
3. Quetelet (astrnomo belga) y Galton (ambos ya en el siglo XIX) son los
primeros en descubrir y estudiar las aplicaciones de la distribucin normal a las medidas de antropometra (altura, etc.) y a los fenmenos sociales, y de ah se pas a otro tipo de medidas (como de inteligencia y
a otras ya en el campo de la psicologa, educacin, etc.).
4. Finalmente a Karl Pearson (1857-1936) le debemos el trmino de curva normal.
ANEXO: L A DISTRIBUCIN NORMAL EN INTERNET

En Internet existen varios programas sencillos en los que dada una puntuacin tpica nos dan las probabilidades exactas de obtener una puntuacin tpica:
a)
b)
c)
d)
inferior (percentil)
superior,
entre dos puntuaciones tpicas (la misma con distinto signo).
superior en trminos absolutos (fijndonos en las dos reas menores, como
en las figura 11 y 12)
Un direccin muy cmoda es la de Surfstat.australia: an online text in introductory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el
men Tables y escogemos Standard Normal (hay otras opciones) que presenta grficamente las diversas opciones (figura 13).
5
De Moivre deriva la distribucin normal como una expansin de la distribucin binomial.
78
Figura 13
a
-Z
z value
-Z
probability
Basta sealar la opcin deseada en las representaciones de la distribucin normal

e introducir el valor de la puntuacin tpica (z value).
En probability tendremos la probabilidad de que se d una puntuacin en el rea
sombreada (o tanto por ciento si multiplicamos por 100).
Las dos opciones ms frecuentes las vemos en la figura 14
Figura 14
-Z
Probabilidad de obtener una puntuacin inferior

(cualquiera que sea el signo). Si multiplicamos por 100 y
eliminamos los decimales tenemos el percentil que
corresponde a una puntuacin tpica en la distribucin
normal.
Probabilidad de obtener una puntuacin superior
independientemente del signo. Se utiliza habitualmente
en estadstica inferencial para determinar si es muy
improbable que un resultado sea casual.
79
CAPTULO 4
TIPOS DE PUNTUACIONES INDIVIDUALES
1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIN

La media, la desviacin tpica, y otros estadsticos, son medidas grupales:
nos describen cmo es una muestra, pero en principio no nos dicen nada sobre cada sujeto concreto. Ahora nos ocupamos de los sujetos individuales
que han respondido a un test de personalidad o de cualquier otro tipo, o han
hecho un examen Qu podemos decir de cada sujeto individual? Qu informacin til e interpretable se puede dar de cada sujeto?1
Una puntuacin directa2 es el dato aportado directamente por el instrumento de medida, por ejemplo:
Una altura de 1.65 m.,
Un total de 25 respuestas correctas en un test objetivo
Un 5, que es como se ha codificado la respuesta muy de acuerdo en un
cuestionario
Un 32, que es la suma de las respuestas a una escala de actitudes
El smbolo habitual de las puntuaciones directas es X (equis mayscula).
Estas puntuaciones directas no son siempre fciles de interpretar, y tampoco son comparables entre s a no ser que procedan de un instrumento similar. Por ejemplo no es lo mismo X = 20 o 20 respuestas correctas en un test
de 25 preguntas, que X = 20 o 20 respuestas correctas en un test de 50 preguntas. Tampoco es lo mismo responder correctamente a 20 preguntas fciles que a 20 preguntas difciles.
1
2
Tanto este captulo como el de la fiabilidad son importantes en psicometra.

En ingls raw store tambin se traduce como puntaje bruto (en Amrica Latina).
81
Las puntuaciones directas necesitan con frecuencia algn tipo de transformacin para que aporten informacin til o simplemente para poder interpretarlas con facilidad, o para poder comparar resultados individuales obtenidos con instrumentos distintos.
Es muy til tanto entender estas transformaciones como saber hacerlas
por estas razones:
a) Para poder interpretar adecuadamente las normas de los tests. Estas
normas o baremos son las claves para interpretar los resultados individuales; el usuario de los tests debe estar familiarizado con estos sistemas de transformacin e interpretacin de puntuaciones individuales.
b) No se trata ya solamente de poder interpretar adecuadamente las normas de un test, sino tambin de construirlas, es decir, de preparar las
claves de interpretacin para otros usuarios. Aunque los tests vienen ya
con sus normas, el preparar este tipo de normas o claves de interpretacin puede ser necesario por una serie de razones profesionales:
1. En tests o escalas de construccin propia;
2. Los tests publicados vienen con sus propias normas de interpretacin (en el manual del test); estas normas estn hechas a partir de
los datos obtenidos en una determinada muestra, pero si se utiliza
el test con una muestra muy distinta, puede ser necesario rehacer
esas normas con esa nueva muestra, ya que la muestra original puede no ser la adecuada como trmino de comparacin en un nuevo
grupo; lo mismo sucede cuando un test se adapta (o se traduce) para ser utilizado en otros mbitos culturales.
3. Con el paso del tiempo las normas de interpretacin pueden quedar obsoletas debido a diversos cambios sociales (puede variar incluso la capacidad lectora media, o las actitudes sociales, etc.); habr que preparar normas actualizadas con una nueva muestra
normativa (suele estimarse que la duracin media de las normas de
un test puede estar en torno a 10 aos).
c) Estas transformaciones de las puntuaciones directas tambin pueden
ser tiles en planteamientos de evaluacin o calificacin. No deben entenderse o interpretarse estas modalidades de transformacin de las
puntuaciones directas como sistemas o modos de calificacin, pero la
informacin que aportan puede ser tambin til con esta finalidad.
2. PROPORCIN DE RESPUESTAS CORRECTAS

En el caso de tests de rendimiento (pruebas objetivas) una transformacin sencilla de las puntuaciones directas consiste en calcular la proporcin
82
(porcentaje si multiplicamos por 100) de respuestas correctas. 20 respuestas

correctas de un total de 25 es igual al 80 % de respuestas correctas (20/25 =
.80); en cambio 20 respuestas correctas de un total de 50 es igual al 40 % de
respuestas correctas (20/50= .40).
Esta proporcin de respuestas correctas aporta una informacin sobre cada sujeto que no es relativa al grupo y es especialmente til en exmenes y
otras pruebas de rendimiento acadmico (pruebas tipo test), cuando va a seguir una calificacin. Pero no siempre hay respuestas correctas en sentido
propio (por ejemplo en un test de personalidad o en una escala de actitudes).
Otros tipos de puntuaciones que son relativas al grupo (como los percentiles) son ms tiles en otro tipo de medidas (tests de variables no cognitivas) y en cualquier caso, incluso en tests de rendimiento acadmico, aportan un tipo distinto de informacin que con frecuencia es de interpretacin
ms til y sencilla, o la nica apropiada.
3. PUNTUACIONES DIFERENCIALES
Se denominan puntuaciones diferenciales a la diferencia entre cada puntuacin directa y la media de su distribucin.
Un smbolo frecuente de estas puntuaciones es x (equis minscula) y
tambin, para evitar confusiones con el smbolo de las puntuaciones directas
(X, equis mayscula), a veces se utiliza d:
x = d = (X -X)
Las puntuaciones superiores a la media tendrn signo positivo, y las inferiores tendrn signo negativo. Estas puntuaciones no suelen utilizarse como
expresin habitual de resultados individuales, pero intervienen en el clculo de las puntuaciones tpicas (y de la desviacin tpica como ya se vio en su
lugar).
4. L AS PUNTUACIONES TPICAS
4.1. Qu son las puntuaciones tpicas
Una puntuacin tpica expresa en cuntas desviaciones tpicas se aparta una puntuacin individual de la media de su grupo.
Las puntuaciones tpicas son por lo tanto puntuaciones diferenciales (diferencias con respecto a la media) expresadas tomando como unidad la desviacin tpica (s). En las puntuaciones tpicas s se puede decir que hay una unidad, que es la desviacin tpica.
83
El smbolo de las puntuaciones tpicas es z (zeta minscula); tambin

suelen denominarse simplemente puntuaciones zeta y a veces puntuaciones
estandarizadas (standard score en ingls). Su frmula es:
Puntuacin obtenida-media
Puntuacin tpica (z) =
desviacin tpica
Y en smbolos convencionales
[1]
El valor de z indica por lo tanto cuntas desviaciones tpicas contiene la diferencia X - X (a cuntas desviaciones tpicas equivale esa diferencia); la desviacin tpica es ahora nuestra unidad de medicin; el dato individual lo expresamos en trminos de desviaciones tpicas por encima o por debajo de la
media.
Por ejemplo imaginemos los resultados de tres sujetos (suponemos que la
muestra es mayor) en un examen; la media es X = 10 y la desviacin tpica es
s = 2 (tabla 1)
Tabla 1
La puntuacin directa de estos tres sujetos ha quedado transformada en

un nuevo valor.
En este ejemplo ya podemos ir viendo que:
a) Si un sujeto tiene un resultado igual a la media, su puntuacin tpica
ser igual a cero; al restar a todos la media, el que tenga como resultado personal la media se queda en cero.
b) Todos los que tengan una puntuacin directa superior a la media, tendrn una puntuacin tpica con signo positivo;
c) Todos los que tengan una puntuacin directa inferior a le media, tendrn una puntuacin tpica con signo negativo.
84
Todos los datos quedan por lo tanto distribuidos en torno a una media =
0. El orden de los sujetos es naturalmente el mismo (el primero sigue siendo
el primero, etc.), pero los valores absolutos son muy distintos.
Por lo general estos valores, de signo ms y signo menos, tienen decimales
(se suelen conservar dos decimales) y los valores extremos tienden a estar entre -3 y + 3 cualquiera que sea la magnitud de las puntuaciones originales; es
muy difcil superar estos valores por encima o por debajo como se ha visto al
tratar de la distribucin normal.
Ya podemos ir intuyendo la utilidad de estas puntuaciones tpicas, por ejemplo para comparar y valorar resultados individuales. De todas las puntuaciones
derivadas, las puntuaciones tpicas son probablemente las ms interesantes y las
ms tiles. Su relacin con la distribucin normal las hace sumamente tiles.
4.2. Propiedades de las puntuaciones tpicas
Las puntuaciones tpicas tienen propiedades que las hacen especialmente
tiles:
1 La suma de las puntuaciones tpicas elevadas al cuadrado es igual al
nmero de sujetos:
Sz2= N
porque
Esta propiedad no tiene especial inters prctico, pero se utiliza en algunas demostraciones (por ejemplo, para demostrar que la desviacin tpica de
las puntuaciones tpicas es igual a 1, lo mismo que el valor mximo del coeficiente de correlacin de Pearson).
2 La media de las puntuaciones tpicas es igual a cero:
Z
=0
Sz
porque z = = 0
N
las zetas negativas y positivas se anulan mutuamente.

Si la media de las puntuaciones tpicas es cero, todas las puntuaciones directas superiores a la media tendrn una puntuacin tpica
positiva, y si son inferiores a la media, tendrn una puntuacin tpica negativa.
3 La desviacin tpica y la varianza de las puntuaciones tpicas es
igual a la unidad:
85
El que la desviacin tpica de las puntuaciones tpicas sea igual a 1 tiene

consecuencias importantes. En una combinacin de puntuaciones parciales,
la que pesa ms en la media final es aquella con una mayor desviacin tpica.
Si calculamos una media a partir de las puntuaciones tpicas, todas las puntuaciones parciales pesarn lo mismo, porque todas tendrn idntica desviacin
tpica.
4 Si sumamos a todas las puntuaciones directas una constante, la desviacin tpica permanece idntica, porque se mantienen idnticas las
distancias con respecto la media.
Lo podemos ver en las tres series de puntuaciones puestas en la tabla [2].
Tabla 2
En B hemos sumado 12 puntos a cada sujeto con respecto a A, y en C hemos sumado 80 a las puntuaciones de B. Naturalmente las medias son distintas, pero las desviaciones tpicas son idnticas porque las distancias inter-individuales son las mismas: el grado de homogeneidad (diferencias de los
sujetos con respecto a su media) de los tres grupos es el mismo.
5 Si multiplicamos todas las puntuaciones directas por una constante,
la desviacin tpica queda multiplicada por esa constante, porque
en esa cantidad ha aumentado la diferencia con respecto a la media.
Lo vemos en este ejemplo:
grupo A:
8
grupo B (= Ax2):
16
10
20
12
24
media: 10
media: 20
s = 1.63
s = 3.26
Al multiplicar por dos las puntuaciones del grupo A, la desviacin tpica (lo
mismo que la media) tambin queda multiplicada por dos (1.63 x 2 = 3.26).
Estas dos propiedades son importantes porque nos permiten transformar
las puntuaciones tpicas en otras ms cmodas; son las puntuaciones tipificadas que veremos ms adelante.
86
6 En la distribucin normal hay una relacin exacta entre cada puntuacin tpica y el nmero de casos que caen por encima y por debajo de cada puntuacin, o lo que es lo mismo:
a) En la distribucin normal conocemos la probabilidad que tiene de
ocurrir cada puntuacin tpica,
b) En la distribucin normal a cada puntuacin tpica le corresponde
siempre el mismo percentil (o proporcin de sujetos o casos que
caen por debajo de esa puntuacin).
En estas propiedades radican muchas de las ventajas y de los usos de estas
puntuaciones y de sus puntuaciones derivadas, que veremos a continuacin,
como son las puntuaciones tipificadas y las puntuaciones normalizadas.
4.3. Utilidad de las puntuaciones tpicas
1. Al traducir todas las puntuaciones directas a puntuaciones tpicas tenemos una nica escala mtrica cualquiera que sea la magnitud de las puntuaciones originales, por lo que podemos comparar unos resultados con otros
con ms objetividad y realismo que si lo hacemos con las puntuaciones directas. Podemos comparar, por ejemplo, peso con altura (qu es ms, 58 Km. de
peso 1.69 m de altura?) o 20 respuestas correctas en un examen de 30 preguntas con otro resultado de 20 respuestas correctas en un examen de 50
preguntas.
Todo tipo de puntuacin, cualquiera que sea la unidad original, queda
transformado en un sistema comn; por lo tanto se puede comparar todo
con todo: resultados de exmenes con niveles de dificultad muy distintos, calificaciones puestas con criterios de exigencia distintos, etc., y tambin resultados que provienen de instrumentos distintos cuyas puntuaciones directas
no seran comparables (por ejemplo si el nmero de preguntas es distinto, o
si una es una prueba objetiva y otra una prueba abierta, etc.). Adems ya sabemos que en las puntuaciones tpicas la media es siempre 0 y la desviacin tpica es siempre 1 por lo que las puntuaciones superiores a la media son positivas, y las puntuaciones inferiores a la media son negativas. Una puntuacin
que coincida con la media del grupo, equivale siempre a una puntuacin tpica de cero.
2. Concretamente en el caso de exmenes (y en otros casos, pero el ejemplo de los exmenes es muy claro) las puntuaciones tpicas reflejan mejor
dnde est un sujeto (en trminos relativos, comparado con el resto de los
sujetos) independientemente de la facilidad o dificultad del examen.
Tenemos por ejemplo estos datos de dos exmenes de 20 preguntas (con
distinta media e idntica desviacin tpica):
87
media:
desviacin tpica
examen fcil
18
1.6
examen difcil
8
1.6
Un alumno que en el examen fcil tenga 13 respuestas correctas tendr

esta puntuacin tpica:
No es un mal resultado en trminos absolutos (65%
de respuestas correctas) pero la puntuacin tpica
es muy baja; no sabe lo que sabe la mayora de sus
compaeros.
Un alumno que en el examen difcil tambin tenga 13 respuestas correctas tendr esta puntuacin tpica:
Tiene tambin un 65% de respuestas correctas, pero
la puntuacin tpica es muy alta; este alumno sabe
lo que no sabe la mayora de sus compaeros.
Estas puntuaciones tpicas reflejan mejor lo que saben estos alumnos teniendo en cuenta la facilidad o dificultad del examen.
Vamos a verlo con un ejemplo real: 48 alumnos responden a tres supuestos exmenes; cada examen consta de 8 preguntas, que son los nombres de
otras tantas ciudades; los alumnos tienen que responder identificando el pas donde est cada ciudad. En un examen se trata de ciudades fciles, en otro
de ciudades menos fciles y en el tercero de ciudades pretendidamente difciles.
En la tabla 3 tenemos las distribuciones de frecuencias, la media y desviacin de cada examen y la puntuacin tpica que corresponde a cada resultado
en cada uno de los tres exmenes3.
3
Ciudades ms fciles: Londres, Oporto, Venecia, Canberra, Dubln, Miln, Coimbra
y Bruselas.
Ciudades menos fciles: Montreal, Toronto, Madrs (ahora Chennai), Macao, Yakarta,
Bucarest, Praga y Orn.
Ciudades difciles: Iquitos, Manaos, Zamboanga, Sanaa, Cahabn, Chichicastenango,
Champerico y Kuala-Lampur (Iquitos est en Per, Manaos es la capital de la amazona brasilea, Zamboanga est en la isla filipina de Mindanao, Sanaa es la capital del Yemen, Kuala-Lampur es la capital de la Federacin Malaya; Cahabn, Chichicastenango y Champerico
no tienen especial dificultad si se conoce Guatemala).
88
Tabla 3
Qu podemos observar en estos datos.

Al menos podemos fijarnos en que la puntuacin tpica ms alta es z =
5.99 en el examen ms difcil: saber tres ciudades difciles es mucho ms que
saber las ocho fciles (z = 1.57), e incluso conocer una sola ciudad difcil (z =
1.82) supone ms que conocer las ocho fciles. Tambin conocer donde estn
cuatro ciudades de las menos fciles (z = 1.64) es ms que conocer todas las
fciles. Si nos fijamos en las puntuaciones tpicas ms bajas de cada examen,
vemos que la ms baja corresponde a conocer dos ciudades fciles (z = -2.61)
y el no conocer ninguna ciudad difcil tiene una puntuacin mayor (z = -.26)
que conocer solamente cinco ciudades fciles (z = -.52).
Cuando las medias de dos exmenes (por ejemplo) son idnticas (o muy parecidas) pero las desviaciones tpicas son muy distintas, las puntuaciones tpicas
que corresponden a cada puntuacin directa pueden ser tambin muy distintas.
Vamos a suponer que tenemos tres puntuaciones directas, 14, 12 y 10, obtenidas en dos exmenes distintos y que son en este ejemplo el nmero de
respuestas correctas de tres alumnos (tabla 4). En los dos exmenes la media
es la misma (e igual a 12; lo suponemos as) pero las desviaciones tpicas son
muy distintas (s = 2 en el examen A y s = 4 en el examen B). En cada caso el
mismo nmero de respuestas correctas (puntuacin directa) va a equivaler a
puntuaciones tpicas muy distintas.
Tabla 4
89
Aqu vemos que un resultado de:

14 respuestas correctas vale ms en el examen A (z = +1) que en el examen B (z = +0.5)
10 respuestas correctas vale menos en el examen A (z = -1) que en el examen B (z = -0.5)
Es decir, una misma diferencia con respecto a la media equivale a una puntuacin tpica mayor (positiva o negativa) en la medida en que la desviacin
tpica es ms pequea. Dicho de otra manera, una diferencia con respecto a
la media es mayor al convertirla en una puntuacin tpica cuando el grupo
es ms homogneo (y tiene una desviacin tpica pequea). Y el estar por debajo de la media resulta en una puntuacin tpica tambin ms baja cuando el
grupo es ms bien homogneo.
3. Las puntuaciones tpicas permiten calcular medias, si se desea, sin que
ninguna puntuacin parcial pese ms que otra, pues en todas las puntuaciones parciales la desviacin tpica es la misma (siempre s = 1 en las puntuaciones tpicas).
Esto puede ser especialmente til cuando las calificaciones (u otro tipo de
datos) proceden de profesores distintos, o de exmenes o situaciones muy
distintas: podemos calcular la puntuacin tpica de cada sujeto en cada situacin y calcular la puntuacin tpica media; en este caso todas las puntuaciones parciales pesan en principio lo mismo. Si se desea que alguna puntuacin
parcial pese ms por alguna razn, se puede ponderar despus esa puntuacin parcial ya convertida en tpica (o tipificada como veremos despus). Estas puntuaciones tpicas medias se pueden convertir despus en calificaciones convencionales.
4. Las puntuaciones tpicas permiten apreciar resultados atpicos, objetivar mejor resultados extremos ya que sabemos las probabilidades de ocurrencia de cada puntuacin tpica.
Esto es posible dada la relacin entre las puntuaciones tpicas y la distribucin normal. Si conocemos el valor de una puntuacin tpica, podemos conocer
la probabilidad que tiene de darse por azar (nos basta consultar las tablas de la
distribucin normal). En general un 68% del grupo est entre +1 y -1 puntuaciones tpicas (entre esos lmites se puede considerar que est aproximadamente la
normalidad estadstica), y puntuaciones que superen +2 o no lleguen a -2 son
aproximadamente el 5%. Prcticamente el 100% de los casos est comprendido
entre z = +3 y z = -3. En un ejemplo ilustrativo puesto antes, 13 respuestas correctas en el examen fcil es un resultado atpicamente bajo, y en el examen
difcil 13 respuestas correctas es un resultado atpicamente alto. En los exmenes de ciudades de la tabla 3, conocer 7 ciudades de las no tan fciles o 3 de las
ms difciles son resultados anormalmente altos.
5. Las puntuaciones tpicas pueden ser un buen marco de referencia
(aunque no necesariamente) para establecer criterios de calificacin, pero
90
teniendo siempre en cuenta que se trata de puntuaciones relativas al grupo, por lo que es discutible utilizarlas para establecer el nivel mnimo para
el apto (que es preferirle determinar con otros criterios; el que sabe menos
puede saber lo suficiente). Es menos cuestionable su uso para asignar las
calificaciones ms altas (una puntuacin tpica en torno a +2, e incluso menor, indica ya un resultado excelente para lo que de hecho da de s un determinado grupo).
6. Para interpretar debidamente las puntuaciones tpicas hay que tener en
cuenta de qu tipo de datos se trata: no es lo mismo nmero de respuestas
correctas en una prueba objetiva que las calificaciones puestas por el profesor al corregir un examen abierto, notas, etc.
En principio estos clculos son de interpretacin ms clara cuando estn
hechos a partir de puntuaciones o resultados directos ms que cuando los
nmeros expresan calificaciones o juicios de valor.
4.4. Puntuaciones tipificadas (puntuaciones tpicas transformadas)
Las puntuaciones tipificadas son puntuaciones derivadas de las puntuaciones tpicas. El smbolo general de las puntuaciones tipificadas es Z (zeta mayscula); algunas puntuaciones tipificadas tienen sus smbolos particulares.
Las puntuaciones tpicas son incmodas para expresar resultados porque:
a) Prcticamente siempre tienen decimales,
b) Ms o menos la mitad de las puntuaciones tpicas tienen signo menos
(todas las inferiores a la media).
Por estas razones, y sobre todo para poder expresar resultados de tests de
manera ms fcilmente comprensible, suelen transformarse en otras puntuaciones ms cmodas.
Se trata de una transformacin linear, cuya frmula genrica es
Z = (z a) + b
[2]
donde a y b son dos constantes.
Es decir, todas las puntuaciones tpicas:
1 Se multiplican por una cantidad constante (a) y as se eliminan los decimales (estas puntuaciones se redondean y se expresan sin decimales);
2 Se les suma una cantidad constante (b) y as se elimina el signo menos.
Entre las puntuaciones tipificadas son muy utilizadas las puntuaciones T:
T = 10z + 50
[3]
Tambin es frecuente hacer estas transformaciones:
91
Z = 20z + 100
Z = 15z + 100
Z = 100z + 500
Al tipificar una serie de puntuaciones, automticamente tenemos una nueva media y una nueva desviacin tpica, que son siempre las mismas cualquiera que sea la escala mtrica de las puntuaciones directas originales:
1. La nueva media es igual a la constante que se suma a todas las puntuaciones.
Un sujeto cuya puntuacin directa coincidiera con la media de la distribucin, tendra z = 0, y su puntuacin T (frmula [3]) sera 10(0) + 50
= 50; si la constante que se suma es 100, la media sera 100, etc.
2. La nueva desviacin tpica es igual a la constante por la que se han
multiplicado las puntuaciones tpicas.
Un sujeto cuya puntuacin directa supere en una desviacin tpica a la
media, tendra una puntuacin tpica de z = 1, y su puntuacin T sera
T = 10(1) + 50 = 60 (la media, 50, + 1s = 50 +10).
Podemos establecer que los valores de la media y de la desviacin sean los
que queramos. Si deseamos transformar las puntuaciones de manera que la
media sea 20 y la desviacin tpica valga 5, tendremos que Z = 5z + 20, etc.
Lo mismo que en las puntuaciones tpicas, a cada puntuacin tipificada le
corresponde en la distribucin normal el mismo percentil.
Las puntuaciones tipificadas resultan mucho ms fciles de interpretar que
las puntuaciones directas, sobre todo cuando se trata de tests. Si los resultados de un test de inteligencia se han transformado de esta manera (como es
frecuente) Z = 20z + 100:
Un sujeto con una puntuacin de 100 est en la media (porque a la media
le corresponde una z igual a 0: (20)(0)+100 = 100.
Un sujeto que tenga 160 supera a la media en tres desviaciones tpicas
(100 +20 +20 +20); que es ya excepcional.
Un sujeto que tenga 60 (100 - 20 -20) est a dos desviaciones tpicas por
debajo de la media, y ya se va apartando mucho de la normalidad.
5. PERCENTILES
5.1. Concepto e interpretacin
1 Los percentiles indican el tanto por ciento de sujetos que estn por debajo de cada puntuacin.
Los percentiles son por lo tanto fciles de interpretar, de entender y de comunicar. Si un sujeto con una puntuacin de 19 (en un test, en una prueba
objetiva, etc.) supera al 45% de su grupo:
92
La puntuacin 19 es el percentil 45 (P45),

Del sujeto se dice que tiene un rango percentil de 45.
El percentil indica la posicin relativa del sujeto en el grupo, sin referencia a niveles absolutos. En sentido propio no se trata de una puntuacin porque no est referido al rasgo o variable que se ha medido; no hay una unidad: entre dos percentiles contiguos no hay la misma distancia en aquello
que estamos midiendo. As si un sujeto en un examen est en el Percentil 80,
no podemos decir que sabe el doble del que est en el Percentil 40, sino que
tiene por debajo el doble nmero de sujetos.
Por ejemplo, un sujeto que tenga en un examen de conocimientos un rango percentil de 98 supera al 98% de su clase, pero esto no quiere decir que sepa mucho en trminos absolutos, sino que sabe ms que la mayora. Y a la
inversa, un sujeto puede estar en el Percentil 5 (el 95% est mejor que l) y
saber lo suficiente. Por esta razn los percentiles pueden ser muy discutibles
como dato para establecer calificaciones.
Naturalmente si los percentiles de un test de conocimientos se han calculado en una muestra muy amplia (no en una clase normal), tiene ms sentido decir que el que est en el percentil 95 sabe mucho y que el que est en el
percentil 5 sabe poco, pero en definitiva siempre hay que sobrentender comparado con los dems que han respondido a ese test y con los que se calcularon esos percentiles.
Si no se trata de un examen de conocimientos, sino, por ejemplo, de un
test de neuroticismo posiblemente podemos decir, y tiene sentido, que el sujeto que est en el percentil 95 es muy neurtico, porque en el lenguaje convencional solemos decir que una persona es muy simptica, o muy sociable,
etc. cuando es ms simptica, sociable, etc. de lo normal, y lo normal es lo
que solemos ver en la mayora de la gente. Pero hay que tener claro que siempre se trata de valoraciones relativas al grupo cuyas respuestas han servido
para calcular esos percentiles.
2 Para interpretar adecuadamente los percentiles individuales, estos tienen
que estar calculados en una muestra de referencia apropiada.
Como el marco de referencia para interpretar los percentiles es el grupo,
no se debe comparar (y evaluar, juzgar) a un sujeto tomando como referencia un grupo que no sea o no pueda ser el suyo. Hace falta siempre un grupo de referencia apropiado.
Las normas de interpretacin (o baremos) que vienen publicadas en muchos tests son con frecuencia percentiles (puede tratarse de otro tipo de puntuaciones) calculados previamente en una muestra distinta. Siempre hay que
considerar si esa muestra es un buen grupo de referencia (y por lo tanto un
buen trmino de comparacin) para los nuevos sujetos que responden al
93
test. En cualquier caso este tipo de normas de interpretacin (percentiles y

otras) hay que renovarlos cada cierto tiempo (como ya hemos indicado, la
edad media de un test, o ms bien de sus baremos o normas de interpretacin, puede no ser superior a 10 aos; con el tiempo pueden variar actitudes
sociales, niveles educativos, capacidad lectora, etc.).
Con frecuencia es preferible calcular unos nuevos percentiles para muestras quizs muy distintas de las que sirvieron para hacer los baremos originales (y esta observacin es vlida tambin para otros tipos de normas de los
tests, no slo para los percentiles).
3 Algunos percentiles tienen nombres y smbolos especficos:
1. Deciles: son los percentiles 10, 20, etc., y se simbolizan D1, (= P10), D2,
(= P20), etc.
2. Cuartiles: son los percentiles que dividen al grupo en cuatro partes
con idntico nmero de sujetos (el 25%):
Q3 (tercer cuartil) = P75: por encima est el 25 % de la muestra;
Q2 (segundo cuartil) = P50; se trata de la mediana, que se utiliza
como medida de tendencia central; divide al
grupo en dos partes iguales
Q1 (primer cuartil) = P25: por debajo est el 25% de la muestra
Estos tres valores se calculan a veces como puntos de referencia y para hacer determinadas representaciones grficas (como los diagramas de cajas).
4 Con los valores de Q1 y Q3 se calcula la desviacin semi-intercuartlica:
[4]
Desviacin semi-intercuartlica:
a) La desviacin semi-intercuartlica Q es la medida de dispersin que

se utiliza cuando la medida de tendencia central es la mediana. Mide la dispersin en el 50% central de la muestra. Lo podemos ver con
los datos concretos de un test en la figura 1.
b) Tanto los deciles como los cuartiles se calculan por el mtodo de interpolacin que veremos ms adelante.
c) Los valores de Q1 y Q3 se calculan con decimales cuando se van a utilizar en el clculo de Q.
d) La mediana y Q, como medidas de tendencia central y dispersin, se
utilizan preferentemente con distribuciones muy asimtricas y en cualquier caso son medidas descriptivas complementarias, aunque menos
utilizadas que la media y la desviacin tpica;
e) La mediana y Q, como medidas de tendencia central y dispersin, son
especialmente tiles siempre que se prefiera que sujetos con puntua-
94
Figura 1
ciones muy extremas no influyan en las medidas de tendencia central y

de dispersin porque en su clculo slo se tiene en cuenta el 50% central de la muestra.
5 Una limitacin importante es que entre percentil y percentil no hay una
unidad constante en sentido propio y referida a aquello que se est midiendo.
Del Percentil 95 al 90 no hay la misma distancia que del Percentil 45 al 40; s
hay una proporcin igual de sujetos (un 5%), pero no una cantidad de ciencia
(o de otra variable o rasgo) igual. Por la misma razn no se puede afirmar que
el que est en el Percentil 80, si se trata de un test de conocimientos, sabe el doble del que est en el Percentil 40 (o que es el doble de neurtico si se trata de
un test de neuroticismo). De hecho las distancias en la variable medida son mucho mayores entre los percentiles extremos (muy altos o muy bajos) que entre
los percentiles del centro de la distribucin (entre el Percentil 80 y el 85, o entre el 10 y el 15, hay ms distancia que entre el Percentil 40 y el 45).
Al no haber una unidad no se pueden sumar y calcular percentiles medios
pues se prestan a interpretaciones equvocas. Si los diversos percentiles son
muy parecidos, la informacin del percentil medio ofrece menos distorsin,
pero en principio no se deben hacer manipulaciones aritmticas con los
percentiles porque se trata de puntuaciones ordinales; para hacer operaciones aritmticas con los percentiles se deben convertir antes en puntuaciones
tpicas (que a su vez se pueden despus convertir en percentiles segn la distribucin normal).
Una manera de entender o ms bien de visualizar que entre percentiles
contiguos no hay una unidad en sentido propio es imaginarlos como una es-
95
calera de peldaos de altura desigual: los peldaos de los extremos (los ms

altos y los ms bajos) son mayores, de mayor altura que en el centro. Esto se
entiende mejor al ver la relacin entre percentiles y puntuaciones tpicas en
la distribucin normal.
6 En la distribucin normal existe una correspondencia exacta entre percentiles y puntuaciones tpicas.
En la distribucin normal, a cada percentil le corresponde siempre la misma puntuacin tpica. El que por ejemplo supere a la media en una desviacin tpica (z = 1), estar en el Percentil 84 (aproximadamente).
Tabla 5
En la tabla 5 podemos ver:

1 Cmo a una puntuacin tpica de z = 0 (la media), le corresponde el
percentil 50 (caen por debajo el 50% de los sujetos); a una z = 1, le corresponde el percentil 84 (caen por debajo el 84% de los sujetos), etc.;
en las tablas de la distribucin normal podemos encontrar los percentiles exactos para cada puntuacin tpica.
2 Cmo los percentiles se acumulan en el centro de la distribucin; por
ejemplo, entre z = 0 y z = 1 hay 34 percentiles, en cambio entre z =
+1 y z = +2 hay 14 percentiles, y por encima de z = +2 (como por debajo de z = -2) solamente hay dos percentiles. La misma cantidad (de
lo que se est midiendo) est repartida de manera desigual; dicho en
trminos simples, los percentiles extremos tocan a ms (como se puede observar en la tabla 5).
Esto es lo que quiere decir que entre los percentiles no hay una unidad, y
que la distancia entre percentil y percentil en aquello que se mide (no en nmero de sujetos) es mayor en los extremos de la distribucin. Un percentil
ms o un percentil menos por el centro de la distribucin, no supone una diferencia importante, pero s en los extremos. Por esta razn en la interpretacin de los tests (por ejemplo de personalidad) hay que prestar ms atencin
a los percentiles extremos.
96
En la figura 2 podemos ver tambin (grficamente y de manera aproximada) cmo una misma diferencia en percentiles no corresponde a diferencias
iguales en puntuaciones tpicas, donde s cabe hablar de una unidad (la desviacin tpica).
Figura 2
Entre los percentiles 95 y 75 existe la misma diferencia en percentiles

que entre los percentiles 75 y 55, pero si substituimos los percentiles por las
puntuaciones tpicas que les corresponden, las diferencias son muy desiguales. Del percentil 75 al 95 hay una distancia mayor (.97 s) que del percentil
55 al 75 (.55 s) cuando utilizamos como unidad la desviacin tpica.
5.2. Clculo de los percentiles
Hay varios mtodos para calcular los percentiles:
1. El clculo directo; es el ms frecuente y se utiliza siempre que deseamos calcular los percentiles para la interpretacin de resultados individuales.
2. El clculo por interpolacin: se utiliza sobre todo cuando interesa conocer el valor de percentiles especficos que quizs (y frecuentemente)
ningn sujeto ha obtenido (como la mediana, o Percentil 50 y los Percentiles 75 y 25, y otros como los deciles).
3. Tambin podemos calcular los percentiles mediante el grfico de las
frecuencias relativas acumuladas.
4. Podemos calcular tambin los percentiles a partir de los valores de la
media y de la desviacin tpica (y puede ser muy til cuando no dis-
97
ponemos de todos los datos de todos los sujetos), pero ya veremos

que en este caso se trata de percentiles normalizados (los que corresponden a la distribucin normal, y lo veremos al tratar las puntuaciones normalizadas).
5.2.1. Clculo directo
Es el clculo habitual de los percentiles. Lo explicamos con un ejemplo resuelto en la tabla 6.
Tabla 6
Los smbolos utilizados son:

X = Puntuaciones directas, ordenadas de mayor a menor. En este
ejemplo estn agrupadas de tres en tres para que no haya un nmero excesivo de intervalos o de divisiones. Lo habitual es agrupar las
puntuaciones directas para que no haya un nmero excesivo de in-
98
f =
fa =
fam=
tervalos; unos 10 12 es lo normal; ms de 15 puede ser ya excesivo (cmo hacer esta agrupacin est explicado al comienzo, al tratar de la distribucin de frecuencias).
Valor o amplitud del intervalo; aqu i = 3 porque las puntuaciones
estn agrupadas de tres en tres. Si las puntuaciones estuvieran sin
agrupar (una sola puntuacin en cada intervalo) tendramos i =1.
No hay que confundir el nmero de intervalos (10 en este caso),
con el valor del intervalo (que interviene en algunas frmulas, como en el clculo de percentiles por interpolacin).
Frecuencia, o nmero de casos en cada intervalo.
Frecuencias acumuladas: se van sumando las frecuencias de abajo
arriba. La frecuencia acumulada en el intervalo superior debe ser
igual al nmero de sujetos (es til caer en la cuenta para detectar
posibles errores; en este caso N = 40 = fa en el intervalo ms alto).
Frecuencias acumuladas al punto medio; a cada frecuencia acumulada se le resta la mitad de su f correspondiente.
Tambin se calculan a veces los percentiles a partir de las frecuencias
acumuladas (P = [fa/N] 100), pero lo convencional es hacerlo a partir de las frecuencias acumuladas al punto medio. La razn de hacerlo as es porque suponemos que cada uno de los que estn en cada
intervalo (si pudiramos matizar mucho la medicin) superan a la
mitad de los que tienen idntica puntuacin y tienen por encima a la
otra mitad. Se supone que los que aparecen igualados en realidad
son distintos y as apareceran si los midiramos matizando ms.
Percentil, o tanto de por ciento de sujetos que caen debajo de cada puntuacin. Los percentiles se redondean y se presentan sin
decimales.
En la tabla 6 vemos que un sujeto con una puntuacin directa (nmero de

respuestas correctas, suma de todas sus respuestas, etc.) que est entre 26 y
28, tiene un rango percentil de 72, o tiene por debajo (supera) al 72% del
grupo en el que se han calculado los percentiles.
5.2.2. Clculo por interpolacin
Con frecuencia interesa conocer el valor de determinados percentiles; por
ejemplo:
La mediana o P50, y los percentiles 75 y 25 (P75 o Q3 y P25 o Q1) como
datos descriptivos o para calcular la medida de dispersin Q,
Los deciles (P10, P20, P30, etc. tambin simbolizados como D1, D2, D3,
etc.) para simplificar la interpretacin de un test, dando slo estos
percentiles como referencia.
99
El clculo directo de los percentiles no suele darnos estos valores a no ser

que un sujeto los haya obtenido, por lo que es necesario hacer el clculo por
interpolacin.
El procedimiento puede parecer complicado a primera vista, pero es muy
simple si se procede con orden y se tiene a la vista un ejemplo resuelto, como
lo hacemos aqu con los datos de la tabla 7.
Tabla 7
Vamos a calcular, por ejemplo, el Percentil 75. Corresponder a la puntuacin que deje por debajo al 75% de la muestra.
1 Calculamos el nmero de sujetos que necesitamos. El 75% de 58 es
igual a (58)(.75) = 43.5. El Percentil 75 ser la puntuacin que deje por
debajo a 43.5 sujetos o 75% de 58.
2 Buscamos en las frecuencias acumuladas, el nmero de sujetos que
necesitamos, que son 43.5
En este caso, como ninguna puntuacin deja por debajo a 43.5 sujetos,
localizamos la frecuencia acumulada inmediatamente inferior a la
que vamos buscando, que es 42; en la siguiente, que es 50, ya nos hemos pasado.
3 Identificamos el lmite superior de la puntuacin que corresponde a
la frecuencia acumulada localizada en el paso 2; en este caso el
percentil 75 tendr un valor de por lo menos 16.5 (sumamos medio
punto, .5, al valor superior del intervalo).
4 Calculamos el nmero de sujetos que todava nos faltan.
100
Tenemos 42 y necesitamos 43.5, por lo tanto nos faltan 1.5 sujetos (=

nmero de sujetos que necesito [paso 1] menos nmero de sujetos
que tengo [paso 2]).
5 Del intervalo siguiente tomamos la parte proporcional de sujetos que
necesitamos; para esto dividimos el nmero de sujetos que nos faltan
por la frecuencia (o nmero de sujetos) del intervalo inmediatamente superior: 1.5/8 = .1875
6 Esta cantidad la multiplicamos por el valor del intervalo. El valor del
intervalo es igual al nmero de puntuaciones que hay en cada intervalo; en este caso este valor es igual a 1 porque las puntuaciones van de
una en una. Si estuvieran agrupadas de dos en dos (9-10, 11-12, etc.) el
valor del intervalo sera igual a dos.
7 La cantidad calculada en el paso anterior la sumamos al lmite superior del intervalo inferior al que contiene el percentil buscado (paso 3), con lo que el valor del Percentil 75 ser igual a 16.5 +.1875 =
16.69.
Expresando todas las operaciones hechas tendramos que:
Si vamos a utilizar este valor para interpretar las puntuaciones de un test o

como dato descriptivo, redondeamos los decimales y obtendremos P75 = 17.
Si vamos a utilizar este valor para otros clculos (por ejemplo para calcular le
valor de Q), dejamos los decimales.
La frmula de los percentiles calculados por interpolacin podemos expresarla tal como se indica en la figura 3
Figura 3
5.2.3. Clculo de los percentiles mediante la representacin

grfica de las frecuencias relativas acumuladas
Una representacin grfica frecuente de las puntuaciones directas es la de
las frecuencias relativas acumuladas. La utilidad de esta representacin grfica est en que permite un localizar de manera muy aproximada, sin hacer
101
ningn clculo, los percentiles correspondientes a cada puntuacin directa o

a cada intervalo.
Posiblemente es preferible calcular los percentiles directamente, sin ayuda
de grficos, dada la facilidad de clculo que permiten las calculadoras y programas de ordenador. Aun as este mtodo puede ser til, sobre todo cuando
los sujetos son muchos; utilizando papel milimetrado da resultados muy
exactos. En cualquier caso la representacin grfica de las frecuencias acumuladas puede ser de utilidad independientemente de que se estimen los percentiles con este procedimiento.
En primer lugar hay que calcular las frecuencias acumuladas relativas o
percentiles (frecuencias acumuladas de cada intervalo divididas por el nmero de sujetos). En la tabla 8 estn los datos que han servido para hacer (de
manera aproximada) el grfico de las frecuencias acumuladas.
Tabla 8
fa: Frecuencias acumuladas. Vamos sumando de abajo arriba, de manera que cada valor de fa (frecuencia acumulada) indica el nmero de
sujetos que tienen una puntuacin igual o inferior a la del intervalo.
As a la puntuacin directa 51-53 le corresponde una frecuencia acumulada de 9: 9 sujetos tienen una puntuacin de 53 o ms baja.
Cuando calculamos los percentiles por el mtodo habitual, las frecuencias suelen acumularse al punto medio, como hemos visto ya en el clculo directo.
(fa/N)/100: Es el tanto por ciento de sujetos que tienen esa puntuacin o
ms baja; son las frecuencias acumuladas relativas. Si no multiplica-
102
mos por 100, lo que tenemos es la proporcin (no porcentaje) de sujetos que tienen esa puntuacin o una puntuacin menor
Las columnas X y f son las mismas que hemos visto antes (X = puntuaciones directas agrupadas y f = frecuencia o nmero de casos en cada intervalo).
Estas frecuencias relativas acumuladas suelen redondearse, sin poner
decimales.
Una vez que tenemos las frecuencias acumuladas relativas o percentiles,
podemos hacer ya un grfico como el de la figura 4
El procedimiento para construir el grfico de las frecuencias acumuladas
es el siguiente:
1 En primer lugar calculamos los percentiles o frecuencias acumuladas
relativas que corresponden a cada puntuacin (tabla 8). Este clculo
tambin puede hacerse sin agrupar las puntuaciones (con intervalos de
i = 1), pero normalmente las agrupamos para tener un nmero de intervalos manejable.
2 En el eje vertical (eje Y, de las ordenadas) no ponemos las frecuencias,
sino los porcentajes. Dividimos este eje vertical (Y) de 1 a 100. Ya hemos indicado que estos grficos es preferible hacerlos con papel milimetrado, que simplifica mucho la confeccin del cuadro y se gana en
exactitud.
3 En el eje horizontal (X, de las abscisas) sealamos los lmites superiores de cada intervalo (y esto por el mismo concepto de frecuencia
acumulada, nos situamos en el lmite superior de cada posible puntuacin).
4 Por cada intervalo situamos el punto donde confluyen el lmite superior del intervalo y la frecuencia acumulada relativa calculada previamente. Los puntos resultantes se unen mediante una curva (en el
ejemplo se ha hecho con rectas y slo de manera aproximada). Si la
distribucin es simtrica el grfico tender a tener la forma de una S.
Observando el grfico que nos sirve de ejemplo puede verse cmo se calculan los percentiles, sin necesidad de operaciones. Basta con trazar desde
cualquier percentil (los porcentajes del eje vertical) una paralela al eje X de
las puntuaciones directas, y desde donde esta paralela corta la curva se traza
una perpendicular al eje X, que nos indicar la puntuacin directa correspondiente al percentil buscado.
En este caso la mediana (o percentil 50) es igual a 61: los que tienen una
puntuacin de 61 superan al 50% del grupo.
103
Figura 4:
GRFICO DE LAS FRECUENCIAS RELATIVAS ACUMULADAS (OJIVA)
100
95
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
15
10
5
0
Q3 = P75 = 65
M = P50 = 61
Q2 = P25 = 54
38.5 41.5 44.5 47.5

50.5 53.5 56.5 59.5 62.5 65.5 68.5 71.5 74.5 77.5
6. PUNTUACIONES NORMALIZADAS
Las puntuaciones normalizadas equivalen a las puntuaciones (tpicas o
tipificadas, o percentiles) que habra si la distribucin fuera normal. Por eso
mismo se denominan normalizadas: se supone que la distribucin es normal. Si de hecho la distribucin original se aparta mucho de la distribucin
normal, es discutible hacer esta transformacin. Frecuentemente la distribucin observada es parecida a la normal, y aumentando el nmero de sujetos
podemos suponer que la distribucin no se desviara mucho de la distribucin normal.
Las puntuaciones normalizadas pueden ser o puntuaciones tpicas o percentiles. Lo ms frecuente es que se trate de puntuaciones tpicas (o de sus
puntuaciones derivadas), pero los percentiles normalizados pueden ser sumamente tiles en ocasiones
6.1. Puntuaciones tpicas normalizadas
El proceso de clculo es semejante al clculo directo de los percentiles; realmente seguiremos el mismo proceso, con la diferencia final de que no utilizaremos el percentil sino la puntuacin tpica correspondiente a cada percentil en la distribucin normal.
104
1 Se calcula la proporcin de sujetos que caen debajo de cada puntuacin. Esta proporcin de sujetos se calcula as para cada puntuacin (como se
ha hecho en la tabla 6):
Proporcin de sujetos que caen
por debajo de cada puntuacin
frecuencia acumulada al
punto medio
fam
= =
nmero de sujetos
N
Si multiplicramos esta proporcin por cien, tendramos el percentil

(clculo directo). En ocasiones tambin se utiliza fa/N, o frecuencia acumulada (no al punto medio) dividida por N, pero posiblemente es preferible calcular fam/N, tal como se hace en el clculo habitual de los percentiles (con un
nmero muy grande de sujetos los resultados son casi los mismos); la convencin ms aceptada es utilizar frecuencias acumuladas al punto medio.
Por qu acumulamos las frecuencias al punto medio est explicado al tratar
del clculo directo de los percentiles.
Para hacer los clculos disponemos los datos como figuran en la tabla 9
(que es semejante a la tabla 8; aqu utilizamos un ejemplo ficticio, N = 10).
Tabla 9
En esta tabla 9:
X
= puntuaciones directas
f
= frecuencia o nmero de casos
fa
= frecuencias acumuladas
fam = frecuencias acumuladas al punto medio (fa-f/2)
fam/N= fam dividido por el nmero de sujetos (N)
El procedimiento lo hemos visto con ms detalle al ver el clculo directo

de los percentiles (tabla 6), y podemos recordar que:
a) Las frecuencias acumuladas divididas por el nmero de sujetos (fam/N)
indican la proporcin de sujetos que caen debajo de cada puntuacin
directa.
b) Si multiplicamos estas proporciones por 100, tenemos el tanto por
ciento de sujetos superados por cada puntuacin: en este ejemplo el
105
que tuviera una puntuacin directa de 39 supera al 60% de sujetos del

grupo; la puntuacin 39 corresponde en este caso al percentil 60. Tambin es frecuente denominar percentil a la proporcin (sin multiplicar
por 100).
Una vez conocida la proporcin de sujetos que caen debajo de cada puntuacin, se consulta en las tablas de la distribucin normal a qu puntuacin tpica corresponde esa proporcin4.
Por ejemplo: un sujeto con una puntuacin directa de 38 (en la tabla 9) supera a una proporcin de sujetos del .25 ( 25%). En las tablas de la distribucin normal una proporcin de .25 corresponde a una puntuacin tpica de
z = -.68: esta puntuacin tpica es ya una puntuacin tpica normalizada: es
la que correspondera a una puntuacin directa de 38 si suponemos que distribucin es normal.
6.2. Puntuaciones tpicas normalizadas y agrupadas: los estaninos y
otras puntuaciones
Un tipo de puntuaciones muy utilizado consiste en:
1 Agrupar estas puntuaciones tpicas en intervalos; el criterio para hacer esta agrupacin es que cada intervalo comprenda una misma magnitud en desviaciones tpicas.
2 Numerar estos intervalos de manera consecutiva, y esta numeracin es
la nueva puntuacin normalizada, y as tenemos los estaninos, pentas,
etc.
Con estas agrupaciones minimizamos pequeas diferencias inter-individuales y reducimos el nmero total de puntuaciones distintas; hacemos ms
manejable el uso e interpretacin de las puntuaciones de un test.
Las puntuaciones normalizadas (y las tipificadas) se utilizan mucho en la
interpretacin de tests, en evaluaciones de diverso tipo, y tambin como dato previo para pensar en una calificacin convencional, etc.
4
Podemos consultar las tablas de la distribucin normal o podemos acudir a alguna
fuente de Internet como Surfstat.australia: an online text in introductory Statistics
http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el men Tables y escogemos Standard Normal (figura 13 en el captulo de la distribucin normal) y sealamos la curva identificada con la letra a; tambin a partir de la columna fam/N de la tabla 9
podemos identificar el estanino correspondiente como veremos en el prximo apartado.
106
6.2.1. Los estaninos5

Los estaninos dividen la distribucin normal en nueve intervalos cada uno
de los cuales comprende media desviacin tpica excepto los dos extremos
(el 1 y el 9).
Realmente cada estanino no es una puntuacin sino un intervalo relativamente amplio. Al utilizar la desviacin tpica como unidad (.5 s en este caso)
una misma diferencia entre dos pares de estaninos equivale aproximadamente a la misma diferencia en la variable que se est midiendo.
Tabla 10
5
El trmino estanino (stanine en ingls) se deriva del ingls STAndard NINE-point
scale, nueve puntuaciones tipificadas o estandarizadas; en espaol tambin se emplea el
trmino eneatipo, de la raz griega enea que significa nueve. Este tipo de puntuaciones lo
desarroll y populariz la Fuerza Area de EE. UU. en 1942, durante la segunda guerra
mundial. Para interpretar muchos tests nueve intervalos puede ser suficiente; adems se
pretenda que todas las puntuaciones fueran de una sola cifra.
107
En la tabla 10 tenemos:
a) Los lmites de los estaninos en la distribucin normal, en puntuaciones
tpicas y en percentiles (aqu proporcin de casos que caen por debajo en la distribucin normal). La primera columna de las puntuaciones
tpicas nos indica la puntuacin tpica que equivale a cada percentil en
la distribucin normal, pero como referencia para localizar las puntuaciones normalizadas es ms cmodo calcular las proporciones de la segunda columna (que corresponden a la columna fam/N de la tabla 6)6.
b) El valor del estanino; se numeran los nueve intervalos. La media es 5
(intervalo central) y la desviacin vale 2 aproximadamente.
c) En la columna siguiente se puede observar cmo cada estanino comprende media desviacin tpica, excepto los dos extremos que quedan abiertos.
d) En la ltima columna tenemos el porcentaje de casos en cada estanino
en la distribucin normal.
Limitaciones de los estaninos.
a) Aunque de estanino a estanino podemos suponer que hay un incremento idntico (de .5 s), esto no sucede en las puntuaciones extremas, 1 y 9, pues tienen los lmites abiertos. En estas puntuaciones extremas puede haber sujetos muy distintos; se matiza menos en los
extremos de la distribucin y esto puede ser una limitacin (aunque esta limitacin afecta a muy pocos sujetos).
b) Otra limitacin es que se pueden magnificar pequeas diferencias en
los casos lmite entre estaninos contiguos.
Si deseamos un nivel mayor de matiz (no siempre deseable) podemos calcular puntuaciones tpicas normalizadas (consultando las tablas de la distribucin normal) en las que a cada percentil le corresponde una puntuacin tpica, o podemos utilizar otros criterios para dividir la distribucin normal
(como puede verse ms adelante en la tabla 12).
Podemos calcular los estaninos de diversas maneras.
1. Si calculamos las puntuaciones tpicas de los sujetos y las agrupamos
en intervalos segn los lmites de cada estanino en puntuaciones tpicas (primera columna de la tabla 10), tendremos estaninos pero sin normalizar; este procedimiento es adems muy laborioso y no suele utilizarse.
2. Podemos ordenar las puntuaciones de ms a menos y seguimos los
porcentajes puestos en la ltima columna de la tabla 10: al 4% ms alto le asignamos el estanino 9, al 7 % siguiente el estanino 8, etc.
6
Tambin podramos utilizar la ltima columna de la tabla 8, sin multiplicar por 100.
108
3. Otra manera de calcular los estaninos es partir de la mediana:

1 Calculamos, como punto de partida, la mediana, la puntuacin que
divide al grupo en dos mitades iguales,
2 Al 10% por encima de la mediana y al 10% por debajo de la mediana,
se les asigna el estanino 5 (que es la media de los estaninos, la puntuacin central),
3 Al 17% siguiente por encima se le asigna el estanino 6 y al 17% siguiente por debajo el estanino 4, y as sucesivamente.
Los estaninos pueden presentar el problema de que sujetos con idntica
puntuacin directa nos pueden quedar en estaninos distintos si queremos
mantener las proporciones exactas que corresponden a cada estanino; sin
embargo y de manera aproximada puede ser un sistema vlido con muestras
grandes.
4. El sistema ms cmodo es utilizar como referencia la columna de los
percentiles de la tabla 10 que seala los lmites de cada nueva puntuacin. En
esta columna tenemos la proporcin de casos que caen por debajo; son percentiles en sentido propio si multiplicamos estas proporciones por 100.
En la tabla 9 tenemos cmo hacerlo: calculamos la proporcin de casos
que caen por debajo de cada puntuacin directa y utilizamos estas proporciones o percentiles como lmites de los estaninos.
As por ejemplo:
Todas las puntuaciones directas (X) cuyo percentil sea superior a .226 e inferior a .401, le asignaremos el estanino 4, que ser la nueva puntuacin normalizada.
Si a una puntuacin directa le corresponde, por ejemplo, un percentil (o
frecuencia acumulada dividida por N) de .780, como .780 est entre 773 y
.894, le corresponder el estanino 7.
En ocasiones el percentil puede caer en el mismo lmite; si disponemos de
un cuarto decimal nos sacar de dudas.
6.2.2. Las pentas
Las pentas7 son puntuaciones anlogas a los estaninos, pero en este caso
dividimos todos los casos solamente en cinco intervalos, y cada penta comprende una desviacin tpica excepto en los dos extremos.
En la tabla 11 tenemos la informacin relativa a las pentas, semejante a la
de los estaninos.
Del griego, penta = cinco.
109
Tabla 11
Como sucede con los estaninos, en las dos puntaciones extremas (5 1

en el caso de las pentas) pueden quedar igualados con la misma puntuacin
sujetos muy distintos entre s.
Naturalmente las pentas agrupan los datos en menos intervalos y se pierde ms informacin sobre cada sujeto, pero puede ser un sistema muy til si
no se desea gran precisin. Cuando los datos (de tests de diverso tipo) nos
vienen en percentiles puede ser de inters agrupar a los sujetos en grandes
bloques. Esto puede ser de ms inters cuando los datos provienen de tests o
cuestionarios de no gran calidad (pueden ser sobre actitudes, etc.) y no conviene exagerar pequeas diferencias individuales. En cualquier caso estos sistemas son con mucho preferibles a utilizar determinados percentiles como
puntos de corte, como si hubiera una unidad en los percentiles, sin tener en
cuenta su equivalencia en puntuaciones tpicas.
6.2.3. Otras puntuaciones normalizadas
Caben otras puntuaciones normalizadas que son en realidad puntuaciones
tpicas agrupadas con diversos criterios, pero siempre tomando la desviacin
110
tpica (o una fraccin) como criterio. En la tabla 12 vemos varios tipos de puntuaciones que podemos comparar con facilidad.
Las puntuaciones tpicas y los percentiles que estn subrayados son los lmites de los estaninos, as el estanino 9 comienza a partir de z = + 1.75 o p = .959.
La escala 11 son los estaninos ya vistos, pero subdividiendo los intervalos
extremos donde puede haber sujetos muy diferentes; quedan en total 11 divisiones (de 0 a 10, o si se prefiere evitar el cero, de 1 a 11); puede ser una
buena alternativa a los estaninos y tambin es utilizada. La escala 20 (de 1 a
20, o de 0 a 19) es menos usual pero tiene un mayor nivel de matiz; cada intervalo comprende .25 s.
Tabla 12
PUNTUACIONES NORMALIZADAS: LMITES Y EQUIVALENCIAS
Qu puntuacin normalizada debemos utilizar?

Depende de nuestro juicio prudencial, del nivel de matiz que deseemos.
Los estaninos son muy utilizados: nos dividen el grupo en nueve subgrupos;
nueve puntuaciones puede ser suficiente en muchos casos.
111
Ya hemos indicado que una limitacin de los estaninos est en que en los
extremos (estaninos 1 y 9) puede haber sujetos muy distintos (y con mayor
razn en los pentas). Con la escala 11 matizamos mejor en los extremos (los
estaninos 9 y 1 se subdividen y quedan 11 puntuaciones distintas). Si nos basta una clasificacin menos matizada, podemos utilizar los pentas. En todos estos casos se trata de puntuaciones agrupadas para minimizar pequeas diferencias.
Lo que s es claro es que si se desea dividir un grupo en subgrupos segn
sus resultados en algn tipo de un test (no necesariamente para calificar) no
hay que buscar que cada subgrupo tengo un idntico nmero de sujetos. En
la tabla 13 tenemos un grupo dividido en cinco subgrupos segn dos criterios. Los juicios verbales (muy bien, bien, etc.) son en este caso arbitrarios.
Tabla 13
En un caso tomamos los percentiles como unidad: 20% de sujetos en cada

subgrupo; en el otro caso utilizamos las pentas y consecuentemente el criterio de divisin son las puntuaciones tpicas.
Este segundo caso (pentas en este ejemplo) es el que podemos considerar correcto a pesar de la aparente lgica de dividir el grupo en cinco subgrupos con idntico nmero de sujetos. Dentro de cada subgrupo los sujetos estn mejor igualados cuando el criterio de divisin es la desviacin tpica, sin
buscar el que haya un nmero idntico de sujetos en cada subgrupo.
Si el dato disponible es el percentil (como es frecuente o en cualquier caso es de clculo sencillo) y queremos dividir el grupo en cinco subgrupos podemos utilizar como puntos de corte los percentiles que corresponden a las
112
puntuaciones tpicas que separan las pentas (por encima del percentil 93 corresponde un 5, entre los percentiles 93 y 64, corresponde un 4, etc.) (tablas
11 y 12).
6.3. Percentiles normalizados: clculo de los percentiles a partir de la
media y de la desviacin tpica
Cuando de un grupo solamente conocemos la media y la desviacin tpica en cualquier test y deseamos dar a los sujetos una clave de interpretacin
individual, podemos hacerlo a partir de estos datos, calculando una serie de
percentiles normalizados.
Hemos visto que si conocemos el percentil correspondiente a una determinada puntuacin directa, podemos ver en las tablas de la distribucin normal a
qu puntuacin tpica corresponde. Si una puntuacin deja por debajo el 84%
de los casos (o una proporcin de .84), ya sabemos que en la distribucin normal a esa puntuacin directa le corresponde una puntuacin tpica de z = 1
(porque por debajo de z =1 cae el 84% de los casos). A z = 0 (cuando la puntuacin directa coincide con la media), le corresponder el percentil 50.
De manera inversa, si conocemos una puntuacin tpica, ya sabemos a qu
percentil corresponde en la distribucin normal: si un sujeto tiene una puntuacin tpica de z = 1, ya sabemos que est en el percentil 84. Se trata de un
percentil normalizado: el que tendra ese sujeto si la distribucin fuera normal.
Sobre estos percentiles normalizados:
a) El clculo es muy sencillo: nos basta calcular las puntuaciones tpicas
de cada puntuacin directa y ver en las tablas el percentil correspondiente (en las tablas viene en forma de proporcin; multiplicamos por
100, redondeamos decimales, y ya tenemos el percentil en su expresin habitual).
Por ejemplo si la media es igual a 20.5 y la desviacin tpica es igual a
3.5 A qu percentil corresponder una puntuacin directa de 21?
21-20.5
La puntuacin tpica de X = 21 ser igual a z= = .14
3.5
En las tablas vemos que por debajo de z = .14 cae una proporcin de
casos de .555; multiplicando por 100 y eliminando los decimales tenemos que a X = 21 le corresponde el percentil 55.
b) Al consultar las tablas no hay que olvidar que si la puntuacin tpica es
positiva encontraremos el percentil en el rea mayor, y si la puntuacin tpica es negativa, encontraremos el percentil en el rea menor.
113
c) Si la distribucin de las puntuaciones reales, observadas, se aparta notablemente de la distribucin normal, estos percentiles pueden quedar
muy distorsionados. Con muestras razonablemente grandes el clculo
de estos percentiles normalizados tiene ms sentido.
d) Una utilidad clara de estos percentiles normalizados, y que es la que
realmente justifica este apartado, la tenemos cuando de un grupo slo conocemos la media y la desviacin tpica en algn test o escala, y
deseamos preparar unas normas o baremos para interpretar las puntuaciones individuales.
En estos casos nos puede bastar buscar las puntuaciones directas que
corresponden a una serie de percentiles previamente escogidos como
referencia suficiente. En la tabla 14 tenemos una serie de percentiles y
las puntuaciones tpicas que les corresponden en la distribucin normal; nuestra tarea ser localizar las puntuaciones directas (X) que corresponden a esas puntuaciones tpicas.
Tabla 14
Ahora tenemos que calcular la puntuacin directa (X) que corresponda a

las puntuaciones tpicas seleccionadas:
X-X
Si z = tendremos que
s
X = (s)(z)+X
[6]
Como en [6] conocemos todos los valores (s, y z lo buscamos en la tabla

14), podemos calcular el valor de X, o puntuacin directa que corresponde a
determinados percentiles.
114
Por ejemplo, si la media es igual a 20.8 y la desviacin tpica es igual a 5:

La puntuacin directa correspondiente al Percentil
75: X = (3.5)(.67)+20.8 = 23.14 ( 23)
50: X = (3.5)(0) +20.8 = 20.8 ( 21)
25: X = (3.5)(-.67)+20.8 = 18.45 ( 18)
De esta manera podemos preparar con toda facilidad una tabla con los
percentiles normalizados que corresponden a una serie de puntuaciones directas; si un sujeto tiene una puntuacin directa que no coincide con ninguna de las escogidas, se puede estimar por interpolacin cul es su percentil
aproximado.
6.4. Equivalencias de diversos tipos de puntuaciones en la distribucin normal
Ya hemos visto que en la distribucin normal se pasa fcilmente de unas
puntuaciones a otras; todas tienen su equivalente en otros sistemas. Podemos
visualizar esta equivalencia en la figura 5.
Figura 5
115
7. PUNTUACIONES TPICAS, Y SUS PUNTUACIONES DERIVADAS: RESUMEN

Las ventajas de las puntuaciones tpicas y de sus puntuaciones derivadas
(tipificadas, normalizadas) son muchas (ms claras en unos tipos de puntuaciones que en otros), por ejemplo:
a) Aunque las puntuaciones originales vengan de instrumentos distintos
(o de exmenes que difieren en dificultad, nmero o tipo de preguntas), todas quedan homogeneizadas con idntica media, idntica desviacin e idnticas puntuaciones extremas posibles.
b) De manera intuitiva dicen ms que las puntuaciones directas originales,
porque sabemos cul es la media (sin calcularla) o cundo una puntuacin es muy extrema o atpica.
c) Consecuentemente permiten hacer comparaciones con facilidad (entre
sujetos, o entre varias puntuaciones del mismo sujeto, dnde est ms
alto, ms bajo, etc.).
d) Suelen ser puntuaciones cmodas para comunicar y explicar resultados
individuales;
e) Permiten calcular medias individuales cuando de los mismos sujetos se
disponen puntuaciones distintas, ya que se dispone de una unidad (la
desviacin tpica), y ninguna puntuacin parcial pesa ms que otra (todas tienen idntica desviacin tpica).
Las puntuaciones directas en cambio no suelen representar una escala de unidades iguales, o lo hacen con menos propiedad que estas
puntuaciones. Las preguntas (o tems) no representan por lo general
unidades iguales, porque unas son ms fciles, otras ms difciles,
etc., no todas miden lo mismo, y como unidades de ciencia (o de
actitud, personalidad, etc.) resultan ambiguas.
f) La relacin de estas puntuaciones con la distribucin normal resulta
tambin muy til. Con facilidad podemos verificar en cuntas desviaciones se aparta de la media cualquier resultado individual, y apreciar
as si se trata de un resultado normal, o poco frecuente, etc.
g) No hay que olvidar, sin embargo, que se trata de puntuaciones relativas al grupo y sobre todo si se trata de exmenes o pruebas que se
van a calificar, puede ser preferible apreciar el rendimiento en trminos absolutos (objetivos conseguidos), aunque en todo caso las puntuaciones tpicas y sus puntuaciones derivadas, y otras como los percentiles, aportan una informacin complementaria que tambin es
til.
116
8. RESUMEN DEL CLCULO DE LAS PUNTUACIONES DERIVADAS

A partir de una distribucin de frecuencias es muy sencillo calcular todas
las puntuaciones que hemos viendo y otras variantes. Podemos visualizar el
proceso en el esquema-resumen de la figura 6.
Figura 6
117
Por qu hacemos estas transformaciones:

Disponemos de una nueva media y de una nueva desviacin tpica (excepto en el caso de los percentiles en los que no se calculan estas medidas) que son siempre las mismas cualquiera que sea la magnitud de las
puntuaciones originales; unificamos el tipo de medida, los valores extremos posibles son los mismos, etc., y todo esto:
facilita la comunicabilidad de los datos;
facilita su interpretacin:
1 Tenemos ms informacin:
Localizamos puntuaciones atpicas (puntuaciones tpicas extremas), Situamos al sujeto dentro de su grupo (posicin relativa;
percentiles).
2 Podemos hacer comparaciones aunque los datos se recojan con
instrumentos distintos:
entre sujetos
intra-individuales
Por este tipo de razones los diversos tipos de puntuaciones constituyen el lenguaje de los tests (de inteligencia, de habilidades, de personalidad, de actitudes, etc.); las normas o baremos de interpretacin vienen
expresadas en alguna de estas puntuaciones. Tambin son tiles en el
contexto de la evaluacin.
118
CAPTULO 5
CONCEPTO DE CORRELACIN Y COVARIANZA
1. CONCEPTO DE CORRELACIN Y COVARIANZA

1.1. Relacin y variacin conjunta
El concepto de relacin en estadstica coincide con lo que se entiende
por relacin en el lenguaje habitual: dos variables estn relacionadas si varan
conjuntamente. Si los sujetos tienen valores, altos o bajos, simultneamente
en dos variables, tenemos una relacin positiva. Por ejemplo peso y altura en
una muestra de nios de 5 a 12 aos: los mayores en edad son tambin los
ms altos y pesan ms, y los ms jvenes son los que pesan menos y son ms
bajos de estatura; decimos que peso y altura son dos variables que estn relacionadas porque los ms altos pesan ms y los ms bajos pesan menos. Decimos por lo tanto que existe relacin en la medida en que los sujetos ocupan la misma posicin relativa en las dos variables.
Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relacin negativa; por ejemplo edad y fuerza fsica en
una muestra de adultos de 30 a 80 aos de edad: los mayores en edad son los
menores en fuerza fsica; hay una relacin, que puede ser muy grande, pero
negativa: segn los sujetos aumentan en una variable (edad) disminuyen en
la otra (fuerza fsica).
La correlacin se define por lo tanto por la co-variacin (co = con, juntamente: variar a la vez). Correlacin y covarianza son trminos conceptualmente equivalentes, expresan lo mismo. La covarianza es tambin una
medida de relacin, lo mismo que el coeficiente de correlacin. Habitualmente se utiliza el coeficiente de correlacin (r de Pearson), pero es til entender simultneamente qu es la covarianza, y entenderlo precisamente en
este contexto, el de las medidas de relacin.
119
El concepto de relacin y qu se mide exactamente con estos coeficientes,

lo veremos mejor con un ejemplo (tabla 1) donde tenemos los datos de tres
situaciones o casos distintos:
1) En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver
todos los datos con facilidad) con puntuaciones en dos variables, X (un
test de inteligencia) e Y (una prueba objetiva de rendimiento).
2) Junto a la puntuacin de cada sujeto en las dos variables, X e Y, ponemos su nmero de orden: 1 al que tenga la puntuacin ms alta, 2 al
que tenga la siguiente ms alta, etc.:
Tabla 1
En el caso 1 la relacin es positiva y la mxima posible (los sujetos tienen

el mismo orden en X e Y); si el orden es inverso, como en el caso 2, tenemos
tambin una relacin, pero negativa. Esta variacin conjunta o co-variacin, puede ser clara y alta (como en los casos 1 y 2 de la tabla 1), puede ser
moderada o baja o puede no haber relacin (como en el caso 3).
1.2. Los diagramas de dispersin
La representacin grfica de estos pares de puntuaciones se denomina
diagrama de dispersin, y tambin nos ayuda a entender el mismo concepto de relacin (ejemplos en la figura 1).
Cada punto representa la posicin de un sujeto (donde confluyen sus dos
puntuaciones). En la medida en que hay relacin, los puntos tienden a situarse en una recta diagonal; cuando no hay relacin o es muy pequea la nube
de puntos aparece sin una direccin clara.
120
Figura 1
DIAGRAMAS DE DISPERSIN
relacin positiva alta
relacin positiva
moderna
relacin negativa alta
ausencia de relacin
1.3. Otras maneras de visualizar la correlacin

Los diagramas de dispersin (como los de la figura 1) nos permiten ver
con facilidad qu entendemos por correlacin (o simplemente relacin), pero otras maneras de presentar los datos tambin son tiles para visualizar y
comunicar la relacin entre dos variables.
En la tabla 2 tenemos un ejemplo real. Los mismos alumnos han respondido a dos series de cinco preguntas:
a) cinco preguntas sobre datos dicotmicos (respuestas1 0; p y q)
b) cinco preguntas sobre la interpretacin de los percentiles.
En la tabla 2 podemos ver con facilidad que a mayor nmero de respuestas correctas sobre datos dicotmicos corresponde una media ms alta en las
preguntas sobre percentiles. Los alumnos que saben ms y menos de ambos
temas, tienden a ser los mismos (los que responden correctamente las 5 preguntas sobre datos dicotmicos tienen una media de 3.9 en las preguntas sobre percentiles, etc.) .
Tabla 2
121
Tambin podemos reducir la informacin a un cuadro de doble entrada,

como tenemos en la tabla 3. Tenemos a los mismos alumnos clasificados con
estos criterios:
a) Nmero de frmulas que recuerdan de memoria sin haberlas estudiado, puestas al final de un examen y sin contar para nota. Los alumnos
estn divididos en dos grupos, los que recuerdan 5 6 frmulas y los
que recuerdan 4 o menos.
b) Nmero de respuestas correctas en el examen de 45 preguntas: 37 o
ms y 36 o menos.
En la tabla 3 figura el nmero y el tanto por ciento de alumnos en cada clasificacin; el tanto por ciento est referido a los dos totales segn el nmero
de frmulas recordadas: el 67 % de los que recuerdan 5 6 frmulas tienen
37 o ms respuestas correctas en el examen, frente a slo el 33 % de los que
tienen 36 o menos respuestas correctas.
Es clara la relacin entre frmulas recordadas de memoria y buenos resultados en el examen.
Tabla 3
En esta disposicin de los datos hemos dicotomizado el grupo por la mediana de respuestas correctas (15 alumnos 36 o menos y otros 15 alumnos
37 o ms). Con este planteamiento (sujetos agrupados en categoras) caben
otros anlisis que veremos en al captulo del ji cuadrado.
1.4. Correlacin, covarianza y dispersin: importancia de las diferencias
Es importante caer en la cuenta desde el principio de la importancia de
las diferencias interindividuales para poder comprobar relaciones: sin diferencias en los sujetos (u objetos) no podemos ver relaciones. Sin diferencias
122
en las dos variables no podemos encontrar variacin conjunta: si todos los

sujetos tienen idntica puntuacin en X no podemos ver si los altos en X son
tambin altos en Y, porque en X son todos iguales.
Si, por ejemplo, queremos comprobar si la altura est relacionada con la
capacidad de encestar (jugando al baloncesto) necesitaremos jugadores de
distintas alturas, para ver si los ms altos encestan ms y los ms bajos encestan menos. Si todos los jugadores tienen la misma altura, no podemos comprobar esa relacin; no podemos comprobar si las diferencias en altura se corresponden con diferencias en la habilidad de encestar porque todos tienen
idntica altura. Y tambin necesitaremos que unos encesten ms y otros menos. Los sujetos deben ser distintos en las dos caractersticas cuya relacin
queremos comprobar.
La correlacin y la covarianza dicen de dos variables lo mismo que la varianza (o la desviacin tpica) dice de una variable: hasta qu punto los sujetos son distintos simultneamente en las dos variables. De la misma manera
que la varianza es una medida de dispersin en una variable, la correlacin
(y la covarianza) son tambin medidas de dispersin, pero de dos variables
tomadas a la vez.
1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r
de Pearson
El coeficiente de correlacin comprueba y cuantifica solamente relaciones
lineares, como las expresadas en los ejemplos y diagramas de dispersin anteriores. No comprueba por lo tanto relaciones curvilneas, las que expresadas grficamente mostraran una curva. Por ejemplo la relacin entre edad
(tomando un espectro amplio de edades) y fuerza fsica sera curvilnea: primero sera positiva (a ms edad mayor fuerza fsica), y luego negativa (a mayor edad, menos fuerza).
1.6. Tipos de variables con las que se puede utilizar el coeficiente r
de Pearson
Para poder utilizar el coeficiente de correlacin r de Pearson: las dos variables deben ser:
a) Las dos continuas,
b) Una continua y otra dicotmica (1 0).
c) Las dos dicotmicas (1 0).
La correlacin entre una variable continua y otra dicotmica se denomina correlacin biserial-puntual (rbp) pero el clculo y la interpretacin
123
son los mismos que cuando las dos variables son continuas (y podemos utilizar calculadoras y programas informticos que tienen ya programada la correlacin r de Pearson).
Cuando las dos variables son dicotmicas no se trata propiamente del coeficiente de Pearson (en principio referido a dos variables continuas) sino del
coeficiente f (fi); se puede incluir aqu porque realmente equivale al coeficiente de Pearson calculado con datos dicotmicos aunque tambin tiene frmulas especficas1. Tambin tiene sus peculiaridades (el valor mximo no es
siempre 1). En un apartado final (n 7) explicamos brevemente ste y otros tipos de coeficientes de relacin.
2. L A MEDIDA DE LA RELACIN
2.1. Cmo cuantificamos o medimos el grado de relacin
Es sencillo y til entender cmo podemos cuantificar (medir) esta variacin conjunta y adems ayuda a la comprensin e interpretacin de estas
medidas de relacin.
Si las dos variables estn
relacionadas y esta relacin
es positiva
los sujetos tendern a estar por

encima o por debajo de la media en
las dos variables a la vez
Si las dos variables estn

relacionadas y esta relacin
es negativa
los sujetos tendern a estar por

encima de la media en una variable y
por debajo de la media en la otra
variable
Si las dos variables no estn

relacionadas
el estar por encima o por debajo de

la media en una variable es
independiente del estar por encima
o por debajo de la media en la otra
variable
Este estar por encima o por debajo de la media en dos variables simultneamente nos va a permitir cuantificar el grado de relacin, tal como se explica en la figura 3. Lo explicamos por pasos:
1 La distancia, o diferencia, de un sujeto con respecto a la media podemos expresarla de dos maneras:
1
Si en una calculadora con programacin estadstica introducimos unos y ceros, el
valor de r que nos d es el valor de f, por eso tiene sentido incluir aqu este coeficiente.
124
En puntuaciones directas (restando cada

d = (X - X)
puntuacin de la media)
En puntuaciones tpicas (la misma
(X - X)
diferencia pero dividida por
z =
s
la desviacin tpica):
Estas diferencias con respecto a la media (puntuaciones diferenciales)
(en la figura 3 slo estn puestos los signos de la diferencia):
sern positivas si la puntuacin directa (X) es superior a la media (X),
sern negativas si la puntuacin directa (X) es inferior a la media (X)
2 Si a cada sujeto le multiplicamos sus dos puntuaciones diferenciales
(dxdy o zxzy) tendremos que unas veces los productos tendrn signo ms y
otras signo menos
a) Cuando hay relacin positiva: todos los productos (o la mayora, depender del grado de relacin) sern de idntico signo positivo (ms
por ms y menos por menos = ms);
b) Cuando hay relacin negativa: los productos sern de idntico signo
negativo (ms por menos o menos por ms = menos);
c) Cuando no hay relacin: unos productos sern de idntico signo y
otros de distinto signo.
Figura 3
125
3. La suma de los productos cruzados de las puntuaciones diferenciales

(directas Sdxdy tpicas Szxzy), ya nos est indicando el grado de relacin; la
suma ser mayor (con signo ms o signo menos) cuando haya una mayor relacin porque habr ms sumandos de idntico signo. La mera suma de estos
productos no nos es muy til porque no podemos compararla con otras sumas, pero si la dividimos por el nmero de sujetos lo que tenemos es una media comparable con cualquier otra media obtenida con un nmero distinto de
sujetos (esta explicacin figura en la figura 3).
Si dividimos esta suma por el nmero de sujetos (= media de los productos cruzados) tenemos la frmula de la covarianza (utilizando puntuaciones
directas) o de la correlacin (utilizando puntuaciones tpicas).
Covarianza:
[1]
Correlacin:
[2]
Por lo tanto correlacin (smbolo rxy o simplemente r) y covarianza (smbolo sxy) expresan lo mismo: cuantifican el grado de covariacin y a ese grado de covariacin le denominamos relacin. Realmente el coeficiente de
correlacin no es otra cosa que la covarianza calculada con puntuaciones tpicas.
Correlacin y covarianza se relacionan mediante estas frmulas:
sxy
rxy (correlacin) =
[3]
sx sy
sxy (covarianza) = rxy sxsy
[4]
Como medida de relacin se pueden utilizar tanto la covarianza como el

coeficiente de correlacin (r de Pearson). El utilizar preferentemente el coeficiente de correlacin se debe a estas razones:
1) El utilizar puntuaciones tpicas permite comparar todo con todo; dos
coeficientes de correlacin son comparables entre s cualquiera que
sea la magnitud original de las puntuaciones directas. La magnitud
de la covarianza va a depender de la unidad utilizada y no se pueden
comparar dos covarianzas, para comprobar dnde hay mayor relacin,
cuando las unidades son distintas.
2) El coeficiente de correlacin r vara entre 0 (ausencia de relacin) y un
valor mximo de 1 (con signo + -). El que los valores extremos sean
0 y 1 facilita el uso y la valoracin de la magnitud de estos coeficientes.
La demostracin de que el valor mximo de r es igual a 1 (1) es sencilla:
1 La suma de las puntuaciones tpicas elevadas al cuadrado es igual al
nmero de sujetos (N):
126
2 Si se diera una relacin perfecta, tendramos que para cada sujeto

zx = zy con lo que zxzy sera igual a z2, y como Sz2 = N, tendramos
que:
2.2. Otras frmulas y procedimientos

Hay muchas frmulas, pero todas equivalen a la frmula bsica (frmula
[2]: rxy = (Szxzy)/N). Esta frmula bsica es muy laboriosa de clculo. Hay
otras frmulas ms sencillas en las que slo se utilizan puntuaciones directas,
pero tampoco resultan prcticas, ya que la correlacin puede encontrarse ya
programada en muchas calculadoras sencillas (y en hojas de clculo y en programas de ordenador o de Internet).
Si se dispone de una calculadora con la desviacin tpica programada, una
frmula sencilla es sta:
[5]
Para el clculo disponemos los datos tal como estn en la tabla 4
Tabla 4
Se calculan las desviaciones de las dos variables y de la suma de ambas y se

aplica la frmula anterior [5]:
Esta frmula puede ser la ms cmoda cuando tenemos pocos sujetos y

una calculadora con programacin estadstica; con muestras grandes, o cuando hay calcular varios coeficientes con los mismos datos, hay que acudir a hojas de clculo o a programas de ordenador, que es lo que haremos habitualmente.
127
3. INTERPRETACIN DEL COEFICIENTE DE CORRELACIN R DE PEARSON

En principio la interpretacin del coeficiente de correlacin es sencilla;
nos basta mirar los diagramas de dispersin ( figura 1) para caer en la cuenta de
qu estamos cuantificando o midiendo: en qu grado ambas variables varan conjuntamente (es decir, en qu grado estn relacionadas).
En este apartado recogemos de manera ms sistemtica todo aquello que
nos puede ayudar a interpretar y a aprovechar los coeficientes de correlacin
que nos encontremos. Hay informacin que es obvia y viene dada por el mismo coeficiente; otro tipo de informacin adicional podemos extraerlo de los
datos que ya tenemos, y por ltimo hay hiptesis y conjeturas razonables
que pueden enriquecer la interpretacin o nos pueden poner en la pista para buscar otras cosas.
De alguna manera este apartado viene a ser una gua que podemos repasar cuando nos interese, para interpretar y utilizar mejor la informacin que
nos aportan los coeficientes de correlacin.
3.1. Interpretacin bsica
a) El coeficiente de correlacin expresa en qu grado los sujetos (u objetos, elementos) estn ordenados de la misma manera en dos variables simultneamente.
b) Los valores extremos son 0 (ninguna relacin) y 1 (mxima relacin).
Si r = 1, el orden (posicin relativa) de los sujetos es el mismo en las
dos variables. Aunque hablaremos despus sobre cmo valorar la
magnitud de estos coeficientes, si los valores extremos son 0 y 1 ( -1),
ya podemos ver que coeficientes prximos a 0 expresan poca relacin,
y los coeficientes cercanos al 1 expresan mucha relacin.
c) La magnitud del coeficiente es independiente del signo.
r =-.95 expresa ms relacin que r = +.75; el que la relacin sea positiva o negativa es algo distinto de que sea grande o pequea.
d) Dos tems (o sujetos, variables, etc.) que tengan entre s una relacin
muy alta, pueden ser valorados de manera muy distinta en trminos
absolutos. En este punto hay con cierta frecuencia errores de interpretacin.
El suponer que una correlacin muy alta entre dos variables quiere decir que las dos tienen una media parecida es un error muy comn;
una correlacin alta significa simplemente que las dos variables son ordenadas de manera parecida, pero no que tengan valores absolutos
parecidos.
128
Lo vemos con facilidad en un ejemplo ficticio. Supongamos que cuatro

sujetos valoran en una escala de 1 (no me gusta nada) a 6 (me gusta
mucho) a tres personajes polticos o a tres profesores (y as vemos un
ejemplo en el que no hay tests ni exmenes; tabla 5):
Tabla 5
El coeficiente de correlacin entre A y B es exactamente r = 1, la mxima relacin posible; sin embargo sus medias son muy distintas: el personaje A tiene una media de 5.5 (muy alta en una escala de 1 a 6, gusta
a todos) y el personaje B muy baja (1.5, no gusta a nadie). Lo que sucede es que los que valoran mejor al personaje A tambin valoran mejor
(en trminos relativos) al personaje B y viceversa: los sujetos que valoran menos al personaje A tambin valoran menos al personaje B.
El personaje C tiene una media de 4, su relacin con A es r = 0 y su relacin con B es tambin r = 0: cmo valoran los sujetos a los personajes A y B no tiene nada que ver con cmo valoran al personaje C2.
En la tabla 6 tenemos otro ejemplo de cuatro alumnos con calificaciones en cuatro asignaturas.
Tabla 6
En este ejemplo:
Una tentacin es afirmar que entre Fsica y Matemticas hay una relacin muy alta, sin embargo la correlacin entre Fsica y Matemticas es
cero; no se puede decir que los alumnos tengan el mismo orden en las
2
Si quisiramos medir la proximidad o parecido en valores absolutos entre estos
personajes, habra que utilizar otra tcnica que se estudia en relacin con el Diferencial
Semntico de Osgood, la denominada distancia euclidiana (simbolizada D; puede verse
Morales, Urosa y Blanco, 2003, pg. 38). Un coeficiente de correlacin alto indica orden semejante, no medias semejantes.
129
e)
f)
g)
h)
i)
dos asignaturas porque no hay orden, no se puede ordenar a los que

estn igualados. Necesitaramos calificaciones distintas en las dos asignaturas para verificar si coinciden en ambas asignaturas los que estn
mejor o peor.
La correlacin entre Historia y Lengua es la mxima posible (r = 1),
porque los alumnos tienen el mismo nmero de orden en ambas asignaturas; sin embargo en trminos absolutos las calificaciones no se parecen: son muy altas en Historia y muy bajas en Lengua.
Un coeficiente de correlacin no equivale a una proporcin.
Una correlacin de r =.50 no quiere decir que haya un 50% de variabilidad comn o de varianza comn entre las dos variables.
No es necesario que las dos variables (X e Y) estn medidas en la misma escala o en las mismas unidades, ya que, como hemos visto, el
clculo se hace a partir de puntuaciones tpicas.
La correlacin entre edad y peso o entre pluviosidad y altura sobre el
nivel del mar (en este caso los sujetos seran comarcas) oscilar entre
0 y 1 aunque todas estas variables se midan con unidades muy diferentes (esto no sucede con la covarianza, en la que mantenemos las unidades originales). De la misma manera podemos calcular la correlacin
entre un test de rendimiento de 50 preguntas y la actitud hacia el estudio medida con una sencilla escala, etc.
En los coeficientes de correlacin no hay unidad en sentido propio.
Por esta razn un coeficiente de .50 no expresa el doble de relacin
que otro de .25. La distancia en relacin es mayor entre dos coeficientes altos que entre dos coeficientes bajos.
Veremos la diferencia entre dos coeficientes con ms exactitud si los
elevamos al cuadrado: entre .95 y .90 (coeficientes muy altos, .952 .902 = .0925) hay una mayor distancia que entre .15 y .10 (coeficientes
muy bajos, .152 - .102 = .0125). Este punto lo veremos al hablar del coeficiente de determinacin.
La correlacin de una variable (como un test de inteligencia) con un
criterio (por ejemplo un examen) se denomina frecuentemente coeficiente de validez.
El trmino validez aplicado a los tests es mucho ms complejo y tiene
ms significados; en este caso se trata de un simple coeficiente de correlacin entre dos variables.
La correlacin entre dos variables es relativa a los instrumentos utilizados.
Cuando decimos que la inteligencia tiene una correlacin determinada con rendimiento acadmico, habra que especificar inteligencia
tal como la mide ese test rendimiento tal como lo mide este tipo
de examen
130
No medimos rasgos o caractersticas puras o abstractas, por eso los coeficientes de correlacin hay que interpretarlos teniendo en cuenta cmo han sido medidos esos rasgos. Cuando decimos que la autoconfianza est relacionada con el rendimiento acadmico, hay que
sobrentender tal como medimos o expresamos estas variables con estos instrumentos. sta es una razn (entre otras) por la que entre las
mismas variables podemos encontrar coeficientes de correlacin muy
distintos: a veces (cuando las medimos con instrumentos distintos) no
se trata realmente de las mismas variables exactamente, salvo en un
sentido muy genrico.
3.2. Correlacin y causalidad
La causalidad merece un comentario especfico porque en el contexto de la
correlacin es fcilmente fuente de errores de interpretacin (al menos es una
tentacin el interpretar algunas correlaciones como pruebas de causalidad).
El concepto de causa es complejo y el lugar propio para su estudio est
ms en la filosofa que en los anlisis estadsticos. En nuestro contexto podemos dar una definicin puramente operacional de causalidad para su uso limitado a la investigacin experimental: establecemos una relacin de causa
a efecto cuando podemos mostrar que una variable independiente sistemticamente produce cambios (influye) en una variable dependiente, una
vez controlado el influjo de otras variables extraas.
Con esta nocin de causalidad s podemos hacer unos comentarios sobre
correlacin y causalidad.
a) Una correlacin no puede interpretarse como prueba de una relacin
causal; el que dos variables covaren, se den juntas, no quiere decir
que una sea causa de la otra. Una correlacin s nos puede dar pistas
para proponer hiptesis sobre posibles relaciones causales.
Aunque de hecho hubiera una relacin de causa a efecto, esta relacin
no queda demostrada por un coeficiente de relacin.
b) Para poder hablar de causalidad, al menos como hiptesis, hay que poder excluir otras explicaciones. Frecuentemente la explicacin de por
qu dos variables estn relacionadas entre s es que ambas estn a su
vez relacionadas con una tercera variable (que tampoco es necesariamente causa de las otras dos pero s puede ser una buena explicacin). Peso y altura estarn relacionadas en una muestra de nios de 2
a 10 aos porque tanto el peso como la altura estn relacionados con la
edad.
c) El coeficiente de correlacin trata las dos variables como simtricas:
nos da lo mismo calcular la correlacin de A con B que la de B con A. Si
131
furamos a interpretar un coeficiente de correlacin como indicador

de una relacin de causa a efecto, no sabramos cul es la causa y cul
es el efecto en funcin solamente de ese coeficiente. Si entre fumar y
enfermedades coronarias encontramos una relacin alta, podramos
concluir que las enfermedades coronarias son la causa del fumar En
ejemplos no tan obvios es fcil cometer errores de interpretacin y dar
por establecidas relaciones de causa a efecto sin fundamento.
d) Para establecer relaciones de causa-efecto, al menos como hiptesis razonable, se requieren cuatro condiciones:
1 Que a un aumento en el predictor (supuesta causa) se siga un
aumento en el criterio (supuesto efecto);
2 Que se puedan excluir otras explicaciones plausibles;
3 Que se pueda establecer algn tipo de teora o justificacin que explique la relacin causal;
4 Que se pueda replicar el mismo resultado en otras poblaciones y
con otras caractersticas3.
Por lo general en estos estudios (para verificar hiptesis causales) se utilizan diseos experimentales y no simples estudios correlacionales, que por
otra parte pueden ser buenos estudios piloto que pueden a su vez orientar
otros tipos de investigacin.
3.3. Cmo calcular la media de varios coeficientes de correlacin
Como no hay una unidad en sentido propio no se debera calcular en
principio la media aritmtica de varios coeficientes; por otra parte es til la informacin que puede darnos una media de varios coeficientes de correlacin.
El mtodo tradicional que se suele proponer en muchos textos para calcular una correlacin media es el siguiente:
1 Se transforma el valor de r en el valor Z de Fisher (el smbolo es zeta
mayscula; hay tablas apropiadas);
2 Se opera con estos valores Z (se calcula el valor medio de Z);
3 El valor de Z resultante se reconvierte en un valor de r (con las mismas
tablas), que ser en este caso la verdadera correlacin media.
Sin embargo esta prctica habitual se puede substituir sin especial problema por el simple clculo de la media aritmtica: si disponemos de varios coeficientes de correlacin calculados en muestras distintas, la mejor estimacin de la correlacin en la poblacin es la media ponderada de los distintos
coeficientes:
3
Light, Singer y Willett, (1990)
132
[6]
Tenemos, por ejemplo, estos dos coeficientes de correlacin calculados en
las mismas dos variables en dos muestras distintas:
En una muestra de N = 60 r = .45
En una muestra de N = 120 r = .30
Correlacin media:
Esta media ponderada es de clculo sencillo, de fcil comprensin y no
distorsiona ms la verdadera media que lo que la distorsiona la transformacin de Fisher4. Si el nmero de sujetos es el mismo se calcula directamente
la media aritmtica.
Tambin es frecuente utilizar la mediana en vez de la media (el uso de la
mediana es siempre apropiado) cuando se dispone de una serie de coeficientes de correlacin y se quiere indicar una medida de tendencia central.
Como siempre que se utiliza la mediana en vez de la media hay que recordar dnde est la diferencia entre ambos estadsticos. Como la mediana es
simplemente el valor central que divide a la muestra (de coeficientes en este
caso) en dos mitades iguales, no se ve afectada por valores extremos que s se
influyen y se notan en la media. Unos pocos coeficientes atpicos (o muy altos o muy bajos), o un solo coeficiente muy atpico, pueden sesgar la media
como valor representativo en una direccin. En estos casos puede ser preferible utilizar la mediana, o ambos valores, la media y la mediana.
3.4. El coeficiente de determinacin
El coeficiente de correlacin elevado al cuadrado (r2) se denomina coeficiente de determinacin e indica la proporcin (o porcentaje si multiplicamos por 100) de variabilidad comn: indica la proporcin de varianza de
una variable determinada por o asociada a la otra variable.
En trminos ms simples, r2 indica el tanto por ciento (r2 x 100) de acuerdo, de rea comn o de variabilidad comn entre ambas variables. Un coeficiente de r = .50 indica un 25% de varianza comn entre ambas variables
(.502 =.25). Una correlacin de r = .50 entre un test de inteligencia abstracta
4
La transformacin de Fisher tiene un sesgo positivo: la media resultante es ligeramente mayor de lo que debera ser. Con la media ponderada por el nmero de sujetos (frmula
[6]) la media que resulta es ligeramente menor, pero la desviacin es menor en trminos absolutos que la que provoca la transformacin de Fisher, y con muestras grandes (a partir de N
= 40) el margen de error es muy bajo y slo afecta al tercer decimal (Hunter y Schmidt, 1990).
133
y rendimiento en matemticas, indica que el 25% de las diferencias en matemticas (propiamente el 25% de la varianza en matemticas) tiene que ver
con (depende de o se explica por) las diferencias en el test de inteligencia
abstracta. Un coeficiente de .30 expresa solamente un .302 o un 9% de variabilidad en una variable asociada a la variabilidad o diferencias en la otra variable.
Los valores de r2 s pueden compararse entre s directamente; por ejemplo:
r = .20 indica un 4% de acuerdo entre las dos variables (.202 =.04);
r = .40 indica un 16% de acuerdo entre las dos variables (.402 =.16);
r = .60 indica un 36% de acuerdo entre las dos variables (.602 =.36).
Se ve con claridad que de r =.60 a r =.40 (del 16% al 36%) hay ms distancia que de r =.40 a r =.20 (del 16% al 4%), aunque aparentemente las diferencias sean idnticas (de .20). El elevar al cuadrado el valor del coeficiente
de correlacin ayuda a interpretarlo.
Los valores de r bajan drsticamente cuando los trasformamos en r2 y esto
puede hacernos pensar que las correlaciones bajas son de menor importancia.
Por ejemplo r = .32 significa solamente un 10% (.322) de varianza comn; muy
poco, solamente el 10% de la variabilidad (o de las diferencias) en una variable
est asociada a diferencias en otra variable. A pesar de esto no conviene infravalorar la importancia potencial de los coeficientes pequeos pues pueden aportar informacin de mucho inters o decir ms de lo que parece (lo veremos al
tratar de la valoracin de la magnitud de estos coeficientes). Aun as y en trminos generales, los coeficientes ms bien bajos (inferiores a .30) suelen tener
poco inters prctico aunque si son estadsticamente significativos (qu significa esta expresin lo vemos en el prximo apartado) se pueden prestar a una
buena elaboracin terica e interpretativa.
3.5. La significacin estadstica de los coeficientes de correlacin
3.5.1. Qu es un coeficiente de correlacin estadsticamente
significativo
Lo primero en lo que solemos fijarnos es en la magnitud del coeficiente
de correlacin. Antes podemos comprobar si el coeficiente es mayor de lo
que se puede esperar por puro azar.5
5
Hasta aqu hemos tratado de la correlacin dentro de la estadstica descriptiva;
ahora estamos ya en estadstica inferencial, tema que retomaremos al tratar del error tpico de la media y del contraste de medias. En muchos textos la estadstica meramente
descriptiva y la estadstica inferencial se tratan en captulos o partes distintas; aqu preferimos tratar conjuntamente todo lo referido a la correlacin, al menos lo que juzgamos ms
importante para interpretar adecuadamente estos coeficientes.
134
Podemos entenderlo con un ejemplo muy simple. Entre dos variables obviamente no relacionadas (como da de nacimiento y nmero de plantas
que uno tiene en su casa) difcilmente obtendremos r = 0.0000. Por simple
casualidad obtendremos algn valor, positivo o negativo, distinto de cero.
Con 5 sujetos un valor de r =.30 puede ser casual (una mera coincidencia;
un sujeto con muchas ventanas en su casa naci a finales de mes) y en cambio con 100 sujetos es muy improbable obtener r =.20 por casualidad, sin
que exista alguna relacin. Ya podemos intuir que con pocos sujetos necesitaremos un valor mayor para poder rechazar la casualidad, y que con muchos sujetos un valor pequeo es muy improbable que sea casual (o explicable por el error muestral, en trminos ms propios).
3.5.2. El modelo terico
Es importante entender el modelo terico en el que nos basamos para llegar a la conclusin de que un coeficiente de correlacin es mayor de lo que
podramos esperar por azar y poder afirmar por lo tanto que con toda probabilidad expresa una verdadera relacin (o correlacin estadsticamente significativa). El mismo modelo lo veremos tambin en planteamientos semejantes. Lo exponemos paso a paso, de manera muy sucinta.
1) Suponemos que calculamos el coeficiente de correlacin entre dos variables que no estn relacionadas (podemos pensar en el ejemplo anterior,
da de nacimiento y nmero de plantas que uno tiene en su casa).
2) Suponemos tambin que esta correlacin la calculamos en un nmero
muy grande de muestras (realmente no calculamos nada, se trata de un
modelo terico).
3) Aunque la correlacin esperada sea igual a cero (estamos suponiendo
que no hay relacin) no siempre obtendremos r = 0; por puro azar
unas veces tendremos una correlacin distinta de cero y positiva y
otras veces tendremos una correlacin distinta de cero y negativa,
aunque lo normal es que se trate de valores muy pequeos.
4) Al calcular muchos coeficientes de correlacin entre estas dos variables
que no estn relacionadas tendremos una distribucin normal de los
coeficientes de correlacin. Esta distribucin tendr su media y su desviacin tpica.
5) Estas distribuciones se denominan distribuciones muestrales (no es la
distribucin de unas puntuaciones individuales sino de estadsticos o
medidas de muchas muestras hipotticas; tambin hablaremos de la
distribucin muestral de la media).
6) La media de esta distribucin ser igual a cero (ste es nuestro supuesto en caso de no relacin); los valores positivos y negativos se anulan mutuamente.
135
La desviacin tpica de esta distribucin no la conocemos pero s podemos estimarla. En estos planteamientos (distribuciones muestrales
hipotticas) la desviacin tpica se denomina error tpico.
La interpretacin es la misma que hacemos de la desviacin tpica en
la distribucin normal, as por ejemplo el 95% de los casos caern entre la media (= 0) ms menos 1.96 errores tpicos, y solamente el 5%
de los coeficientes de correlacin se apartar de una media de cero en
+1.96 errores tpicos o en 1.96 errores tpicos, tal como aparece en la
figura 4. La mayora de los valores estarn en torno a cero.
Figura 4
El 95% de los coeficientes

de correlacin caen entre
ms menos 1.96
errores tpicos
-1.96 errores tpicos
correlacin media = 0
+1.96 errores tpicos
7) Cuando nos preguntamos si un coeficiente de correlacin es estadsticamente significativo, lo que nos preguntamos es si es probable que
ocurra cuando no hay relacin, o, lo que es lo mismo, si es probable
que ocurra cuando la media de las posibles correlaciones entre esas
dos variables es cero.
Si nuestro coeficiente es muy poco probable cuando no hay relacin,
es entonces cuando concluiremos que el coeficiente de correlacin es
estadsticamente significativo: es demasiado grande para ese nmero
de sujetos como para que sea casual y expresa por lo tanto una verdadera relacin distinta de cero. Dicho de otra manera, no pertenece a la
poblacin de coeficientes cuya media es cero.
8) Para decidir si un coeficiente de correlacin es probable o improbable
cuando la media de los posibles coeficientes de correlacin es cero, necesitamos un criterio (en qu punto empieza lo improbable).
El criterio convencionalmente aceptado es que lo que por azar sucede
ms de 5 veces de cada 100 est dentro de lo probable, y lo que por
136
azar sucede 5 o menos de 5 veces de cada 100 lo consideramos ya improbable o fuera de lo normal. A este criterio le denominamos nivel de
confianza, y se expresa a = .05 cuando consideramos poco probable
lo que sucede menos del 5% de las veces (tambin se expresa a veces
as: nivel de confianza del 95% que son las probabilidades de no equivocarnos al afirmar la relacin).
9) Ya sabemos que en la distribucin normal el 95% de los casos estn entre
la media (que es igual a cero en nuestro modelo de la figura 4) y ms menos 1.96 errores tpicos. Diremos por lo tanto que un coeficiente de correlacin es estadsticamente significativo cuando se aparte de la media
cero en ms de 1.96 errores tpicos. Volviendo a la figura 4, un coeficiente de correlacin es estadsticamente significativo si no est en el 95%
central de los posibles coeficientes de correlacin cuya media es cero.
Cuando la probabilidad de que ocurra en el caso de no relacin es inferior al 5% se expresa as: p < .05; si esta probabilidad es superior al 5%
lo expresamos as: p > .05.
10) Aunque nuestro nivel de confianza sea .05, tambin es informativo indicar si las probabilidades de que la correlacin son inferiores al 1%
(p<.01) o al 1/1000 (p < .001). Lo que se suele recomendar es indicar la
probabilidad exacta (por ejemplo p = .02) sin limitarse a poner si es superior o inferior (p<.05 o p.05) a una determinada probabilidad previamente especificada6.
3.5.3. Interpretacin de una correlacin estadsticamente
significativo
Es importante entender bien qu significa el decir que una correlacin es
o no es estadsticamente significativa.
Una correlacin estadsticamente significativa, por ejemplo p < .05,
quiere decir que si no hay relacin en la poblacin (es decir, si se da esa
condicin importante de ausencia de relacin) la probabilidad de obtener
un coeficiente de esa magnitud por puro azar es inferior al 5%.
En la prctica, y cuando una correlacin es estadsticamente significativa
(porque p <.05 si .05 es nuestro nivel de confianza):
a) Podemos afirmar con mucha seguridad que en la poblacin esa correlacin no es cero: si no hubiera ningn tipo de relacin es muy improbable obtener el coeficiente que hemos obtenido. Podemos afirmar el
hecho de la relacin.
6
Las probabilidades exactas, si no nos las da ya un programa de ordenador, se buscan fcilmente en alguna de las direcciones de Internet puestas en el Anexo II.
137
b) Lo que no podemos afirmar es que en muestras semejantes (de la misma poblacin) obtendramos coeficientes de magnitud semejante (interpretacin frecuente y errnea). Para hablar de la magnitud de la correlacin en general (en la poblacin) necesitamos acudir a los
intervalos de confianza de los que trataremos enseguida.
Cuando una correlacin no es estadsticamente significativa (porque p
>.05):
a) Una correlacin no significativa es una correlacin que no podemos
generalizar sin ms. Con los datos que tenemos no podemos afirmar
que en la poblacin (en otras muestras semejantes) hay una relacin,
aunque sea pequea, y distinta de cero.
b) Por otra parte una correlacin no significativa no es prueba de no relacin en la poblacin (podramos encontrarla quizs en muestras mayores, o utilizando otras medidas ms precisas, etc.; no probar que hay
relacin no es lo mismo que probar que no hay relacin).
Con muestras muy pequeas podemos encontrar coeficientes de correlacin relativamente grandes pero no estadsticamente significativos (el cero
es un valor probable; no nos permiten extrapolar el hecho de la relacin a
otras muestras de la misma poblacin).
Aunque con frecuencia los coeficientes de correlacin no estadsticamente significativos suelen ser pequeos (sobre todo en muestras grandes) cuando el signo de la relacin est en la direccin esperada y la muestra es pequea, es posible que obtengamos una correlacin estadsticamente
significativa en muestras mayores (al menos se puede proponer como hiptesis razonable).
Los coeficientes de correlacin estadsticamente significativos pero muy
bajos (caso frecuente en muestras relativamente grandes) suelen ser de poca
relevancia prctica, aunque no podemos despreciar sin ms los coeficientes
pequeos (si son estadsticamente significativos) porque pueden dar buen
juego interpretativo desde una perspectiva ms terica o metodolgica, como veremos despus.
3.5.4. Cmo comprobamos si un coeficiente de correlacin es
estadsticamente significativo
El primer paso por lo tanto para interpretar un coeficiente de correlacin es
comprobar si es mayor de lo que podra esperarse por azar, o utilizando la expresin habitual, comprobar si es estadsticamente significativo. Una correlacin estadsticamente significativa es una correlacin muy improbable por
138
azar (en la hiptesis de no relacin); la consecuencia es que podemos suponer

que en la poblacin (en otras muestras semejantes) seguiremos encontrando
una correlacin distinta de cero. Esto lo veremos tambin despus desde otra
perspectiva al tratar de los intervalos de confianza de la correlacin.
La teora subyacente a esta comprobacin es la misma que la de planteamientos semejantes en estadstica (cundo podemos considerar que una diferencia entre dos medias es mayor de lo puramente casual y aleatorio?). Lo
que hacemos es dividir nuestro coeficiente de correlacin (o con ms propiedad |r 0|, la diferencia entre la correlacin obtenida y una correlacin media de cero) por el error tpico de la correlacin (frmulas [10] y [11]) para ver en cuntos errores tpicos se aparta nuestro coeficiente de una
correlacin media de cero7.
a) Con muestras de 100 sujetos o menos
Lo ms prctico es consultar las tablas apropiadas (anexo I, al final del captulo)8, en las que se indica la probabilidad de obtener un determinado coeficiente por azar, sin que haya relacin entre las dos variables.
Para consultar las tablas tenemos que tener en cuenta los grados de libertad, que en el caso de la correlacin son N-2.
Por ejemplo, con N = 12 los grados de libertad son 10. En las tablas y con
10 grados de libertad vemos:
Grados de libertad = N -2
10
.05
.5760
.01
.7079
.001
.8233
Vemos .576 en la columna correspondiente a .05; esto quiere decir que

con 12 sujetos (10 grados de libertad) una correlacin tan alta como .576 la
obtendramos por azar, sin que hubiera relacin entre las dos variables, 5 veces de cada 100 (y nuestra conclusin ser que s hay relacin; no ha sido
una casualidad).
Debajo de .01 vemos r = .7079, que es el valor de la correlacin que podramos obtener por azar 1 vez cada 100, y debajo de .001 vemos r = .8233, la correlacin que podramos obtener por azar 1 vez cada 1000 veces.
Aunque consultemos tablas o vayamos a direcciones de Internet que nos lo dan resuelto, conviene entender qu estamos haciendo.
8
Tablas semejantes figuran en muchos textos; tambin podemos consultar las direcciones de Internet puestas en el Anexo II.
139
Siempre que el valor de nuestra correlacin sea igual o mayor que el valor
indicado en la columna .05, podemos concluir que la correlacin es estadsticamente significativa (improbable por azar; ese coeficiente de correlacin
lo podramos encontrar, sin que se d relacin, 5 veces o menos de cada 100).
Si supera los valores de las columnas .01 .001 se indica de esta manera: p<
.01 p< .001.
Ya hemos indicado en el apartado anterior que este 5% es el lmite convencional y aceptado para rechazar el azar (el error muestral en trminos ms
apropiados) como explicacin, por lo que podramos concluir que s hay relacin aunque sta puede ser pequea y de poco valor prctico. Una correlacin estadsticamente significativa no significa una correlacin grande.
El poner un 5% de probabilidades de error (para afirmar que s hay relacin) es un criterio usual aunque arbitrario; si uno desea ms seguridad puede poner como lmite un 1% de probabilidad de error; son los dos lmites
convencionales ms utilizados.
b) Con muestras de ms de 100 sujetos
Vemos en cuntas desviaciones tpicas (errores tpicos) se aparta nuestro coeficiente de correlacin de una correlacin media de cero; es decir calculamos
la puntuacin tpica (z) correspondiente a nuestro coeficiente de correlacin:
[7]
Lo que tenemos en el denominador es la frmula del error tpico de los

coeficientes de correlacin (en muestras grandes).
Esta frmula queda simplificada as:
[8]
En la tabla 6 estn los valores crticos para interpretar los resultados.

Tabla 6
En el numerador de la frmula [7] tenemos la diferencia entre nuestra correlacin y una correlacin media de cero; lo que tenemos en el denomina-
140
dor es el error tpico (o desviacin tpica) de la distribucin de las correlaciones cuando la correlacin media es cero. Lo que hemos hecho es por lo
tanto calcular una puntuacin tpica: nos indica, utilizando los trminos convencionales, en cuntas desviaciones tpicas (o errores tpicos) se aparta
nuestra correlacin de una correlacin media de cero. Y ya sabemos (por las
tablas de la distribucin normal) que un valor que se aparte de la media en
ms de 1.96 desviaciones (fijndonos en ambos extremos de la distribucin)
slo ocurre por azar 5 veces de cada 100 o menos.
Por ejemplo: encontramos una correlacin de r = .14 en una muestra de
275 sujetos; aplicando la frmula [8] (ms sencilla que la [7]) tendremos que
que supera el valor de z = 1.96 por lo que podemos
concluir que una correlacin de r = .14 en esa muestra, en el caso de no relacin, la obtendramos por azar menos de cinco veces de cada 100 (p< .05);
nuestra conclusin ser que esa correlacin es estadsticamente significativa.
c) Cuando de los mismos sujetos tenemos varios coeficientes de
correlacin
En vez de aplicar la frmula [7] o la frmula [8] a cada coeficiente, podemos construir nuestras propias tablas, cuando el nmero de sujetos es siempre el mismo y los valores de z de inters tambin son siempre los mismos
(los que figuran en la tabla 6). En la frmula [7] podemos despejar los valores
de r que nos interesan:
Si
podemos despejar r;
Esta frmula queda simplificada de esta manera:
[9]
Por ejemplo, si nuestros sujetos son N = 212, nuestras tablas sern estas9:
Para p .05
Para p .01
Para p .001
9
Dado un nmero determinado de sujetos (N) los valores correspondientes a .05,
.01 y .001 nos lo da directamente Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp, buscando minimum r to be significant. Esta direccin, y otras que nos dan la
misma informacin, tambin est en el Anexo II.
141
3.6. Los intervalos de confianza: magnitud de la correlacin en la

poblacin
Si calculamos el coeficiente de correlacin, por ejemplo, entre una medida de motivacin y otra de rendimiento escolar, encontraremos un valor determinado en nuestra muestra. Puede ser que nuestro inters no est en conocer el grado de relacin entre estas dos variables en una muestra concreta,
sino en la poblacin ms general representada por esa muestra10.
Si lo que nos interesa es la magnitud de la correlacin en la poblacin (y
no solamente en nuestros sujetos), el valor exacto de la correlacin en la poblacin no podemos saberlo, pero s podemos estimar entre qu valores mximo y mnimo se encuentra. Estos valores extremos se denominan, muy
apropiadamente, intervalos de confianza.
El modelo terico es semejante al visto antes para ver si una correlacin es
estadsticamente significativa; la diferencia est en que antes (figura 4) suponamos una correlacin media de cero en la poblacin y ahora (figura 5) la correlacin media estimada en la poblacin es la obtenida en una muestra.
Si calculamos el coeficiente de correlacin entre las mismas dos variables
en un gran nmero de muestras, tendramos una distribucin normal de los
coeficientes de correlacin entre las dos variables.
La correlacin calculada en nuestra muestra la tomamos como una estimacin de la media en la poblacin. Esta estimacin ser ms ajustada si la
muestra es realmente representativa.
El error tpico (desviacin tpica) de esta distribucin lo estimamos a partir de los datos de una muestra concreta y las frmulas son:
para muestras grandes
sr =
[10]
para muestras pequeas
sr =
[11]
El error tpico, lo mismo que una desviacin tpica, nos indica el margen
de variabilidad probable (de oscilacin) de los coeficientes de correlacin si
los calculramos en muchas muestras. Como suponemos una distribucin
normal, el 95% de los casos de los coeficientes de correlacin caen entre la
correlacin obtenida en la muestra (la media de la distribucin) ms 1.96
10
En este apartado, lo mismo que en el anterior, no nos limitamos a hablar de la correlacin obtenida en una muestra concreta que describe la relacin entre dos variables en
esa muestra, sino que estamos tratando de la correlacin en la poblacin. Cuando a partir de los datos obtenidos en una muestra deducimos los valores probables en la poblacin
(extrapolamos) estamos ya en estadstica inferencial y no meramente descriptiva.
142
errores tpicos y la correlacin obtenida menos 1.96 errores tpicos. Estos son
los intervalos de confianza de la correlacin, como podemos ver representado en la figura 5 (con un nivel de significacin de .05).
Figura 5
95% de los
coeficientes
de correlacin en
muestras de la
misma poblacin
Lmite mnimo
probable en la
poblacin
Lmite mximo
probable en la
poblacin
-1.96 errores tpicos
+1.96 errores tpicos

Correlacin obtenida en la muestra =
estimacin de la correlacin en la poblacin
Por ejemplo: en una muestra de 102 sujetos encontramos una correlacin

de r = .20;
Aplicando la frmula [8] tendramos z =
= 2.01, p< .05 (superamos el lmite de 1.96, tabla 6). La correlacin de .20 en una muestra de
102 sujetos es estadsticamente significativa (no es cero en la poblacin).
Si calculamos la correlacin entre las mismas dos variables en una serie indefinida de muestras Entre qu lmites oscilaran los coeficientes de correlacin?
El error tpico de los coeficientes de correlacin (con N = 102) sujetos es
(frmula [10]):
Lmite ms bajo de la correlacin en la poblacin:

.20 (media) (1.96)(.099) = .005
Lmite ms alto de la correlacin en la poblacin:
.20 (media) + (1.96)(.099) = .394
Asumiendo la correlacin que hemos encontrado de r = .20 como una estimacin de la correlacin media, podemos afirmar que el coeficiente de correlacin en la poblacin representada por esta muestra estar entre.005 y .394.
143
Vemos que entre estos lmites extremos probables no se encuentra el cero, por eso la correlacin es estadsticamente significativa (distinta de cero
en la poblacin), aunque el lmite inferior es casi cero.
Vamos a ver un ejemplo de correlacin no estadsticamente significativa.
En una muestra de N = 120 y r = .14 vemos que (frmula [8])
z = .14
120 1 = 1.53
Como no llegamos al valor crtico de 1.96 concluimos que p > .05; la probabilidad de obtener un coeficiente de esa magnitud es superior al 5%. Nuestra conclusin ser que esta correlacin no es estadsticamente significativa.
Calculamos ahora los lmites extremos (intervalos de confianza) de ese
coeficiente en la poblacin:
Lmite inferior:
1
.14 1.96 () = .14 - .179 = -.04
120 1
Lmite superior:
1
.14 + 1.96 () = .14 + .179 = +.319
120 1
En la poblacin esa correlacin estar entre -.04 y + .319; como el lmite

inferior es negativo (-.04) entre esos intervalos est la posibilidad de encontrar r = 0, por eso decimos que no es estadsticamente significativa; porque
puede ser r = 0 en la poblacin. Siempre que los lmites extremos son de distinto signo, la correlacin no es estadsticamente significativa (el cero es un
valor probable porque est comprendido entre esos lmites).
Cuando un coeficiente de correlacin calculado en una muestra es estadsticamente significativo, la informacin que tenemos sobre la magnitud
de la correlacin en la poblacin representada por esa muestra es por lo
tanto muy imprecisa, aunque podemos afirmar que no es cero. Para estimar la magnitud de la correlacin en la poblacin con una mayor precisin (entre unos lmites estrechos) nos hacen falta muestras muy grandes
porque al aumentar el tamao de la muestra disminuye el error tpico.
Podemos verlo de manera ms grfica calculando los intervalos de confianza (lmites mximo y mnimo en la poblacin) de un coeficiente de .20 calculado en muestras de tamao progresivamente mayor (tabla 7).
Un coeficiente de correlacin de r = .20 calculado con una muestra grande nos da una idea ms precisa (lmites extremos ms estrechos) de dnde se
encuentra este valor en la poblacin.
Con frecuencia vemos en la literatura experimental resultados conflictivos:
correlaciones grandes y positivas en una muestra y bajas o incluso negativas en
144
Tabla 7
otras muestras esta conflictividad suele ser aparente como podemos comprobar si calculamos entre qu lmites pueden oscilar estos coeficientes: cualquiera de los dos coeficientes podran caer dentro de los lmites del otro11.
Aqu es oportuno hacer dos observaciones:
1. Cuando calculamos los intervalos de confianza de un coeficiente de
correlacin (o de cualquier otro estadstico) estamos comprobando tambin
si ese coeficiente de correlacin es estadsticamente significativo (si est
dentro de lo probable una correlacin igual a cero en la poblacin).
Por ejemplo, con N = 120 obtenemos una correlacin de r = .15. Este coeficiente lo hemos calculado en una muestra concreta y ahora nos preguntamos entre qu lmites se encuentra ese coeficiente de correlacin en la poblacin representada por esa muestra.
El error tpico es (frmula [10]) 1 / 120 1 = .0916, luego los lmites estarn entre .15 (1.96)(.0916); como (1.96)(.0916) = .179, los lmites estarn
entre .15 .179:
Lmite mnimo: .15-.179 = -.03
Lmite mximo: .15 + .179 = .33
En la poblacin esa correlacin de .15, calculada en 120 sujetos, se encuentra entre -.03 y + .33, el lmite mnimo tiene signo menos, luego cero es
un valor posible; no se trata por lo tanto de una correlacin estadsticamente
11
Los intervalos de confianza del coeficiente de correlacin tambin podemos calcularlos muy fcilmente en programas de Internet (Anexo II; uno muy cmodo es el de
VassarStats).
145
significativa. Siempre que entre los valores extremos posibles (mximo y mnimo) de la correlacin hay un cambio de signo, entra como posible el valor
cero y la correlacin ya no es en ese caso estadsticamente significativa (puede ser cero en la poblacin).
2. Los intervalos de confianza son ms informativos que el decir simplemente si un coeficiente de correlacin es o no es estadsticamente significativo; nos dicen entre qu valores probables puede oscilar ese coeficiente en
la poblacin representada por la muestra. Lo que suele recomendarse es
aportar tambin los intervalos de confianza.
3.7. Cmo valorar la magnitud de la correlacin
Cundo un coeficiente de correlacin es suficientemente alto? No vamos
a tener una respuesta clara y de aplicacin universal, pero s se pueden dar
orientaciones para valorar la magnitud de estos coeficientes.
3.7.1. Orientaciones generales
Una vez que hemos comprobado que un coeficiente de correlacin es estadsticamente significativo (= muy improbable por azar y que por lo tanto
se puede interpretar como indicador de una verdadera relacin distinta de
cero), la cuestin siguiente es valorar la magnitud del coeficiente.
Como criterio orientador (sin convertirlo en norma) se suelen sugerir las
valoraciones indicadas en la tabla 8.
Tabla 8
un valor de r entre:
indica una relacin:
0 y .20 ...................................... muy baja,

.20 y .40 .................................... baja
.40 y .60 .................................... moderada
.60 y .80 .................................... apreciable, ms bien alta
.80 y 1 ....................................... alta o muy alta
Las valoraciones anteriores, y otras semejantes que pueden encontrarse

en libros de texto, son orientadoras y hay que interpretarlas con cautela. Estas valoraciones suelen darse teniendo en cuenta la mera magnitud, pero
una correlacin baja puede tener inters interpretativo12.
12
Cohen (1988:77-81) establece (y justifica) como criterio orientador (y provisional) estas valoraciones: correlacin pequea r = .10, media r = .30 y grande r = .50. Basa sus va-
146
a) Una correlacin no significativa o simplemente muy baja, puede ser

tan informativa e interesante como una correlacin alta. El descubrir
una no relacin puede tener tanto inters como verificar que s existe relacin. Tambin puede suceder que se d una clara relacin, pero no linear sino curvilnea, y esto puede apreciarse en un diagrama
de dispersin (el coeficiente eta, h, es el apropiado para relaciones
curvilneas).
b) Un coeficiente de correlacin puede tambin calificarse como alto o bajo aadiendo y matizando en este contexto. Las correlaciones muy bajas a veces se deben no a que las relacin es efectivamente baja, sino a
que medimos mal las variables, con instrumentos poco precisos que no
detectan bien las diferencias entre los sujetos, etc. En un cuadro general de coeficientes ms bien bajos, obtenidos con instrumentos semejantes y en un mismo planteamiento de investigacin, pueden destacar
los coeficientes altos en trminos relativos.
c) Para valorar la magnitud de un coeficiente de correlacin, r2 (o coeficiente de determinacin, que expresa la proporcin de variacin
conjunta) puede parecer ms til que el valor de r (y as suele a veces
indicarse) ya que aparentemente este valor expresa el impacto de una
variable sobre la otra variable. Como los valores de r2 son mucho ms
bajos que los de r (si r = .30, r2 = .09) el utilizarlos como criterio para
valorar la magnitud o la importancia de un coeficiente de correlacin
tiene sus riesgos porque los coeficientes bajos pueden ser tambin informativos o sugerir preguntas de inters como indicamos en el apartado siguiente.
3.7.2. Sobre la interpretacin y utilidad de los coeficientes de
correlacin bajos
Los coeficientes de correlacin altos o moderadamente altos no ofrecen especiales problemas; en general resultan gratificantes para el investigador. Son
los coeficientes bajos, aunque sean estadsticamente significativos, los que a veces nos cuesta interpretar adecuadamente. Por eso les dedicamos una especial
atencin (en el apartado siguiente sugerimos posibles causas que pueden explicar coeficientes muy bajos donde cabra esperarlos mayores).
La primera observacin sobre estos coeficientes muy bajos (como cuando
son mucho menores de .30), es que simplemente expresan una relacin enloraciones en que en las ciencias de la conducta las correlaciones suelen ser bajas. Este autor
es conocido (y citado) por las valoraciones que hace sobre las magnitudes de determinados
estadsticos (son citadas sobre todo sus valoraciones sobre el tamao del efecto). En otro
apartado (3.7.3.) damos posibles explicaciones de coeficientes de correlacin bajos.
147
tre las dos variables (matizando siempre tal como la medimos) que es muy
pequea. Con muestras grandes es normal encontrar correlaciones estadsticamente significativas pero tan pequeas que pueden ser prcticamente irrelevantes. Aun as estos coeficientes pequeos pueden darnos informacin til
o buenas pistas para pensar al menos por qu no encontramos una relacin
apreciable donde cabra esperarla (este punto lo tratamos en el apartado siguiente). Adems, dadas las limitaciones de nuestros instrumentos de medicin, la relacin real puede ser mayor de la que somos capaces de cuantificar
(una imagen que nos puede ayudar es la de un iceberg: lo que somos capaces
de ver y cuantificar es mucho menor que lo que est sumergido).
1 Los coeficientes bajos (por ejemplo de .30) son poco tiles (o intiles)
desde una perspectiva prctica; por ejemplo para predecir resultados. Si dos
variables estn relacionadas, conociendo la puntuacin de un sujeto en una
variable, podemos predecir (o estimar) cul ser su puntuacin en la otra variable. Por eso se habla de la validez predictiva de los tests (admisiones, seleccin, etc.). Aun as tests con baja validez predictiva pueden ser predictores
tiles unidos a otros en correlaciones mltiples (que no tratamos ahora), pero esta utilidad habra que comprobarla13. En estos casos (validez predictiva
de los tests) tambin hay que tener en cuenta lo que explicamos en el apartado los coeficientes de correlacin corregidos por restriccin de la amplitud.
2 Coeficientes de correlacin muy pequeos, si son significativos (es decir, que probablemente no son cero en la poblacin), pueden estar indicando
alguna ley psicolgica14; el que la correlacin sea pequea puede significar no
que sea realmente pequea sino que medimos muy pobremente las variables
o que esta correlacin est contaminada por otras variables que no tenemos
en cuenta; casi nunca medimos variables puras (as la inteligencia, tal como la
medimos, puede estar contaminada por niveles de educacin, capacidad lectora, etc.).
3 Algunos autores15 sealan que una correlacin de .30 (aparentemente
baja) viene a indicar el tipo de relacin que un observador puede detectar casualmente; es una relacin detectable a simple vista; por ejemplo, cuando un
profesor cae en la cuenta, al cabo de los aos, de que entre los alumnos que
se sientan en las ltimas filas y junto a una ventana hay ms suspensos que entre los que se sientan en la primera fila esa relacin observable podra ser
del orden de r = .30 y ciertamente relevante.
13
El tema de la prediccin, obviamente muy relacionado con la correlacin, no lo estamos tratando aqu; puede verse tratado en el documento correlacin y regresin
(www.upcomillas.es/personal/peter).
14
Guilford y Fruchter (1973: 92).
15
Por ejemplo Cohen P. (1981) y Cohen J. (1988:80), y tambin otros autores hacen
la misma observacin. Cohen J. (1988:80) cita coeficientes de correlacin importantes que
son de este tipo de magnitud (.30).
148
4 Cuando las dos variables son dicotmicas (una puede ser participar o
no participar en una terapia, en un nuevo mtodo, experiencia, etc. y la otra
mejorar o no mejorar, sobrevivir o no sobrevivir, etc.) el coeficiente de correlacin es igual al tanto por ciento de xito; as una correlacin de .20 (que
indica que solamente hay un 4% de varianza comn) quiere decir que con ese
tratamiento han mejorado, sobrevivido, etc., un 20% ms de los que hubieran sobrevivido de no seguir ese tratamiento16. Este es un dato importante para valorar los coeficientes de correlacin, que aunque sean bajos pueden indicar un xito cualitativamente importante (es despreciable un 4% de
supervivientes (si r = .04) que de otra manera no hubieran sobrevivido?).
Sobre esta ltima valoracin e interpretacin de los coeficientes de correlacin hacemos dos observaciones:
1 Aunque literalmente se refiere a la correlacin entre dos variables dicotmicas (un caso especial de la correlacin de Pearson que en principio
requiere que al menos una variable sea continua), esta interpretacin
es tambin vlida cuando las variables son continuas (como escalas tipo Likert).17
2 Aunque este tipo de comprobaciones (por ejemplo eficacia de una terapia) las hacemos habitualmente comparando medias (comparando
dos grupos, uno experimental y otro de control) los resultados (t de
Student) se pueden convertir fcilmente en un coeficiente de correlacin que aade una informacin complementaria que no nos aporta la
t de Student, pues nos permite valorar la magnitud (y por lo tanto la
importancia) de la diferencia.18
Aunque estos planteamientos no sean los que ms nos interesen ahora
mismo al tratar de la correlacin de Pearson, no sobra intuir el valor informativo que puede tener una correlacin pequea.
16
Esta interpretacin (denominada Binomial Effect Size Display, BESD) elaborada
por Rosenthal y Rubin (1979, 1982; Rosenthal, 1987); la recogen tambin otros autores
(por ejemplo Hunter y Schmidt, 1990:202; Cohen, 1988:533) que revalorizan la informacin que pueden aportar a veces coeficientes pequeos de correlacin en determinadas situaciones. En los primeros autores citados pueden encontrarse una explicacin ms detallada y tablas que facilitan esta interpretacin. Sobre el Binomial Effect Size Display puede
verse en Internet Randolph y Edmondson (2005), que exponen su utilidad y limitaciones
y tambin cmo calcular este Binomial Effect Size Display a partir del tamao del efecto
(d de Cohen) si se ha hecho un contraste de medias (la t de Student puede transformarse
en un coeficiente de correlacin).
17
Rosenthal (1987: 114-115).
18
Las frmulas para convertir los valores de t en r y viceversa suelen verse tratando
del tamao del efecto en el contexto del contraste de medias.
149
5 Hay que tener en cuenta la situacin y el uso del coeficiente. Un valor

pequeo (por ejemplo de r =.20) puede ser poco til (o nada til) con fines
predictivos, y ser sin embargo de inters en una investigacin terica; a veces
lo que interesa es constatar si se da alguna relacin.
Estas consideraciones sobre los coeficientes pequeos de correlacin hay
que complementarlas con otras sobre las posibles causas de estos valores bajos, sobre todo si cabra esperar que fueran mayores. Nos introducen en otras
reflexiones tiles para el investigador.
3.7.3. Explicaciones posibles de coeficientes de correlacin muy
bajos
Una correlacin baja puede significar simplemente eso, que la relacin entre esas dos variables es pequea. Sin embargo una correlacin baja donde
hubiramos esperado un valor mayor nos invita a preguntarnos el por qu de
esa correlacin baja o nula. Puede que sea baja tal como la hemos medido y
adems en una determinada muestra, pero que en la realidad, en la vida, la
relacin sea mayor y ms clara.
Explicaciones posibles de coeficientes de correlacin bajos.
Las posibles explicaciones (ms que causas) de los coeficientes de correlacin muy bajos pueden ayudarnos en su interpretacin y explicacin.
a) Poca fiabilidad, o poca precisin, en los instrumentos de medicin
Entre dos variables puede haber una verdadera relacin, pero no detectable si medimos con poca precisin, sin diferenciar adecuadamente a unos
sujetos de otros. Debemos tener en cuenta que a veces intentamos medir
sentimientos, profundos, recuerdos del pasado, valoraciones difciles de hacer, etc., con preguntas sencillas, que los sujetos a veces responden rpidamente y sin especial cuidado19; quizs no tenemos otra manera mejor de hacerlo en un momento dado, pero en cuanto instrumentos de medicin
resultan muy pobres (aunque pueden ser muy tiles).
19
Con las preguntas de muchos cuestionarios lo que hacemos con frecuencia es intentar atrapar sentimientos con un cazamariposas. A veces podemos sospechar que una correlacin muy pequea, sobre todo detectada con instrumentos muy pobres, es simplemente la punta del iceberg; la realidad sumergida (o sugerida como hiptesis) puede ser
mucho mayor. Para Cohen (1988:79) muchas de las correlaciones que podemos buscar en
las ciencias blandas de la conducta son del orden de .10 ya que en las variables, tal como
las operacionalizamos, hay muchos ruidos (falta de fiabilidad o de fidelidad al constructo terico, etc.). El mismo autor cita a Thurstone cuando dice que en psicologa medimos
a los hombres por sus sombras.
150
Es posible aplicar las frmulas de correccin por atenuacin que dan una
estimacin de la correlacin que podramos obtener si la fiabilidad fuera
perfecta. De estas frmulas (que suponen una comprensin adecuada de lo
que es la fiabilidad) tratamos ms adelante.
b) Homogeneidad de la muestra
La relacin verificada (que es lo que indica el coeficiente de correlacin)
supone diferencias entre los sujetos en las variables cuya relacin nos interesa comprobar. Con muestras muy homogneas los coeficientes son bajos;
con muestras heterogneas es ms fcil detectar relaciones. Por ejemplo la relacin comprobada mediante el coeficiente r entre inteligencia y rendimiento escolar puede ser muy baja o nula si los alumnos han sido seleccionados precisamente por su inteligencia (no hay diferencias, o muy pequeas, en
una de las variables).
c) Instrumentos poco discriminantes
Tambin puede suceder que el poco matiz de algunas medidas no recoge
las diferencias que de hecho se dan, e impide encontrar coeficientes de correlacin altos. Se trata en definitiva de limitaciones en el instrumento de medida. Con frecuencia es ste el caso cuando:
a) Una de las variables son calificaciones escolares que apenas diferencian
a los alumnos, o son notas medias que tienen a parecerse mucho entre s.
b) Cuando medimos una variable con unas preguntas que admiten pocas
respuestas (como s o no, o poco, algo, mucho, cuando los sujetos podran matizar ms) y que por lo tanto no recogen la diversidad que de
hecho puede estar presente en la muestra.
La homogeneidad de la muestra puede estar provocada por el mismo instrumento, que no discrimina lo suficiente, y sin diferencias claras en la muestra y en ambas variables no se detectan relaciones. Este punto hay que tenerlo en cuenta en la construccin de instrumentos de medida (tests, escalas,
cuestionarios).
3.8. Los coeficientes de correlacin cuando unimos o separamos
submuestras
Este apartado es de inters porque muchas veces los sujetos de nuestras
muestras se pueden subdividir de muchas maneras (cursos, carreras, profesiones, sexos, procedencia), y tambin en las variables que correlacionamos
151
cabe distinguir varias subvariables (por ejemplo, en vez de, o adems de, una
nota media como criterio de rendimiento se pueden utilizar las notas de las
distintas asignaturas y tambin otros criterios disponibles).
En dos muestras distintas podemos encontrar una correlacin alta entre,
por ejemplo, un test de inteligencia y calificaciones en una asignatura, y al
unir las dos muestras podemos encontrarnos con que la correlacin baja
apreciablemente. Esto puede suceder si las medias en esa asignatura son muy
distintas en las dos muestras (como puede suceder si se trata de profesores
distintos, o con distinto criterio para calificar, etc.) Calculando coeficientes de
correlacin uniendo muestras distintas o separndolas podemos hacer que
aumenten o disminuyan las diferencias en una o en las dos variables y esto naturalmente afecta a los coeficientes de correlacin.
Presentamos (de manera un tanto exagerada para que quede ms claro)
algunos casos tpicos que ponen de relieve lo que puede suceder al unir o separar muestras.
Cuando una muestra est compuesta por submuestras (ambos sexos, diversas edades, o una muestra subdividible por cualquier otra variable) puede
merecer la pena calcular la correlacin dentro de cada submuestra; con frecuencia aparecen correlaciones en subgrupos concretos sin que aparezcan en
la muestra general; y al revs, puede no haber una relacin apreciable en una
submuestra y aparecen relaciones importantes cuando las unimos en una sola muestra.
Los grficos siguientes (diagramas de dispersin, con datos ficticios) ilustran situaciones que pueden ser frecuentes y en las que los coeficientes de
correlacin varan mucho si los calculamos en submuestras distintas o en toda la muestra20.
En el diagrama I (figura 6) tenemos que dentro de cada muestra r = 0, en
cambio si unimos las dos muestras en una sola, la correlacin pasa a ser muy
alta. Una muestra tiene las dos medias ms altas que la otra, y al unirlas en una
sola muestra tienden a coincidir los altos y los bajos en las dos variables.
20
De hecho un mismo coeficiente de correlacin puede corresponder a diagramas

de dispersin muy distintos en los que el mismo coeficiente no se podra interpretar de la
misma manera, por eso para interpretar estos coeficientes es muy aconsejable tener a la
vista el diagrama de dispersin. Un ejemplo muy ilustrativo son los cuatro diagramas de
dispersin que con datos ficticios public Anscombe (1973); los cuatro diagramas de dispersin son muy distintos pero corresponden a un idntico coeficiente de correlacin de
.82; estos diagramas los reproducen con su explicacin algunos autores (por ejemplo Fox;
1993:246 y Etxcheberria, 1999:49) y tambin podemos encontrarlos con facilidad en Internet (por ejemplo Behrens, 1997); tambin en Internet Dallal (2001) reproduce (en correlation coefficients) ocho diagramas muy distintos que corresponden a un mismo coeficiente de correlacin de .70
152
Figura 6:
DIAGRAMA I
9
8
Caso 1
7
Subgrupo B, r = 0.00
6
Y
5
4
Subgrupo A, r = 0.00
Todos, r = 0.82
3
2
1
1
ste podra ser el caso de la correlacin entre peso (X) y edad (Y) en un
grupo de nios de cinco aos y en otro de diez aos. En cada grupo la correlacin es cero; las diferencias en edad (meses, semanas) y en peso son pequeas y sobre todo no son sistemticas (dos meses ms de edad no implica
pesar medio kilo ms). En cambio si juntamos los dos grupos y calculamos
la correlacin con todos sube a .82 (muy alta): ahora coinciden altos en edadaltos en peso y bajos en edad-bajos en peso. Como ejemplo puede ser irrelevante, pero es claro
En el diagrama II (figura 7) tenemos el caso opuesto: dentro de cada grupo la correlacin es alta, pero baja apreciablemente al unirlos en un solo grupo.
Posiblemente ambos grupos proceden de poblaciones distintas por lo que
respecta a las medias en la variable X (y esto podra comprobarse).
153
Figura 7:
DIAGRAMA II
9
8
Todos, r = 0.30
Caso 2
7
6
Y
5
4
Subgrupo B
Subgrupo A
r = 0.84
r = 0.84
3
2
1
1
En el ejemplo del diagrama II (figura 7) la variable Y podra ser un test de

inteligencia abstracta, y la variable X notas en matemticas. En ambos grupos las medias en Y (inteligencia) son parecidas, pero las medias en X (notas en matemticas) son claramente diferentes. En ambos casos los ms inteligentes segn ese test son tambin los que mejores notas sacan; en cada
clase hay una relacin alta y clara entre el test (Y) y las notas (X), pero esta relacin baja si calculamos la correlacin juntando las dos clases en un mismo
grupo. Por qu? En este ejemplo podra tratarse de profesores distintos, uno
califica ms bajo y el otro ms alto al juntar a todos los alumnos de las dos
clases se neutralizan las diferencias y queda menos claro lo de altos en las dos
o bajos en las dos En un caso como ste se podra calcular la correlacin
por separado en cada muestra y luego calcular la correlacin media.
Esto es frecuente tambin que suceda cuando una de las variables es la nota media de varias asignaturas; estas notas medias neutralizan las diferencias
en rendimiento acadmico. En estos casos puede ser preferible comprobar la
correlacin en cada muestra por separado y calcular despus la correlacin
media.
154
Figura 8:
DIAGRAMA III
9
8
Caso 3
7
6
Y
Subgrupo B, r = 0.00
5
Todos, r = 0.92
4
3
Subgrupo A, r = 0.83
2
1
1
En el diagrama III (figura 8) tenemos un caso distinto pero frecuente cuando

ha habido procesos de seleccin. En toda la muestra la correlacin es muy alta,
sin embargo si la calculamos en la submuestra con puntuaciones ms altas en
una o las dos variables, la correlacin baja e incluso puede ser negativa.
Si una variable es un test de inteligencia (X) utilizado para seleccionar candidatos en una universidad, y la otra variable (Y) es rendimiento acadmico,
tendramos que dentro de los seleccionados (los nicos de los que tenemos
datos en las dos variables) la correlacin obtenida entre inteligencia y rendimiento es muy baja e incluso puede ser negativa. Con la seleccin eliminamos diferencias en una variable (X), y sin diferencias sistemticas en las dos
variables no hay relacin comprobable. ste es un caso tpico cuando se desea ver si los tests utilizados en las pruebas de admisin (o cualquier otro dato de entrada) tiene que ver con el xito posterior.
En el caso representado en la figura 8 no han sido admitidos los que no
han llegado a 6 en la prueba de admisin (X) con lo que tenemos datos en X
de todos (admitidos y no admitidos), pero en Y (xito acadmico) slo tenemos datos de los admitidos. Hemos homogeneizado la muestra y entre los
155
seleccionados no se detecta ninguna relacin entre el test de admisin (X, un

presunto predictor) y xito acadmico.
Veremos mtodos para calcular una estimacin de la correlacin entre las
dos variables en toda la muestra, si disponemos de la correlacin en el grupo seleccionado (en el que tenemos datos de las dos variables) y adems la
varianza de toda la muestra en una de las dos variables (en este caso del
test de inteligencia utilizado en la seleccin). Estas estimaciones son tiles para poder apreciar y valorar la eficacia de un test supuestamente predictivo,
independientemente de las correlaciones (quizs muy bajas) que hayamos
obtenido (volvemos a este punto al tratar de los coeficientes de correlacin
corregidos por restriccin de la amplitud, n 4.2).
3.9. Influjo en la correlacin de las puntuaciones extremas (outliers)
Una puntuacin extrema o atpica (outlier en ingls) es la que se aparta
mucho de las dems. Si una variable es la edad y la muestra es de nios de 12
a 14 aos, si incluimos un sujeto de 40 aos se trata evidentemente de una
puntuacin extrema en la variable edad. Estas puntuaciones extremas o atpicas pueden influir mucho en el coeficiente de correlacin. Lo vemos claramente en el diagrama IV de la figura 9.
Figura 9:
DIAGRAMA IV
9
8
r = .64
7
6
Y
5
4
3
r = .00
2
1
1
5
X
156
Si calculamos la correlacin con los sujetos encerrados en el recuadro tenemos r = 0, no hay ninguna relacin como se aprecia a simple vista en el
diagrama, pero si aadimos un sujeto ms con puntuaciones muy altas en las
dos variables (altas en trminos relativos, comparadas con los de los dems
sujetos), la correlacin sube de 0 a .64. Tambin pueden bajar como podemos
ver en el diagrama V de la figura 10.
Figura 10:
DIAGRAMA V
9
8
r = .71
7
6
Y
5
4
3
r = .15
2
1
1
En los sujetos encerrados en el recuadro vemos una correlacin ms bien

alta (r = .71) que baja a .15 si incluimos un solo sujeto con una puntuacin
muy alta en una variable (en X) y muy baja en la otra (en Y).
El efecto de estas puntuaciones atpicas (outliers) es muy grande en muestras pequeas (como en las de estos ejemplos ficticios); en muestras muy
grandes puede ser inapreciable, pero aun as estas puntuaciones que se salen
de lo normal pueden distorsionar la informacin de un coeficiente de correlacin. Estas puntuaciones pueden estar indicando a veces respuestas intencionadamente exageradas o simplemente que el sujeto no entendi la pregunta, pero tambin pueden reflejar respuestas sinceras de sujetos realmente
atpicos.
157
Con respecto a estas puntuaciones atpicas:

a) Puede ser de inters hacer un anlisis cualitativo de los sujetos con este tipo de respuestas Qu caracterstica tienen en comn? Aqu puede
haber resultados interpretables.
b) Se puede presentar el valor de la correlacin con o sin estos sujetos atpicos; esto puede ser ms aconsejable en muestras pequeas.
c) Ciertamente en muchos estudios se prescinde de estos sujetos porque
distorsionan el valor de los coeficientes de correlacin y no muestran la
relacin entre las variables que podemos esperar en sujetos normales;
por alguna razn estas respuestas no son normales y es preferible no
contabilizar a esos sujetos. En estos casos conviene indicarlo, lo mismo
que el criterio que se ha seguido para identificar los datos atpicos21.
d) Sobre cundo una puntuacin se aparta realmente de lo normal no hay
unanimidad en los criterios, pero una norma aceptable es prescindir de
los sujetos que en cualquiera de las variables tengan una puntuacin tpica superior a 3 (positiva o negativa)22.
4. COEFICIENTES DE CORRELACIN CORREGIDOS

Los coeficientes de correlacin pueden resultar a veces de alguna manera
deformados (demasiado altos o demasiado bajos) por diversas causas, de manera que no dan una idea clara sobre la verdadera relacin entre dos variables.
Tenemos por ejemplo estos tres casos de los que vamos a tratar a continuacin:
1 Una baja relacin donde la esperamos mayor puede deberse a la baja
fiabilidad de los instrumentos de medicin, y no tanto a que las variables no estn claramente relacionadas; al menos las correlaciones seran mayores con una fiabilidad mayor en los instrumentos.
2 Tambin una baja relacin puede deberse a que la muestra en la que se
ha calculado ha sido artificialmente homogeneizada, han disminuido
21
En grandes estudios correlacionales se suele prescindir de estos sujetos atpicos
(por ejemplo con puntuaciones tpicas en alguna variable superiores a z = 2), e incluso esta supresin est prevista en programas como el SPSS.
22
Orientacin de Osborne y Overbay (2004) que recomiendan la exclusin de estas
puntuaciones (there are strong arguments for removal or alteration of outliers) y exponen los diversos posibles orgenes de estos outliers. Otra alternativa propuesta por otros
autores consiste en recodificar los outliers y sustituir estas puntuaciones por las puntuaciones mxima y mnima presentes en el resto de los datos (truncation). Estas puntuaciones atpicas tambin afectan a la t de Student y al anlisis de varianza.
158
las diferencias en una de las variables y naturalmente bajan los coeficientes de correlacin (explicado antes a propsito del diagrama III, figura 8).
3 Cuando calculamos la correlacin entre una parte y el todo (como entre un tem y la puntuacin total de la que forma parte ese tem) en este caso la correlacin sube artificialmente y da una idea incorrecta sobre la verdadera relacin entre esa parte y el todo.
Para estas situaciones, que son frecuentes, disponemos de frmulas correctoras que nos dan una estimacin de la verdadera correlacin (o la correlacin exacta como en el caso 3).
4.1. Correlacin y fiabilidad: los coeficientes de correlacin
corregidos por atenuacin
Ya hemos indicado antes que la verdadera relacin puede ser mayor que la
que muestra un determinado coeficiente, debido a la falta de fiabilidad de los
instrumentos de medicin. Si el instrumento (test, escala, etc.) no detecta con
precisin las diferencias que hay entre los sujetos, la correlacin calculada puede ser inferior a la real (o superior en el caso de las correlaciones parciales)23.
Este apartado, que es importante situarlo en el contexto de los coeficientes de correlacin, supone un estudio previo de lo que son los coeficientes de
fiabilidad, pero se puede entender con slo una nocin bsica de lo que es
la fiabilidad (precisin en la medida).
4.1.1. Frmula de correccin por atenuacin
Disponemos de unas frmulas que nos permiten estimar cual sera el coeficiente de correlacin si la fiabilidad fuera perfecta. Se denominan frmulas
de correccin por atenuacin porque el coeficiente de correlacin est atenuado (disminuido) por la falta de fiabilidad de los instrumentos.
La frmula general de la correlacin corregida por atenuacin es:
rxx y ryy son los coeficientes de fiabilidad
de cada medida; en el denominador puede estar tambin slo la fiabilidad de uno
de los instrumentos si la del otro nos es
desconocida, como aparece ms adelante
en la frmula [13].
23
Una buena exposicin de los efectos de la baja fiabilidad en los coeficientes de correlacin y de la correccin por atenuacin puede verse en Osborne (2003).
159
Por ejemplo: tenemos un coeficiente de correlacin entre dos variable de

.25; los coeficientes de fiabilidad de los dos instrumentos son .70 uno (suficientemente alto) y .40 (muy bajo) el otro. Podemos preguntarnos Cul es la
estimacin de la correlacin entre estas dos variables si las midiramos con
una fiabilidad ideal?:
Para poder aplicar esta frmula con resultados fiables:

1) Los coeficientes de fiabilidad que aparecen en el denominador deben
estar calculados en muestras grandes24.
2) Los coeficientes de fiabilidad deben calcularse mediante los procedimientos que dan las mejores estimaciones de la fiabilidad (como las
frmulas Kuder-Richardson 20 y el coeficiente a de Cronbach). Cuando
el coeficiente de fiabilidad es ms bien una estimacin pobre y aproximada, la correlacin corregida por atenuacin puede incluso superar el
valor de 1.
3) Los coeficientes de fiabilidad deben calcularse solamente en medidas
claramente unidimensionales, es decir, que miden un nico rasgo25.
4.1.2. Cundo debe hacerse esta correccin por atenuacin
1 Cuando interese saber hasta qu punto dos variables estn relacionadas, independientemente de los errores de medicin de los instrumentos utilizados. Esto sucede en muchos planteamientos de investigacin terica.
Si por ejemplo calculamos la correlacin entre autoeficacia acadmica y
autorregulacin en el estudio, lo que realmente nos interesa conocer es hasta qu punto ambas variables van juntas. Si las medidas que de hecho utilizamos (tests, escalas, etc.) tienen una fiabilidad baja (clasifican mal a los sujetos)
la correlacin sin corregir puede sugerir que las dos variables estn menos relacionadas que lo que de hecho estn.
Estos coeficientes de correlacin corregidos son interesantes para apreciar lo que podemos estimar que es el verdadero valor de una relacin, pero no tienen utilidad prctica (por ejemplo para hacer estudios de prediccin) porque de hecho medimos con los instrumentos que tenemos, con
24
Segn Nunnally (1978) no deben ser inferiores a N =300.

Cuando se utiliza esta correccin por atenuacin en medidas que no son unidimensionales, el valor de la fiabilidad puede superar el valor de 1 (Schmitt, 1996).
25
160
todas sus imperfecciones y en este caso es preferible no hacer estas correcciones por atenuacin.
2 Tambin suele aplicarse la frmula de correccin por atenuacin
cuando se calcula la correlacin entre dos formas paralelas del mismo test,
como una forma de fiabilidad (para comprobar si las dos versiones del mismo test ordenan a los sujetos de manera semejante).
En este caso es discutible el calcular el error tpico (que se calcula a partir de los coeficientes de fiabilidad, que en este caso es un coeficiente de correlacin), porque este error (o margen de oscilacin de las puntuaciones individuales si los sujetos respondieran varias veces al mismo test) puede
parecer menor de lo que realmente es. En general siempre que de estos
clculos se derivan de alguna manera datos que van a influir en decisiones o
diagnsticos de sujetos, hay que tener en cuenta los errores de medicin (la
falta de fiabilidad de los instrumentos) en vez de suponer que no existen. Para la toma de decisiones tenemos que asumir las limitaciones que nuestros
instrumentos tienen de hecho.
3 Otra serie de aplicaciones de la correccin por atenuacin tienen que
ver con lo que suele denominarse validez predictiva, o correlacin entre un
predictor X y un criterio Y. El predictor puede ser, por ejemplo, un examen
o un test de admisin, y el criterio (que se desea predecir) pueden ser calificaciones, un examen final, o cualquier otra medida que refleje xito.
En estos casos el problema est en el criterio: la falta de fiabilidad del criterio hace bajar la correlacin entre predictor y criterio, y el test predictor
puede parecer menos vlido de lo que realmente es. En estos casos se aplica
esta frmula:
rxy = correlacin calculada entre el
predictor (X) y el criterio (Y)
ryy = fiabilidad del criterio
Si comparamos esta frmula con la anterior, vemos que hemos suprimido

del denominador la fiabilidad del predictor; slo se ha corregido la correlacin por la falta de fiabilidad en el criterio.
Lo que nos interesa conocer en estos casos es la correlacin entre el predictor (X, por ejemplo un examen de ingreso), con los errores y la fiabilidad
que de hecho tenga, y el criterio (Y) si tuviera la mxima fiabilidad. Esta
correlacin nos indicar mejor la calidad del predictor.
En los problemas de prediccin, la fiabilidad del predictor impone un lmite en su capacidad de predecir, y con esa limitacin hay que contar. En cambio la falta de fiabilidad del criterio lo que hace es obscurecer la capacidad
161
predictora del test o instrumento utilizado como predictor. Muchos de los llamados coeficientes de validez (que en este caso no son otra cosa que coeficientes de correlacin entre predictor y criterio) aportan de hecho poca informacin o son de interpretacin ambigua porque no se ha tenido en cuenta
la fiabilidad del criterio.
Un problema que suele encontrarse en estos planteamientos es la dificultad de calcular la fiabilidad del criterio. Frecuentemente todo el inters se
centra en el predictor (qu test se utiliza, etc.) y se descuida la calidad y fiabilidad del criterio (o variable que se pretende predecir, por ejemplo notas,
xito acadmico, etc.)26
4.1.3. Otras estimaciones de la correlacin modificando la
fiabilidad
Existen otras frmulas para estimar la correlacin que obtendramos entre
un predictor (X) y un criterio (Y), no si tuvieran la mxima fiabilidad, sino simplemente una fiabilidad distinta. Por fiabilidad distinta no hay que entender
una fiabilidad mayor necesariamente, tambin podra ser menor. Puede suceder que con tests ms breves (y probablemente de una fiabilidad menor pero con el consiguiente ahorro econmico, de tiempo, etc.) obtengamos casi
los mismos resultados que con tests ms largos.
Este planteamiento puede tener su inters porque la fiabilidad depende (en
parte) del nmero de tems (otras frmulas relacionan la longitud del test y fiabilidad). La fiabilidad perfecta no la tenemos nunca, pero s podemos conseguir
que aumente mejorando la calidad de los tems y aumentando su nmero.
Aunque este tipo de planteamientos se presentan sobre todo cuando interesa predecir el xito (en seleccin de personal, por ejemplo) estas frmulas
son aplicables tambin para analizar cualquier coeficiente de correlacin entre dos variables que en un sentido ms propio no puedan calificarse como
predictor y criterio.
Lo que se plantea con ms frecuencia es estimar la correlacin entre X e Y
si aumentamos la fiabilidad de ambos instrumentos (aadiendo ms tems).
La frmula aplicable en estos casos es la siguiente:
26
Cuando se pretende predecir xito acadmico (a partir de un test, de datos previos) el criterio suele ser nota media final con frecuencia poco fiable o de fiabilidad imposible de calcular. En estos casos (y otros) conviene disponer de varios criterios de xito
(nmero de sobresalientes, de suspensos, notas en determinadas asignaturas, etc.)
162
rxy
= correlacin obtenida entre X e Y
rxx y ryy = coeficientes de fiabilidad distintos (nuevos, deseados)
rxx y ryy = coeficientes de fiabilidad obtenidos de hecho
Si solamente vamos a modificar el coeficiente de fiabilidad de uno de los
dos instrumentos (X en este caso, pero podra ser Y) la frmula es sta:
rxy
rxx
rxx
= correlacin obtenida entre X e Y

= coeficientes de fiabilidad en X distinto
= coeficientes de fiabilidad obtenido en X
El coeficiente de fiabilidad de X distinto puede ser menor, por ejemplo en

una versin reducida (y ms econmica o ms cmoda) del mismo test. En
este caso (frecuente) podemos suponer que no nos es fcil modificar, e incluso calcular, la fiabilidad del criterio.
4.1.4. Relacin entre longitud del test y fiabilidad y longitud del
test y correlacin
Existen otras frmulas que relacionan:
a) El nmero de tems y la fiabilidad de cualquier test (al aumentar el nmero de tems la fiabilidad tiende a aumentar); las frmulas que relacionan el nmero de tems y la fiabilidad suelen verse en el contexto de
la fiabilidad.
b) La correlacin entre X e Y y el nmero de tems (la longitud) de X (X
es el test predictor que se controla con ms facilidad).
Estas frmulas, y otras (como las que vemos en el apartado siguiente),
pueden encontrarse con facilidad en textos de psicometra y de estadstica
aplicada a la educacin27.
Cuando se trata de aumentar el nmero de tems (para que suban la fiabilidad o un coeficiente de correlacin), se supone que los nuevos tems son
del mismo estilo (miden lo mismo, son de formulacin parecida y de seme27
Las frmulas que relacionan la fiabilidad y el nmero de tems pueden verse en Morales, Urosa y Blanco (2003).
163
jante dificultad, etc.) que los que ya tenemos; como esto no suele ser as
exactamente, habra que hablar de estimaciones de la nueva fiabilidad o correlacin al aumentar el nmero de tems.
Estas frmulas son de una utilidad en general muy limitada, pero pueden
tener su inters cuando nos interesa construir o modificar un test para que
tenga una clara validez predictiva o al menos una mayor validez (es decir,
una mayor correlacin entre el predictor y el criterio) que la que disponemos
(por ejemplo en procesos de seleccin, admisiones, etc.; buscamos una correlacin clara con criterios definidos); a la vez podemos controlar la fiabilidad del test predictivo aumentando el nmero de tems.
Estas frmulas suelen aplicarse:
a) En aquellos tests que se pueden manipular con facilidad porque resulta fcil aumentar el nmero de tems, como puede ser un examen objetivo de conocimientos.
b) En situaciones en las que es de gran inters la validez predictiva (como en procesos de admisin o seleccin, que por otra parte tampoco
suelen limitarse a un test).
No es habitual utilizar estas frmulas con otros tipos de tests (por ejemplo
en tests de personalidad, inteligencia, etc.) ya hechos y publicados, y que ya
tienen el nmero de tems decidido por el constructor del test.
4.2. Los coeficientes de correlacin corregidos por restriccin de
la amplitud
Ya hemos visto que cuando la muestra es ms homognea (los sujetos son
muy parecidos unos a otros en las dos o en una de las dos variables) baja el
valor del coeficiente de correlacin. No se comprueban relaciones si los sujetos no son distintos en las dos variables.
El que los coeficientes de correlacin sean menores cuando la muestra es
homognea plantea tambin problemas de validez predictiva en situaciones
de seleccin.
Vamos a suponer que ponemos un test de seleccin (el test X, el predictor) para admitir a los futuros alumnos de una universidad y nos quedamos
con los mejores, los que puntan muy alto en el test X. Entre los alumnos admitidos habr menos diferencias en lo que mida el test X que entre todos los
que se presentaron a las pruebas de admisin; hemos homogeneizado la
muestra mediante el proceso de seleccin.
Posteriormente queremos comprobar la validez del test X, y calculamos la
correlacin entre el test X y el criterio Y (por ejemplo calificaciones, o una
164
prueba objetiva de rendimiento). Podemos encontrarnos con que la correlacin es muy pequea y concluir que el test no es vlido (hay una relacin muy
pequea entre el predictor y el criterio). Esta conclusin puede ser discutible:
la correlacin la hemos calculado solamente con los alumnos admitidos y no
con todos los que se presentaron inicialmente y de los que tenemos datos en
el test X. La varianza en X de los admitidos es lgicamente ms pequea que
la varianza calculada en todos los que se presentaron, admitidos y no admitidos, y una varianza menor (grupo ms homogneo) hace bajar la correlacin
entre X e Y.
En estas situaciones podemos estimar la correlacin entre X e Y en el caso de que todos hubieran sido admitidos. Esta correlacin (se trata de una estimacin), calculada con todos los presentados, es la que podra darnos una
idea mejor sobre la validez predictiva del test X.
Esta correlacin estimada se puede calcular mediante esta frmula:
Rxy = estimacin de rxy si la calculramos en toda la muestra inicial;

rxy = correlacin entre X e Y obtenida en la muestra seleccionada;
si = desviacin tpica en X calculada en toda la muestra inicial (admitidos y no admitidos)
ss = desviacin tpica calculada en X en la muestra seleccionada (admitidos solamente)
sta es la frmula que suele encontrarse en los textos (y por esta razn la
ponemos aqu), pero esta otra expresin [17] de la misma frmula [16] puede resultar ms sencilla28:
si
donde U =
ss
y Rxy y rxy como antes
28
Puede verse comentada en Hunter y Schmidt (1990, pp.125ss); los coeficientes de

correlacin corregidos por restriccin de la amplitud estn bien tratados en Guilford y
Fruchter (1973)
165
Por ejemplo: en un test de seleccin para entrar en una universidad encontramos que
En la muestra inicial (todos los candidatos que se presentan a la seleccin, incluidos naturalmente los que no admitidos) la desviacin tpica es
sinicial = 6
En la muestra seleccionada la desviacin tpica es
sseleccionada = 3
La correlacin entre el test de seleccin y un criterio (por ejemplo, nota
media al terminar el primer curso) es de .30; esta correlacin la calculamos
solamente en la muestra seleccionada, como es natural. Podemos preguntarnos Cul hubiera sido esta correlacin si la hubiramos podido calcular en
toda la muestra que se present al examen de admisiones?
Substituyendo tenemos:
En la primera frmula [16]:
En la segunda frmula [17] (U = 6/3 = 2)
El diferente redondeo de los decimales en los diferentes pasos hace que

los resultados no sean siempre exactamente iguales, pero la diferencia es pequea. Vemos que la correlacin ha subido de .31 (calculada con los seleccionados) a .41 (una estimacin de la que hubiramos obtenido si todos hubieran sido admitidos).
4.3. Correccin de las correlaciones de una parte con el todo
A veces nos interesa conocer la correlacin entre una parte y un total al
que esa parte tambin contribuye.
El ejemplo ms comn (no el nico posible) es cuando calculamos la correlacin entre cada uno de los tems de un test o escala y el total del test. Este clculo es interesante: a mayor correlacin entre un tem y el total, ms tiene que ver ese tem con lo que miden los dems tems (son los que
166
discriminan ms, y los que mejor representan el constructo subyacente o rasgo que se desea medir). En la construccin y anlisis de instrumentos de medicin este paso es de mucho inters.
El problema surge del hecho de que ese tem tambin est sumado en el
total, con lo que la correlacin resultante es artificialmente alta. En realidad lo
que nos interesa es la correlacin de cada tem con la suma de todos los dems, es decir, con el total menos el tem en cuestin.
En algunos programas de ordenador29 ya est programada la correlacin
de cada tem con el total menos el tem, pero no siempre disponemos de estos programas. A veces lo ms cmodo (cuando no se dispone de un programa adecuado) es calcular la correlacin de cada tem con el total, sin ms30.
En este caso estas correlaciones artificialmente altas podemos dejarlas en su
magnitud exacta aplicando despus la frmula [18].
ri(T-i) = Correlacin entre un tem (o parte de un total) y el total menos ese tem (o correlacin entre un tem y la suma de todos
los dems)
riT =
Correlacin tem-total
si y sT: desviaciones tpicas del tem y del total
Sobre esta correccin:
a) Suponemos que la correlacin de cada tem con el total (con la suma
de todos los tems, riT) est calculada con un programa de ordenador,
lo mismo que las desviaciones tpicas de los tems y de los totales. Con
estos datos es fcil aplicar esta frmula [18] (o programarla).
b) Cuando los tems son muchos la diferencia entre riT y ri(T-i) es pequea.
c) En estas situaciones y para valorar estos coeficientes, es til estimar cul
sera el valor medio de la correlacin de cada tem con el total cuando 1)
realmente no hay relacin (correlacin cero entre los tems) y 2) todos
los tems o partes tuvieran igual varianza; en este caso la frmula [18]
nos da la estimacin de la correlacin de cada tem con el total 31:
donde k es el nmero de tems
29
30
31
Como en el SPSS, en Analizar-Escalas-Anlisis de la Fiabilidad.

Podemos hacerlo fcilmente con una hoja de clculo tipo EXCEL.
Guilford y Fruchter, 1973:321.
167
5. CORRELACIONES PARCIALES
Una correlacin parcial entre dos variables es una correlacin que anula
o neutraliza una tercera variable (o ms variables): es la correlacin entre
dos variables igualando a todos los sujetos en otras variables.
Aqu tratamos solamente de las correlaciones parciales de primer orden.
Se denominan correlaciones parciales de primer orden aquellas en la que
neutralizamos (o mantenemos constante) solamente una tercera variable; en
las correlaciones parciales de segundo orden neutralizamos dos variables; el
procedimiento es similar aunque la frmula es algo ms complicada si no la
tenemos ya programada. En cambio las correlaciones parciales de primer orden son sencillas y muy tiles.
La correlacin parcial, como todos los coeficientes de correlacin relacionados con el coeficiente r de Pearson, comprueba solamente relaciones rectilneas.
5.1. Utilidad de las correlaciones parciales
La correlacin parcial es til para controlar variables y puede substituir
determinados diseos experimentales en los que se pretende no tener en
cuenta el influjo de una o dos determinadas variables
Los casos en que se utiliza ms son aquellos en los que se pretende controlar variables como la edad y la inteligencia.
Por ejemplo la correlacin entre peso y altura en un grupo de nios de
distinta edad se ver influida por la edad. Los nios mayores en edad tambin
sern de ms peso y de mayor estatura. La misma correlacin entre peso y altura en grupo de nios de la misma edad ser menor. La diversidad en edad
hace que la relacin entre peso y altura aumente.
Si queremos conocer la relacin entre peso y altura independientemente
de la edad, podramos hacer el clculo utilizando una muestra de la misma
edad, o comprobando la correlacin por separado en grupos homogneos en
edad. Otra manera de calcular la correlacin entre peso y altura prescindiendo de la edad (o suponiendo que todos los sujetos tienen la misma edad) es
a travs de las correlaciones parciales.
5.2. Frmula de las correlaciones parciales de primer orden
168
r12.3 es la correlacin entre las variables 1 y 2 neutralizando la variable 3

(como si todos los sujetos estuvieran igualados en la variable 3)
Lo veremos en un ejemplo32. En la tabla 9 tenemos las correlaciones entre
Ingls, Matemticas (dos exmenes) y dos tests de inteligencia, abstracta y
verbal. El nmero de sujetos es de 2172 (datos reales).
Tabla 9
1. Ingls
1. Ingls
2. Matemticas
3. Intel. Verbal
4. Intel. Abstracta
1
.338
.330
.224
2. Matemticas 3 Intel. verbal 4.Intel. abstracta

1
.392
379
1
.423
Entre Ingls y Matemticas tenemos una correlacin de .338. Podemos

pensar que en buena medida esta relacin est influida por la inteligencia verbal. Cul sera la correlacin entre Ingls y Matemticas si todos los sujetos
tuvieran idntica inteligencia verbal (tal como la mide un test determinado)?
Aplicamos la frmula anterior; los subndices 1 y 2 corresponden a las variables 1 y 2 (Ingls y Matemticas); la variable 3 es la inteligencia verbal (r12.3:
despus del punto se pone el smbolo de la variable anulada).
Vemos que la correlacin entre Ingls y Matemticas baja de .338 a .240

cuando neutralizamos las diferencias en inteligencia verbal.
Podemos preguntarnos lo mismo con respecto a la inteligencia abstracta,
cual ser la relacin entre Ingls y Matemticas suponiendo que todos los sujetos estn igualados en inteligencia abstracta?
Utilizamos la misma frmula, pero teniendo en cuenta que el sufijo 3 de la
frmula denota ahora la variable 4 que corresponde a la inteligencia abstracta, por lo que en la frmula podemos substituir el 3 por el 4 para evitar confusiones.
32
Tambin podemos calcular las correlaciones parciales en programas de Internet

(Anexo II) como VassarStats, lo mismo que las correlaciones mltiples de las que no estamos tratando.
169
La correlacin entre Ingls y Matemticas tambin baja (de .338 a .281)

cuando igualamos a todos los sujetos en inteligencia abstracta, pero menos
que cuando los igualamos en inteligencia verbal, ya que el Ingls tiene una
mayor relacin con la inteligencia verbal (.330) que con la abstracta (.224).
Si quisiramos neutralizar simultneamente las dos variables de inteligencia tendramos que utilizar la frmula de las correlaciones parciales de segundo orden.
5.3. Cundo una correlacin parcial es estadsticamente
significativa
Los grados de libertad son en este caso N - m, donde N es el nmero de
sujetos y m el nmero de variables. En nuestro ejemplo (cuatro variables) los
grados de libertad son N - 4; en este caso 2172 - 3 = 2168.
Para verificar si un coeficiente de correlacin parcial es estadsticamente significativo podemos aplicar esta frmula (con ms seguridad cuando N > 100):
N = nmero de sujetos
m = nmero de variables.
En las tablas de la distribucin normal vemos:

z > 1.96, p< .05
z > 2.56, p < .01
z > 3.30, p < .001
El denominador de la frmula (1/ N-m) es el error tpico (desviacin tpica) de la distribucin de correlaciones parciales cuando la media es cero.
Tambin podemos calcular directamente el valor necesario de r para unos
grados de libertad (N -m) determinados, as para p < .05, necesitamos este
valor de r:
170
En los ejemplos utilizados, con un nmero tan grande de sujetos, todos

los coeficientes son claramente significativos, independientemente de que su
magnitud la juzguemos grande o pequea.
Tambin pueden calcularse correlaciones parciales de segundo orden (y
tercer orden, etc.) con las que neutralizamos ms de una variable; las frmulas son parecidas pero algo ms complejas y normalmente se hacen con programas de ordenador.
6. CMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS33
Qu pretendemos con el cluster analysis: simplemente simplificar la informacin de una matriz de correlaciones, verificando cmo tienden a
agruparse las variables. Se trata por lo tanto de reducir la informacin para
facilitar la interpretacin. Si las distintas variables se pueden agrupar en
unos pocos conjuntos en los que podemos ver un significado comn a un nivel ms genrico, resulta ms fcil la interpretacin, sobre todo cuando hay
muchos tems.
Al final del proceso vamos a agrupar los tems que tienden a tener correlaciones ms altas entre s que con los dems, dndonos una idea de la estructura subyacente.
Hay varios procedimientos para hacer este cluster analysis, algunos ms
complicados que el expuesto aqu, pero ste es sencillo y con frecuencia suficientemente orientador. Ya a otro nivel tenemos el anlisis factorial, que
podemos hacer con programas de ordenador, pero el cluster analysis que explicamos aqu puede dar una buena idea sobre la estructura de una serie de
variables a partir de la matriz de intercorrelaciones.
Lo explicamos con un ejemplo. Los datos (tabla 10) corresponden a un
cuestionario de comunicacin interpersonal34; los tems son temas posibles
de conversacin (puestos aqu de manera abreviada; son temas pretendidamente distintos en niveles de intimidad); una puntuacin alta en un tem
quiere decir que uno se abre con facilidad en ese mbito temtico.
33
Cluster analysis es obviamente una expresin inglesa; en espaol suele traducirse

como anlisis de agrupamientos y quizs ms frecuentemente anlisis de clusters; tambin est aceptado el uso de la expresin inglesa, cluster analysis.
34
El cuestionario es una adaptacin de uno de los que presenta Jourard (1971).
171
Tabla 10:
MATRIZ DE INTERCORRELACIONES (CUESTIONARIO DE COMUNICACIN N = 158,
ALUMNAS DE LA UNIV. COMILLAS, 1990)
2
1. Poltica
2. Lo que
me gusta
de TV.
3. Moral
sexual
4. Lo que
me gusta
en el otro
sexo
5. Limitac.
propias
6. Limit.
en mis
padres
7. Problemas
sexuales
8. Dinero
de que
dispongo
9. Mi
aspecto
fsico
10. Lo que
ms me
gusta en m
11. Plan fut.
profesional
12. Mis
depresiones
13. Divers.
favoritas
14. Economa
familiar
15. Sentim.
profundos
10
11
12
13
14
15
.392
.371 .291 .256 .105 .211 .234 .193 .316 .222 .190 .335 .297 .282
.327 .268 .315 .158 .117 .251 .260 .254 .287 .261 .455 .295 .243
.327
.673 .466 .355 .391 .337 .426 .348 .384 .359 .469 .243 .401
.226
.673
.315
.466 .473
.158
.335 .415 .391
.117
.391 .321 .188 .237
.251
.237 .315 .310 .334 .261
.260
.426 .503 .557 .409 .312 .378
.254
.348 .490 .522 .333 .300 .388 .487
.287
.384 .435 .347 .328 .156 .405 .333 .330
.261
.359 .562 .566 .368 .346 .254 .437 .453 .271
.455
.469 .450 .393 .374 .170 .320 .359 .382 .457 .319
.295
.243 .246 .229 .478 .290 .599 .291 .290 .260 .235 .223
.243
.401 .398 .514 .304 .313 .220 .475 .435 .129 .551 .395 .269
.473 .415 .321 .315 .503 .490 .435 .562 .450 .246 .398
.391 .188 .310 .557 .522 .347 .566 .393 .229 .514
1
.237 .334 .409 .333 .328 .368 .374 .478 .304

1
172
.261 .312 .300 .156 .346 .170 .290 .313

1
.378 .388 .405 .254 .320 .599 .220
.487 .333 .437 .359 .291 .475
.330 .453 .382 .290 .435

1
.271 .457 .260 .129

1
.319 .235 .551

1
.223 .395
1
.269
1
1. Como paso previo se anota cul es la correlacin mayor de cada tem

(no es necesario teniendo la matriz a la vista, pero se facilita el proceso).
El tener a la vista las segundas correlaciones mayores tambin ayuda.
En este caso, las correlaciones mayores de cada tem las tenemos en la
tabla 11.
Tabla 11:
tem n Tiene su mayor correlacin con
el tem n
1
2
3
4
5
6
7
8
2 (.392)
13 (.455)
4 (.673)
3 (.673)
12 (.566)
14 (.478)
3 (.391)
14 (.599)
Item n
Tiene su mayor
correlacin con el tem n
9
10
11
12
13
14
15
5 (.557)
5 (.522)
13 (.457)
5 (.566)
3 (.469)
8 (.599)
12 (.551)
2. Y uno se pregunta cual es la mayor correlacin de todas? Y se dibuja

a modo de sociograma. En este caso la correlacin mayor est entre el
3 y el 4:
3
3. Y ahora nos preguntamos: de los tems que quedan hay alguno que tenga su correlacin ms alta con el 3 o con el 4? Pues s, el 7 tiene su correlacin mayor con el 3, y tambin el 13 tiene su mayor relacin con el 3 y
adems no la tiene baja con el 4, con lo que el cluster quedara as:
3
13
Aqu tenemos ya un curioso primer cluster provisional que habr que

examinar mejor ms adelante, porque el tem n 2 tiene su mayor correlacin con el 13 (atendiendo al contenido el 13 (diversiones) pega
ms con el 2). Los tems 3, 4 y 7 son de un contenido ms ntimo. Ya
podemos ir intuyendo a dnde nos va a llevar este cluster analysis
4. Ya no queda ningn tem que tenga su mayor relacin con el n 3 o con
el n 4. Volvemos a comenzar para localizar un segundo cluster: de las
173
correlaciones mayores de cada tem que nos quedan, cual es la mayor? Es la correlacin entre el 8 y el 14, y ya tenemos el ncleo de un
segundo cluster.
8
14
Y nos preguntamos como antes: de las correlaciones mayores de los

tems que nos quedan alguna lo es con el tem 8 o 14? S, el 6, que tiene su mayor relacin con el 14; y tenemos un segundo cluster de tipo
familiar-econmico.
8
14
6
5. Continuamos con nuestra bsqueda y de todas las correlaciones mximas de cada tem que nos van quedando observamos que la mayor
es la del 5 y 12, y que adems el 9 y el 10 tienen su mayor relacin con
el 5, y el 15 la tiene con el 12, con lo que nos queda un tercer cluster
que emerge del yo secreto y confidencial:
5
12
9 10
15
6. Vamos a por otro cluster. La correlacin mayor que nos queda es la del
tem 2 y 13. Pero resulta que el 13 ya est en el primer cluster. De todas
maneras vamos a ver qu pasa con este cluster; el 13 habr que dejarlo en este cluster o en el primero de todos.
2
13
Los tems que tienen su mayor correlacin con el 2 o con el 13 son el

1 (con el 2), y el 11 (con el 13); adems el 1 no va mal con el 13, tiene
ah su tercera mayor correlacin y no muy baja en este contexto. Nos
quedara provisionalmente algo as:
2
13
11
Este cluster tiene coherencia conceptual pues se trata de tems que

pertenecen aparentemente al yo abierto. Sin embargo el 13 nos estropea el conjunto porque tambin est en el primer cluster. Dentro de la
174
imprecisin de estos mtodos, una segunda regla para asignar un tem

a un cluster es meterlo con el que tenga una correlacin media mayor. Vamos a ver qu pasa con el tem 13:
Correlaciones del 13 con el primer cluster:
.469 (con el 3)
.450 (con el 4)
correlacin media = .363
.170 (con el 7)
Correlaciones del 13 con el ltimo cluster:
.455 (con el 2)
.335 (con el 1)
correlacin media = .416
.457 (con el 11)
Decididamente el 13 tiene que ver ms con los tems del ltimo cluster; lo
dejamos en ste y lo quitamos del primer cluster que hemos localizado.
Nos quedan finalmente los clusters puestos en la tabla 12; en cada uno se
puede calcular la correlacin media (que indica claridad, consistencia intertem):
Tabla 12
cluster 1
cluster 2
cluster 3
cluster 4
12
13
15
11
14
10
correlacin
media:
r = .462
correlacin
media:
r = .438
correlacin
media:
r = .499
correlacin
media:
r = .358
relacin con
el sexo
dinero y
familia
cosas ms
personales
temas
fciles
El procedimiento es sencillo:
1 Para comenzar en cada tem buscamos con qu otro tem tiene su mayor correlacin (su pareja ms clara; y no viene mal tener presente
tambin con qu tem su segunda mayor correlacin)
2 Se localiza la correlacin mayor de todas, y ya tenemos dos tems que
sern el ncleo del primer cluster;
3 Se localizan los tems que tienen sus mayores correlaciones con cualquiera de los dos tems localizados en el paso anterior, y ya tenemos el
primer cluster
175
4 Buscamos la correlacin mayor de las que nos quedan, y ya tenemos el ncleo de un segundo cluster, y se sigue el proceso visto en el paso anterior.
5 Los tems dudosos los situamos en el cluster con el que tiene su mayor
correlacin media
Este mtodo es sencillo pero puede ser un tanto impreciso (depende de
los datos).
Ahora vendra el anlisis cualitativo (intentando encontrar sentido a los
tems que van juntos en el mismo cluster) y anlisis cuantitativos adicionales:
1 Una correlacin media ms alta indica cluster (anlogo a los factores rotados del anlisis factorial) ms claro, ms definido;
2 Las medias de cada cluster (no medias de las correlaciones sino de los
tems) daran el nivel de apertura o secretismo de estos clusters;
3 Habra que ver o explorar relaciones inter-cluster.
4 Un estudio ms completo nos llevara a explorar diferencias entre grupos (por ejemplo segn el sexo) en los distintos factores (clusters) o
en cada tem; tambin se podran explorar relaciones entre tems o
clusters y otras variables conocidas.
7. COEFICIENTES DE CORRELACIN MS IMPORTANTES
Nos hemos centrado en el coeficiente r de Pearson, pero hay otros muchos coeficientes de relacin o asociacin. En la tabla 13 damos una breve informacin sobre los ms utilizados. Esta informacin puede servir de gua o
de referencia rpida, aunque para utilizar algunos de estos coeficientes sea
necesario buscar informacin adicional.
De estos coeficientes el ms utilizado e importante es el primero, el coeficiente r de Pearson.
Los coeficientes 2, 3 y 4 podemos decir que pertenecen a la familia de los
coeficientes de Pearson; son aplicaciones especiales de este coeficiente.
Los coeficientes 5 y el 6 (rho y tau) son apropiados para datos ordinales,
cuando el dato que manejamos es el rango o nmero de orden del sujeto (u
objeto) y son especialmente tiles con muestras pequeas o muy pequeas35.
Los coeficientes 7, 8 y 9 son apropiados para datos nominales (sujetos clasificados en categoras) y estn relacionados con el ji cuadrado, de hecho se
utilizan como complemento del ji cuadrado. El coeficiente 7 (phi), para datos genuinamente dicotmicos (1 0) podemos tambin calcularlo con las
mismas frmulas que el coeficiente r de Pearson.
35
Estos coeficientes para datos ordinales suelen venir bien explicados en los textos
de mtodos estadsticos no paramtricos.
176
Tabla 13
coeficiente
variables
comentarios
Coeficiente r
de Pearson
(productomomento)
las dos
continuas
Es el coeficiente mejor en conjunto, el

ms estable y el ms utilizado; cuando
no se especifica otra cosa se supone
que es ste el coeficiente calculado;
Supone que la distribucin de las variables es normal (en la poblacin, no
en la muestra utilizada; esta suposicin tambin es necesaria en otros coeficientes derivados del de Pearson);
Aunque hay varias frmulas para su
clculo, ninguna es cmoda; el clculo suele estar programado en calculadoras y programas estadsticos;
Existen tablas para comprobar el nivel
de significacin en muestras pequeas, o se utiliza la frmula apropiada
en muestras grandes;
El coeficiente r de Pearson puede
transformase en el estadgrafo Z de
Fisher (mediante tablas) que permite
resolver determinados problemas, como calcular medias de correlaciones
(aunque es preferible calcular la media ponderada, multiplicando cada
coeficiente por su N) o comprobar si
dos coeficientes de correlacin son
estadsticamente distintos;
Se trata siempre de correlaciones lineares, como todos los dems, excepto
el coeficiente h (eta) para relaciones
curvilneas.
Coeficiente
biserial
puntual (rbp)
una continua
y otra
dicotmica
Se trata de un caso particular del coeficiente r de Pearson, y aunque hay

frmulas especficas y mtodos rpidos mediante grficos (baco de
Dingman) se pueden utilizar las frmulas de la r de Pearson y las calculadoras y programas que tienen este coeficiente ya programado;
177
coeficiente
variables
comentarios
Coeficiente
biserial
puntual (rbp)
una continua
y otra
dicotmica
Coeficiente
de correlacin
biserial (rb)
Es una estimacin de la r de Pearson,

una variable
pero menos fiable que la r o la rpb;
continua, y otra
para los mismos datos da un coefidicotomizada
ciente mayor que rpb;
artificialmente
A veces el coeficiente mximo es ma(continua pero

yor que 1 (en distribuciones no nordividida en dos
males, bimodales);
categoras, como
apto y no apto) En general no es aconsejable si hay
otras alternativas, y en caso de duda
es preferible r o rpb; a veces puede
ser til el dicotomizar una variable
por falta de datos fiables; en este caso
se debe dicotomizar la variable continua por la mediana.
Para comprobar el nivel de significacin

se pueden utilizar las mismas frmulas
y tablas que con la r de Pearson;
Aunque es en todo equivalente al coeficiente r de Pearson, el trmino con
que se denomina (biserial-puntual)
indica que una de las variables es dicotmica (1 0);
Este coeficiente se puede utilizar
cuando una variable es genuinamente
dicotmica, es decir, no dicotomizada
artificialmente (como puede ser clasificar a los sujetos entre apto y no apto); en estos casos el coeficiente apropiado es el biserial;
Tenemos variables dicotmicas en sentido propio cuando slo hay dos clasificaciones que se excluyen mutuamente,
como varn-mujer, verdadero-falso,
acierto-error (en tests objetivos), etc.;
tambin pueden tratarse como variables dicotmicas las que tericamente
son continuas (como alcohlico-no alcohlico, apto-no apto, bueno-malo)
cuando existe un claro punto de inflexin, una distribucin bimodal que
permite clasificar a los sujetos en una
genuina dicotoma (1 0).
178
coeficiente
variables
comentarios
Coeficiente
de correlacin
tetracrica (rt)
las dos variables Es una estimacin aproximada del coeficiente r de Pearson y menos fiable;
continuas
no se debe emplear con pocos casos
pero
(200 sujetos o ms); no es fcil comdicotomizadas
probar su nivel de significacin;
artificialmente
Si se puede, es preferible utilizar otra
alternativa (r de Pearson o f)
Coeficiente
rho (r) de
Spearman
(tambin se
utiliza el
smbolo sr).
las dos variables Es la mejor alternativa no paramtrica

al coeficiente r de Pearson; se trata
continuas
del coeficiente r calculado con los
pero ordenadas
rangos o nmero de orden de cada
por rangos
puntuacin;
(el rango o
Da un coeficiente algo inferior a la r
nmero de
de Pearson calculado con los mismos
orden es el
datos directos;
dato que se
Fcil y rpido de clculo; muy til con
utiliza)
datos ordinales y con no ms de 30
sujetos o pares de puntuaciones;
Existen tablas y frmulas para comprobar su significacin.
Coeficiente
Tau (t) de
Kendall
las dos variables No es comparable directamente con

el coeficiente r de Pearson;
continuas y
ordenadas por Fcil y til con muestras muy pequeas (10 sujetos o menos; si son ms
rangos
es preferible el coeficiente ? de Spearman);
Existen tablas y frmulas para comprobar su significacin; una modalidad es el coeficiente de correlacin
parcial con el mismo mtodo.
Coeficiente
phi (f)
las dos variables Relacionado con el ?2; el valor de significacin es el mismo que el de ?2; no
dicotmicas
admite valores negativos;
Una limitacin es que el valor mximo
no es 1 necesariamente; slo se puede alcanzar cuando la proporcin de
unos es idntica en las dos variables;
Especialmente til para calcular las
correlaciones entre tems dicotmicos (de pruebas objetivas, tests, etc.).
179
coeficiente
variables
comentarios
Coeficiente
phi (F) de
Cramer
las dos variables

categricas
pero con
ms de dos
criterios de
clasificacin en
una o en las
dos variables
Derivado tambin del c2, el valor de

significacin es el mismo que el de c2;
es el coeficiente apropiado cuando
hay ms de dos filas o columnas. Un
coeficiente semejante es el coeficiente T de Tschuprow;
Vara de 0 a 1 independientemente
del tamao de la tabla y por esto es
una alternativa preferible al coeficiente C de Contingencia; no admite valores negativos.
Coeficiente C
las dos variables
de Contingencia divididas en
dos o ms
categoras
Es el coeficiente relacionado con c2

ms utilizado aunque no es siempre
el preferible; es significativo si lo es el
c2;
El valor mximo nunca es 1 y depende del nmero de filas y columnas
por lo que slo son comparables los
coeficientes que proceden de cuadros
con idntico nmero de filas y columnas; no admite valores negativos.
(k = nmero
de columnas o
filas, el que sea
menor)
9
10 Coeficiente
eta (h)
Es el coeficiente apropiado para relaciones curvilneas; si se calcula el coeficiente r de Pearson cuando hay relacin curvilnea, el valor resultante es
ms bajo;
El valor de h es siempre positivo.
las dos variables

continuas
8. COEFICIENTE DE CORRELACIN: RESUMEN

1. El coeficiente de correlacin expresa en qu grado los sujetos (u objetos, elementos) estn ordenados de la misma manera en dos variables simultneamente; as en el caso de relacin positiva y alta los sujetos tienen
puntuaciones altas o bajas en las dos variable simultneamente.
2. Correlacin y covarianza expresan grado de relacin; su interpretacin
es bsicamente la misma; el coeficiente de correlacin se calcula con puntuaciones tpicas y la covarianza con puntuaciones directas.
180
3. Un coeficiente de correlacin se puede interpretar sin entender por qu o

cmo cuantifica el grado de relacin; sin embargo es fcil entenderlo y ayuda a
la interpretacin porque pone de relieve la importancia de las diferencias. Podemos cuantificar (medir) el grado de relacin entre dos variables porque:
a) Si hay relacin positiva
1. Los sujetos tendern a estar o por encima de la media en las dos variables o por debajo de la media en las dos variables;
2. Las diferencias (expresadas en puntuaciones z) con respecto a las
dos medias sern del mismo signo, luego el producto de estas diferencias ser positivo y su suma grande (y dividida por N nos da el
coeficiente de correlacin).
b) Si hay relacin negativa
Los sujetos tendern a estar simultneamente por encima de la media
en una variable y por debajo de la media en la otra; las diferencias con
respecto a la media tendern distinto signo y al multiplicar una por la
otra el signo ser negativo (- por +); la suma de estos productos ser
grande pero con signo menos.
c) si no hay relacin
1. Unos sujetos estarn por encima de la media en las dos variables,
otros por debajo de la media en las dos variables, otros por encima
de la media en una variable y por debajo de la media en la otra variable
2. Las diferencias (expresadas en puntuaciones z) con respecto a las
dos medias sern unas del mismo signo (y su producto positivo) y
otras de signos distintos (y su producto negativo). la suma de estos
productos tender hacia cero en la medida en que no haya relacin.
4. Los valores extremos posibles son 0 (ausencia de relacin) y 1 (mxima relacin). Si r = 1, el orden (posicin relativa) de los sujetos es el mismo
en las dos variables. Como conocemos los valores ms altos y ms bajos posibles, podemos apreciar y valorar la magnitud de la relacin (poca hasta .30,
alta a partir de .75).
5. La magnitud del coeficiente es independiente del signo; r =-.95 expresa ms relacin que r = +.75; el que la relacin sea positiva o negativa es algo distinto de que sea grande o pequea.
6. Una correlacin no puede interpretarse como prueba de una relacin
causal.
181
7. Un coeficiente de correlacin estadsticamente significativo quiere decir que es muy improbable si no hay relacin en la poblacin: en muestras semejantes obtendramos un coeficiente de correlacin distinto de cero (pero
no necesariamente de magnitud semejante al que hemos obtenido en nuestra muestra).
8. A partir del coeficiente de correlacin obtenido en una muestra y del
tamao N de esa muestra, podemos estimar entre qu lmites se encuentra
esa correlacin en la poblacin (intervalos de confianza).
9. Un coeficiente de correlacin no significativo no es prueba de que no
haya relacin en la poblacin (podramos encontrarla quizs en muestras
mayores, o utilizando otras medidas ms precisas, etc.)
10. Los coeficientes de correlacin tienden a bajar cuando:
a) Las muestras son homogneas (sin diferencias en ambas variables
no se detectan relaciones).
b) Los instrumentos de medicin discriminan poco (no establecen
bien las diferencias entre los sujetos).
c) La fiabilidad de los instrumentos es baja.
182
ANEXO I
Tablas del coeficiente de correlacin r de Pearson
(N entre 3 y 102)
Grados de
libertad.
= N-2
05
.01
.001
1
2
3
4
5
.9969
.9500
.8783
.8114
.7545
.9998
.9900
.9587
.9172
.8745
.9999
.9990
.9911
.9740
.9507
6
7
8
9
10
.7067
.6664
.6319
.6021
.5760
.8343
.977
.7646
.7348
.7079
.9249
.8982
.8721
.8471
.8233
11
12
13
14
15
.5529
.5324
.5139
.4973
.4821
.6835
.6614
.6411
.6226
.6055
.8010
.7800
.7603
.7420
.7246
16
17
18
19
20
.4683
.4555
.4438
.4329
.4227
.5897
.5751
.5614
.5487
.5368
.7084
.6932
.6787
.6652
.6523
25
30
35
40
45
.3809
.3494
.3246
.3044
.2875
.4869
.4487
.4182
.3932
.3721
.5974
.5541
.5189
.4896
.4648
50
55
60
65
70
.2732
.2609
.2500
.2405
.2319
.3541
.3386
.3248
.3127
.3017
.4433
.4244
.4078
.3931
.3799
183
Grados de
libertad
= N-2
.05
.01
.001
75
80
85
90
95
98
100
.2242
.2172
.2108
.2050
.1996
.1986
.1946
.2919
.2830
.2748
.2673
.2604
.2591
.2540
.3678
.3568
.3468
.3375
.3291
.3274
.3211
Con muestras grandes:
y consultar las tablas de la distribucin normal;

z >1.96, p<.05
z >2.56, p<.01
z >3.3, p<.001
o consultar alguna direccin de Internet (Anexo siguiente).
ANEXO II: L A CORRELACIN EN INTERNET
(Los nmeros entre parntesis corresponden
a las direcciones puestas al final).
1. La probabilidad exacta de cualquier valor de r
http://graphpad.com/quickcalcs/PValue1.cfm (1)
(se introducen el valor de r y los grados de libertad o N-2)
http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation_coeff.asp
(2)
(se introduce el valor de r y el tamao N de la muestra).
http://faculty.vassar.edu/lowry/VassarStats.html (3)
2. Valores mnimos de r estadsticamente significativos (p =.05, .01 y
.001 para cualquier valor de N)
http://department.obg.cuhk.edu.hk/ResearchSupport/Minimum_correlation.asp
(2)
3. Intervalos de confianza (dados r y N)
http://glass.ed.asu.edu/stats/analysis/rci.html (6)
184
4. Correlacin parcial
http://faculty.vassar.edu/lowry/par.html (3) (se introducen los coeficientes de
correlacin entre tres variables (o cuatro) y calcula la correlacin parcial ente
dos coeficientes igualando a los sujetos en las variables restantes).
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
5. Correlacin mltiple
6. Diferencias estadsticamente significativas entre dos (o ms) coeficientes de correlacin
http://department.obg.cuhk.edu.hk/ResearchSupport/HomoCor.asp (2)
(calculados en muestras distintas)
(calculados en muestras distintas)
(de la misma muestra o de distintas muestras)
http://www.psych.ku.edu/preacher/corrtest/corrtest.htm (en muestras distintas) (7)
7. Clculo del coeficiente de correlacin
http://calculators.stat.ucla.edu/correlation.php (5)
Direcciones originales (Home):
(1) GraphPad, Free Online Calculators for Scientists,
http://graphpad.com/quickcalcs/index.cfm
(2) Department of Obstetrics and Gynaecology, The Chinese University
of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp
(3) VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar
College Poughkeepsie, NY USA
http://faculty.vassar.edu/lowry/VassarStats.html
(4) SISA, Simple Interactive Statistical Analysis
http://home.clara.net/sisa/index.htm#TOP
(5) Statistics Calculators, UCLA Department of Statistics,
http://calculators.stat.ucla.edu/
(6) Glass, Gene. V., Arizona State University College of Education, Online
Analysis of Data http://glass.ed.asu.edu/stats/analysis/ (o Gene V Glass Intro
to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources
for Statistics, en Online statistical calculators that can perform many different analyses.
(7) quantpsy.org, Kristopher J. Preacher, University of Kansas
http://www.psych.ku.edu/preacher/
185
CAPTULO 6
LA FIABILIDAD DE LOS TESTS Y ESCALAS
1. CONCEPTOS PRELIMINARES BSICOS

Antes de entrar en explicaciones muy precisas y en frmulas concretas,
nos es til hacer una aproximacin conceptual a lo que entendemos por fiabilidad en nuestro contexto (los tests, la medicin en las ciencias sociales)
porque lo que entendemos aqu por fiabilidad es de alguna manera anlogo a
lo que entendemos por fiabilidad en otras situaciones de la vida corriente.
Tambin es til desde el principio distinguir la fiabilidad de conceptos como
el de validez que utilizamos en los mismos contextos y situaciones y en referencia al uso de los tests.
1.1. Equivocidad del concepto de fiabilidad
El concepto de fiabilidad, tal como lo aplicamos en la medicin en las
ciencias humanas, desemboca en diversos mtodos o enfoques de comprobacin que se traducen en unos coeficientes de fiabilidad que a su vez suponen conceptos o definiciones distintas de lo que es la fiabilidad, por lo que tenemos en principio un concepto equvoco ms que unvoco (salvo en un
sentido muy genrico). Por esta razn cuando en situaciones aplicadas se habla de la fiabilidad o de coeficientes de fiabilidad, hay que especificar de qu
fiabilidad se trata. Esto quedar ms claro al hablar de los distintos enfoques,
pero conviene tenerlo en cuenta desde el principio.
187
1.2. Fiabilidad y precisin de la medida

Aun as cabe hablar de un concepto ms genrico de fiabilidad con el que
se relacionan los otros conceptos ms especficos. En principio la fiabilidad
expresa el grado de precisin de la medida. Con una fiabilidad alta los sujetos medidos con el mismo instrumento en ocasiones sucesivas hubieran quedado ordenados de manera semejante. Si baja la fiabilidad, sube el error, los
resultados hubieran variado ms de una medicin a otra.
Ninguna medicin es perfecta; en otro tipo de mbitos una manera de verificar la precisin es medir lo mismo varias veces, o varios observadores independientes miden lo mismo para obtener una media que se estima ms
precisa que lo que un nico observador ha estimado, como cuando se desea
comprobar la densidad de una determinada especie animal en un determinado hbitat. En la medicin psicolgica y educacional, que es la que nos interesa aqu, no es posible o no es tan fcil utilizar procedimientos o estrategias que se utilizan ms en otros campos de la ciencia; tendremos que buscar
otros enfoques para apreciar e incluso cuantificar la precisin de nuestras
medidas (como puede ser la precisin de un instrumento para medir conocimientos, actitudes, un rasgo de personalidad, etc.). Lo que importa destacar aqu es la asociacin entre los conceptos de fiabilidad y precisin o
exactitud.
1.3. Fiabilidad y margen de error en al medida
Ya hemos indicado que si fiabilidad significa precisin, a menor fiabilidad
subir el margen de error de nuestras medidas. En muchas aplicaciones prcticas el inters de los coeficientes de fiabilidad est precisamente en que nos
permiten calcular ese margen de error que a su vez nos permiten relativizar
los resultados individuales, por eso junto a la fiabilidad hay que estudiar el
error tpico de la medida (apartados 9.2 y 11, referido a resultados escolares).
1.4. Fiabilidad y predictibilidad
Otro concepto que nos ayuda a comprender qu entendemos por fiabilidad es el de consistencia o predictibilidad. Nos fiamos de un amigo cuando
sabemos cmo va a reaccionar ante un problema que le llevemos, y esto lo sabemos porque tenemos experiencias repetidas. De manera anloga un jugador de ftbol es fiable si sabemos de antemano que va a hacer un buen partido, y de nuevo esto lo sabemos porque ya ha jugado bien en otras muchas
ocasiones (aunque esto no quiere decir que siempre juegue bien).
188
LA FIABILIDAD DE LOS TETS Y ESCALAS
1.5. Fiabilidad y validez

El concepto de fiabilidad es distinto del concepto de la validez. En el sentido ms usual del trmino (no el nico), un instrumento es vlido si comprueba o mide aquello que pretendemos medir. Un instrumento puede ser
vlido, porque mide lo que decimos que mide y queremos medir, pero lo
puede medir con un margen de error grande; con instrumentos parecidos o
en mediciones sucesivas hubiramos obtenido resultados distintos. Tambin
puede haber una fiabilidad alta (los sujetos estn clasificados, ordenados,
con poco margen de error) y a la vez el instrumento puede carecer de validez, porque no mide lo que se pretende o lo que se dice que se est midiendo (por ejemplo si un test de inteligencia lo que mide realmente es en buena parte capacidad lectora, o si un examen supuestamente de comprensin
lo que se verifica es memoria y repeticin, etc.)1.
1.6. Fiabilidad y validez: errores sistemticos y errores aleatorios
En estos dibujos (figuras 1 y 2) tenemos dos representaciones grficas que
pueden ayudarnos a comprender lo que es validez y lo que es fiabilidad.
Figura 1
Figura 2
Validez:
Controlamos los
errores sistemticos
Fiabilidad:
Controlamos los
errores aleatorios
Podemos imaginar a dos tiradores apuntando a un blanco. Cuando hay validez (figura 1, cuando el tiro es vlido) se apunta al blanco aunque puede
haber poca precisin en el tiro. Los errores son aleatorios (falta de fiabilidad;
1
El tema de la validez no lo tratamos de manera expresa; puede verse tratado en Morales, Urosa y Blanco (2003. pgs 126 y ss.) y de manera ms extensa en Morales (2006, cap.
12 y 13).
189
fruto de defectos del arma, inestabilidad en el pulso, etc.), pero no son sistemticos (apuntamos al blanco que queremos).
Cuando hay fiabilidad hay precisin en el tiro. En este ejemplo (figura 2)
no hay validez: se apunta sistemticamente fuera del blanco, aunque hay una
mayor fiabilidad o precisin (los tiros estn ms prximos entre s).
Para evitar los errores aleatorios (y que aumente la fiabilidad) habr que
mejorar el instrumento. Para evitar los errores sistemticos habr que apuntar bien al blanco, y para eso hay que saber dnde est, y no a otro sitio. La
comprobacin de la validez sigue otros mtodos distintos (anlisis del contenido de los tems, verificar determinadas hiptesis sobre el significado pretendido, etc.) y salvo en casos especficos (como cuando se habla de validez
predictiva) no se concreta en el clculo de un coeficiente determinado.
De lo que vamos diciendo se desprende que en primer lugar nos debe
preocupar la validez ms que la precisin: podemos medir muy bien lo que
no queramos medir (memoria en vez de comprensin, por ejemplo en un
examen).
1.7. La fiabilidad no es una caracterstica de los instrumentos
La fiabilidad no es una caracterstica de un instrumento; es una caracterstica de unos resultados, de unas puntuaciones obtenidas en una muestra
determinada. Esto es importante aunque en el lenguaje habitual nos refiramos a la fiabilidad como si fuera una propiedad del instrumento. Esta manera de hablar (este test tiene una fiabilidad de) es muy frecuente, pero hay
que entender lo que realmente queremos decir. Lo que sucede es que un
mismo instrumento puede medir o clasificar bien a los sujetos de una muestra, con mucha precisin, y mal, con un margen de error grande, a los sujetos
de otra muestra. Con un mismo instrumento se mide y se ordena mejor a los
sujetos cuando estos sujetos son muy distintos entre s, y al revs, baja la fiabilidad si la muestra es ms homognea. Podemos visualizarlo con la imagen
de una balanza de poca precisin: si pesamos objetos que pesan entre 4 Kg.
y 10 Kg. no establecer diferencias en peso entre objetos que pesan casi lo
mismo y slo se diferencian en miligramos; en cambio esa misma balanza distinguir bien entre objetos con diferencias en peso de varios kilos. La balanza es la misma, pero su precisin (fiabilidad al distinguir segn unos objetos
pesen ms o menos) depende de las diferencias en peso de los objetos.
La fiabilidad se debe calcular con cada nueva muestra, sin aducir la fiabilidad obtenida con otras muestras como aval o prueba de la fiabilidad del
instrumento2.
2
El calcular el coeficiente de fiabilidad en cada nueva muestra es una de las recomendaciones de la American Psychological Association (Wilkinson and Task Force on Statisti-
190
Todo esto quedar mejor entendido al examinar las variables que inciden
en que un coeficiente de fiabilidad sea alto o bajo, pero es importante ver
desde el principio que en sentido propio la fiabilidad no es la propiedad de
un determinado instrumento, sino del conjunto de puntuaciones con l obtenido y que puede variar de una situacin a otra (y como en el ejemplo de
la balanza, va a estar en funcin de las diferencias entre los sujetos).
1.8. Fiabilidad y diferencias: teora clsica de la fiabilidad
En ltima instancia lo que nos va a decir un coeficiente de fiabilidad es si
el instrumento diferencia adecuadamente a los sujetos en aquello que mide
el test o escala. Con un test o escala pretendemos diferenciar a los sujetos;
establecer quin tiene ms o menos del rasgo que medimos. Los tests, sobre
todo los que miden rasgos psicolgicos, no nos seran tiles si de alguna manera no establecieran diferencias entre los sujetos. Ya veremos que, por lo
tanto, no hay fiabilidad sin diferencias. Por estas razones la fiabilidad de un
test de conocimientos o de un examen (prueba objetiva) no se puede interpretar automticamente como un indicador de la calidad del test, como comentamos en el apartado 11 sobre la interpretacin de estos coeficientes
cuando se trata de medir conocimientos. A esta teora de la fiabilidad basada
en las diferencias se le suele denominar teora clsica de la fiabilidad.
2. ENFOQUES Y MTODOS EN EL CLCULO DE LA FIABILIDAD

En el clculo de la fiabilidad hay tres enfoques que, aunque parten de modelos tericos idnticos o parecidos, siguen procedimientos distintos y sus
resultados no pueden interpretarse exactamente del mismo modo; por eso
hemos dicho al principio que el concepto de fiabilidad es en cierto modo
equvoco. Estos tres enfoques son 1) el test-retest, 2) el de las pruebas paralelas y 3) los coeficientes de consistencia interna.
2.1. Mtodo: Test-retest
Los sujetos responden dos veces al mismo test, dejando entre las dos veces un intervalo de tiempo. El coeficiente de correlacin entre las dos
ocasiones es lo que denominamos coeficiente de fiabilidad test-retest. El intervalo de tiempo puede ser de das, semanas o meses, pero no tan grande
cal Inference, APA Board of Scientific Affairs (1999); American Psychological Association
(2001) y tambin est recomendado por la poltica editorial de buenas revistas (Thompson, 1994).
191
que los sujetos hayan podido cambiar. Una correlacin grande indica que en
las dos veces los sujetos han quedado ordenados de la misma o parecida manera. El intervalo de tiempo debe especificarse siempre (y suele estar en torno a las dos o tres semanas).
a) Este mtodo corresponde al concepto ms intuitivo de fiabilidad: un instrumento es fiable si en veces sucesivas aporta los mismos resultados.
b) No tiene sentido utilizarlo cuando est previsto un cambio en los sujetos, o cuando entre la primera y segunda vez se puede dar un aprendizaje. Por esto no es un mtodo apto para comprobar la fiabilidad de un
instrumento de medicin escolar porque puede haber aprendizaje de
una vez a otra, aprendizaje que puede incluso estar provocado por el
mismo instrumento. La fiabilidad del tipo test-retest tiene ms sentido
en la medicin de rasgos y actitudes ms estables.
c) Este coeficiente de correlacin podemos entenderlo como un coeficiente o indicador de estabilidad o de no ambigedad en la medida en que ambas ocasiones los resultados son parecidos (los sujetos
entendieron lo mismo de la misma manera y respondieron de manera
idntica o casi idntica).
d) Una fiabilidad alta de este tipo no es garanta de una fiabilidad alta con
otro de los enfoques, sobre todo con el de consistencia interna que
veremos enseguida y que es el ms importante. Puede haber una fiabilidad alta de este tipo, test-retest, con tems que preguntan cosas muy
distintas (como peso, altura, sexo, gusto por la msica, ao de nacimiento, etc.), pero con poca (o ninguna) consistencia interna porque
se estn preguntando cosas distintas cuyas respuestas no tendra sentido sumar en un total.
2.2. Mtodo: Pruebas paralelas
Se utiliza cuando se preparan dos versiones del mismo test; los tems son
distintos en cada test pero con ambos se pretende medir lo mismo. En este
caso el coeficiente de fiabilidad es la correlacin entre las dos formas paralelas, respondidas por los mismos sujetos.
a) Puede interpretarse como un coeficiente o indicador de equivalencia entre los dos tests: si la correlacin es alta, las dos formas del mismo test dan resultados parecidos, ordenan a los sujetos de manera parecida, ambas formas son intercambiables. Si la correlacin entre las
dos formas (respondidas con das u horas de diferencia) es baja, la
conclusin ms razonable no es que los sujetos han cambiado, sino
que las dos formas no estn equilibradas en sus contenidos y de alguna manera miden cosas distintas o con nfasis distintos.
192
b) Una confirmacin adicional de que las dos formas son realmente paralelas es comprobar si la correlacin media inter-tem dentro de cada
forma es de magnitud similar, lo mismo que la correlacin de los tems
de una forma con los de la otra versin.
c) Este tipo de fiabilidad, o prueba de equivalencia, es necesario siempre
que se disponga de dos o ms versiones del mismo test, y su uso queda en la prctica restringido a esta circunstancia no frecuente.
2.3. Mtodo: Coeficientes de consistencia interna3
Este es el enfoque ms utilizado y al que le vamos a dar una mayor extensin. Hay que hablar de enfoque ms que de mtodo pues son muchas las posibles frmulas en que se puede concretar en el clculo de la fiabilidad. Cuando se habla de fiabilidad sin ms matizaciones, hay que entender que se trata
de fiabilidad en el sentido de consistencia interna.
Lo que expresan directamente estos coeficientes es hasta qu punto las
respuestas son lo suficientemente coherentes (relacionadas entre s) como
para poder concluir que todos los tems miden lo mismo, y por lo tanto son
sumables en una puntuacin total nica que representa, mide un rasgo bien
definido. Por esta razn se denominan coeficientes de consistencia interna,
y se aducen como garanta de unidimensionalidad, es decir, de que un nico rasgo subyace a todos los tems. Hay que advertir sin embargo que un alto coeficiente de fiabilidad no es prueba de unidimensionalidad (tratado con
ms amplitud en el apartado 9.1).
El resto de la teora sobre la fiabilidad que exponemos a continuacin responde fundamentalmente a la fiabilidad entendida como consistencia interna. Cuando se habla de la fiabilidad de un instrumento y no se especifica otra
cosa, suele entenderse que se trata de la fiabilidad entendida como consistencia interna.
3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FRMULA BSICA DE LA

FIABILIDAD
Como punto de partida podemos pensar que cuando observamos diferencias entre los sujetos, estas diferencias, que se manifiestan en que sus
3
Los coeficientes de consistencia interna tambin suelen denominarse coeficientes
de homogeneidad como si se tratara de trminos sinnimos, pero este trmino (coeficiente de homogeneidad) es impropio (como advierte Schmitt, 1996). La consistencia interna se refiere a las correlaciones entre los tems (relacin emprica) y la homogeneidad
se refiere a la unidimensionalidad (relacin lgica, conceptual) de un conjunto de tems
que supuestamente expresan el mismo rasgo.
193
puntuaciones totales (al sumar todas sus respuestas a los tems) son distintas, se deben:
1 En parte a que los sujetos son distintos en aquello que se les est midiendo; si se trata de un examen hay diferencias porque unos saben
ms y otros saben menos.
2 Las diferencias observadas se deben tambin en parte a lo que llamamos genricamente errores de medicin; por ejemplo, en este caso,
las respuestas distintas pueden estar ocasionadas por preguntas ambiguas, por la diferente capacidad lectora de los sujetos, etc.; no todo lo
que hay de diferencia se debe a que unos saben ms y otros saben
menos.
La puntuacin total de un sujeto podemos por lo tanto descomponerla
as:
X t = Xv + Xe
[1]
Xt =
Xv =
Xe =
puntuacin total de un sujeto, puntuacin observada;

puntuacin verdadera, que representa
lo que un sujeto realmente sabe o siente (depende de qu se est preguntando o midiendo).
puntuacin debida a errores de medicin, que puede tener signo ms o signo menos.
Lo que decimos de cada puntuacin individual lo podemos decir tambin

de las diferencias entre todos los sujetos:
Diferencias
observadas
entre los sujetos
Diferencias verdaderas
los sujetos son distintos en lo que estamos
midiendo.
Diferencias falsas
(errores de medicin)
Hablando con propiedad, ms que de diferencias concretas hay que hablar

de varianza, que cuantifica todo lo que hay de diferencia entre los sujetos.
La frmula bsica de la fiabilidad parte del hecho de que la varianza se puede
descomponer. La varianza de las puntuaciones totales de un test podemos
descomponerla as [2]:
s2t = s2v + s2e
[2]
194
s2v =
s2e =
s2t =
Varianza total, expresa todo lo que hay de diferente en las puntuaciones totales; unos sujetos tienen puntuaciones totales ms altas,
otros ms bajas, etc.; la varianza ser mayor si los sujetos difieren mucho entre s. Si lo que pretendemos con un instrumento de medida es
clasificar, detectar diferencias, una varianza grande estar asociada
en principio a una mayor fiabilidad.
Varianza verdadera; expresa todo lo que hay de diferente debido a
que los sujetos son distintos en lo que pretendemos medir, o dicho
de otra manera, expresa todo lo que hay de diferente debido a lo que
los tems tienen en comn, de relacin, y que es precisamente lo
que queremos medir. El trmino verdadero no hay que entenderlo
en un sentido cuasi filosfico, aqu la varianza verdadera es la que
se debe a respuestas coherentes (o respuestas relacionadas), y esta
coherencia (o relacin verificada) en las respuestas suponemos que
se debe a que todos los tems del mismo test miden lo mismo.
Varianza debida a errores de medicin, o debida a que los tems miden en parte cosas distintas, a lo que no tienen en comn. Puede haber otras fuentes de error (respuestas descuidadas, falta de motivacin al responder, etc.), pero la fuente de error que controlamos es la
debida a falta de relacin entre los tems, que pueden medir cosas
distintas o no muy relacionadas. El error aqu viene a ser igual a incoherencia en las respuestas, cualquiera que sea su origen (incoherencia sera aqu responder no cuando se ha respondido s a un tem de
formulacin supuestamente equivalente).
Suponemos que los errores de medicin no estn relacionados con las

puntuaciones verdaderas; no hay ms error en las puntuaciones ms altas o
menos en las ms bajas y los errores de medicin se reparten aleatoriamente;
con este supuesto la frmula [2] es correcta.
La fiabilidad no es otra cosa que la proporcin de varianza verdadera, y
la frmula bsica de la fiabilidad [3] se desprende de la frmula anterior [2]
(r11 es el smbolo general de los coeficientes de fiabilidad):
s2v
r11 =
s2t
[3]
Por varianza verdadera entendemos lo que acabamos de explicar; la varianza total no ofrece mayor problema, es la que calculamos en los totales de
todos los sujetos; cmo hacemos operativa la varianza verdadera lo veremos al explicar las frmulas (de Cronbach y Kuder-Richardson). Expresando
la frmula [3] en trminos verbales tenemos que
195
todo lo que discriminan los tems por lo que tienen de relacionados

fiabilidad =
todo lo que discriminan de hecho al sumarlos en una puntuacin total
o expresado de otra manera

varianza debida a lo que hay de coherente en las respuestas
fiabilidad =
varianza debida tanto a lo que hay de coherente como
de no coherente en las respuestas
Por respuestas coherentes hay que entender que no se responde de manera distinta a tems que supuestamente y segn la intencin del autor del instrumento, expresan el mismo rasgo. En una escala de actitud hacia la msica sera coherente estar de acuerdo con estos dos tems: me sirve de descanso
escuchar msica clsica y la educacin musical es muy importante en la
formacin de los nios; lo coherente es estar de acuerdo con las dos afirmaciones o no estar tan de acuerdo tambin con las dos. Un sujeto que est de
acuerdo con una y no con la otra es de hecho incoherente segn lo que pretende el autor del instrumento (medir la misma actitud a travs de los dos
tems). Esta incoherencia de hecho no quiere decir que el sujeto no sea coherente con lo que piensa; lo que puede y suele suceder es que los tems pueden
estar mal redactados, pueden ser ambiguos, medir cosas distintas, etc.; por estas razones la fiabilidad hay que verificarla experimentalmente.
En la varianza total (todo lo que hay de diferencias individuales en las
puntuaciones totales) influye tanto lo que se responde de manera coherente o relacionada, como lo que hay de incoherente o inconsistente (por la
causa que sea); la fiabilidad expresa la proporcin de consistencia o coherencia emprica.
En el denominador tenemos la varianza de los totales, por lo tanto la fiabilidad indica la proporcin de varianza debida a lo que los tems tienen en
comn. Una fiabilidad de .80, por ejemplo, significa que el 80% de la varianza se debe a lo que los tems tienen en comn (o de relacionado de hecho).
4. REQUISITOS PARA UNA FIABILIDAD ALTA

Si nos fijamos en la frmula anterior [3] (y quizs con ms claridad si nos
fijamos en la misma frmula expresada con palabras), vemos que aumentar
la fiabilidad si aumenta el numerador; ahora bien, es importante entender
que aumentar el numerador si por parte de los sujetos hay respuestas distintas (no todos los sujetos responden de la misma manera) y a la vez relacionadas, de manera que tendremos una fiabilidad alta:
196
1 Cuando haya diferencias en las respuestas a los tems, es decir,

cuando los tems discriminan; si las respuestas son muy parecidas (todos de acuerdo, o en desacuerdo, etc.) la varianza de los tems baja y
tambin la fiabilidad;
2 Y adems los tems (las respuestas) estn relacionadas entre
s, hay coherencia, consistencia interna; cuando si se responde muy
de acuerdo a un tem, tambin se responde de manera parecida a
tems distintos pero que expresan, suponemos, el mismo rasgo; hay
una tendencia generalizada responder o en la zona del acuerdo o en la
zona del desacuerdo.
Entender cmo estos dos requisitos (respuestas distintas en los sujetos y
relacionadas) influyen en la fiabilidad es tambin entender en qu consiste la
fiabilidad en cuanto consistencia interna. Esto lo podemos ver con facilidad
en un ejemplo ficticio y muy simple en el que dos muestras de cuatro sujetos
responden a un test de dos tems con respuestas s o no (1 0) (tabla 1).
Tabla1
Podemos pensar que se trata de una escala de integracin familiar compuesta por dos tems y respondida por dos grupos de cuatro sujetos cada
uno. Los tems en este ejemplo podran ser:
1. En casa me lo paso muy bien con mis padres [s=1 y no =0]
2. A veces me gustara marcharme de casa [s = 0 y no = 1]
En estos ejemplos podemos observar:
1 Las desviaciones tpicas (lo mismo que las varianzas, s2) de los tems
son idnticas en los dos casos, adems son las mximas posibles (porque el 50% est de acuerdo y el otro 50% est en desacuerdo, mxima
dispersin). Desviaciones tpicas grandes en los tems (lo que supone
197
que distintos sujetos responden de distinta manera al mismo tem)

contribuyen a aumentar la fiabilidad, pero vemos que no es condicin
suficiente: con las mismas desviaciones tpicas en los tems el coeficiente de fiabilidad es 1 (grupo A) en un caso y 0 en otro (grupo B).
2 La diferencia entre los grupos A y B est en las correlaciones inter-tem:
la mxima posible en A (r = 1), y la ms baja posible en B (r = 0). La correlacin es grande cuando las respuestas son coherentes, cuando se
responde bsicamente de la misma manera a todos los tems; la correlacin es pequea cuando las respuestas son incoherentes.
Cuando las respuestas son coherentes (simplificando: unos dicen que s a
todo y otros dicen que no a todo), la puntuacin total est ms diversificada
porque se acumulan puntuaciones muy altas o muy bajas en los tems; consecuentemente la desviacin tpica (o la varianza) de los totales ser mayor. Con
respuestas diferentes y adems coherentes, los sujetos quedan ms diversificados, mejor clasificados por sus puntuaciones totales, y esta diversidad de
los totales se refleja en una mayor desviacin tpica o varianza.
Esta diversidad coherente de las respuestas (y que la vemos de manera
exagerada en el grupo A del ejemplo anterior) queda recogida en la frmula
de la fiabilidad o de consistencia interna.
Para que suba la fiabilidad hace falta por lo tanto lo que ya hemos indicado
antes:
1 que unos y otros sujetos respondan de manera distinta a los tems
2 y que adems esas respuestas a los tems de cada sujeto sean coherentes.
Si esto es as, las diferencias en los totales se debern a que los sujetos han
respondido de manera distinta y coherente a los distintos tems. Esto hace
que los totales sean distintos, para unos sujetos y otros, segn tengan ms o
menos del rasgo que deseamos medir. unos van acumulando valores altos en
sus respuestas, y otros van acumulando valores bajos.
Lo que significa la fiabilidad, y las condiciones de una fiabilidad alta, podemos verlo en otro ejemplo (obviamente ficticio, tabla 2). Imaginemos que se
trata ahora de una escala de actitud hacia la msica compuesta por tres
tems, con respuestas continuas de 1 (mximo desacuerdo) a 5 (mximo
acuerdo) respondida por seis sujetos:
198
Tabla 2
Qu vemos fcilmente en estos datos:

1. Los tems miden lo mismo conceptualmente; al menos es lo que intentamos al redactarlos;
2. Los sujetos son distintos en las respuestas a cada tem, por eso hay varianza (diferencias) en los tems; a unos les gusta ms la msica, a
otros menos;
3. Los tems estn relacionados: si tomamos los tems de dos en dos vemos que los sujetos tienden a puntuar alto en los dos o bajo en los dos
(ms o menos). Esta relacin podemos verificarla experimentalmente
calculando los coeficientes de correlacin: r12 = .95, r13 = .81 y r23 =
.734 (en ejemplos reales, con ms tems y ms sujetos, no suelen ser
tan altos).
4. Consecuentemente el puntuar alto en un tem supone un total ms alto en toda la escala; esto podemos verificarlo experimentalmente calculando la correlacin de cada tem con la suma de los otros dos (correlacin tem-total): r1t = .93, r2t = .88 y r3t = .79.
Un procedimiento que nos dara la misma informacin es comparar en
cada tem a los sujetos con totales ms altos y totales ms bajos; si los
mismos tems diferencian simultneamente a los mismos sujetos, es
que los tems estn relacionados.
5. Los sujetos van acumulando puntuaciones altas o bajas en cada tem,
por lo tanto quedan muy diferenciados en la puntuacin total: estn
bien ordenados o clasificados.
6. Nos encontramos con una coherencia global en las respuestas, todos
los tems estn relacionados; esta coherencia global es la que estimamos en los coeficientes de fiabilidad (de consistencia interna; en el
ejemplo ficticio de la tabla 2 el coeficiente de fiabilidad es a = .9244.
7. Esta relacin entre los tems es la que comprobamos experimentalmente y nos permite sumarlos en una sola puntuacin total porque
4
Sobre cmo construir escalas de actitudes y cmo hacer estos anlisis puede verse
Morales, Urosa y Blanco (2003).
199
nos confirma (aunque no necesariamente) que todos miden lo mismo.

Si un tem no est claramente relacionado con los dems, puede ser
que est midiendo otra cosa.
8. La relacin conceptual (homogeneidad de los tems) la suponemos
(procuramos que todos los tems expresen el mismo rasgo, aunque podemos equivocarnos), pero la comprobamos empricamente en cada
tem (mediante la correlacin de cada tem con todos los dems) y en
el conjunto de todo el instrumento (coeficiente de fiabilidad).
Sin embargo puede haber relacin emprica (un tem correlaciona bien
con los dems) sin que eso signifique que hay una clara relacin conceptual. Si l ejemplo de la tabla 2 en vez del tem me entusiasma la
pera (que claramente expresa gusto por la msica) ponemos en mi
casa tengo un piano, que podra expresar gusto por la msica pero
tambin, y con ms claridad, indica nivel econmico (algo distinto al
gusto por la msica, con unas respuestas no sumables con las dems),
y los dos melmanos del ejemplo son adems ricos y tienen un piano
en casa y los dos a quienes no gusta o gusta menos la msica son de nivel econmico inferior y por supuesto no tienen un piano en su casa,
tendramos que este tem, en mi casa tengo un piano, est contribuyendo a la fiabilidad de la escala sin que podamos decir que est midiendo lo mismo que los dems. Los nmeros no entienden de significados, de ah la insistencia en los controles conceptuales.
9. El coeficiente de fiabilidad aumenta por lo tanto:
a) si hay diferencias en las respuestas a cada tem
b) y si adems hay relacin entre los tems (es decir, hay coherencia
en las respuestas).
10. La fiabilidad supone tambin que los sujetos son distintos en aquello
que es comn a todos los tems. El mismo test o escala, con los mismos
tems, puede tener una fiabilidad alta en una muestra y baja en otra: si
todos responden a los tems de idntica manera: a) los tems tendrn
varianzas pequeas y b) interrelaciones pequeas, y por lo tanto bajar la fiabilidad. La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a travs de sus
respuestas a todos los tems. Es ms probable encontrar una fiabilidad
alta en una muestra grande, porque es ms probable tambin que haya
sujetos ms extremos en lo que estamos midiendo. En sentido propio
la fiabilidad no es una propiedad del test o escala, sino de las puntuaciones obtenidas con el instrumento en una muestra dada.
200
5. L AS FRMULAS DE KUDER RICHARDSON 20 Y a DE CRONBACH

Las dos frmulas posiblemente ms utilizadas son las de Kuder-Richardson
20 y el coeficiente a de Cronbach. En realidad se trata de la misma frmula,
una (Kuder-Richardson) expresada para tems dicotmicos (con respuestas
de unos y ceros) y otra (Cronbach) para tems continuos (con varias respuestas graduadas de menos a ms, como en las escalas de actitudes). Los nombres distintos se deben a que los autores difieren en sus modelos tericos,
aunque estn relacionados, y los desarrollaron en tiempos distintos (Kuder y
Richardson en 1937, Cronbach en 1951).
Para hacer operativa la frmula [3]
s2v
r11 =
[3]
s2t
El denominador no ofrece mayor problema, se trata de la varianza de las
puntuaciones totales del test o instrumento utilizado.
El numerador, o varianza verdadera, lo expresamos a travs de la suma
de las covarianzas de los tems. Es til recordar aqu qu es la co-varianza.
Conceptualmente la co-varianza es lo mismo que la co-relacin; en el coeficiente de correlacin utilizamos puntuaciones tpicas y en la covarianza utilizamos puntuaciones directas, pero en ambos casos se expresa lo mismo y si
entendemos qu es la correlacin, entendemos tambin qu es la covarianza
o variacin conjunta. La varianza verdadera la definimos operativamente
como la suma de las covarianzas de los tems.
La covarianza entre dos tems expresa lo que dos tems discriminan por
estar relacionados, esto es lo que denominamos en estas frmulas varianza
verdadera, por lo tanto la frmula [3] podemos expresarla poniendo en el
numerador la suma de las covarianzas entre los tems:
o lo que es lo mismo
ya que
La covarianza entre dos tems (sxy) es igual al producto de su correlacin

(rxy) por sus desviaciones tpicas (sx y sy): ah tenemos la varianza verdadera: diferencias en las respuestas a los tems (expresadas por las desviaciones
tpicas) y relacionadas (relacin expresada por los coeficientes de correlacin entre los tems). Se trata por lo tanto de relaciones empricas, verificadas, no meramente lgicas o conceptuales.
201
Esta frmula [5] de la fiabilidad no es, por supuesto cmoda para calcularla (tenemos otras alternativas) pero pone de manifiesto qu es lo que influye
en la fiabilidad, por eso es importante.
Aumentar la fiabilidad si aumenta el numerador. Y lo que tenemos en el
numerador (frmula [5]) es la suma de las covarianzas de los tems (Ssxy =
Srxysxsy) que expresa a) todo lo que discriminan los tems (y ah estn sus
desviaciones tpicas) y b) por estar relacionados (y tenemos tambin las correlaciones inter-tem).
Si nos fijamos en la frmula [5] vemos que si los tems no discriminan (no
establecen diferencias) sus desviaciones tpicas sern pequeas, bajar el numerador y bajar la fiabilidad.
Pero no basta con que haya diferencias en los tems, adems tienen que estar relacionados; la correlacin entre los tems tambin est en el numerador
de la frmula [5]: si las desviaciones son grandes (como en el grupo B de la
tabla 1) pero los tems no estn relacionados (= respuestas no coherentes),
bajar la fiabilidad, porque esa no relacin entre los tems hace que las puntuaciones totales estn menos diferenciadas, como sucede en el grupo B. En
este caso vemos que cuando las desviaciones de los tems son muy grandes,
pero la correlacin inter-tem es igual a 0, la fiabilidad es tambin igual a 0.
La fiabilidad expresa por lo tanto cunto hay de diferencias en los totales
debidas a respuestas coherentes (o proporcin de varianza verdadera o debida a que los tems estn relacionados). Por eso se denomina a estos coeficientes coeficientes de consistencia interna: son mayores cuando las relaciones entre los tems son mayores. La expresin varianza verdadera puede
ser equvoca; en este contexto varianza verdadera es la debida a que los tems
estn relacionados, son respondidos de manera bsicamente coherente, pero no prueba o implica que de verdad todos los tems midan lo mismo.
Esta relacin emprica, verificable, entre los tems nos sirve para apoyar
o confirmar (pero no probar) la relacin conceptual que debe haber entre
los tems (ya que pretendidamente miden lo mismo), aunque esta prueba no
es absoluta y definitiva y requerir matizaciones adicionales (dos tems pueden estar muy relacionados entre s sin que se pueda decir que miden lo mismo, como podran ser edad y altura).
La frmula [4] puede transformarse en otra de clculo ms sencillo. Se
puede demostrar fcilmente que la varianza de un compuesto (como la varianza de los totales de un test, que est compuesto de una serie de tems que
se suman en una puntuacin final) es igual a la suma de las covarianzas entre los tems (entre las partes del compuesto) ms la suma de las varianzas
de los tems:
de donde
202
y sustituyendo en [4] tenemos que

de donde
La frmula que sin embargo utilizamos es esta otra y que corresponde al

coeficiente s de Cronbach [8]:
nmero de tems
suma de las varianzas de los tems
varianza de los totales
La expresin [k/(k-1)] (k= nmero de tems) la aadimos para que el valor mximo de este coeficiente pueda llegar a la unidad. El segundo miembro
de esta frmula [8], que es el que realmente cuantifica la proporcin de varianza debida a lo que los tems tienen en comn o de relacionado, puede alcanzar un valor mximo de [(k-1)/k] y esto solamente en el caso improbable
de que todas las varianzas y covarianzas sean iguales. Como [(k-1)/k] x [k/(k1)]= 1, al aadir a la frmula el factor [k/(k-1)] hacemos que el valor mximo
posible sea 1.
La frmula [8], tal como est expresada, corresponde al a de Cronbach
(para tems continuos); en la frmula Kuder-Richardson 20 (para tems dicotmicos, respuesta 1 0) sustituimos Ss2i por Spq pues pq es la varianza de
los tems dicotmicos (p = proporcin de unos y q = proporcin de ceros).
La parte de la frmula [8] que realmente clarifica el sentido de la fiabilidad
est en el segundo miembro que, como hemos visto, equivale a Srxysxsy/s2t
(suma de las covarianzas de todos los tems dividida por la varianza de los totales, frmulas [4] y [5]).
6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD

Es til tener a la vista los factores o variables que inciden en coeficientes
de fiabilidad altos. Cuando construimos y probamos un instrumento de medicin psicolgica o educacional nos interesa que su fiabilidad no sea baja y
conviene tener a la vista qu podemos hacer para obtener coeficientes altos.
Adems el tener en cuenta estos factores que inciden en la magnitud del coeficiente de fiabilidad nos ayuda a interpretar casos concretos.
En general los coeficientes de fiabilidad tienden a aumentar:
203
1 Cuando la muestra es heterognea; es ms fcil clasificar a los sujetos cuando son muy distintos entre s. Con muestras de sujetos muy
parecidos en el rasgo que queremos medir, todos respondern de manera parecida, y las varianzas de los tems y sus intercorrelaciones sern
pequeas.
2 Cuando la muestra es grande porque en muestras grandes es ms
probable que haya sujetos muy distintos (es la heterogeneidad de la
muestra, y no el nmero de sujetos, lo que incide directamente en la
fiabilidad); aunque tambin podemos obtener un coeficiente alto en
muestras pequeas si los sujetos son muy diferentes en aquello que es
comn a todos los tems y que pretendemos medir.
3 Cuando las respuestas a los tems son ms de dos, porque en
este caso hay una mayor probabilidad de que las respuestas difieran
ms, de que se manifiesten las diferencias que de hecho existen. Cuando el nmero de respuestas supera la capacidad de discriminacin de
los sujetos, la fiabilidad baja porque las respuestas son ms inconsistentes; en torno a 6 7, e incluso menos, suele situarse el nmero ptimo
de respuestas. Lo ms claro experimentalmente es que la fiabilidad sube al pasar de dos respuestas a tres.
4 Cuando los tems son muchos (ms oportunidad de que los sujetos
queden ms diferenciados en la puntuacin total) aunque un nmero
de tems grande puede dar una idea equvoca de la homogeneidad del
instrumento como indicaremos ms adelante (muchos tems poco relacionados entre s pueden llevar una fiabilidad alta en todo el instrumento sin que quede muy claro qu se est midiendo).
5 Cuando la formulacin de los tems es muy semejante, muy repetitiva (si hay diferencias entre los sujetos, aparecern en todos los
tems y subirn sus intercorrelaciones) aunque sta no es una caracterstica necesariamente deseable en un instrumento (que medira un
constructo definido con lmites muy estrechos). En general los constructos o rasgos definidos con un nivel alto de complejidad requerirn
tems ms diversificados y la fiabilidad tender a ser menor.
7. INTERPRETACIN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA

Basndonos en estas frmulas y en sus modelos tericos, estos coeficientes podemos interpretarlos de las siguientes maneras (unas interpretaciones
se derivan de las otras):
1. Expresa directamente lo que ya hemos indicado: la proporcin de
varianza debida a lo que los tems tienen de relacionado, de co-
204
mn; un coeficiente de .70 indica que el 70% de la varianza (diferencias en los

totales, que es lo que cuantifica la varianza) se debe a lo que los tems tienen
en comn (de estar relacionado, de coherencia en las respuestas), y un 30%
de la varianza se debe a errores de medicin o a lo que de hecho tienen los
tems de no relacionado. De esta interpretacin podemos decir que es una
interpretacin literal, que se desprende directamente de la lectura de la frmula (Suma de covarianzas/Varianza total).
Estos coeficientes, dicho en otras palabras, expresan en qu grado los
tems discriminan o diferencian a los sujetos simultneamente. De alguna
manera son un indicador de relacin global entre los tems (aunque no
equivalen a la correlacin media entre los tems).
2. Consecuentemente interpretamos estos coeficientes como indicadores de la homogeneidad de los tems (es decir, de que todos los tems
miden lo mismo, por eso se denominan coeficientes de consistencia interna); pero esto es ya una interpretacin: suponemos que si las respuestas estn relacionadas es porque los tems expresan o son indicadores del mismo
rasgo, aunque no hay que confundir relacin emprica (verificada, relacin de hecho en las respuestas y es esto lo que cuantificamos con estas frmulas) con homogeneidad conceptual. Esta relacin o consistencia interna comprobada de los tems es la que legitima su suma en una puntuacin
total, que es la que utilizamos e interpretamos como descriptor del rasgo
(ciencia, una actitud, un rasgo de personalidad, etc.) que suponemos presente en todos los tems.
3. Son una estimacin del coeficiente de correlacin que podemos esperar con un test similar, con el mismo nmero y tipo de tems.
Esta interpretacin se deriva directamente del modelo terico propuesto
por Cronbach. De un universo o poblacin de posibles tems hemos escogido una muestra de tems que es la que conforma nuestro instrumento. Si la
fiabilidad es alta, con otra muestra de tems de la misma poblacin de tems
obtendramos unos resultados semejantes (los sujetos quedaran ordenados
de manera similar).
Un uso importante de estos coeficientes es poder comunicar hasta qu
punto los resultados obtenidos con un determinado instrumento son repetibles, en el sentido de si con un test semejante los resultados hubieran sido similares. La fiabilidad es en este sentido un indicador de la eficacia del instrumento. Si estos coeficientes son una estimacin de la correlacin del test con
otro similar, podemos concluir que con otro test semejante los sujetos hubieran quedado ordenados, clasificados, de manera parecida.
4. En trminos generales el coeficiente de fiabilidad nos dice si un test
discrimina adecuadamente, si clasifica bien a los sujetos, si detecta bien las diferencias que existen entre los sujetos de una muestra. Diferencias En qu? En aquello que es comn a todos los tems y que es lo que pre-
205
tendemos medir. Es ms, sin diferencias entre los sujetos no puede haber un
coeficiente de fiabilidad alto. La fiabilidad es una caracterstica positiva siempre que interese detectar diferencias que suponemos que existen. Esto sucede cuando medimos rasgos de personalidad, actitudes, etc., medir es, de alguna manera, establecer diferencias.
5. Una observacin importante: la interpretacin de estos coeficientes,
como caracterstica positiva o deseable, puede ser distinta cuando se trata de
comprobar resultados escolares en los que no hay diferencias o no se pretende que existan, por ejemplo en un examen de objetivos mnimos, o si se trata de verificar si todos los alumnos han conseguido determinados objetivos. A
la valoracin de la fiabilidad en exmenes y pruebas escolares le dedicamos
ms adelante un comentario especfico (apartado 11).
La valoracin de una fiabilidad alta como caracterstica positiva o de calidad de un test es ms clara en los tests de personalidad, inteligencia, etc., o
en las escalas de actitudes: en estos casos pretendemos diferenciar a los sujetos, captar las diferencias que de hecho se dan en cualquier rasgo; digamos
que en estos casos las diferencias son esperadas y legtimas. Adems en este
tipo de tests tambin pretendemos medir (en un sentido analgico) un nico rasgo expresado por todos los tems, mientras que en el caso de un examen de conocimientos puede haber habilidades muy distintas, con poca relacin entre s, en el mismo examen (aunque tampoco esto es lo ms habitual).
Aun con estas observaciones, en un examen largo, tipo test, con muchos o
bastantes alumnos, entre los que esperamos legtimamente que haya diferencias, una fiabilidad baja s puede ser un indicador de baja calidad del instrumento, que no recoge diferencias que probablemente s existen.
6. ndice de precisin. Hemos visto que el coeficiente de fiabilidad expresa una proporcin, la proporcin de varianza verdadera o varianza debida a lo que los tems tienen en comn. Tambin sabemos que un coeficiente
de correlacin elevado al cuadrado (r2, ndice de determinacin) expresa
una proporcin (la proporcin de varianza compartida por dos variables). Esto quiere decir que la raz cuadrada de una proporcin equivale a un coeficiente de correlacin (si r2 = proporcin, tenemos que
= r).
En este caso la raz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlacin entre las puntuaciones obtenidas (con nuestro instrumento) y las puntuaciones verdaderas (obtenidas con un test ideal que
midiera lo mismo). Este coeficiente se denomina ndice de precisin (tambin ndice, no coeficiente, de fiabilidad).
ndice de precisin robservadas.verdaderas =
[9]
Una fiabilidad de .75 indicara una correlacin de .86

con las
puntuaciones verdaderas. Este ndice expresa el valor mximo que puede al-
206
canzar el coeficiente de fiabilidad. No es de mucha utilidad, pero se puede

utilizar junto con el coeficiente de fiabilidad.
7. La interpretacin del coeficiente de fiabilidad se complementa con el
clculo y uso del error tpico o margen de error; es la oscilacin probable
de las puntuaciones si los sujetos hubieran respondido a una serie de tests paralelos; a mayor fiabilidad (a mayor precisin) bajar la magnitud del error probable. Tratamos del error tpico en otro apartado (9.2); el error tpico, como veremos, puede ser de utilidad ms prctica que el coeficiente de fiabilidad.
8. CUNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO

Esta pregunta no tiene una respuesta ntida; cada coeficiente hay que valorarlo en su situacin: tipo de instrumento (define un rasgo muy simple o
muy complejo), de muestra (muy homognea o ms heterognea) y uso pretendido del instrumento (mera investigacin sobre grupos, o toma de decisiones sobre sujetos).
En la prctica la valoracin depende sobre todo del uso que se vaya a hacer del instrumento (de las puntuaciones con l obtenidas). Como orientacin podemos especificar tres usos posibles de los tests y algunos valores
orientadores (tabla 3).
Tabla 3
Estas valoraciones, como otras similares que pueden encontrarse en libros

de texto y en diversos autores, son slo orientadoras5. Lo que se quiere poner
5
Nunnally (1978) propone un mnimum de .70; para Guilford (1954:388-389) una fiabilidad de slo .50 es suficiente para investigaciones de carcter bsico; Pfeiffer, Heslin y Jones
(1976) y otros indican .85 si se van a tomar decisiones sobre sujetos concretos; en algunos
tests bien conocidos (de Cattell) se citan coeficientes inferiores a .50 (Gmez Fernndez,
1981). No hay un valor mnimo sagrado para aceptar un coeficiente de fiabilidad como adecuado; medidas con una fiabilidad relativamente baja pueden ser muy tiles (Schmitt, 1996).
Por otra parte coeficientes muy altos; pueden indicar excesiva redundancia en los tems
(muy repetitivos) por esta razn hay autores que recomiendan un mximum de .90 (Streiner, 2003). Como referencia adicional podemos indicar que la fiabilidad media en artculos
de buenas revistas de Psicologa de la Educacin est en torno a .83 (Osborne, 2003).
207
de manifiesto es que no es lo mismo investigar (comparar medias de grupos,

etc.) que tomar decisiones sobre individuos. Si se van a tomar decisiones sobre sujetos concretos (como aprobar, excluir, recomendar tratamiento psiquitrico, etc.) hay que proceder con ms cautela, teniendo en cuenta adems que no todas las posibles decisiones son de igual importancia. Cuando
baja la fiabilidad sube el error tpico (o margen de error en la puntuacin individual) que con una forma paralela del mismo test o en otra situacin, etc.,
podra ser distinta. Los grupos son ms estables que los individuos, y el margen de error que pueda haber es de menor importancia (el error tpico de la
media es menor que la desviacin tpica de la muestra).
Por lo dems si se trata de tomar decisiones sobre individuos concretos se
puede tener en cuenta el error tpico y tomar la decisin en funcin de la
banda de posibles puntuaciones individuales ms que en funcin de la puntuacin concreta obtenida de hecho; de esta manera asumimos la menor fiabilidad del instrumento. En este sentido importa menos la poca fiabilidad de
un test si en la interpretacin de los resultados individuales tenemos en cuanta el error tpico (del que tratamos en 9.2). Por otra parte tampoco se suelen
tomar decisiones importantes en funcin del resultado de un nico test.
En el caso de informar sobre grupos se pueden especificar los intervalos
de confianza de la media (margen de error o de oscilacin de la media, que se
ver en el lugar apropiado).
Los valores del coeficiente de fiabilidad oscilan entre 0 y 1, pero ocasionalmente podemos encontrar valores negativos, simplemente porque no se
cumplen en un grado apreciable las condiciones de estos modelos (Black,
1999:286); en este caso (valor negativo) podemos interpretar este coeficiente
como cero6.
9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD

Vamos a fijarnos en tres ventajas o usos frecuentes de estos coeficientes:
1 Nos confirman en principio que todos los tems miden lo mismo, y de
hecho estos coeficientes se utilizan como un control de calidad, aunque esta interpretacin es discutible y habr que entenderla y relativizarla. Ms bien habra que decir que un coeficiente alto de fiabilidad
6
Valores negativos del coeficiente de fiabilidad pueden encontrarse cuando hay substanciales correlaciones negativas entre los tems; esto puede suceder cuando est mal la
clave de correccin y hay tems con una formulacin positiva y negativa que tienen la misma clave; tambin puede suceder que los tems realmente miden constructos distintos y
no hay suficiente varianza compartida; en estos casos la fiabilidad puede considerarse
igual a cero (Streiner, 2003).
208
apoya (pero no prueba) la hiptesis de que todos los tems miden bsicamente el mismo rasgo o atributo.
2 Los coeficientes de fiabilidad permiten calcular el error tpico de las
puntuaciones individuales; este error tpico puede incluso ser de un
inters mayor que el coeficiente de fiabilidad porque tiene aplicaciones
prcticas como veremos en su lugar.
3 Los coeficientes de fiabilidad obtenidos nos permiten estimar los coeficientes de correlacin que hubiramos obtenido entre dos variables
si su fiabilidad fuera perfecta (y que se denominan coeficientes de correlacin corregidos por atenuacin).
9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretacin unidimensional del rasgo medido
Como vamos exponiendo, la consistencia interna que manifiesta el coeficiente de fiabilidad apoya (pero no prueba) la interpretacin de que todos
los tems miden lo mismo (es lo que entendemos por unidimensionalidad;
que el instrumento mide un nico rasgo bien definido); esto es lo que en
principio se pretende cuando se construye un test o escala.
sta es la interpretacin y valoracin ms comn de estos coeficientes.
Simplificando, lo que decimos es esto: si unos sujetos tienden a estar de
acuerdo con todos los tems y otros responden en la zona del desacuerdo a
los mismos tems, esta coherencia de las respuestas nos dice que todos los
tems miden el mismo rasgo. Esta interpretacin, que es vlida en principio,
hay que relativizarla, porque en la fiabilidad influyen variables ajenas a la redaccin de los tems, que por otra parte pueden ser buenos (con criterios
conceptuales) pero no para cualquier muestra o para cualquier finalidad.
El interpretar una fiabilidad alta como indicador claro de que todos los
tems miden lo mismo no se puede aceptar ingenuamente; el coeficiente de
fiabilidad no es una medida de unidimensionalidad. Esto es importante
porque precisamente se aduce este coeficiente como prueba de que los tems
miden lo mismo, de que todos los tems expresan bien un mismo rasgo, y esto no est siempre tan claro.
Por otra parte (como ya se ha indicado en el n 7) una de las interpretaciones standard de estos coeficientes (en la misma lnea de apoyo a la unidimensionalidad del test) es que expresan la correlacin que obtendramos
con un test paralelo. Podemos concebir un test (o escala de actitudes, etc.)
como compuesto por una muestra aleatoria de tems tomada de un universo o poblacin de tems que miden lo mismo: la fiabilidad indicara la correlacin de nuestro test con otro de idntico nmero de tems tomados del mismo universo. En primer lugar no hay un valor ptimo del coeficiente de
fiabilidad y por otra parte esta interpretacin (derivada del modelo de Cron-
209
bach) supone al menos una condicin que no suele darse en la prctica: que
todas las correlaciones tem-total son de la misma magnitud. En la prctica es
preferible hablar de una estimacin de esa correlacin, que ser ms exacta
si somos muy restrictivos en la seleccin de los tems.
Hay que matizar la interpretacin de estos coeficientes porque no dependen exclusivamente de la redaccin de los tems, tambin dependen de la
complejidad o simplicidad de la definicin del rasgo que queremos medir, y
adems (y frecuentemente sobre todo) influyen en la fiabilidad caractersticas de la muestra. Hablando con propiedad, la fiabilidad ya sabemos que no
es una caracterstica del instrumento de medicin sino de las puntuaciones
con l obtenidas en una situacin dada y con una muestra determinada.
En estas observaciones nos fijamos sobre todo en los coeficientes de fiabilidad ms bien altos, porque no indican necesariamente que el instrumento es bueno, tambin prestaremos atencin a los coeficientes bajos, que pueden tener su explicacin e incluso ser compatibles con un buen instrumento.
Vamos a explicar por qu un coeficiente alto no expresa necesariamente
que los tems son suficientemente homogneos como para concluir que todos miden lo mismo, que hay suficiente homogeneidad conceptual como
para sumarlos en una nica puntuacin que refleja lo un sujeto tiene del rasgo que estamos midiendo y que consideramos expresado por la formulacin
de los tems.
Nos fijaremos en tres puntos:
1) Esta consistencia interna que cuantifican los coeficientes de fiabilidad expresa una relacin de hecho, estadstica, emprica, entre los
tems, pero la relacin emprica no supone necesariamente que hay
coherencia conceptual (que todos expresan bien el mismo rasgo).
2) Una fiabilidad alta puede deberse a un nmero grande de tems que
en ocasiones no se prestan a una interpretacin clara como descriptores de un nico rasgo, bien definido.
3) Una fiabilidad alta puede deberse tambin a una concepcin del rasgo muy limitada, expresada a travs de tems de contenido casi idntico, muy repetitivos.
Todo esto hay que tenerlo en cuenta para valorar estos coeficientes y no
dar necesariamente por bueno un instrumento porque hemos obtenido una
fiabilidad alta7.
Sobre los usos y abusos del coeficiente a puede verse Schmitt (1996).
210
9.1.1. Una fiabilidad alta no es prueba inequvoca de que todos

los tems miden lo mismo: necesidad de controles conceptuales
Puede suceder que los tems estn relacionados de hecho pero que expresen cosas distintas (o suficientemente distintas) y que por lo tanto sea cuestionable el sumarlos como si realmente midieran lo mismo; al menos esa
puntuacin total puede no ser de interpretacin clara. Ya lo hemos comentado a propsito de dos supuestos tems de una escala de actitud hacia la msica (apartado n 4) y que es oportuno repetir aqu:
1. En mi tiempo libre me gusta escuchar msica
2. En mi casa tenemos un piano
Estos dos tems son un ejemplo pretendidamente exagerado (porque obviamente no describen el mismo rasgo), pero es claro para ilustrar que relacin emprica (la que expresan estos coeficientes de fiabilidad) no es lo mismo que relacin conceptual (que de entrada todos los tems midan un mismo
rasgo interpretable). Si a los que ms les gusta la msica tienen adems un
piano en casa, obtendremos una correlacin alta entre estos dos tems pero
sera discutible considerar los dos tems homogneos como si midieran lo
mismo, a pesar de un coeficiente de fiabilidad alto. El tener un piano en casa mide o expresa nivel econmico aunque el tener un piano en casa coincida de hecho (no necesariamente pero tendra su lgica) con una actitud ms
favorable hacia la msica. Hace falta un control cualitativo y no meramente
estadstico de la homogeneidad de los tems.
Adems de la fiabilidad que podemos calcular tenemos que considerar la
homogeneidad conceptual de los tems. Aunque esta homogeneidad conceptual la suponemos (al menos es lo que se intenta), un ndice alto de homogeneidad emprica (consistencia interna), calculada (correlaciones) no
es garanta de homogeneidad conceptual. Cuando decimos que todos los
tems miden lo mismo, que son homogneos, porque la fiabilidad es alta, lo
que realmente queremos decir es que las respuestas estn de hecho relacionadas pero no que los tems (las preguntas) estn bien redactadas en torno
a un mismo constructo o rasgo claramente definido. Hace falta tambin una
evaluacin cualitativa y conceptual de los tems para poder afirmar que todos los tems miden lo mismo, expresan el mismo rasgo tal como lo hemos
concebido.
Por otra parte varios subconjuntos de tems muy relacionados entre s pero marginalmente relacionados con otros subconjuntos de tems pueden dar
un coeficiente de fiabilidad alto en todo el instrumento y sin embargo un anlisis conceptual de estos subconjuntos (ms otros anlisis estadsticos, como
211
el anlisis factorial) nos pueden llevar a la conclusin de que los subconjuntos de tems miden rasgos suficientemente distintos como para que sea cuestionable sumarlos en un total nico. Consistencia interna (tal como la cuantifican estos coeficientes) y unidimensionalidad son conceptos distintos,
por eso decimos que un coeficiente alto de fiabilidad es un apoyo pero no
una prueba de que el conjunto de tems que componen el instrumento mide un nico rasgo bien conceptualizado.
9.1.2. Fiabilidad y nmero de tems
El coeficiente de fiabilidad aumenta al aumentar el nmero de tems;
quiere esto decir que los tests ms largos son ms homogneos, que sus
tems miden con ms claridad el mismo rasgo? Obviamente no; los tems no
estn ms relacionados entre s por el mero hecho de ser ms en nmero; el
mismo Cronbach (1951) lo expresaba as: un galn de leche no es ms homogneo que un vaso de leche; un test no es ms homogneo por el mero hecho de ser ms largo.
El que al aumentar el nmero de tems aumente la fiabilidad se debe, al
menos en parte, a un mero mecanismo estadstico: cuando aumenta el nmero de tems (con tal de que estn mnimamente relacionados entre s) la suma de las covarianzas entre los tems (numerador de la frmula [4]) aumenta proporcionalmente ms que la varianza de los totales (denominador de la
frmula [4]). Una fiabilidad alta se puede obtener con muchos tems con relaciones bajas entre s, e incluso con algunas negativas; y puede suceder tambin que (como ya hemos indicado) dos (o ms) bloques de tems con claras
correlaciones entre los tems dentro de cada bloque, pero con poca o nula relacin con los tems del otro bloque den para todo el test un coeficiente alto
de fiabilidad. En este caso la homogeneidad del conjunto, y la interpretacin
de las puntuaciones como si expresaran un nico rasgo bien definido puede
ser cuestionable.
Por lo tanto:
a) No se debe buscar una fiabilidad alta aumentando sin ms el nmero de
tems, sin pensar bien si son realmente vlidos para expresar sin confusin el rasgo que deseamos medir. Una fiabilidad alta no es un indicador
cuasi automtico de la calidad de un test, sobre todo si es muy largo;
hace falta siempre una evaluacin conceptual de los tems (adems de
verificar empricamente su correlacin con el total del instrumento).
b) Con frecuencia con un conjunto menor de tems se puede conseguir
una fiabilidad semejante o no mucho ms baja que si utilizamos todos
los tems seleccionados en primer lugar, y varios subconjuntos de tems
pueden tener coeficientes de fiabilidad muy parecidos.
212
c) La fiabilidad tambin sube al aumentar el nmero de respuestas de los

tems (esto es ms claro si pasamos de dos a tres o ms respuestas);
con un nmero menor de tems pero con ms respuestas se puede
conseguir una fiabilidad semejante a la que conseguiramos con ms
tems y menos respuestas.
No hay que olvidar nunca que la validez es ms importante que la fiabilidad; lo que ms importa en primer lugar es que los tems reflejen bien el rasgo que se desea medir.
9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido
Un coeficiente alto puede estar indicando que los tems tienen homogeneidad conceptual, pero porque son excesivamente repetitivos, porque estamos midiendo un constructo o rasgo definido de manera muy limitada. Con
pocos tems muy repetitivos obtenemos con facilidad una fiabilidad alta.
Una definicin muy simple de un rasgo no es necesariamente una mala
caracterstica cuando se trata hacer un instrumento de medicin (puede ser
incluso preferible segn lo que se pretenda medir) pero hay que tener en
cuenta esta simplicidad de la concepcin del rasgo en la interpretacin, y ms
teniendo en cuenta que los nombres con que designamos a instrumentos y
rasgos suelen ser muy genricos (autoestima, motivacin, asertividad) y la
interpretacin no debe hacerse en funcin del nombre del instrumento sino
del contenido de los tems que lo componen. Los nombres breves son cmodos, pero con frecuencia requieren alguna explicacin adicional.
Un ejemplo claro y frecuente de un rasgo que a veces se mide de manera
muy simple y otras de manera ms compleja es la autoestima. Se puede preparar un instrumento de autoestima general, que incluir mltiples aspectos
(acadmico, social, familiar, etc.), o se puede construir un instrumento para
medir la autoestima en un sentido muy restringido, como sera la autoestima
acadmica.
Tambin se pueden construir instrumentos pluridimensionales: se mide
un rasgo complejo con todos los tems del instrumento, y con una definicin
ms bien genrica pero que tiene sentido (autoestima, asertividad, etc.) pero
que a su vez se puede descomponer en subescalas ms especficas; la fiabilidad puede calcularse tanto en todo el instrumento como en las subescalas
que miden aspectos ms simples.
9.2. El error tpico de la medida
Una utilidad importante de los coeficientes de fiabilidad puede estar no
en la magnitud misma de estos coeficientes, sino en los clculos posteriores
213
que podemos hacer a partir de los mismos. Uno de estos clculos es el del
error tpico de la medida.
El error tpico de la medida es de especial utilidad cuando se van a hacer
interpretaciones individuales, sobre todo si se derivan consecuencias importantes para los sujetos (aprobar, ser seleccionado para un puesto de trabajo, etc.), y con ms razn si se juzga que la fiabilidad del instrumento dista de ser ptima. Ya hemos indicado en otro lugar que una fiabilidad alta es
importante cuando los resultados (de un test) van a influir en la toma de decisiones sobre los sujetos (y el aprobar o suspender a un sujeto es una decisin importante).
9.2.1. Concepto y frmula del error tpico
El error tpico de la medida viene a ser la desviacin tpica de las puntuaciones individuales, e indica el margen de error o variacin probable de
las puntuaciones individuales. En trminos informales podemos decir que el
error tpico nos indica el margen de oscilacin probable de las puntuaciones
de una ocasin a otra o entre pruebas hipotticamente iguales o semejantes.
Nos puede servir para relativizar los resultados individuales, y de alguna manera neutralizar la baja fiabilidad de instrumento indicando y teniendo en
cuenta los mrgenes de error.
Vamos a pensar en un ejemplo sencillo, un examen tipo test. Cada alumno
tiene un resultado, su nmero de respuestas correctas.
Si cada alumno hubiera respondido a un nmero indefinido de exmenes,
no hubiera obtenido en todos exactamente el mismo resultado; sus posibles
resultados se hubieran distribuido segn la distribucin normal (figura 3).
Figura 3
214
Esta distribucin hubiera tenido su media y su desviacin tpica o error tpico de la medicin. Podemos suponer que la puntuacin de hecho obtenida es la media de la distribucin (aunque esto no es as exactamente, como
veremos despus al tratar de las puntuaciones verdaderas).
El error tpico de la medicin se calcula a partir del coeficiente de fiabilidad, y en muchos casos el mejor uso del coeficiente de fiabilidad es utilizarlo
para calcular el error tpico, (por ejemplo en exmenes o en cualquier test)
cuando interese situar a cada uno en su banda de posibles probables resultados. Esta banda de posibles resultados ser ms estrecha (con un error tpico
menor) cuando la fiabilidad sea alta, y ser ms amplia cuando baje la fiabilidad. Una baja fiabilidad de un instrumento puede quedar neutralizada si utilizamos el error tpico en la interpretacin de las puntuaciones individuales.
La frmula del error tpico podemos derivarla con facilidad de las frmulas
[2] y [3].
De la frmula [2] podemos despejar la varianza verdadera: s2v = s2t - s2e
y substituyendo esta expresin de s en [3]:
2
v
s2e
de donde = 1- r11
s2t
s2t s2e
s2e
r11 = = 1-
s2t
s2t
y despejando se tenemos que
[10]
error tpico
Esta es la frmula de la desviacin tpica de los errores de medicin, denominada error tpico de la medida o de las puntuaciones individuales. Se calcula a partir de la desviacin tpica (de los totales del test) y del coeficiente de
fiabilidad calculados en la muestra. Si un sujeto hubiera respondido a una serie de tests paralelos semejantes, el error tpico sera la desviacin tpica obtenida en esa serie de tests. Se interpreta como cualquier desviacin tpica e indica la variabilidad probable de las puntuaciones obtenidas, observadas.
El error tpico es directamente proporcional al nmero de tems y en el caso de los tests con respuestas 1 0 (como en las pruebas objetivas) un clculo rpido (y aproximado) es el dado en la frmula [11]8:
[11]
error tpico
8
Puede verse explicado en Gardner (1970) y en Burton (2004). Hay varias frmulas
que permiten clculos aproximados del error tpico, del coeficiente de fiabilidad y de otros
estadsticos que pueden ser tiles en un momento dado (por ejemplo, y entre otros, Saupe, 1961; McMorris, 1972).
215
Aqu hay que hacer una observacin importante. Este error tpico se aplica en principio a todos los sujetos por igual; hay un error tpico que indica la
oscilacin probable de cada puntuacin. Esto no es as exactamente. Pensemos en un examen: el alumno que sabe todo, en exmenes semejantes seguira sabiendo todo, y el alumno que no sabe nada, en exmenes semejantes
seguira sin saber nada: la oscilacin probable en los extremos es menor que
en el centro de la distribucin. sta es una limitacin de esta medida del
error probable individual. Aun as es la medida ms utilizada aunque hay
otras9. Si la distribucin es normal (o aproximadamente normal) y las puntuaciones mximas y mnimas obtenidas no son las mximas o mnimas posibles (la amplitud real no es igual a la amplitud mxima posible), ste error tpico de la medida es ms o menos uniforme a lo largo de toda la escala de
puntuaciones.
Aqu nos limitamos a exponer el error tpico habitual, el que se utiliza normalmente y que tiene aplicaciones muy especficas, pero en situaciones aplicadas (como en exmenes) s conviene caer en la cuenta de que la posible variabilidad individual tiende a ser menor en los extremos de la distribucin.
9.2.2. Las puntuaciones verdaderas
Un punto importante para el clculo e interpretacin del error tpico es
que el centro de la distribucin de los posibles resultados no es para cada sujeto la puntuacin que ha obtenido. Si un sujeto obtiene una puntuacin de
120 y el error tpico es de se = 4.47, no podemos concluir que hay un 68% de
probabilidades (aproximadamente, es la proporcin de casos que suelen darse entre 1s) de que su verdadera puntuacin est entre 120 4.47. El centro de la distribucin no es en este caso la puntuacin obtenida, sino la denominada puntuacin verdadera (Xv) que se puede estimar mediante la
frmula [12]:
Estimacin de la puntuacin verdadera:
) (r11)] + X
v = [(X-X
X
[12]
= 100 y r11 = .80, la estimacin de la puntuacin

En el caso anterior si X
verdadera de un sujeto que tuviera una puntuacin de X = 120, sera [(120 100)(.80)] + 100 = 116. Si la fiabilidad es igual a 1, la puntuacin obtenida es
tambin la que aqu denominamos verdadera.
Siguiendo con el mismo ejemplo, de un sujeto con X =120 y una puntuacin verdadera de 116, podemos decir que sus posibles resultados en ese test
9
En Mehrens y Lehmann (1973, pg. 106) puede verse cmo calcular el error tpico
de cada sujeto; es una frmula poco utilizada porque resulta laborioso calcularla para cada sujeto y a efectos prcticos son suficientes las expuestas en el texto.
216
(con un 5% de probabilidades de equivocarnos) estn entre 116 (1.96 errores tpicos); en este caso entre 116 (1.96)(4.47) o entre 107 y 125.
Estas puntuaciones verdaderas tienden a ser menores que las obtenidas
cuando estas son superiores a la media, y mayores cuando son inferiores a la
media. No debemos entender esta puntuacin verdadera (aunque ste sea el
trmino utilizado) como expresin de una verdad absoluta, que nos dice
exactamente lo que vale o sabe una persona en aquello en la que la hemos
medido. Hay que entender ms bien esta puntuacin verdadera como la
puntuacin ms probable que un sujeto hubiera obtenido si le hubiramos
medido repetidas veces en el mismo rasgo y con el mismo instrumento.
Las puntuaciones verdaderas y las puntuaciones observadas tienen una
correlacin perfecta (el orden de los sujetos es el mismo con las dos puntuaciones) por lo que el clculo de estas puntuaciones verdaderas no tiene
siempre una especial utilidad prctica; s puede tenerla cuando se desea precisamente utilizar el error tpico para precisar con mayor rigor y exactitud entre qu lmites o banda de resultados probables se encuentra la verdadera
puntuacin, como tratamos en el apartado siguiente.
9.2.3. Los intervalos de confianza de las puntuaciones individuales
Como el error tpico se interpreta como una desviacin tpica, si el error
tpico es de 4.47, hay un 68% de probabilidades de que la verdadera puntuacin estara entre 116 4.47 (la puntuacin verdadera ms-menos un error
tpico; es la proporcin de casos que caen en la distribucin normal entre la
media ms una desviacin tpica y la media menos una desviacin tpica, como se representa en la figura 1).
Podemos establecer intervalos de confianza con mayor seguridad, y as
podramos decir, con un 95% de probabilidades de acertar (z = 1.96) que la
puntuacin verdadera se encuentra entre 116 1.96se y en nuestro ejemplo
entre 116 (1.96)(4.47) o entre 116 8.76 (es decir, entre 107 y 125).
El error tpico nos sirve para relativizar las puntuaciones obtenidas, y ms
que pensar en una puntuacin concreta, la obtenida por cada sujeto, podemos pensar en una banda de posibles puntuaciones.
La puntuacin verdadera exacta de cada sujeto (la que hubiera obtenido
respondiendo a todos los tems del universo e tems o a muchas pruebas paralelas) no la sabemos, pero s podemos estimar entre qu lmites se encuentra, y esto puede ser de utilidad prctica en muchas ocasiones. Cuando en un
examen hay una puntuacin mnima para el apto, sumando a los que estn
en el lmite un error tpico, o margen de oscilacin probable, algunos quizs
superen holgadamente ese lmite; al menos hay un criterio razonablemente
objetivo, justificable y comn para todos.
217
9.3. Coeficientes de correlacin corregidos por atenuacin

En buena medida la utilidad de los coeficientes de fiabilidad est en los
clculos adicionales que podemos hacer. Posiblemente el ms importante, y
de utilidad prctica, es el del error tpico de la medida que ya hemos visto.
Otra utilidad de estos coeficientes es que nos permiten calcular el valor de
un coeficiente de correlacin entre dos variables corregido por atenuacin.
La correlacin calculada entre dos variables queda siempre disminuida,
atenuada, por culpa de los errores de medicin, es decir, por su no perfecta fiabilidad. La verdadera relacin es la que tendramos si nuestros instrumentos midieran sin error. Esta correlacin corregida por atenuacin es la
que hubiramos obtenido si hubisemos podido suprimir los errores de medicin en las dos variables (o al menos en una de las dos; no siempre conocemos la fiabilidad de las dos variables).
Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relacin mediante la frmula [13]:
En esta frmula rxy es el coeficiente de correlacin obtenido entre dos variables, X e Y, y rxx y ryy son los coeficientes de fiabilidad de cada variable; si conocemos solamente la fiabilidad de una de las dos variables, en el denominador tendremos solamente la raz cuadrada de la fiabilidad conocida.
Por ejemplo si entre dos tests o escalas tenemos una correlacin de .30 y
los coeficientes de fiabilidad de los dos tests son .50 y .70, la correlacin estimada corregida por atenuacin sera:
Vemos que la correlacin sube apreciablemente; y expresa la relacin entre las dos variables independientemente de los errores de medicin de los
instrumentos utilizados.
Sobre estas estimaciones de la correlacin entre dos variables (entre las
verdaderas puntuaciones de X e Y, sin errores de medicin) ya se han hecho
una serie de observaciones al tratar sobre los coeficientes de correlacin (en
el apartado 4.1. del captulo sobre correlacin y covarianza; se es el contex-
218
to apropiado); conviene tener en cuenta esas observaciones (que no repetimos aqu) sobre 1 en qu condiciones se debe utilizar esta frmula de correccin por atenuacin, 2 en qu situaciones es ms til y 3 otras frmulas distintas de correccin por atenuacin. Conviene repasar estas observaciones
antes de aplicar estas frmulas10.
10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO

Un coeficiente de fiabilidad bajo no indica necesariamente que el instrumento es malo y que no es posible utilizarlo. Tambin puede suceder que haya una razonable homogeneidad conceptual en la formulacin de los tems,
y esto se procura siempre, y que esta homogeneidad no se refleje en un coeficiente alto de fiabilidad. En cualquier caso con un coeficiente de fiabilidad
bajo y si se van a tomar decisiones sobre los sujetos (una decisin puede ser
dar un informe) s conviene incorporar el error tpico a la interpretacin.
Ahora nos interesa examinar de dnde puede venir un bajo coeficiente de
fiabilidad.
10.1. Inadecuada formulacin de los tems
Puede ser que los sujetos entiendan los tems de una manera distinta a
como lo pretende el autor del instrumento. Un a veces me gustara marcharme de casa podra significar para algunos me gusta viajar, etc. y en este
caso las respuestas no seran coherentes con el significado pretendido por el
constructor del instrumento (me siento mal en casa). La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos
en las respuestas. En el anlisis de tems, al construir un instrumento, podemos comprobar si los sujetos que responden, parecen entender la formulacin con el significado previsto; en caso contrario tendremos que eliminarlos
o reformularlos.
10.2. Homogeneidad de la muestra
Podemos encontrarnos con una homogeneidad conceptual clara en los
tems y una fiabilidad muy baja. Una causa de la baja fiabilidad puede estar en
que apenas hay diferencias entre los sujetos (todos o casi todos responden
de manera parecida). Si no hay diferencias tampoco habr relacin clara y
verificada entre las respuestas porque sin diferencias entre los sujetos los co10
Una buena exposicin de los efectos de la baja fiabilidad en los coeficientes de correlacin y de la correccin por atenuacin puede verse en Osborne (2003).
219
eficientes de correlacin entre los tems son muy bajos. Por eso la fiabilidad
es mayor con muestras heterogneas, en las que hay mayores diferencias en
las respuestas. Con una muestra ms variada (o simplemente mayor, donde
es ms probable que haya sujetos muy diferentes) podemos encontrar una
fiabilidad alta. De todas maneras con una fiabilidad baja que no se deba a la
mala calidad del instrumento sino a la homogeneidad de la muestra, seguiremos clasificando mal (diferenciando, midiendo mal) a los sujetos de esa
muestra.
10.3. Definicin compleja del rasgo medido
Por supuesto una fiabilidad baja, sobre todo si la obtenemos con una muestra razonablemente heterognea, puede significar una concepcin del rasgo
excesivamente compleja o una construccin deficiente del instrumento. Aun
as podemos encontrar coeficientes bajos en tests reconocidos como buenos
porque miden rasgos definidos con un grado grande de complejidad11.
Rasgos definidos de manera compleja o muy genrica pueden tener
tems poco relacionados entre s y consecuentemente tendremos una fiabilidad baja aunque est presente la unidad conceptual pretendida por el autor.
Una consecuencia de definir los rasgos que medimos de manera muy compleja es que en estos casos es que se puede llegar a una misma puntuacin total por caminos distintos, y esto hay que asumirlo en la interpretacin. En
cualquier caso la fiabilidad debera estar dentro de unos mnimos aceptables
para poder afirmar que estamos midiendo, diferenciando a los sujetos segn
posean ms o menos del rasgo que supuestamente medimos12.
Cuando la fiabilidad es baja, observando la redaccin de los tems y cmo
se relacionan entre s, podemos llegar a la conclusin que es preferible una
concepcin ms simple del rasgo, sin mezclar ideas relacionadas pero no lo
suficiente, o dividir el instrumento en dos (o ms) instrumentos y medir aspectos distintos por separado con instrumentos distintos.
10.4. Utilidad del error tpico cuando la fiabilidad es baja
Una valoracin racional del coeficiente de fiabilidad tendr en cuenta tanto la homogeneidad de la muestra como la complejidad del instrumento, y en
cualquier caso con coeficientes bajos siempre es conveniente utilizar el error t11
Para Cattell (1964), que prefiere medir en sus tests rasgos complejos, la consistencia interna no tiene por que ser la mxima posible, sino la mxima compatible con la complejidad
deseada en la misma concepcin del constructo (optimum low, en expresin de Cattel).
12
Un tratamiento ms extenso de la fiabilidad y de la unidimensionalidad de los
tests puede verse en Morales (2006, cap. 9 y 10).
220
pico en la interpretacin de los resultados individuales. Cuando se trata de tomar decisiones sobre sujetos, o de dar un informe de cierta importancia (por
ejemplo en un psicodiagnstico) y la fiabilidad del instrumento es baja, es cuando puede ser de especial utilidad (e incluso de responsabilidad tica) no limitarse a informar con una puntuacin o resultado muy preciso, sino con una
banda de puntuaciones probables; esta banda o lmites probables de la puntuacin ser mayor cuando el error tpico sea mayor (y la fiabilidad ms baja).
11. L A FIABILIDAD EN EXMENES Y PRUEBAS ESCOLARES

En primer lugar recordemos que es relativamente frecuente calcular la fiabilidad de las pruebas tipo test (estos clculos, y otros, suelen estar programados), pero tambin se puede calcular la fiabilidad de un examen compuesto
por unas pocas preguntas de respuesta abierta, con tal de que en todas las
preguntas se utilice la misma clave de correccin. Las frmulas adecuadas las
veremos despus; en las pruebas cuyos tems puntan 1 0 (lo habitual con
pruebas objetivas) se utiliza alguna de las frmulas de Kuder-Richardson, y
cuando las puntuaciones son continuas (por ejemplo de 0 a 4 o algo similar)
se utiliza el coeficiente a de Cronbach.
Cuando se trata de exmenes escolares el coeficiente de fiabilidad puede
presentar problemas especficos de interpretacin. No hay que olvidar que la
psicometra clsica trata de las diferencias individuales en medidas psicolgicas que parten al menos de dos supuestos:
a) Todos los componentes (tems) del test miden el mismo rasgo.
b) Los sujetos son distintos en el rasgo que queremos medir.
Estos dos supuestos no son aplicables siempre y automticamente a los diversos tipos de exmenes y pruebas escolares. En estas pruebas los coeficientes de fiabilidad pueden dar informacin til, pero hay que tener cuidado en
la interpretacin.
Es importante pensar en la fiabilidad de los exmenes porque se interpreta y utiliza habitualmente como un control de calidad, y se estima que siempre es bueno que un test de conocimientos (como un examen tipo test) tenga una fiabilidad alta. En el caso de los exmenes esto puede ser discutible
(aunque no en todas las situaciones) y conviene hacer algunas matizaciones.
11.1. Fiabilidad y validez
En primer lugar la caracterstica ms importante de una prueba escolar
(como de cualquier instrumento de medicin) no es la fiabilidad psicomtri-
221
ca, sino la validez: una prueba de evaluacin o cualquier examen es bueno si

comprueba los objetivos deseados (y comunicados previamente), si condiciona en el alumno un estudio inteligente. Con una prueba objetiva se puede
conseguir fcilmente una fiabilidad muy alta, pero se pueden estar comprobando meros conocimientos de memoria cuando quizs el objetivo pretendido era (o debera ser) de comprensin, anlisis, etc. La validez es por lo tanto la primera consideracin para evaluar la evaluacin: en principio un
instrumento es vlido si mide lo que decimos que mide.
11.2. Fiabilidad y diferencias entre los sujetos
Por lo que respecta a la fiabilidad, hay que tener en cuenta que en ltima
instancia la fiabilidad expresa la capacidad diferenciadora de un test, y esto
es en principio deseable cuando se trata precisamente de diferenciar. Si un test
de inteligencia no diferencia adecuadamente a los ms y a los menos inteligentes (y lo mismo diramos de cualquier otra capacidad o rasgo psicolgico)
sencillamente no nos sirve. En definitiva en estos casos medir es diferenciar.
Por eso en todo tipo de tests psicolgicos, escalas de actitudes, etc., una fiabilidad alta es una caracterstica deseable. Entendiendo bien que la fiabilidad no
es una caracterstica de un test (aunque sta sea la expresin habitual) sino de
un conjunto de puntuaciones que quedan mejor o peor diferenciadas.
Si pensamos en los tests escolares de conocimientos, podemos preguntarnos si las diferencias son deseables, si es verdad que un test que distingue,
matiza y establece diferencias ntidas entre los alumnos implica que tenemos
un buen test y, sobre todo, unos buenos resultados.
Una fiabilidad baja en un examen puede provenir de cualquiera de estas
dos circunstancias: sujetos muy igualados o preguntas muy distintas (el saber
unas no implica saber otras).
a) La clase est muy igualada, apenas hay diferencias pronunciadas o
sistemticas entre los alumnos. No se puede clasificar bien a los inclasificables. Que esto sea bueno o malo deber juzgarlo el profesor.
En un test sencillo de objetivos mnimos un buen resultado es que todos sepan todo, y en este caso la fiabilidad psicomtrica, sera igual a
cero. Lo mismo puede suceder con un test ms difcil, sobre todo en
grupos pequeos, en los que todos los alumnos tienen un rendimiento alto.
b) Las preguntas son muy distintas y el saber unas cosas no implica saber
otras, no hay homogeneidad en los tems ni se pretende. Esta situacin
no suele ser la ms frecuente en los tests escolares ms convencionales, pero si no hay homogeneidad en las preguntas de un test (porque
se preguntan cosas muy distintas o de manera muy distinta) y el saber
222
unas cosas no implica saber otras, entonces lgicamente bajar la fiabilidad de todo el test (debido a la poca relacin entre unas y otras preguntas o ejercicios).
En un examen final ms o menos largo, donde hay de todo, fcil y difcil,
en una clase relativamente numerosa, en la que hay alumnos ms y menos
aventajados, una fiabilidad alta en una prueba objetiva nos indicar que detectamos bien diferencias que de hecho existen y que adems son legtimas o
al menos esperables. Cuando todos saben todo en un examen de esas caractersticas, esto puede significar que estamos igualando a la clase por su nivel
ms bajo y que el profesor no da juego a los ms capaces.
11.3. Fiabilidad y calificacin
Tambin hay que pensar que una fiabilidad alta indica en principio diferencias consistentes entre los alumnos, pero no indica necesariamente que los
de puntuacin ms baja no lleguen al nivel del apto. Si todos los alumnos estn en la parte alta de la distribucin pero bien diferenciados, la fiabilidad ser alta; en este caso los que saben menos pueden saber lo suficiente; y tambin puede suceder lo contrario, que los que saben ms que los dems no
sepan lo suficiente.
Lo que s parece claro es que una fiabilidad alta es deseable en todo instrumento de medida cuya funcin y utilidad est precisamente en que nos permite conocer si un sujeto tiene mucho o poco del rasgo que estamos midiendo y adems nos interesa diferenciar a unos sujetos de otros, o al menos es
razonable esperar diferencias claras entre los sujetos (como ya se ha indicado
en 11.2).
Lo que s puede ser siempre de utilidad en cualquier tipo de examen es
calcular y utilizar el error tpico de la medida o de las puntuaciones obtenidas (para lo cual necesitamos el coeficiente de fiabilidad)13, porque nos indica la banda probable de resultados en la que se encuentra cada alumno, y esta banda, aunque sea ms imprecisa, refleja mejor que un nmero exacto de
respuestas correctas por dnde se encuentra cada uno. En lenguaje coloquial
podramos decir que el error tpico expresa el margen de mala o buena
suerte del alumno ante unas preguntas concretas, y puede ayudar a relativizar
una mera suma de respuestas correctas. Si establecemos previamente una
puntuacin de corte para situar el aprobado, el sumar, por ejemplo, un error
13
I am convinced that the standard error of measurement is the most important

single piece of information to report regarding an instrument, and not a coefficient
(Cronbach y Shavelson, 2004).Ya hemos indicado que un clculo aproximado y rpido del
error tpico de la media es .43k donde k es el nmero de tems (Burton, 2004).
223
tpico a los alumnos que estn en el lmite del apto puede ser una buena
prctica (como ya se ha indicado en el apartado 9.2.3)14.
12. FRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA

Las frmulas del coeficiente de fiabilidad son muchas, aqu exponemos las
ms utilizadas. Podemos dividirlas en dos grupos:
1) Frmulas que se basan en la particin del test en dos mitades
2) Frmulas en las que se utiliza informacin de todos los tems, como las
de Kuder-Richardson y Cronbach.
En cada uno de los apartados se incluyen otras frmulas relacionadas o derivadas. Tambin exponemos otras formulas de inters, como las frmulas
que relacionan la fiabilidad con el nmero de tems.
Aunque vamos a repasar una serie de frmulas, conviene adelantar (y podra ser suficiente) que las frmulas preferibles, y que deben utilizarse habitualmente, son las de Kuder-Richardson [18] (para tems dicotmicos) y el a
de Cronbach [20] (para tems continuos); realmente se trata de la misma formula (varan los smbolos) y es la que suele venir programada en los programas informticos. Como clculo aproximado y rpido de la fiabilidad la frmula ms cmoda es la formula [19] que veremos despus, pero slo si los
tems son dicotmicos (puntan 1 0).
12.1. Frmulas basadas en la particin del test en dos mitades
12.1.1. Cmo dividir un test en dos mitades
1. Como cualquier test puede dividirse en muchas dos mitades, puede haber muchos coeficientes de distintos de fiabilidad. El resultado es slo una estimacin que puede infravalorar o supervalorar la fiabilidad. Es habitual la
prctica de dividir el test en tems pares e impares, pero puede dividirse en
dos mitades cualesquiera. Cada mitad debe tener el mismo nmero de tems
o muy parecido.
2. Si al dividir el test en dos mitades emparejemos los tems segn sus contenidos (matching), de manera que cada mitad del test conste de tems muy
parecidos, obtendremos una estimacin ms alta y preferible de la fiabilidad.
14
Si en un examen tipo test sumamos a los que estn justo debajo del lmite propuesto para el aprobado dos erres tpicos nos ponemos prcticamente en el lmite mximo probable al que hubiera llegado ese alumno.
224
3. Cuando la mitad (o casi la mitad) de los tems son positivos y la otra mitad son negativos (favorables o desfavorables al rasgo medido, con distinta
clave de correccin), es til que las dos mitades estn compuestas una por
los tems positivos y otra por los negativos. En este caso la correlacin entre
los dos tipos de tems es muy informativa en s misma, aunque no se calcule
despus la fiabilidad por este procedimiento. Una correlacin entre los dos
subtests en torno a .50 o mayor indica suficiente coherencia entre los dos tipos de tems, y que no se manifiesta de modo apreciable la aquiescencia o
tendencia a mostrar acuerdo (o responder s) a tems que expresan ideas contradictorias.
12.1.2. Frmulas
De estas frmulas la primera y ms clsica es la de Spearman-Brown; ambos autores derivaron las mismas frmulas de manera independiente en 1910
(la frmula bsica de estos autores es la [21], de la que se derivan la [14], la
[22] y la [23]). La frmula que se conoce habitualmente como procedimiento de las dos mitades (vamos a ver que adems hay otras frmulas) y no suele faltar en ningn texto cuando se trata de la fiabilidad, es la frmula [14].
2r12
r11 =
1 + r12
[14]
Frmula de Spearman-Brown
r12 = correlacin entre las dos mitades

del test. El test se divide en dos
mitades y se calcula la correlacin
entre ambas como si se tratara de
dos tests.
1. La correlacin entre las dos mitades es la fiabilidad de una de las dos

(pruebas paralelas); con esta frmula [14] se calcula la fiabilidad de todo el
test. Observando la frmula [14] puede verse que si r12 = 1, tambin tendremos que r11 = 1.
2. La frmula [14] supone que las dos mitades tienen medias y varianzas
idnticas; estos presupuestos no suelen cumplirse nunca, y de hecho con esta frmula se sobrestima la fiabilidad; por lo que est desaconsejada (a pesar
de su uso habitual); la frmula de las dos mitades preferible es la conocida como dos mitades alpha (r2a) [15]15:
15
Esta frmula la aconsejan buenos autores (incluido el mismo Cronbach). La importancia del clculo de la fiabilidad por el procedimiento de las dos mitades es sobre todo
histrica; el mtodo de las pruebas paralelas (dos pruebas en vez de dos mitades) y el
de consistencia interna (en el que cada tem funciona como una prueba paralela) parten
de la intuicin original de las dos mitades de Spearman y Brown. Una crtica y valoracin
de estas frmulas puede verse en Charter (2001).
225
En esta frmula entran tambin, adems de la correlacin de las dos mitades, las desviaciones tpicas de cada mitad.
3. Otras frmulas basadas en la particin de un test en dos mitades, y que
suelen encontrarse en algunos textos, son la [16] y la [17], que no requieren
el clculo de la correlacin entre las dos mitades; de todas maneras en estos
casos (particin del test en dos mitades) es siempre preferible la frmula
[15].
s21 y s22 son las varianzas de las dos
mitades,
s2t es la varianza de todo el test
Frmula de Flanagan16
s2d = Es la varianza de la diferencia entre las dos mitades.
Cada sujeto tiene dos puntuaciones, una en cada mitad: a cada sujeto se le restan ambas puntuaciones y
se calcula la varianza de estas diferencias.
12.2. Frmulas de Kuder-Richardson y s de Cronbach

Se trata de las frmulas de consistencia interna que hemos justificado anteriormente con mayor amplitud; son las ms utilizadas17.
a) Son mtodos en principio preferibles porque con los mtodos de las
dos mitades cabe dividir un test en muchas dos mitades con que las
que podemos obtener distintos valores del coeficiente de fiabilidad. El
resultado que nos dan las frmulas de Kuder-Richardson y Cronbach
16
Esta frmula tambin se conoce como frmula de Rulon que es el primero que la
expuso (en 1939) aunque Rulon se la atribuye a Flanagan (Traub, 1994).
17
Este coeficiente de fiabilidad (Kuder-Richardson o Cronbach) se calcula en el SPSS
en la opcin analizar, en escalas.
226
equivale a la fiabilidad media que obtendramos dividiendo un test en

todas sus posibles dos mitades; obtenemos un nico coeficiente que es
una estimacin ms segura.
b) En los modelos tericos de donde parten estas frmulas se supone que
tanto las varianzas como las intercorrelaciones de los tems son iguales;
esto no suele suceder por lo que estas frmulas tienden a dar una estimacin de la fiabilidad algo baja.
c) Las frmulas de Kuder-Richardson son vlidas para tems dicotmicos
(0 1), y el coeficiente s de Cronbach para tems con repuestas continuas (ms de dos repuestas).
k=
nmero de tems
Spq = suma de las varianzas de
los tems
s2t = varianza de los totales
frmula Kuder-Richardson 20
(para tems dicotmicos)
Como ya sabemos, p es la proporcin de unos (aciertos, ses, la respuesta

que se codifique con un 1) y q es la proporcin de ceros (nmero de unos o
de ceros dividido por el nmero de sujetos).
Con tems dicotmicos sta es la frmula [18] que en principio debe utilizarse. Si se tienen calculadas las varianzas o desviaciones tpicas de cada tem,
no es muy laboriosa.
Si el clculo resulta laborioso y no se tiene ya programada la frmula completa de la fiabilidad, hay otras alternativas ms sencillas; la ms utilizada es la
frmula Kuder-Richardson 21.
k
es el nmero de tems;
X y s2t son la media y varianza de

los totales
frmula Kuder-Richardson 21
1. Esta frmula [19] se deriva de la anterior [18] si suponemos que todos

los tems tienen idntica media. En este caso tendramos que:
Haciendo las sustituciones oportunas en [18] llegamos a la frmula [19].
227
2. Esta frmula [19] es sencilla y cmoda, porque solamente requiere el

clculo de la media y varianza de los totales, adems del nmero de tems, y estos son datos que suelen estar siempre disponibles. La suposicin de que todos los tems tienen idntica media no suele cumplirse, por lo que esta frmula slo da una estimacin de la fiabilidad. Se utiliza frecuentemente para
calcular la fiabilidad de las pruebas objetivas (exmenes, evaluaciones) hechas
por el profesor y por lo menos indica por dnde va la fiabilidad; puede ser suficiente para calcular el error tpico y relativizar los resultados individuales.
Existen otras aproximaciones de la frmula Kuder-Richardson 20, pero es
sta la ms utilizada.
Con tems continuos, con ms de una respuesta como los de las escalas
de actitudes, la frmula apropiada es la del coeficiente a de Cronbach que es
una generalizacin de la Kuder-Richardson 20; es la frmula [8] que ya vimos
antes:
a de Cronbach para tems continuos
k=
nmero de tems
Ss2i = es la suma de las varianzas de los tems
s2t = es la varianza de los totales
12.3. Frmulas que ponen en relacin la fiabilidad y el nmero de

tems
1. La frmula [14] se deriva de esta otra, denominada frmula proftica
de Spearman-Brown y que es la frmula original de estos autores:
rkk =
r-ij =
fiabilidad de un test compuesto por k tems

correlacin media entre
los tems
En la frmula [14] hemos supuesto que k =2 y r-ij = r12. De la frmula anterior [21] se derivan otras dos especialmente tiles, y que se pueden utilizar
aunque la fiabilidad no se calcule por el mtodo de Spearman-Brown.
228
12.3.1.
Cunto aumenta la fiabilidad al aumentar el nmero de

tems
Disponemos de una frmula que nos dice (siempre de manera aproximada) en cunto aumentar la fiabilidad si aumentamos el nmero de tems
multiplicando el nmero de tems inicial, que ya tenemos, por un factor n. Es
en realidad una aplicacin de la misma frmula.
rnn =
r11 =
n=
nuevo coeficiente de fiabilidad estimado si multiplicamos el nmero de

tems que tenemos por el factor n
coeficiente de fiabilidad conocido
factor por el que multiplicamos el
nmero de tems
Por ejemplo: tenemos una escala de actitudes de 10 tems y una fiabilidad

de .65. La fiabilidad nos parece baja y nos preguntamos cul ser el coeficiente de fiabilidad si multiplicamos el nmero de tems (10) por 2 (n = 2) y llegamos as a 20 tems (del mismo estilo que ya los que ya tenemos). Aplicando
la frmula anterior [22] tendramos:
multiplicando por 2 el nmero inicial de
tems llegaramos a una fiabilidad en torno a
.80
Si en la frmula [22] hacemos n = 2, tendremos la frmula [14]; r12 es la

fiabilidad de una de las dos mitades, lo que nos dice la frmula [14] es la fiabilidad del test entero (formado por las dos mitades)18.
12.3.2. En cunto debemos aumentar el nmero de tems para
alcanzar una determinada fiabilidad
Posiblemente es ms til la frmula siguiente [23]. Si tenemos una fiabilidad conocida (r11) y queremos llegar a otra ms alta (esperada, rnn), En cuntos tems tendramos que alargar el test? En este caso nos preguntamos por el
valor de n, el factor por el que tenemos que multiplicar el nmero de tems
que ya tenemos.
18
A partir de una fiabilidad obtenida con un nmero determinado de tems puede verse en Morales, Urosa y Blanco (2003) una tabla con la fiabilidad que obtendramos multiplicando el nmero inicial de tems por un factor n.
229
n=
factor por el que debemos multiplicar

el nmero de tems para conseguir
una determinada fiabilidad
rnn = fiabilidad deseada
r11 = fiabilidad obtenida con el nmero original de tems
Si, por ejemplo, con 8 tems hemos conseguido una fiabilidad de .57 y deseamos llegar a una fiabilidad aproximada de rnn = .75, Por qu coeficiente n
deberemos multiplicar nuestro nmero inicial de tems?
Naturalmente los nuevos tems deben ser parecidos a los que ya tenemos.
Si el nmero de tems que necesitamos para alcanzar una fiabilidad aceptable
es obviamente excesivo, posiblemente los contenidos del ncleo inicial de
tems no representan bien un rasgo definido con claridad (al menos para la
poblacin representada por esa muestra) y es preferible intentar otra cosa.
12.4. Estimacin de la fiabilidad en una nueva muestra cuya varianza conocemos a partir de la varianza y fiabilidad calculadas en
otra muestra
La fiabilidad hay que calcularla en cada muestra. Al obtener los datos con
un test en una nueva muestra no se puede aducir la fiabilidad obtenida en
otras muestras como prueba o garanta de que en la nueva muestra la fiabilidad ser semejante19. En definitiva la fiabilidad indica en qu grado el test diferencia a unos sujetos de otros y esto depende de la heterogeneidad de la
muestra; por lo tanto se puede ordenar bien a los sujetos de una muestra y
no tan bien a los de otra muestra distinta en la que los sujetos estn ms igualados. En nuevas muestras con una varianza menor, lo normal es que la fiabilidad baje.
Lo que s se puede hacer es estimar la fiabilidad en una nueva muestra conociendo su desviacin tpica a partir de la fiabilidad obtenida en otra muestra de la que tambin conocemos la desviacin tpica (Guilford y Fruchter,
1973:420), bien entendido que se trata solamente de una estimacin.
19
El obtener la fiabilidad en cada nueva muestra es una de las recomendaciones de la
American Psychological Association (5 edicin, 2001).
230
rnn =
fiabilidad estimada en la nueva muestra

so y roo = desviacin tpica y fiabilidad ya
calculadas (observadas) en una
muestra
sn =
desviacin tpica en la nueva
muestra (en la que deseamos
estimar la fiabilidad)
Por ejemplo, si en una escala de actitudes hemos obtenido en una muestra una desviacin tpica de 6.86 y una fiabilidad de s = .78 qu fiabilidad podemos esperar en otra muestra cuya desviacin tpica vemos que es 7.28?
6.682 (1 .78)
Aplicando la frmula [24]: fiabilidad esperada = 1 = .8147
7.282
De hecho la fiabilidad calculada en la nueva muestra (ejemplo real) es de
8.15, aunque no siempre obtenemos unas estimaciones tan ajustadas.
13. RESUMEN: CONCEPTO BSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA

En el cuadro puesto a continuacin tenemos un resumen significativo de
lo que significa la fiabilidad en cuanto consistencia interna, cmo se interpreta y en qu condiciones tiende a ser mayor.
1. Cuando ponemos un test o una escala aun grupo de sujetos nos encontramos
con diferencias inter-individuales. Estas diferencias o diversidad en sus puntuaciones totales las cuantificamos mediante la desviacin tpica (s) o la varianza
(s2).
2. Esta varianza (diferencias) se debe a las respuestas de los sujetos que pueden
ser de dos tipos (fijndonos en los casos extremos; hay grados intermedios):
coherentes (relacionadas) o incoherentes, por ejemplo:
En mi casa me siento mal

A veces me gustara marcharme de casa
231
respuestas
coherentes
respuestas
incoherentes
de acuerdo
de acuerdo
en desacuerdo
de acuerdo
3. La incoherencia aqu quiere decir que la respuesta no est en la direccin de

las otras, tal como lo pretende el autor del instrumento (y esto por cualquier
razn: pregunta ambigua, el que responde lo entiende de otra manera, etc.).
Las respuestas coherentes son las respuestas relacionadas.
Diversidad (o varianza) total =
diversidad debida a respuestas coherentes + diversidad debida a respuestas incoherentes
o en trminos ms propios, varianza total =
varianza verdadera + varianza debida a errores de medicin
5. La fiabilidad la definimos como la proporcin de varianza verdadera:
varianza verdadera
fiabilidad =
varianza total
En trminos ms simples:
varianza debida a respuestas coherentes (o relacionadas)
fiabilidad =
varianza debida a respuestas coherentes y no coherentes
Decimos respuestas distintas porque suponemos que los sujetos son distintos,
unos tienen ms y otros menos del rasgo que medimos y decimos repuestas
coherentes porque esperamos que cada sujeto responda de manera coherente (de manera parecida si todos los tems expresan lo mismo).
6. El coeficiente de fiabilidad es un indicador de relacin global entre las respuestas; expresa cunto hay de relacin en las respuestas. Esta relacin es relacin verificada, emprica, no es necesariamente conceptual, aunque la interpretacin que se hace es conceptual (los tems miden lo mismo)
Un coeficiente de, por ejemplo, .80 quiere decir que el 80% de la varianza se
debe a respuestas coherentes, a lo que los tems tienen en comn o de relacionado; el 80% de la varianza total (de la diversidad que aparece en las puntuaciones totales) se debe a lo que los tems tienen de relacionado.
7. La fiabilidad aumentar si aumenta el numerador, es decir 1 si hay diferencias
en las respuestas y 2 si adems las respuestas son coherentes (respuestas coherentes: las que de hecho estn relacionadas).
8. Cmo se interpreta un coeficiente de fiabilidad alto:
a) El test o escala clasifica, ordena bien a los sujetos en aquello que es comn a todos los tems;
b) Con un instrumento parecido encontraramos resultados parecidos, o si
los sujetos respondieran muchas veces al mismo test o a tests semejantes,
quedaran ordenados de manera similar (el coeficiente de fiabilidad es una
estimacin de la correlacin esperable con un test paralelo).
232
c) Los tems miden lo mismo (por eso se llaman coeficientes de consistencia

interna); generan respuestas coherentes y a la vez distintas de sujeto a sujeto. (Que los tems miden lo mismo hay que interpretarlo con cautela;
siempre es necesario un anlisis conceptual y cualitativo).
9. La fiabilidad tiende a ser mayor:
a) cuando los tems expresan lo mismo; la definicin del rasgo se expresa
bien en todos los tems;
b) cuando es mayor el nmero de tems, (con tal de que sean ms o menos
semejantes),
c) cuando los tems tienen un mayor nmero de respuestas (aunque no
necesariamente),
d) cuando los sujetos son ms diferentes en aquello que se mide (muestra heterognea; no se puede clasificar bien a los muy semejantes);
e) en muestras grandes (porque hay ms probabilidad de que haya sujetos
ms distintos).
14. COMENTARIOS BIBLIOGRFICOS

1. La derivacin de las frmulas ms conocidas del coeficiente de fiabilidad y otras relacionadas (como el error tpico, etc.) pueden verse en
Magnusson (1976). Entre las muchas obras que tratan de estos temas
son especialmente recomendables las de Guilford (1954), Guilford y
Fruchter, (1973), Nunnally (1978), Nunnally y Bernstein (1994), Thorndike (1982), Traub (1994). Tambin disponemos de buenos artculos
(Traub y Roley, 1991; Moss, 1994; Cronbach y Shavelson, 2004, del segundo autor utilizando notas de Cronbach fallecido en 1997, que resumen la historia de estos coeficientes).
2. La frmula Kuder-Richardson 20 (y con ms razn Kuder-Richardson
21, las dos ms utilizadas con tems dicotmicos) supone que todos los
tems tienen idntica dificultad (media) e idntica varianza; si esto no
es as la fiabilidad resultante es una estimacin ms bien baja. Existen
otros mtodos que tienen en cuenta la diferente dificultad de los tems,
pero son ms complicados; puede verse por ejemplo, en Horst (1953)
y en Guilford y Fruchter (1973).
3. Ya hemos indicado que existen una serie de frmulas de clculo muy
sencillo que simplifican las de Kuder-Richardson y otras como la del
error tpico. En general estas frmulas no son recomendables dada la
facilidad de clculo que proporcionan calculadoras y programas informticos y adems se trata solamente de estimaciones ya que suponen
233
4.
5.
6.
7.
8.
9.
unas condiciones que no se suelen darse. Aun as pueden tener su utilidad para clculos rpidos y aproximativos. Pueden encontrarse estas
frmulas en Saupe (1961) y en McMorris (1972), y para el error tpico
tambin en Burton (2004).
En las pruebas de rendimiento escolar no es siempre fcil dividir un
test o prueba en dos mitades equivalentes para calcular la fiabilidad por
el procedimiento de las dos mitades. Tambin se puede calcular a partir de dos mitades de tamao desigual o incluso a partir de tres partes
(con muestras grandes en este caso). Se trata de procedimientos menos conocidos pero que pueden ser de utilidad en un momento dado;
pueden encontrarse en Kristof (1974) y en Feldt (1975).
En los tests o pruebas objetivas de criterio (en los que hay una puntuacin de corte para distinguir al apto del no apto y consecuentemente la distribucin deja de ser normal) la fiabilidad se estima de
otras maneras (pueden verse diversos ndices en Mehrens y Lehmann,
1984, y en Berk, 1978); un ndice apropiado y sencillo es el coeficiente
de Livingston (puede verse en Mehrens y Lehmann, 1984; Black,
1999:291; en Black, 1999:292, tenemos tambin el ndice de discriminacin apropiado en los tests de criterio).
El coeficiente de fiabilidad tambin se puede calcular mediante el anlisis de varianza para muestras relacionadas, con los mismos resultados que la frmula del coeficiente a; puede verse en Hoyt (1941,
1952) y un ejemplo resuelto en Kerlinger (1975: 314-317) y en Fan y
Thompson (2001). La relacin entre fiabilidad y anlisis de varianza
tambin est explicada en Nunnally y Bernstein (1994: 274ss) y en Rosenthal y Rosnow (1991). Posiblemente como mejor se entiende la fiabilidad es desde el anlisis de varianza.
Cmo calcular los intervalos de confianza de los coeficientes de fiabilidad puede verse en Fan y Thompson (2001); Duhachek y Iacobucci
(2004) presentan tablas con el error tpico de a para diversos valores
del nmero de sujetos y de tems y de la correlacin media inter-tem.
El aportar estos intervalos de confianza es una de las recomendaciones
(guidelines) de la American Psychological Association (Wilkinson and
Task Force on Statistical Inference APA Board of Scientific Affairs, 1999).
Para verificar si dos coeficientes de fiabilidad (a) difieren significativamente puede verse Feldt y Kim (2006).
Fiabilidad inter-jueces. Un caso especfico es el clculo de la fiabilidad (o grado de acuerdo) entre diferentes evaluadores, cuando una
serie de jueces evalan una serie de sujetos, situaciones, etc. Puede utilizarse el anlisis de varianza para muestras relacionadas que responde a esta pregunta: las diferencias observadas (la varianza total):
Se deben a que los jueces son distintos en su forma de evaluar, o a que
234
los sujetos evaluados son distintos entre s? De este anlisis se deriva

un coeficiente que expresa lo mismo que el coeficiente ?, pero la interpretacin se hace sobre la homogeneidad de los jueces (o, con ms
propiedad, sobre el grado de acuerdo entre los jueces que aqu son los
tems). Este coeficiente da un valor muy parecido a la correlacin media entre jueces (Rosenthal y Rosnow, 1991)20.
Hay tambin otras medidas de acuerdo entre jueces; pueden verse,
entre otros, en Holley y Lienert (1974) y Shrout y Fleiss (1979). El coeficiente kappa (k) (Cohen, 1960) para medir el acuerdo entre dos jueces (datos dicotmicos, unos y ceros; k = .60 se interpreta ya como un
grado de consensus importante) es muy popular (puede encontrarse
en numerosos textos, por ejemplo Fink, 1998; y sobre su interpretacin Stemler, 2004). En Stemler (2004) pueden verse bien expuestos y
valorados los diferentes enfoques para medir la fiabilidad de los jueces
(interrater reliability), tambin es muy informativo Uebersax (Statistical Methods for Rater Agreement, last updated: 19 Feb 2008).
20
La fiabilidad de los jueces calculada a partir del anlisis de varianza para muestras
relacionadas (disponible en EXCEL) es sencillo y de fcil comprensin por su relacin
con el coeficiente a de Cronbach; frmula y explicacin en Morales (2007a).
235
CAPTULO 7
ESTADSTICA INFERENCIAL:
EL ERROR TPICO DE LA MEDIA
1. INTRODUCCIN: ESTADSTICA DESCRIPTIVA Y ESTADSTICA INFERENCIAL:

ESTADSTICOS Y PARMETROS, POBLACIONES Y MUESTRAS
Recordamos algunos conceptos bsicos:
Una poblacin es un conjunto de elementos (sujetos, objetos) cuyos lmites los define el investigador; por ejemplo los alumnos de una universidad,
o los de una sola facultad o los de todo el pas
Una muestra es un nmero concreto de elementos extrados de una poblacin.
Una muestra aleatoria es aquella en la que todos los sujetos (u objetos)
han tenido la misma probabilidad de ser escogidos; las muestras aleatorias
son las que mejor representan las caractersticas de la poblacin1.
La estadstica descriptiva tiene por objeto describir las muestras: por

ejemplo, la media aritmtica (una medida de tendencia central) y la desviacin tpica (una medida de dispersin) son estadsticos o medidas propias de
la estadstica descriptiva: nos describen cmo es una muestra.
La estadstica inferencial nos permite hacer inferencias, sacar conclusiones con respecto a una poblacin: a partir de los datos descriptivos de una
1
Los diversos tipos de muestreo, aleatorio otros, y cmo llevarlos a cabo, pueden verse en muchos textos (como Hernndez Sampieri, Fernndez Collado y Baptista Lucio,
2000; Salkind, 1998) y en monografas especficas (como Rodrguez Osuna, 1993). Una breve exposicin de los tipos de muestras puede verse en Internet, en STATPAC INC (2003) (en
Sampling Methods).
237
muestra, deducimos los datos o medidas de la poblacin, que en este caso se

denominan parmetros.
Normalmente el investigador trabaja con muestras, grupos concretos a los
cuales tiene acceso o que ha buscado y que puede medir en alguna caracterstica. Las poblaciones son en general inasequibles; se trabaja con pequeas
muestras y se generalizan las conclusiones a las poblaciones a las que pertenecen las muestras. Lo que vamos a ver ahora tiene que ver sobre todo (no
exclusivamente) con la generalizacin a la poblacin de los datos que encontramos en muestras concretas.
2. L AS DISTRIBUCIONES MUESTRALES Y EL ERROR TPICO

Dos conceptos previos importantes son los de distribucin muestral y
error tpico. En definitiva nos vamos a encontrar con una aplicacin de lo que
ya sabemos de la distribucin normal y de las puntuaciones tpicas: en la
distribucin normal conocemos las probabilidades de obtener una puntuacin superior o inferior a cualquier puntuacin tpica. Ahora se trata bsicamente de una aplicacin de esta relacin. Bsicamente ya lo hemos visto al
tratar de la significacin estadstica de los coeficientes de correlacin.
Qu es una distribucin muestral lo podemos ver con facilidad con un caso concreto:
1 Imaginemos una poblacin de sujetos; por ejemplo los alumnos de
una universidad. Los lmites de la poblacin (qu sujetos, u objetos, pertenecen a una poblacin) lo determina el que investiga. De la misma manera que
ponemos como ejemplo de poblacin a los alumnos de una universidad, podramos decidir que la poblacin que vamos a estudiar son los alumnos de
una sola facultad, o los alumnos de todas las universidades del pas.
2 De esta poblacin podemos extraer una muestra aleatoria de, por
ejemplo, 30 sujetos.
Muestra aleatoria quiere decir que todos los sujetos de la poblacin han
tenido en principio la misma oportunidad de ser elegidos. Las muestras aleatorias son en principio las que mejor representan las caractersticas de la poblacin. Hay varios mtodos para elegir muestras aleatorias pero no los tratamos aqu.
3 De esta muestra podemos calcular la media. Seguimos extrayendo
muestras aleatorias y calculando sus medias.
4 Al disponer de un nmero grande de medias tendramos una distribucin de estas medias; esa distribucin es una distribucin muestral: no se
trata de una distribucin de puntuaciones individuales sino de medias de
muestras.
238
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA
Un punto importante es que aunque las muestras no tengan una distribucin normal, las medias de estas muestras s tienden a seguir la distribucin
normal.
5 La desviacin tpica de estas distribuciones muestrales se denomina
error tpico y se puede estimar a partir de los datos de una muestra. Por lo
tanto un error tpico es la desviacin tpica de una distribucin muestral, y
se interpreta como cualquier desviacin tpica.
Dos distribuciones muestrales, con sus errores tpicos, nos van a interesar
de manera especial:
1) la distribucin muestral de las medias;
2) la distribucin muestral de las diferencias entre medias de la misma
poblacin.
Estas distribuciones muestrales son modelos tericos que a partir de los
datos de una muestra nos van a permitir inferir conclusiones acerca de la poblacin a la que pertenece la muestra. Conociendo el error tpico de estas distribuciones podemos estimar entre qu limites se encuentra la media de la
poblacin o si dos muestras proceden de poblaciones distintas con media distinta. Ahora nos centramos en el error tpico de la media.
Conviene caer en la cuenta desde el principio de la utilidad del error tpico de la media. Es fcil obtener la media de una muestra en cualquier variable de inters, pero con frecuencia lo que nos interesa no es la media como
dato descriptivo de una muestra, sino conocer o tener una idea de por dnde anda la media en la poblacin representada por esta muestra. La media de
la poblacin no la vamos a conocer, pero s podremos estimar entre qu valores se encuentra.
La media de una muestra podemos interpretarla como una estimacin
(solamente una estimacin sujeta a error) de la media de la poblacin. Esta
estimacin ser ms precisa:
1 Si la muestra es aleatoria porque en ese caso representa mejor las caractersticas de la poblacin,
2 Si la muestra es grande (si la muestra comprendiera a toda la poblacin
tendramos el dato exacto, no una estimacin).
El error tpico, como es la desviacin tpica de todas las posibles muestras
de esa poblacin, nos va a permitir localizar entre qu lmites se encuentra la
media de la poblacin.
Este planteamiento es semejante al que nos encontramos en los sondeos
de opinin, como son las encuestas pre-electorales. Si el 48% de los sujetos
entrevistados dice que va a votar a un determinado candidato, esto no quiere decir que el 48% exacto de la poblacin le vaya a votar. Sin embargo los datos obtenidos de una muestra nos van a permitir estimar un tanto por ciento
239
mnimo probable y un tanto por ciento mximo probable de votantes a ese

candidato: entre esos dos tantos por ciento se va a encontrar el tanto por
ciento definitivo cuando todos hayan votado. De los datos de una muestra extrapolamos a la poblacin, por eso se trata de estadstica inferencial.
De manera anloga podemos pensar en distribuciones muestrales de
otros estadsticos como proporciones, medianas, coeficientes de correlacin,
etc., y tambin en distribuciones muestrales de las diferencias entre proporciones, medianas, coeficientes de correlacin, etc., con aplicaciones semejantes a las que vamos a ver con respecto a la media que son las de utilidad ms
inmediata y frecuente.
3. EL ERROR TPICO DE LA MEDIA

Segn el teorema del lmite central, si de cualquier poblacin se extraen
muestras aleatorias del mismo tamao N, al aumentar el nmero de muestras sus medias se distribuyen normalmente, con media m y una desviacin tpica, o error tpico
Esta distribucin muestral de las medias es independiente de la distribucin de la poblacin: aunque la distribucin en la poblacin no sea normal,
las medias de las muestras aleatorias extradas de esa poblacin s tienden a
tener una distribucin normal.
El error tpico de la media (desviacin tpica de la distribucin muestral
de las medias) podemos expresarlo de dos maneras:
En la frmula [1] la desviacin tpica

del numerador se supone calculada
dividiendo por N-1 la suma de cuadrados (o la suma de las puntuacio
nes diferenciales, X-X, elevadas previamente al cuadrado).
En la frmula [2] la desviacin tpica

se ha calculado dividiendo por N, como es normal hacerlo cuando se calcula la desviacin tpica como dato
descriptivo de la muestra. Ambas frmulas son equivalentes y dan el mismo resultado; la nica diferencia est
en cundo se ha restado 1 a N.
En principio suponemos que la desviacin tpica de la muestra la hemos calculado dividiendo por N, como dato descriptivo de la dispersin en la muestra,
por eso al calcular el error tpico de la media utilizaremos la frmula [2].
240
La desviacin tpica del numerador en ambas frmulas es la calculada en

la muestra, pero debera ser la desviacin tpica calculada con todos los sujetos de la poblacin. Como desconocemos la desviacin tpica de la poblacin, utilizamos la de la muestra como una estimacin de la desviacin tpica de la poblacin.
Observando la frmula del error tpico de la media podemos ver que:
1 Es claro que el error tpico de la media ser menor que la desviacin
tpica de cualquier muestra: el cociente siempre ser menor que el numerador. Esto quiere decir que las medias de las muestras son ms estables y tienden a oscilar menos que las puntuaciones individuales; dicho de otra manera, las medias de muestras de la misma poblacin se
parecen entre s ms que los sujetos (u objetos) de una muestra entre
s.
2 Observando las frmulas vemos tambin que el error tpico de la media ser ms pequeo en la medida en que N sea grande: si aumentamos el denominador, disminuir el cociente.
Es natural que al aumentar el nmero de sujetos (N) el error sea menor: la media de la muestra se aproximar ms a la media de la poblacin. Si N es muy grande, el error tiende a cero; y si N no comprende
a una muestra sino a toda la poblacin, el error sera cero: en este caso la media de la poblacin coincide con la media de la muestra y no
hay error muestral (o variacin esperable de muestra a muestra).
3 Por otra parte si la desviacin tpica de la muestra es grande, el error tpico estimado de la media ser tambin mayor: si aumentamos el numerador, el cociente ser mayor.
Tambin esto es lgico: una desviacin tpica grande en una muestra
quiere decir que las diferencias entre los sujetos son mayores, y consecuentemente las medias de las diferentes muestras tambin diferirn
ms entre s.
4. UTILIDAD DEL ERROR TPICO DE LA MEDIA

Vamos a exponer dos usos del error tpico de la media. Aqu el ms importante es el primero, establecer los lmites probables (intervalos de confianza) entre los que se encuentra la media de la poblacin, un planteamiento tpico y frecuente en estadstica inferencial. Veremos tambin lo mismo
aplicado a una proporcin, que es la media cuando se trata de datos dicotmicos (1 0).
En segundo lugar el error tpico de la media nos permite comprobar si una
muestra con una determinada media puede considerarse como perteneciente
241
a una poblacin cuya media conocemos o establecemos como hiptesis. La

media tambin puede ser una proporcin (una proporcin es la media cuando los datos son unos y ceros). Es conveniente exponerlo aqu brevemente,
pero lo volveremos a encontrar al tratar del contraste de medias, pues all veremos un procedimiento ms sencillo. Son procedimientos equivalentes.
Podemos aadir un tercer uso del error tpico de la media, que es determinar el nmero de sujetos que necesitamos en la muestra para extrapolar los
resultados a la poblacin. Cuando a partir de los datos de una muestra nos interesa extrapolar los resultados a la poblacin (por ejemplo cuntos van a votar a un partido poltico en unas elecciones), lo hacemos con un margen de
error (en cuyo clculo tenemos en cuenta el error tpico y nuestro nivel de
confianza): si queremos un margen de error pequeo, necesitaremos ms
sujetos por eso en las frmulas para determinar el nmero de sujetos de la
muestra entrar el error tpico. Este punto lo veremos de manera ms sucinta, porque suele verse con ms detalle en otro contexto ms prctico, al tratar
de las muestras, tipos de muestras, nmero de sujetos necesario segn distintas finalidades, etc.
4.1. Establecer entre qu limites (intervalos de confianza) se encuentra la media (m) de la poblacin (establecer parmetros
poblacionales)
La media de una muestra (X) es una estimacin de la media de la poblacin (m); pero decir que es una estimacin quiere decir que est sujeta a
error. La media exacta de la poblacin no la conocemos; pero s podemos estimar entre qu lmites extremos se encuentra, y esto a partir de la media de
una muestra y del error tpico de la media.
El error tpico de la media no es otra cosa que una estimacin de la desviacin tpica de las medias (de muestras de la misma poblacin), y se interpreta de la misma manera; as por ejemplo segn la distribucin normal, el
95% de las medias se encontrar entre -1.96s y + 1.96s; aqu s es propiamente sx-, el error tpico de la media.
Si tenemos estos datos de una muestra: N = 30, X = 62.8 y s = 7.9, tendremos que (frmula [2]):
El error tpico de la media (o desviacin tpica de las medias posibles) es

en este caso igual a 1.47, y segn las probabilidades de la distribucin normal
podremos afirmar que:
242
Hay un 68% de probabilidades de que la media de la poblacin se encuentre entre la media de la muestra ms menos un error tpico:
entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27.
Hay un 95% de probabilidades de que la media de la poblacin se encuentre entre la media de la muestra ms menos 1.96 errores tpicos:
entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68.
Si deseamos mayor seguridad al establecer los lmites probables entre los
que se encuentra la media de la poblacin, podemos tomar como lmite 2.57
errores tpicos, porque sabemos que entre la media ms menos 2.57 desviaciones tpicas se encuentra el 99% de los casos. En este caso:
El lmite inferior de la media de la poblacin sera
El lmite superior de la media de la poblacin sera
[62.8 - (2.57 x 1.47)] = 59.02

[62.8 + (2.57 x 1.47)] = 66.58
A estos lmites, o valores extremos, superior e inferior, de la media en la

poblacin se les denomina intervalos de confianza, porque eso es precisamente lo que expresan: entre qu lmites podemos situar la media de la poblacin con un determinado grado de confianza o de seguridad (o de probabilidades de no equivocarnos). Los intervalos de confianza suelen
denominarse en las encuestas de opinin mrgenes de error.
Estos intervalos de confianza podemos establecerlos con diversos niveles de seguridad, que vendrn dados por el valor de z que escojamos, por lo
que podemos expresarlos as:
intervalos de confianza de la media =
La cantidad que sumamos y restamos a la media de la muestra podramos

denominarla margen de error al estimar los lmites probables de la media en
la poblacin y que podemos expresar de esta manera:
Como ya hemos indicado estos lmites o mrgenes de error sern ms ajustados cuando el nmero de sujetos sea mayor. Es til visualizar el efecto del tamao de la muestra en los intervalos de confianza (tabla 1). Queremos saber,
por ejemplo, entre qu lmites se encuentra la media de la poblacin, estimada
243
a partir de una muestra pequea (N = 10) y de una muestra grande (N = 500),

y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos
casos suponemos en las muestras una media = 8 y una desviacin tpica = 2.
Tabla 1
Lo vemos con ms claridad con una representacin grfica:

Lmites extremos de la media de
la poblacin estimados a partir de
N = 10
Lmites extremos de la media de
la poblacin estimados a partir de
N = 500
Con ms sujetos los lmites son ms ajustados, hay ms precisin; con 10
sujetos situamos la media de la poblacin entre 6.68 y 9.13 (una diferencia de
2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos
lmites de slo .36).
Tambin con un nivel de confianza ms estricto (.01, que corresponde a
z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos profetas, ms seguridad, pero los lmites son ms amplios (una mayor seguridad pero menor precisin). Si en el ejemplo anterior utilizamos .01 en vez
de .05 con 500 sujetos veremos la diferencia (tabla 2).
Tabla 2
Con una menor probabilidad de error (.01 en vez de .05) los lmites extremos
de la media en la poblacin son 7.77 y 8.23, una diferencia de .46 en vez de .36
244
Tanto X como s son los valores calculados en una muestra. Naturalmente

el valor exacto de la media de la poblacin (m) no lo conocemos: puede estar
en cualquier punto entre los valores extremos indicados. Tambin puede estar fuera de los lmites indicados, pero esto va siendo ms improbable cuando establecemos unos intervalos de confianza ms estrictos.
Es normal operar con un nivel de confianza del 95% (o, lo que es lo mismo, con una probabilidad de error, al situar los lmites extremos de la media,
de un 5%); en este caso z en la frmula [3] ser igual a 1.96; como se desprende de esta frmula, a mayor valor de z (mayor seguridad) los lmites sern
ms extremos.
Cuando calculamos la media de una muestra en una variable de inters Es
til calcular adems entre qu lmites se encuentra la media de la poblacin?
Con frecuencia nos bastar conocer la media de una muestra concreta como dato informativo, pero con frecuencia extrapolamos informalmente de
la muestra a la poblacin. Siempre es til relativizar este tipo de informacin, y con mayor razn si de hecho (como es frecuente) estamos utilizando
la media de una muestra como estimacin de la media de la poblacin2.
4.2. Establecer los intervalos de confianza de una proporcin
El error tpico de una proporcin es un caso particular del error tpico de
la media pero dado el uso frecuente de proporciones y porcentajes es til verlo por separado y con ejemplos ilustrativos.
Cuando los datos son dicotmicos (1 0) la media p es la proporcin de
sujetos que responden s o que escogen la respuesta codificada con un 1. Si
de 200 sujetos 120 responden s ( 1) a una pregunta y 80 responden no (0),
la media p es igual a 120/200 = .60: el 60% de los sujetos (o una media del
60%) han respondido s.
El error tpico de una proporcin es el mismo que el error tpico de cualquier media, solo que en este caso la media es p, la varianza es pq [proporcin de unos por proporcin de ceros] y la desviacin tpica es
.
La frmula del error tpico de una proporcin (sp) ser por lo tanto:
Una de las recomendaciones de la American Psychological Association es calcular

siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Inference APA Board of Scientific Affairs 1999; American Psychological Association, 2001).
245
En el ejemplo anterior tenemos que N = 200, p =120/200 = .60 y q =.40

( 1 - .60) por lo tanto el error tpico de la proporcin ser:
De manera anloga a lo que hemos visto en los intervalos de confianza de

la media en variables continuas (frmulas [3] y [4]), los intervalos de confianza de una proporcin p sern:
Intervalos de confianza de una proporcin =
Ahora podemos hacernos esta pregunta: en esa muestra de 200 sujetos
han respondido s 120 sujetos (una media de .60 o el 60%), pero cuntos
respondern s en la poblacin representada por esa muestra? Ya podemos intuir la importancia de esta pregunta si pensamos en los sondeos pre-electorales; lo que interesa realmente no es conocer cuntos sujetos de esa muestra
van a votar a un candidato, sino cuntos le votarn el da de las elecciones.
La proporcin de votantes que dirn s a ese candidato (o la media de votantes) en la poblacin no la sabemos (habra que preguntar a todos y eso se
har el da de las elecciones), pero s podemos estimar entre qu lmites mximo y mnimo se encuentra esa proporcin con un determinado nivel de
confianza (o seguridad de acertar en la prediccin); es decir, podemos establecer los mrgenes de error.
Para responder a esta pregunta calculamos los intervalos de confianza de
la media (p = .60) con un nivel de confianza de .05 (un 5% de probabilidades
de equivocarnos) que equivale a z = 1.96.
La proporcin de los que dirn s a juzgar por los datos de esa muestra estar entre .60 menos 1.96 errores tpicos y .60 ms 1.96 errores tpicos:
Lmite mnimo: .60 (1.96)(.0346) = .60 .0678
= .5322
Lmite mximo: .60 + (1.96)(.0346) = .60 + .0678 = .6678
(el 53%)
(el 67%)
El margen de error en nuestra prediccin es .0678 (casi un 7% redondeando). En la muestra encuestada ha respondido s el 60%, pero en la poblacin representada por esa muestra esperamos que responda s entre un 53%
y un 67%.
El ejemplo de los sondeos pre-electorales pone de relieve la importancia
de calcular los intervalos de confianza de una proporcin (y es lo que se hace y comunica cuando se publican estas encuestas), pero estos intervalos de
confianza son informativos casi en cualquier situacin. Cuando se hacen sondeos de opinin en grupos diversos (alumnos, padres de alumnos, grupos
246
profesionales, etc.) prcticamente se tienen muestras (no responde toda la

poblacin) pero los resultados suelen interpretarse como si todos hubieran
respondido; lo realmente informativo es aportar los intervalos de confianza,
o entre qu lmites se encuentran con toda probabilidad las respuestas si todos hubieran respondido.
Cuando distintos grupos responden a la misma pregunta (s o no en este
caso, pero puede tratarse tambin de respuestas con valores continuos) es
til especificar el error tpico de la proporcin en cada muestra y los intervalos de confianza entre los que se encuentra la proporcin de ses (o unos) en
las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con
un nivel de confianza de .05 z = 1.96).
Tabla 3
En la tabla 3 podemos observar que en las muestras A y B responde afirmativamente la misma proporcin de sujetos (un 60%), pero al extrapolar los
resultados a las poblaciones representadas por esas muestras el margen de
error es mucho menor en la muestra A porque se trata de ms sujetos.
Al hablar de extrapolar a la poblacin los resultados de una muestra (en
este caso y en cualquier otro) hay que hacer una observacin importante. Estamos suponiendo que esa muestra es representativa de la poblacin, que no
est sesgada, y esto es lo se intenta conseguir con las muestras aleatorias.
Cuando ste no es el caso (responden los sujetos disponibles, los que quieren, etc.) siempre podemos pensar en la poblacin que pueda estar representada por esa muestra y ser cautelosos al generalizar los resultados. En cualquier caso siempre es ms seguro informar sobre los intervalos de confianza
sin limitarnos a una proporcin o porcentaje aparentemente exacto.
4.3. Comparar la media de una muestra con la media de una poblacin
Se trata ahora de verificar si podemos considerar que una muestra, cuya
media conocemos, pertenece a una poblacin cuya media tambin conoce
mos. Si tenemos la media de una muestra (X) y la media de una poblacin
(m), podemos preguntarnos Es posible afirmar que nuestra muestra, cuya
247
media conocemos, pertenece a (es una muestra aleatoria de) una poblacin
con media m? Si la respuesta es no, podremos afirmar que la muestra pertenece a una poblacin distinta, con una media distinta.
Al hablar de diferencias estadsticamente significativas estamos hablando
de diferencias no aleatorias, no explicadas por el error muestral, no esperables por azar. Esto lo afirmaremos con una determinada probabilidad de
error; es el nivel de significacin o nivel de confianza.
Es ms frecuente comparar las medias de dos muestras (para comprobar
si proceden de o pertenecen a poblaciones distintas con distinta media), pero tambin tiene su inters el comparar la media de una muestra con la media
de una poblacin cuando sta es conocida por otras investigaciones o estudios, o es la conclusin lgica de una determinada teora, o simplemente la
media de la poblacin es una hiptesis de trabajo; siempre podemos pensar
en medias hipotticas.
Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de
problemas y obtiene estos resultados: N = 40, X = 12.6 y s = 4.25. El profesor piensa que un resultado ptimo y posible hubiera sido obtener una media
de 15, y se pregunta puede considerarse esta muestra de 40 alumnos como
una muestra aleatoria de una poblacin cuya media fuera m = 15?
Este tipo de planteamientos puede tener su inters cuando la media de la
poblacin es una hiptesis plausible o hay datos de otros estudios, etc. Vamos
a suponer que el nivel de confianza que nos ponemos es de a = .01 (que corresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; slo el 1%
de los casos cae ms all de 2.57).
Podemos solucionar el problema de dos maneras.
1 Nuestra muestra pertenece a una poblacin cuya media en principio
desconocemos. Lo que s podemos hacer es estimar el lmite mximo de la
media de la poblacin a la que pertenece nuestra muestra, tal como hemos
visto antes, y con un riesgo mximo de error del 1%, tal como hemos fijado
previamente.
1. Calculamos el error tpico de la media,
2. Cules sern los lmites superior e inferior de la media de la poblacin,
con una probabilidad de error del 1%?
El lmite superior ser X +(2.57)(sx) = 12.6 + (2.57)(.68) = 14.35
El lmite inferior ser X - (2.57)(sx) = 12.6 (2.57)(.68) = 10.85

Podemos considerar que nuestra muestra, con una media de 12.6, pertenece a una poblacin cuya media estar entre 10.85 y 14.34, y esto
podemos afirmarlo con una probabilidad de error del 1%.
248
3. Nuestra conclusin es clara: nuestra muestra con media de 12.6 no pertenece a una poblacin hipottica cuya media fuera 15 porque el lmite
mximo de la poblacin de nuestra media es 14.35 y no llega a 15, luego nuestra muestra pertenece a otra poblacin con otra media, cuyo
lmite inferior no es 15.
Podemos visualizar el resultado con un sencillo grfico:
Salta a la vista que la media de la poblacin de referencia (= 15) es mayor

que el lmite superior de la media de la poblacin representada por esa muestra (=14.35).
2 De hecho el procedimiento utilizado habitualmente para comprobar si
la media de una muestra difiere significativamente de la media de una poblacin suele ser otro que nos permite llegar a las mismas conclusiones. Nos basta calcular una puntuacin tpica (z), que nos dir en cuntos errores tpicos
se aparta nuestra media de la media de la poblacin. El procedimiento y la
frmula apropiada estn puestos y explicados como un caso ms del contraste de medias.
4.4. Calcular el tamao N de la muestra para extrapolar los resultados
a la poblacin
No es ste el lugar apropiado para tratar con cierta extensin sobre el tamao necesario de la muestra, pero s es til, tratando del error tpico de la
media o de una proporcin, ver y entender en este contexto la relacin entre
la magnitud de los intervalos de confianza de la media y el nmero necesario
de sujetos en la muestra para extrapolar los resultados a la poblacin con un
determinado margen de error.
De manera anloga a lo que hemos visto en [4] y en [6] el margen de error
cuando la proporcin encontrada en una muestra la extrapolamos a la poblacin es:
Si en [7] despejamos N (el tamao de la muestra) tendremos:
249
En [8] conocemos todos los valores que nos interesan para calcular N
z
Este valor corresponde al nivel de confianza y lo establecemos nosotros; habitualmente utilizaremos un nivel de confianza del .05 y z =
1.96 ( z = 2.57 si nuestro nivel de confianza es de .01)
pq Es la varianza de la poblacin, no la varianza de la muestra. Esta varianza no la conocemos, pero como a mayor varianza en la poblacin
har falta una muestra mayor, nos situamos en la situacin en que la
varianza es la mxima posible; en este caso p = q = .50, y pq = .25,
que es un valor constante.
e Es el margen de error que estamos dispuestos a aceptar y tambin lo
establece el investigador. Si por ejemplo estamos dispuestos a aceptar
un margen de error del 5%, esto quiere decir que si en la muestra encuestada en esta caso responde s el 35%, en la poblacin esperamos
que responda s entre el 30% y el 40%. ste 5% lo expresaremos en
forma de proporcin (o tanto por uno): .05
Vemos de nuevo que si queremos un margen de error pequeo (e, el denominador en 8) necesitaremos una muestra mayor.
Podemos ver la aplicacin de esta frmula [8] con un ejemplo. Vamos a
hacer una encuesta para extrapolar los resultados a una poblacin mayor
(muy grande, de tamao indefinido).
El margen de error que estamos dispuestos a aceptar es del 5% (e = .05),
de manera que si nos responden s el 50% de la muestra ya sabemos que en la
poblacin el s estar entre el 45% y el 55%
El nivel de confianza es del .05, que corresponde a z = 1.96
(1.96)(.25)
Necesitaremos una muestra de este tamao: N = = 384 sujetos
.052
Si el margen de error mximo que nos interesa es del 3% (e = .03), la
muestra necesaria sera de 1067 sujetos.
Hacemos algunas observaciones ya que el exponer y justificar brevemente
estas frmulas tiene un valor complementario para entender mejor el concepto y utilidad del error tpico, pero no tratamos aqu de manera expresa sobre el tamao de la muestra, tipos de muestreos y cmo hacerlos, etc.3
3
Puede verse ms informacin en la bibliografa mencionada y en otras muchas publicaciones; sobre el tamao de la muestra necesario tambin con otras finalidades (construir una escala de actitudes, hacer un anlisis factorial, etc.) puede verse Morales (2007b).
250
a) Estas frmulas para calcular el tamao de la muestra son vlidas aun

cuando las preguntas no sean dicotmicas (estamos utilizando el error
tpico de una proporcin, cuya varianza mxima es pq = .25).
b) Son vlidas cuando se hace un muestreo aleatorio simple; hay variantes
cuando se utilizan otros tipos de muestreo (como el estratificado).
c) Suponemos que la poblacin a la que se extrapolan los resultados es
grande, de tamao indefinido y que podemos no conocer con exactitud. Con poblaciones menores y cuyo tamao conocemos hay frmulas ms ajustadas; ms o menos a partir de poblaciones en torno a los
30.000 sujetos el tamao necesario de la muestra no vara mucho; al
aumentar el tamao de la poblacin no aumenta proporcionalmente el
tamao necesario de la muestra.
ANEXO. LOS INTERVALOS DE LA MEDIA Y DE LAS PROPORCIONES EN INTERNET
Varios programas disponibles en Internet nos dan los intervalos de confianza de una media o proporcin para un determinado nivel de confianza, lo
mismo que el tamao de la muestra necesario para determinados mrgenes
de error.
Entre otras direcciones:
LOWRY, RICHARD, VASSARSTATS: WEB SITE FOR STATISTICAL COMPUTATION,Vassar College, Poughkeepsie, NY, USA; http://faculty.vassar.edu/lowry/VassarStats.html (men en proportions: the confidence interval of a proportion; en t test & procedures: .95 and .99 Confidence Intervals for the
Estimated Mean of a Population).
GENE V GLASS Intro to quant methods http://glass.ed.asu.edu/stats/ En
Links to Online Resources for Statistics, en Online statistical calculators
that can perform many different analyses. :
Confidence Interval on a Proportion http://glass.ed.asu.edu/stats/analysis/
pciform.html
Confidence Interval on a Sample Mean http://glass.ed.asu.edu/stats/analysis/mci.html
Algunas direcciones relacionadas con encuestas de opinin:
CREATIVE RESEARCH SYSTEMS. The Survey System Sample Size Calculator
http://www.surveysystem.com/sscalc.htm
CUSTOMINSIGHT.COM. Survey Random Sample Calculator (Home: http://www.
custominsight.com/index.asp) http://www.custominsight.com/articles/
random-sample-calculator.asp
DIMENSION RESEARCH, INC. Confident Intervals for Means Calculator
http://www.dimensionresearch.com/resources/calculators/conf_means.html (home: http://www.dimensionresearch.com/index.html).
251
CAPTULO 8
EL CONTRASTE DE MEDIAS
1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS

Uno de los planteamientos ms frecuentes en anlisis estadstico es sencillamente comparar las medias de dos grupos (hacer un contraste de medias)1. Antes de ver el procedimiento conviene tener una idea general de la
utilidad de estos contrastes.
a) Muchos diseos experimentales, y planteamientos de evaluacin en
general, desembocan en una comparacin de las medias de dos grupos:
un grupo experimental (el que ha seguido nuestra metodologa, el que
ha tenido una determinada experiencia, formacin etc.) lo comparamos
con otro grupo de control o de contraste (un grupo comparable al grupo experimental pero que no ha pasado por esta experiencia, mtodo,
etc.). Son varios los diseos experimentales (y cuasi-experimentales)
que se pueden proponer y cuyo anlisis bsico es un simple contraste
de medias.
En definitiva esperamos que si la experiencia, mtodo, terapia, etc., ha
sido provechosa, los sujetos del grupo experimental tendrn una media mayor que la del otro grupo (una media mayor en la variable dependiente: aquella caracterstica en la que esperamos que se haya producido un cambio). Por una media mayor entendemos mayor de lo
que cabra esperar por azar o mayor que lo que se puede esperar de la
variacin natural de una muestra a otra.
1
Si tenemos tres grupos o ms en el mismo planteamiento y deseamos compararlos
de dos en dos, el procedimiento adecuado es el anlisis de varianza.
253
b) Aunque no tengamos un diseo experimental, ni ningn planteamiento de investigacin propiamente dicho, muchas veces exploramos diferencias entre grupos, sin hiptesis previas, por simple curiosidad o
por inters personal. Tenemos los datos y los aprovechamos para descubrir cosas
c) El contraste (comparacin) de las medias de los subgrupos con puntuacin total ms alta y ms baja (en un examen, en un test, en una escala, etc.; en cualquier total que supone la suma de una serie de preguntas) tiene aplicaciones especficas:
1) Aporta informacin de inters (en qu se parecen ms y en que se
diferencian ms los altos y los bajos en cualquier variable).
2) Es una manera sencilla de analizar los tems de una escala o test, para quedarnos con los ms discriminantes (los ms diferenciadores): con estos tems tenemos una fiabilidad mayor, podemos reducir la longitud del instrumento, etc.
2. A QU PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS

Es importante tener claro desde el principio a qu preguntas de inters
debemos responder (o podemos responder) cuando comparamos dos grupos, porque no se trata simplemente de restar una media de la otra para ver
la diferencia. Hacemos bsicamente dos tipos de clculos o anlisis distintos
que responden a otras dos preguntas distintas a las que habr que aadir otra
tercera pregunta sobre la relevancia o inters de la diferencia.
Primera pregunta
La diferencia entre las medias de estos dos grupos Est dentro de lo normal, dentro de lo que se puede esperar habitualmente cuando no hay ms diferencia que la puramente aleatoria? O se trata ms bien de una diferencia
rara, atpica, fuera de lo normal?
Si la respuesta es que la diferencia es mayor de lo normal, de lo que se
puede esperar por azar, decimos que se trata de una diferencia estadsticamente significativa. En principio podemos tomarnos en serio la diferencia;
podemos afirmar que entre las poblaciones representadas por estas muestras
s hay una diferencia distinta de cero.
Hay que tener claro tanto lo que queremos expresar cuando decimos que
una diferencia es estadsticamente significativa como lo que no podemos
decir:
254
a) Queremos decir que podemos extrapolar los resultados solamente en

este sentido: en situaciones semejantes y con sujetos semejantes, lo
probable es que encontremos una diferencia distinta de cero (y que es
suficiente para poder decir que los grupos pertenecen a poblaciones
distintas en lo que respecta a la variable o rasgo en el que hemos medido a los sujetos).
b) Lo que no podemos decir es que:
1) en muestras semejantes encontraremos una diferencia de magnitud semejante (interpretacin frecuente pero errnea); es posible
que as sea, pero lo que demostramos es que la diferencia en otros
pares de muestras no ser cero (y esto no es decir mucho),
2) tampoco podemos decir que una diferencia es grande o importante por el mero hecho de ser estadsticamente significativa.
Por todo esto habr que completar la informacin con la respuesta a la segunda pregunta que nos haremos a continuacin.
Una observacin: estamos suponiendo que las muestras que comparamos o son muestras aleatorias o son muestras cuyos sujetos han sido asignados aleatoriamente a las diversas condiciones o grupos. En la prctica frecuentemente se trabaja o investiga con grupos hechos, por lo que no se trata
de muestras aleatorias. En estos casos tan habituales:
1) Siempre podemos pensar a qu poblaciones pueden representar estos
dos grupos y extrapolar los resultados a la poblacin hipottica representada por estas muestras con la debida cautela (pueden ser muestras sesgadas o no representativas de la poblacin general o de la poblacin que en principio nos interesa estudiar).
2) En cualquier caso si la diferencia es estadsticamente significativa podemos excluir el azar o variabilidad normal como explicacin plausible
o razonable de esa diferencia.
Segunda pregunta
Cul es la magnitud de esta diferencia entre los dos grupos? Es grande,
pequea, moderada?
Una diferencia estadsticamente significativa puede ser de hecho pequea y poco relevante (sucede con frecuencia cuando comparamos muestras
grandes); lo mismo sucede a la inversa, una diferencia que no es estadsticamente significativa puede ser grande y de importancia en una situacin dada
(y esto es ms probable que suceda cuando comparamos muestras pequeas). El dato de la magnitud de la diferencia tiene su clculo especfico que
veremos ms adelante. La magnitud de la diferencia es un dato importante
255
para interpretar los resultados, para ver si la diferencia es relevante, etc. Sobre
todo esto volveremos ms adelante, porque la confusin entre estadsticamente significativo y grande o relevante es muy frecuente.
En la prctica habitual:
1 Se responde en primer lugar a la primera pregunta: la diferencia Est
dentro de lo normal y aleatorio? Es mayor de lo que se podra esperar
si ambas muestras pertenecieran a la misma poblacin?
2 Despus se matiza y se completa la informacin respondiendo a la segunda pregunta sobre la magnitud de la diferencia (pequea, moderada, grande).
La estadstica inferencial ms tradicional se limita con frecuencia a responder a la primera pregunta, pero tambin es importante (y a veces ms importante) analizar la magnitud de la diferencia (cuestin a la que no suelen
responder muchos libros de texto).
Tercera pregunta
Cul es la relevancia, el inters que puede tener la diferencia que hemos
encontrado? Para valorar la relevancia tenemos que responder a las dos preguntas anteriores (la diferencia est dentro de lo normal? es grande, pequea?) y adems hay ya que tener en cuenta otro tipo de informacin ms
cualitativa: contexto, finalidad de la comparacin, etc.
3. EL
MODELO TERICO DEL CONTRASTE DE MEDIAS: LA DISTRIBUCIN MUESTRAL DE
DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIN
Lo que vamos a comprobar es cundo una diferencia es mayor de lo que

se podra esperar por azar si entre los dos grupos no hubiera ms diferencias
que las puramente casuales (o explicadas por el error muestral, dicho en
trminos ms acadmicos).
Nuestro modelo terico es la distribucin muestral de las diferencias entre medias de muestras que proceden de la misma poblacin: entre estas
medias no hay, por hiptesis, ms diferencias que las puramente aleatorias.
Esta distribucin es un modelo terico anlogo al de la distribucin muestral de la media que ya hemos visto; ahora ya no se trata de medias, sino de
diferencias entre medias.
En este modelo se supone lo siguiente:
1 De una misma poblacin extraemos un nmero indefinido (muy
grande) de pares de muestras y calculamos la diferencia entre sus
256
medias: la media de la primera muestra menos la media de la segunda muestra.

Unas veces la diferencia ser positiva (la media de la primera muestra
es mayor que la de la segunda muestra), otras negativa (la media de la
segunda muestra es mayor que la media de la primera muestra) y otras
veces la diferencia ser cero.
2 Al tener muchas diferencias entre medias (un nmero indefinido, se
trata de un modelo terico), por hiptesis tendremos que:
1. Estas diferencias tendrn una distribucin normal (que se denomina distribucin muestral de las diferencias entre medias de
muestras que proceden de la misma poblacin).
2. La media de esta distribucin ser cero porque las diferencias positivas anulan a las negativas (cuando no hay ms diferencias que las
puramente aleatorias).
3. La desviacin tpica de esta distribucin (que como se trata de una
distribucin muestral se denomina error tpico) podemos estimarla
a partir de los valores del tamao y de las desviaciones tpicas de las
muestras (esto es demostrable aunque aqu no pongamos la demostracin; se trata del teorema del lmite central ya mencionado).
4. La mayora de estas diferencias (el 95%) estar entre 1.96 errores
tpicos y + 1.96 errores tpicos; convencionalmente situamos la
normalidad entre estos lmites.
Lo que vamos a hacer es comprobar si nuestra diferencia (la que hemos
calculado entre dos medias) est dentro de lo normal, si pertenece a esa distribucin (o poblacin) de diferencias cuya media es cero. En ese caso concluiremos que la diferencia est dentro de lo normal y aleatorio (no es estadsticamente significativa).
Figura 1
257
En la figura 1 tenemos representada la distribucin de las diferencias entre

medias cuando la media de las diferencias es cero porque no hay ms diferencias que las puramente casuales.
Entre 1.96 errores tpicos (o desviaciones tpicas) y + 1.96 errores tpicos
tendremos el 95% de las diferencias. A estas diferencias las consideramos normales porque estn dentro de los lmites que convencionalmente hemos determinado como criterio de lo que suele suceder cuando no hay ms diferencias que las aleatorias o casuales.
Al comparar dos medias podemos encontrar una de las dos posibilidades
representadas en la figura 2, cada posibilidad nos llevar a una conclusin
distinta.
Figura 2
Cundo podemos afirmar que las dos

muestras pertenecen a la misma
poblacin?
Cundo podemos afirmar que las dos

muestras proceden de poblaciones
distintas?
Afirmamos que las dos muestras

pertenecen a la misma poblacin
cuando la diferencia est dentro de lo
normal o frecuente;
Afirmamos que las dos muestras

proceden de poblaciones distintas
cuando la diferencia es atpica, poco
frecuente, se sale de lo normal
Es decir, cuando se trata de una

diferencia probable en el caso de que las
dos muestras procedan de la misma
poblacin (m1 = m2 = m)
Es decir, cuando se trata de una

diferencia poco probable. En ese caso
podremos afirmar que las medias
pertenecen a muestras de poblaciones
distintas, con distinta media (m1 m2)
258
4. CMO COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIN DE DIFERENCIAS

CUYA DIFERENCIA MEDIA ES CERO
4.1. Modelo y frmula bsica

Hacemos esta comprobacin verificando en cuntos errores tpicos (desviaciones tpicas) se aparta nuestra diferencia de la diferencia media de cero.
Si nuestra diferencia se aparta mucho (1.96 errores tpicos si seguimos el
criterio habitual) de la diferencia media de cero:
1. Podremos deducir que esa diferencia es improbable si las dos medias
proceden de la misma poblacin.
2. Y afirmaremos por lo tanto que las muestras proceden de poblaciones
distintas con distinta media. Difieren ms de lo que consideramos normal cuando no hay ms diferencias que las puramente aleatorias.
Cmo sabemos que la diferencia est dentro de lo probable? (probable
en la hiptesis de que ambas muestras procedan de la misma poblacin):
Verificando en cuntos errores tpicos se aparta nuestra diferencia de la diferencia media de cero.
Para esto nos basta calcular la puntuacin tpica de esa diferencia (z, t de
Student) que nos indicar si la diferencia es probable (p >.05) o improbable
(p<.05) (en este caso el nivel de confianza, o probabilidad de error al afirmar la diferencia, es de a =.05).
Esta puntuacin tpica, expresada en trminos no convencionales, ser:
La frmula, expresada en smbolos convencionales es:
En esta frmula [1]:

El numerador equivale de hecho a la diferencia entre dos medias
(entre las medias de dos diferencias); restamos una diferencia entre dos medias de una diferencia media de cero.
259
El denominador (smbolo del error tpico de la diferencia entre

medias), vara segn se trate de muestras independientes o relacionadas, grandes o pequeas; las frmulas especficas para cada caso
estn en el apartado 4.7.
Lo que hacemos es calcular la puntuacin tpica (z) de una diferencia: comprobar en cuntas desviaciones tpicas (errores tpicos) se aparta esa diferencia
de la diferencia media de cero. Esta puntuacin tpica nos dir la probabilidad
de que ocurra nuestra diferencia cuando la media de las diferencias es cero.
Cundo es grande la probabilidad de que ocurra una diferencia? El lmite
es convencional; habitualmente se acepta que ms de 5 veces de cada 100 son
ya muchas veces; en ese caso se interpreta como una diferencia normal cuando las medias pertenecen a muestras de la misma poblacin. Este lmite es el
nivel de significacin (.05) o nivel de confianza (.95), como en planteamientos anlogos, y a cada nivel de confianza le corresponde un valor de z. Se
trata de una aplicacin directa de la distribucin normal.
El nivel de significacin se expresa as: a = .05, y en este caso necesitaremos
un valor de z igual o superior a 1.96 (en pruebas bilaterales, que son las que utilizamos normalmente como explicamos ms adelante, y con muestras grandes;
si se trata de muestras pequeas consultaremos las tablas de la t de Student).
El nivel de significacin expresa la probabilidad de equivocarnos al afirmar la diferencia y el nivel de confianza expresa la probabilidad de acertar
(.05+.95 = 1; 100%); ambas expresiones vienen a decir lo mismo.
Si nuestro nivel de significacin es a = .01, necesitaremos un valor de z
superior a 2.57, y si es a = .001, el valor de z debe ser igual o superior a 3.30.
Segn el valor de z que se obtenga, los resultados suelen expresarse de esta forma:
p > .05
p <. 05
p < .01
p <.001
cuando el valor de z no llega a 1.96 (o diferencia no estadsticamente significativa)

cuando z > 1.96 (a partir de z = 1.96 solemos decir que la diferencia
es estadsticamente significativa, porque el nivel de confianza habitual es a = .05)
cuando z > 2.56
cuando z > 3.30
Los programas de ordenador suelen indicar la probabilidad exacta que corresponde a cada valor de z (p =.03, p = .002, etc.) y es el dato que se debe
manifestar si est disponible (la probabilidad exacta del valor de z (o t) tambin se encuentra fcilmente en programas de Internet)2.
2
Pueden verse los programas de Internet del anexo 4 de este captulo.
260
Con muestras pequeas la frmula utilizada se denomina usualmente t de

Student (que nos remite a las tablas para muestras pequeas, anexo 3); con
muestras grandes suele denominarse z (y tambin es usual mantener la expresin t de Student, aunque con menos propiedad) y en todos los casos tambin se utiliza a veces el trmino genrico de Razn Crtica (R.C.).
Con muestras pequeas las probabilidades de ocurrencia en los extremos son algo mayores (los valores exactos dependen del nmero de sujetos),
por eso necesitamos consultar las tablas especficas para muestras pequeas
(las tablas de la t de Student)3 pero segn va aumentando el nmero de sujetos las probabilidades se van pareciendo ms a las de la distribucin normal.
4.2. Hiptesis Nula e Hiptesis Alterna
En este contexto es til recordar, o introducir, los conceptos de Hiptesis
Nula e Hiptesis Alterna.
Aqu es importante entender dos puntos: 1 a qu llamamos Hiptesis Nula e Hiptesis Alterna, y 2 por qu hacemos esta distincin.
1 Qu son las Hiptesis Nula y Alterna
La Hiptesis Alterna es la del investigador: que existe una diferencia (o
una relacin), que la diferencia es mayor de lo que se puede esperar por
azar, etc.
La Hiptesis Nula es la negacin de la Hiptesis Alterna: la diferencia est dentro de lo normal y probable, no se aparta significativamente de una
diferencia media de cero.
Los conceptos (y los trminos) de Hiptesis Alterna e Hiptesis Nula son
importantes y conviene que estn muy claros. La Hiptesis Nula es siempre la
negacin de la Hiptesis Alterna, que es en principio nuestra hiptesis. Por
ejemplo:
Hiptesis Alterna (mi hiptesis): El mtodo A es mejor que el mtodo B
Hiptesis Nula:
El mtodo A no es mejor que el
mtodo B
Para formular la Hiptesis Nula nos basta poner un no delante del verbo
utilizado en la Hiptesis Alterna.
3
Las probabilidades de la tabla para muestras pequeas se la debemos a William S.

Gosset que firmaba con el seudnimo the Student, de ah el trmino t de Student y el smbolo t en vez de z (conceptualmente se trata de lo mismo)
261
La formulacin de la Hiptesis Nula quedara ms clara si aadimos (al menos mentalmente): porque si hay alguna diferencia entre las medias de los
dos grupos, esta diferencia est dentro de lo normal y se explica suficientemente por el error muestral, por factores aleatorios, etc.
Utilizando los smbolos convencionales expresaramos as estas hiptesis
(m es el smbolo de la media de una poblacin):
H o: m 1 = m 2
(o lo que es lo mismo m1 - m2 = 0)
Hiptesis Nula
Hiptesis Alterna: podemos expresarla de dos maneras
(no especificamos la direccin de la
H1: m1 m2
diferencia)
H1: m1 > m2 o m1 < m2 (s especificamos la direccin
de la diferencia)
2 Por qu distinguimos entre estos dos tipos de hiptesis (nula y alterna)
A primera vista puede parecer que la nica hiptesis que tenemos es la
alterna (que hay una diferencia, que un mtodo es mejor que otro, etc.) y
es sta la hiptesis que probamos o dejamos de probar. Sin embargo la hiptesis que ponemos a prueba es la Hiptesis Nula: es la que aceptamos
(o ms bien fracasamos en el intento de rechazarla y afirmamos que la diferencia est dentro de lo normal, o no es extrapolable) o la que rechazamos.
Aunque no tengamos hiptesis formuladas y prescindamos de las hiptesis nula y alterna, cuando contrastamos dos medias y encontramos una diferencia estadsticamente significativa, implcitamente estamos rechazando la
hiptesis nula, lo digamos o no. Estas hiptesis nulas de no diferencia estn
implcitas en el mismo modelo y procedimiento.
Una manera sencilla (aunque quizs incompleta) de entender y recordar
estos conceptos puede ser sta:
Identificar la Hiptesis Nula con diferencia casual, normal, aleatoria, probable, etc.,
Identificar la Hiptesis Alterna con diferencia improbable, no casual, etc.
(improbable si las dos muestras proceden de la misma poblacin, sin ms
diferencias que las puramente aleatorias o casuales).
En definitiva lo que vamos a hacer es determinar la probabilidad de que se
d una determinada diferencia entre dos muestras en el caso de que ambas
procedan de la misma poblacin, con la misma media y sin ms diferencias
que las que pueden explicarse por la variabilidad normal que hay en cualquier
grupo (eso significa pertenecer a la misma poblacin).
262
As, si hacemos un contraste de medias con un nivel de confianza de

a = .05:
Si la diferencia es probable (p >.05)
[probable en el caso de que las
muestras procedan de la misma
poblacin]
Si la diferencia es improbable
(p <.05) [improbable en el caso de que
las muestras procedan de la misma
poblacin]
Aceptamos (no rechazamos) la

Hiptesis Nula; o lo que es lo mismo:
Rechazamos (no aceptamos) la

Hiptesis Nula y aceptamos la Hiptesis
Alterna, o lo que es lo mismo:
Afirmamos que las muestras pertenecen

a la misma poblacin (m1 = m2)
Afirmamos que las muestras proceden

de poblaciones distintas (m1 m2)
Afirmamos que la diferencia no es

estadsticamente significativa.
Afirmamos que la diferencia s es

estadsticamente significativa (es muy
improbable que las muestras
pertenezcan a la misma poblacin).
Si la probabilidad de que ocurra la diferencia es grande, afirmamos que

ambas muestras proceden de la misma poblacin, y que la diferencia est
dentro de lo aleatorio (se explica por el error muestral, por la variabilidad
normal que hay en cualquier conjunto de datos) y lo solemos expresar diciendo que aceptamos la Hiptesis Nula, aunque con ms propiedad habra
que decir que no rechazamos la Hiptesis Nula (propiamente nunca demostramos que la Hiptesis Nula es verdadera; simplemente no demostramos
que es falsa).
Si esta probabilidad es pequea (menos del 5% o p < .05 si sealamos ese nivel de confianza o a = .05) rechazamos que las muestras procedan de la misma
poblacin con idntica media (no aceptamos la Hiptesis Nula) y podremos
afirmar que las dos muestras proceden de poblaciones distintas con distinta media (y decimos entonces que la diferencia es estadsticamente significativa).
Una cuestin distinta es identificar automticamente diferencia estadsticamente significativa con hiptesis de investigacin demostrada (si la diferencia es mayor de lo normal, es que este mtodo es mejor que el otro, etc.);
del hecho de la diferencia no se deduce sin ms que la causa o explicacin
de la diferencia sea la propuesta como hiptesis por el investigador; simplemente afirmamos la diferencia.
263
4.3. Contrastes unilaterales y bilaterales

Hemos visto que hay dos tipos de hiptesis alternas (una hiptesis es m1
m2 y otra hiptesis es m1 > m2 o m1 < m2).
Por ejemplo, no es lo mismo tener como hiptesis:
Nios y nias son diferentes en
Smbolo: m1 m2; (afirmamos la

diferencia, pero no la direccin de la
diferencia)
que tener como hiptesis:

Smbolo: m1 > m2; (especificamos la
direccin de la diferencia, quin es
ms que quin)
Cuando s afirmamos como hiptesis la direccin de la diferencia

(las nias aventajan a los nios
en)
Cuando no afirmamos como hiptesis la direccin de la diferencia (los nios y las nias son distintos en)
Los nios aventajan a las

nias en
tenemos lo que se denominan

contrastes (o hiptesis) bilaterales, bidireccionales o de dos colas.
tenemos lo que se denominan
contrastes (o hiptesis) unilaterales, unidireccionales o de una
cola.
Dnde est en la prctica la importancia entre estos dos tipos de hiptesis?

Antes hemos mencionado que cuando al comparar dos medias obtenemos una z de 1.96 o ms, rechazamos el azar como explicacin de la diferencia Por qu exactamente 1.96?
Porque por encima de 1.96 caen el 2.5% de los casos y por debajo de -1.96
otro 2.5% de los casos (figura 1): nos fijamos en los dos extremos (o en las
dos colas) de la distribucin. No sealamos la direccin de la diferencia y estamos por lo tanto en una hiptesis bilateral, tal como se muestra en la figura 3 (semejante a la figura 1).
264
Figura 3
Si nuestra hiptesis es unilateral, nos fijaremos en un lado de la distribucin, y en vez de z = 1.96 necesitaremos llegar solamente a 1.64, porque por
encima de z = 1.64 (o por debajo de z = - 1.64) cae el 5% de los casos, tal como se muestra en la figura 4.
Figura 4
Naturalmente es ms fcil encontrar un valor de 1.64 que de 1.96 por lo

que se confirman con ms facilidad las hiptesis unilaterales.
Aqu no entramos ms en esta distincin porque habitualmente nos vamos
a referir a hiptesis bilaterales (o bidireccionales, o de dos colas), porque es la
prctica ms comn y aconsejada, por eso mantendremos z = 1.96 como criterio; a partir de ese valor es cuando afirmamos que una diferencia es muy improbable en el caso de que ambas muestras procedan de la misma poblacin4.
4
Aunque nuestras hiptesis nos parezcan con frecuencia lgicamente unidireccionales (este mtodo es mejor que) y as las formulemos, se suelen utilizar de manera habi-
265
4.4. Esquema-resumen del proceso de verificacin de hiptesis

Es til disponer de un cuadro-resumen que nos clarifique estos conceptos
y nos resuma el proceso de verificacin de hiptesis (figura 5). Partimos de
nuestra hiptesis (la hiptesis alterna) pero lo que realmente ponemos a
prueba es la negacin de nuestra hiptesis (la hiptesis nula); lo que hacemos en definitiva es determinar las probabilidades de que se d una determinada diferencia (o en su caso relacin).
Figura 5
tual los valores de z (o de la t de Student) propios de las hiptesis bidireccionales; una explicacin ms amplia de estos dos tipos de hiptesis, direccionales y no direccionales, y
por qu se utilizan habitualmente hiptesis bidireccionales puede verse en Morales (pgina Web) (2008; sobre las hiptesis direccionales y no direccionales).
266
4.5. Interpretacin del significado de aceptar o no aceptar la hiptesis

nula: tipos de errores
Es fcil interpretar mal las conclusiones que se derivan del aceptar o no
aceptar la Hiptesis Nula (la hiptesis de no diferencia) y que ya estn sucintamente expuestas en los apartados anteriores.
4.5.1 Cuando no aceptamos la Hiptesis Nula
No aceptamos la Hiptesis Nula cuando es muy improbable que por azar
se d esa diferencia entre las muestras cuando las poblaciones no difieren
(m1 = m2, m1 - m2 = 0; se trata de la misma poblacin). Al decir que rechazamos la Hiptesis Nula exactamente queremos decir esto:
Una probabilidad pequea de que la diferencia sea aleatoria (y que corresponde a un valor grande de z o t), es decir una diferencia estadsticamente
significativa:
1 Nos da ms seguridad para afirmar esta diferencia; para extrapolar estos resultados a la poblacin: con muestras semejantes hubiramos obtenido una diferencia distinta de cero;
2 Pero, como acabamos de indicar, no probamos que entre otros pares
de muestras semejantes obtendramos necesariamente una diferencia
de magnitud semejante.
3 Un valor grande de z o t no quiere decir que la diferencia entre las
muestras sea grande; la magnitud de la diferencia y su valoracin es algo distinto. Una diferencia muy significativa (ese muy tan frecuente se
presta a interpretaciones equvocas y es preferible evitarlo) no es sinnimo de diferencia grande o importante; esto nos lo dir la magnitud
del efecto (o magnitud de la diferencia expresada en trminos cuantitativamente ms fcilmente interpretables, y que veremos despus) y
otras consideraciones de carcter ms cualitativo que nos permitirn
valorar esa magnitud de la diferencia.
4 Si no aceptamos la Hiptesis Nula (el azar o el error muestral como
explicacin de la diferencia) podremos aceptar la Hiptesis Alterna, es
decir, podemos afirmar que la diferencia es muy improbable en el caso
de que las muestras procedan de la misma poblacin con idntica media, pero, y esto es importante, una cosa es afirmar la diferencia (y hasta ah hemos llegado) y otra distinta es que est claro el por qu de la
diferencia.
Conviene estudiar o recordar todo lo referente a los diseos o planteamientos de investigacin. El que una diferencia sea estadsticamente significativa no prueba sin ms, por ejemplo, que en un colegio se ensea mejor
267
que en otro (los alumnos de un colegio, o de una universidad, pueden ir ya

mejor preparados), o que un mtodo sea mejor que otro (puede ser que
quien sea mejor es el profesor, con cualquier mtodo). Con un buen diseo de investigacin lo que pretendemos es excluir otras explicaciones.
4.5.2. Cuando aceptamos la Hiptesis Nula
Aceptar (o no rechazar) la Hiptesis Nula es lo mismo que aceptar que la
diferencia es normal, que est dentro de lo aleatorio: en comparaciones semejantes podemos encontrarnos con una diferencia de cero.
Hay dos puntos en los que conviene insistir y que son aplicables cuando
aceptamos (o con ms propiedad no rechazamos) la Hiptesis Nula de no
diferencia:
1 Una cosa es no probar que hay una diferencia (como sucede cuando no rechazamos la Hiptesis Nula) y otra distinta es probar que no hay
diferencia.
En este punto es fcil hacer interpretaciones errneas. Lo veremos con facilidad con un ejemplo. Vamos a suponer que tenemos la hiptesis (alterna)
de que a los italianos les gusta ms la pera que a los espaoles (o sin hiptesis formuladas formalmente queremos verificar si existe alguna diferencia).
Responden a una escala de actitudes hacia la pera una muestra de 10 italianos y otra de 10 espaoles (igualados en nivel socio-cultural y econmico).
Encontramos que la diferencia favorece a los italianos pero no es estadsticamente significativa (est dentro de lo normal):
Hemos probado que hay diferencia? (es decir, podemos extrapolar el
hecho de la diferencia a la poblacin general representada por esas
muestras?) La respuesta es no; no hemos probado que a los italianos
les gusta la pera ms que a los espaoles.
Hemos probado que no hay diferencia? Tampoco. Es muy posible que
la diferencia, si la hay, quede clara con muestras mayores.
Con muestras grandes es muy fcil no aceptar la Hiptesis Nula de no diferencia, por eso siempre (y ms con muestras pequeas) interesa verificar si
el signo de la diferencia favorece a nuestra hiptesis, porque con muestras
mayores es muy posible que dejemos las cosas claras.
2 Una diferencia que no es estadsticamente significativa puede ser
importante.
Pensemos en un mtodo de enseanza o en un tipo de terapia aplicado a
muy pocos sujetos. Podemos comparar nuestro grupo experimental (partici-
268
pan en el mtodo, en la terapia), con otro grupo que nos sirve de comparacin (grupo de control o de contraste)5 para verificar si el mtodo o la terapia
son eficaces. A simple vista podemos observar que el mtodo s es eficaz, vemos el cambio en los sujetos, etc., pero al hacer la comparacin podemos
comprobar que la diferencia est dentro de lo aleatorio y no rechazamos la
Hiptesis Nula. Esto puede suceder, y sucede con frecuencia, con muestras
pequeas.
En estos casos: 1 nos abstendremos de extrapolar el hecho de la diferencia, pero 2 si la diferencia es grande (y a favor de nuestro grupo experimental) podemos pensar que algo importante est pasando aqu con estos sujetos. De ah la importancia de disponer de un mtodo que nos permita
apreciar cundo una diferencia es grande (y lo veremos despus). Posiblemente aumentando el tamao de la muestra (o acumulando pequeas muestras) podremos rechazar (no aceptar) la Hiptesis Nula.
4.5.3. Tipos de errores
Con respecto a la Hiptesis Nula podemos cometer dos tipos de errores
objetivos:
1. Error tipo I: podemos no aceptar la Hiptesis Nula (y aceptar la diferencia entre las medias) cuando en realidad la Hiptesis Nula es verdadera (y esa diferencia est dentro de lo normal).
Este posible error objetivo lo controlamos con los niveles de confianza; un nivel de confianza de a = .05 (un 5% de probabilidades
de equivocarnos al afirmar la diferencia) se acepta como suficientemente seguro.
2. Error tipo II: podemos aceptar la Hiptesis Nula (y no afirmamos la diferencia) cuando en realidad la Hiptesis Nula es falsa (y s hay diferencia).
Se trata de un error que no solemos controlar. Las probabilidades
de cometer este error en el contraste de medias son muy altas pero se pueden minimizar utilizando un nmero grande de sujetos.
Con muchos sujetos se detectan con ms facilidad las diferencias
entre grupos, incluso las diferencias pequeas (las diferencias grandes se detectan con facilidad comparando muestras pequeas).
5
En trminos ms propios cuando hablamos de grupo de control estamos suponiendo que los sujetos han sido asignados aleatoriamente a los dos grupos, experimental y de
control; cuando esto no es as (como no suele serlo en muchas comparaciones porque trabajamos con grupos hechos) es preferible denominar al grupo que nos sirve como trmino de comparacin grupo de contraste.
269
Los dos tipos de errores estn resumidos en la figura 6.

Figura 6
En principio se pretende minimizar el error tipo I (como es afirmar la diferencia cuando realmente no la hay) y por eso se insiste en los niveles de confianza: es ms seguro (es la postura ms conservadora) decir no hay diferencia cuando realmente s la hay, que decir s hay diferencia cuando
realmente no la hay.
Una sencilla analoga nos puede ayudar a entender la importancia relativa de estos dos errores: en un juicio un error puede ser condenar a un verdadero inocente y otro error puede ser absolver a un verdadero culpable
(figura 7)6.
Figura 7
Esta analoga est inspirada en la pelcula doce hombres sin piedad, en la que un jurado tiene que decidir por unanimidad sobre la inocencia (por falta de pruebas) o la culpabilidad de un presunto culpable.
270
Siempre interesa tomar la decisin correcta, pero el error ms grave y que

se pretende minimizar es el error Tipo I; volviendo al contraste de medias es
preferible y ms seguro concluir la diferencia no est probada (aunque en la
realidad s se d la diferencia) que concluir la diferencia est probada cuando realmente no existe esa diferencia. Con niveles de significacin ms estrictos (.01, .001) aumentan las probabilidades de cometer el error tipo II (en general se estima que a = .05 es un nivel de significacin razonable). El error
objetivo Tipo II es ms fcil que suceda con muestras pequeas.
4.6. Observaciones sobre el contraste de medias: limitaciones y
requisitos previos
4.6.1. Presupuestos tericos para poder utilizar el contraste de
medias
El modelo terico que utilizamos en el contraste de medias supone determinados presupuestos tericos como son la homogeneidad de varianzas en
las muestras y distribucin normal en la poblacin; sin embargo est suficientemente demostrado que las denominadas pruebas paramtricas (como
la t de Student y el anlisis de varianza) permiten rechazar la Hiptesis Nula
(hiptesis de no diferencia) cuando es falsa, aunque se violen los presupuestos del modelo terico, excepto cuando se dan a la vez estas circunstancias:
1 Muestras ms bien pequeas (a partir de N < 20 suelen considerarse
pequeas, aunque estos lmites son arbitrarios),
2 Muestras de tamao muy desigual (como cuando una muestra es tres
veces mayor que la otra),
3 Muestras con varianzas muy desiguales (algn autor pone el lmite de
que una varianza sea ms de 10 veces mayor que la otra con muestras grandes las varianzas muy desiguales importan menos; aun as la
homogeneidad de varianzas es el presupuesto ms importante).
En estos casos al menos (cuando se dan simultneamente dos o tres de las
circunstancias mencionadas) son preferibles los mtodos no paramtricos
para datos ordinales (alternativas a la t de Student; la U de Mann-Whitney para muestras independientes y la T de Wilcoxon para muestras relacionadas).
La homogeneidad de varianzas es el presupuesto ms importante; aun as
el que las varianzas sean distintas importa menos si las muestras son de idntico o parecido tamao y en contrastes bilaterales (que son los habituales)7.
7
Cuando se hace un contraste de medias con el SPSS el programa verifica el presupuesto de la homogeneidad de varianzas, y da las probabilidades asumiendo y sin asumir la
igualdad de varianzas; en general las diferencias no son muy apreciables. Sobre estos supuestos previos y sobre el requisito de disponer de una unidad de intervalo pueden verse
ms citas y comentarios en Morales (2006, Cap. 1).
271
Los modelos tericos suponen que las muestras son aleatorias (y por lo
tanto representativas de la poblacin) y esto no sucede con frecuencia porque se trata de grupos hechos, sin que los sujetos hayan sido escogidos aleatoriamente de una poblacin mayor; en estos casos tenemos que pensar en la
poblacin que pueda estar representada por esas muestras concretas.
4.6.2. Es suficiente verificar si una diferencia es estadsticamente
significativa?
Podemos pensar que el limitarse a aceptar o rechazar la Hiptesis Nula
(de no diferencia) es poco informativo, porque la diferencia puede ser significativa y pequea o no ser significativa por falta de sujetos o no ser significativa
y a la vez grande (frecuente con pocos sujetos) En buena medida as es, limitarse a afirmar que una diferencia es (o no es) estadsticamente significativa es
poco e incompleto a pesar de la prctica ms habitual en investigacin, de ah
la necesidad de los clculos complementarios, sobre la magnitud de la diferencias, que trataremos ms delante. Es aqu donde se pone ahora el nfasis.
4.6.3. Cuando tenemos ms de dos muestras en el mismo planteamiento: anlisis de varianza
Con las frmulas del contraste de medias (t de Student) podemos comparar medias de dos en dos; pero cuando en el mismo planteamiento hay ms
de dos muestras tenemos que acudir a otros procedimientos (anlisis de varianza). No se pueden comparar las diversas muestras de dos en dos porque
en este caso las probabilidades de error al rechazar la Hiptesis Nula son ms
de las que indican las tablas (como queda explicado al tratar del anlisis de varianza; aqu basta con advertir que no se debe utilizar la t de Student cuando
hay ms de dos muestras)8.
8
Cuando tenemos slo dos grupos pero vamos a compararlos en muchas variables o
rasgos tambin puede suceder que algn contraste estadsticamente significativo realmente se deba a factores aleatorios (la probabilidad de error es pequea, pero no podemos tener una absoluta seguridad). En estos casos algunos autores recomiendan los llamados contrastes de Bonferroni (la publicacin de Carlo Emilio Bonferroni es de 1936), por eso no
sobra una nota aclaratoria. En estos contrastes se utiliza la misma t de Student pero con un
nivel de confianza ms estricto: se utiliza la probabilidad (p) que expresa nuestro nivel de
confianza dividida por el nmero de comparaciones previstas, as si nuestro nivel de confianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza
.05/3 = .0167. Tambin si conocemos la probabilidad exacta (p) podemos multiplicarla por
el nmero de contrastes para ver si llega a .05 (as si tenemos tres contrastes y p = .0167
tendremos p = (.0167)(3) = .05). La crtica hecha a este contraste es que es muy conservador; tiene poca potencia para rechazar la Hiptesis Nula cuando realmente es falsa (por
272
4.7. Frmulas del contraste de medias9

La frmula bsica es la frmula [1] ya vista antes: una diferencia entre dos
medias dividida por el error tpico de las diferencias:
Nos falta conocer el valor del denominador (

es solamente un smbolo).
La frmula general del denominador de la frmula [1] (error tpico de la
diferencia entre medias) es:
Como el error tpico de la media es siempre

se puede expresar as:
la frmula [2]
Estamos suponiendo que habitualmente calculamos la s de la muestra dividiendo por N-1; si la hubiramos calculado dividiendo por N, en los deno10
minadores tendramos N y no N-1 .
ejemplo y entre otros, Hancock y Klockars, 1996). Una crtica bien razonada a los ajustes de
Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by
epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference The main weakness is that the interpretation of
a finding depends on the number of other tests performed The likelihood of type II
errors is also increased, so that truly important differences are deemed non-significant
Bonferroni adjustments imply that a given comparison will be interpreted differently according to how many other tests were performed. Tambin se proponen estos niveles de
confianza ms estrictos cuando tenemos muchos coeficientes de correlacin, pero la crtica que puede hacerse es la misma
9
Podemos llevar a cabo un contraste de medias, sin necesidad de conocer las frmulas, con programas como EXCEL o SPSS, y tambin con los programas que podemos encontrar en Internet (anexo 4); sin embargo debemos entender qu estamos haciendo.
10
En los programas estadsticos (como el SPSS) lo normal es utilizar la desviacin tpica de la poblacin (dividiendo por N-1; con muestras relativamente grandes la diferencia
entre dividir por N o N-1 puede ser irrelevante).
273
Es til conocer de dnde viene esta frmula [2] (o [3]; es la misma). La varianza de un compuesto, por ejemplo la varianza de la suma de los tests 1 y 2,
no es igual a la varianza del test 1 ms la varianza del test 2, sino sta otra:
Podemos ver el parecido de esta expresin con el cuadrado de un binomio (de eso se trata):
Si no se trata de un compuesto (o suma), sino de una diferencia, sabemos

que (a-b)2 =a2+b2 -2ab. ste es nuestro caso: no se trata del cuadrado de una
suma (a+b), sino del cuadrado de una diferencia (a-b), de ah el signo menos
en el denominador de las frmulas [2] y [3].
Lo que tenemos en esta frmula (del error tpico o desviacin tpica de las
diferencias entre medias de muestras de la misma poblacin) es la suma de
los dos errores tpicos de las medias menos dos veces su covarianza (recordemos que r12s1s2 es la frmula de la covarianza).
Este denominador [2] no lo utilizaremos habitualmente. Si se trata de
muestras independientes (sujetos distintos) el valor de la correlacin que
aparece en la frmula es cero, con lo que el denominador queda muy simplificado. El denominador [2] es vlido cuando de trata de comparar medias de
muestras relacionadas (los mismos sujetos medidos antes y despus en el
caso ms frecuente), pero aun en este caso tenemos un procedimiento alternativo ms sencillo en el que no tenemos que calcular la correlacin, como
veremos ms adelante.
En el apartado siguiente estn todas las frmulas necesarias para el contraste de medias. Aunque habitualmente utilicemos programas informticos
no siempre es as y en cualquier caso las frmulas nos ayudan a entender lo
que estamos haciendo.
4.7.1. Diferencia entre la media de una muestra y la media de una
poblacin
En este caso conocemos todos los datos de la muestra (nmero de sujetos, media y desviacin); de la poblacin conocemos solamente la media (que
puede ser una media hipottica, o deducida de otros estudios, etc.).
274
El denominador es el error
tpico de la media de la
muestra
t = Valor de la t de Student (o z cuando se

utilizan muestras grandes); tambin se
utiliza el smbolo ms genrico de R.C.
(Razn Crtica); con muestras pequeas
se utilizan las tablas de la t de Student
m = media de la poblacin
X = (media) s (desviacin tpica) y N (nmero de sujetos o tamao de la muestra)

son los datos de la muestra;
En el numerador de todas estas frmulas tenemos siempre una diferencia

entre medias menos cero; naturalmente este menos cero se puede omitir
porque no va a alterar el resultado, sin embargo es preferible ponerlo porque
recordamos lo que estamos haciendo: comparar una diferencia entre dos medias con una diferencia media de cero.
Otra manera de abordar el mismo planteamiento es calcular los intervalos
de confianza de la media. Ya vimos en el captulo anterior (sobre el error tpico de la media, apartado 4.3) que a partir de los datos de una muestra podemos conocer entre qu lmites probables se encuentra la media de la poblacin representada por esa muestra. Si queremos comprobar si existe una
diferencia estadsticamente significativa entre la media de una muestra y la
media de una poblacin (m), nos basta calcular los intervalos de confianza de
la media de la muestra y ver si la media de la poblacin se encuentra comprendida entre esos intervalos.
4.7.2. Diferencia entre dos medias de muestras independientes
(sujetos fsicamente distintos)
1 Muestras grandes y de distinto tamao
Como en todas estas frmulas, si las desviaciones estn calculadas dividiendo por
N-1, ahora el denominador ser N.
Es prctica comn el considerar una muestra grande cuando pasa de 30 sujetos aunque este criterio es un tanto arbitrario;
ms seguro es poner el lmite en torno a
los 50 sujetos, o considerar que la muestra
es pequea siempre que se puedan consultar las tablas de la t de Student.
275
La interpretacin, cuando se trata de muestras grandes, se hace consultando las tablas de la distribucin normal (o en programas de Internet, anexo 4),
con grados de libertad igual a N1+N2-2. Como por lo general los niveles de
confianza que utilizamos son .05, .01 y .001, no necesitamos acudir a las tablas, pues ya conocemos los valores de referencia para muestras grandes:
Los valores de z utilizados habitualmente con muestras grandes son:
Si z es mayor que
La probabilidad de que la diferencia sea
aleatoria es inferior a
1.96
2.57
3.30
.05
.01
.001
2 Muestras pequeas y de distinto tamao

Esta frmula puede utilizarse con muestras de
cualquier tamao;
La interpretacin se hace
consultando las tablas de la
t de Student, con grados
de libertad igual a N1+N2- 2
Cuando se van a hacer muchos contrastes de medias con el mismo par de
muestras, y por lo tanto los valores de N van a ser constantes, es ms cmodo y rpido transformar la frmula [6] en sta otra [7]:
De esta manera la primera parte del denominador se convierte en una

constante que basta calcular una sola vez.
3 Diferencia entre dos medias de muestras independientes (grandes o
pequeas) y de idntico tamao
Cuando las muestras son de idntico tamao (N = N) las frmulas anteriores quedan muy simplificadas (se trata de la frmula [5] simplificada porque
los denominadores son idnticos):
276
En este caso N1 = N2 = N, que es el nmero de

sujetos en cada grupo; los grados de libertad
son como en los casos anteriores: N1+ N2 -2
(nmero total de sujetos, restando un sujeto a
cada grupo).
Esta frmula es vlida tanto para muestras grandes como pequeas; con
muestras pequeas se consultan las tablas de la t de Student.
4.7.3. Diferencia entre medias de muestras relacionadas (comprobacin de un cambio)
Tenemos muestras relacionadas cuando los sujetos son los mismos, y de
cada sujeto tenemos dos datos en la misma variable; son dos muestras de datos procedentes de los mismos sujetos. En la situacin ms frecuentemente
estos datos los obtenemos en la misma variable antes y despus de alguna experiencia o proceso y se desea comprobar si ha habido un cambio11.
Cuando se dispone de una calculadora estadstica (con la media y la desviacin tpica programadas), lo ms sencillo es calcular para cada sujeto su
puntuacin diferencial (diferencia entre las dos puntuaciones, entre antes y
despus) y aplicar esta frmula:
El trmino muestras relacionadas (y las frmulas correspondientes) tambin se aplica cuando tenemos sujetos distintos pero igualados en variables
importantes, tal como se estudia en el contexto de los diseos experimentales; en estos caso tenemos una muestra de parejas de sujetos.
X D = Media de las diferencias,

s2D = Varianza de las diferencias,
N = nmero de sujetos o de pares de puntuaciones; los grados de libertad son N-1.
Tambin se puede utilizar el denominador puesto en la frmula [2] o [3],
y as aparece en muchos textos, pero el utilizar la frmula [9] es un mtodo
ms claro y sencillo.
11
Aunque si no hay un grupo de control o de contraste (trmino de comparacin) esta comprobacin de un cambio puede ser cuestionable; conviene estudiar cul debe ser el
diseo apropiado en estos casos. Otros mtodos para verificar un cambio los tenemos en
el captulo siguiente, la prueba de los signos (n 8.2.3) y la prueba de McNemar (n 10.2);
tambin tenemos la prueba no paramtrica de la T de Wilcoxon que no tratamos aqu.
277
Podemos observar la semejanza de esta frmula [9] con la frmula [4]. En

realidad se trata del mismo planteamiento: comparar la media en cambio de
una muestra, con la media m = 0 de una poblacin que no hubiera cambiado
nada.
Los grados de libertad son N-1 o nmero de pares de observaciones menos uno (es decir, N = nmero de sujetos, pues cada uno tiene dos puntuaciones). Con muestras grandes se consultan las tablas de la distribucin normal, y con muestras pequeas las de la t de Student.
Podemos ver la aplicacin de esta frmula [9] con un ejemplo ficticio.
Cuatro sujetos han respondido a una pregunta (respuestas de 1 a 6) antes y
despus de una experiencia.
Antes
2
3
4
5
Media 3.5
s
1.118
Despus
Diferencia
4
3
5
6
4.5
1.118
4-2 = 2
3-3 = 0
5-4 = 1
6-5 = 1
1.0
.707
Utilizando la media y desviacin en cambio (despus menos antes) y aplicando la frmula 12, tendremos:
La correlacin entre antes y despus es r = .80; si utilizamos el denominador de la frmula [3] tendramos:
El resultado es el mismo, pero es claro que en este caso (muestras relacionadas) es preferible utilizar la frmula [9].
4.8. Variables que influyen en el valor de t (o z)
Los valores mximos y mnimos que solemos encontrar en las puntuaciones tpicas (y en la t de Student que es una puntuacin tpica, la puntuacin
tpica de una diferencia) suelen oscilar (pueden ser mucho mayores) entre 3
y +3; lo que queda fuera de 1.96 lo consideramos ya atpico, poco probable (slo en el 5% de los casos se supera por azar un valor de 1.96).
Sin embargo al calcular la t de Student nos encontramos con frecuencia con
valores muy altos, sobre todo cuando el nmero de sujetos es muy grande.
278
Qu factores influyen en que encontremos una t de Student grande o

simplemente estadsticamente significativa?
Este punto es sencillo e importante porque nos facilita la interpretacin
de nuestros resultados e incluso proponer nuevas hiptesis
Observamos la frmula general [5] (para
muestras grandes e independientes y de
tamao distinto):
El cociente aumentar si aumenta el numerador (si la diferencia es grande), pero tambin aumentar, aunque el numerador sea pequeo (diferencia
cuantitativamente pequea) si disminuye el denominador
Qu factores influyen en que disminuya el denominador y que por lo tanto el cociente sea mayor?
En el denominador tenemos otro quebrado:
a) El cociente disminuir si disminuye el numerador (la varianza de los
grupos).
A mayor homogeneidad en los grupos (menor varianza), la diferencia ser significativa con ms probabilidad. Esto es adems conceptualmente razonable: no es lo mismo una diferencia determinada entre dos grupos muy heterogneos (mucha diversidad dentro de cada grupo) que entre dos grupos
muy uniformes Una diferencia entre las medias de dos grupos muy heterogneos puede variar si tomamos otras dos muestras igualmente muy heterogneas, pero si la diferencia procede de dos muestras con sujetos muy parecidos, con pequeas diferencias entre s, hay ms seguridad en que se
mantenga la diferencia entre otros pares semejantes de grupos.
b) El cociente disminuir si aumenta el denominador del denominador,
que es el nmero de sujetos. Con muestras grandes es ms fcil encontrar diferencias significativas.
Qu podemos decir sobre el hecho de que aumentando el nmero de sujetos encontramos fcilmente diferencias estadsticamente significativas? Que
con un nmero grande de sujetos podemos demostrar casi lo que queramos?
1 En parte s; con nmeros grandes encontramos con facilidad diferencias significativas. Pero esto no tiene que sorprendernos porque de hecho hay muchas diferencias entre grupos que se detectan con ms facilidad cuando los grupos son muy numerosos. En la vida real la
Hiptesis Nula (m1 = m2) suele ser falsa y cuando no la rechazamos suele ser por falta de sujetos.
279
2 Estas diferencias significativas que descubrimos, sobre todo con muestras grandes, son con frecuencia diferencias pequeas y a veces triviales. Una diferencia estadsticamente significativa no es una diferencia
necesariamente grande o relevante.
3 Disponer de un nmero grande de sujetos es como mirar de cerca:
vemos incluso las cosas pequeas. Disponer de un nmero pequeo
de sujetos es como mirar de lejos: slo vemos las cosas grandes. Diferencias grandes y obvias las descubrimos con pocos sujetos. Con muchos sujetos (si miramos de cerca) descubrimos muchas diferencias
entre grupos que pueden no tener mayor importancia.
4 Una diferencia no significativa, sobre todo si es grande y con muestras
pequeas, puede ser importante en una situacin dada (aunque no se
pueda extrapolar, puede decir algo relevante de la situacin analizada
o permite establecer como hiptesis que con muestras mayores s podramos encontrar una diferencia estadsticamente significativa).
Qu hacer entonces?
a) Por lo menos deberamos utilizar siempre las expresiones apropiadas y
no hablar simplemente de diferencias significativas, sino de diferencias estadsticamente significativas. El adverbio estadsticamente ya
expresa los lmites de nuestras conclusiones. Tambin se debe evitar la
expresin diferencia muy significativa, porque ese muy invita a pensar en diferencias grandes o relevantes: a mayor valor de z o t tenemos
ms seguridad, menos probabilidad de error al afirmar la diferencia
(que la diferencia no es cero), pero sin referencia directa a la magnitud
o a la relevancia de esa diferencia. Por otra parte esa mayor seguridad
es con frecuencia irrelevante pues ya ponemos el umbral de la seguridad (nivel de confianza) suficientemente alto.
b) Muchas veces nos bastar con saber si hay o no hay una diferencia estadsticamente significativa entre dos grupos, es decir, si difieren ms de
lo que podemos esperar casualmente entre muestras de la misma poblacin y podemos extrapolar el hecho de la diferencia (una diferencia
distinta de cero) a otros pares de muestras semejantes. Muchos planteamientos de investigacin se quedan aqu (y por eso con frecuencia se
quedan cortos; no se aprovechan bien los datos disponibles).
c) Aun en estos casos un valor significativo de t (una diferencia estadsticamente significativa) no debemos asumirla ingenuamente como un
criterio de certeza. Tenemos que considerar a qu poblaciones pueden
representar esas muestras para no hacer extrapolaciones poco prudentes; con frecuencia no son muestras aleatorias (porque se trata de grupos hechos, son las muestras que estn disponibles). La interpretacin
280
mnima prudente es concluir que la diferencia entre estos dos grupos es

muy poco probable que se deba al azar.
d) Como criterio general no debemos limitarnos a comprobar si una diferencia es o no es estadsticamente significativa. Es lo ms frecuente,
pero no es una buena prctica. Adems debemos buscar un dato ms
claro sobre cul es la magnitud de la diferencia, para poder interpretarla y valorarla como grande, moderada, pequea y poder juzgar
mejor sobre su relevancia.
Para poder valorar la magnitud de la diferencia tenemos el clculo del tamao del efecto que nos cuantifica la magnitud de la diferencia en valores fcilmente interpretables. Adems se expresa en unos valores que nos permiten comparar unas diferencias con otras aunque provengan de instrumentos distintos y de
escalas mtricas distintas. Disponemos adems de criterios para valorar su magnitud. Todo lo referido a la magnitud de la diferencia (tamao del efecto) lo exponemos en al apartado siguiente (n 6) sobre anlisis complementarios.
5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES)

El contraste entre proporciones (o porcentajes multiplicando por 100) es
un caso particular del contraste entre medias; en este caso la media oscilar
entre 0 y 1.
Introducimos el contraste entre proporciones con un ejemplo. Dos grupos distintos responden s o no a la misma pregunta:
Grupo A
Grupo B
uniendo ambos grupos
Responden s:
Responden no
65 (81%)
15 (19%)
52 (58%)
38 (42%)
117
53
(69%)
(31%)
Total de sujetos en cada grupo:
80 (100%)
90 (100%)
170
(100%)
La pregunta que nos hacemos es sta: la diferencia en responder s entre

estos dos grupos (entre el 81% del grupo A y el 58% del grupo B) Es mayor
de lo que podramos esperar por azar? Existe una diferencia estadsticamente significativa entre los dos porcentajes?
Para comparar proporciones tanto entre muestras independientes como
entre muestras relacionadas, posiblemente el procedimiento ms utilizado es
la prueba del ji cuadrado12, que por otra parte es muy sencillo. Con ambos
procedimientos se llega a las mismas conclusiones. Tratando del contraste de
medias es oportuno ver tambin cmo se aplica al contraste de proporciones.
12
La prueba del ji cuadrado la tratamos en el captulo siguiente.
281
Aunque los resultados los expresemos frecuentemente en porcentajes

(%), los clculos se hacen con proporciones. El procedimiento es anlogo al
del contraste de medias: dividimos una diferencia entre proporciones por el
error tpico de la diferencia entre dos proporciones, que est en el denominador de la frmula [10]. En rigor lo que tenemos en el numerador no es la
diferencia entre dos proporciones, sino la diferencia entre una diferencia (la
nuestra) y una diferencia de cero.
En la frmula [10] tenemos en el denominador el error tpico de la diferencia entre dos proporciones13.
Y aplicando la frmula [10] a nuestros datos:
La probabilidad de que la diferencia sea aleatoria es casi del 1 por mil.

6. ANLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CMO CUANTIFICAR LA MAGNITUD
DE LA DIFERENCIA
6.1. Finalidad del tamao del efecto

Para obviar las limitaciones del mero contraste de medias, se ha ido imponiendo el clculo del denominado tamao del efecto (effect size en ingls).
13
En muchos textos la frmula aducida para el contraste de proporciones independientes es la misma frmula vista para el contraste de medias (frmula [5]), con la salvedad de que se utiliza pq para expresar las varianzas de los dos grupos (p1q1 y p2q2 en vez de
esta frmula es correcta cuando p y q tienen valores parecidos; cuando los valores de p o q son muy extremos, y siempre en general, la frmula preferible es la puesta
aqu (en Downie y Heath, 1971, puede verse una explicacin ms amplia); adems es utilizando esta frmula cuando la equivalencia con el ji cuadrado (tablas 2x2) es exacta (z2 =
c2). Este contraste de proporciones y procedimientos alternativos (ji cuadrado) puede
verse tambin en el captulo IX.
282
La expresin es quizs poco afortunada; el trmino tamao ya expresa que se

trata de cuantificar una diferencia; del efecto se refiere al resultado de un tratamiento experimental o consecuencia de una determinada variable independiente, pero estos trminos se utilizan tambin en los casos en los que hay un
simple contraste de medias, sin un diseo experimental propiamente dicho14.
Como ya hemos indicado anteriormente, al comparar dos medias nos hacemos dos preguntas:
1 Podemos afirmar que la diferencia encontrada entre dos muestras es extrapolable a las poblaciones representadas por esas muestras? A esta pregunta respondemos con el contraste de medias habitual (t de Student).
2 Cules la magnitud de la diferencia? Grande, pequea? La magnitud nos servir adems para juzgar sobre la relevancia de la diferencia.
La informacin que nos da el tamao del efecto nos ayuda a responder a
esta segunda pregunta. Cuando se trata de una diferencia entre proporciones, las diferencias posibles oscilan entre 0 y 1; en este caso no hay mayor
problema tanto para apreciar la magnitud de la diferencia como para comparar unas diferencias con otras, pero esta comparacin directa no es posible
cuando las escalas mtricas utilizadas son distintas.
6.2. Procedimientos en el clculo del tamao del efecto
Los procedimientos ms utilizados (hay otros) son dos (que a su vez admiten variantes):
1 El clculo de coeficientes de correlacin (que como todo coeficiente
de correlacin cuantifican de 0 a 1 los resultados);
2 Una diferencia tipificada, que es lo que con ms propiedad, o al menos ms habitualmente, se denomina tamao del efecto.
6.2.1. El coeficiente de correlacin biserial- puntual
Una manera de cuantificar la magnitud de la diferencia en trminos
ms interpretables consiste en convertir el valor de t en un coeficiente de correlacin biserial-puntual (rbp) en el que una variable es dicotmica (perte14
El clculo del tamao del efecto lo exige ya la poltica editorial de buenas revistas
(como Educational and Psychological Measurement, Thompson, 1996, y muchas otras
como Journal of Experimental Education y Journal of Applied Psychology, Hubbard y
Ryan, 2000; Huberty (2002) menciona 19 revistas en las que se exige presentar el tamao
del efecto) y figura en las orientaciones (guidelines) de la American Psychological Association (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs,
1999, American Psychological Association, 2001).
283
necer a uno u otro grupo, 1 0), y la otra variable es continua (la utilizada al
comparar las medias). Estos coeficientes son semejantes al coeficiente de correlacin de Pearson (r) y se interpretan de manera semejante; el trmino biserial-puntual indica que una de las dos variables es dicotmica.
La conversin del valor de t en un coeficiente de correlacin se hace mediante esta frmula:
Si los grupos son de idntico tamao, tendramos el mismo resultado si

calculramos directamente la correlacin entre pertenecer a uno u otro grupo (1 0) y la puntuacin de cada sujeto en la variable dependiente (la que
hemos medido).
Podemos verlo con ejemplo sencillo: tenemos estas dos muestras de cuatro sujetos cada una y calculamos la t de Student para contrastar las medias:
grupo A
grupo B
9
9
7
8
5
9
6
6
X= 8.25
s = .83
Calculamos la t de Student:
6.50
1.5
Podemos pensar ahora en trminos de correlacin entre la variable que

hemos medido (X) y el pertenecer o no a uno de los grupos (Y): pertenecer
al grupo A = 1 y B (no pertenecer al grupo A) = 0
Disponemos los datos de la manera usual (dos columnas, x e y):
X
9
9
7
8
5
9
6
6
Y
1
1
1
1
0
0
0
0
284
Si calculamos la correlacin (que denominamos biserial-puntual porque

una de las dos variables es dicotmica) tenemos que r = .585
Ahora calculamos el mismo coeficiente a partir del valor de t, frmula [11]:
; hemos llegado al mismo resultado
Un mismo valor de t va a equivaler a coeficientes de correlacin ms bajos

segn aumente el nmero de sujetos (aumentar el denominador y disminuir el cociente). Podemos verlo en este ejemplo (tabla 1) en que se mantiene
constante el valor de t (en todos los casos p < .01) y se van variando los grados de libertad (nmero de sujetos).
Tabla 1
N1
N2
gl
rbp
20
50
100
500
20
50
100
500
38
98
198
998
3.60
3.60
3.60
3.60
.50
.34
.25
.11
.25
.12
.06
.01
A este coeficiente de correlacin tambin se le denomina genricamente

tamao del efecto, aunque la expresin tamao del efecto se suele reservar
para la diferencia tipificada que veremos despus. Algunos autores, para distinguir ambos clculos, denominan a esta correlacin magnitud del efecto.
La finalidad y utilidad de este coeficiente de correlacin es clara:
1 Es un dato sobre la magnitud y no sobre si una diferencia es simplemente estadsticamente significativa o no (si es o no es extrapolable a
la poblacin el hecho de una diferencia distinta de cero).
2 Dos valores de t obtenidos en pares de muestras de tamao distinto, o
en variables distintas, no son fcilmente comparables entre s; en cambio esta conversin nos traduce el resultado (una diferencia) a trminos comparables y ms fcilmente interpretables. Los juicios sobre si
una diferencia es o no es relevante, de importancia prctica, etc., no
dependen solamente de que sea estadsticamente significativa (a veces
nos puede bastar con eso), sino tambin de que sea grande o peque-
285
a; incluso una diferencia no estadsticamente significativa puede ser

importante en una situacin dada si es grande.
Cuando nos planteamos un contraste de medias podemos plantearnos como anlisis alternativo el simple clculo de la correlacin entre la pertenencia
a un grupo u otro (1 0) y la variable dependiente; por lo que respecta a rechazar o no la Hiptesis Nula, las conclusiones van a ser las mismas.
6.2.2. Tamao del efecto (diferencia tipificada)
6.2.2.1. Concepto y frmula general
El clculo ms frecuente para cuantificar la diferencia entre dos medias y
apreciar mejor su magnitud lo tenemos expresado por la frmula general (admite variantes que veremos despus)15:
Tamao del efecto (muestras independientes):
[12]
Los smbolos para expresar el tamao del efecto varan segn las frmulas
utilizadas para calcular la desviacin tpica del denominador; en la frmula [12]
utilizamos el smbolo d porque corresponde a una de las frmulas ms utilizadas (de Cohen). Con frecuencia se utiliza d como smbolo genrico del tamao
del efecto, pero hay otros smbolos que iremos viendo (como g y D) y que corresponden a otras frmulas; a veces se utiliza ES (del ingls Effect Size).
Aunque la desviacin tpica del denominador se puede calcular de diversas maneras (a partir de las desviaciones tpicas que ya conocemos en las
muestras) es en todo caso una estimacin de la desviacin tpica de la poblacin comn a ambos grupos. Lo que es importante ahora es captar que el tamao del efecto es una diferencia tipificada: una diferencia entre dos medias dividida por una desviacin tpica. Viene a ser lo mismo que una
puntuacin tpica (z) (como podemos ver por la frmula [12]), por lo que su
interpretacin es sencilla y muy til.
Antes de ver las frmulas especficas de la desviacin tpica del denominador, es de especial inters entender las interpretaciones y usos del tamao
del efecto, que se derivan del hecho de que se puede interpretar como una
15
Una presentacin completa del tamao del efecto en Coe (2000) (en Internet); tambin se encuentra ampliado en Morales (2007c, El tamao del efecto (effect size): anlisis complementarios al contraste de medias).
286
puntacin tpica (realmente es una diferencia expresada en desviaciones

tpicas).
6.2.2.2. Interpretacin y utilidad del tamao del efecto (diferencia tipificada)
Antes de exponer los diversos modos de hallar la desviacin tpica del denominador podemos aclarar cmo se interpreta este tamao del efecto y
cul es su utilidad.
1 Comparacin de diferencias que provienen de medidas obtenidas con instrumentos distintos
Lo que obtenemos mediante estas frmulas es una diferencia tipificada: nos
dice a cuntas desviaciones tpicas equivale la diferencia entre dos medias.
La primera consecuencia que se deriva de esta transformacin es que el
valor de este tamao o magnitud es independiente de las puntuaciones
originales; todas las diferencias quedan expresadas en el mismo sistema
de unidades y por lo tanto estos valores son comparables entre s aun
cuando vengan de estudios distintos e incluso aunque se hayan utilizado
instrumentos distintos. Es lo mismo que sucede con las puntuaciones tpicas convencionales: vengan de donde vengan sus magnitudes son comparables entre s.
Si, por ejemplo, hemos comparado dos grupos en autoestima utilizando en una ocasin una escala con 4 respuestas, y en otra ocasin, con otros
dos grupos, hemos hecho la misma comparacin utilizando una escala con
6 respuestas o con otros tems, las diferencias entre las medias no son
comparables directamente entre s, pero s lo son las diferencias tipificadas. Si utilizamos mtodos distintos de aprendizaje con dos grupos y comparamos despus su rendimiento en dos asignaturas distintas, con tests
distintos, etc., las diferencias entre estos grupos no se pueden comparar
directamente entre s (puede haber incluso un nmero distinto de preguntas en cada test), pero s podemos comparar los dos tamaos del efecto, y
comprobar en qu asignatura uno de los mtodos ha sido mejor que el
otro.
2 Sntesis cuantitativas de resultados que provienen de estudios distintos
Como todos los valores del tamao del efecto son comparables entre s,
de estos valores se puede calcular la media procedente de estudios diferentes, para resumir todos los resultados en un nico dato. Este es el precisamente el procedimiento utilizado en el meta-anlisis para integrar los resultados de diversos estudios. La tcnica del meta-anlisis se utiliza para
establecer el estado de la cuestin en un determinado tema, integrando los
287
resultados de estudios mltiples, con un menor peligro de subjetivismo que

en las revisiones puramente cualitativas (que tampoco se excluyen).
Sin necesidad de hacer un meta-anlisis en sentido propio, cualquier investigador que haya hecho varios estudios comparando diversos pares de medias en la misma variable, puede calcular la media de los tamaos del efecto
para presentar una sntesis de sus resultados. Tambin puede verificar qu caractersticas (por ejemplo de la situacin, de la muestra, etc.) estn asociadas
al tamao del efecto (calculando coeficientes de correlacin, o haciendo anlisis equivalentes, entre estas caractersticas y el tamao del efecto; cada estudio o comparacin particular se convierte en el sujeto del nuevo anlisis).
Esta posible integracin de estudios o experimentos pequeos puede ser
de mucho inters. Cada estudio en particular puede ser poco conclusivo o tener muchas limitaciones, o pueden tener resultados bastante distintos de
otros semejantes (diferencia grande en una ocasin, pequea en otra, etc.),
pero la posibilidad integrar todos los resultados revaloriza los pequeos estudios o experimentos y los hace ms tiles16.
3 Valoracin de la relevancia y significacin prctica de las diferencias
Si suponemos que la distribucin es normal en la poblacin (y en principio podemos suponerlo), esta diferencia tipificada nos da una informacin
adicional que nos permite valorar mejor la relevancia de nuestros resultados.
El que una diferencia sea estadsticamente significativa puede no decir mucho en trminos de relevancia; adems tampoco es fcil formular juicios sobre la magnitud de una diferencia observando solamente la diferencia en trminos absolutos. Y sin una idea clara sobre la magnitud es difcil formular
juicios sobre relevancia prctica.
Para interpretar y valorar el tamao del efecto nos basta saber que en definitiva se trata de una puntuacin tpica, su relacin con la distribucin normal nos es aqu muy til. Para interpretar el tamao del efecto buscamos en
las tablas de la distribucin normal (en el rea mayor) cuantos sujetos caen
por debajo de la puntuacin tpica que es igual a nuestro tamao del efecto.
Si, por ejemplo, obtenemos un tamao del efecto de d = 1 al comparar
dos medias, la diferencia entre las dos medias es de una desviacin tpica
(figura 8).
16
Una exposicin ms amplia sobre el origen del meta-anlisis y su utilidad puede verse en Morales (1993).
288
Figura 8
a) La media del grupo con media mayor se aparta una desviacin tpica de la media del grupo con media ms pequea. La media ms pequea es ahora igual a 0 y la media mayor es igual a 1 (se aparta 1s de
la otra media).
b) Segn las proporciones que nos indica la tabla de la distribucin normal, el sujeto medio del grupo con media mayor, supera al 84% de los
sujetos del grupo con media menor (con frecuencia el grupo de control). La misma puntuacin que en un grupo (el de media mayor) equivale al Percentil 50, en el otro grupo (con media menor) corresponde
al Percentil 84: el mismo sujeto medio del grupo con media mayor supera a un 34% ms de sujetos si lo incluimos en el grupo con media
ms baja.
Sobre cundo se puede considerar grande o pequeo un determinado valor
del tamao del efecto, suelen aceptarse estas orientaciones (Cohen, 1988)17:
d = .20 (pequeo),
d = .50 (moderado)
d = .80 (grande).
Estas orientaciones son un tanto arbitrarias aunque son muy aceptadas como razonables y citadas en la bibliografa experimental.
17
Otras valoraciones y su justificacin pueden verse en Lane, David (Rice University)
(2007) (en 18. Measuring Effect Size).
289
Siguiendo las valoraciones de Cohen tenemos que (tabla 2):

Tabla 2
El sujeto medio del grupo con media mayor
Tamao del efecto
d = .20
d = .50
d = .80
supera en su propio
grupo al
50 %
50 %
50 %
supera en el grupo
con media inferior al
58 % (diferencia pequea)
69 % (diferencia moderada)
79 % (diferencia grande)
La interpretacin basada en la distribucin normal es slo literalmente vlida si las distribuciones observadas en los dos grupos son normales; pero si
se apartan de la distribucin normal cabe hablar de aproximaciones; en cualquier caso se trata de un dato sobre la magnitud de la diferencia, una magnitud expresada en desviaciones tpicas y en el nmero de sujetos que caen por
debajo de esa puntuacin tpica.
La justificacin de estas valoraciones va en esta lnea:
a) Las diferencias pequeas (en torno a d = .20) pueden parecer muy
pequeas como referencia til y ciertamente su relevancia prctica
puede ser nula o escasa, pero estas pequeas diferencias pueden igualmente ser de inters en muchas situaciones: en reas nuevas de investigacin, en estudios meramente explorativos (para ver si merece la pena continuar), cuando los diseos son muy modestos y no se
controlan bien otras variables, o cuando se utilizan instrumentos de
medicin muy limitados o en perodo de experimentacin, etc.; en este tipo de situaciones podemos suponer que con mejores instrumentos y diseos estas diferencias podran mayores18.
b) Por diferencias moderadas (en torno a d = .50) se entienden aqu aquellas diferencias entre grupos que pueden detectarse por simple observacin o aquellas diferencias que la experiencia nos hace caer en la cuenta
de que efectivamente estn all (por ejemplo, un determinado tipo de
alumnos suele terminar mejor que los dems, etc.); traducidas estas diferencias a coeficientes de correlacin, estos coeficientes pueden tener un
valor en torno a .25 .30.
18
Como nota el autor (Cohen, 1988), en la investigacin sobre personalidad, psicologa clnica, etc., es normal encontrar diferencias (o correlaciones) pequeas en parte por
los problemas de validez en los instrumentos utilizados y en buena parte tambin por la
complejidad de las situaciones, interaccin entre variables, etc. Cohen (1988) justifica bien
estas valoraciones que propone simplemente como orientadoras.
290
Convencionalmente suele considerarse un valor de d = .50 como de

significacin prctica (importante); cuando se trata de resultados
de rendimiento escolar o de investigacin educacional se consideran de relevancia prctica valores en torno a .30 (Borg, Gall, y Gall,
1993; Valentine y Cooper, 2003).
c) El considerar una diferencia grande a partir de d = .80 puede parecer
poco a simple vista; es muy frecuente encontrar tamaos del efecto
mucho mayores. Lo que se tiene aqu en cuenta al valorar como grande una magnitud que no lo es mucho en trminos absolutos, es que no
merece la pena limitarse a definir como grandes aquellas diferencias
tan obvias que prcticamente hacen intil el anlisis estadstico19.
Con frecuencia es ms informativo comparar unos valores con otros
cuando tenemos varios tamaos del efecto en una misma investigacin
o en el mismo planteamiento, o buscar como referencia qu valor suele
obtenerse en estudios similares. En cualquier caso el comprobar el percentil del sujeto medio del grupo con media mayor (en el que estara en
el percentil 50 en su propio grupo) cuando le situamos en el grupo con
media inferior nos permite apreciar mejor si la diferencia es importante.
4 El tamao del efecto cuando la diferencia no es estadsticamente
significativa
El proceso normal en un contraste de medias es 1 descartamos el azar
(verificamos si la diferencia es estadsticamente significativa) y 2 verificamos la magnitud de la diferencia (tamao del efecto). Cuando el valor de t no
es estadsticamente significativo el tamao del efecto suele ser tambin muy
pequeo, pero no siempre es ste el caso, sobre todo con muestras pequeas. Una diferencia grande calculada en muestras pequeas puede darnos un
valor de t que no es estadsticamente significativo, por esta razn merece la
pena calcular el tamao del efecto cuando la diferencia no es estadsticamente significativa, sobre todo si se trata de muestras pequeas.
El que el valor de t no sea estadsticamente significativo quiere decir que la
diferencia no es extrapolable a las poblaciones representadas por esas dos muestras, al menos con los sujetos disponibles, y no se puede presentar como un resultado o conclusin segn el nivel de confianza especificado previamente, pero puede tener su importancia en una situacin concreta, en la que adems, si
contramos con ms sujetos, la diferencia sera probablemente estadsticamente significativa; esto es algo que al menos se puede proponer como hiptesis.20
19
Cohen (1988) cita aqu un comentario de Tukey: el confirmar diferencias muy grandes y obvias con anlisis estadsticos equivale a una canonizacin estadstica.
20
Sobre si se debe o no calcular y exponer el tamao del efecto cuando la diferencia
no es estadsticamente significativa es algo discutido entre autores (Gliner, Leech y Mor-
291
Un ejemplo real21:
Para evaluar la eficacia de una terapia familiar se comparan un grupo
experimental (N = 10) con un grupo de control (N = 11). El valor de t es
1.62, claramente no significativo; con estos datos no podemos afirmar que la
diferencia en las poblaciones sea distinta de cero. Con tan pocos sujetos (la
unidad de anlisis no es propiamente cada sujeto individual, sino cada familia) no es tan fcil obtener diferencias estadsticamente significativas, aunque
la diferencia est favor del grupo experimental (y de la eficacia de la terapia).
Encontramos sin embargo que el tamao del efecto (al comparar los dos
grupos en nivel de conflicto familiar despus de la terapia) es d = .69. Por
debajo de z = .69 cae el 75 % de los casos; esto quiere decir que la familia
media del grupo experimental supera en ausencia o disminucin de conflictos al 75 % de las familias del grupo de control. Es una diferencia de tamao
moderado-alto que indica que algo positivo y de inters est sucediendo
aqu; es un buen resultado que se puede quizs confirmar con mayor seguridad en estudios semejantes. Esta es una conclusin ms sensata que el limitarse a enunciar sin ms que la diferencia no es estadsticamente significativa, no ha habido cambio, aceptamos la hiptesis nula, etc. Por otra parte la
mera diferencia entre las dos medias no nos dice nada de particular si no la
traducimos al tamao del efecto para apreciar mejor la magnitud de esa diferencia. Una diferencia de magnitud apreciable (tal como lo vemos en el tamao del efecto) pero que no es estadsticamente significativa nos permite al
menos proponer y justificar hiptesis para futuras investigaciones.
5 Tamao del efecto y tamao de la muestra
El tamao de la muestra suele plantearse cuando interesa extrapolar los
resultados a la poblacin con un margen de error pequeo o al menos tolerable. Esto es lo que sucede con los sondeos de opinin de carcter sociolgico, y de este punto hemos tratado brevemente a propsito del error tpico de
la media.
Frecuentemente no estamos interesados directamente en extrapolar
nuestros resultados a una poblacin grande, sino en detectar posibles diferencias entre determinadas muestras; por ejemplo nos puede interesar verigan, 2002). Las recomendaciones de la A.P.A. son sin embargo muy claras always report
effect sizes (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs, 1999); una razn para calcular el tamao del efecto, aunque la diferencia no sea estadsticamente significativa, es adems que facilita el integrar los resultados de cualquier investigacin en un meta-anlisis.
21
Tomado de Olalla, Consuelo (1993), Relaciones familiares y su modificacin a travs de la terapia familiar sistmica. Tesis doctoral, Madrid, Universidad Pontificia Comillas.
292
ficar un cambio en funcin de un tratamiento, o verificar diferencias entre

grupos en planteamientos de evaluacin, etc. En estos casos el tamao de la
muestra depende (no solamente) de la magnitud de la diferencia que nos
interesa detectar.
Es importante captar la relacin entre tamao de la muestra y la magnitud de la diferencia en la que estamos interesados. Las diferencias grandes
se detectan con facilidad en muestras pequeas. Un ejemplo sencillo: para
comprobar si pigmeos y escandinavos difieren en altura no necesitamos
muestras grandes: la diferencia la veremos con muy pocos sujetos porque se
trata de una diferencia que se aprecia a simple vista. Para captar diferencias
pequeas y sutiles entre grupos, necesitaremos muestras mayores. Ya lo hemos indicado al tratar sobre las variables que influyen en el valor de t. Con
muestras grandes minimizamos la posibilidad de no ver diferencias cuando s
las hay, aunque sean pequeas.
En la prctica no solemos estar muy interesados en detectar diferencias
muy pequeas, por ejemplo un cambio pequeo en funcin de un mtodo o
tratamiento; en ese caso necesitaramos muchos sujetos. Si nos interesan solamente diferencias (tamaos del efecto) grandes, necesitaremos menos sujetos, aunque dejaremos fuera la posibilidad de encontrar diferencias no muy
grandes, pero que pueden ser de inters. En la prctica podemos buscar un
punto de equilibrio y buscar el nmero de sujetos suficiente para encontrar
diferencias de magnitud moderada.
Como criterio orientador, en la tabla 3 tenemos el tamao de la muestra
necesario segn el tamao del efecto que estemos interesados en detectar, a
un nivel de confianza de a = .05 .01 (como es usual, un 5% de probabilidades de no equivocarnos al rechazar la hiptesis nula de no diferencia), y una
probabilidad del 80% de aceptar la hiptesis alterna cuando es verdadera22.
Tabla 3
nivel de
d =.20
d = .30 d =.50 d = .70
d =.80
d =.1.0 d =1.20
confianza
.05
392
174
63
32
25
16
12
.01
586
260
93
48
36
23
18
22
Estas cifras (redondendolas) las tomamos de Cohen (1988). Una exposicin detallada de las variables que influyen en el tamao de la muestra, incluido el tamao del efecto
deseado o previsto, y de las frmulas apropiadas para calcularlo pueden verse en otros
autores como Kirk (1995), Hinkle, Wiersma y Jurs (1998) y en otros autores.
293
Si por ejemplo estamos interesados en detectar diferencias grandes (d =

.80) con un nivel de confianza de a = .05 (5% de probabilidades de no encontrarlas si las hay), nos bastan grupos de 25 sujetos; si nos interesa encontrar
diferencias aunque sean pequeas (como d = .30) nos harn falta muestras
mucho mayores (de unos 174 sujetos). Naturalmente de hecho podemos detectar diferencias de estas magnitudes con muestras ms pequeas, pero tambin nos exponemos a no verlas por falta de sujetos.
6.2.2.3. Frmulas del tamao del efecto: desviacin tpica del denominador
Vamos a distinguir cuatro posibilidades
1 Diferencia entre las medias de dos muestras independientes, cuando
no se trata de un diseo experimental (no hay un grupo de control
propiamente dicho).
2 Diferencia entre las medias de dos muestras relacionadas (diferencia
entre el pre-test y el post-test de la misma muestra).
3 Diferencia entre las medias de un grupo experimental y otro de control
(diseo experimental).
cuando los dos han tenido pre y post-test.
1 Dos muestras independientes
ste es el caso posiblemente ms frecuente. Tenemos dos maneras muy
parecidas de calcular la desviacin tpica combinada, la de Cohen (1977,
1988) y la de Hedges y Olkin (1985).
En la frmula del tamao del efecto de Cohen (smbolo d) se utilizan las
desviaciones tpicas de las muestras, dividiendo por N (aqu las simbolizamos
como sn).
En la frmula del tamao del efecto de Hedges (smbolo g) se utilizan las
desviaciones tpicas de la poblacin, dividiendo por N-1 (aqu las simboliza23
mos como sn-1) .
Cohen: d =
donde
[13]
Las desviaciones tpicas de la frmula [13] (Cohen) se calculan dividiendo por N (desviacin tpica de las muestras)
23
El smbolo g lo pone Hedges en homenaje a Gene Glass, autor importante en el
campo del meta-anlisis.
294
Hedges: g=
donde
[14]
Las desviaciones tpicas de la frmula [14] (Hedges) se calculan dividiendo por N-1 (estimacin de la desviacin tpica de las poblaciones)
Estas desviaciones tpicas del denominador del tamao del efecto no son
otra cosa que una combinacin de las desviaciones tpicas de las dos muestras; por eso suelen denominarse desviacin tpica combinada (en ingls
pooled standard deviation). Podemos verlo fcilmente (en la frmula de Cohen se ve con ms facilidad): utilizamos ahora la varianza en vez de la desviacin tpica para eliminar la raz cuadrada:
Sabemos que s2 =
de donde
Para combinar dos desviaciones tpicas sumamos los dos numeradores y

los dos denominadores, que es lo que tenemos en las frmulas anteriores (en
el caso de la g de Hedges se utiliza N-1 en vez de N, como es usual cuando se
trata de la estimacin de la desviacin tpica de la poblacin).
Cuando N = N (muestras de idntico tamao) en ambos casos (frmulas
[13] y [14]) la desviacin tpica combinada es igual a la raz cuadrada de la media de las varianzas:
scombinada
[15]
Podemos ver la diferencia entre las dos frmulas en un ejemplo concreto

(ficticio, tabla 3). Tenemos dos grupos (muestra A y muestra B) de cuatro sujetos cada una. Calculamos en cada muestra la media y las dos desviaciones tpicas; para diferenciarlas utilizamos los subndices n (dividimos por N) y n-1
(dividimos por N-1).
295
Tabla 3
Muestra A
Muestra B
16
12
14
14
14
1.414
1.633
18
14
16
18
16.5
1.658
1.915
Media
sn
sn-1
En este caso la diferencia no es estadsticamente significativa (t =1.987,

p = .094) pero el tamao del efecto, calculado con cualquiera de las dos
frmulas, puede considerarse como grande; esto no es inusual en muestras
pequeas.
No podemos afirmar que ambas muestras procedan de poblaciones distintas (no afirmamos una diferencia distinta de cero en la poblaciones) , pero
tampoco debemos ignorar la diferencia entre estos dos grupos de sujetos
concretos.
Vamos a calcular los dos tamaos del efecto (Cohen y Hedges):
Desviacin tpica combinada
tamao del efecto
Cohen: s =
d=
Hedges: s =
g=
Es natural que el tamao del efecto sea mayor con la frmula de Cohen
porque el denominador es menor (las desviaciones tpicas de las muestras
son menores que las desviaciones tpicas estimadas en la poblacin).
Como en este ejemplo se trata de muestras de idntico tamao, podemos
utilizar la frmula [15] para calcular la desviacin tpica combinada:
296
Cohen: s =
Hedges: s =
De cualquiera de estas dos frmulas de la desviacin tpica combinada

([13] y [14]) podemos pasar a la otra:
sCohen = sHedges
[16]
sHedges =
[17]
Con los datos del ejemplo anterior:

sCohen =
sHedges=
Lo habitual es combinar la desviacin tpica de dos grupos, pero tambin

pueden ser ms de dos grupos24.
Podemos utilizar cualquiera de las dos frmulas (Cohen y Hedges); posiblemente la de uso ms frecuente es la de Cohen [13], que se puede utilizar
rutinariamente.
Ya hemos visto (frmulas [16] y [17]) que de una desviacin tpica podemos pasar a la otra (de la desviacin tpica de la muestra sn a la de la poblacin sn-1 y viceversa); de manera anloga podemos pasar de un tamao del
efecto al otro (de d a g y de g a d). Ambas frmulas del tamao del efecto se
relacionan de esta manera (Rosenthal, 1994):
24
Si en el mismo planteamiento tenemos ms de dos grupos, como sucede en el anlisis de varianza, podemos calcular la magnitud del efecto (o diferencia tipificada) entre
cualesquiera dos grupos utilizando en el denominador la desviacin tpica combinada de
todos ellos. En el anlisis de varianza para muestras independientes los cuadrados medios dentro de los grupos (el denominador de la razn F) es precisamente la combinacin
de las varianzas de los diversos grupos; esto se ve, naturalmente, al tratar del anlisis de varianza, pero no sobra indicarlo aqu
297
[19]
[18]
Las frmulas [18] y [19] son semejantes a las frmulas [16] y [17], substituyendo el valor de la desviacin tpica combinada por el tamao del efecto.
2 Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la
misma muestra)
Cuando se trata de muestras relacionadas, se utiliza en el denominador
la desviacin tpica del post-test; en estos casos se verifica la magnitud del
cambio:
[20]
Tambin es frecuente utilizar en el denominador la desviacin tpica combinada de antes y despus; en cualquier caso conviene indicar qu desviacin
tpica se ha utilizado.
(diseo experimental) sin pre-test
La frmula habitual (y con D, delta mayscula, como smbolo) es la propuesta por Glass, McGaw y Smith (1981), en la que se utiliza la desviacin tpica del grupo de control (dividiendo por N -1):
[21]
a) La alternativa a utilizar en el denominador la desviacin tpica del grupo de control, es la desviacin tpica combinada de los dos o ms
grupos (frmulas [12] o [13]); sta es tambin una prctica muy comn y autorizada.
b) El utilizar la desviacin tpica del grupo de control es ms recomendable cuando hay varios grupos experimentales con desviaciones tpicas
muy distintas, o cuando el grupo de control es muy grande.
298
4 Grupos experimental y de control cuando los dos han tenido pre y

post-test
Cuando tenemos dos grupos, experimental y de control, y los dos con pre
y post-test, hay varios procedimientos25 pero es aceptable utilizar la frmula
[13] o [14] con los datos del post-test, sobre todo si no hay diferencias importantes en el pre-test.
6.3. Transformaciones de unos valores en otros
Los valores de la t de Student, coeficiente de correlacin (r) y diferencia tipificada (d o g) estn relacionados entre s, de manera que a partir de cualquiera de ellos podemos pasar a los otros. Estas transformaciones pueden ser
muy tiles.
Ya hemos visto antes cmo calcular el coeficiente de correlacin a partir
de la t de Student (frmula [11]), y cmo calcular el tamao del efecto de Cohen (d) a partir del tamao del efecto de Hedges (g) (y viceversa, frmulas
[16] y [17]).
Cuando se ha calculado previamente la t de Student se puede calcular directamente el tamao del efecto (d g), de la misma manera que del tamao del efecto podemos pasar a la t de Student:
[22]
[23]
Si se trata del tamao del efecto g de Hedges (14], para calcularlo a partir
de la t de Student podemos distinguir cuando se trata de muestras de tamao
idntico o desigual26:
con muestras de idntico tamao con muestras de tamao desigual
[24]
[25]
Tambin podemos pasar de la magnitud del efecto a un coeficiente de

correlacin.
25
26
Expuestos y discutidos en Glass, McGaw y Smith (1981).

Frmulas tomadas de Mahadevan (2000), pero es fcil encontrarlas en otros autores.
299
[26]
[27]
En la frmula [27] p es igual a la proporcin de sujetos que corresponde a

uno de los dos grupos (n1/(n1+n2)) y q es igual a 1-p o la proporcin de sujetos en el otro grupo. Si los grupos son de idntico tamao tenemos que p =
q = .5 y 1/pq = 4, tal como aparece en la frmula [26].
Si se trata de convertir el valor de g (tamao del efecto de Hedges) en un
coeficiente de correlacin, la frmula propuesta es la [28] (Mahadevan, 2000):
[28]
Tambin podemos calcular el valor de d (tamao del efecto de Cohen) a

partir del coeficiente de correlacin.
[29]
Sobre estas conversiones de unos valores en otros:

a) Los resultados son los mismos solamente cuando el nmero de sujetos
en los dos grupos es idntico; en este caso da lo mismo calcular el tamao del efecto con las frmula directas que calcularlos a partir de la t
de Student.
b) Cuando el nmero de sujetos es desigual, la frmulas del tamao del
efecto calculadas a partir de t dan slo una aproximacin, pero muy
cercana al valor exacto del tamao del efecto cuando los grupos no son
muy distintos en tamao, del orden del 40% en uno y el 60% en el otro
(Rosenthal, 1987).
Todas estas conversiones27 pueden ser tiles por estas razones:
a) A veces facilitan las operaciones; lo ms cmodo puede ser calcular el
valor del tamao del efecto a partir del valor de t (frmula [21]), sobre
todo cuando los tamaos de las muestras son iguales o muy parecidos.
27
Estas y otras conversiones pueden encontrarse en diversos autores, por ejemplo en
Rosenthal, 1987, 1991, 1994; Wolf, 1986; Hunter y Schmidt, 1990, Kirk, 1996, y otros.
300
b) Aunque prefiramos un enfoque determinado, el utilizar otro enfoque

puede ayudar a la interpretacin. Lo ms frecuente es calcular una diferencia tipificada, pero el coeficiente de correlacin elevado al cuadrado
nos dice la proporcin de varianza debida a la variable experimental o
a pertenecer a un grupo o a otro y es tambin un dato de inters para
interpretar los resultados.
c) Puede interesar presentar con la misma mtrica resultados que provienen de diversos estudios en los que se han utilizado anlisis distintos (t, r, etc.,). Esto es til para hacer comparaciones y para calcular
medias como resumen de los resultados de estudios distintos pero todos expresados en trminos del tamao del efecto (es lo que se hace
en el meta-anlisis o integracin cuantitativa de los resultados de varios estudios o experimentos, y que se utiliza sobre todo para exponer
el estado de la cuestin en un determinado tema).
6.4. Utilidad del tamao del efecto: resumen
El clculo del tamao del efecto es de especial utilidad por varias razones:
1 El tamao del efecto informa sobre la magnitud de la diferencia y no
sobre la probabilidad de que est dentro de lo aleatorio. Diferencias estadsticamente significativas pueden ser muy pequeas y poco relevantes. Aporta una informacin bsica para apreciar la relevancia de la diferencia en una situacin dada, y esto incluso aunque la diferencia no
sea estadsticamente significativa.
2 Se utiliza una mtrica comn que permite presentar diversos resultados, obtenidos de maneras distintas, incluso con instrumentos distintos,
en pares de muestras distintos, con los mismos estadsticos, de manera
que las magnitudes de las diferencias sean comparables directamente.
3 Permite calcular la media de varios tamaos del efecto, procedentes
de estudios distintos, para presentar una sntesis cuantitativa (como
se hace en la tcnica del meta-anlisis, o sntesis integradoras de los
resultados de varios estudios) y dejar as ms claro el estado de la cuestin cuando disponemos de varias investigaciones sobre la misma variable aunque haya sido medida con instrumentos distintos.
301
ANEXO 1: MODELO DEL CONTRASTE DE MEDIAS, RESUMEN

1 Preguntas que nos hacemos
1 Estas dos medias, Pertenecen a muestras de
la misma poblacin? O pertenecen a muestras de poblaciones distintas que tienen distinta media?
2 La diferencia entre estas dos medias Es mayor de la que se puede esperar por puro
azar? Porque si la diferencia est dentro de lo
normal, habr que concluir que ambas medias pertenecen a muestras de la misma poblacin; no habr que interpretar la diferencia como una verdadera diferencia, ya que el
error muestral explica suficientemente esa
diferencia.
3 Esta diferencia entre dos medias, Se aparta
mucho, ms de lo normal de la diferencia
cero? Si no se aparta significativamente de la
diferencia cero habr que interpretarla como
una no diferencia entre las poblaciones.
Estas tres preguntas son

equivalentes: lo que nos
preguntamos, de diversas
maneras, es si las dos
muestran pertenecen o
no a la misma poblacin.
Teora subyacente:
distribucin muestral de
las diferencias entre
medias; error tpico de la
distribucin muestral.
2 Proceso para llegar a una respuesta

1 Calculamos una diferencia entre dos medias

(d = |X1 X2|);
2 Esta diferencia, en el caso de que las muestras pertenezcan a la misma poblacin, Es
probable o es improbable? (es decir es normal o rara, esperable o no esperable)
Para comprobarlo debemos calcular en
cuntas sigmas (aqu errores tpicos) se
aparta esa diferencia de la diferencia media
de cero, que es la media de las diferencias
cuando las dos muestras pertenecen a la
misma poblacin y no hay ms diferencias
que las casuales.
Para comprobar si esta diferencia es normal
calculamos su puntuacin tpica: z = (d - 0)/sd
que nos dir si la diferencia est dentro de lo
normal y probable
302
Teora subyacente:
relacin entre
puntuaciones tpicas y
probabilidad de
ocurrencia en la
distribucin normal.
La media es 0 en este
caso; sd es el error tpico
(desviacin tpica) de la
distribucin de las
diferencias entre medias
de la misma poblacin.
3 Interpretacin de la Razn crtica (z o t)

z (o t) grande
z (o t) pequea
La diferencia es muy
improbable si ambas
muestras pertenecen a
la misma poblacin.
La diferencia est dentro de lo normal y probable si ambas muestras

pertenecen a la misma
poblacin.
Luego es ms probable
que las muestras procedan de poblaciones
distintas.
Luego es ms probable
que las muestras procedan de la misma poblacin.
El valor de z (o de t)
escogido como lmite
entre lo probable e
improbable depender
de nuestro nivel de
confianza.
4 Conclusiones
1 Rechazo el azar
(error muestral) como explicacin de la
diferencia.
2 Acepto
que
las
muestras pertenecen a poblaciones
distintas.
1 No rechazo el azar
(error muestral) como explicacin de la
diferencia
2 No acepto que las
muestras pertenecen a poblaciones
distintas.
1 se rechaza o no se rechaza la Hiptesis Nula

(o el azar como explicacin de la diferencia);
2 consecuentemente se
acepta o no se acepta
la Hiptesis Alterna.
La Hiptesis Nula establece que si hay diferencia, sta se explica por el error
muestral (que podemos convencionalmente denominar azar). Un s o un no a la
Hiptesis Nula es lo nico que afirmamos (con una determinada probabilidad de
error; el s o el no no son absolutos) mediante el clculo de la t de Student (o z).
Aceptaremos la Hiptesis Alterna si rechazamos (no aceptamos) la Hiptesis Nula, pero en este paso puede haber otras fuentes de error (un mal diseo, muestra
inadecuada, etc.). Tampoco concluimos si la diferencia es grande o pequea; simplemente afirmamos que es muy improbable que esa diferencia sea cero en la poblacin. Para apreciar la magnitud de la diferencia calculamos el tamao del
efecto.
303
ANEXO 2: CONCEPTOS BSICOS DE ESTADSTICA INFERENCIAL

(REFERIDOS AL CONTRASTE DE MEDIAS PERO EXTRAPOLABLES A OTROS PLANTEAMIENTOS)
Diferencia estadsticamente significativa
La diferencia entre dos medias (o entre dos proporciones, etc.) es mayor de lo
que se puede esperar por azar, es mayor de lo que ocurre normalmente cuando
no hay ms diferencia que la puramente aleatoria, es una diferencia muy improbable cuando las muestras proceden de la misma poblacin: si hacemos la
misma comparacin entre muestras semejantes, la diferencia no ser cero.
Si probamos que una diferencia es estadsticamente significativa, no por eso
probamos que la diferencia es grande o importante.
Nivel de confianza:
Seguridad con que afirmamos que una diferencia es mayor de lo que se puede esperar por azar;
El nivel de confianza se simboliza como ? y se establece antes de analizar los datos; a = .05 significa que ponemos en un 5% las probabilidades de equivocarnos al
afirmar que hay diferencia entre dos medias (que la diferencia se aparta mucho de la
diferencia media de cero; que las muestras proceden de poblaciones distintas con
distinta media); a = .01 significa que ponemos el lmite en un 1% las probabilidades
de error al afirmar que dos medias difieren significativamente, etc. (la probabilidad
de que la diferencia sea aleatoria la expresamos as: p < .05, p < .01, p < .001; si las
probabilidades son mayores del 5%: p> .05).
Razn Crtica:
Es el valor de z (o de t de Student en muestras pequeas, las tablas son distintas pero el concepto y la interpretacin son las mismas) que nos permite establecer la probabilidad (simbolizada como p) de que una diferencia sea aleatoria;
en muestras grandes si
z > 1.96 tendremos que p < .05

Hiptesis Nula:
Es la negacin de la hiptesis del investigador
Si mi hiptesis es: el mtodo A es mejor que el mtodo B,
la hiptesis nula ser el mtodo A no es mejor que el B
304
Aceptar la Hiptesis Nula
= Diferencia no estadsticamente significativa

Diferencia dentro de lo aleatorio; se interpreta
como una no diferencia; en el sentido de que el
hecho de la diferencia no se puede extrapolar a la
poblacin; en comparaciones semejantes podemos encontrarnos con una diferencia de cero
En sentido estricto no probamos que no hay diferencia, (quizs con un N mayor se podra no
aceptar la Hiptesis Nula); simplemente fracasamos en el intento de probar que s la hay.
Hiptesis Alterna:
Es la hiptesis del investigador, se acepta la Hiptesis Alterna (hay una diferencia distinta de cero) si no se acepta la Hiptesis Nula (se excluye el azar o el error
muestral como explicacin de la diferencia)
Aceptar la Hiptesis
Alterna
= La diferencia es estadsticamente significativa;
La diferencia es mayor de lo que se puede esperar por azar en caso de no diferencia; se puede extrapolar a las poblaciones representadas por esas muestras;
la diferencia entre las medias de las poblaciones representadas por esas muestras
es distinta de cero
Las medias pertenecen a muestras que proceden de poblaciones distintas
con distinta media.
305
ANEXO 3: TABLAS DE LA T DE STUDENT

Grados de libertad:
Muestras independientes:
Muestras relacionadas:
N1 + N2 -2
N-1
(habitualmente utilizamos pruebas bilaterales, o bidireccionales o de dos

colas)
Grados de
libertad:
0.05
.10
0.025
.05
0.005
.01
0.0005 (1)
.001 (2)
1
2
3
4
5
6.313752
2.919986
2.353363
2.131847
2.015048
12.70620
4.30265
3.18245
2.77645
2.57058
63.65674
9.92484
5.84091
4.60409
4.03214
636.6192
31.5991
12.9240
8.6103
6.8688
6
7
8
9
10
1.943180
1.894579
1.859548
1.833113
1.812461
2.44691
2.36462
2.30600
2.26216
2.22814
3.70743
3.49948
3.35539
3.24984
3.16927
5.9588
5.4079
5.0413
4.7809
4.5869
11
12
13
14
15
1.795885
1.782288
1.770933
1.761310
1.753050
2.20099
2.17881
2.16037
2.14479
2.13145
3.10581
3.05454
3.01228
2.97684
2.94671
4.4370
4.3178
4.2208
4.1405
4.0728
16
17
18
19
20
1.745884
1.739607
1.734064
1.729133
1.724718
2.11991
2.10982
2.10092
2.09302
2.08596
2.92078
2.89823
2.87844
2.86093
2.84534
4.0150
3.9651
3.9216
3.8834
3.8495
21
22
23
24
25
1.720743
1.717144
1.713872
1.710882
1.708141
2.07961
2.07387
2.06866
2.06390
2.05954
2.83136
2.81876
2.80734
2.79694
2.78744
3.8193
3.7921
3.7676
3.7454
3.7251
(1) Pruebas de una cola (unilaterales)

(2) Pruebas de dos colas (bilaterales)
306
0.0005 (1)
.001 (2)
Grados de
libertad:
0.05
.10
0.025
.05
0.005
.01
26
27
28
29
30
1.705618
1.703288
1.701131
1.699127
1.697261
2.05553
2.05183
2.04841
2.04523
2.04227
2.77871
2.77068
2.76326
2.75639
2.75000
3.7066
3.6896
3.6739
3.6594
3.6460
1.644854
1.95996
2.57583
3.2905
Tablas adaptadas de STATSOFT, INC. (2002). Electronic Statistics Textbook. Tulsa,

OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html
ANEXO 4: EL CONTRASTE DE MEDIAS EN INTERNET

Entre otros muchos programas que se pueden localizar en Internet disponemos
de los siguientes:
I. Si lo que deseamos es solamente conocer si un valor de t es estadsticamente
significativo tenemos en Internet varios programas
1. SURFSTAT.AUSTRALIA: AN ONLINE TEXT IN INTRODUCTORY STATISTICS surfstat-main.
http://www.anu.edu.au/nceph/surfstat/surfstat-home/ (buscar Tables en el
men de la izquierda)
2. DEPARTMENT OF OBSTETRICS AND GYNAECOLOGY, THE CHINESE UNIVERSITY OF HONG
KONG http://department.obg.cuhk.edu.hk/index.asp?scr=1024 (buscar en
el men Statistics Tool Box escoger Statistical Tests y escoger Statistical Significance).
http://fonsg3.let.
3. INSTITUTE OF PHONETIC SCIENCES (IFA)AMSTERDAM (h
u v a . n l / W e l c o m e . h t m l) en el menu: D e m o s , t e s t s , e x p e r i m e n t s y
escoger Statistics) o directamente en The Student-t distribution
h t t p : / / f o n s g 3 . l e t . u v a . n l / S e r v i c e / S t a t i s t i c s / S t u d e n t - t _ d i s t r i b ution.html
II. Para calcular la t de Student
1. Introduciendo o copiando todos los datos individuales
COLLEGE OF SAINT BENEDICT, SAINT JOHNS UNIVERSITY h t t p : / / w w w . p h y s i c s .
c s b s j u . e d u / s t a t s / t - t e s t . h t m l o Students t-Test, en h t t p : / / w w w . p h y s i c s . c s b s j u . e d u / s t a t s / (muestras independientes y relacionadas)
2. Introduciendo solamente la media, desviacin y nmero de sujetos de cada grupo (muestras independientes y relacionadas
GENE V. GLASS h t t p : / / g l a s s . e d . a s u . e d u / s t a t s / o n l i n e . h t m (Delta
COE502, Intro to Quant Methods, h t t p : / / g l a s s . e d . a s u . e d u / s t a t s / i n -
307
dex.html , Online statistical calculators that can perform many

d i f f e r e n t a n a l y s e s .) (no calcula el tamao del efecto)
The Significance of the Difference Between Two Independent Sample Means introduciendo M, s y N) http://glass.ed.asu.edu/stats/analysis/
t2test.html
The Significance of the Difference Between Two Dependent Means using
the t-test (introduciendo N, M y s de las diferencias) http://glass.ed.
asu.edu/stats/analysis/tdtest.html
UNIVERSITT ULM-MEDIZINISCHE FAKULTT, SEKTION INFORMATIK IN DER PSYCHOTHERAPIE (SOFTWARE UND WERKZEUGE) h t t p : / / s i p . m e d i z i n . u n i - u l m . d e / i n f o r m a t i k / p r o j e k t e / O d d s / e s t . h t m l (Calcula la t de Student y el tamao
del efecto).
3. Para todos estos casos tenemos tambin GRAPHPAD, FREE ONLINE CALCULATORS
h t t p : / / g r a p h p a d . c o m / q u i c k c a l c s / i n d e x . c f m) t test CalFOR SCIENTISTS (h
culator, h t t p : / / g r a p h p a d . c o m / q u i c k c a l c s / t t e s t 1 . c f m ? F o r m a t = 5 0
III. Tamao del efecto.
1. LEE A. BECKER, EFFECT SIZE CALCULATORS. h t t p : / / w e b . u c c s . e d u / l b e c k e r /
P s y 5 9 0 / e s c a l c 3 . h t m (consultado 25, 03, 08).
En muestras de idntico tamao calcula el tamao del efecto (de Cohen) y
el coeficiente de correlacin 1 a partir de los valores de las medias y de las
desviaciones tpicas, 2 a partir del valor de t y de los grados de libertad
(N+N-2). (For a discussion of these effect size measures see E f f e c t S i z e
L e c t u r e N o t e s)
2. COE, ROBERT (2000) Effect Size Resources (Durham University, Cem Centre)
http://www.cemcentre.org/RenderPage.asp?LinkID=30310000
(revisado 1, Enero, 2007)
3. MILLS, MICHAEL E. (Loyola Marymount University, Los Angeles), http://myweb.
lmu.edu/mmills/, en el ndice de la izquierda Software y effect size calculation (consultado 25, 03, 08).
308
CAPTULO 9
ANLISIS DE VARIABLES NOMINALES:

LA PRUEBA DE JI CUADRADO (c2),
LA DISTRIBUCIN BINOMIAL,
EL CONTRASTE DE PROPORCIONES
1. PLANTEAMIENTO GENERAL
Tenemos variables nominales o categricas cuando el dato disponible de
los sujetos es a qu categora de clasificacin pertenecen, como vamos a ver
en numerosos ejemplos. No disponemos de una puntuacin individual en
sentido propio; los datos son simplemente categoras de clasificacin y frecuencias en cada categora. Aunque habitualmente hablamos de sujetos, puede tratarse tambin de sucesos, objetos, etc.
La prueba del ji cuadrado1 (con su propia distribucin y sus propias tablas)
nos va a servir para analizar este tipo de datos, y va ser el mtodo central en esta exposicin porque es vlido para todas las situaciones que vamos a presentar.
El ji cuadrado y sus variantes metodolgicas (como la prueba exacta de
Fisher y el test de McNemar) no es por otra parte el nico mtodo de anlisis cuando tenemos a los sujetos clasificados en categoras; segn el planteamiento que tengamos disponemos tambin de otras alternativas de anlisis,
como son las aplicaciones de:
a) La distribucin binomial
b) El contraste de proporciones
1
En ingls chi square y a veces en espaol el anglicismo chi cuadrado; la letra griega utilizada como smbolo es c que se pronuncia como la jota espaola.
309
Con frecuencia estos anlisis son una alternativa ms sencilla al ji cuadrado. En vez de ver por separado estos mtodos (como es usual) los expondremos cuando sean aplicables, ya que con frecuencia los mismos datos se pueden analizar de diversas maneras con resultados idnticos o equivalentes y que
llevan a las mismas conclusiones. De esta manera se facilita el que cada uno escoja el mtodo que prefiera, y no se ven en contextos distintos mtodos de
anlisis que son vlidos en las mismas situaciones y con los mismos datos.
La presentacin que hacemos es por lo tanto por situaciones o modos de
organizar los datos, y no por mtodos de anlisis.
Las situaciones son sujetos clasificados en categoras de diversas maneras
y cada situacin est representada por un tipo de cuadro o tabla que permite
visualizar dnde encajan nuestros datos y nuestras preguntas. Los cuadros de
doble entrada, con dos criterios de clasificacin, se denominan tambin tablas de contingencia.
Podemos distinguir los cuatro modelos bsicos puestos en la figura 1. Aunque iremos poniendo numerosos ejemplos ms adelante, es til ver desde el
comienzo los diversos tipos o modelos de cuadros o tablas porque van centrando la atencin en las posibilidades que tenemos para analizar este tipo de
datos. Estas tablas de la figura 1 representan las distintas posibilidades.
Todas las denominadas preguntas bsicas puestas en la figura 1 podemos
hacerlas preguntando por una diferencia (difieren los grupos A y B en sus
preferencias, en sus respuestas, etc.?) o preguntando por una relacin (tiene que ver el pertenecer al grupo A o B con escoger una u otra opcin?).
Figura 1
310
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)
Mediante la prueba estadstica del ji cuadrado podemos abordar todos estos planteamientos, para detectar diferencias y relaciones, por eso centramos el anlisis de los datos nominales en la prueba del ji cuadrado.
Como ya hemos indicado, en algunos casos, no en todos, hay otros mtodos de anlisis, como la aplicacin directa de la distribucin binomial y el
contraste de proporciones, que son equivalentes y los iremos introduciendo
en cada caso como alternativas de anlisis. Adems, aunque hay una frmula general del ji cuadrado aplicable en todos los casos, algunas situaciones representadas en estos cuadros admiten frmulas ms sencillas.
Para visualizar mejor los procedimientos que vamos a ver, podemos repetir los cuadros o tablas con los modos habituales de presentar los datos (tal
como estn en la figura 1), indicando los modos de anlisis aplicables en cada
caso (figura 2) aunque no siempre son intercambiables.
Figura 2
Con el ji cuadrado y sus variantes metodolgicas podemos analizar todos

estos planteamientos aunque en algunos casos disponemos de otras alternativas equivalentes, como el contraste entre proporciones.
En realidad lo que nos dice el ji cuadrado es si los sujetos que observamos en cada celda son los que veramos si no hubiera diferencias ni relaciones entre los criterios de clasificacin. Al ji cuadrado se le denomina por esta razn prueba de independencia (o lo contrario, de asociacin), porque
verificamos si los criterios de clasificacin son independientes.
La prueba del ji cuadrado nos va a decir si lo que observamos:
a) Est dentro de lo normal y probable; en ese caso afirmaremos que no
hay diferencia ni relacin (aceptamos la Hiptesis Nula dicho en otros
trminos; aceptamos que los resultados estn dentro de lo normal y
aleatorio).
b) Es atpico y poco normal en el caso de no diferencia o relacin; en este caso s afirmaremos que hay relacin entre los criterios de clasificacin o que los grupos son distintos (no aceptamos la Hiptesis Nula).
311
Se trata en definitiva de verificar la probabilidad de que ocurra casualmente lo que nos hemos encontrado en el caso de que no hubiera ni diferencias ni relaciones en la poblacin representada por esos datos. De la misma
manera que hay una distribucin normal que ya hemos aplicado en otros casos (medias, diferencias entre medias), hay otra distribucin normal para estos planteamientos2.
Como en otros casos semejantes procedemos de esta manera:
1 Calculamos un valor (en este caso denominado ji cuadrado)
2 Consultamos una tablas para comprobar si ese valor es probable o improbable
3 Tambin, y como sucede en el contraste de medias, despus de verificar si un valor de ji cuadrado es significativo (poco probable si no hay
relacin o diferencia), podemos cuantificar el grado de relacin mediante una serie de coeficientes para poder apreciar si la relacin es
grande o pequea e interpretar mejor los resultados.
2. QU COMPROBAMOS MEDIANTE EL c2
Vamos a centrar la explicacin del c2 en uno de los casos ms sencillos y
frecuentes, cuando tenemos a los sujetos clasificados en dos categoras de
clasificacin y cada categora tiene dos niveles o subcategoras.
Qu comprobamos mediante el c2 podemos verlo de manera intuitiva.
Por ejemplo clasificamos a un grupo de sujetos segn la variable sexo (ser
hombre o ser mujer) y segn sus respuestas (s o no) a una pregunta que es
la otra categora de clasificacin.
hombre
mujer
totales
60
(75%)
30
(25%)
90
No
20
(25%)
90
(75%)
110
80 (100%)
120 (100%)
200
total
2
Es la distribucin multinomial denominada de ji cuadrado y que se la debemos a
Karl Pearson, a quien ya conocemos a propsito del coeficiente de correlacin r de Pearson.
312
Preguntas que nos hacemos:

Tiene que ver el sexo con el responder s o no a esa pregunta? Existe asociacin entre estas dos variables o criterios de clasificacin?
Tambin podemos preguntarnos lo mismo de esta forma: Son distintos
hombres y mujeres en sus respuestas a esa pregunta?
A primera vista podramos responder a estas preguntas que s hay relacin
entre la pregunta y el sexo: el 75% de los hombres dice que s frente a slo un
25% de las mujeres.
Para entender lo que nos dice el c2 lo ms sencillo es situarnos ante dos
posibilidades extremas cuya interpretacin no dejara lugar a dudas:
Posibilidad A
Posibilidad B
hombre
mujer
totales
40
(50%)
60
(50%)
100
No
40
(50%)
60
(50%)
80
(100%)
120
(100%)
totales
hombre
mujer
totales
80
(100%)
100
100
No
120
(100%)
100
200
totales
80
(100%)
120
(100%)
200
En cada grupo la mitad dice que s

Todos los hombres dicen que s y
y la otra mitad dice que no:
todas las mujeres dicen que no:
Es la distribucin ms probable
en el caso de no asociacin. El sexo
no tiene nada que ver con el contenido de la pregunta.
El valor de c2 que obtengamos ser bajo, como de manera anloga un
valor bajo de la t de Student nos indica una diferencia normal y probable.
Es la distribucin menos probable

en el caso de no asociacin. El sexo
s parece que tiene que ver con el
contenido de la pregunta.
El valor de c2 que obtengamos ser alto, como de manera anloga un
valor alto de la t de Student nos indica una diferencia mayor de lo normal.
En este caso:
En este caso:
Hiptesis Nula aceptada; es

Hiptesis Nula no aceptada
una distribucin probable cuando las (no aceptamos el azar); es la distri-
313
dos variables son independientes;

cuando una variable no tiene que ver
con la otra (en este ejemplo: cuando
no hay relacin entre el sexo y la respuesta a la pregunta).
Las frecuencias observadas (las codificadas) no se apartan mucho de las
frecuencias tericas, que son las ms
probables en caso de no asociacin.
Hiptesis Alterna no aceptada; el ser hombre o mujer no tiene
que ver con cmo se responde a esa
pregunta.
bucin menos probable cuando las

dos variables son independientes; es
una distribucin fuera de lo normal
(en el caso en que el sexo y el responder s o no no tuvieran nada que ver).
Las frecuencias observadas (las
codificadas) se apartan mucho de las
frecuencias tericas, las frecuencias
observadas son poco probables en
caso de no asociacin.
Hiptesis Alterna aceptada; el
sexo s tiene que ver con las respuestas a esa pregunta.
El ji cuadrado se utiliza con dos tipos de hiptesis que se denominan as:

a) Pruebas de independencia, cuando hay dos criterios de clasificacin
(como en los ejemplos anteriores, con cuadros de doble entrada subdivididos en dos o ms niveles);
b) Pruebas de bondad de ajuste, cuando tenemos un solo criterio de clasificacin (como cuando tenemos un grupo de sujetos, o de objetos,
subdividido en varias categoras).
3. FRECUENCIAS OBSERVADAS (O EMPRICAS) Y FRECUENCIAS TERICAS (O ESPERADAS)

En todos los casos es importante la distincin entre dos tipos de frecuencias (o nmero de casos) porque en definitiva lo que hacemos mediante el ji
cuadrado es comparar estos dos tipos de frecuencias.
a) Frecuencias observadas (tambin denominadas empricas), que son
las que observamos y anotamos,
b) Frecuencias tericas (tambin denominadas esperadas), que son las
ms probables (y ciertamente las ms claras) en el caso de no relacin
o no diferencia.3
3
Posiblemente los trminos ms claros son frecuencias observadas (ms claro que
frecuencias empricas) y frecuencias esperadas (ms claro que tericas). Aqu utilizamos los trminos frecuencias observadas y frecuencias tericas simplemente porque los
smbolos (fo y ft) no se prestan a confusin (fe podra ser tanto frecuencia emprica como esperada).
314
En los casos como los que nos han servido de ejemplo (tablas 2x2 o mayores) se trata de pruebas de independencia, y lo que comprobamos se puede
formular de dos maneras y es til verlo as:
1 Si existe relacin o asociacin entre las dos variables que han servido
de criterio de clasificacin;
2 Si dos o ms grupos (la pertenencia a un grupo es un criterio de clasificacin) difieren en el otro criterio de clasificacin (en realidad se trata del mismo planteamiento).
En cualquier caso lo que comprobamos es si las frecuencias observadas
(representadas en el apartado anterior como posibilidad B) se apartan significativamente de las frecuencias tericas o esperadas en el caso de no relacin
o no diferencia (representadas en el apartado anterior como posibilidad A).
El c2 lo que nos dice es si las frecuencias observadas estn dentro de lo
probable en el caso de no asociacin. A mayor valor de c2 corresponde una
menor probabilidad, por eso con un valor grande de c2 diremos que ese resultado es muy improbable si no hubiera relacin, y por lo tanto decimos
que s la hay.
Para expresarlo en trminos muy simples. En el apartado anterior hemos
visto dos posibilidades extremas A y B. Esos resultados hipotticos son muy
claros, pero tan claros es difcil que los encontremos. El valor de c2 nos viene
a decir lo siguiente:
a) Un valor de c2 pequeo nos dice que nuestros resultados podemos
equipararlos a la posibilidad A (no hay relacin); las frecuencias que
observamos se parecen mucho a las tericas o esperadas, a las que tendramos en caso de no asociacin o no diferencia).
b) Un valor de c2 grande nos dice que nuestros resultados podemos interpretarlos como la posibilidad B (s hay relacin), las frecuencias
que observamos se apartan mucho de las tericas o esperadas, las que
tendramos en caso de no asociacin o no diferencia.
4. CONDICIONES PARA UTILIZAR EL c2
1 Se trata siempre de observaciones independientes: al clasificar los sujetos (u objetos) en cada casilla debe haber sujetos distintos; no puede haber sujetos repetidos en ms de una casilla. Esta condicin es
esencial; en ningn caso debe haber sujetos clasificados en ms de un
lugar.
2 La segunda condicin es ahora muy discutida: que las frecuencias tericas o esperadas en cada casilla de clasificacin no sean inferiores a 5.
315
Recordamos que las frecuencias tericas o esperadas son las que habra (o las ms probables) en el caso de que no hubiera relacin entre
las variables (o diferencias entre los grupos clasificados). Es tolerable
que un 20% de las casillas tengan una frecuencia terica inferior a 5, pero no deben ser muy inferiores. Cuando las frecuencias tericas (ya veremos cmo se calculan) son muy pocas, se pueden juntar columnas o
filas adyacentes (si hay ms de dos) en una sola categora, con tal de
que tenga sentido lgico el hacerlo. Adems con muestras muy pequeas (N<20) y en tablas 2x2 tenemos como alternativa la prueba exacta de Fisher mencionada ms adelante.
Esta segunda condicin (necesidad de un nmero mnimo de frecuencias
tericas) la discuten ahora bastantes autores y se puede no tener en cuenta
(lo veremos ms adelante a propsito de la correccin de Yates); s conviene
mencionarla porque responde a una prctica muy generalizada y figura en
muchos textos.
5. CLCULO DE LAS FRECUENCIAS TERICAS

El clculo de las frecuencias tericas es necesario porque estas frecuencias
entran en la frmula bsica del ji cuadrado, adems con un nmero de sujetos muy pequeo (N < 25, como criterio ms bien liberal) si hay frecuencias
tericas inferiores a 5 ya hemos visto que el uso del ji cuadrado es discutible.
Al calcular las frecuencias tericas (o esperadas) conviene dejar al menos
tres decimales.
a) Cuando tenemos un solo criterio de clasificacin dividido en varias
categoras
El clculo de las frecuencias tericas es sencillo:
nmero total de sujetos
frecuencias tericas en cada casilla:
nmero de clasificaciones
N
(=)
k
Por ejemplo tenemos un grupo de 300 sujetos clasificados en una categora (preferencia por un color) dividida en tres niveles (tres colores: verde,
azul y rojo que pueden ser los colores del envase de un producto comercial;
tabla 2).
316
Tabla 2
prefieren
el color
Verde
160
Azul
100
Rojo
40
total
300
Estas son las frecuencias observadas, Cules seran las frecuencias tericas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 sujetos se repartiran por igual, y cada color tocara a 100 sujetos; las frecuencias tericas son por lo tanto 300/3 = 100.
Estas frecuencias tericas o esperadas podran ser otras distintas en otras
hiptesis; en definitiva lo que hacemos es comprobar si las frecuencias observadas se ajustan a las esperadas, por esta razn tambin se denomina a esta
comprobacin prueba de bondad de ajuste, porque comprobamos si nuestra distribucin se ajusta a un modelo terico.
b) Cuando hay dos criterios de clasificacin (cuadros de doble entrada)
Las frecuencias tericas de cada casilla son iguales al producto de las sumas marginales dividido por el nmero total de sujetos. En el caso de dos
categoras con dos niveles de clasificacin (podran ser ms) tendramos
(tabla 3):
Tabla 3
De dnde viene esta frmula para calcular las frecuencias tericas?; en las
frecuencias tericas hacemos un reparto proporcional de las frecuencias
observadas en la hiptesis de no diferencia o relacin. Es un sencilla regla de
tres si nos fijamos en el cuadro anterior:
317
Si de un total de N sujetos .............................. responden s (a+b)

De un total de (a+c) sujetos .............................. respondern s X sujetos
(a + b) (a + c)
Por lo tanto X ( frecuencias tericas de a): .... =
N
Es decir, multiplicamos las dos frecuencias marginales y dividimos el producto por el N total. Cuando solamente hay cuatro casillas (tabla 2x2 como
en este ejemplo) lo nico que nos puede interesar saber es si todas las frecuencias tericas son superiores a 5; ya que es recomendable que las frecuencias tericas no sean muy pequeas; para esto basta empezar calculando la frecuencia terica ms pequea, y si es superior a 5 ya no hay que
hacer ms clculos.
Para calcular la frecuencia terica ms pequea y comprobar que es igual
o superior a 5:
Si nos da un valor igual o superior a 5 ya no hay por qu seguir calculando frecuencias tericas a no ser que sean necesarias para calcular el valor de
c2 (y no son necesarias en cuadros con cuatro casillas, 2x2, porque admiten
una frmula ms sencilla).
Es importante caer en la cuenta de que la suma de las frecuencias observadas debe ser igual a la suma de las frecuencias tericas: se trata del mismo nmero de sujetos (u objetos) repartidos con dos criterios: lo que observamos y lo que observaramos en el caso de no diferencia. Estas dos sumas
(de todas las frecuencias observadas y de todas las frecuencias tericas) con
frecuencia no son idnticas porque redondeamos los decimales o no utilizamos todos, pero deben ser muy parecidas.
6. GRADOS DE LIBERTAD
Los grados de libertad son necesarios para consultar las tablas de la distribucin de c2.
Recordamos el concepto de grados de libertad: el nmero de valores que
pueden variar libremente manteniendo o imponiendo previamente unas determinadas restricciones a los datos. Dicho de una manera ms sencilla y aplicable a este caso y a otros muchos: los grados de libertad son igual al nmero
de valores o datos que pueden variar libremente dado un determinado resul-
318
tado (o resultados). El concepto se entender mejor al ver cules son los grados de libertad precisamente en el ji cuadrado.
En los planteamientos ms frecuentes (no son los nicos) se calculan de
este modo:
a) Cuando hay un solo criterio de clasificacin
Grados de libertad = k -1 (nmero de categoras menos una)
En el ejemplo anterior en el que 300 sujetos estn clasificados segn elijan
A, B C (tres categoras de clasificacin) los grados de libertad sern 3-1 = 2.
Si partimos de un total de 300 sujetos divididos en tres categoras, en dos
de ellas podemos poner cualquier nmero (sus frecuencias pueden variar libremente) pero en la tercera ya no hay libertad para poner cualquier valor:
habr que poner lo que nos falte para llegar a 300.
b) Cuando hay dos criterios de clasificacin
Es decir, tenemos varias columnas y varias filas:
Grados de libertad = (f -1)(c -1)
(nmero de filas menos una) por (nmero de columnas menos una).
En el primer ejemplo que hemos puesto (cuadro 2x2): dos columnas
(hombre/mujer) y dos filas (s/no), los grados de libertad sern (2-1)(2-1) = 1.
En este caso partimos de los totales marginales como datos fijos y previos,
stas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, podemos variar libremente solamente la frecuencia (nmero) de una de las casillas: las dems vendrn forzadas para mantener los totales marginales (si partimos de que a + b = 90, uno de los dos, a b, pueden variar libremente,
pero el otro valor debe ser necesariamente lo que falte para llegar a 90).
7. FRMULA GENERAL DEL JI CUADRADO4

Hay una frmula general aplicable a todos los planteamientos del ji cuadrado, pero hay tambin frmulas ms sencillas para planteamientos particulares,
que son por otra parte los ms frecuentes y de interpretacin ms sencilla.
Ponemos en primer lugar la frmula general de c2, aplicable en todos los
casos:
4
El ji cuadrado en todas sus variantes lo tenemos en programas de ordenador y en
numerosas direcciones de Internet que pueden verse en el Anexo II.
319
fo son las frecuencias observadas,

ft son las frecuencias tericas.
se calcula en cada casilla y se suman todos
estos valores.
La fraccin
El valor resultante de esta suma se consulta en las tablas de c2 segn los

grados de libertad que correspondan.
Aunque esta frmula es vlida para todos los casos, hay planteamientos,
que son tambin los ms frecuentes (como las tablas 2x2), que admiten
frmulas ms sencillas. Vamos a ver ahora los casos ms frecuentes con sus
frmulas especficas.
8. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN DIVIDIDO

EN DOS NIVELES
Por ejemplo, preguntamos a un grupo de N = 60 si est a favor o en contra de una determinada proposicin y obtenemos estos resultados (tabla 4):
Tabla 4
A favor
40
En contra
20
total
60
Este anlisis es muy til pues es muy normal presentar a un grupo una serie de preguntas con respuestas s o no mutuamente excluyentes Cundo
predomina una de las dos respuestas ms all de lo probable por azar?
La pregunta que nos hacemos en nuestro ejemplo es si existe una diferencia estadsticamente significativa (por encima de lo puramente aleatorio) entre 40 y 20 (o entre dos proporciones o porcentajes obtenidos en la misma
muestra).
Tenemos dos maneras de llegar a una respuesta; una a travs del ji cuadrado, y otra utilizando la distribucin binomial; con ambas llegamos al
mismo resultado. Aunque aparentemente haya muchas frmulas, en realidad todas son equivalentes y muy sencillas; posiblemente con la [2] o con la
[5] podemos resolver todas las situaciones en las que queramos hacer este
anlisis.
320
8.1. Ji cuadrado
Tenemos dos sencillas frmulas que dan idntico resultado.
1. Podemos aplicar en primer lugar la frmula [1], que es la frmula general del ji cuadrado. Lo primero que tenemos que hacer es calcular las frecuencias tericas, que en este caso son 60/2 = 30: si no hubiera ms diferencia entre las dos respuestas que la puramente casual, la frecuencia terica ms
probable sera la que resulta de repartir por igual el nmero de sujetos entre
las dos categoras.
En las tablas vemos que con un grado de libertad (= k -1) los valores crticos de c2 son estos:
si c2 > 3.841 tenemos que p < .05
> 6.635
p < .01
> 10.827
p < .001
En nuestro ejemplo p < .01: no aceptamos la Hiptesis Nula y aceptamos
que la diferencia entre 40 (a favor) y 20 (en contra) es superior a lo que se
puede encontrar por azar en el caso de que no hubiera una diferencia mayor
de lo casual entre las dos posturas representadas por estas respuestas (a favor
o en contra o cualesquiera otras dos alternativas mutuamente excluyentes).
2. Sin entrar ahora en ms explicaciones podemos ver que en estos casos
(un grado de libertad) c2 = z2; el valor correspondiente de z para a = .05 recordamos que es 1.96 y 1.962 = 3.841, que es el valor correspondiente de c2.
En estos casos, un mismo grupo dividido en dos niveles de clasificacin,
tenemos sin embargo una frmula ms sencilla [2], en la que f1 y f2 son las dos
frecuencias, 40 y 20:
Esta frmula [2] podemos aplicarla siempre que N sea > 25; con nmeros
ms bajos (N < 25) tambin suele recomendarse aplicar la correccin de Yates, que consiste en restar una unidad al numerador antes de elevarlo al cuadrado (frmula [3]). De todas maneras ya veremos que la eficacia de esta correccin es muy discutida (porque corrige en exceso).
321
Con nmeros pequeos es sin embargo preferible prescindir de esta correccin y acudir directamente a las tablas de la distribucin binomial, que
nos dan directamente la probabilidad un obtener una determinada diferencia
entre dos frecuencias cuando N es muy bajo.
8.2. Aplicacin de la distribucin binomial
Cuando tenemos un grupo dividido en dos categoras podemos aplicar directamente la distribucin binomial. Cuando un grupo (sujetos, respuestas,
objetos) de tamao N se divide en dos categoras que se excluyen mutuamente (como antes, a favor o en contra) podemos ver si la proporcin de sujetos
en cada categora (p y q) se aparta significativamente de p = q = .50 (que sera la Hiptesis Nula: idntico nmero de sujetos encada categora). Vamos a
verlo con muestras pequeas (N < 25) y muestras que ya van siendo mayores
(N > 25).
8.2.1. Cuando N < 25
En estos casos no necesitamos hacer ningn clculo (ni aplicar la frmula
[3]); nos basta consultar las tablas de la distribucin binomial que nos dan
la probabilidad exacta que tenemos de encontrar por azar cualquier divisin
de N sujetos (N < 25) en dos categoras. Estas tablas podemos encontralas en
numerosos textos de estadstica y tambin disponemos de cmodos programas en Internet (Anexo II)5.
En estas tablas tenemos los valores de N y de X (nmero de sujetos en
cualquiera de las dos categoras) y la probabilidad de encontrar X en N sujetos o casos. Suponemos que en principio p = q, es decir que hay dos categoras con idntica probabilidad (p = q = .50).
8.2.2. Cuando N > 25
Cuando aumenta el nmero de casos o sujetos, la distribucin binomial se
va pareciendo a la distribucin normal. En estos casos podemos hacer algo
anlogo al contraste de medias.
5
Un programa muy cmodo es GRAPHPAD; basta introducir el nmero total de sujetos
(objetos, etc.) y el nmero de los clasificados en una de las dos categoras.
322
Esta distribucin normal y aleatoria (la que podemos esperar si entre las
dos categoras no hay ms diferencias que las casuales) tiene su media y su
desviacin tpica:
Media
(los sujetos tienden a repartirse por igual en las

dos categoras)
Desviacin tpica
Pero como en este caso p = q = .50, tenemos que pq = .25, por lo tanto
la desviacin tpica ser igual a:
Desviacin tpica
Podemos utilizar cualquiera de estas expresiones para calcular la desviacin tpica.

Ahora podemos comparar nuestra media (cualquiera de las dos frecuencias; nmero de sujetos en cualquiera de las dos categoras) con la media ms
probable por azar y que es N/2:
Donde X es cualquiera de las dos frecuencias; con
las dos llegamos al mismo resultado aunque con
distinto signo, como podemos comprobar:
En nuestro ejemplo (40 a favor y 20 en contra, total N = 60) tendremos:
donde X = los 40 que estn a favor
donde X = los 20 que estn en contra
323
En estos casos (un grupo dividido en dos categoras) c2 = z2 y z =
Podemos verificarlo: z2 = 2.5822 = 6.67, que es el valor de c2 encontrado

antes (y las probabilidades son las mismas, p<.01)
La frmula [4] es la ms clara porque expresa lo que estamos haciendo
(una diferencia entre medias dividida por una desviacin tpica), pero puede simplificarse notablemente si utilizamos la frmula [5] (f1 y f2 son las dos
frecuencias):
De todas estas frmulas Cul es la preferible? La que resulte ms cmoda;

la nica salvedad es que todas estas frmulas son adecuadas cuando N no es
muy bajo (preferiblemente no menos de N = 50).
Ya hemos indicado que:
a) Cuando N es igual o inferior a 20, podemos acudir directamente a las
tablas de la distribucin binomial (que nos da la probabilidad de obtener cualquier valor de X para cualquier valor de N hasta 20 o incluso
ms, segn las tablas de que dispongamos).
b) Cuando N est entre 20 y 50 podemos aplicar la frmula [3], o la [5]
(ms cmoda que la [4]), pero restando una unidad al numerador (en
valores absolutos), o podemos aplicar la frmula [4] con la llamada correccin por continuidad, tal como aparece en la frmula [6]
Sumamos o restamos .5 de manera que el numerador sea menor en trminos absolutos.
8.2.3. La prueba de los signos: aplicacin de la distribucin binomial

para comprobar cambios
Una aplicacin popular y sencilla para verificar cambios es la conocida como prueba de los signos que es til introducir aqu.
Lo veremos con un ejemplo. De un grupo de sujetos tenemos sus respuestas a una simple pregunta, por ejemplo sobre la utilidad de la asignatu-
324
ra, con respuestas graduadas de este estilo: ninguna, alguna, bastante y

mucha. Los sujetos responden al comienzo del curso (antes) y al finalizar el
curso (despus) (tabla 5).
sujeto
Respuesta
antes
Respuesta
despus
Signo de la
diferencia
1
2
3
4
5
6
3
1
2
4
4
2
4
3
2
2
5
4
+
+
0
+
+
Tabla 6
El nmero de sujetos es N = 6, pero tenemos en cuenta solamente el

nmero de cambios, por lo tanto N = 5 porque un sujeto (el n 3) no ha
cambiado.
Podemos disponer los datos de esta manera (tabla 7, semejante a la tabla 4):
Cambios positivos
4
Cambios negativos
1
Total de cambios
5
Tabla 7
Podemos aplicar ahora cualquiera de los procedimientos anteriores (ji

cuadrado, distribucin binomial) segn el nmero de sujetos (nmero de
cambios) que tengamos.
Es obvio que estamos teniendo en cuenta solamente la direccin del
cambio y no la magnitud del cambio; aprovechamos mejor la informacin
disponible con otros mtodos de anlisis, como un contraste de medias. Aun
as con medidas pobres, a veces improvisadas y que no nos inspiran mucha
confianza, la prueba de los signos puede ser una buena alternativa. Tambin
cabra hacer una nica pregunta al final, como un sondeo rpido de opiniones o impresiones de este estilo: Ves ahora la asignatura ms til que al
comienzo del curso? Con unas respuestas muy simples, ms til (cambio positivo), menos til (cambio negativo), igual de til (sin cambio).
325
9. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN DIVIDIDO

EN MS DE DOS NIVELES (PRUEBAS DE BONDAD DE AJUSTE)
A esta aplicacin del ji cuadrado se le denomina tambin prueba de bondad de ajuste porque comprobamos si una distribucin de frecuencias observadas se ajusta a una distribucin terica.
9.1. Cuando las frecuencias esperadas son las mismas
El planteamiento ms frecuente lo veremos con un ejemplo: 600 personas eligen entre tres marcas, A, B y C de un mismo producto, su marca preferida (tabla 8): Hay diferencias entre las marcas por encima de lo puramente aleatorio?
Tabla 8
frecuencias observadas:
frecuencias tericas:
A
170
200
A
200
200
C
230
200
total
600
600
Las frecuencias tericas son las que habra si no hubiera diferencias entre
las marcas; es la distribucin terica ms probable en caso de no diferencia:
nmero total de casos dividido por el nmero de categoras de clasificacin,
600/3 = 200 (las tres marcas son igualmente preferidas).
En este caso se aplica la frmula general del ji cuadrado (frmula [1])
que adems se puede utilizar en todos los casos:
Grados de libertad: nmero de categoras de clasificacin menos una:

3-1 = 2 grados de libertad.
En las tablas tenemos que con dos grados de libertad y c2 = 9; p <.05 (superamos el valor de 5.99 que tenemos en las tablas). La probabilidad de que
la distribucin de las frecuencias observadas (170/200/230) sea casual, en el
que caso de que las marcas fueran igualmente preferidas, es inferior al 5% (de
hecho es inferior al 2%), por lo que concluimos que s hay diferencias significativas entre las marcas. Cabra ahora parcializar los datos y comparar las marcas de dos en dos; (al menos podemos afirmar que la marca A es significativamente menos preferida que la marca C).
326
9.2. Cuando las frecuencias esperadas son las de la distribucin

normal
Esta prueba de bondad de ajuste se utiliza tambin para comprobar si una
distribucin se ajusta a la distribucin normal.
En este caso las categoras de clasificacin son intervalos y las frecuencias
tericas son las que corresponderan en la distribucin normal.
Aunque una distribucin puede dividirse en intervalos de muchas maneras, lo ms cmodo es dividir la distribucin en intervalos que tengan un
idntico nmero de sujetos, para facilitar las operaciones. Si se divide en 10
intervalos, puede quedar como aparece en la tabla 9.
frecuencias tericas:
Tabla 9
10%
z:
10%
-1.28
10%
-0.84
10%
-0.52
10%
-.025
10%
0.00
10%
10%
10%
10%
+0.25 +0.52 +0.84 +1.28
Podramos haber hecho otra agrupacin distinta, de manera que en cada

intervalo tuviramos el 20% de los casos, o podramos tener intervalos con
frecuencias esperadas distintas, como sucede cuando utilizamos los estaninos o los pentas.
Si en cada intervalo vamos a tener el 10% de las frecuencias tericas y tenemos N = 200, en cada intervalo tendramos 20 sujetos en las frecuencias
tericas; a cada sujeto le calculamos su puntuacin tpica, y lo situamos en el
intervalo que le corresponda: estas son nuestras frecuencias observadas, y
aplicamos por ltimo la frmula [1].
Grados de libertad:
En este caso debemos tener en cuenta para consultar las tablas que los
grados de libertad son igual al nmero de intervalos menos tres (k-3), porque partimos de tres restricciones iniciales: los valores de N, de la media y de
la desviacin tpica.
En esta comprobacin lo que nos interesa comprobar es que el valor de c2
es inferior al de las tablas: en este caso no habra diferencia entre las frecuencias observadas y las del modelo terico, y podemos concluir que nuestra distribucin se aproxima a la distribucin normal. Un resultado estadsticamente significativo nos dira que la distribucin no puede considerarse normal.
327
Es prctico o importante hacer esta comprobacin de normalidad de

una distribucin? Por lo general no; nos puede bastar una inspeccin de los
datos para ver si una distribucin se aparta apreciablemente de la distribucin
normal, pero en muchos planteamientos de anlisis podemos necesitar la verificacin de que las distribuciones en la poblacin son normales. Cuando esto es necesario o bien nos lo hacen ya los programas de ordenador, o hay mtodos no paramtricos ms sencillos (como el de Kolmogorov-Smirnov). Aun
as es til conocer estas pruebas de bondad de ajuste para entender lo que
nos puede dar hecho un programa de ordenador.
10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIN CON DOS NIVELES CADA UNO
Es ste uno de los planteamientos ms frecuentes y tiles, como los ejemplos puestos al comienzo para introducir el c2. En general los cuadros de doble entrada (cruzar los datos) son muy tiles para detectar ya de manera intuitiva diferencias y relaciones.
Podemos distinguir dos planteamientos: para muestras independientes (el
ms habitual) y para muestras relacionadas. En ambos casos la disposicin
de los datos es la misma.
10.1. Tablas 2x2 para muestras independientes
10.1.1. Modelos de tablas 2x2: cmo clasificar a los sujetos
El uso ms frecuente del ji cuadrado est seguramente en el anlisis de
este tipo de tablas (2x2; dos criterios de clasificacin cada uno dividido en
dos niveles), por esta razn exponemos diversos criterios que pueden emplearse para clasificar a los sujetos en dos categoras.
Proponemos cuatro modos de clasificar a los sujetos; realmente todos son
equivalentes, pero el tener a la vista ejemplos distintos nos puede sugerir preguntas a las que podemos responder con estos anlisis.
a) Sujetos clasificados segn dos grupos de pertenencia o dos caractersticas
personales
Los sujetos pueden pertenecer a dos grupos a la vez; el trmino grupo hay
que entenderlo con amplitud, y viene a ser lo mismo que participar de una caracterstica comn.
Por ejemplo, en una universidad podemos tener alumnos de primer curso
que pertenecen a una facultad o carrera (un grupo de pertenencia) y a la vez
pueden estar estudiando en su lugar habitual de residencia o pueden haber
venido de otra localidad (tabla 10).
328
Tabla 10
La pregunta que nos hacemos es sta: Es una carrera ms atractiva que la

otra para los que viven fuera? En la carrera A hay ms alumnos de fuera que
en la carrera B; Es esta diferencia superior a lo que podramos encontrar por
azar?
Los porcentajes dentro de cada celda pueden estar referidos a los totales
de las filas o a los totales de las columnas (o a ambos), lo que resulte ms informativo en cada caso.
b) Sujetos clasificados segn 1 grupo de pertenencia y 2 respuestas a una
pregunta
El grupo de pertenencia puede ser tambin una caracterstica personal,
etc. y la pregunta puede expresar conocimientos, actitudes, etc.; realmente
se trata del mismo caso anterior, pero una presentacin matizada y con ejemplos de estos criterios para clasificar a los sujetos sugiere ms posibilidades de
anlisis con los datos que tenemos o que podemos fcilmente obtener.
Por ejemplo podemos preguntar al terminar el curso a los alumnos del primer curso de dos carreras si estn de acuerdo con esta afirmacin: la estadstica me va a ser muy til en mi trabajo profesional (si en las dos carreras se
cursa la misma asignatura) (tabla 11).
Tabla 11
329
Como antes, podemos preguntarnos por la diferencia entre las dos carreras en aprecio de una asignatura; o lo que es lo mismo, podemos preguntarnos si hay relacin entre estudiar una carrera y juzgar que una asignatura es
til.
La pregunta anterior podemos proponerla con dos respuestas (de acuerdo o en desacuerdo) o con ms respuestas (desde muy en desacuerdo hasta muy de acuerdo); en este caso dicotomizamos (agrupamos en dos categoras) las respuestas. Cuando varias respuestas las reducimos a dos solamente,
estamos prescindiendo de informacin que de hecho tenemos disponible, y
en estos casos el ji cuadrado puede que no sea el mtodo ms apropiado para analizar los datos. De todas maneras el agrupar las respuestas en dos posibilidades para hacer un cuadro 2x2 es til para simplificar la informacin.
Cuando dicotomizamos las respuestas, una manera de hacerlo es utilizando la mediana (y en la zona del acuerdo y del desacuerdo quedar ms o menos el mismo nmero de sujetos), o podemos agrupar las respuestas segn
su significado literal; en cualquier caso debemos exponer qu es lo que hemos hecho.
c) Prueba de la mediana
Con este trmino, prueba de la mediana, se denomina otra manera de clasificar a los sujetos. que quedan clasificados en estos dos criterios: 1 segn
grupo de pertenencia y 2 segn estn por encima o por la debajo de la mediana comn en un mismo test o escala.
En el ejemplo anterior (tabla 11) veamos la posibilidad de dicotomizar las
respuestas a una sola pregunta. En este caso (tabla 12) no se trata ya de una
pregunta sino de todo un test, escala, etc., que mide de manera ms clara y
fiable una determinada caracterstica. Este anlisis tiene incluso su propio
nombre: prueba de la mediana.
El proceso es el siguiente:
1 Todo los sujetos, pertenecientes a dos grupos, responden al mismo
instrumento (test, escala).
2 Calculamos la mediana comn a todos los sujetos (la puntuacin que
divide a todos lo sujetos, juntndolos en un solo grupo, en dos mitades
iguales aproximadamente).
En un ejemplo similar anterior (tabla 11) podramos sustituir la pregunta sobre una asignatura por una escala de actitudes hacia la asignatura de
estadstica.
330
Tabla 12
En trminos simples, la pregunta que nos hacemos es la siguiente:

Uno de los dos grupos Coloca ms sujetos que el otro por encima de la
mediana comn, en la mitad superior?
Si en el caso anterior advertamos que dicotomizar las respuestas a una
pregunta supone perder informacin, en este caso la prdida es mucho mayor. En vez de utilizar la puntuacin individual de cada sujeto en el test o escala, slo nos fijamos si est por encima o por debajo de la mediana comn.
En este caso el anlisis en principio ms idneo no sera el ji cuadrado sino
un contraste de medias entre las dos carreras. Sin embargo este anlisis tambin puede ser oportuno, bien como complemento informativo a un contraste de medias, o porque nos parece suficiente, o porque la medida utilizada es poco fiable y es ms seguro dicotomizar las respuestas en dos grandes
categoras.
d) Un mismo grupo clasificado segn sus respuestas a dos tems o preguntas
Seguimos con el mismo esquema; en los casos anteriores siempre tenamos dos grupos (o un grupo que lo consideramos como dos grupos en funcin de alguna caracterstica que nos permite dividir a los sujetos en dos subgrupos); lo que pretendamos es en ltima instancia verificar diferencias
entre grupos. Ahora tenemos un solo grupo y el nfasis lo ponemos en el
anlisis de la relacin entre las preguntas.
Por ejemplo (el ejemplo es real, tabla 13), los alumnos de una clase expresan su grado de acuerdo con estas dos afirmaciones: la suerte influye mucho
en los exmenes y me divierte estudiar. Si las respuestas son ms de dos, las
podemos agrupar en dos categoras (con la consiguiente prdida de informacin pero no por eso deja de ser til este anlisis).
331
Tabla 13
Estn relacionadas las dos opiniones o actitudes o son independientes?

Este planteamiento del ji cuadrado suele denominarse prueba de independencia.
Tambin podemos conceptualizar este planteamiento como el de una
comprobacin de diferencias entre dos grupos: el grupo que cree en la suerte se diferencia en actitud hacia el estudio del grupo de los que no creen en
la suerte?
Salta a la vista que si tenemos puntuaciones continuas el clculo que en
principio parece ms oportuno es un coeficiente de correlacin, pero esta
disposicin de los datos es tambin muy informativa.
Si los datos son genuinamente dicotmicos (1 0) tambin disponemos
de un coeficiente de correlacin (f) que veremos despus y que podemos
calcular directamente o como complemento al ji cuadrado.
10.1.2. Cmo analizar los datos
En estos casos (cuadros 2x2, muestras independientes) podemos abordar
el anlisis al menos con dos enfoques que nos llevan a los mismos resultados:
1 Ji cuadrado (y prueba exacta de Fisher para muestras muy pequeas)
2 Contraste de proporciones entre muestras independientes
Del ji cuadrado podemos pasar al clculo de coeficientes de correlacin o
de asociacin (puestos en el apartado n 12).
Cuando el nmero total de sujetos es muy pequeo (N < 20), podemos
aplicar la prueba exacta de Fisher, que no requiere ningn clculo, sino simplemente consultar las tablas apropiadas6.
6
La prueba exacta de Fisher la exponemos ms adelante. Estos enfoques metodolgicos (ji cuadrado y contraste de proporciones) suelen estar en los textos en apartados dis-
332
1 Ji cuadrado
a) Planteamiento y frmulas
Disponemos los datos como es usual (e incluyendo los porcentajes si es
conveniente con fines informativos).
Una observacin importante: Convencionalmente las frecuencias de las
cuatro casillas las simbolizamos con las cuatro letras a, b, c y d. Conviene ponerlas siempre de la misma manera porque en las frmulas asociadas a este
planteamiento se supone que se han puesto en ese orden; en alguna frmula que veremos esto es especialmente importante.
Cuando los datos se codifican como 1 0 (s o no, bien o mal, etc.), y el
cero significa mal, en desacuerdo, no, etc., es importante que el no, mal,
etc. (lo que codificamos con un 0) estn puestos en la fila c y d (para una variable), y en la columna a y c (para la otra variable), tal como lo ponemos
aqu. Los dos ceros confluyen en c; en ese ngulo se sitan los valores menores cuando se trata de coordenadas. Naturalmente el 0 y el 1 no tienen sentido como juicio de valor cuando slo significan pertenecer a un grupo u otro
(varn o mujer, un curso u otro, etc.).
Aunque podemos aplicar la frmula [1], disponemos de frmulas ms sencillas, como son las frmulas [7] y [8].
La frmula [7] es la habitual, y la que se utiliza siempre, al menos cuando

N no es muy inferior a 40.
b) Observacin sobre la correccin de Yates y el nmero de sujetos
La frmula [8] incluye la llamada correccin de Yates (restar N/2 a la diferencia entre ad y bc en valores absolutos antes de elevarla al cuadrado)7, y
tintos y posiblemente es lo ms apropiado desde una perspectiva ms terica. Como alternativa y complemento, y con un enfoque quizs ms pragmtico, preferimos poner aqu
juntos los distintos procedimientos cuando son vlidos para analizar los mismos datos.
7
Frank Yates, britnico, propuso esta correccin en 1934 (Yates, F (1934). Contingency table involving small numbers and the 2 test. Journal of the Royal Statistical Society (Supplement) 1: 217-235).
333
suele recomendarse cuando los sujetos son pocos (N < 40) o cuando alguna
frecuencia terica no llega a 5.
Aunque esta correccin de Yates (y el requisito de que las frecuencias
tericas no sean inferiores a 5) viene rutinariamente en muchos textos (y
en programas de ordenador), hace tiempo que se cuestiona su necesidad
o conveniencia porque una serie de estudios muestran que con esta correccin la prueba del ji cuadrado se convierte en una prueba demasiado
conservadora (no se rechaza la Hiptesis Nula cuando se podra rechazar
legtimamente)8.
La recomendacin tradicional es a) aplicar la correccin de Yates en tablas 2x2 cuando una frecuencia terica es inferior a 5 y b) no utilizar el ji cuadrado en tablas mayores si el ms del 20% de las frecuencias tericas es inferior a 5.
c) Orientaciones prcticas para tablas 2x2
Posiblemente la prctica ms aconsejable en tablas 2x2 es:
1) Prescindir de esta correccin (frmula [8]) y utilizar habitualmente la
[7]. Cuando no aplicamos esta correccin en las situaciones en las que
suele o sola ser recomendada, tenemos una prueba ms liberal9.
2) No utilizar el ji cuadrado con pocos sujetos (no muy inferior a N = 40
es una recomendacin segura).10
3) Con muestras muy pequeas (en torno a N = 20) utilizar la prueba
exacta de Fisher (en el apartado siguiente)
8
A pesar de que esta frmula [8] se sigue recomendando, ya se va viendo cuestionada en bastantes textos (como el de Daniel, 1981), suprimida y no recomendada en otros
como innecesaria (como en el de Runyon y Haber, 1984; Rosenthal y Rosnow, 1991; Spatz,
1993; Hinkle, Wiersma y Jurs, 1998), y esta no recomendacin es elogiada en recensiones
publicadas en revistas de prestigio en este campo (Morse, 1995). Estos autores mencionan
las investigaciones en las que se apoyan, y aqu los citamos a ttulo de ejemplo (se pueden
buscar ms citas autorizadas) porque la supresin de esta correccin de Yates (que data de
1934) todava supone ir en contra de una prctica muy generalizada. El consensus parece
ser que esta correccin hace del ji cuadrado una prueba excesiva e innecesariamente conservadora (Black, 1999:580). Otros autores (Heiman, 1996) siguen recomendando el que
las frecuencias tericas sean superiores a 5 (en tablas 2x2) pero omiten la correccin de Yates. Un comentario ms amplio y matizado sobre la correccin de Yates y otras alternativas
puede verse en Ato Garca y Lpez Garca (1996).
9
El programa de VassarStats (Internet, Anexo II) calcula el ji cuadrado con y sin la correccin de Yates.
10
No hay un acuerdo claro sobre el nmero mnimo de sujetos en el ji cuadrado; Rosenthal y Rosnow (1991:514) mencionan N = 20 pero advierten que frecuencias tericas
muy bajas pueden funcionar bien en muestras todava ms pequeas.
334
d) Ejemplo resuelto
Podramos utilizar la frmula [1], que se puede aplicar siempre, pero es
mucho ms cmoda la frmula [7] que es la que generalmente se utiliza en
estos casos.
Tenemos 161 sujetos clasificados segn el grupo al que pertenecen (A o B)
y sus respuestas a una pregunta (s o no). Disponemos los datos en un cuadro de doble entrada (tabla 14).
Tabla 14
Los grados de libertad son: (columnas menos una) por (filas menos una)
= (2-1) (2-1) = 1 totales 90 (100%) 71 (100%).
La probabilidad de que estas frecuencias sean aleatorias son inferiores al

1/1000 (p < .001), ya que nos pasamos del valor sealado en las tablas
(10.827).
Podemos concluir que las dos variables que han servido de criterio de clasificacin (responder s o no a una pregunta y pertenecer a uno u otro grupo)
estn relacionadas (o lo que es lo mismo, los grupos difieren significativamente en sus respuestas).
e) Clculo complementario: coeficiente de correlacin
Un valor grande de c2 nos da mucha seguridad para afirmar que existe
asociacin entre las dos variables, pero no nos dice si la relacin es grande o
pequea. Para cuantificar el grado de relacin tenemos que acudir a alguno
de los coeficientes relacionados con el c2 puestos al final (apartado n 12).
335
En el caso de tablas 2x2 y con variables dicotmicas (que se excluyen mutuamente) el coeficiente apropiado es el coeficiente ? (fi, frmula [15] que repetimos aqu), que es el mismo coeficiente r de Pearson cuando las dos variables son dicotmicas (1 y 0):
La relacin entre pertenencia a un grupo u otro y responder s o no a esa

pregunta es moderada. Si hacemos que pertenecer al grupo A = 1, y pertenecer al grupo B = 0, y decir que s = 1 y decir que no = 0 y calculamos el coeficiente r de Pearson, obtendremos el mismo resultado.
Disponemos tambin de otros coeficientes de relacin para tablas mayores (el coeficiente de contingencia C es el ms popular aunque no el nico);
los exponemos y valoramos brevemente en el apartado n 12.
2 Prueba exacta de Fisher
En tablas 2x2 y con un N bajo (ciertamente < 20) es preferible la prueba
exacta de Fisher: basta consultar las tablas apropiadas, en las que vienen todas las combinaciones posibles de a, b, c y d con N = 20 o menos (una tabla
para cada valor posible de N). Las tablas nos indican qu combinaciones tienen una probabilidad de ocurrir por azar inferior al 5% o al 1%11. Otra alternativa cmoda (adems de los programas informticos ms comunes) es utilizar
alguno de los varios programas disponibles en Internet12.
3 Contraste entre proporciones (muestras independientes)
Como alternativa que da idnticos resultados, podemos utilizar el contraste entre proporciones (o entre porcentajes si multiplicamos por 100) para
muestras independientes (frmula [9]). Obtendremos un valor de z, pero ya
sabemos que en estos casos z2 = c2
El procedimiento ya est explicado en el contraste de medias pero es til
repetirlo en este contexto para ver su equivalencia con el c2: dividimos una diferencia entre proporciones por el error tpico de la diferencia entre dos
proporciones, que est en el denominador de la frmula [9]. En rigor lo que
11
Estas tablas se encuentran en algunos textos (como el de Siegel, 1972; Siegel y Castellan, 1988 [tabla 35]; Langley, 1973; Leach, 1982) o en compendios de tablas estadsticas
(como en Meredith, 1971 y en Ardanuy y Tejedor, 2001, tabla I).
12
Anexo II; en estos programas (como GRAPHPAD) basta introducir en el cuadro de dilogo las cuatro frecuencias a, b, c y d.
336
tenemos en el numerador no es la diferencia entre dos proporciones, sino la

diferencia entre una diferencia (la nuestra) y una diferencia de cero.
En la frmula [9] tenemos en el denominador el error tpico de la diferencia entre dos proporciones.
Utilizamos como ejemplo los mismos datos de la tabla anterior [14].
Y aplicando la frmula [9] a nuestros datos:
Ya sabemos que con un grado de libertad c2 = z2: 5.2892 = 27.97; llegamos

a la misma conclusin que con la prueba del c2. Los resultados son idnticos
si utilizamos todos los decimales.
10.2. Tablas 2x2 para muestras relacionadas
10.2.1. Procedimientos
a) Ji cuadrado (prueba de McNemar)
Las frmulas vistas hasta ahora, y referidas al ji cuadrado, son todas equivalentes a la frmula [1]. Las frmulas para muestras relacionadas nos sirven para comparar dos proporciones (o porcentajes) cuando los mismos sujetos pueden estar incluidos en los dos grupos (y en este sentido se trata de
muestras relacionadas, como se puede apreciar con claridad en los ejemplos especficos que ponemos despus para ilustrar las aplicaciones de este
procedimiento).
337
La frmula [10] se utiliza cuando (a + d) es

igual o mayor de 10;
La frmula [11] se utiliza cuando (a + d) <
10; se resta una unidad al numerador poniendo el signo + a la diferencia; se trata de
disminuir esta diferencia antes de elevarla al
cuadrado.
Estas frmulas corresponden a la denominada prueba de McNemar (y as
figura en muchos textos). En estos casos los grados de libertad son igual a 1.
Recordamos la observacin importante que ya hemos hecho sobre los
smbolos utilizados: a y d son las celdillas donde se sitan las frecuencias discrepantes a y d (s/no y no/s; 0/1/ y 1/0), por lo que esas frmulas, expresadas
con estos smbolos, slo tienen sentido si los datos estn bien dispuestos.
b) Contraste entre proporciones relacionadas
Podemos tambin hacer un contraste de proporciones para muestras relacionadas; como en estos casos (tablas 2x2, un grado de libertad) c2 = z2, la
frmula queda simplificada as:
Veremos la utilidad de estas frmulas con dos ejemplos referidos a dos
planteamientos tiles y frecuentes.
10.2.2. Aplicaciones especficas
a) Para comprobar cambios
Clasificamos a los sujetos segn hayan respondido s o no (o de acuerdo
o en desacuerdo, 1 0, etc.) en dos ocasiones distintas.
Podemos suponer que hemos preguntado a nuestros alumnos si les interesa la asignatura en dos ocasiones, primero al comenzar el curso y ms
adelante al terminar el curso (tabla 15).
Tabla 15
338
Al comenzar el curso la asignatura interesa a 10 alumnos (17% del total); al

terminar les interesa a 39 (65% del total).
Nos interesa comprobar si este 65% es significativamente superior al 17%
inicial.
Se trata de muestras relacionadas porque hay sujetos que estn en los
dos grupos (como los 4 sujetos en (b), interesados tanto antes como despus
y los 15 en (c) a quienes no interesa la asignatura ni al comienzo ni al final).
En todas estas tablas hay que prestar atencin a la disposicin de los datos
de manera que en la celda (c) coincidan los dos ceros y en la celda (b) los dos
unos.
b) Para comprobar una diferencia entre proporciones relacionadas
Se trata del mismo caso anterior pero nos formulamos la pregunta de otra
manera. Repetimos los mismos datos, pero ahora se trata de dos preguntas
de un examen, y respondidas por lo tanto en la misma ocasin (no antes y
despus) y que pueden estar bien o mal respondidas; queremos comparar su
nivel de dificultad; ver si una es ms difcil que la otra (tabla 16).
Tabla 16
Si queremos saber si una pregunta est relacionada con la otra (si el saber una supone saber tambin la otra) utilizaremos la frmula convencional;
en este caso la [1] o la [7].
Pero si lo que queremos es comprobar si una pregunta es ms difcil que
la otra (como en este ejemplo), estamos en el mismo caso anterior (muestras
relacionadas, lo mismo que para comprobar un cambio)
La pregunta 1 la ha respondido correctamente el 65% (39 alumnos), y la
2 el 17% (10 alumnos). Como algunos alumnos han respondido bien las dos,
tenemos muestras relacionadas.
En ambos casos aplicamos la frmula [10] porque a + d = 41 (>10), y tenemos que:
339
Con un grado de libertad tenemos que p <.001; nuestra conclusin es

que ha habido cambio en el primer ejemplo y que una pregunta es ms difcil que la otra en el segundo ejemplo. En ambos casos la diferencia entre
[a+b] y [b+d] es superior a lo que se puede esperar por azar.
Si preferimos un contraste de proporciones para muestras relacionadas,
podemos utilizar la frmula [12] para obtener el valor de z:
; el resultado es el mismo
10.2.3. Adaptacin de la prueba de McNemar (muestras relacionadas) para tablas mayores (nxn)
La frmula de McNemar es apropiada para tablas 2x2, pero se puede adaptar para tablas mayores, como en este ejemplo para comprobar un supuesto
cambio. La pregunta que se ha hecho antes y despus admite en este caso
tres respuestas: s, no s y no (podran ser otras categoras de respuesta o de
observacin, como bien, regular y mal si hay criterios claros para este tipo de
clasificacin).
Tabla 17a
Tabla 17b
Como en tablas semejantes, los noes (el nivel ms bajo) deben coincidir en
la celda inferior izquierda y los ses (el nivel ms alto) en la celda superior derecha (tabla 17a). Lo que hemos hecho (tabla 17b) es agrupar los cambios negativos (de s a no y a no s, y de no s a no) y los cambios positivos (de no a
no s y s y de no s a s), y ya tenemos los dos valores, a y d, de la frmula [10].
(32 10)2
Ahora podemos aplicar la frmula [10]: c = = 11.52, p < .001;
32 + 10
2
340
Podemos concluir que s ha habido un cambio positivo superior a lo que

cabra esperar por azar.13
11. DOS CRITERIOS

(TABLAS NXN)
DE CLASIFICACIN, CADA UNO DIVIDIDO EN DOS O MS NIVELES
En este caso se aplica la frmula general [1].

El procedimiento es el siguiente:
1 En cada casilla se calcula la frecuencia terica (tal como se ve en el
apartado n 4)
2 En cada casilla se calcula el valor correspondiente de ji cuadrado,
3 Por ltimo se suman todos estos valores de ji cuadrado de cada casilla en un valor nico de ji cuadrado que es el que consultamos en las
tablas.
Lo veremos con un ejemplo14. Se ha hecho una encuesta de opinin entre
los accionistas de una determinada empresa, para ver si su posicin frente a
una posible fusin con otra empresa era independiente o no del nmero de
acciones que cada uno de ellos tiene. Tenemos las respuestas de 200 accionistas clasificados segn el nmero de acciones (tabla 18); debajo de cada frecuencia observada se pone el tanto por ciento con respecto al total de la fila
(nmero de acciones), porque resulta ms informativo (tambin cabra poner
los tantos por ciento con respecto al total de la columna).
Tabla 18
13
Otra alternativa para tablas 3x3 y muestras relacionadas podemos verla en Hinkle,
Wiersma y Jurs (1998).
14
Ejemplo tomado de W. Mendenhall y James E. Reinmouth (1978), Estadstica para
administracin y economa, Mxico, Grupo Editorial Iberoamericana.
341
Tabla 19
El clculo del c2 est en la tabla 19. Las frecuencias tericas o esperadas

(ft) de cada casilla las calculamos tal como se indic anteriormente:
(marginal de la fia) (marginal de la columna)
ft =
(nmero total de sujetos)
(99) (58)
as en (a) tendremos: ft = = 28.71
200
(fo - ft)2 (37 - 28.71)2
Y el c2 correspondiente a (a) ser igual a = = = 2.3937
ft
28.71
Comprobamos que la suma de las frecuencias observadas es igual a la suma de las frecuencias tericas o esperadas; se trata de los mismos sujetos repartidos con distintos criterios: los que observamos en cada casilla, y los que
tendramos si no hubiera relacin entre los dos criterios de clasificacin. Estas dos sumas no coinciden siempre exactamente, depende de cmo hayamos redondeado los decimales, pero deben ser casi iguales.
342
Los grados de libertad son (3-1)(3-1) = 4. Con cuatro grados de libertad

rechazamos la Hiptesis Nula con una probabilidad de error inferior al 5%
(p<.05; el valor de las tablas es 9.488 y nosotros lo superamos; en realidad la
probabilidad es p<.02).
Podemos afirmar con mucha seguridad que el nmero de acciones que
uno tiene en la empresa est relacionado con la postura frente a la posible fusin de la empresa con otra.
Coeficientes de asociacin
Para comprobar si la relacin es grande o pequea acudimos a alguno
de los coeficientes de asociacin relacionados con el ji cuadrado (en el
apartado siguiente Coeficientes de relacin asociados al c2 se comentan
estos coeficientes).
En este caso (tablas mayores de 2x2) el coeficiente ms utilizado es el coeficiente de contingencia (frmula [13]):
La relacin es ms bien baja, aunque se puede afirmar con mucha seguridad que s hay relacin.
Si queremos interpretar con ms detalle la informacin disponible, podemos fijarnos en qu casillas hay una mayor discrepancia entre las frecuencias
observadas y las tericas; esto nos lo indican los mismos valores del ji cuadrado, que son mayores en unas casillas que en otras. Lo que est ms claro
es la discrepancia:
En la casilla h
En la casilla a
En la casilla b
(entre los que tienen ms de 500 acciones hay ms en

contra de la fusin que los que podramos esperar),
(entre los que tienen menos de 100 acciones hay ms a favor de la fusin)
(entre los que tienen menos de 100 acciones hay menos
en contra de la fusin).
En los cuadros 2x2 la interpretacin suele ser ms fcil e intuitiva, en cuadros grandes no siempre es tan sencillo y hay que fijarse cmo se distribuyen
las frecuencias. Hay mtodos especficos para parcializar estos cuadros y hacer una interpretacin ms matizada15.
15
Pueden verse en Linton, Gallo Jr. y Logan (1975).
343
Con estos mismos datos podramos calcular tambin el coeficiente de correlacin r de Pearson. Para esto podramos codificar los datos as:
nmero de acciones: 1 (menos de 100),
2 (entre 100 y 500)
3 (ms de 500)
opinin:
3 (a favor),
2 (sin opinin)
1 (en contra).
Posiblemente para calcular este coeficiente sera preferible tener a los sujetos agrupados en ms categoras segn el nmero de acciones que tengan,
o sencillamente no agruparlos. Cuando agrupamos a los sujetos (y eliminamos diferencias individuales) los valores del coeficiente de correlacin no son
los mismos (suelen ser ms bajos) que si no agrupamos a los sujetos. Lo que
sucede es que a veces los nicos datos disponibles son los datos agrupados,
como los de este ejemplo.
12. COEFICIENTES DE RELACIN ASOCIADOS AL c2
Un valor alto de c2 nos da seguridad para afirmar que hay asociacin o relacin entre dos variables (o una diferencia entre dos o ms grupos), pero no
nos dice si la relacin es grande o pequea (como tampoco nos dice si es importante). Con un N grande es relativamente fcil obtener valores altos (estadsticamente significativos) de c2, sin que esto quiera decir que la relacin
entre las dos variables sea grande o importante.
Para apreciar la magnitud de la asociacin existen varios coeficientes derivados del c2 Estos coeficientes aportan una informacin anloga a la del tamao del efecto en el contraste de medias. Los ms utilizados son:
a) El coeficiente f (fi) cuando las dos variables son genuinamente dicotmicas (no dicotomizadas); en estos casos es el preferible.
b) El coeficiente de contingencia (C) con tablas nxn (ms de dos niveles al menos en uno de los dos criterios) pero hay otros que pueden
ser ms adecuados. Se pueden examinar las peculiaridades de cada
uno de los coeficientes disponibles para utilizar el que creamos ms
conveniente.
Para comparar coeficientes de relacin asociados al c2 dentro de un mismo estudio se debe utilizar el mismo coeficiente, porque los valores de los
distintos coeficientes no son estrictamente comparables entre s.
Exponemos a continuacin algunos de los coeficientes ms utilizados indicando sus particularidades para poder escoger el que en cada caso nos parezca ms conveniente.
344
a) Coeficiente de contingencia
Valor mximo de C cuando el nmero de filas (f)
es igual al de columnas (c):
Es vlido para cuadros de cualquier tamao;

Es estadsticamente significativo en el mismo grado en que lo es el c2;
El valor mnimo es 0, pero su valor mximo depende del tamao de la tabla; por esta razn estos coeficientes slo se pueden comparar entre s cuando proceden de tablas del mismo tamao; en el caso de un grado de libertad
(tablas 2x2), su valor mximo es .707; en tablas 3x3 su valor mximo es .816
No es comparable con el coeficiente r de Pearson.
Su valor es siempre positivo; el signo de la asociacin se deduce de la observacin directa de los datos
b) Coeficiente f
Cuando se calcula a partir de los datos de una tabla de contingencia 2x2

su frmula es:
El coeficiente f es un caso particular del coeficiente r de Pearson (y pueden emplearse las mismas frmulas o una calculadora programada con el coeficiente r); es estadsticamente significativo (no aleatorio) en el grado en
que lo es el valor de c2;
Se utiliza con datos dicotmicos (1 0) en cuadros 2x2; no es vlido para
datos dicotomizados (cuando los datos originales son continuos); en este caso podemos utilizar el c2 pero no este coeficiente.
345
Es de uso frecuente para calcular correlaciones entre tems dicotmicos

(tests, pruebas objetivas).
Si se calcula a partir de c2 su signo ser siempre positivo; el signo es realmente positivo si bc > ad (en b y c estn los datos que indican relacin positiva; 1 en las dos variables 0 en las dos).
Una limitacin de este coeficiente es que su valor mximo no es 1 necesariamente; slo cuando la proporcin de unos es idntica en las dos variables.
c) Coeficiente f de Cramer
k es el nmero de filas o de columnas, el que sea menor de los dos.

Este coeficiente vara de 0 a 1, independientemente del tamao de la tabla,
por lo que puede ser una alternativa preferible al coeficiente de contingencia
(aunque se utiliza menos).
Es estadsticamente significativo si lo es el valor de c2 correspondiente.
d) Coeficiente T de Tschuprow
f = nmero de filas y c = nmero de columnas;

Este coeficiente puede alcanzar el valor mximo de 1 solamente cuando f =
c (el nmero de filas es igual al nmero de columnas).
Es estadsticamente significativo si lo es el valor de c2 correspondiente.
346
13. VALORACIN DEL JI CUADRADO

1 El ji cuadrado es un mtodo muy utilizado y muy til cuando los datos
disponibles son realmente nominales (o categricos): lo nico que sabemos de los sujetos es en qu categora podemos clasificarlos.
2 Frecuentemente sabemos algo ms de los sujetos: no solamente, por
ejemplo, si estn por encima o por debajo de la media (o apto o no
apto) sino una puntuacin exacta. O los tenemos clasificados segn
respuestas que admiten un cdigo en nmeros (como nada, poco,
mucho que pueden equivaler a 1, 2 y 3). Muchas veces el uso del ji
cuadrado supone una prdida de informacin, y debemos preguntarnos si en vez de o adems del ji cuadrado no disponemos de otros
mtodos preferibles de anlisis (como puede ser un coeficiente de correlacin) porque aprovechamos mejor la informacin que de hecho
tenemos.
3 El ji cuadrado es muy sensible al nmero de sujetos (como sucede en
todas las pruebas de significacin estadstica): con facilidad obtenemos
unos valores no solamente estadsticamente significativos, sino de una
magnitud muy grande. Esto no quiere decir que la diferencia o la relacin sea grande, puede ser muy pequea. Como otros mtodos de anlisis que nos remiten a una probabilidad, conviene calcular siempre algn coeficiente que nos cuantifique mejor la magnitud de la relacin
o de la diferencia. En tablas 2x2 y con datos genuinamente dicotmicos, el coeficiente f es el preferible.
4 El encontrar un valor significativo de ji cuadrado no quiere decir que
haya una relacin lineal entre las dos variables que han servido para
clasificar a los sujetos (es decir que a ms de una ms de la otra, cuando tenga sentido hablar de ms y menos). Para interpretar bien los resultados hay que observar las frecuencias, y ayuda convertirlas en porcentajes con respecto a los totales marginales, como hemos hecho en
casi todos los ejemplos presentados.
347
ANEXO I. TABLAS DEL JI CUADRADO

Grados
de
libertad
p=
0.05
p=
0.01
1
3
4
5
6
7
8
9
10
11
12
3.84
7.82
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
6.64
11.35
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.73
26.22
p = Grados p =
0.001
de
0.05
libertad
p=
0.01
p=
0.001
10.83
16.27
18.47
20.52
22.46
24.32
26.13
27.88
29.59
31.26
32.91
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.32
46.80
48.27
49.73
13
14
15
16
17
18
19
20
21
22
23
22.36
23.69
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
Grados p =
de
0.05
libertad
24
25
26
27
28
29
30
40
50
60
70
p=
0.01
36.42 42.98
37.65 44.31
38.89 45.64
40.11 46.96
41.34 48.28
42.56 49.59
43.77 50.89
55.76 63.69
67.51 76.15
79.08 88.38
90.53 100.42
p=
0.001
51.18
52.62
54.05
55.48
56.89
58.30
59.70
73.41
86.66
99.62
112.31
Tablas adaptadas y abreviadas de Alexei Sharov, Virginia Tech, Blacksburg, VA, Quantitative Population Ecology, On-Line Lectures [ http://www.ento.vt.edu/~sharov/PopEcol/] http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html
Tablas ms completas y las probabilidades exactas de cualquier valor de ji cuadrado pueden verse en varias direcciones de Internet:
INSTITUTE OF PHONETIC SCIENCES (IFA) (Statistical tests h t t p : / / f o n s g 3 . l e t . u v a . n l / S e r v i c e / S t a t i s t i c s . h t m l), The Chi-square distribution h t t p : / / f o n s g 3 . l e t .
u v a . n l / S e r v i c e / S t a t i s t i c s / C h i S q u a r e _ d i s t r i b u t i o n . h t m l (calcula la probabilidad introduciendo los valores de ji cuadrado y los grados de libertad).
JONES, JAMES, Statistics: Lecture Notes http://www.richland.edu/james/lecture/m170/
http://www.richland.cc.il.us/james/lecture/m170/tbl-chi.html
LOWRY, RICHARD, Vassar Stats http://faculty.vassar.edu/lowry/VassarStats.html (buscar
en el men: distributions)
SHAROV, ALEXEI, On-line lectures Department of EntomologyVirginia Tech, Blacksburg,
VA [http://www.ento.vt.edu/~sharov/PopEcol/ Statistical Tables] http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html (tablas de c2 hasta 100 grados de
libertad, p = .05, .01 y .001).
STOCKBURGER , DAVID W. Introduction to Statistics: Concepts, Models, and Aplications
CRITICAL VALUES FOR THE CHI-SQUARE DISTRIBUTION http://www.
psychstat.smsu.edu/introbook/chisq.htm
WALKER, JOHN, RetroPsychoKinesis Project Home http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html [calcula la probabilidad (p) de c2 a partir de los
valores de c2 y de los grados de libertad, y el valor de c2 a partir de p (probabilidad) y grados de libertad].
348
ANEXO II. JI CUADRADO Y ANLISIS AFINES EN INTERNET

ARSHAM, HOSSEIN Europe Mirror Site Collection, [Tablas hasta 6x6] http://home.
ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm#rmenu (men Chisquare Test for Relationship)
COLLEGE OF SAINT BENEDICT, SAINT JOHNS UNIVERSITY, Contingency Tables http://www.
physics.csbsju.edu/stats/contingency.html
LOWRY, RICHARD, Vassar Stats [Tablas 2x2, con y sin correccin de Yates, coeficiente phi],
http://faculty.vassar.edu/lowry/VassarStats.html (men: frequency data)
LOWRY, RICHARD, Vassar Stats [Tablas hasta 5x5] http://faculty.vassar.edu/lowry/VassarStats.html (buscar en el men: frequency data)
PREACHER, KRISTOPHER J. (May, 2001) The Ohio State University, Calculation for the ChiSquare Test, An interactive calculation tool for chi-square tests of goodness of
fit and independence (Tablas hasta 10x10, vlido para una sola fila o columna)
http://www.psych.ku.edu/preacher/chisq/chisq.htm (consultado 28, 03, 08)
Prueba exacta de Fisher
COLLEGE OF SAINT BENEDICT, SAINT JOHNS UNIVERSITY, http://www.physics.csbsju.
edu/stats/fisher.form.html
LOWRY, RICHARD, Vassar Stats, Fishers Exact Probability Test http://faculty.vassar.edu/
lowry/fisher.html (Vassar Stats Web Site for Statistical Computation: http://faculty.vassar.edu/lowry/VassarStats.html) [Vassar College, Poughkeepsie, New
York]
YVIND L ANGSRUD, Fishers Exact Test http://www.langsrud.com/fisher.htm ,
PREACHER, KRISTOPHER J. and BRIGGS, NANCY E., Calculation for Fishers Exact Test,
http://www.psych.ku.edu/preacher/ (o directamente http://www.psych.ku.edu/
preacher/fisher/fisher.htm
SISA, Simple Interactive Statistical Analysis FisherExact http://home.clara.net/sisa/fisher.htm y Fisher 2 by 5 http://home.clara.net/sisa/fiveby2.htm
McNemar, Binomial, prueba de los signos
GRAPHPAD, Free Calculators for Scientists Sign and binomial test http://graphpad.
com/quickcalcs/binomial1.cfm (ndice de todos los anlisis: http://graphpad.
com/quickcalcs/index.cfm)
GRAPHPAD, Free Calculators for Scientists [http://www.graphpad.com/quickcalcs/
index.cfm] McNemars test to analyze a matched case-control study
http://www.graphpad.com/quickcalcs/McNemar1.cfm
SISA, Simple Interactive Statistical Analysis Pairwise T-test | Wilcoxon | Signs test |
Mc-Nemar http://home.clara.net/sisa/pairwhlp.htm
349
REFERENCIAS BIBLIOGRFICAS
AMERICAN PSYCHOLOGICAL ASSOCIATION (2001), Publication manual of the American

Psychological Association (5th Edit). Washington D.C.: Author.
ANSCOMBE F. J. (1973), Graphs in Statistical Analysis. American Statistician, 27 (Feb
1973), 17-21.
ARDANUY ALBAJA, R. y TEJEDOR TEJEDOR, F. J. (2001), Tablas estadsticas. Madrid: La Muralla.
ATO GARCA, M. y LPEZ GARCA, J. J. (1996), Anlisis estadstico para datos categricos.
Madrid: Sntesis.
BEHRENS, JOHN T. (1997), Toward a Theory and Practice of Using Interactive Graphics in
Statistics Education. In GARFIEL, J. B. and BURRILL G. (Eds.) Research on the Role
of Technology in Teaching and Learning Statistics (pp. 111-121). Voorburg, The
Netherlands: Internacional Statistical Institute http://www.stat.auckland.
ac.nz/~iase/publications/8/10.Behrens.pdf (consultado 16, 04, 07).
BERK, R. A. (1978), A consumers guide to criterion-referenced tests item statistics.
NCME: Measurement in Education, 9. 1.
BLACK, T. R. (1999), Doing Quantitative Research in the Social Sciences. London:
Sage.
BORG, W. R., GALL, J. O., & GALL, M. D. (1993), Applying educational research: A practical guide. (3rd ed.) New York: Longman.
BURTON, R. F. (2004), Multiple Choice and true/false tests: reliability measures and some implications of negative marking. Assessment & Evaluation in Higher Education. 29 (5), 585-595.
CATTELL, R. B. (1964), Validity and Reliability: a Proposed More Basic Set of Concepts.
Journal of Educational Psychology, 55, 1-22.
CHARTER, R. A. (2001), It Is Time to Bury the Spearman-Brown Prophecy Formula for
Some Common Applications. Educational and Psychological Measurement, 61
(4). 690-696.
COE, R. (2000), Effect Size Resources http://www.cemcentre.org/RenderPage. asp?LinkID=30310000 (consultado 1, Enero, 2007).
351
COHEN J. (1988), Statistical Power Analysis for the Behavioral Sciences, second edition. Hillsdale, N.J.: Lawrence Erlbaum.
COHEN, J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and
Psychological Measurement, 20, 1, 36-46.
COHEN, J. (1977), Statistical Power Analysis for the Behavioral Sciences. New York:
Academic Press, [2nd. edit., 1988, Hillsdale, N.J.: Erlbaum].
COHEN, P. A. (1981), Student Ratings of Instruction and Student Achievement: A Metaanalysis of Multisection Validity Studies. Review of Educational Research, 51,
281-309.
CRONBACH, L. J. (1951), Coefficient Alpha and the Internal Structure of Tests. Psychometrika, 16, 297-334.
CRONBACH, L. J. and SHAVELSON, R. J. (2004), My Current Thoughts on Coefficient Alpha
and Succesor Procedures. Educational and Psychological Measurement, 64
(3), 391-418.
DALLAL, G. E. (last revision 2001), The Little Handbook of Statistical Practice (en Frank
Anscombes Regression Examples http://www.StatisticalPractice.com (consultado 16, 04, 07).
DANIEL, W. W. (1981), Estadstica con aplicaciones a las ciencias sociales y a la educacin. Bogot: McGraw-Hill Latinoamericana.
DOWNIE, N. M. y HEATH, R. W. (1971), Mtodos estadsticos aplicados: Mxico: Harper;
(Madrid: Editorial del Castillo).
DUHACHEK, A. and IACOBUCCI, D. (2004), Alphas Standard Error (ASE): An Accurate and
Precise Confidence Interval Estimate. Journal of Applied Psychology, Vol. 89 Issue 5, p792-808.
ETXCHEBERRIA, J. (1999), Regresin mltiple. Madrid: La Muralla.
FAN, X. and THOMPSON, B. (2001), Confidence Intervals About Score Reliability Coefficients, please: An EPM Guidelines Editorial. Educational and Psychological Measurement, 61 (4), 517-531.
FELDT, L. S. (1975), Estimation of the Reliability of a Test Divided into Two Parts of Unequal Length, Psychometrika, 40, 4, 557-561.
FELDT, L. S. and KIM, S. (2006), Testing the Difference Between Two Alpha Coefficients
With Small Samples of Subjects and Raters. Educational and Psychological Measurement, 66 (4), 589-600.
FINK, A. (1998), Conducting Research Literature Reviews, From Paper to the Internet.
Thousand Oaks & London: Sage Publications.
FOX, J. (1993), Regression diagnostics: An Introduction. En LEWIS-BECK, MICHAEL S.
(Ed.). Regression Analysis. International Handbooks of Quantitative Applications in the Social Sciences, Volume 2. London: SAGE Publications, 245-334.
GARDNER, P. L. (1970), Test Length and the Standard Error of Measurement. Journal of
Educational Measurement 7 (4), 271273.
GLASS, G. V., MCGAW, B. and SMITH, M. L. (1981), Meta-Analysis in Social Research. Beverly Hills, Cal.: Sage Publications.
GLINER, J. A.; LEECH, N. L. and MORGAN, G. A. (2002), Problems With Null Hypothesis
Significance Testing (NHST): What Do the Textbooks Say? The Journal of Exprimental Education. 71 (1), 83-92.
352
GMEZ FERNNDEZ, D. (1981), El ESP-E, un nuevo cuestionario de personalidad a disposicin de la poblacin infantil espaola. Revista de Psicologa General y Aplicada, 36, 450-472.
GUILFORD, J. P. (1954), Psychometric Methods, New York: McGraw-Hill;
GUILFORD, J. P. and FRUCHTER, B. (1973), Fundamental Statistics in Psychology and
Education. New York: McGraw-Hill (en espaol, Estadstica aplicada a la psicologa y la educacin, 1984, Mxico: McGraw-Hill).
HANCOCK, G. R. and KLOCKARS, A. J. (1996), The Quest for?: Developments in Multiple
Comparison Procedures in the Quarter Century Since Games (1971). Review of
Educational Research, 66, (3). 269 - 306.
HEDGES, L. V. and OLKIN, I. O. (1985), Statistical Methods for Meta-Analysis. Orlando,
FL: Academic Press.
HEIMAN, G. W. (1996), Basic Statistics for the Behavioral Sciences, 2nd edit. Boston:
Houghton Mifflin.
HERNNDEZ SAMPIERI, R. FERNNDEZ COLLADO, C. y BAPTISTA LUCIO, P. (2000), Metodologa
de la Investigacin. Segunda Edicin. Mxico: McGraw-Hill.
HINKLE, D. E.; WIERSMA, W. and JURS, S. G. (1998), Applied Statistics for the Behavioral
Sciences, fourth edition. Boston: Houghton-Mifflin.
HOLLEY, J.W. and LIENERT, G. A. (1974), The G Index of Agreement in Multiple Ratings,
Educational and Psychological Measurement, 34, 817-822.
HORST, P. (1953), Correcting the Kuder-Richardson Reliability for Dispersion of Item
Difficulties, Psychological Bulletin, 50, 371-374.
HOYT, C. J. (1941), Test Reliability Estimated by Analysis of Variance, Psychometrika, 3,
153-160.
HOYT, C. J. (1952), Estimation of Test Reliability for Un-Restricted Item Scoring Methods, Educational and Psychological Measurement, 12, 752-758.
HUBBARD, R. and RYAN, P. A. (2000), The Historical Growth of Statistical Significance Testing in Psychology-and Its Future Prospects. Educational and Psychological
Measurement, Vol. 60 (5), 661-681.
HUBERTY, C. J. (2002), A History of Effect Size Indices. Educational and Psychological
Measurement, Vol. 62 (2), 227-240.
HUNTER, J. E. and SCHMIDT, F. L. (1990), Methods of Meta-Analysis. Newbury Park: Sage
Publications.
JOURARD, S. M. (1971), Self-Disclosure, An Experimental Analysis of the Transparent
Self. New York: Wiley-Interscience.
KERLINGER, F. N., Investigacin del Comportamiento. Mxico: Interamericana.
KIRK, R. E. (1995), Experimental Design, Procedures for the Behavioral Sciences,
third edit. Pacific Grove: Brooks/Cole.
KIRK, R. E. (1996), Practical Significance: A Concept Whose Time Has Come. Educational and Psychological Measurement, 56 (5), 746-759.
KRISTOF, W. (1974), Estimation of the Reliability and True Score Variance from a Split of
a Test into Three Arbitrary Parts, Psychometrika, 39, 4, 491-499.
L ANE, D. (Rice University) (2007), HyperStat Online Statistics Textbook http://davidmlane.com/hyperstat/index.html (consultado 25, 03, 08).
L ANE, D. History of Normal Distribution http://cnx.rice.edu/content/m11164/latest/
(Last edited by David Lane on Jun 1, 2007; consultado 25, 03, 08).
353
L ANGLEY, R. (1973), Practical Statistics for Non-Mathematical People. New York: Drake.
LEACH, C. (1982), Fundamentos de estadstica, enfoque no paramtrico para ciencias sociales. Mxico: Limusa.
LIGHT, R. J., SINGER, J. D. and WILLETT, J. B. (1990), By Design, Planning Research on
Higher Education. Cambridge, Mass.: Harvard University Press.
LINTON, M., GALLO JR., PHILLIP S. and LOGAN, C. A. (1975), The Practical Statistician, Simplified Handbook of Statistics. Monterey: Brooks/Cole.
MAGNUSSON, D. (1976), Teora de los Tests, Mxico: Trillas.
MAHADEVAN, L. (2000), The Effect Size Statistic: Overview of Various Choices. Paper
presented at the annual meeting of the Southwest Educational Research Association, Dallas (January 27-29, 2000) (http://eric.ed.gov/ERICDocs/data/ericdocs2/content_storage_01/0000000b/80/10/b7/3a.pdf (consultado 1 de Enero
2007) (ERIC ED438308).
MCMORRIS, R. F. (1972), Evidence of the Quality of Several Approximations for Commonly Used Measurement Statistics, Journal of Educational Measurement, 9,
2, 113-122.
MCNEMAR , Q. (1962), Psychological Statistics, 3rd edit., New York: John Wiley and
Sons.
MEHRENS, W. A. and LEHMANN, I. J. (1973), Measurement and Evaluation in Education
and Psychology (3rd edition). New York: Holt, Rinehart and Winston.
MEREDITH, W. M. (1971), Manual de tablas estadsticas. Mxico: Trillas.
MORALES VALLEJO, P. (1993), Lneas actuales de investigacin en mtodos cuantitativos,
el meta-anlisis o sntesis integradoras. Revista de Educacin (Ministerio de
Educacin y Ciencia), Enero-Abril, 300, 191-221.
MORALES VALLEJO, P. (2006), Medicin de actitudes en Psicologa y Educacin. 3 edicin. Madrid: Universidad Pontificia Comillas.
MORALES VALLEJO, P. (2007a), Anlisis de varianza para muestras relacionadas.
www.upcomillas.es/personal/peter/Muestrasrelacionadas.pdf
MORALES VALLEJO, P. (2007b), Tamao necesario de la muestra: Cuntos sujetos necesitamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf
MORALES VALLEJO, P. (2007c), El tamao del efecto (effect size): anlisis complementarios al contraste de medias http://www.upcomillas.es/personal/peter/investigacion/Tama%F1oDelEfecto.pdf
MORALES VALLEJO, PEDRO (2008). Sobre las hiptesis direccionales y no direccionales.
http://www.upco.es/personal/peter/investigacion/Hipotesis.pdf
MORALES VALLEJO, P. UROSA SANZ, B. y BLANCO BLANCO, . (2003), Construccin de escalas
de actitudes tipo Likert. Una gua prctica. Madrid: La Muralla.
MORSE, D. T. (1995), Book Review of Spatz, Chris, (1993), Basic Statistics: Tales of Distributions (5th Edit.). Pacific Grove, CA: Brooks/Cole. Educational and Psychological Measurement, 55 (1), 140-146.
MOSS, P. A. (1994), Can There Be Validity Without Reliability? Educational Researcher,
23, 2, 5-12.
NUNNALLY, J. C. (1978), Psychometric Theory. New York: McGraw-Hill.
NUNNALLY, J. C. and BERNSTEIN, I. H. (1994), Psychometric Theory, 3rd. Ed. New York:
McGraw-Hill.
354
OSBORNE, J. W. (2003), Effect sizes and the disattenuation of correlation and regression
coefficients: lessons from educational psychology. Practical Assessment, Research & Evaluation, 8(11) http://PAREonline.net/getvn.asp?v=8&n=11.
OSBORNE, J. W. and OVERBAY, A. (2004), The power of outliers (and why researchers
should always check for them). Practical Assessment, Research & Evaluation,
9(6). Retrieved August 26, 2007 from http://PAREonline.net/getvn.asp?v=9&n=6
PERNEGER, T. V. (1998), Whats wrong with Bonferroni adjustments. British Medical Journal 1998;316:1236-1238 (disponible en http://www.bmj.com/cgi/content/full/
316/7139/1236, consultado 31, 03, 08).
PFEIFFER, J. W.; HESLIN, R. AND JONES, J. E. (1976), Instrumentation in Human Relations
Training. La Jolla, Ca.: University Associates.
RANDOLPH, J. J. and EDMONDSON, R. S. (2005), Using the Binomial Effect Size Display
(BESD) to Present Magnitude of Effect Sizes to the Evaluation Audience. Practical Assessment, Research & Evaluation, 10 (4), http://pareonline.net/pdf/
v10n14.pdf
RODRGUEZ OSUNA, J. (1993), Mtodos de muestreo. Casos prcticos. Cuadernos metodolgicos. Madrid: Centro de Investigaciones Sociolgicas (CIS).
ROSENTHAL, R. (1987), Judgment Studies, Design, analysis and meta-analysis. Cambridge: Cambridge University Press.
ROSENTHAL, R. (1991), Meta-Analysis Procedures for Social Research. Beverly Hills, CA:
Sage Publications.
ROSENTHAL, R. (1994), Parametric Measures of Effect Size. En COOPER, HARRIS and HEDGES, L. V. (Eds.), The Handbook of Research Synthesis. New York: Russell Sage
Foundation, 231-244.
ROSENTHAL, R. and ROSNOW, R. L. (1991), Essentials of Behavioral Research, Methods
and Data Analysis. Boston: McGraw-Hill.
ROSENTHAL, R. and RUBIN, D. B. (1979), A Note on Percent Variance Explained as A Measure of the Importance of Effects. Journal of Applied Social Psychology, 9 (5),
395-396.
RUNYON, R. P. y HABER, A. (1984), Estadstica para las Ciencias Sociales. Mxico: Fondo Educativo Interamericano.
SALKIND, N. J. (1998), Mtodos de Investigacin, 3 edicin, Mxico: Prentice-Hall.
SAUPE, J. L. (1961), Some Useful Estimates of the Kuder-Richardson formula number
20 Reliability Coefficient, Educational and Psychological Measurement, 21, 1,
63-71.
SCHMITT, N. (1996), Uses and abuses of Coefficient Alpha. Psychological Assessment, 8
(4), 350-353 (http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf).
SHROUT, P. E. AND FLEISS, J. L. (1979), Intraclass Correlations: Uses in Assessing Rater Reliability, Psychological Bulletin, 86, 420-428.
SIEGEL, S. N. (1972), Estadstica no paramtrica aplicada a las ciencias de la conducta. Mxico: Trillas. (La primera edicin en ingls es de 1956, New York:
McGraw-Hill).
SIEGEL, S. N. and CASTELLAN JR., N. JOHN (1988), Nonparametric Statistics For the Behavioral Sciences. Second edition. New York: McGraw-Hill.
SPATZ, C. (1993), Basic Statistics: Tales of Distributions, 5th Edit. Pacific Grove, CA:
Brooks/Cole.
355
STATPAC, INC (2003), Questionnaires & Survey Design http://www.statpac.com/

surveys/index.htm#toc
STATSOFT, INC. (2002), Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB:
http://www.statsoft.com/textbook/stathome.html
STEMLER, S. E. (2004), A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability. Practical Assessment, Research &
Evaluation, 9(4) http://pareonline.net/getvn.asp?v=9&n=4
STREINER, D. L. (2003), Staring at the Beginning: An Introduction to Coefficient Alpha
and Internal Consistency. Journal of Personality Assessment, 80 (1), 99-103.
THOMPSON, B. (1994), Guidelines for authors. Educational and Psychological Measurement, 54, 837-847.
THOMPSON, B. (1996), AERA Editorial Policies Regarding Statistical Significance Testing:
Three Suggested Reforms. Educational Researcher, Vol. 25 (2) 26-30.
THORNDIKE, R. L. (1982), Applied Psychometrics, Boston: Houghton Mifflin.
TRAUB, R. E. (1994), Reliability for the Social Sciences: Theory and Applications, Newbury Park, N. J.: Sage.
TRAUB, R. E. and ROWLEY, G. L., (1991), Understanding Reliability, Educational Measurement: Issues and Practice, 10 (1) 37-45.
UEBERSAX, J.,, Statistical Methods for Rater Agreement http://ourworld.compuserve.
com/homepages/jsuebersax/agree.htm (Last updated: 19 Feb 2008, consultado
30, 03, 08.
VALENTINE, J. and COOPER, H. (2003), Effect Size Substantive Interpretation Guidelines:
Issues in the Interpretation of Effect Sizes. Washington, D.C.: What Works Clearing House www.whatworks.ed.gov/reviewprocess/essig.pdf (consultado 24,
Nov. 2006).
WILKINSON, LELAND and TASK FORCE ON STATISTICAL INFERENCE APA BOARD OF SCIENTIFIC AFFAIRS (1999), Statistical Methods in Psychology Journals: Guidelines and Explanations American Psychologist August 1999, Vol. 54, No. 8, 594604 http://www.loyola.edu/library/ref/articles/Wilkinson.pdf (consultado 1, Enero, 2007) y en
http://www.uic.edu/classes/psych/psych242/APAPublicationGuide.html
WOLF, F. M. (1986), Meta-Analysis, Quantitative Methods for Research Synthesis. Beverly Hills, CA: Sage Publications.
Seleccin de direcciones de Internet con programas de anlisis estadsticos
En la mayora de los captulos incluimos algn anexo con direcciones de Internet
referidas a los anlisis especficos tratados en ese captulo. En esta seleccin figuran
en parte las mismas direcciones y tambin otras en las que se pueden encontrar otros
muchos anlisis de inters y enlaces a otras direcciones.
Arsham, Hossein Europe Mirror Site Collection, http://home.ubalt.edu/ntsbarsh/
Business-stat/otherapplets/Normality.htm#rmenu
Becker, Lee A. Effect size calculators. http://web.uccs.edu/lbecker/Psy590/
escalc3.htm
Coe, Robert (2000) Effect Size Resources (Durham University, Cem Centre)
http://www.cemcentre.org/RenderPage.asp?LinkID=30310000
356
College of Saint Benedict, Saint Johns University http://www.physics.csbsju.

edu/stats/
Creative Research Systems. The Survey System Sample Size Calculator http://www.
surveysystem.com/sscalc.htm
Custominsight.com. Survey Random Sample Calculator http://www.custominsight.com/articles/random-sample-calculator.asp
Department of Obstetrics and Gynaecology, The Chinese University of Hong
Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp
Dimension Research, Inc.. Resources http://www.dimensionresearch.com/resources/resources_overview.html
Glass, Gene V. (Arizona State University College of Education) (Delta COE502, Intro
to Quant Methods, http://glass.ed.asu.edu/stats/index.html, Online statistical
calculators that can perform many different analyses.
GraphPad, Free Online Calculators for Scientists, http://graphpad.com/quickcalcs/index.cfm
Preacher, Kristopher J. (May, 2001) The Ohio State University, Calculation for the
Chi-Square Test, http://www.psych.ku.edu/preacher/chisq/chisq.htm
Kristopher J. Preacher, University of Kansas, quantpsy.org, http://www.psych.
ku.edu/preacher/
SISA, Simple Interactive Statistical Analysis http://home.clara.net/sisa/index.
htm#TOP
Soper, Daniel homepage; statistical calculators, http://www.danielsoper.com/default. aspx
Statistics Calculators, University of California, Los Angeles, Department of Statistics, http://calculators.stat.ucla.edu/
StatPages.net, Web Pages that Perform Statistical Calculations, http://statpages.org/index.html (John C. Pezzullos Home Page http://statpages.org/JCPhome.html Interactive Statistics Pages))
Surfstat.australia: an online text in introductory Statistics http://www.anu.
edu.au/nceph/surfstat/surfstat-home/
Universitt Ulm-Medizinische Fakultt, Sektion Informatik in der Psychotherapie (Software und Werkzeuge) http://sip.medizin.uni-ulm.de/informatik/projekte/Odds/est.html
VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar College
Poughkeepsie, NY USA http://faculty.vassar.edu/lowry/VassarStats.html
357
TABLAS DE LA DISTRIBUCIN NORMAL
Puntuacin tpica positiva

rea mayor
rea menor
Puntuacin tpica negativa
Proporcin de casos por debajo
Proporcin de casos por encima
Proporcin de casos por encima
Proporcin de casos por debajo
Proporcin de casos por debajo: percentil (multiplicando por 100) correspondiente a cada puntuacin tpica;
Puntuacin tpica positiva: rea mayor
Puntuacin tpica negativa: rea menor
z
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
rea
mayor
0.50
0.504
0.508
0.512
0.516
0.5199
0.5239
0.5279
0.5319
0.5359
rea
menor
0.50
0.496
0.492
0.488
0.484
0.4801
0.4761
0.4721
0.4681
0.4641
z
0.10
0.11
0.12
0.13
0.14
0.15
0.16
0.17
0.18
0.19
359
rea
mayor
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5636
0.5675
0.5714
0.5753
rea
menor
0.4602
0.4562
0.4522
0.4483
0.4443
0.4404
0.4364
0.4325
0.4286
0.4247
z
0.20
0.21
0.22
0.23
0.24
0.25
0.26
0.27
0.28
0.29
0.30
0.31
0.32
0.33
0.34
0.35
0.36
0.37
0.38
0.39
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0.48
0.49
0.50
0.51
0.52
0.53
0.54
0.55
0.56
0.57
0.58
0.59
0.60
0.61
rea
mayor
0.5793
0.5832
0.5871
0.591
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.648
0.6517
0.6554
0.6591
0.6628
0.6664
0.67
0.6736
0.6772
0.6808
0.6844
0.6879
0.6915
0.695
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.719
0.7224
0.7257
0.7291
rea
menor
0.4207
0.4168
0.4129
0.409
0.4052
0.4013
0.3974
0.3936
0.3897
0.3859
0.3821
0.3783
0.3745
0.3707
0.3669
0.3632
0.3594
0.3557
0.352
0.3483
0.3446
0.3409
0.3372
0.3336
0.330
0.3264
0.3228
0.3192
0.3156
0.3121
0.3085
0.305
0.3015
0.2981
0.2946
0.2912
0.2877
0.2843
0.281
0.2776
0.2743
0.2709
0.62
0.63
0.64
0.65
0.66
0.67
0.68
0.69
0.70
0.71
0.72
0.73
0.74
0.75
0.76
0.77
0.78
0.79
0.80
0.81
0.82
0.83
0.84
0.85
0.86
0.87
0.88
0.89
0.90
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1.00
1.01
1.02
1.03
360
rea
mayor
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.758
0.7611
0.7642
0.7673
0.7703
0.7734
0.7764
0.7794
0.7823
0.7852
0.7881
0.791
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.834
0.8365
0.8389
0.8413
0.8438
0.8461
0.8485
rea
menor
0.2676
0.2643
0.2611
0.2578
0.2546
0.2514
0.2483
0.2451
0.242
0.2389
0.2358
0.2327
0.2297
0.2266
0.2236
0.2206
0.2177
0.2148
0.2119
0.209
0.2061
0.2033
0.2005
0.1977
0.1949
0.1922
0.1894
0.1867
0.1841
0.1814
0.1788
0.1762
0.1736
0.1711
0.1685
0.166
0.1635
0.1611
0.1587
0.1562
0.1539
0.1515
z
1.04
1.05
1.06
1.07
1.08
1.09
1.10
1.11
1.12
1.13
1.14
1.15
1.16
1.17
1.18
1.19
1.20
1.21
1.22
1.23
1.24
1.25
1.26
1.27
1.28
1.29
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.37
1.38
1.39
1.40
1.41
1.42
1.43
1.44
1.45
rea
mayor
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.877
0.879
0.881
0.883
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.898
0.8997
0.9015
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9131
0.9147
0.9162
0.9177
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
rea
menor
0.1492
0.1469
0.1446
0.1423
0.1401
0.1379
0.1357
0.1335
0.1314
0.1292
0.1271
0.1251
0.123
0.121
0.119
0.117
0.1151
0.1131
0.1112
0.1093
0.1075
0.1056
0.1038
0.102
0.1003
0.0985
0.0968
0.0951
0.0934
0.0918
0.0901
0.0885
0.0869
0.0853
0.0838
0.0823
0.0808
0.0793
0.0778
0.0764
0.0749
0.0735
1.46
1.47
1.48
1.49
1.50
1.51
1.52
1.53
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.61
1.62
1.63
1.64
1.65
1.66
1.67
1.68
1.69
1.70
1.71
1.72
1.73
1.74
1.75
1.76
1.77
1.78
1.79
1.80
1.82
1.81
1.83
1.84
1.85
1.86
1.87
361
rea
mayor
0.9279
0.9292
0.9306
0.9319
0.9332
0.9345
0.9357
0.937
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
0.9641
0.9656
0.9649
0.9664
0.9671
0.9678
0.9686
0.9693
rea
menor
0.0721
0.0708
0.0694
0.0681
0.0668
0.0655
0.0643
0.063
0.0618
0.0606
0.0594
0.0582
0.0571
0.0559
0.0548
0.0537
0.0526
0.0516
0.0505
0.0495
0.0485
0.0475
0.0465
0.0455
0.0446
0.0436
0.0427
0.0418
0.0409
0.0401
0.0392
0.0384
0.0375
0.0367
0.0359
0.0344
0.0351
0.0336
0.0329
0.0322
0.0314
0.0307
z
1.88
1.89
1.90
1.91
1.92
1.93
1.94
1.95
1.96
1.97
1.98
1.99
2.00
2.01
2.02
2.03
2.04
2.05
2.06
2.07
2.08
2.09
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
2.20
2.21
2.22
2.23
2.24
2.25
2.26
2.27
2.28
2.29
rea
mayor
0.9699
0.9706
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.975
0.9756
0.9761
0.9767
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
0.9821
0.9826
0.983
0.9834
0.9838
0.9842
0.9846
0.985
0.9854
0.9857
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.989
rea
menor
0.0301
0.0294
0.0287
0.0281
0.0274
0.0268
0.0262
0.0256
0.025
0.0244
0.0239
0.0233
0.0228
0.0222
0.0217
0.0212
0.0207
0.0202
0.0197
0.0192
0.0188
0.0183
0.0179
0.0174
0.017
0.0166
0.0162
0.0158
0.0154
0.015
0.0146
0.0143
0.0139
0.0136
0.0132
0.0129
0.0125
0.0122
0.0119
0.0116
0.0113
0.011
2.30
2.31
2.32
2.33
2.34
2.35
2.36
2.37
2.38
2.39
2.40
2.41
2.42
2.43
2.44
2.45
2.46
2.47
2.48
2.49
2.50
2.51
2.52
2.53
2.54
2.55
2.56
2.57
2.58
2.59
2.60
2.61
2.62
2.63
2.64
2.65
2.66
2.67
2.68
2.69
2.70
2.71
362
rea
mayor
0.9893
0.9896
0.9898
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
0.9918
0.992
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
0.9938
0.994
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
0.9953
0.9955
0.9956
0.9957
0.9959
0.996
0.9961
0.9962
0.9963
0.9964
0.9965
0.9966
rea
menor
0.0107
0.0104
0.0102
0.0099
0.0096
0.0094
0.0091
0.0089
0.0087
0.0084
0.0082
0.008
0.0078
0.0075
0.0073
0.0071
0.0069
0.0068
0.0066
0.0064
0.0062
0.006
0.0059
0.0057
0.0055
0.0054
0.0052
0.0051
0.0049
0.0048
0.0047
0.0045
0.0044
0.0043
0.0041
0.004
0.0039
0.0038
0.0037
0.0036
0.0035
0.0034
z
2.72
2.73
2.74
2.75
2.76
2.77
2.78
2.79
2.80
2.81
2.82
2.83
2.84
2.85
2.86
2.87
2.88
2.89
2.90
2.91
2.92
2.93
2.94
2.95
2.96
2.97
2.98
2.99
3.00
3.01
3.02
3.03
3.04
3.05
3.06
3.07
3.08
3.09
3.10
3.11
3.12
3.13
rea
mayor
0.9967
0.9968
0.9969
0.997
0.9971
0.9972
0.9973
0.9974
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.998
0.9981
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9986
0.9986
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.999
0.999
0.999
0.9991
0.9991
0.9991
rea
menor
z
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
3.22
3.23
3.24
3.25
3.26
3.27
3.28
3.29
3.30
3.31
3.32
3.33
3.34
3.35
3.36
3.37
3.38
3.39
3.40
3.41
3.42
3.43
3.44
3.45
3.46
3.47
3.48
3.49
3.50
0.0033
0.0032
0.0031
0.003
0.0029
0.0028
0.0027
0.0026
0.0026
0.0025
0.0024
0.0023
0.0023
0.0022
0.0021
0.0021
0.002
0.0019
0.0019
0.0018
0.0018
0.0017
0.0016
0.0016
0.0015
0.0015
0.0014
0.0014
0.0013
0.0013
0.0013
0.0012
0.0012
0.0011
0.0011
0.0011
0.001
0.001
0.001
0.0009
0.0009
0.0009
363
rea
mayor
0.9992
0.9992
0.9992
0.9992
0.9993
0.9993
0.9993
0.9993
0.9994
0.9994
0.9994
0.9994
0.9994
0.9995
0.9995
0.9995
0.9995
0.9995
0.9995
0.9996
0.9996
0.9996
0.9996
0.9996
0.9996
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9998
0.9998
rea
menor
0.0008
0.0008
0.0008
0.0008
0.0007
0.0007
0.0007
0.0007
0.0006
0.0006
0.0006
0.0006
0.0006
0.0005
0.0005
0.0005
0.0005
0.0005
0.0005
0.0004
0.0004
0.0004
0.0004
0.0004
0.0004
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0003
0.0002
0.0002

Estadistica Aplicada A Las Ciencias Sociales - Pedro Morales Vallejo

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Aplicada A Las Ciencias Sociales - Pedro Morales Vallejo

Cargado por

Copyright:

Formatos disponibles

ecec

ESTADSTICA APLICADA A LAS

Pedro Morales Vallejo

2008 PEDRO MORALES VALLEJO

Diseo de cubierta : Beln Recio Godoy

CAPTULO 1. ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES

1. ORGANIZACIN DE LOS DATOS ..........................................................................

La distribucin de frecuencias .........................................................

2. REPRESENTACIONES GRFICAS ...........................................................................

Polgono de frecuencias ...................................................................

CAPTULO 2. MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL

1. MEDIDAS DE TENDENCIA CENTRAL .....................................................................

La media aritmtica ..........................................................................

ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

2. MEDIDAS DE DISPERSIN: SU UTILIDAD ..............................................................

La desviacin media .........................................................................

a) Muestras de tamao desigual ...............................

El coeficiente de variacin (V) .........................................................

3. MEDIDAS DESCRIPTIVAS BSICAS: RESUMEN ..........................................................

CAPTULO 3. LA DISTRIBUCIN NORMAL ...................................................

1. APROXIMACIN INTUITIVA A LA DISTRIBUCIN NORMAL ........................................

2. CARACTERSTICAS Y PROPIEDADES DE LA DISTRIBUCIN NORMAL ...........................

3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIN NORMAL ..........................

4. CMO DIBUJAR LA CURVA ANORMAL ...................................................................

5. CMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIN NORMAL ...................................

Puntuaciones tpicas positivas (superiores a la media) .................

Puntuaciones tpicas positivas o negativas (en trminos absolutos) .................................................................................................

6. BREVE NOTA HISTRICA ...................................................................................

Anexo: La distribucin normal en Internet ....................................................

CAPTULO 4. TIPOS DE PUNTUACIONES INDIVIDUALES ...........................

1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIN ..........................................

2. PROPORCIN DE RESPUESTAS CORRECTAS ...........................................................

3. PUNTUACIONES DIFERENCIALES .........................................................................

4. PUNTUACIONES TPICAS ....................................................................................

Qu son las puntuaciones tpicas ....................................................

Concepto e interpretacin ..............................................................

6. PUNTUACIONES NORMALIZADAS .........................................................................

Puntuaciones tpicas normalizadas .................................................

ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

7. PUNTUACIONES TPICAS Y SUS PUNTUACIONES DERIVADAS: RESUMEN ......................

8. RESUMEN DEL CLCULO DE LAS PUNTUACIONES DERIVADAS ...................................

CAPTULO 5. CORRELACIN Y COVARIANZA ..............................................

1. CONCEPTO DE CORRELACIN Y COVARIANZA .......................................................

Relacin y variacin conjunta .......................................................

2. L A MEDIDA DE LA RELACIN .............................................................................

Cmo cuantificamos o medimos el grado de relacin ..................

3. INTERPRETACIN DEL COEFICIENTE DE CORRELACIN R DE PEARSON .....................

Interpretacin bsica .......................................................................

c) Cuando de los mismos sujetos tenemos varios coeficientes de correlacin .................................................

Los coeficientes de correlacin cuando unimos o separamos submuestras ............................................................................................

4. COEFICIENTES DE CORRELACIN CORREGIDOS .....................................................

Correlacin y fiabilidad: los coeficientes de correlacin corregidos

5. CORRELACIONES PARCIALES ...............................................................................

Utilidad de las correlaciones parciales ............................................

6. CMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS .............

ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

7. COEFICIENTES DE CORRELACIN MS IMPORTANTES .............................................

Coeficiente de correlacin r de Pearson .........................................

8. COEFICIENTE DE CORRELACIN: RESUMEN ..........................................................

Anexo I: Tablas de la correlacin ...............................................................

CAPTULO 6. LA FIABILIDAD DE LOS TESTS Y ESCALAS ............................

1. CONCEPTOS PRELIMINARES BSICOS ....................................................................

Equivocidad del concepto de fiabilidad .........................................