Está en la página 1de 363

ec-

ec
ESTADSTICA APLICADA A LAS
CIENCIAS SOCIALES
PUBLICACIONES
DE LA UNIVERSIDAD
PONTIFICIA COMILLAS
PEDIDOS:
Servicio de Publicaciones
c/ Universidad Comillas, 3
Tel.: 91 734 39 50 - Fax: 91 734 45 70
Pedro Morales Vallejo

ESTADSTICA APLICADA A
LAS CIENCIAS SOCIALES

2008
2008 PEDRO MORALES VALLEJO
2008 UNIVERSIDAD PONTIFICIA COMILLAS
Universidad Comillas, 3
28049 MADRID

Diseo de cubierta : Beln Recio Godoy

ISBN: ISBN 978-84-8468-355-1


EDICIN DIGITAL

Reservados todos los derechos. Queda totalmente prohibida la reproduc-


cin total o parcial de este libro por cualquier procedimiento electrnico o
mecnico, incluyendo fotocopia, grabacin magntica o cualquier sistema
de almacenamiento o recuperacin de la informacin, sin permiso escrito
GHOD8QLYHUVLGDG3RQWLFLD&RPLOODV
NDICE

Pgs.

INTRODUCCIN .............................................................................................. 21

CAPTULO 1. ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES


GRFICAS ......................................................................................................... 23
1. ORGANIZACIN DE LOS DATOS .......................................................................... 23
1.1. La distribucin de frecuencias ......................................................... 24
1.2. Agrupacin en intervalos ................................................................. 25
1.3. Nmero de intervalos ...................................................................... 25
1.4. Valor del intervalo ............................................................................ 26
1.5. Cmo comenzar la agrupacin en intervalos ................................. 26

2. REPRESENTACIONES GRFICAS ........................................................................... 26


2.1. Polgono de frecuencias ................................................................... 27
2.2. Polgono de frecuencias relativas .................................................... 29
2.3. Histograma ....................................................................................... 31
2.4. Diagrama de cajas ............................................................................. 32

CAPTULO 2. MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL


Y DE DISPERSIN ............................................................................................ 35
1. MEDIDAS DE TENDENCIA CENTRAL ..................................................................... 35
1.1. La media aritmtica .......................................................................... 35

7
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.

1.2. La mediana ........................................................................................ 36


1.3. La moda ............................................................................................. 36
1.4. Comparacin de las medidas de tendencia central ....................... 36

2. MEDIDAS DE DISPERSIN: SU UTILIDAD .............................................................. 39


2.1. La desviacin media ......................................................................... 40
2.2. La desviacin tpica y la varianza ..................................................... 42
2.2.1. La desviacin tpica ............................................................ 42
2.2.2. La varianza .......................................................................... 44
2.2.3. Ventajas de la desviacin tpica y de la varianza como me-
didas de dispersin ............................................................ 45
2.2.4. Propiedades de la desviacin tpica y de la varianza ........ 46
2.2.5. Usos e interpretaciones de la desviacin tpica ............... 47
2.2.6. Media y desviacin tpica de los datos dicotmicos ........ 50
2.2.7. Combinacin de medias y desviaciones tpicas ............... 53
1 Para combinar dos o ms medias ............................... 53
2 Para combinar dos o ms desviaciones tpicas o va-
rianzas .......................................................................... 54
a) Muestras de tamao desigual ............................... 55
b) Muestras de idntico tamao ............................... 55
2.3. El coeficiente de variacin (V) ......................................................... 57
2.4. La desviacin semi-intercuartlica ................................................... 58
2.5. La amplitud o recorrido ................................................................... 60
2.6. Relacin entre la amplitud y la desviacin tpica ........................... 60

3. MEDIDAS DESCRIPTIVAS BSICAS: RESUMEN .......................................................... 61

CAPTULO 3. LA DISTRIBUCIN NORMAL ................................................... 65


1. APROXIMACIN INTUITIVA A LA DISTRIBUCIN NORMAL ........................................ 65
2. CARACTERSTICAS Y PROPIEDADES DE LA DISTRIBUCIN NORMAL ........................... 67
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIN NORMAL .......................... 68
4. CMO DIBUJAR LA CURVA ANORMAL ................................................................... 72
5. CMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIN NORMAL ................................... 73
5.1. Puntuaciones tpicas positivas (superiores a la media) ................. 73
5.2. Puntuaciones tpicas negativas (inferiores a la media) .................. 75

8
NDICE

Pgs.

5.3. Puntuaciones tpicas positivas o negativas (en trminos abso-


lutos) ................................................................................................. 76

6. BREVE NOTA HISTRICA ................................................................................... 77


Anexo: La distribucin normal en Internet .................................................... 78

CAPTULO 4. TIPOS DE PUNTUACIONES INDIVIDUALES ........................... 81


1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIN .......................................... 81
2. PROPORCIN DE RESPUESTAS CORRECTAS ........................................................... 82
3. PUNTUACIONES DIFERENCIALES ......................................................................... 83
4. PUNTUACIONES TPICAS .................................................................................... 83
4.1. Qu son las puntuaciones tpicas .................................................... 83
4.2. Propiedades de las puntuaciones tpicas ........................................ 85
4.3. Utilidad de las puntuaciones tpicas ............................................... 87
4.4. Puntuaciones tipificadas (puntuaciones tpicas transformadas) ... 91

5. PERCENTILES ................................................................................................... 92
5.1. Concepto e interpretacin .............................................................. 92
5.2. Clculo de los percentiles ................................................................ 97
5.2.1. Clculo directo ................................................................... 98
5.2.2. Clculo por interpolacin .................................................. 99
5.2.3. Clculo de los percentiles mediante la representacin
grfica de las frecuencias relativas acumuladas ................ 101

6. PUNTUACIONES NORMALIZADAS ......................................................................... 104


6.1. Puntuaciones tpicas normalizadas ................................................. 104
6.2. Puntuaciones tpicas normalizadas y agrupadas: los estaninos y
otras puntuaciones ........................................................................... 106
6.2.1. Los estaninos ...................................................................... 107
6.2.2. Las pentas ........................................................................... 109
6.2.3. Otras puntuaciones normalizadas .................................... 110
6.3. Percentiles normalizados: clculo de los percentiles a partir de
la media y de la desviacin tpica .................................................... 113
6.4. Equivalencias de diversos tipos de puntuaciones en la distribucin
normal ............................................................................................... 115

9
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.

7. PUNTUACIONES TPICAS Y SUS PUNTUACIONES DERIVADAS: RESUMEN ...................... 116


8. RESUMEN DEL CLCULO DE LAS PUNTUACIONES DERIVADAS ................................... 117

CAPTULO 5. CORRELACIN Y COVARIANZA .............................................. 119


1. CONCEPTO DE CORRELACIN Y COVARIANZA ....................................................... 119
1.1. Relacin y variacin conjunta ....................................................... 119
1.2. Los diagramas de dispersin ........................................................... 120
1.3. Otras maneras de visualizar la correlacin ..................................... 121
1.4. Correlacin, covarianza y dispersin: importancia de las dife-
rencias ......................................................................................................... 122
1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r
de Pearson ........................................................................................ 123
1.6. Tipos de variables con las que se puede utilizar el coeficiente r de
Pearson .............................................................................................. 123

2. L A MEDIDA DE LA RELACIN ............................................................................. 124


2.1. Cmo cuantificamos o medimos el grado de relacin .................. 124
2.2. Otras frmulas y procedimientos ................................................... 127

3. INTERPRETACIN DEL COEFICIENTE DE CORRELACIN R DE PEARSON ..................... 128


3.1. Interpretacin bsica ....................................................................... 128
3.2. Correlacin y causalidad .................................................................. 131
3.3. Cmo calcular la media de varios coeficientes de correlacin ..... 132
3.4. El coeficiente de determinacin ..................................................... 133
3.5. La significacin estadstica de los coeficientes de correlacin ... 134
3.5.1. Qu es un coeficiente de correlacin estadsticamente
significativo ......................................................................... 134
3.5.2. El modelo terico ............................................................... 135
3.5.3. Interpretacin de una correlacin estadsticamente signi-
ficativa ................................................................................. 137
3.5.4. Cmo comprobamos si un coeficiente de correlacin es
estadsticamente significativo .......................................... 138
a) Con muestras de 100 sujetos o menos ...................... 139
b) Con muestras de ms de 100 sujetos ......................... 140

10
NDICE

Pgs.

c) Cuando de los mismos sujetos tenemos varios coefi-


cientes de correlacin ................................................. 141
3.6. Los intervalos de confianza: magnitud de la correlacin en la
poblacin .......................................................................................... 142
3.7. Cmo valorar la magnitud de la correlacin .................................. 146
3.7.1. Orientaciones generales .................................................... 146
3.7.2. Sobre la interpretacin y utilidad de los coeficientes de
correlacin bajos ................................................................ 147
3.7.3. Explicaciones posibles de coeficientes de correlacin muy
bajos .................................................................................... 150
a) Poca fiabilidad, o poca precisin, en los instru-
mentos de medicin ................................................... 150
b) Homogeneidad de la muestra .................................... 151
c) Instrumentos poco discriminantes ............................ 151
3.8. Los coeficientes de correlacin cuando unimos o separamos sub-
muestras ............................................................................................ 151
3.9. Influjo en la correlacin de las puntuaciones extremas (outliers) ... 156

4. COEFICIENTES DE CORRELACIN CORREGIDOS ..................................................... 158


4.1. Correlacin y fiabilidad: los coeficientes de correlacin corregidos
por atenuacin ................................................................................ 159
4.1.1. Frmula de correccin por atenuacin ............................ 159
4.1.2. Cundo debe hacerse esta correccin por atenuacin ... 160
4.1.3. Otras estimaciones de la correlacin modificando la
fiabilidad ............................................................................. 162
4.1.4. Relacin entre longitud del test y fiabilidad y longitud del
test y correlacin ................................................................ 163
4.2. Los coeficientes de correlacin corregidos por restriccin de la
amplitud ........................................................................................... 164
4.3. Correccin de las correlaciones de una parte con el todo .......... 166

5. CORRELACIONES PARCIALES ............................................................................... 168


5.1. Utilidad de las correlaciones parciales ............................................ 168
5.2. Frmula de las correlaciones parciales de primer orden .............. 168
5.3. Cundo una correlacin parcial es estadsticamente significativa ... 170

6. CMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS ............. 171

11
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.

7. COEFICIENTES DE CORRELACIN MS IMPORTANTES ............................................. 176


1. Coeficiente de correlacin r de Pearson ......................................... 177
2. Coeficiente de correlacin biserial puntual ................................... 177
3. Coeficiente de correlacin biserial ................................................. 178
4. Coeficiente de correlacin tetracrica ............................................ 179
5. Coeficiente de correlacin rho (r) de Spearman .......................... 179
6. Coeficiente de correlacin tau (t) de Kendall ............................... 179
7. Coeficiente de correlacin phi (f) .................................................. 179
8. Coeficiente de correlacin phi (f) de Cramer ............................... 180
9. Coeficiente de Contingencia (C) ..................................................... 180
10. Coeficiente eta (h) ........................................................................... 180
8. COEFICIENTE DE CORRELACIN: RESUMEN .......................................................... 180
Anexo I: Tablas de la correlacin ............................................................... 183
Anexo II: La correlacin en Internet ......................................................... 184

CAPTULO 6. LA FIABILIDAD DE LOS TESTS Y ESCALAS ............................ 187


1. CONCEPTOS PRELIMINARES BSICOS .................................................................... 187
1.1. Equivocidad del concepto de fiabilidad ......................................... 187
1.2. Fiabilidad y precisin de la medida ................................................. 188
1.3. Fiabilidad y margen de error en al medida .................................... 188
1.4. Fiabilidad y predictibilidad .............................................................. 188
1.5. Fiabilidad y validez ........................................................................... 189
1.6. Fiabilidad y validez: errores sistemticos y errores aleatorios ...... 189
1.7. La fiabilidad no es una caracterstica de los instrumentos ............ 190
1.8. Fiabilidad y diferencias: teora clsica de la fiabilidad .................... 191

2. ENFOQUES Y MTODOS EN EL CLCULO DE LA FIABILIDAD .................................... 191


2.1. Mtodo: Test-retest .......................................................................... 191
2.2. Mtodo: Pruebas paralelas ............................................................... 192
2.3. Mtodo: Coeficientes de consistencia interna ............................... 193

3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FRMULA BSICA DE


LA FIABILIDAD ................................................................................................. 193
4. REQUISITOS PARA UNA FIABILIDAD ALTA .............................................................. 196
5. L AS FRMULAS KUDER -RICHARDSON 20 Y a DE CRONBACH ............................... 201
6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD ........... 203

12
NDICE

Pgs.

7. INTERPRETACIN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ....................... 204


8. CUNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO .................... 207
9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD .................................................. 208
9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretacin unidi-
mensional del rasgo medido .......................................................... 209
9.1.1. Una fiabilidad alta no es prueba inequvoca de que todos
los tems miden lo mismo: necesidad de controles con-
ceptuales ............................................................................. 211
9.1.2. Fiabilidad y nmero de tems ............................................ 212
9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido .. 213
9.2. El error tpico de la medida ............................................................. 213
9.2.1. Concepto y frmula del error tpico ................................. 214
9.2.2. Las puntuaciones verdaderas ........................................... 216
9.2.3. Los intervalos de confianza de las puntuaciones indi-
viduales .............................................................................. 217
9.3. Los coeficientes de correlacin corregidos por atenuacin ......... 218

10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO ..................................... 219


10.1. Inadecuada formulacin de los tems ............................................. 219
10.2. Homogeneidad de la muestra ......................................................... 219
10.3. Definicin compleja del rasgo medido ........................................... 220
10.4. Utilidad del error tpico cuando la fiabilidad es baja ..................... 220

11. L A FIABILIDAD EN EXMENES Y PRUEBAS ESCOLARES ............................................ 221


11.1. Fiabilidad y validez ........................................................................... 221
11.2. Fiabilidad y diferencias entre los sujetos ........................................ 222
11.3. Fiabilidad y calificacin .................................................................... 223

12. FRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ................................ 224


12.1. Frmulas basadas en la particin del test en dos mitades ............ 224
12.1.1. Cmo dividir un test en dos mitades ................................ 224
12.1.2. Frmulas ............................................................................. 225
12.2. Frmulas de Kuder-Richardson y a de Cronbach .......................... 226
12.3. Frmulas que ponen en relacin la fiabilidad y el nmero de
tems .................................................................................................. 228

13
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.

12.3.1. Cunto aumenta la fiabilidad al aumentar el nmero de


tems .................................................................................... 229
12.3.2. En cunto debemos aumentar el nmero de tems para
alcanzar una determinada fiabilidad ................................. 229
12.4. Estimacin de la fiabilidad en una nueva muestra cuya varianza
conocemos a partir de la varianza y fiabilidad calculadas en otra
muestra ............................................................................................. 230

13. RESUMEN: CONCEPTO BSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA ... 231
14. COMENTARIOS BIBLIOGRFICOS ........................................................................ 233

CAPTULO 7. ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA


MEDIA ............................................................................................................... 237
1. INTRODUCCIN: ESTADSTICA DESCRIPTIVA Y ESTADSTICA INFERENCIAL: ESTADSTICOS
Y PARMETROS, POBLACIONES Y MUESTRAS ........................................................... 237
2. L AS DISTRIBUCIONES MUESTRALES Y EL ERROR TPICO .......................................... 238
3. EL ERROR TPICO DE LA MEDIA .......................................................................... 240
4. UTILIDAD DEL ERROR TPICO DE LA MEDIA .......................................................... 241
4.1. Establecer entre qu limites (intervalos de confianza) se encuen-
tra la media (m) de la poblacin (establecer parmetros poblacio-
nales) ................................................................................................. 242
4.2. Establecer los intervalos de confianza de una proporcin ........... 245
4.3. Comparar la media de una muestra con la media de una po-
blacin ............................................................................................... 247
4.4. Calcular el tamao N de la muestra para extrapolar los resultados
a la poblacin .................................................................................... 249
Anexo: Los intervalos de confianza de la media y de las proporciones en
Internet ............................................................................................................. 251

CAPTULO 8. EL CONTRASTE DE MEDIAS .................................................... 253


1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS
GRUPOS .......................................................................................................... 253
2. A QU PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS ..................... 254
3. EL MODELO TERICO DEL CONTRASTE DE MEDIAS: L A DISTRIBUCIN MUESTRAL DE
DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIN .................... 256

14
NDICE

Pgs.

4. CMO COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIN DE


DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO ................................................... 259
4.1. Modelo y frmula bsica .................................................................. 259
4.2. Hiptesis Nula e Hiptesis Alterna ................................................. 261
1 Qu son las Hiptesis Nula y Alterna ..................................... 261
2 Por qu distinguimos entre estos dos tipos de hiptesis
(nula y alterna) ....................................................................... 262
4.3. Contrastes unilaterales y bilaterales ................................................ 264
4.4. Esquema-resumen del proceso de verificacin de hiptesis ........ 266
4.5. Interpretacin del significado de aceptar o no aceptar la hiptesis
nula: tipos de errores ....................................................................... 267
4.5.1. Cuando no aceptamos la Hiptesis Nula ......................... 267
4.5.2. Cuando aceptamos la Hiptesis Nula ............................... 268
4.5.3. Tipos de errores ................................................................. 269
4.6. Observaciones sobre el contraste de medias: limitaciones y re-
quisitos previos ................................................................................ 271
4.6.1. Presupuestos tericos para poder utilizar el contraste de
medias ................................................................................. 271
4.6.2. Es suficiente verificar si una diferencia es estadsticamente
significativa? ........................................................................ 272
4.6.3. Cuando tenemos ms de dos muestras en el mismo plan-
teamiento: anlisis de varianza .......................................... 272
4.7. Frmulas del contraste de medias .................................................. 273
4.7.1. Diferencia entre la media de una muestra y la media de
una poblacin ..................................................................... 274
4.7.2. Diferencia entre dos medias de muestras independientes
(sujetos fsicamente distintos) .......................................... 275
1 Muestras grandes y de distinto tamao ..................... 275
2 Muestras pequeas y de distinto tamao .................. 276
3 Diferencia entre dos medias de muestras independien-
tes (grandes o pequeas) y de idntico tamao ..... 276
4.7.3. Diferencia entre dos medias de muestras relacionadas
(comprobacin de un cambio) ........................................ 277
4.8. Variables que influyen en el valor de t (z, Razn Crtica) .............. 278

5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES) .......................... 281


6. ANLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CMO CUANTIFICAR LA
MAGNITUD DE LA DIFERENCIA ............................................................................ 282

15
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.

6.1. Finalidad del tamao del efecto ...................................................... 282


6.2. Procedimientos en el clculo del tamao del efecto ..................... 283
6.2.1. El coeficiente de correlacin biserial puntual ................ 283
6.2.2. Tamao del efecto (diferencia tipificada): ..................... 286
6.2.2.1. Concepto y frmula general ............................... 286
6.2.2.2. Interpretacin del tamao del efecto (diferencia
tipificada) ............................................................ 287
1 Comparacin de diferencias que provienen
de medidas obtenidas con instrumentos
distintos ......................................................... 287
2 Sntesis cuantitativas de resultados que
provienen de estudios distintos .................. 287
3 Valoracin de la relevancia y significacin
prctica de las diferencias ........................... 288
4 El tamao del efecto cuando la diferencia
no es estadsticamente significativa ............. 291
5 Tamao del efecto y tamao de la muestra .. 292
6.2.2.3. Frmulas del tamao del efecto: desviacin
tpica del denominador ....................................... 294
1 Dos muestras independientes ..................... 294
2 Dos muestras relacionadas (diferencia entre el
pre-test y el post-test de la misma muestra) ... 298
3 Diferencia entre las medias de un grupo
experimental y otro de control (diseo
experimental) sin pre-test ............................ 298
4 Grupos experimental y de control cuando
los dos han tenido pre y post-test ............... 299
6.3. Transformaciones de unos valores en otros ................................... 299
6.4. Utilidad del tamao del efecto: resumen ....................................... 301

ANEXO 1: Modelo del contraste de medias, resumen ..................................... 302


ANEXO 2: Conceptos bsicos de estadstica inferencial .................................. 304
ANEXO 3: Tablas de la t de Student ................................................................... 306
Anexo 4: El contraste de medias en Internet ................................................. 307

CAPTULO 9. ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI


CUADRADO (c2 ) LA DISTRIBUCIN BINOMIAL, EL CONTRASTE DE
PROPORCIONES .............................................................................................. 309

16
NDICE

Pgs.

1. PLANTEAMIENTO GENERAL ................................................................................ 309


2. QU COMPROBAMOS MEDIANTE EL JI CUADRADO ................................................. 312
3. FRECUENCIAS OBSERVADAS (O EMPRICAS) Y FRECUENCIAS TERICAS (O ESPERADAS) .. 314
4. CONDICIONES PARA UTILIZAR EL JI CUADRADO ..................................................... 315
5. CLCULO DE LAS FRECUENCIAS TERICAS ........................................................... 316
a) Cuando tenemos un solo criterio de clasificacin dividido en varias
categoras ............................................................................................... 316
b) Cuando hay dos criterios de clasificacin (cuadros de doble entrada) .. 317

6. GRADOS DE LIBERTAD ...................................................................................... 318


a) Cuando hay un solo criterio de clasificacin ....................................... 319
b) Cuando hay dos criterios de clasificacin .......................................... 319

7. FRMULA GENERAL DEL JI CUADRADO ................................................................. 319


8. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN
DIVIDIDO EN DOS NIVELES ................................................................................ 320
8.1. Ji cuadrado ........................................................................................ 321
8.2. Aplicacin de la distribucin binomial ......................................... 322
8.2.1. Cuando N < 25 .................................................................. 322
8.2.2. Cuando N > 25 .................................................................. 322
8.2.3. La prueba de los signos: aplicacin de la distribucin bi-
nomial para comprobar cambios ...................................... 324

9. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN


dividido en ms de dos niveles (pruebas de bondad de ajuste) ........... 326
9.1. Cuando las frecuencias esperadas son las mismas ........................ 326
9.2. Cuando las frecuencias esperadas son las de la distribucin
normal .............................................................................................. 327

10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIN CON DOS NIVELES CADA UNO ....... 328
10.1. Tablas 2x2 para muestras independientes ...................................... 328
10.1.1. Modelos de tablas 2x2: cmo clasificar a los sujetos ....... 328
a) Sujetos clasificados segn dos grupos de pertenencia
o dos caractersticas personales ................................. 328

17
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Pgs.

b) Sujetos clasificados segn 1 grupo de pertenencia


y 2 respuestas a una pregunta .................................. 329
c) Prueba de la mediana ................................................ 330
d) Un mismo grupo clasificado segn sus respuestas
a dos tems .................................................................. 331
10.1.2. Cmo analizar los datos ..................................................... 332
1 Ji cuadrado .................................................................. 333
a) Planteamiento y frmulas ..................................... 333
b) Observacin sobre la correccin de Yates y el
nmero de sujetos ................................................ 333
c) Orientaciones prcticas para tablas 2x2 ............... 334
d) Ejemplo resuelto ................................................... 335
e) Clculo complementario: coeficiente de correla-
cin ......................................................................... 335
2 Prueba exacta de Fisher .............................................. 336
3 Contraste entre proporciones (muestras indepen-
dientes) ........................................................................ 336
10.2. Tablas 2x2 para muestras relacionadas ........................................... 337
10.2.1. Procedimientos .................................................................. 337
a) Ji cuadrado (prueba de McNemar) ............................ 337
b) Contraste entre proporciones relacionadas ............. 338
10.2.2. Aplicaciones especficas ..................................................... 338
a) Para comprobar cambios ............................................ 338
b) Para comprobar una diferencia entre proporciones
relacionadas ................................................................ 339
10.2.3. Adaptacin de la prueba de McNemar (muestras relacio-
nadas) para tablas mayores (nxn) .................................... 340

11. DOS CRITERIOS DE CLASIFICACIN, CADA UNO DIVIDIDO EN DOS O MS NIVELES


(TABLAS NXN) ................................................................................................. 341

12. COEFICIENTES DE RELACIN ASOCIADOS AL JI CUADRADO ..................................... 344


a) Coeficiente de contingencia ........................................................... 345
b) Coeficienteo f .................................................................................. 345
c) Coeficiente f de Cramer ................................................................. 346
d) Coeficiente T de Tschuprow ............................................................ 346

13. VALORACIN DEL JI CUADRADO .......................................................................... 347

18
NDICE

Pgs.

ANEXO I: TABLAS DEL JI CUADRADO .......................................................................... 348

ANEXO II: JI CUADRADO Y ANLISIS AFINES EN INTERNET: JI CUADRADO, PRUEBA EXACTA


DE FISHER PRUEBA DE MCNEMAR, DISTRIBUCIN BINOMIAL, PRUEBA DE LOS SIGNOS .... 349

REFERENCIAS BIBLIOGRFICAS..................................................................... 351

Seleccin de direcciones de Internet con programas de anlisis estads-


ticos XII .................................................................................................................... 356

TABLAS DE DISTRIBUCIN NORMAL ........................................................... 359

19
INTRODUCCIN

Esta publicacin est pensada para un primer curso en carreras vinculadas


al campo de la educacin, de la psicologa y de la intervencin social, aunque
se trata de anlisis estadsticos comunes a otras muchas disciplinas; de hecho
algunas de las direcciones de Internet citadas (y utilizadas con frecuencia)
son de Facultades de Medicina. No se trata por lo tanto de cubrir todo el es-
pectro temtico que cabra en un texto o curso completo de metodologa de
la investigacin sobre todo en Psicologa y Educacin. En cambio, y dada la
importancia que tienen los tests e instrumentos de medicin en general en la
prctica profesional de la Psicologa y de la Educacin, hay dos captulos ms
centrados en psicometra: uno corresponde a los tipos de puntuaciones y
confeccin de baremos o normas de interpretacin (cap. 4), y otro a la fiabi-
lidad (cap. 6). El captulo sobre la fiabilidad de tests y escalas viene a continua-
cin del dedicado a la correlacin (cap. 5) dada la proximidad conceptual y
metodolgica entre ambos temas.
Los mtodos de anlisis estadstico y verificacin de hiptesis tratados son
bsicamente tres: los coeficientes de correlacin (cap. 5), el contraste de me-
dias (cap. 8) y el ji cuadrado y mtodos afines (cap. 9); con estos anlisis se
pueden abordar ya muchas preguntas de investigacin. Al tratar sobre el con-
traste de medias damos especial importancia (y extensin) al denominado ta-
mao del efecto para cuantificar de manera ms fcilmente interpretable la
diferencia entre dos medias; se trata de un punto importante (y sencillo) que
no lo vemos tratado en muchos textos.
Si la seleccin de contenidos es limitada y orientada a un curso bsico, el
tratamiento dado a algunos temas puede parecer excesivamente amplio para
un primer curso. Como profesor nunca he pretendido que mis alumnos su-
pieran todo lo que en un principio fueron apuntes de clase, pero s que pu-
dieran disponer de un texto de referencia para aclarar dudas, poder justificar

21
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

si llega el caso algunas frmulas y procedimientos de uso comn, ampliar al-


gn punto de especial inters, ver qu ms se puede hacer con unos datos o
resultados de unos anlisis, y quizs sobre todo contar con una ayuda tanto
para escoger un procedimiento adecuado de anlisis como para interpretar
correctamente lo que con el paso del tiempo se va olvidando. Con esta finali-
dad hay apartados referidos directamente a la interpretacin de determina-
dos resultados estadsticos; adems abundan en algunos captulos notas a pie
de pgina y se van citando autores que puede venir bien consultar en un mo-
mento dado, incluso para disponer de justificaciones y fuentes de autoridad a
las que poder acudir en algunos puntos controvertidos o que simplemente
pueden no estar tan claros. La terminologa y estilo se apartan con frecuencia
del lenguaje convencional de corte ms acadmico o se utilizan simultnea-
mente expresiones equivalentes ms informales.
No hay en esta publicacin una distincin ntida entre estadstica descrip-
tiva y estadstica inferencial aunque la estadstica inferencial se trata de mane-
ra ms formal a partir del captulo dedicado a los intervalos de confianza de la
media (cap. 7). Los conceptos bsicos se van repitiendo en diversos contex-
tos sin dar por hecho que en cada momento se recuerda y entiende todo lo
visto en los captulos precedentes. Al tratar de la correlacin ya se introduce
la significacin estadstica de estos coeficientes, para no presentar por separa-
do lo que lgicamente va unido cuando se hace un anlisis de este tipo o
cuando posteriormente es necesario repasarlo.
En varios captulos hay un anexo dedicado a programas de anlisis estads-
ticos de diverso tipo localizables en Internet y al final un listado de direccio-
nes con ms recursos. Se trata en cada caso de una breve seleccin porque
estos programas son muy abundantes. Aunque hojas de clculo como EXCEL
son ya un recurso comn y programas informticos como el SPSS estn fcil-
mente disponibles (tampoco siempre y en todas las situaciones), son muchas
las instituciones, departamentos de Universidades y otras de diverso carcter,
que tienen en Internet programas de uso muy sencillo y que adems pueden
ser muy tiles en la misma clase con una finalidad meramente didctica. Para
muchos anlisis los programas de Internet pueden ser la opcin de clculo
ms cmoda. Estos programas suelen estar pensados para alumnos que traba-
jan en su casa o para profesionales no expertos; no suplen la versatilidad del
SPSS pero son indudablemente tiles. Como las fuentes de Internet son con
frecuencia inestables, procuramos dar ms de una direccin para cada tipo de
anlisis; adems a partir de las direcciones reseadas es fcil buscar otras.
El ndice general est hecho pretendidamente de manera muy detallada, con
muchos apartados y subapartados, para que de alguna manera cumpla la fun-
cin de un ndice de materias y se pueda localizar con facilidad lo que interese.
PEDRO MORALES VALLEJO

22
CAPTULO 1
ORGANIZACIN DE LOS DATOS Y
REPRESENTACIONES GRFICAS

1. ORGANIZACIN DE LOS DATOS

Organizar los datos, e incluso hacer alguna representacin grfica como


las que iremos viendo, es muy importante porque:
a) Nos hacemos una idea preliminar de la situacin, nos da una visin de
conjunto muy til,
b) Se facilitan clculos posteriores, y, aunque los hagamos con un progra-
ma informtico, una buena sistematizacin de los datos puede sugerir-
nos posibles clculos y anlisis;
c) Se facilita la presentacin y comunicacin de todo tipo de resultados.

Tanto la distribucin de frecuencias (cuntos sujetos han obtenido cada


puntuacin) como las representaciones grficas que vamos a exponer (y mu-
chas otras) las tenemos ya programadas en programas de ordenador y hojas
de clculo, pero aun as conviene saber cmo se hacen por varias razones:
a) No siempre tenemos todos los datos individuales introducidos en un
ordenador o en una hoja de clculo;
b) A veces partimos de una distribucin de frecuencias ya hecha previa-
mente (o que encontramos publicada);
c) En cualquier caso es til ver paso a paso y entender cmo se hacen es-
tas distribuciones de frecuencias y representaciones grficas.

23
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

1.1. La distribucin de frecuencias

El primer paso es siempre organizar la distribucin de frecuencias. La


frecuencia es el nmero de casos o sujetos que ha obtenido cada puntua-
cin. Para hacer esta distribucin ponemos en dos columnas la puntuacin
directa (X) y la frecuencia (f) o nmero de casos. En el ejemplo de la tabla 1
tenemos la distribucin de frecuencias de 40 sujetos que han respondido a
una escala de actitudes1.

Tabla 1.

X f X f
77 | 1 57 | 1
76 0 56 ||| 3
75 | 1 55 || 2
74 | 1 54 | 1
73 || 2 53 | 1
72 | 1 52 | 1
71 0 51 0
70 || 2 50 0
69 0 49 | 1
68 || 2 48 || 2
67 0 47 0
66 0 46 | 1
65 ||| 3 45 0
64 || 2 44 0
63 ||| 3 43 0
62 || 2 42 | 1
61 | 1 41 0
60 | 1 40 0
59 || 2 39 | 1
58 0 38 | 1

El nmero de intervalos se calcula por tanteo. El primer paso es calcular


el recorrido o amplitud que es igual a la puntuacin ms alta menos la
puntuacin ms baja ms uno.

1
Intuitivamente parece ms natural comenzar por arriba con la puntacin o interva-
lo mayor; en los programas informticos (EXCEL, SPSS) se comienza por defecto con la
puntuacin ms baja.

24
ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES GRFICAS

1.2. Agrupacin en intervalos

Cuando las posibles puntuaciones son muchas, podemos agruparlas en


intervalos para simplificar su presentacin e interpretacin. Los datos de la
tabla 1 estn sin agrupar. Podemos agruparlas de dos en dos, de tres en tres,
etc. Cada agrupacin se denomina un intervalo.

1.3. Nmero de intervalos

El criterio general es que no haya menos de 10 intervalos o agrupaciones,


porque con menos de 10 intervalos se pierde mucha informacin; adems al-
gunos clculos posteriores se hacen tomando como dato el punto medio del
intervalo y resultan muy inexactos si los intervalos son muy pocos. Tampoco
es aconsejable que haya ms de 20 intervalos, porque se matiza ms de lo que
con frecuencia es necesario y los grficos resultantes pueden quedar poco
claros, sin resumir bien la informacin.
Sumamos una unidad a la diferencia entre las puntuaciones ms alta y ms
baja porque el recorrido o amplitud se calcula a partir de los lmites extre-
mos; por esto sumamos .5 a la puntuacin ms alta y restamos .5 a la puntua-
cin ms baja: suponemos que la puntua-
cin mayor no es en este caso 77, sino
77.5, y que la ms baja no es 38, sino 37.5 Tabla 2.
(sobre la amplitud o recorrido tratare-
mos en el contexto de las medidas de dis- X f
persin). 75-77 || 2
En los datos de la tabla 1 la amplitud 72-74 |||| 4
es 77.5 - 37.5 ( 77 - 38 + 1) = 40. Tene-
69-71 || 2
mos en principio 40 intervalos, que son
demasiados. Si agrupamos las puntua- 66-68 || 2
ciones de dos en dos tendramos 20 in- 63-65 |||||||| 8
tervalos, tambin demasiados quizs en 60-62 |||| 4
este caso, con slo 40 sujetos; si las 57-59 ||| 3
agrupamos de tres en tres tenemos 14 54-56 |||||| 6
intervalos, que es lo que hemos hecho 51-53 || 2
en la agrupacin que figura en la tabla 2. 48-50 ||| 3
45-47 | 1
42-44 | 1
39-41 | 1
36-38 | 1

25
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

1.4. Valor del intervalo

El valor del intervalo (simbolizado por la letra i) es el nmero de puntua-


ciones que entran en cada intervalo (y que no hay que confundir con el n-
mero de intervalos).
En la tabla 1, el valor del intervalo es i = 1 (datos sin agrupar); en los datos
de la tabla 2 en cada intervalo hay tres puntuaciones, por lo que i = 3. El va-
lor del intervalo se debe indicar siempre (como informacin y tambin por-
que entra en algunos clculos, como el de los percentiles por interpolacin,
como se ver en su lugar).
Es ms cmodo que el valor del intervalo (i) sea un nmero impar, porque
de esta manera el punto central del intervalo ser un nmero entero, sin deci-
males. Esto resulta ms cmodo porque el punto central del intervalo se utiliza
en operaciones hechas a partir de datos agrupados. De hecho no puede hablar-
se de ninguna norma o regla; los valores de i ms frecuentes son 2, 3, 5, 10 y 20.
Por otra parte el hacer clculos (como la media y otros) a partir de puntua-
ciones agrupadas y utilizando el punto medio del intervalo est menos justifi-
cado dada la facilidad de clculo que nos dan las calculadoras programadas y
los programas de ordenador. Estos clculos pueden hacerse siempre a partir
de las puntuaciones sin agrupar.

1.5. Cmo comenzar la agrupacin en intervalos

Para comenzar la agrupacin suele empezarse por las puntuaciones ms


bajas, las correspondientes al intervalo inferior. No se suele comenzar a partir
de la puntuacin ms baja de hecho, sino por la inmediatamente inferior que
sea mltiplo del valor del intervalo (i). Esta norma (que la puntuacin ms ba-
ja sea mltiplo del intervalo) responde a lo que suele proponerse y hacerse;
se trata de una convencin que no se sigue siempre.
En nuestro ejemplo (tabla 1) la puntuacin ms baja es 38, que no es ml-
tiplo de 3 (en este caso i = 3, tabla 2), y tampoco lo es 37; por eso comenza-
mos a partir de 36, que s es mltiplo de 3 (36/3 = 12, nmero entero).
El ltimo intervalo, el superior, se completa hasta incluir tres puntuacio-
nes (pues 3 es el valor de i en este caso). Como la puntuacin ms alta es 77,
no ha habido que aadir puntuaciones que de hecho nadie ha obtenido.

2. REPRESENTACIONES GRFICAS

A partir de la distribucin de frecuencias podemos hacer diversos tipos de re-


presentaciones grficas. Estas representaciones grficas son especialmente tiles:

26
ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES GRFICAS

a) Para disponer de una visin de conjunto que sin ms clculos nos per-
mite hacernos una idea de la situacin, comparar de manera intuitiva
varios grupos, etc.
b) Para comunicar resultados de manera intuitiva y fcilmente compren-
sible.

La mera distribucin de frecuencias ya puede cumplir con estos propsi-


tos, pero los distintos tipos de grficos son una ayuda importante.
Aqu nos limitamos a exponer tres de los tipos de representaciones grfi-
cas ms comunes, polgonos de frecuencias, histogramas y diagrama de ca-
jas. Estas y otras representaciones grficas tambin se encuentran ya progra-
madas en hojas de clculo como EXCEL.

2.1. Polgono de frecuencias

Es una representacin grfica sencilla y clara; en la figura I tenemos el


polgono de frecuencias hecho a partir de las frecuencias agrupadas de la
tabla 2
Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuen-
cias o nmero de casos;
Eje horizontal (X, o eje de las abscisas): corresponde a las puntua-
ciones.

Para mayor claridad en la presentacin del grfico, el eje horizontal suele


ser un 50% ms largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X
(horizontal) medir 15 aproximadamente.

Pasos que seguimos para construir un polgono de frecuencias:


1 En el eje de las abscisas (horizontal) se sealan los puntos inferiores
de cada intervalo, aadiendo un intervalo ms en cada extremo para
mayor claridad.
En la figura I el primer punto sealado es el 33: es el punto inferior del
intervalo aadido al comienzo (intervalo 33-35), con una frecuencia de
0. En el extremo superior la ltima puntuacin sealada es 78, ya que
es el lmite inferior del intervalo siguiente (78-80), tambin con fre-
cuencia 0.
Aadiendo dos intervalos extremos con frecuencia 0 se consigue que el
polgono llegue hasta la lnea horizontal de las abscisas; la figura queda
cerrada y clara; sta es la razn por la que se aade un intervalo ms
en cada extremo.

27
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Fig. I
POLGONO DE FRECUENCIAS

6 X

Figura I
5

4 X
X

Y
3 X X

X
2 X X X

X X X X
1

0
33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78

2 Sobre el punto medio de cada intervalo sealamos la frecuencia, a la al-


tura que corresponda del eje vertical de las ordenadas (que represen-
ta las frecuencias). Si unimos los puntos con lneas rectas, tenemos un
polgono de frecuencias, si los unimos con un trazo curvo, tendremos
una curva.
En la tabla 3 y figura II hemos reducido el nmero de intervalos, agru-
pando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo ms
bajo comienza con 35 (mltiplo de 5). Nos quedan 9 intervalos.

Tabla 3

i=5 X f
X f
55-59 |||||||| 8
75-79 || 2 50-54 ||| 3
70-74 |||||| 6 45-49 |||| 4
65-69 ||||| 5 40-44 | 1
60-64 ||||||||| 9 35-39 || 2

28
ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES GRFICAS

Fig. II

X
9
8 Figura II X

7
6 X

X
5
4 X

3 X

2 X
X
X
1
0 X X

30 35 40 45 50 55 60 65 70 75 80 85

Al reducir el nmero de intervalos el polgono queda simplificado y tiene


menos picos; la figura queda suavizada y tender a parecerse ms a la distri-
bucin normal.
Es importante caer en la cuenta de que a menor nmero de intervalos se
pierde informacin aunque se puede ganar en claridad.
En la figura I hay dos picos centrales que sugieren una distribucin bimo-
dal; y que han quedado reducidos a uno solo en la figura II. La figura queda
ms clara y suavizada. El hacer esto o no hacerlo (reducir el nmero de inter-
valos, simplificar la informacin) depender del tipo de informacin que se
quiere dar. Para dar una impresin grfica general, y sin pretender mucho ma-
tiz, es preferible en principio reducir el nmero de intervalos.

2.2. Polgono de frecuencias relativas

Los polgonos de frecuencias son especialmente tiles para comparar


grficamente dos o ms grupos. Los polgonos se superponen en el mismo
grfico y queda una representacin clara de los grupos.
Cuando los grupos son de distinto tamao, el incluir ms de un polgono de
frecuencias en el mismo grfico se presta a confusin. En este caso, para compa-
rar grficamente dos o ms grupos, lo correcto no es utilizar frecuencias absolu-
tas (el simple nmero de sujetos que hay en cada intervalo) sino frecuencias re-
lativas: el tanto por ciento de sujetos que hay en cada intervalo. Estos tantos por
ciento son las frecuencias relativas. El clculo de las frecuencias relativas es muy
sencillo: el nmero de sujetos (o frecuencia, f) de cada intervalo se divide por el
nmero total de sujetos (N) y se multiplica por cien:

29
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

100f
frecuencias relativas (%) =
N
En la tabla 4 y figura III tenemos un ejemplo de dos polgonos de frecuen-
cias relativas de dos grupos con distinto nmero de sujetos.

Tabla 4

X grupo A grupo B
i=6 f % f %

75-79 1 7 1 5
69-74 2 13 6 30
63-68 4 27 5 25
57-62 5 33 2 10
51-56 3 20 4 20
45-50 2 10
39-44
N = 15 N = 20

Figura III.
POLGONOS DE FRECUENCIAS RELATIVAS DE DOS GRUPOS CON DISTINTO NMERO DE SUJETOS

40%

35% Grupo A

30%

25%

20%

15%

10%

5%

0%
35.5 42.5 47.5 53.5 59.5 65.5 71.5 77.5 82.5
Punto medio de cada intervalo

30
ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES GRFICAS

El utilizar frecuencia relativas (tanto por ciento de sujetos en cada intervalo)


permite hacer grficos comparativos cuando los grupos tienen un nmero dis-
tinto de sujetos (comparamos tantos por ciento, no nmeros absolutos).

2.3. Histograma

Otra representacin grfica sencilla y de frecuente uso es el histograma. En


el histograma cada intervalo de frecuencias est representado por una barra.
Cmo hacer un histograma puede verse fcilmente en la figura IV, donde
aparece un histograma hecho a partir de los mismos datos de la tabla 3.
En el eje de las abscisas (la base horizontal) se sealan los valores
inferiores de cada intervalo.
En el eje de ordenadas (eje vertical) se sealan las frecuencias o
nmero de casos.

En el histograma de la figura IV se ha superpuesto un polgono de fre-


cuencias para facilitar la comparacin y ver las diferencias entre el histograma
y el polgono de frecuencias.

Figura IV
HISTOGRAMA CON POLGONO DE FRECUENCIAS SUPERPUESTO

9
8
7 Figura IV
6
5
4
3
2
1
0
30 35 40 45 50 55 60 65 70 75 80 85

31
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

2.4. Diagrama de cajas

Para construir un diagrama de cajas se toman como referencia las puntua-


ciones que dividen al grupo en cuatro partes iguales en nmero de sujetos;
un 25 % en cada parte. En la figura V tenemos las puntuaciones de corte pa-
ra dividir al grupo.

Figura V

Puntuacin ms alta

25%
Percentil 75 (Q3)

25%
Mediana (Percentil 50)

25%
Percentil 25 (Q1)

25%
Puntuacin ms baja

La figura V no es un diagrama de cajas, simplemente nos dice qu puntua-


ciones debemos calcular para hacer el diagrama. La mediana (o percentil 50)
divide al grupo en dos mitades con idntico nmero de sujetos, entre el per-
centil 75 (o cuartil 3, Q3) y la puntuacin ms alta tenemos un 25 % de suje-
tos y entre el percentil 25 (o cuartil 2, Q2) y la puntuacin ms baja tenemos
otro 25 %. Los percentiles y su clculo se entendern mejor al ver los distintos
tipos de puntuaciones, pero el concepto de percentil (tanto por ciento de su-
jetos que caen debajo de una puntuacin) se capta con facilidad.
En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del
grupo en trminos de puntuaciones directas (columna de la izquierda).
Estos diagramas de cajas son especialmente tiles para hacer una compa-
racin visual en dos tipos de situaciones:
a) Cuando tenemos dos o ms grupos medidos en la misma variable; ste
es probablemente el caso ms frecuente.

32
ORGANIZACIN DE LOS DATOS Y REPRESENTACIONES GRFICAS

En la figura VI tenemos el grfico que corresponde a tres grupos de


alumnos universitarios (Psicologa, N = 65; Derecho, N = 65; Ingenie-
ra N = 69) medidos con una escala de autoeficacia acadmica. La l-
nea que divide el recuadro corresponde a la mediana. De un golpe de
vista vemos dnde estn las puntuaciones ms altas y ms bajas y ence-
rrado en un recuadro dnde se sita el 50% central del grupo (entre
los percentiles 75 y 25). La lnea doble dentro del recuadro indica dn-
de est la mediana, que divide al grupo en dos mitades iguales.

Figura VI

Psic. Derch. Ing.


Puntaje
55 ms alto
54
53
52
51
50 25%
49 Percentil
48 75
47
46
45
44
43
42 50% Mediana
41
40
39
38
37
36
35 Percentil
34 25
33 25%
32
31
30
29
28 Puntaje
27 ms bajo

b) Cuando tenemos un mismo grupo medido en varias variables, como


sucede en el ejemplo de la figura VII. Cada variable est medida por un
idntico nmero de tems, por lo que son comparables las puntuacio-
nes absolutas de cada subescala.
En la figura VII tenemos el grfico correspondiente a un nico grupo
de 283 sujetos que han respondido a un sencillo test que mide cinco
variables propias del Anlisis Transaccional. Cada variable est medi-
da por ocho tems con respuestas de 1 (nada) a 6 (mucho), por lo que
las puntuaciones mxima y mnima posibles son 48 y 8.

33
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Figura VII

Psic. Derch. Ing.


Puntaje
55 ms alto
54
53
52
51
50 25%
49 Percentil
48 75
47
46
45
44
43
42 50% Mediana
41
40
39
38
37
36
35 Percentil
34 25
33 25%
32
31
30
29
28 Puntaje
27 ms bajo

De un golpe de vista vemos que en Padre Nutricio el 50% central est con-
centrado en unas pocas puntuaciones (aproximadamente entre 35 y 40) y
que son adems las ms altas en trminos comparativos. Vemos tambin que
el lmite inferior del 50% central en Adulto coincide con el lmite superior del
50% central en Padre Punitivo (entre 28 y 29), etc.

34
CAPTULO 2
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA
CENTRAL Y DE DISPERSIN

1. MEDIDAS DE TENDENCIA CENTRAL

1.1. La media aritmtica

Todos estamos familiarizados con la media aritmtica como valor repre-


sentativo de un conjunto de puntuaciones; con frecuencia describimos un
grupo de manera sinttica diciendo cul es su media; si estamos hablando de
una clase no es lo mismo decir esta clase tiene una media de 7, que decir en
esta clase la media es 5
La frmula de la media no necesita demostracin porque expresa el mis-
mo concepto de media: cunto correspondera a cada sujeto (u objeto) si to-
dos tuvieran el mismo valor: sumamos todos los valores y dividimos esta su-
ma por el nmero de sujetos.
X
Media aritmtica: X= [1]
N
El smbolo habitual de la media es el mismo utilizado en las puntuaciones
directas (generalmente una X mayscula) con una raya horizontal encima
(pero tambin se utilizan otros smbolos como la letra M).
De la media podemos enunciar dos propiedades que tambin nos podran
servir para definirla.
a) Si a cada sujeto le calculamos su diferencia con respecto a la media (X-
X), la suma de estas diferencias es igual a cero: la suma de las diferen-
cias positivas es igual a la suma de las diferencias negativas.

35
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

b) Si estas diferencias con respecto a la media las elevamos al cuadrado (y


todas sern positivas) y las sumamos, esta suma ser menor que la su-
ma de las diferencias, tambin elevadas al cuadrado, con respecto a
cualquier otro valor distinto de la media.

Esta propiedad de la media nos permite definirla como el valor central


que hace que la suma de los cuadrados de las desviaciones con respecto a
este valor sea el mnimo posible. El mtodo de localizar la media buscando el
valor mnimo de la suma de cuadrados (de las diferencias con respecto a la
media elevadas al cuadrado) recibe el nombre de mtodo de los cuadrados
mnimos; no tiene especial importancia ahora, pero s lo tiene en otras apli-
caciones de la estadstica (como en la recta de regresin) y es til estar ya fa-
miliarizados con este trmino.

1.2. La mediana

La mediana es el valor que divide las frecuencias en dos mitades iguales:


por encima de la mediana y por debajo de la mediana encontramos el mismo
nmero de sujetos.
La mediana es otro valor de tendencia central muy til. La mediana pode-
mos buscarla, al menos de manera aproximada, por simple inspeccin de los
datos en una distribucin de frecuencias; el clculo preciso lo veremos en el
contexto de los percentiles (la mediana corresponde al percentil 50: el valor
que deja por debajo a la mitad de la muestra).

1.3. La moda

La moda es simplemente la puntuacin que tiene una mayor frecuencia


(donde encontramos un mayor nmero de casos).
Como medida de tendencia central es muy poco rigurosa. Adems podemos
encontrarnos con que puede haber ms de una puntuacin con idntico nme-
ro de casos, o al menos dos o ms puntuaciones con una frecuencia que supe-
ran notablemente al resto de los valores de la distribucin (y por eso hablamos
de distribuciones bimodales, o plurimodales; si dibujamos la curva o un pol-
gono de frecuencias, nos encontraremos con dos o ms picos pronunciados).

1.4. Comparacin de las medidas de tendencia central

Los conceptos de media, mediana y moda son sencillos; lo que ms nos


interesa ahora es apreciar sus diferencias y caractersticas; sobre todo nos in-
teresa comparar la media y la mediana.

36
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

1. Cuando la distribucin no es normal (no es simtrica) y hay ms sujetos


por encima o por debajo de la media, la mediana es arrastrada hacia la zona de
la distribucin donde hay un mayor nmero de sujetos (ejemplos en la tabla 1).

Tabla 1

M o d a = 2 (puntuacin con mayor nmero de casos Moda = 7

M e d i a n a = 2.5 (idntico nmero de


sujetos por encima y por debajo M e d i a = 4.5 M e d i a n a = 5.5
M e d i a = 3.42

1 2 3 4 5 6 7 1 2 3 4 5 6 7
Cuando hay ms sujetos por debajo de la media que por Cuando hay menos sujetos por debajo de la media que
encima (como en este ejemplo, 8 por debajo y 4 por por encima (como en este ejemplo, 5 por debajo y 7 por
encima) la mediana es menor que la media encima) la mediana es mayor que la media

Cuando la mediana es distinta de la media (la distribucin no es simtrica,


est sesgada hacia un lado de la distribucin), el valor de la mediana nos indi-
ca el sesgo de la distribucin: si la mediana es mayor que la media, hay ms su-
jetos en la parta alta de la distribucin, y si la mediana es menor que la media,
hay ms sujetos en la parte baja de la distribucin. Precisamente en esta dife-
rencia entre la media y la mediana se basan algunas medidas de asimetra de
la distribucin.
2. La mediana no se ve afectada por las puntuaciones extremas de la
distribucin.
Esta caracterstica de la mediana es la que hay que tener en cuenta para va-
lorar cundo nos puede interesar ms la mediana que la media (o adems de
la media) como medida de tendencia central.
Lo vemos fcilmente en estos dos ejemplos ficticios (tabla 2):

Tabla 2

Caso 1 Caso 2
6 |||||||||| (10) La mediana es 5,5; es la 6 |||||||||| (10) La mediana sigue
5 ||||| (5) puntuacin que divide a 5 ||||| (5) siendo 5,5 (10 sujetos
la nuestra en dos por encima y 10 sujetos
4 ||||| (5) 4
mitades iguales (10 por debajo), aunque la
3 sujetos por encima y 10 3 media baja a 4,5
2 sujetos por debajo); la 2
1 media es 5.25 1 ||||| (5)

37
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Nos interesar utilizar la mediana cuando creamos que los sujetos con
puntuaciones extremas desvirtan la media en cuanto medida representa-
tiva de dnde est un grupo; las puntuaciones muy extremas (y que pue-
den ser atpicas) influyen en la media (en el clculo de la media entran to-
das las puntuaciones), pero no en la mediana. ste puede ser el caso de los
tems de evaluacin del profesorado; un pequeo nmero de alumnos po-
co representativos puede sesgar la media en una direccin (positiva o nega-
tiva) que no refleja el sentir o la opinin claramente mayoritaria de un gru-
po. En cualquier caso siempre es posible aportar ambos datos, la media y la
mediana.
La moda (en los dos casos de la tabla 2 corresponde a la puntuacin 6)
tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa
de inters a la media suele ser la mediana, no la moda.
En general nos interesar la mediana en vez de la media cuando los datos
sean claramente ordinales y siempre que interese no tener en cuenta puntua-
ciones muy extremas. La mediana es el valor utilizado en algunos anlisis es-
pecficos1.
3. La media se presta a muchos ms anlisis estadsticos de inters.
Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre
las otras medidas de tendencia central, y es la que utilizaremos rutinaria-
mente; adems en el clculo de la media se utiliza toda la informacin
disponible.
Esta razn tiene ms peso en estadstica inferencial, cuando pretende-
mos inferir la media de una poblacin (al menos ver entre qu limites proba-
bles se encuentra) a partir de los datos de una muestra; con este plantea-
miento (y en otros semejantes) solemos utilizar la media; con un propsito
meramente descriptivo utilizaremos la medida que ms nos convenga (o ms
de una).
4. En la distribucin normal coinciden los valores de la media, la me-
diana y la moda.
En los ejemplos puestos hasta ahora, la media, la mediana y la moda tie-
nen valores distintos; cuando la distribucin es normal (simtrica, acampa-
nada) los tres valores de tendencia central son idnticos: la media es tambin
el valor con un mayor nmero de sujetos y divide a la muestra en dos mitades
iguales, como podemos ver en la distribucin de frecuencias de la tabla 3

1
La mediana se utiliza en el anlisis de tems en las escalas de Thurstone y para de-
terminar las puntuaciones de corte (apto/no apto) cuando varios jueces examinan los
tems de una prueba objetiva (mtodos de Angoff y Nedelsky); en ambos casos se preten-
de prescindir de los juicios extremos; son temas que no tratamos aqu pero que ejemplifi-
can la utilidad de la mediana.

38
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Tabla 3

9 |
8 |||
7 ||||

{
6 |||||||| media
5 |||||||||| 5 = mediana
4 |||||||| moda
3 ||||
2 |||
1 |

Como veremos a continuacin, cada medida de tendencia central se utiliza


junto con otra medida de dispersin o de variabilidad, que completa el tipo
de informacin o resumen aportado por estas medidas de tendencia central.

2. MEDIDAS DE DISPERSIN: SU UTILIDAD

Todos estamos familiarizados con las medidas de tendencia central, como


lo es la media aritmtica. Es muy normal describir grupos o resultados calcu-
lando la media. Hemos visto otras medidas de tendencia central, como son la
mediana (la puntuacin que divide al grupo en dos mitades iguales) y la mo-
da o puntuacin ms frecuente. Sin embargo la medida ms utilizada como
dato descriptivo que resume dnde est un grupo es la media aritmtica.
La limitacin de la media aritmtica (y de otras medidas semejantes) como
dato que describe adecuadamente los resultados obtenidos en un grupo, po-
demos verlo con un sencillo ejemplo.
Imaginemos que a dos clases (de cuatro alumnos cada una, para simplifi-
car el ejemplo) les ponemos un examen de 20 preguntas objetivas. Cada pre-
gunta puede estar bien (y vale 1) o mal (y vale 0). Obtenemos los resultados
puestos en la tabla 4 y vemos que los dos grupos tienen idntica media.

Tabla 4

Grupo A Grupo B
20 10
20 10
0 10
0 10
media = 10 media = 10

39
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Podemos decir que se trata de dos grupos muy parecidos porque tie-
nen la misma media? No, son grupos muy distintos. El grupo A es muy he-
terogneo, en este grupo A se puede decir que hay dos subgrupos muy di-
ferenciados; el grupo B en cambio es muy homogneo, todos tienen
idntica puntuacin.
Las medidas de dispersin complementan la informacin que nos da
tanto la media (aqu vamos a poner el nfasis por ser la medida ms til y
utilizada) como la mediana o la moda; estas medidas de dispersin expre-
san en qu grado los grupos son ms bien homogneos, con los sujetos
muy parecidos unos a otros (como en el grupo B), o ms bien se trata de
grupos heterogneos, con mayores diferencias entre los sujetos (como en
el grupo A). La medida de dispersin ms til y utilizada es la desviacin t-
pica, que se utiliza siempre que se calcula la media como la medida de ten-
dencia central.

Las medidas de dispersin que vamos a ver son las siguientes:


a) En relacin con la media:
1. La desviacin media, que se utiliza poco pero es sencilla y nos sir-
ve de introduccin para la desviacin tpica.
2. La desviacin tpica y la varianza (que es la desviacin tpica eleva-
da al cuadrado), que son las ms importantes;
3. El coeficiente de variacin, que se calcula a partir de la media y de
la desviacin tpica, y que tiene su utilidad especfica en determina-
das situaciones.
b) En relacin con la mediana
La desviacin semi-intercuartlica, que expresa la dispersin o hete-
rogeneidad en el 50% central del grupo (y en la que, lo mismo que la
mediana, se prescinde de las puntuaciones extremas).
c) En relacin con la moda:
La amplitud o recorrido, de menor importancia que las otras medidas
de dispersin.

2.1. La desviacin media

La medida de dispersin ms sencilla y fcil de comprender es la desvia-


cin media; aunque apenas se utiliza es til comprender el significado de la
desviacin media como punto de partida sobre todo para entender la desvia-
cin tpica, que es la medida de dispersin ms utilizada. La desviacin me-
dia la entenderemos fcilmente comparando las dos representaciones pues-
tas la figura 1.

40
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Fig. 1

Grupo A media = 5 Grupo B media = 5


d = -2 d = -2 d = -3 d = +3

d = -1 d = -1 d = -2 d = +2

1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Diferencia media con respecto a la media grupal = 1.5 Diferencia media con respecto a la media grupal = 2 .5

1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos.


Las puntuaciones del grupo A son 3, 4, 6 y 7.
Las puntuaciones del grupo B son 2, 3, 7 y 8.
2. Ambos grupos tienen idntica media, X= 5
3. Cada sujeto tiene una desviacin (d) con respecto a la media (X) de su
grupo: unos porque no llegan a la media y otros porque se pasan y tie-
nen una puntuacin superior a la media. Si un sujeto tuviera una pun-
tuacin idntica a la media, su desviacin valdra d = 0, pero sigue
siendo vlido el concepto de desviacin con respecto a la media (ce-
ro en este caso).
4. Si dentro de cada grupo sumamos las desviaciones individuales (en va-
lores absolutos, prescindiendo del signo) y dividimos esta suma por el
nmero de sujetos, tendremos la desviacin media del grupo (d)

|2+1+1+2|
Desviacin media del grupo A == 1.5
4
|3+2+2+3|
Desviacin media del grupo B == 2.5
4

5. Aunque ambos grupos tienen idntica media, son grupos muy distin-
tos. A simple vista se observa que el grupo A es ms homogneo que el
grupo B; en el grupo B los sujetos se apartan ms de la media. Aunque
los dos grupos tienen idntica media, la dispersin del grupo B es ma-

41
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

yor que la dispersin del grupo A (o, lo que es lo mismo, el grupo A es


ms homogneo que el grupo B). Consecuentemente el grupo A tiene
una desviacin media ms pequea.
La desviacin media nos indica por lo tanto el grado de dispersin,
de homogeneidad, de parecido de unos sujetos a otros. Una misma
media de 5 puede proceder de un grupo en el que todos tienen un 5
(dispersin = 0, grupo muy homogneo, todos los sujetos son igua-
les), y una media de 5 tambin puede proceder de un grupo en el
que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una
misma media puede corresponder a grupos muy distintos y dar por
lo tanto una informacin descriptiva incompleta que se presta a con-
clusiones falsas o equvocas (por ejemplo, una renta media per capi-
ta muy elevada es compatible con importantes bolsas de pobreza en
la poblacin).

2.2. La desviacin tpica y la varianza

2.2.1. La desviacin tpica

1. En la prctica, y como medida de dispersin, no se usa la desviacin


media (aunque inicialmente se entiende con mayor facilidad) sino prefe-
rentemente la desviacin tpica, que es otra medida que indica igualmen-
te el grado de dispersin o de heterogeneidad de las puntuaciones indivi-
duales.
2. Para calcular la desviacin tpica las desviaciones individuales se elevan
al cuadrado antes de sumarlas (y con esta operacin desaparecen los signos
negativos), y despus de dividir esta suma por el nmero de sujetos, se extrae
la raz cuadrada. El smbolo habitual de la desviacin tpica es la letra ese grie-
ga minscula (sigma: s; tambin es comn denominar la desviacin tpica
por el nombre del smbolo, sigma, o desviacin estndar, del ingls stan-
dard deviation).2
2
Sobre el smbolo de la desviacin tpica hacemos una observacin para evitar con-
fusiones. Aqu utilizamos siempre la letra ese griega minscula (s) como smbolo de la
desviacin tpica de la muestra, que es la que vamos a utilizar habitualmente, incluso es
frecuente designar a la desviacin tpica por el nombre del smbolo (sigma). Aunque no
hay una prctica uniforme, s conviene advertir que tambin es frecuente utilizar este sm-
bolo (s) para expresar la desviacin tpica estimada de la poblacin (N-1 en el denomina-
dor), y reservar la letra s, ese latina, para expresar la desviacin tpica de la muestra (N en
el denominador). En algunas calculadoras se distinguen bien los dos smbolos con subn-
dices: sn y sn-1. En el programa EXCEL la desviacin tpica de la muestra (dividiendo por N)
se denomina desvestp y la desviacin tpica de la poblacin (dividiendo por N-1) se deno-
mina desvest.

42
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Frmulas
Distinguimos dos frmulas segn se trate de la desviacin tpica de la
muestra o de una estimacin de la desviacin tpica de la poblacin represen-
tada por esa muestra.
1 Cuando se trata de la desviacin tpica que describe la dispersin de
una muestra (que es lo que hacemos normalmente) utilizamos la fr-
mula [3]:

s = desviacin tpica de la muestra


S = sumatorio, suma de (letra ese griega
mayscula)
[3] X = cada una de las puntuaciones individua-
les (X mayscula),
X = media aritmtica
N = nmero de sujetos

La frmula de la desviacin tpica tambin suele expresarse as:

(d = desviaciones con respecto a la media) o tambin

La letra x (equis minscula) es un smbolo habitual de la puntuacin di-


ferencial de cada sujeto, que es simplemente la desviacin o diferencia de ca-
da sujeto con respecto a la media, d = x = X
2 Cuando se trata de la estimacin de la desviacin tpica de la pobla-
cin representada por una muestra se utiliza la frmula [4].

La frmula es casi idntica; dividimos por N-1 (en


[4] vez de por N) con lo que el valor de la desviacin
tpica ser algo mayor.

En este caso se trata de la estimacin de la desviacin tpica de una pobla-


cin calculada a partir de los datos de una muestra. Al dividir por N-1 (y dis-
minuir el denominador) aumenta el cociente: la desviacin tpica de una po-
blacin suele ser mayor que la desviacin tpica de una muestra, porque al
aumentar el nmero de sujetos es ms probable que haya sujetos con puntua-
ciones muy extremas (o muy altas o muy bajas) y consecuentemente aumenta-

43
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

r la desviacin tpica. Con nmeros grandes apenas hay diferencia (a efectos


prcticos da lo mismo dividir por 100 que dividir por 99), pero con nmeros
muy pequeos la diferencia puede ser importante3.
De la frmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y vice-
versa se pasa con facilidad. La desviacin tpica [3] la simbolizamos ahora co-
mo sn y la desviacin tpica de la frmula [4] la simbolizamos como sn-1 para
evitar confusiones.
El paso de [3] a [4] se capta con facilidad. Si despejamos S(X - X)2 en la
frmula [3] tenemos que y substituyendo S(X - X)2 por
en la frmula [4] tendremos que:

[5] y de manera anloga tenemos que [6]

Podemos ver estas transformaciones en un sencillo ejemplo:


Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones
son: sn = 2.494
sn-1 = 3.055

sn a partir de sn-1:

sn-1 a partir de sn

De estas frmulas es de especial utilidad la [6] porque algunos programas


de ordenador dan rutinariamente la desviacin tpica de la poblacin (sn-1)
cuando la que con frecuencia interesa es la desviacin tpica que describe la
dispersin de la muestra (sn).

2.2.2. La varianza

1. La varianza es simplemente la desviacin tpica elevada al cuadrado:

3
En EXCEL (herramientas) en anlisis de datos (estadstica descriptiva) calcula la
desviacin tpica de la poblacin (dividiendo por N-1) lo mismo que en el SPSS (por defecto).

44
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Ya hemos visto que el numerador de la varianza (la suma de las desviacio-


nes individuales elevadas previamente al cuadrado) puede expresarse as:

De esta manera se simplifican bastante algunas operaciones del anlisis


de varianza que no vemos en este momento. Este numerador de la varianza
se denomina tambin suma de cuadrados.
2. La varianza se interpreta de la misma manera que la desviacin tpica:
cuantifica la dispersin de una serie de puntuaciones. La interpretacin de la
desviacin tpica y de la varianza es la misma, aunque obviamente las magni-
tudes sern distintas.
La varianza es mayor que la desviacin tpica cuando la desviacin tpica
es > 1,
La varianza es menor que la desviacin tpica cuando la desviacin tpica es
<1
Como dato descriptivo es ms frecuente el uso de la desviacin tpica que
el de la varianza (aunque se utilizan los dos).

2.2.3. Ventajas de la desviacin tpica y de la varianza como


medidas de dispersin

La razn de utilizar la desviacin tpica (o la varianza) en vez de la desvia-


cin media (u otras medidas de dispersin como son la amplitud o la desvia-
cin semi-intercuartlica) son varias:
1. El clculo de la desviacin tpica se basa en todas las puntuaciones.
Otras medidas de dispersin, como la amplitud y la desviacin
semi-intercuartlica, utilizan menos datos y dicen menos,
aportan una informacin ms limitada. La amplitud (o recorri-
do) se basa solamente en las dos puntuaciones extremas y la
desviacin semi-intercuartlica (Q) expresa la dispersin en el
50% central del grupo. Estas medidas de dispersin tambin tie-
nen su utilidad, pero la medida que en principio es preferible
utilizar la desviacin tpica.
La desviacin tpica y la varianza tienen mucha estabilidad, al menos
en trminos comparativos, cuando la utilizamos para estimar la variabi-
lidad de una poblacin; cuando se calcula en varias muestras aleatorias
vara relativamente poco.
2. De la relacin existente entre la desviacin tpica y la distribucin nor-
mal se derivan numerosas aplicaciones muy tiles: si conocemos en
cuntas desviaciones tpicas se aparta un sujeto de la media, conoce-

45
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

mos las probabilidades de que se d por azar esa puntuacin; as pode-


mos detectar qu resultados, por ser muy altos o muy bajos, son muy
improbables por azar. Este clculo de probabilidades es especialmen-
te til en estadstica inferencial, ya ms en planteamientos de investiga-
cin. Estos puntos se tratan en extensin en el lugar apropiado, al tra-
tar ms adelante de la distribucin normal.
3. La desviacin tpica y la varianza se calculan con facilidad con sencillas
calculadoras con programacin estadstica y en los programas inform-
ticos como EXCEL.
Existen adems varios mtodos simplificados para calcular la desvia-
cin tpica, pero estos mtodos slo dan aproximaciones y dada la faci-
lidad con que pueden utilizarse las calculadoras y programas de orde-
nador, estos mtodos son ya menos tiles y justificables.

2.2.4. Propiedades de la desviacin tpica y de la varianza

La desviacin tpica y la varianza tienen adems propiedades matemticas


que las hacen ms tiles.
1. Si a las puntuaciones directas les sumamos una constante, la desviacin
tpica y la varianza no varan. Esto es obvio porque no varan las distancias in-
ter-individuales.
Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.).

Tabla 5

Caso A Caso B
(= A+2)
1 3
5 7
9 11
media 5 7
desviacin tpica 3.266 3.266

En el caso B hemos sumado dos puntos a cada sujeto del caso A; las me-
dias son distintas (sube en dos puntos en el caso B), pero la desviacin tpica
es la misma porque las diferencias interindividuales son las mismas.
2. Si multiplicamos las puntuaciones directas por una constante, la desvia-
cin tpica queda multiplicada por esa misma constante y la varianza queda
multiplicada por el cuadrado de esa constante.
Lo vemos tambin con un ejemplo: las puntuaciones del caso A las multi-
plicamos por 2 (tabla 6).

46
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Tabla 6
Caso A Caso B
(= A x 2)
1 2
5 10
9 18
media 5 10
desviacin tpica 3.266 6.53 ( = 3.266 x 2)
varianza 10.67 42.67 ( = 10.67 x 22)

3. La varianza en particular tiene una propiedad que la hace sumamente


til en algunos anlisis: la varianza se puede descomponer segn diversos or-
genes de la variacin. Estas aplicaciones se ven en las tcnicas de anlisis de
varianza.

2.2.5. Usos e interpretaciones de la desviacin tpica

1. En principio, y como ya hemos visto, la desviacin tpica describe el gra-


do de homogeneidad de los datos: ser ms baja en la medida en que los da-
tos estn ms prximos a la media, aumentar si hay puntuaciones extremas
muy alejadas de la media, etc. Como dato puramente descriptivo suele utili-
zarse la desviacin tpica con preferencia a la varianza (que tambin puede
utilizarse).
La media y la desviacin tpica aportan datos descriptivos complementa-
rios. Si se trata de datos escolares (y lo mismo con otros tipos de datos) per-
miten hacer diagnsticos rpidos de un grupo. Media baja y desviacin tpica
pequea: examen difcil para todos, o el profesor califica muy bajo a todos,
etc.; media baja y desviacin tpica grande puede indicar que hay un subgru-
po demasiado bajo, etc.; se trata al menos de pistas razonables, pues para ha-
cerse una idea ms cabal de la situacin habr que inspeccionar los datos (la
distribucin de frecuencias).
2. Al valorar e interpretar la desviacin tpica hay que tener en cuanta de
dnde vienen los datos: no es lo mismo el nmero respuestas correctas en
un examen que calificaciones puestas por un profesor. Ms en concreto es
interesante pensar por qu podemos encontrar desviaciones pequeas don-
de cabra esperar que fueran mayores.

As una desviacin tpica muy pequea puede indicar:


a) El grupo (el conjunto de datos) es muy homogneo, todos los sujetos
(u objetos) se parecen mucho entre s. En un test de inteligencia pues-

47
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

to a una muestra de sujetos muy inteligentes tendremos una desvia-


cin tpica ms pequea que la que podemos encontrar en una mues-
tra normal, donde hay de todo.
sta es la interpretacin en principio ms obvia porque es lo que ex-
presa directamente la desviacin tpica, pero, sobre todo cuando tene-
mos una desviacin mucho menor de lo esperado o de lo que es usual
encontrar en otras situaciones, cabe siempre el buscar alguna explica-
cin, como indicamos en los apartados siguientes.
b) Los sujetos pueden ser potencialmente muy distintos, pero pueden
tambin estar igualados por la facilidad o dificultad de la prueba
(examen, test, etc.). El test o instrumento, del tipo que sea, puede ser
poco discriminante y consecuentemente no detecta diferencias que
de hecho hay. El grupo puede ser muy homogneo pero slo tal como
lo mide un instrumento determinado. Por ejemplo, no es lo mismo po-
ner como respuestas de un cuestionario s o no (a lo mejor todos res-
ponden s) que poner s, ms bien s, ms bien no y no: puede suce-
der que los que responden s (si slo pueden escoger entre s y no) se
dividan entre el s y el ms bien s.
De manera semejante una desviacin tpica muy pequea en un test de
conocimientos puede indicar no que el grupo es realmente muy ho-
mogneo (sujetos muy iguales) sino que el examen es muy fcil (todos
o casi todos saben todo) o muy difcil (casi nadie sabe nada): puede
haber diferencias en esos conocimientos que no se detectan con ese
test; el grupo es ms heterogneo de lo que manifiesta esa desviacin
tpica pequea.
c) Si se trata de calificaciones, una desviacin tpica pequea puede indi-
car que el profesor matiza poco, pone notas muy iguales.
En general una desviacin tpica pequea puede indicar que el proce-
dimiento o instrumento utilizado para recoger los datos no recoge su-
ficientemente diferencias que de hecho existen. El no detectar diferen-
cias repercute por otra parte en otros anlisis estadsticos (por ejemplo
en el clculo de coeficientes de correlacin: no se detectan relaciones
si no hay diferencias claras entre los sujetos).

3. No hay un valor ideal de la desviacin tpica que pueda servir de refe-


rencia; cundo es grande o pequea se aprecia comparando unas con otras.
Dos desviaciones tpicas pueden compararse entre s directamente (lo mismo
que dos varianzas) si provienen de datos comparables (unidades compara-
bles, la misma escala mtrica).
En ocasiones puede ser de utilidad conocer cul es el valor mximo po-
sible de la desviacin tpica; este valor mximo posible es igual a:

48
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

puntuacin mxima posible - puntuacin ms baja posible


[8]
2
Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de
acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total
desacuerdo), la puntuacin mxima posible es 5 y la puntuacin ms baja po-
sible es 1; en este caso la desviacin tpica mayor posible es (5 - 1)/2 = 2.
Esta referencia suele ser poco til porque este valor mximo es difcilmen-
te alcanzable en la mayora de las situaciones. Cuando los valores son 1 y 0 (s
o no, bien o mal, etc.), la desviacin tpica mayor posible es (1 - 0)/2 = .50.
Esta referencia con este tipo de datos es especialmente til, porque en estos
casos (respuesta 1 0) s es ms frecuente que la desviacin tpica obtenida
sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos es-
tos comentarios al tratar despus de las puntuaciones dicotmicas).
4. La desviacin tpica indica qu puntuacin parcial pesa ms en una me-
dia final; a mayor desviacin tpica, mayor peso en la media final. En determi-
nadas situaciones esta informacin puede ser muy til.
El que la puntuacin parcial con una mayor desviacin tpica pese ms en
una media final es por otra parte lgico: si todos reciben la misma o casi la
misma puntuacin (lo que supone una desviacin tpica muy pequea), no se
establecen diferencias; si por el contrario se asignan puntuaciones muy distin-
tas a los sujetos (desviacin tpica grande) en una puntuacin parcial, las dife-
rencias en la media final dependern ms de esas ocasiones en las que se asig-
naron puntuaciones (o notas) muy distintas.
Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Suponga-
mos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (en-
tre parntesis el nmero de orden de cada sujeto con cada examinador y en
la media final):

Tabla 7

Podemos observar que el orden (entre parntesis) de los alumnos en la


media final coincide con el orden del examinador A, que es el que tiene una
mayor desviacin tpica.

49
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El sujeto n 1, el de media final ms alta, es el mismo que el del examina-


dor A, a pesar de que este examinador A est en minora ya que para los exa-
minadores B y C el sujeto n 1 es el que tiene una calificacin ms baja. Pero
como el examinador A ha diferenciado ms sus calificaciones, est influyendo
ms en quin queda en el primer o en el ltimo lugar.
El que la puntuacin parcial con una mayor desviacin tpica tenga tam-
bin un peso mayor en la media final puede ser de especial importancia en al-
gunas ocasiones, como cuando del nmero de orden de los examinados se
siguen consecuencias importantes (concesin de becas, procesos de admi-
sin o cualquier otro tipo de ventaja).
Los que califican de manera muy uniforme, sin diferenciar mucho, influ-
yen menos: sumar a todos una misma cantidad no establece diferencias. Lo
mismo sucede si no se trata de examinadores distintos, sino del mismo exa-
minador pero que ha calificado de manera muy distinta en distintas ocasiones
o con distintos tipos de pruebas.
Este peso distinto de las puntuaciones directas, segn sea mayor o menor
la desviacin tpica, se puede obviar de varias maneras; sobre todo utilizando
puntuaciones tpicas como veremos ms adelante.
5. La desviacin tpica entra en otros muchos clculos que iremos vien-
do (fiabilidad, error tpico, error tpico de la media, contraste de medias,
etc.).
6. La desviacin tpica permite el clculo de las puntuaciones tpicas indi-
viduales de las que tratamos ms adelante. Adems la relacin entre la desvia-
cin tpica, y las puntuaciones tpicas, y la distribucin normal nos abrir la
puerta a la estadstica inferencial.

2.2.6. Media y desviacin tpica de los datos dicotmicos

Datos dicotmicos, o puntuaciones dicotmicas, son aquellos en los que


solamente hay dos categoras de respuesta o de clasificacin mutuamente
excluyentes. Cuando hay ms de dos posibilidades se trata de datos o puntua-
ciones continuas.
En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o da-
tos, o variables) dicotmicas.
Adems de los datos propiamente dicotmicos (dos respuestas que se ex-
cluyen mutuamente) tambin podemos dicotomizar los datos continuos di-
vidindolos en dos categoras, por ejemplo por encima de la media y por de-
bajo de la media (o de la mediana), o apto (= 1) y no apto (= 0), etc.,
aunque en principio es preferible utilizar todas las respuestas sin reducirlas a
dos categoras.

50
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Figura 2:
EJEMPLOS DE DATOS DICOTMICOS

La media (X) de los datos dicotmicos es igual a la proporcin de res-


puestas correctas o de unos, y el smbolo que suele utilizarse es p.
El concepto de media es el mismo que cuando se trata de otros tipos de pun-
tuaciones: calculamos la media sumando todas las puntuaciones individuales
(que en este caso sern 1 0) y dividimos esta suma por el nmero de sujetos.

nmero de unos
Por lo tanto la media es: p = proporcin de unos = [9]
N
La proporcin de ceros (de respuestas incorrectas, de noes, etc.) se sim-
boliza como q, y es igual al nmero de ceros dividido por el nmero de suje-
tos, o ms sencillamente, q = 1-p, ya que p + q = 1 ( ses + noes o unos +
ceros = el 100% de las respuestas).
nmero de ceros
q = proporcin de ceros = [10]
N
Si, por ejemplo, de 50 sujetos 30 responden s (o bien en la pregunta de
un examen) y 20 responden no (o mal a una pregunta):

30
La media ser: p == .60
50

20
El valor de q ser: q == .40
50

Si multiplicamos por cien la proporcin de respuestas correctas (p), tene-


mos un tanto por ciento o un porcentaje: el 60% ha respondido correcta-
mente (o ha respondido s). Si los 50 sujetos responden s (o correctamente),

51
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

la proporcin de unos (la media) ser 50/50 = 1 ( el 100% de los sujetos ha


respondido correctamente o ha respondido s).
La desviacin tpica y la varianza de los datos dicotmicos (unos o ceros)
se puede calcular a partir de los valores de p y q:
Desviacin tpica: [11] Varianza: s2 = pq [12]
Es habitual utilizar pq como smbolo de la varianza de los datos dicotmi-
cos.
En el mismo ejemplo anterior, la desviacin tpica ser igual a
= .489, y la varianza ser igual a .4892 = .239 ( .24 redondeando los decimales).
La varianza mayor posible se dar cuando el 50% responde correctamen-
te (o responde s) y el otro 50% responde incorrectamente (o responde no),
es decir, cuando el 50% de las respuestas se codifica con un uno y el otro 50%
con un cero. Es entonces cuando se da el mayor nmero de diferencias inter-
individuales.
En este caso tenemos que p = q = .50;
la media es p =.50,
la desviacin tpica ser igual a
2
la varianza ser igual a .50 = .25,
Tambin se utilizan los smbolos convencionales (X, s); sin embargo los
smbolos p (media), pq (varianza) y (desviacin tpica) son muy utiliza-
dos con este tipo de datos; realmente tanto pq como son las frmulas
que tambin se utilizan como smbolos.
En los tems dicotmicos el valor mximo que puede alcanzar la desviacin t-
pica es .50 y el valor mximo de la varianza es .502 =.25. Como ya se indic an-
tes, el valor mximo que puede alcanzar la desviacin tpica (con cualquier tipo
de puntuacin) es igual a la diferencia entre la puntuacin mxima posible y la
puntuacin ms baja posible dividida por dos; en este caso (1-0)/2 = .50.
El que la mxima varianza con estos datos (1 0) es .25 podemos verlo de
manera intuitiva en los datos simulados de la tabla 8, donde tenemos todos
los posibles resultados que podemos obtener si cuatro sujetos (N = 4) res-
ponden a una pregunta (respuestas: s = 1, no = 0).
Si todos responden s (1) o todos responden no (0), nadie se diferencia de
nadie y la varianza es cero. Si la mitad (el 50%) responde s y la otra mitad res-
ponde no es cuando tenemos el mximo nmero de diferencias y la mxima va-
rianza. Si multiplicamos el nmero de los que responden s por el nmero de
los que responden no tenemos el nmero de diferencias entre los sujetos, y si
multiplicamos las proporciones tenemos la varianza. La unanimidad (todos
responden s o todos responden no) coincide con la varianza cero, y la mxima
diversidad coincide con la varianza mxima, que es (.50)(.50) = .25.

52
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

Tabla 8

El entender que la varianza mxima (lo ms lejano a la unanimidad en las


respuestas) es .25 tiene su importancia, no slo como referencia til, sino por-
que se trata de un valor que entra en la frmula para calcular el tamao necesa-
rio de la muestra para extrapolar los resultados a la poblacin (por ejemplo en
las encuestas pre-electorales); en estos casos suponemos que la varianza de la
poblacin es la mxima posible e igual a .25. La razn est en que a mayor varian-
za har falta una muestra mayor y para mayor seguridad nos ponemos en la si-
tuacin de que la varianza es la mayor posible (si la varianza fuera = 0, nos bas-
tara preguntar a un solo sujeto, porque todos van a responder lo mismo)4.
La media y la desviacin tpica de los datos dicotmicos pueden calcularse
con las calculadoras que tienen programacin estadstica y programas infor-
mtico, de la misma manera que se calculan cuando las puntuaciones son
continuas (las frmulas son las mismas; si las puntuaciones son dicotmicas,
nos limitaremos a introducir unos y ceros).

2.2.7. Combinacin de medias y desviaciones tpicas

Con frecuencia acumulamos datos y clculos de diversos grupos. Las fr-


mulas que combinan medias de diversos grupos en una media comn y diver-
sas desviaciones tpicas en una desviacin tpica comn son muy tiles.
1 Para combinar dos o ms medias:

Xtotal = media total, o comn a varios grupos;


SXN = en cada grupo multiplicamos la media por su
N y sumamos estos productos (esta suma es
igual a la suma de todas las puntuaciones);
SN = suma de todos los N

4
En la ficha tcnica de las encuestas, que suele aparecer publicada en peridicos y
revistas, se suele especificar que el tamao de la muestra se ha calculado suponiendo que
p = q = .50 (tambin se empelan letras maysculas, P y Q).

53
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

La frmula [13] es obvia (se trata de una media ponderada por el nme-
ro de sujetos):
tenemos que SX = XN; que es el numerador
Si la media es de esta frmula [13] (suma de todas las pun-
tuaciones); el denominador (SN) es la suma
de todos los sujetos de todos los grupos.
Cuando el nmero de sujetos es el mismo en todas las muestras, la media
total es simplemente la media de las medias.
Lo vemos en dos ejemplos (tabla 9), que utilizaremos tambin para ver c-
mo se combinan desviaciones tpicas.

Tabla 9

Cuando las muestras son de tamao desigual:

Cuando las muestras son de idntico tamao calculamos la media de las


medias:

2 Para combinar dos o ms desviaciones tpicas o varianzas:


Lo que no se puede hacer es calcular la media de las desviaciones tpicas;
para combinar las desviaciones tpicas de varios grupos como si se tratara de
un solo grupo aplicamos las frmulas [14] (muestras desiguales) y [15]
(muestras iguales).

54
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

a) Muestras de tamao desigual

stotal = desviacin tpica total, de todos los grupos unidos en uno solo;
Xtotal = media del total, de todos los grupos unidos en uno solo. 1 En
cada grupo multiplicamos cada N por la suma de la media y de
la desviacin tpica elevadas al cuadrado [N(X2 + s2)], 2 suma-
mos estos productos; 3 dividimos esta suma por el nmero to-
tal de sujetos (SN) y restamos la media total elevada al cuadra-
do (y que se supone calculada previamente). Si no extraemos la
raz cuadrada, lo que tenemos es la varianza comn a todos
los grupos.

b) Muestras de idntico tamao


Si las muestras son de idntico tamao, en la frmula [14] tendramos que
el denominador ser Nk, donde N es el nmero de sujetos que hay en cada
grupo y k es el nmero de grupos, por lo que la frmula [14] queda simplifi-
cada como se indica en [15].

En el numerador nos limitamos a sumar todas las medias y todas las


desviaciones previamente elevadas al cuadrado.
Con los datos mismos datos de la tabla 9 calculamos las desviaciones tpi-
cas uniendo todas las muestras.
Muestras de tamao desigual [14]:

Muestras de idntico tamao [15]5:

5
El numerador se calcula fcilmente con una calculadora con programacin estads-
tica, introduciendo todas las medias y todas las desviaciones tpicas, en la funcin Sx2.

55
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

De dnde vienen estas frmulas para combinar desviaciones tpicas a


partir de los valores de las desviaciones, medias y nmero de sujetos de diver-
sos grupos?
La frmula [14]6 es fcilmente demostrable, y no sobra conocer esta de-
mostracin porque nos introduce en otras frmulas frecuentes de la desvia-
cin tpica.
La frmula ms directa de la desviacin tpica es

Esta frmula no se demuestra en sentido propio (lo mismo que la de la


media aritmtica), simplemente expresa el concepto.
Hay otras frmulas, que se derivan de [16], para calcular la desviacin tpi-
ca sin necesidad de calcular las puntuaciones diferenciales (X-X). Lo que su-
cede es que estas frmulas que simplifican operaciones son menos tiles, ya
que disponemos de programas informticos y calculadoras con programacin
estadstica.
Una de estas frmulas para calcular la desviacin tpica a partir de las pun-
tuaciones directas y de la media, es la que nos interesa para poder demostrar
la frmula que nos permite combinar desviaciones tpicas de varios grupos;
es la frmula [17] que viene en muchos textos; a partir de esta frmula [17]
llegamos con facilidad a la frmula [14] para combinar desviaciones tpicas o
varianzas.

Vamos a ver cmo de la frmula [17] llegamos a la frmula [14], que es la


propuesta para combinar desviaciones tpicas; despus veremos de dnde sa-
le esta frmula [17].
Para simplificar esta demostracin utilizamos la varianza en vez de la des-
viacin tpica, as si elevamos al cuadrado la desviacin tpica expresada en
[17] tendremos que la varianza ser

Si en [18] despejamos SX2 tendremos SX2 =N(s2+ X2) [19]


La expresin que tenemos en [19] podemos verla ya en la frmula [14]. Si
de dos muestras conocemos los valores de N, X y s, podemos utilizar la fr-

6
Esta frmula la tomamos de McNemar (1962, pg. 24).

56
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

mula [17] para calcular la desviacin tpica de las dos muestras combinadas
en una nica muestra. En esta frmula [17] utilizada para combinar dos (o
ms) desviaciones tpicas tenemos ahora que:
N = N1 + N2;
La media ser la media total de las dos (o ms) muestras
2
SX ser la expresin [19] calculada en las dos (o ms) muestras y su-
madas.
Es decir, substituyendo [19] en [18] tenemos la frmula [14] para combi-
nar desviaciones tpicas.
Podemos preguntarnos ahora de dnde viene la frmula [17], que es la
que estamos utilizando para llegar a la frmula [14] y calcular la desviacin t-
pica de dos (o ms) muestras combinadas en una sola.
En la frmula de la desviacin tpica tenemos en el numerador un binomio
elevado al cuadrado. No hay ms que aplicar la frmula usual: (a - b)2 = a2 -
2ab + b2, y as llegamos a [18] y [17]:
Utilizando la varianza para simplificar, tenemos que:

Como en [17] tenemos que y que

Tendremos que y as llegamos a [18]


y [17]

2.3. El coeficiente de variacin (V)

Otra medida de dispersin, menos utilizada, es el coeficiente de varia-


cin. En principio se utiliza para comparar dispersin cuando los instrumen-
tos o unidades de medida son distintas, o cuando las medias de dos grupos
son muy desiguales.
La desviacin tpica viene expresada en las mismas unidades empleadas en
la medicin, por lo tanto dos desviaciones calculadas con instrumentos y uni-
dades distintas no son comparables entre s directamente. Lo mismo sucede
cuando las medias son muy distintas (por ejemplo cuando las medias de dos
exmenes son muy distintas porque el nmero de preguntas es distinto).
En estos casos se utiliza el coeficiente de variacin o de variabilidad rela-
tiva: consiste sencillamente en dividir la desviacin tpica por la media (es de-
cir, se trata de la desviacin relativa a la media); es habitual multiplicar por
100 este cociente.

57
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Coeficiente de variacin: [21]

Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (pe-
so en Kg.) Aparentemente los chicos difieren
media desviacin ms entre s que las chicas entre s (su
desviacin tpica es mayor; los chicos
chicos 66.87 6.99 tienen de manera natural ms mbito
chicas 51.06 5.10 de variacin), pero tambin es ver-
dad que las medias son muy distintas.

Si calculamos el coeficiente de variacin (haciendo las desviaciones relati-


vas a la media) tenemos estos resultados:
6.69
V (chicos) = (100) = 10.45 Teniendo en cuenta la diferencia en-
66.87 tre las medias, entre las chicas encon-
tramos ms variabilidad en peso (aun-
5.51
V (chicas) = (100) = 10.79 que no mucha ms).
51.06

El uso de este coeficiente de variacin en medidas educacionales o psico-


lgicas es muy cuestionable, porque su valor depende de la media, que a su
vez depende de la facilidad o dificultad de las preguntas, test, etc. Su inter-
pretacin se presta a ambigedades. Si por ejemplo a un test de 10 preguntas
le aadimos otras 10 muy fciles, subir la media y bajar el valor de V.
Este coeficiente puede utilizarse y es especialmente til cuando se dan es-
tas circunstancias:
1 Cuando las unidades lo son en sentido propio (como peso, altura,
con una unidad clara); menos aconsejable es utilizarlo en las medi-
das educacionales y psicolgicas habituales;
2 Cuando las medias son muy desiguales (como en el ejemplo ante-
rior, peso en chicos y chicas).
3 Cuando las medidas son distintas (por ejemplo; dnde hay ms va-
riabilidad, en peso o en altura?).
En el campo de los tests en general, puede ser til para comparar la varia-
bilidad de un grupo en el mismo test aplicado en circunstancias distintas.

2.4. La desviacin semi-intercuartlica

Nos hemos centrado fundamentalmente en la desviacin tpica y en la


varianza porque se trata de dos conceptos fundamentales para el resto de

58
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

los anlisis estadsticos. Son medidas de dispersin que se utilizan cuando se


utiliza la media aritmtica como medida de tendencia central.
Se utilizan tambin otros pares de medidas, tanto de tendencia central
(que ya hemos visto, como la mediana y la moda) como de dispersin, que
son ya de utilidad ms limitada, aunque tienen su lugar como descriptores de
un conjunto de puntuaciones.
La desviacin semi-intercuartlica es la medida de dispersin apropiada
cuando la medida de tendencia central es la mediana, y expresa la disper-
sin del 50% central del grupo, por lo que, lo mismo que la mediana, se pres-
cinde tambin de las puntuaciones extremas.
El concepto es claro y podemos verlo en la distribucin de frecuencias de
la tabla 10.
Hemos dividido la muestra en cuatro partes con idntico nmero de suje-
tos (el 25% en cada una); los lmites de estas cuartas partes se denominan
cuartiles:
Lmite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3) = 12.5
Lmite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1) = 6.5

Tabla 10

Es decir, y dicho de manera ms sencilla, entre 6.5 y 12.5 est el 50% cen-
tral de los sujetos; la desviacin semi-intercuartlica (Q) ser:

[22] en este ejemplo tendramos

Este ejemplo est puesto para explicar el concepto; lo normal es que los l-
mites del 50% central no estn tan claros a simple vista; el clculo exacto lo
veremos al tratar de los percentiles, pues se trata simplemente de calcular por
interpolacin los percentiles 25 y 75, como se explica en su lugar.

59
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

2.5. La amplitud o recorrido

La amplitud o recorrido (ambos trminos son usuales)7 es la medida de


dispersin que se utiliza cuando la moda es la medida de tendencia central.
Su clculo es muy simple:
Amplitud = (puntuacin ms alta menos la puntuacin ms baja) + 1 [23]
En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12
Observaciones sobre la amplitud:
1. Sumamos una unidad a la diferencia entre las puntuaciones extremas
(se trata de una convencin aceptada) porque nos situamos en los l-
mites extremos de ambas puntuaciones: el lmite superior de 15 sera
15.5 y el lmite inferior de 4 sera 3.5; la amplitud ser pues 15.5 - 3.5 =
12 ( 15 - 4 + 1).
2. Como indicador de dispersin es una medida dbil, pues se basa en s-
lo dos puntuaciones, que adems pueden ser atpicas, poco represen-
tativas, y grupos semejantes pueden parecer muy distintos en disper-
sin, simplemente porque en algn grupo hay uno o dos sujetos con
puntuaciones inusualmente altas o bajas.

2.6. Relacin entre la amplitud y la desviacin tpica

En muestras relativamente grandes (de 500 o 600 sujetos) la amplitud o


recorrido suele comprender unas seis desviaciones tpicas (entre -3 y +3),
por lo que un clculo aproximado de la desviacin tpica consiste en dividir
la amplitud entre seis. Segn va bajando N (nmero de sujetos, tamao de la
muestra) la amplitud comprende menos desviaciones tpicas y si sube N
la amplitud suele comprender ms de seis desviaciones.
Tabla 11

7
A veces, y de manera errnea, se denomina rango a la amplitud, por confusin con
el ingls (amplitud o recorrido en ingls es range). El trmino rango significa propiamen-
te nmero de orden (rank en ingls).

60
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

En la tabla 11 tenemos cuntas desviaciones tpicas podemos esperar


que comprenda la amplitud: dividiendo la amplitud por esa cantidad (x) ten-
dramos una aproximacin del valor de la desviacin tpica8.
Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que
la amplitud o recorrido equivalga aproximadamente a 3.1 desviaciones, y con
1000 sujetos a 6.5 desviaciones.
Esta tabla no es til para calcular la desviacin tpica; en primer lugar porque
es muy sencillo calcular el valor exacto de la desviacin (utilizando un progra-
ma de ordenador o una calculadora con programacin estadstica) y porque,
como ya hemos indicado, la amplitud es una medida muy pobre que depende
solamente de dos puntuaciones que adems pueden ser atpicamente altas o
bajas. Sin embargo el hacer una estimacin del valor de la desviacin a partir de
la amplitud puede ser ocasionalmente til por varias razones.
Para hacernos una idea de por dnde puede ir el valor aproximado de la
desviacin tpica si en un momento dado no disponemos de medios para cal-
cularla directamente,
Para ponernos sobre la pista de algn error de bulto en el clculo,
Para apreciar si la desviacin tpica exacta y bien calculada es mucho ma-
yor o menor de lo que cabra esperar en un grupo de un determinado tama-
o. Si la desviacin tpica calculada es apreciablemente mayor de la esperada,
podemos comprobar si se debe a unos pocos sujetos con puntuaciones extre-
mas muy atpicas.

3. MEDIDAS DESCRIPTIVAS BSICAS: RESUMEN

de tendencia central de dispersin

La media es el centro de gravedad de La desviacin tpica ser mayor en la


la distribucin: la suma de todas las medida en que las puntuaciones indi-
diferencias individuales con respecto viduales se aparten ms de la media
a la media es igual a cero. (X-X). La desviacin tpica elevada al
cuadrado (s2) se denomina varian-
za, tambin se utiliza como medida
de dispersin y tiene propiedades es-
pecficas que la hacen muy til.

8
La tabla est tomada de Guilford y Fruchter (1973, pg. 73).

61
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

de tendencia central de dispersin

En el clculo de la media y de la desviacin tpica intervienen todas las puntua-


ciones individuales; son las dos medidas ms estables: si calculamos estas me-
didas en una serie de muestras de la misma poblacin, fluctan menos que las
dems medidas. Permiten adems otras muchas operaciones de gran inters y
son en principio las medidas descriptivas preferibles.

La mediana es igual al Percentil 50; es


la puntuacin que divide la distribu-
cin en dos partes iguales: la mitad La desviacin semi-intercuartlica
de los sujetos tiene una puntuacin (Q) se calcula solamente con el 50%
superior a la mediana y la otra mitad central de la distribucin: es la media
una puntuacin inferior. de dos puntuaciones: la que corres-
En distribuciones asimtricas o con ponde al percentil 75 (deja por arriba
puntuaciones extremas muy atpicas el 25% de los sujetos) y la que corres-
(muy extremas) puede dar una idea ponde al percentil 25 (deja por deba-
mejor que la media ya que la media jo el 25% de los sujetos).
puede verse afectada por puntuacio- Como quedan excluidos en el clculo
nes muy extremas y no representativas. el 25% superior y el 25% inferior, tam-
La mediana en cambio no se ve altera- poco se ve afectada por las puntuacio-
da por las puntuaciones extremas. nes extremas.

Ambas medidas, media- 1 en principio cuando se trata de puntuaciones


na y Q son las apropia- puramente ordinales;
das: 2 siempre que se prefiera prescindir de los suje-
tos extremos porque distorsionan la informacin.

Ejemplos de uso de la mediana y Q: en el proceso de construccin de escalas


de Thurstone; los tems son evaluados por jueces y para evitar que pesen de-
masiado juicios extremos, se calculan la mediana y Q (en vez de la y ?) en ca-
da tem. Tambin se utilizan a veces en los cuestionarios de evaluacin del pro-
fesorado, cuando interesa la opinin del centro de la clase y prescindir de los
extremos.
La mediana y los percentiles 25 y 75 (Q1 y Q3, o primer y tercer cuartil) permi-
ten adems hacer determinadas representaciones grficas. Los percentiles se
calculan en estos casos por interpolacin.

62
MEDIDAS DESCRIPTIVAS BSICAS DE TENDENCIA CENTRAL Y DE DISPERSIN

de tendencia central de dispersin

Moda: puntuacin con una Amplitud = [valor ms alto - valor


frecuencia mayor ms bajo] +1

La moda es simplemente la puntua- La amplitud (o recorrido, y mal lla-


cin con la mayor frecuencia, la ob- mada a veces rango) es igual a la dife-
tenida por el mayor nmero de suje- rencia entre la puntuacin ms alta y
tos. Puede haber varias puntuaciones la puntuacin ms baja. Habitualmen-
te se suma una unidad a esta diferen-
con esta caracterstica (distribuciones
cia porque se calcula a partir de los l-
bimodales, plurimodales). Como me-
mites de los valores extremos (si las
dida de tendencia central es poco ri-
puntuaciones extremas son, por
gurosa, sobre todo en distribuciones
ejemplo, 20 y 5, la amplitud no es
asimtricas. Se basa en las puntuacio- igual a 20 - 5 sino igual a 20.5 - 4.5 =
nes de dos sujetos que si son muy ex- [(20 - 5) + 1]. Es una medida muy in-
tremas y atpicas desvirtan la infor- estable porque depende solamente
macin. de los dos valores extremos. En
La moda y la amplitud son las medi- muestras semejantes la amplitud pue-
das menos rigurosas aunque pueden de ser muy diferente; basta que haya
tener su inters descriptivo. sujetos muy atpicos en los extremos.

En la distribucin normal (simtrica, acampanada) media, mediana y moda


coinciden en un idntico valor.

63
CAPTULO 3
LA DISTRIBUCIN NORMAL

1. APROXIMACIN INTUITIVA A LA DISTRIBUCIN NORMAL

Posiblemente ya estamos familiarizados con la denominada distribucin


normal (o curva normal): la distribucin simtrica y de forma acampana-
da que nos indica que la mayora de los sujetos (u objetos) de una poblacin
determinada no se aparta mucho de la media: en la medida en que los sujetos
se van apartando ms de la media (porque se pasan o porque no llegan) van
siendo menos y menos.
Si representamos esta distribucin mediante un histograma simplificado,
tendramos algo parecido a lo que vemos en la figura 1.
Figura 1
Los sujetos que se van
apartando ms y ms
de la media van
siendo menos
La mayora
de los sujetos
se encuentran
prximos a la El apartarse
media de mucho de la
su grupo media va siendo
ya muy raro

65
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Lo primero que debemos captar es que la distribucin normal nos remite


a nuestra propia experiencia. Si nos fijamos en la estatura de la gente que nos
encontramos por la calle, vemos que la mayora de la gente es de estatura
normal, y aqu llamamos normal a lo ms frecuente; de hecho si vemos a al-
guien que se aparta mucho de la media (de lo habitual) no pasa desapercibi-
do y nos llama la atencin. En la experiencia de cada da, normal y frecuen-
te, aplicado a cualquier rasgo, son expresiones casi sinnimas. Cuando
decimos que alguien es muy abierto y sociable, lo que queremos decir es que
es ms abierto y sociable de lo que es normal, de lo que solemos encontrar
habitualmente, de la misma manera que decimos que una persona es muy ca-
llada cuando habla mucho menos que la mayora de la gente.
Casi sin darnos cuenta estamos haciendo juicios relativos a lo que es nor-
mal encontrar en la generalidad de las personas: el mucho y el poco, o el
muy, sobre todo aplicados a las caractersticas de las personas, dependen de
lo que es ms frecuente encontrar en nuestro medio. Si el muy abunda mu-
cho, deja de ser muy para pasar a ser normal o frecuente y ya no merece el
muy que solemos reservar para lo excepcional que viene a ser lo raro o infre-
cuente.
Estos juicios, y esta distribucin normal, son relativos a cada poblacin:
un pigmeo de una estatura normal, cercana a la media de su poblacin y
muy frecuente en su propio grupo, pasa a ser muy bajito y excepcional si lo
incluimos en una poblacin de escandinavos: se aparta mucho de la media de
esa poblacin y ser muy difcil encontrar un escandinavo con esa estatura.
Sin embargo ese pigmeo tiene una estatura normal, que no se aparta mucho
de la estatura media de su grupo. En ambos grupos, escandinavos y pigmeos,
encontraremos una distribucin normal en estatura, aunque las medias de
los dos grupos sean muy distintas.
Esta consideracin (la normalidad es relativa a cada poblacin) nos lle-
var ms adelante a una serie de aplicaciones relevantes en la investigacin
psicolgica y educacional, no solamente para poder valorar si un resultado o
dato individual es atpico (si se aparta mucho de lo normal o esperado), sino,
por ejemplo, para determinar si unos sujetos que han pasado por una deter-
minada experiencia pueden considerarse normales en la poblacin de los
que no han pasado por esa experiencia (en ese caso es posible que esa expe-
riencia haya sido intil).
La distribucin normal que representamos mediante la curva normal,
es un modelo matemtico terico al que de hecho tienden a aproximarse
las distribuciones que encontramos en la prctica: estadsticas biolgicas,
datos antropomtricos, sociales y econmicos, mediciones psicolgicas y
educacionales, errores de observacin, etc.; es un modelo muy til por su
relacin con el clculo de probabilidades que nos va a permitir hacer infe-
rencias y predicciones.

66
LA DISTRIBUCIN NORMAL

2. CARACTERSTICAS Y PROPIEDADES DE LA DISTRIBUCIN NORMAL

El hecho de que las magnitudes segn se van apartando de la media (en


cualquiera de las dos direcciones) van siendo mucho menos frecuentes lo ex-
presamos grficamente mediante la curva normal, que es la representacin
grfica de una funcin matemtica que nos indica la probabilidad de encon-
trar (de que se d por azar, por factores aleatorios) cualquier magnitud (o
puntuacin) si conocemos en cuntas desviaciones tpicas se aparta de la me-
dia de su distribucin. La diferencia con respecto a la media, medida en des-
viaciones tpicas, es lo que llamamos una puntuacin tpica (z = X - X/s): a
cada puntuacin tpica le corresponde una probabilidad de ocurrencia y es-
ta relacin entre diferencia con respecto a la media y probabilidad nos va a
ser de la mxima utilidad; ampliamos la explicacin en el apartado siguiente.
La distribucin normal es simtrica, unimodal, de forma acampanada
(figura 2); su altura mxima (que indica el mayor nmero de sujetos) se en-
cuentra en la media, que coincide con la moda y la mediana (expresado en
trminos ms acadmicos, la ordenada mxima (Y) corresponde a una abs-
cisa (X) igual a la media).

Figura 2

La distribucin normal es continua, vlida para cualquier valor de X (para


cualquier puntuacin o magnitud, representada en el eje horizontal de las
abscisas). En la figura 2 estn sealados los puntos que corresponden a la
media (0) y a tres desviaciones tpicas por encima y por debajo de la media.
La distribucin normal es asinttica, es decir, los extremos de la curva se
extienden indefinidamente en ambas direcciones; la curva no toca el eje (ho-

67
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

rizontal) de las abcisas (siempre cabe la posibilidad de una magnitud muy ex-
trema)1.
En la prctica se considera que todos los casos estn comprendidos entre
-3 y +3 desviaciones tpicas; las probabilidades de que un valor exceda estos
lmites son del .0026% (2.6 por mil); la amplitud de la distribucin es por lo
tanto de unas 6 desviaciones tpicas (a efectos prcticos, aunque esto no es
exacto y depende del nmero de sujetos).
Los puntos de inflexin de la curva (puntos A y B en la figura 2) estn a
una desviacin tpica de la media.
Atendiendo al grado de apuntamiento o curtosis que presenta, decimos de
la curva normal que es mesocrtica (representada por la lnea continua en la fi-
gura 3). Para determinar la curtosis de cualquier otra distribucin la compara-
mos con este modelo (figura 3), y as calificamos a las distribuciones ms apun-
tadas que la normal leptocrticas y a las menos apuntadas platicrticas2.

Figura 3

Mesocrtica Leptocrtica Platicrtica

3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIN NORMAL

Ya hemos indicado que si conocemos en cuntas desviaciones tpicas se


aparta un sujeto (o una observacin cualquiera) de la media, podemos cono-

1
Asinttica viene del griego asmptotos, (asumptwtos que quiere decir que no
coincide, que no toca.
2
Curtosis (kurtwsis) significa en griego curvatura; los prefijos griegos leptos, me-
sos y platys significan respectivamente delgado, medio y ancho.

68
LA DISTRIBUCIN NORMAL

cer la probabilidad que tiene de ocurrir. La proporcin (o porcentaje si mul-


tiplicamos por 100) de casos esperados entre dos puntuaciones tpicas deter-
minadas (o por encima o por debajo de cualquier puntuacin tpica) es siem-
pre el mismo. Vemos en la figura 4 que, por ejemplo, entre la media (z = 0)
y una desviacin tpica (z = + - 1) se encuentra el 34.13% de los casos, o, di-
cho de otra manera, la probabilidad de que una observacin se encuentre en-
tre la media y una desviacin tpica es de .34

Figura 4

34.13% 34.13%

2.15% 2.15%
13.59% 13.59%

-3 -2 -1 0 +1 +2 +3

La distribucin normal nos permite conocer la probabilidad de que se d


una determinada magnitud expresada en puntuaciones tpicas. Si nos fijamos
en la figura 4, vemos que la probabilidad de que se d una puntuacin supe-
rior a z = 2 es el 2.15% (y otro 2.15% de probabilidades de que se d una pun-
tuacin inferior a z = -2); la probabilidad de encontrar una puntuacin supe-
rior a z = 1 es del 15.74% (13.59 + 2.15), etc.
Estas probabilidades las tenemos en las tablas de la distribucin nor-
mal, donde podemos ver la proporcin de casos que caen por encima o
por debajo de cualquier puntuacin tpica (o, lo que es lo mismo, la proba-
bilidad de obtener una puntuacin cualquiera por encima o por debajo de
cualquier puntuacin tpica o entre dos puntuaciones tpicas).
Antes de acercarnos a las tablas y aprender a manejarlas es til observar las
figuras 5 y 6. Los porcentajes puestos en estas figuras son slo aproximados
(eliminando decimales); para muchos usos estas aproximaciones son un dato
suficiente; en cualquier caso estas figuras nos ayudan en un primer momento
a comprender la utilidad de la distribucin normal y a utilizar las tablas en las
que encontraremos los valores exactos.

69
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Figura 5
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LMITES DE LA CURVA NORMAL

En la figura 5 tenemos:
a) La base (el eje de las abscisas, X) la hemos dividido en segmentos que
comprenden media desviacin tpica (.5s). El punto central corres-
ponde a la media y tiene obviamente un valor de cero (no se aparta de
la media, coincide con la media, z = 0).
b) Vemos una serie de filas divididas en segmentos con distintos criterios,
pero utilizando la desviacin tpica como unidad; y en cada segmento
encontramos el porcentaje (aproximado) de casos que podemos es-
perar.

Por ejemplo, si nos fijamos en algunas de estas filas:


En la primera fila (comenzando por debajo) vemos que entre la media y
media desviacin tpica (entre 0 y .5 s; la tabla es simtrica) cae aproxi-
madamente un 20% de los casos, entre 1s y 1.5 s tenemos el 9 % de los ca-
sos, y por encima o por debajo de 2 s el 2% de los casos (tambin podemos
decir que la probabilidad de obtener una puntuacin tpica superior a 2 es el
de 2%, etc.).
En la segunda fila entre -.5 s y +.5 s tenemos el 38% de los casos, por en-
cima o por debajo de 1.5 s cae el 7 % de los casos.

70
LA DISTRIBUCIN NORMAL

En la tercera fila tenemos las mismas proporciones (redondeadas) ya vis-


tas en la figura 4 pues los segmentos son de 1s
En la quinta fila vemos otro criterio para dividir la distribucin: entre -.25s
y +.25 s (en el centro de la distribucin) tenemos el 20% de los casos, entre
.+25 s y +.75 s (lo mismo que entre -.25 s y -.75 s) tenemos el 17% de los ca-
sos; etc. Cada segmento comprende .5 s (menos los dos extremos) y tene-
mos en total nueve agrupaciones; si numeramos estas agrupaciones de 1 (co-
menzando por la derecha) a 9, en su momento veremos que se trata de los
estaninos o eneatipos, unas puntuaciones muy utilizadas.
En la sexta fila (o cuarta por arriba) vemos que por debajo de 2 s tenemos
el 2% de los casos, y por encima el 98% de los casos, etc.
Esta figura 5 no es de gran utilidad prctica, pero nos ayuda a entender la
distribucin normal y las tablas correspondientes que encontraremos en los
textos.
Figura 6
PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS
LMITES DE LA CURVA NORMAL

15% 70% 15%

5% 90% 5%

2.5% 95% 2.5%

-1.96 -1.65 -1.04 +1.04 +1.65 +1.96

La figura 6 es anloga a la figura 5 aunque est hecha con otros criterios;


si nos fijamos con un poco de atencin podemos ver:
El 70% central de los casos cae entre 1.04 s; y las probabilidades de ob-
tener unas puntuaciones mayores que +1.04 s 1.04 s son del 15%.

71
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El 90% central de los casos caen entre s 1.65 s; y las probabilidades


de obtener unas puntuaciones mayores que +1.65 s o 1.65 s son del
5%; naturalmente las probabilidades de encontrar una puntuacin que
supere 1.65 s independientemente del signo son del 10% (un 5% en
cada extremo de la distribucin).
El 95% central de los casos caen entre 1.96 s (1.957 con ms exacti-
tud); y las probabilidades de obtener unas puntuaciones mayores que
+1.96 s o 1.96 s son del 2.5%; y las probabilidades de encontrar una
puntuacin que supere 1.96 s independientemente del signo son del
5% (un 2.5% en cada extremo de la distribucin).
El 99% de los casos los tenemos entre 2.57 s y solamente un 1% de
los casos supera este valor (.5% en cada extremo de la distribucin).

De todos estos valores hay dos que encontraremos con frecuencia en el es-
tudio de los anlisis estadsticos; son 1.96 y 2.57; la probabilidad de encontrar va-
lores superiores (independientemente del signo) son respectivamente el 5% y el
1%, que son probabilidades aceptadas como lmite convencional de lo probable.

4. CMO DIBUJAR LA CURVA NORMAL

La altura (Y, y que representa la frecuencia o nmero de casos) en cual-


quier curva normal y en cualquiera de sus puntos (los valores de X, que repre-
sentan la magnitud) guarda siempre una determinada proporcin con la al-
tura mxima (que corresponde a la media). Esos puntos estn determinados
en puntuaciones tpicas (z): conocida una z, sabemos qu altura tiene la cur-
va en ese punto con respecto a la altura mxima (o mayor frecuencia) que co-
rresponde a de la media (z = 0).

Figura 7
100%
88,2%

88,2%
13,5%

13,5%
60,7%

60,7%
4,4%

4,4%
32,5%

32,5%
1,1%

1,1%

-3 -2,5 -2 -1,5 -1 -0,5 0 0,5 1 1,5 2 2,5 3

72
LA DISTRIBUCIN NORMAL

En la figura 7 se dan las alturas de algunos puntos concretos; son unos


puntos de referencia suficientes para dibujar la curva. Si por ejemplo la altu-
ra mxima es de 8 cm (la altura absoluta se escoge arbitrariamente), la altura
correspondiente a +1 y -1 desviaciones tpicas (los puntos de inflexin) ser
el 60.7% de 8cm, que es igual a 4.85 cm ([8/100]x 60.7).

5. CMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIN NORMAL

Las tablas de la distribucin se pueden presentar de maneras distintas y


hay que examinarlas en cada caso, pero la informacin es siempre la misma.
Lo que habitualmente interesa conocer es la probabilidad de obtener una
puntuacin mayor o menor que una determinada puntuacin tpica.
Recordamos que una puntuacin tpica indica la distancia o diferencia de
una puntuacin (u observacin) con respecto a la media expresada en desvia-
ciones tpicas. La media corresponde siempre a z = 0; las puntuaciones tpi-
cas superiores a la media tienen el signo ms y las puntuaciones tpicas infe-
riores a la media tienen el signo menos.
Cmo se utilizan las tablas de la distribucin normal lo veremos con unos
ejemplos3.

5.1. Puntuaciones tpicas positivas (superiores a la media)

Por ejemplo z = +1.64


1. Lo primero que tenemos que hacer es imaginar o dibujar una curva
normal (figura 8) en la que la media (z = 0) divide la distribucin en
dos reas de idntico tamao; por encima de la media cae el 50% de los
casos y por debajo tenemos el otro 50% de los casos.

Figura 8

3
Las tablas de la distribucin normal se encuentran al final de esta publicacin.

73
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

2. Como z = +1.64 es superior a la media, trazamos una lnea por dnde


ms o menos cae z = +1.64, lo que importa es dibujarla a la derecha de la
media (figura 9) que es donde estn todos los valores positivos (figura 9).
Figura 9

Observamos que el rea total de la distribucin queda dividida en dos par-


tes, rea mayor y rea menor. Al menos estas reas mayor y menor suelen
figurar en todas las tablas.
Vamos a las tablas para ver los valores que corresponden a z = 1.64:

Puntuacin rea de la rea de la


tpica parte mayor parte menor
1.64 .9495 .0505

Cmo se interpreta:
rea de la parte mayor.
a) La proporcin de casos que caen por debajo de + 1.64 es de .9495 o
(multiplicando por 100) el 94.95 % de los casos tienen una puntuacin
inferior a z = + 1.64.
b) Si redondeamos los decimales tenemos que una puntuacin de z = +
1.64 supera al 95 % de los casos o, lo que es lo mismo, que en la distri-
bucin normal una puntuacin tpica de +1.64 corresponde al Per-
centil 95.

rea de la parte menor.


a) La proporcin de casos que caen por encima de + 1.64 es de .0505 o
(multiplicando por 100 y redondeando) el 5 % de los casos tienen una
puntuacin superior a z = + 1.64.

74
LA DISTRIBUCIN NORMAL

b) La probabilidad de obtener una puntuacin tpica superior a + 1.64


es de .05 (slo el 5 % de los casos superan a z = + 1.64), o, lo que es lo
mismo, en la distribucin normal una puntuacin tpica de -1.64 co-
rresponde al Percentil 5.

5.2. Puntuaciones tpicas negativas (inferiores a la media)

Por ejemplo z = -1.64 (figura 10).


Como z = -1.64 es inferior a la media (= 0), trazamos una lnea por dnde
ms o menos cae z = -1.64, lo que importa ahora es dibujarla a la izquierda de
la media (z = 0) que es donde estn todos los valores negativos, como ya he-
mos visto en la figura 4.

Figura 10

Ahora las reas mayor y menor estn invertidas (la curva es simtrica).
Como en las tablas las puntuaciones tpicas estn sin signo ms o menos, los
valores son los mismos.

Puntuacin rea de la rea de la


tpica parte mayor parte menor
1.64 .9495 .0505

Lo que va a variar cuando la puntuacin tpica es negativa (inferior a la


media) es la interpretacin de las reas mayor y menor.

75
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

rea de la parte mayor


El 95 % de los casos caen por encima de z = 1.64, o la probabilidad de
obtener una puntuacin superior a 1.64 es de .95 (o del 95 %).
rea de la parte menor.
a) La probabilidad de obtener una puntuacin tpica inferior a 1.64 es
de .05 (o del 5 %)
b) Una puntuacin tpica igual a 1.64 supera al 5 % de los casos, o, lo que
es lo mismo, en la distribucin normal una puntuacin tpica de z =
1.64 equivale al Percentil 5.
Las interpretaciones ms tiles y frecuentes son las que estn puestas en
cursiva:
1. Probabilidad de obtener una puntuacin tpica superior si es positiva o
inferior si es negativa. En ambos casos nos fijamos en el rea menor.
2. Percentil equivalente a cualquier puntuacin tpica, o tanto por ciento
de casos que caen por debajo porque son superados por esa puntua-
cin tpica:
percentil
Si la puntuacin tpica es positiva rea mayor
Si la puntuacin tpica es negativa rea menor

5.3. Puntuaciones tpicas positivas o negativas (en trminos absolutos)

Con frecuencia nos interesa conocer las probabilidades de obtener una


puntuacin mayor en trminos absolutos (superiores con signo ms e infe-
riores con signo menos).

Figura 11

76
LA DISTRIBUCIN NORMAL

En estos casos multiplicamos por dos el rea menor, porque nos fijamos
en los dos extremos de la distribucin (figura 11).
La probabilidad de obtener una puntuacin superior a 1.64 en trminos
absolutos es de .10 o del 10 %; un 5 % por encima de +1.64 y otro 5 % por de-
bajo de 1.64.
Un caso de especial inters en estadstica inferencial es el de la tabla 12,
que corresponde a z = 1.96

Figura 12

La probabilidad de encontrar una puntuacin superior a 1.96 (positiva o nega-


tiva, en trminos absolutos) es del 5% (2.5% + 2.5%). El apartarse en 1.96 desvia-
ciones tpicas de la media (independientemente del signo) se considera ya muy
inusual, muy poco probable; en muchos planteamientos de investigacin los re-
sultados convencionalmente normales (el 95%) se sitan entre 1.96 y +1.96.

6. BREVE NOTA HISTRICA4

La distribucin normal ha sido descubierta y estudiada por diferentes per-


sonas de manera independiente, y no siempre se le ha atribuido a la misma
persona. En lo que podramos llamar historia de la distribucin normal pode-
mos destacar estos nombres.
1. Abraham De Moivre (ltimo tercio del siglo XVII y primera mitad del
XVIII) es el primer autor en publicar una explicacin de la distribucin

4
Sobre la historia de la Distribucin Normal puede verse Lane, David (2007) (en la
referencias bibliogrficas; direccin de Internet).

77
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

normal (en 1733) tal como la entendemos ahora5. El objetivo y el con-


texto son los juegos de azar (probabilidades de ganar), aunque la
preocupacin de De Moivre era ms teolgica (el aparente desorden
del Universo es consistente con un plan inteligente; el caos es aparen-
te porque tiene sus normas, etc.).
2. El marqus de Laplace y Carlos Federico Gauss (matemticos y astr-
nomos; ambos entre los siglos XVIII y primera mitad del XIX; Gauss fue
un prodigio de las matemticas) tambin estudiaron y desarrollaron la
distribucin normal (tambin denominada campana de Gauss), sobre
todo, aplicada a la observacin astronmica. Gauss denomin a esta
distribucin distribucin de errores (en sus observaciones sobre la r-
bita de los asteroides); de Gauss es tambin el concepto de error tpi-
co de la media.
3. Quetelet (astrnomo belga) y Galton (ambos ya en el siglo XIX) son los
primeros en descubrir y estudiar las aplicaciones de la distribucin nor-
mal a las medidas de antropometra (altura, etc.) y a los fenmenos so-
ciales, y de ah se pas a otro tipo de medidas (como de inteligencia y
a otras ya en el campo de la psicologa, educacin, etc.).
4. Finalmente a Karl Pearson (1857-1936) le debemos el trmino de cur-
va normal.

ANEXO: L A DISTRIBUCIN NORMAL EN INTERNET

En Internet existen varios programas sencillos en los que dada una puntuacin t-
pica nos dan las probabilidades exactas de obtener una puntuacin tpica:
a) inferior (percentil)
b) superior,
c) entre dos puntuaciones tpicas (la misma con distinto signo).
d) superior en trminos absolutos (fijndonos en las dos reas menores, como
en las figura 11 y 12)

Un direccin muy cmoda es la de Surfstat.australia: an online text in introduc-


tory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el
men Tables y escogemos Standard Normal (hay otras opciones) que presenta grfi-
camente las diversas opciones (figura 13).

5
De Moivre deriva la distribucin normal como una expansin de la distribucin bi-
nomial.

78
LA DISTRIBUCIN NORMAL

Figura 13

a b c d

0 Z 0 Z -Z 0 Z -Z 0 Z

z value probability

Basta sealar la opcin deseada en las representaciones de la distribucin normal


e introducir el valor de la puntuacin tpica (z value).
En probability tendremos la probabilidad de que se d una puntuacin en el rea
sombreada (o tanto por ciento si multiplicamos por 100).
Las dos opciones ms frecuentes las vemos en la figura 14

Figura 14

Probabilidad de obtener una puntuacin inferior


(cualquiera que sea el signo). Si multiplicamos por 100 y
eliminamos los decimales tenemos el percentil que
0 Z corresponde a una puntuacin tpica en la distribucin
normal.

Probabilidad de obtener una puntuacin superior


independientemente del signo. Se utiliza habitualmente
en estadstica inferencial para determinar si es muy
-Z 0 Z improbable que un resultado sea casual.

79
CAPTULO 4
TIPOS DE PUNTUACIONES INDIVIDUALES

1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIN

La media, la desviacin tpica, y otros estadsticos, son medidas grupales:


nos describen cmo es una muestra, pero en principio no nos dicen nada so-
bre cada sujeto concreto. Ahora nos ocupamos de los sujetos individuales
que han respondido a un test de personalidad o de cualquier otro tipo, o han
hecho un examen Qu podemos decir de cada sujeto individual? Qu in-
formacin til e interpretable se puede dar de cada sujeto?1
Una puntuacin directa2 es el dato aportado directamente por el instru-
mento de medida, por ejemplo:
Una altura de 1.65 m.,
Un total de 25 respuestas correctas en un test objetivo
Un 5, que es como se ha codificado la respuesta muy de acuerdo en un
cuestionario
Un 32, que es la suma de las respuestas a una escala de actitudes

El smbolo habitual de las puntuaciones directas es X (equis mayscula).


Estas puntuaciones directas no son siempre fciles de interpretar, y tam-
poco son comparables entre s a no ser que procedan de un instrumento si-
milar. Por ejemplo no es lo mismo X = 20 o 20 respuestas correctas en un test
de 25 preguntas, que X = 20 o 20 respuestas correctas en un test de 50 pre-
guntas. Tampoco es lo mismo responder correctamente a 20 preguntas fci-
les que a 20 preguntas difciles.
1
Tanto este captulo como el de la fiabilidad son importantes en psicometra.
2
En ingls raw store tambin se traduce como puntaje bruto (en Amrica Latina).

81
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Las puntuaciones directas necesitan con frecuencia algn tipo de transfor-


macin para que aporten informacin til o simplemente para poder inter-
pretarlas con facilidad, o para poder comparar resultados individuales obteni-
dos con instrumentos distintos.
Es muy til tanto entender estas transformaciones como saber hacerlas
por estas razones:
a) Para poder interpretar adecuadamente las normas de los tests. Estas
normas o baremos son las claves para interpretar los resultados indivi-
duales; el usuario de los tests debe estar familiarizado con estos siste-
mas de transformacin e interpretacin de puntuaciones individuales.
b) No se trata ya solamente de poder interpretar adecuadamente las nor-
mas de un test, sino tambin de construirlas, es decir, de preparar las
claves de interpretacin para otros usuarios. Aunque los tests vienen ya
con sus normas, el preparar este tipo de normas o claves de interpreta-
cin puede ser necesario por una serie de razones profesionales:
1. En tests o escalas de construccin propia;
2. Los tests publicados vienen con sus propias normas de interpreta-
cin (en el manual del test); estas normas estn hechas a partir de
los datos obtenidos en una determinada muestra, pero si se utiliza
el test con una muestra muy distinta, puede ser necesario rehacer
esas normas con esa nueva muestra, ya que la muestra original pue-
de no ser la adecuada como trmino de comparacin en un nuevo
grupo; lo mismo sucede cuando un test se adapta (o se traduce) pa-
ra ser utilizado en otros mbitos culturales.
3. Con el paso del tiempo las normas de interpretacin pueden que-
dar obsoletas debido a diversos cambios sociales (puede variar in-
cluso la capacidad lectora media, o las actitudes sociales, etc.); ha-
br que preparar normas actualizadas con una nueva muestra
normativa (suele estimarse que la duracin media de las normas de
un test puede estar en torno a 10 aos).
c) Estas transformaciones de las puntuaciones directas tambin pueden
ser tiles en planteamientos de evaluacin o calificacin. No deben en-
tenderse o interpretarse estas modalidades de transformacin de las
puntuaciones directas como sistemas o modos de calificacin, pero la
informacin que aportan puede ser tambin til con esta finalidad.

2. PROPORCIN DE RESPUESTAS CORRECTAS

En el caso de tests de rendimiento (pruebas objetivas) una transforma-


cin sencilla de las puntuaciones directas consiste en calcular la proporcin

82
TIPOS DE PUNTUACIONES INDIVIDUALES

(porcentaje si multiplicamos por 100) de respuestas correctas. 20 respuestas


correctas de un total de 25 es igual al 80 % de respuestas correctas (20/25 =
.80); en cambio 20 respuestas correctas de un total de 50 es igual al 40 % de
respuestas correctas (20/50= .40).
Esta proporcin de respuestas correctas aporta una informacin sobre ca-
da sujeto que no es relativa al grupo y es especialmente til en exmenes y
otras pruebas de rendimiento acadmico (pruebas tipo test), cuando va a se-
guir una calificacin. Pero no siempre hay respuestas correctas en sentido
propio (por ejemplo en un test de personalidad o en una escala de actitudes).
Otros tipos de puntuaciones que son relativas al grupo (como los per-
centiles) son ms tiles en otro tipo de medidas (tests de variables no cogni-
tivas) y en cualquier caso, incluso en tests de rendimiento acadmico, apor-
tan un tipo distinto de informacin que con frecuencia es de interpretacin
ms til y sencilla, o la nica apropiada.

3. PUNTUACIONES DIFERENCIALES

Se denominan puntuaciones diferenciales a la diferencia entre cada pun-


tuacin directa y la media de su distribucin.
Un smbolo frecuente de estas puntuaciones es x (equis minscula) y
tambin, para evitar confusiones con el smbolo de las puntuaciones directas
(X, equis mayscula), a veces se utiliza d:
x = d = (X -X)
Las puntuaciones superiores a la media tendrn signo positivo, y las infe-
riores tendrn signo negativo. Estas puntuaciones no suelen utilizarse como
expresin habitual de resultados individuales, pero intervienen en el clcu-
lo de las puntuaciones tpicas (y de la desviacin tpica como ya se vio en su
lugar).

4. L AS PUNTUACIONES TPICAS

4.1. Qu son las puntuaciones tpicas

Una puntuacin tpica expresa en cuntas desviaciones tpicas se apar-


ta una puntuacin individual de la media de su grupo.
Las puntuaciones tpicas son por lo tanto puntuaciones diferenciales (dife-
rencias con respecto a la media) expresadas tomando como unidad la desvia-
cin tpica (s). En las puntuaciones tpicas s se puede decir que hay una uni-
dad, que es la desviacin tpica.

83
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El smbolo de las puntuaciones tpicas es z (zeta minscula); tambin


suelen denominarse simplemente puntuaciones zeta y a veces puntuaciones
estandarizadas (standard score en ingls). Su frmula es:
Puntuacin obtenida-media
Puntuacin tpica (z) =
desviacin tpica

Y en smbolos convencionales [1]


El valor de z indica por lo tanto cuntas desviaciones tpicas contiene la di-
ferencia X - X (a cuntas desviaciones tpicas equivale esa diferencia); la des-
viacin tpica es ahora nuestra unidad de medicin; el dato individual lo ex-
presamos en trminos de desviaciones tpicas por encima o por debajo de la
media.
Por ejemplo imaginemos los resultados de tres sujetos (suponemos que la
muestra es mayor) en un examen; la media es X = 10 y la desviacin tpica es
s = 2 (tabla 1)

Tabla 1

La puntuacin directa de estos tres sujetos ha quedado transformada en


un nuevo valor.
En este ejemplo ya podemos ir viendo que:
a) Si un sujeto tiene un resultado igual a la media, su puntuacin tpica
ser igual a cero; al restar a todos la media, el que tenga como resulta-
do personal la media se queda en cero.
b) Todos los que tengan una puntuacin directa superior a la media, ten-
drn una puntuacin tpica con signo positivo;
c) Todos los que tengan una puntuacin directa inferior a le media, ten-
drn una puntuacin tpica con signo negativo.

84
TIPOS DE PUNTUACIONES INDIVIDUALES

Todos los datos quedan por lo tanto distribuidos en torno a una media =
0. El orden de los sujetos es naturalmente el mismo (el primero sigue siendo
el primero, etc.), pero los valores absolutos son muy distintos.
Por lo general estos valores, de signo ms y signo menos, tienen decimales
(se suelen conservar dos decimales) y los valores extremos tienden a estar en-
tre -3 y + 3 cualquiera que sea la magnitud de las puntuaciones originales; es
muy difcil superar estos valores por encima o por debajo como se ha visto al
tratar de la distribucin normal.
Ya podemos ir intuyendo la utilidad de estas puntuaciones tpicas, por ejem-
plo para comparar y valorar resultados individuales. De todas las puntuaciones
derivadas, las puntuaciones tpicas son probablemente las ms interesantes y las
ms tiles. Su relacin con la distribucin normal las hace sumamente tiles.

4.2. Propiedades de las puntuaciones tpicas

Las puntuaciones tpicas tienen propiedades que las hacen especialmente


tiles:

1 La suma de las puntuaciones tpicas elevadas al cuadrado es igual al


nmero de sujetos:

Sz2= N porque

Esta propiedad no tiene especial inters prctico, pero se utiliza en algu-


nas demostraciones (por ejemplo, para demostrar que la desviacin tpica de
las puntuaciones tpicas es igual a 1, lo mismo que el valor mximo del coefi-
ciente de correlacin de Pearson).

2 La media de las puntuaciones tpicas es igual a cero:

Sz
Z =0 porque z = = 0
N
las zetas negativas y positivas se anulan mutuamente.
Si la media de las puntuaciones tpicas es cero, todas las puntuacio-
nes directas superiores a la media tendrn una puntuacin tpica
positiva, y si son inferiores a la media, tendrn una puntuacin tpi-
ca negativa.

3 La desviacin tpica y la varianza de las puntuaciones tpicas es


igual a la unidad:

85
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El que la desviacin tpica de las puntuaciones tpicas sea igual a 1 tiene


consecuencias importantes. En una combinacin de puntuaciones parciales,
la que pesa ms en la media final es aquella con una mayor desviacin tpica.
Si calculamos una media a partir de las puntuaciones tpicas, todas las puntua-
ciones parciales pesarn lo mismo, porque todas tendrn idntica desviacin
tpica.

4 Si sumamos a todas las puntuaciones directas una constante, la des-


viacin tpica permanece idntica, porque se mantienen idnticas las
distancias con respecto la media.
Lo podemos ver en las tres series de puntuaciones puestas en la tabla [2].

Tabla 2

En B hemos sumado 12 puntos a cada sujeto con respecto a A, y en C he-


mos sumado 80 a las puntuaciones de B. Naturalmente las medias son distin-
tas, pero las desviaciones tpicas son idnticas porque las distancias inter-indi-
viduales son las mismas: el grado de homogeneidad (diferencias de los
sujetos con respecto a su media) de los tres grupos es el mismo.

5 Si multiplicamos todas las puntuaciones directas por una constante,


la desviacin tpica queda multiplicada por esa constante, porque
en esa cantidad ha aumentado la diferencia con respecto a la media.
Lo vemos en este ejemplo:
grupo A: 8 10 12 media: 10 s = 1.63
grupo B (= Ax2): 16 20 24 media: 20 s = 3.26
Al multiplicar por dos las puntuaciones del grupo A, la desviacin tpica (lo
mismo que la media) tambin queda multiplicada por dos (1.63 x 2 = 3.26).
Estas dos propiedades son importantes porque nos permiten transformar
las puntuaciones tpicas en otras ms cmodas; son las puntuaciones tipifi-
cadas que veremos ms adelante.

86
TIPOS DE PUNTUACIONES INDIVIDUALES

6 En la distribucin normal hay una relacin exacta entre cada pun-


tuacin tpica y el nmero de casos que caen por encima y por deba-
jo de cada puntuacin, o lo que es lo mismo:
a) En la distribucin normal conocemos la probabilidad que tiene de
ocurrir cada puntuacin tpica,
b) En la distribucin normal a cada puntuacin tpica le corresponde
siempre el mismo percentil (o proporcin de sujetos o casos que
caen por debajo de esa puntuacin).

En estas propiedades radican muchas de las ventajas y de los usos de estas


puntuaciones y de sus puntuaciones derivadas, que veremos a continuacin,
como son las puntuaciones tipificadas y las puntuaciones normalizadas.

4.3. Utilidad de las puntuaciones tpicas

1. Al traducir todas las puntuaciones directas a puntuaciones tpicas tene-


mos una nica escala mtrica cualquiera que sea la magnitud de las puntua-
ciones originales, por lo que podemos comparar unos resultados con otros
con ms objetividad y realismo que si lo hacemos con las puntuaciones direc-
tas. Podemos comparar, por ejemplo, peso con altura (qu es ms, 58 Km. de
peso 1.69 m de altura?) o 20 respuestas correctas en un examen de 30 pre-
guntas con otro resultado de 20 respuestas correctas en un examen de 50
preguntas.
Todo tipo de puntuacin, cualquiera que sea la unidad original, queda
transformado en un sistema comn; por lo tanto se puede comparar todo
con todo: resultados de exmenes con niveles de dificultad muy distintos, ca-
lificaciones puestas con criterios de exigencia distintos, etc., y tambin resul-
tados que provienen de instrumentos distintos cuyas puntuaciones directas
no seran comparables (por ejemplo si el nmero de preguntas es distinto, o
si una es una prueba objetiva y otra una prueba abierta, etc.). Adems ya sabe-
mos que en las puntuaciones tpicas la media es siempre 0 y la desviacin t-
pica es siempre 1 por lo que las puntuaciones superiores a la media son po-
sitivas, y las puntuaciones inferiores a la media son negativas. Una puntuacin
que coincida con la media del grupo, equivale siempre a una puntuacin t-
pica de cero.
2. Concretamente en el caso de exmenes (y en otros casos, pero el ejem-
plo de los exmenes es muy claro) las puntuaciones tpicas reflejan mejor
dnde est un sujeto (en trminos relativos, comparado con el resto de los
sujetos) independientemente de la facilidad o dificultad del examen.
Tenemos por ejemplo estos datos de dos exmenes de 20 preguntas (con
distinta media e idntica desviacin tpica):

87
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

examen fcil examen difcil


media: 18 8
desviacin tpica 1.6 1.6

Un alumno que en el examen fcil tenga 13 respuestas correctas tendr


esta puntuacin tpica:

No es un mal resultado en trminos absolutos (65%


de respuestas correctas) pero la puntuacin tpica
es muy baja; no sabe lo que sabe la mayora de sus
compaeros.

Un alumno que en el examen difcil tambin tenga 13 respuestas correc-


tas tendr esta puntuacin tpica:

Tiene tambin un 65% de respuestas correctas, pero


la puntuacin tpica es muy alta; este alumno sabe
lo que no sabe la mayora de sus compaeros.

Estas puntuaciones tpicas reflejan mejor lo que saben estos alumnos te-
niendo en cuenta la facilidad o dificultad del examen.
Vamos a verlo con un ejemplo real: 48 alumnos responden a tres supues-
tos exmenes; cada examen consta de 8 preguntas, que son los nombres de
otras tantas ciudades; los alumnos tienen que responder identificando el pa-
s donde est cada ciudad. En un examen se trata de ciudades fciles, en otro
de ciudades menos fciles y en el tercero de ciudades pretendidamente dif-
ciles.
En la tabla 3 tenemos las distribuciones de frecuencias, la media y desvia-
cin de cada examen y la puntuacin tpica que corresponde a cada resultado
en cada uno de los tres exmenes3.

3
Ciudades ms fciles: Londres, Oporto, Venecia, Canberra, Dubln, Miln, Coimbra
y Bruselas.
Ciudades menos fciles: Montreal, Toronto, Madrs (ahora Chennai), Macao, Yakarta,
Bucarest, Praga y Orn.
Ciudades difciles: Iquitos, Manaos, Zamboanga, Sanaa, Cahabn, Chichicastenango,
Champerico y Kuala-Lampur (Iquitos est en Per, Manaos es la capital de la amazona bra-
silea, Zamboanga est en la isla filipina de Mindanao, Sanaa es la capital del Yemen, Kua-
la-Lampur es la capital de la Federacin Malaya; Cahabn, Chichicastenango y Champerico
no tienen especial dificultad si se conoce Guatemala).

88
TIPOS DE PUNTUACIONES INDIVIDUALES

Tabla 3

Qu podemos observar en estos datos.


Al menos podemos fijarnos en que la puntuacin tpica ms alta es z =
5.99 en el examen ms difcil: saber tres ciudades difciles es mucho ms que
saber las ocho fciles (z = 1.57), e incluso conocer una sola ciudad difcil (z =
1.82) supone ms que conocer las ocho fciles. Tambin conocer donde estn
cuatro ciudades de las menos fciles (z = 1.64) es ms que conocer todas las
fciles. Si nos fijamos en las puntuaciones tpicas ms bajas de cada examen,
vemos que la ms baja corresponde a conocer dos ciudades fciles (z = -2.61)
y el no conocer ninguna ciudad difcil tiene una puntuacin mayor (z = -.26)
que conocer solamente cinco ciudades fciles (z = -.52).
Cuando las medias de dos exmenes (por ejemplo) son idnticas (o muy pa-
recidas) pero las desviaciones tpicas son muy distintas, las puntuaciones tpicas
que corresponden a cada puntuacin directa pueden ser tambin muy distintas.
Vamos a suponer que tenemos tres puntuaciones directas, 14, 12 y 10, ob-
tenidas en dos exmenes distintos y que son en este ejemplo el nmero de
respuestas correctas de tres alumnos (tabla 4). En los dos exmenes la media
es la misma (e igual a 12; lo suponemos as) pero las desviaciones tpicas son
muy distintas (s = 2 en el examen A y s = 4 en el examen B). En cada caso el
mismo nmero de respuestas correctas (puntuacin directa) va a equivaler a
puntuaciones tpicas muy distintas.

Tabla 4

89
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Aqu vemos que un resultado de:


14 respuestas correctas vale ms en el examen A (z = +1) que en el exa-
men B (z = +0.5)
10 respuestas correctas vale menos en el examen A (z = -1) que en el exa-
men B (z = -0.5)
Es decir, una misma diferencia con respecto a la media equivale a una pun-
tuacin tpica mayor (positiva o negativa) en la medida en que la desviacin
tpica es ms pequea. Dicho de otra manera, una diferencia con respecto a
la media es mayor al convertirla en una puntuacin tpica cuando el grupo
es ms homogneo (y tiene una desviacin tpica pequea). Y el estar por de-
bajo de la media resulta en una puntuacin tpica tambin ms baja cuando el
grupo es ms bien homogneo.
3. Las puntuaciones tpicas permiten calcular medias, si se desea, sin que
ninguna puntuacin parcial pese ms que otra, pues en todas las puntuacio-
nes parciales la desviacin tpica es la misma (siempre s = 1 en las puntuacio-
nes tpicas).
Esto puede ser especialmente til cuando las calificaciones (u otro tipo de
datos) proceden de profesores distintos, o de exmenes o situaciones muy
distintas: podemos calcular la puntuacin tpica de cada sujeto en cada situa-
cin y calcular la puntuacin tpica media; en este caso todas las puntuacio-
nes parciales pesan en principio lo mismo. Si se desea que alguna puntuacin
parcial pese ms por alguna razn, se puede ponderar despus esa puntua-
cin parcial ya convertida en tpica (o tipificada como veremos despus). Es-
tas puntuaciones tpicas medias se pueden convertir despus en calificacio-
nes convencionales.
4. Las puntuaciones tpicas permiten apreciar resultados atpicos, objeti-
var mejor resultados extremos ya que sabemos las probabilidades de ocu-
rrencia de cada puntuacin tpica.
Esto es posible dada la relacin entre las puntuaciones tpicas y la distribu-
cin normal. Si conocemos el valor de una puntuacin tpica, podemos conocer
la probabilidad que tiene de darse por azar (nos basta consultar las tablas de la
distribucin normal). En general un 68% del grupo est entre +1 y -1 puntuacio-
nes tpicas (entre esos lmites se puede considerar que est aproximadamente la
normalidad estadstica), y puntuaciones que superen +2 o no lleguen a -2 son
aproximadamente el 5%. Prcticamente el 100% de los casos est comprendido
entre z = +3 y z = -3. En un ejemplo ilustrativo puesto antes, 13 respuestas co-
rrectas en el examen fcil es un resultado atpicamente bajo, y en el examen
difcil 13 respuestas correctas es un resultado atpicamente alto. En los exme-
nes de ciudades de la tabla 3, conocer 7 ciudades de las no tan fciles o 3 de las
ms difciles son resultados anormalmente altos.
5. Las puntuaciones tpicas pueden ser un buen marco de referencia
(aunque no necesariamente) para establecer criterios de calificacin, pero

90
TIPOS DE PUNTUACIONES INDIVIDUALES

teniendo siempre en cuenta que se trata de puntuaciones relativas al gru-


po, por lo que es discutible utilizarlas para establecer el nivel mnimo para
el apto (que es preferirle determinar con otros criterios; el que sabe menos
puede saber lo suficiente). Es menos cuestionable su uso para asignar las
calificaciones ms altas (una puntuacin tpica en torno a +2, e incluso me-
nor, indica ya un resultado excelente para lo que de hecho da de s un de-
terminado grupo).
6. Para interpretar debidamente las puntuaciones tpicas hay que tener en
cuenta de qu tipo de datos se trata: no es lo mismo nmero de respuestas
correctas en una prueba objetiva que las calificaciones puestas por el profe-
sor al corregir un examen abierto, notas, etc.
En principio estos clculos son de interpretacin ms clara cuando estn
hechos a partir de puntuaciones o resultados directos ms que cuando los
nmeros expresan calificaciones o juicios de valor.

4.4. Puntuaciones tipificadas (puntuaciones tpicas transformadas)

Las puntuaciones tipificadas son puntuaciones derivadas de las puntuacio-


nes tpicas. El smbolo general de las puntuaciones tipificadas es Z (zeta ma-
yscula); algunas puntuaciones tipificadas tienen sus smbolos particulares.
Las puntuaciones tpicas son incmodas para expresar resultados porque:
a) Prcticamente siempre tienen decimales,
b) Ms o menos la mitad de las puntuaciones tpicas tienen signo menos
(todas las inferiores a la media).
Por estas razones, y sobre todo para poder expresar resultados de tests de
manera ms fcilmente comprensible, suelen transformarse en otras puntua-
ciones ms cmodas.
Se trata de una transformacin linear, cuya frmula genrica es
Z = (z a) + b [2] donde a y b son dos constantes.
Es decir, todas las puntuaciones tpicas:
1 Se multiplican por una cantidad constante (a) y as se eliminan los de-
cimales (estas puntuaciones se redondean y se expresan sin decima-
les);
2 Se les suma una cantidad constante (b) y as se elimina el signo menos.
Entre las puntuaciones tipificadas son muy utilizadas las puntuaciones T:
T = 10z + 50 [3]
Tambin es frecuente hacer estas transformaciones: Z = 20z + 100
Z = 15z + 100
Z = 100z + 500

91
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Al tipificar una serie de puntuaciones, automticamente tenemos una nue-


va media y una nueva desviacin tpica, que son siempre las mismas cual-
quiera que sea la escala mtrica de las puntuaciones directas originales:
1. La nueva media es igual a la constante que se suma a todas las pun-
tuaciones.
Un sujeto cuya puntuacin directa coincidiera con la media de la distri-
bucin, tendra z = 0, y su puntuacin T (frmula [3]) sera 10(0) + 50
= 50; si la constante que se suma es 100, la media sera 100, etc.
2. La nueva desviacin tpica es igual a la constante por la que se han
multiplicado las puntuaciones tpicas.
Un sujeto cuya puntuacin directa supere en una desviacin tpica a la
media, tendra una puntuacin tpica de z = 1, y su puntuacin T sera
T = 10(1) + 50 = 60 (la media, 50, + 1s = 50 +10).

Podemos establecer que los valores de la media y de la desviacin sean los


que queramos. Si deseamos transformar las puntuaciones de manera que la
media sea 20 y la desviacin tpica valga 5, tendremos que Z = 5z + 20, etc.
Lo mismo que en las puntuaciones tpicas, a cada puntuacin tipificada le
corresponde en la distribucin normal el mismo percentil.
Las puntuaciones tipificadas resultan mucho ms fciles de interpretar que
las puntuaciones directas, sobre todo cuando se trata de tests. Si los resulta-
dos de un test de inteligencia se han transformado de esta manera (como es
frecuente) Z = 20z + 100:
Un sujeto con una puntuacin de 100 est en la media (porque a la media
le corresponde una z igual a 0: (20)(0)+100 = 100.
Un sujeto que tenga 160 supera a la media en tres desviaciones tpicas
(100 +20 +20 +20); que es ya excepcional.
Un sujeto que tenga 60 (100 - 20 -20) est a dos desviaciones tpicas por
debajo de la media, y ya se va apartando mucho de la normalidad.

5. PERCENTILES

5.1. Concepto e interpretacin

1 Los percentiles indican el tanto por ciento de sujetos que estn por deba-
jo de cada puntuacin.
Los percentiles son por lo tanto fciles de interpretar, de entender y de co-
municar. Si un sujeto con una puntuacin de 19 (en un test, en una prueba
objetiva, etc.) supera al 45% de su grupo:

92
TIPOS DE PUNTUACIONES INDIVIDUALES

La puntuacin 19 es el percentil 45 (P45),


Del sujeto se dice que tiene un rango percentil de 45.
El percentil indica la posicin relativa del sujeto en el grupo, sin referen-
cia a niveles absolutos. En sentido propio no se trata de una puntuacin por-
que no est referido al rasgo o variable que se ha medido; no hay una uni-
dad: entre dos percentiles contiguos no hay la misma distancia en aquello
que estamos midiendo. As si un sujeto en un examen est en el Percentil 80,
no podemos decir que sabe el doble del que est en el Percentil 40, sino que
tiene por debajo el doble nmero de sujetos.
Por ejemplo, un sujeto que tenga en un examen de conocimientos un ran-
go percentil de 98 supera al 98% de su clase, pero esto no quiere decir que se-
pa mucho en trminos absolutos, sino que sabe ms que la mayora. Y a la
inversa, un sujeto puede estar en el Percentil 5 (el 95% est mejor que l) y
saber lo suficiente. Por esta razn los percentiles pueden ser muy discutibles
como dato para establecer calificaciones.
Naturalmente si los percentiles de un test de conocimientos se han calcu-
lado en una muestra muy amplia (no en una clase normal), tiene ms senti-
do decir que el que est en el percentil 95 sabe mucho y que el que est en el
percentil 5 sabe poco, pero en definitiva siempre hay que sobrentender com-
parado con los dems que han respondido a ese test y con los que se calcu-
laron esos percentiles.
Si no se trata de un examen de conocimientos, sino, por ejemplo, de un
test de neuroticismo posiblemente podemos decir, y tiene sentido, que el su-
jeto que est en el percentil 95 es muy neurtico, porque en el lenguaje con-
vencional solemos decir que una persona es muy simptica, o muy sociable,
etc. cuando es ms simptica, sociable, etc. de lo normal, y lo normal es lo
que solemos ver en la mayora de la gente. Pero hay que tener claro que siem-
pre se trata de valoraciones relativas al grupo cuyas respuestas han servido
para calcular esos percentiles.

2 Para interpretar adecuadamente los percentiles individuales, estos tienen


que estar calculados en una muestra de referencia apropiada.
Como el marco de referencia para interpretar los percentiles es el grupo,
no se debe comparar (y evaluar, juzgar) a un sujeto tomando como referen-
cia un grupo que no sea o no pueda ser el suyo. Hace falta siempre un gru-
po de referencia apropiado.
Las normas de interpretacin (o baremos) que vienen publicadas en mu-
chos tests son con frecuencia percentiles (puede tratarse de otro tipo de pun-
tuaciones) calculados previamente en una muestra distinta. Siempre hay que
considerar si esa muestra es un buen grupo de referencia (y por lo tanto un
buen trmino de comparacin) para los nuevos sujetos que responden al

93
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

test. En cualquier caso este tipo de normas de interpretacin (percentiles y


otras) hay que renovarlos cada cierto tiempo (como ya hemos indicado, la
edad media de un test, o ms bien de sus baremos o normas de interpreta-
cin, puede no ser superior a 10 aos; con el tiempo pueden variar actitudes
sociales, niveles educativos, capacidad lectora, etc.).
Con frecuencia es preferible calcular unos nuevos percentiles para mues-
tras quizs muy distintas de las que sirvieron para hacer los baremos origina-
les (y esta observacin es vlida tambin para otros tipos de normas de los
tests, no slo para los percentiles).

3 Algunos percentiles tienen nombres y smbolos especficos:


1. Deciles: son los percentiles 10, 20, etc., y se simbolizan D1, (= P10), D2,
(= P20), etc.
2. Cuartiles: son los percentiles que dividen al grupo en cuatro partes
con idntico nmero de sujetos (el 25%):
Q3 (tercer cuartil) = P75: por encima est el 25 % de la muestra;
Q2 (segundo cuartil) = P50; se trata de la mediana, que se utiliza
como medida de tendencia central; divide al
grupo en dos partes iguales
Q1 (primer cuartil) = P25: por debajo est el 25% de la muestra
Estos tres valores se calculan a veces como puntos de referencia y para ha-
cer determinadas representaciones grficas (como los diagramas de cajas).

4 Con los valores de Q1 y Q3 se calcula la desviacin semi-intercuartlica:


Desviacin semi-intercuartlica: [4]

a) La desviacin semi-intercuartlica Q es la medida de dispersin que


se utiliza cuando la medida de tendencia central es la mediana. Mi-
de la dispersin en el 50% central de la muestra. Lo podemos ver con
los datos concretos de un test en la figura 1.
b) Tanto los deciles como los cuartiles se calculan por el mtodo de inter-
polacin que veremos ms adelante.
c) Los valores de Q1 y Q3 se calculan con decimales cuando se van a utili-
zar en el clculo de Q.
d) La mediana y Q, como medidas de tendencia central y dispersin, se
utilizan preferentemente con distribuciones muy asimtricas y en cual-
quier caso son medidas descriptivas complementarias, aunque menos
utilizadas que la media y la desviacin tpica;
e) La mediana y Q, como medidas de tendencia central y dispersin, son
especialmente tiles siempre que se prefiera que sujetos con puntua-

94
TIPOS DE PUNTUACIONES INDIVIDUALES

Figura 1

ciones muy extremas no influyan en las medidas de tendencia central y


de dispersin porque en su clculo slo se tiene en cuenta el 50% cen-
tral de la muestra.

5 Una limitacin importante es que entre percentil y percentil no hay una


unidad constante en sentido propio y referida a aquello que se est mi-
diendo.
Del Percentil 95 al 90 no hay la misma distancia que del Percentil 45 al 40; s
hay una proporcin igual de sujetos (un 5%), pero no una cantidad de ciencia
(o de otra variable o rasgo) igual. Por la misma razn no se puede afirmar que
el que est en el Percentil 80, si se trata de un test de conocimientos, sabe el do-
ble del que est en el Percentil 40 (o que es el doble de neurtico si se trata de
un test de neuroticismo). De hecho las distancias en la variable medida son mu-
cho mayores entre los percentiles extremos (muy altos o muy bajos) que entre
los percentiles del centro de la distribucin (entre el Percentil 80 y el 85, o en-
tre el 10 y el 15, hay ms distancia que entre el Percentil 40 y el 45).
Al no haber una unidad no se pueden sumar y calcular percentiles medios
pues se prestan a interpretaciones equvocas. Si los diversos percentiles son
muy parecidos, la informacin del percentil medio ofrece menos distorsin,
pero en principio no se deben hacer manipulaciones aritmticas con los
percentiles porque se trata de puntuaciones ordinales; para hacer operacio-
nes aritmticas con los percentiles se deben convertir antes en puntuaciones
tpicas (que a su vez se pueden despus convertir en percentiles segn la dis-
tribucin normal).
Una manera de entender o ms bien de visualizar que entre percentiles
contiguos no hay una unidad en sentido propio es imaginarlos como una es-

95
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

calera de peldaos de altura desigual: los peldaos de los extremos (los ms


altos y los ms bajos) son mayores, de mayor altura que en el centro. Esto se
entiende mejor al ver la relacin entre percentiles y puntuaciones tpicas en
la distribucin normal.

6 En la distribucin normal existe una correspondencia exacta entre per-


centiles y puntuaciones tpicas.
En la distribucin normal, a cada percentil le corresponde siempre la mis-
ma puntuacin tpica. El que por ejemplo supere a la media en una desvia-
cin tpica (z = 1), estar en el Percentil 84 (aproximadamente).

Tabla 5

En la tabla 5 podemos ver:


1 Cmo a una puntuacin tpica de z = 0 (la media), le corresponde el
percentil 50 (caen por debajo el 50% de los sujetos); a una z = 1, le co-
rresponde el percentil 84 (caen por debajo el 84% de los sujetos), etc.;
en las tablas de la distribucin normal podemos encontrar los percen-
tiles exactos para cada puntuacin tpica.
2 Cmo los percentiles se acumulan en el centro de la distribucin; por
ejemplo, entre z = 0 y z = 1 hay 34 percentiles, en cambio entre z =
+1 y z = +2 hay 14 percentiles, y por encima de z = +2 (como por de-
bajo de z = -2) solamente hay dos percentiles. La misma cantidad (de
lo que se est midiendo) est repartida de manera desigual; dicho en
trminos simples, los percentiles extremos tocan a ms (como se pue-
de observar en la tabla 5).

Esto es lo que quiere decir que entre los percentiles no hay una unidad, y
que la distancia entre percentil y percentil en aquello que se mide (no en n-
mero de sujetos) es mayor en los extremos de la distribucin. Un percentil
ms o un percentil menos por el centro de la distribucin, no supone una di-
ferencia importante, pero s en los extremos. Por esta razn en la interpreta-
cin de los tests (por ejemplo de personalidad) hay que prestar ms atencin
a los percentiles extremos.

96
TIPOS DE PUNTUACIONES INDIVIDUALES

En la figura 2 podemos ver tambin (grficamente y de manera aproxima-


da) cmo una misma diferencia en percentiles no corresponde a diferencias
iguales en puntuaciones tpicas, donde s cabe hablar de una unidad (la des-
viacin tpica).

Figura 2

Entre los percentiles 95 y 75 existe la misma diferencia en percentiles


que entre los percentiles 75 y 55, pero si substituimos los percentiles por las
puntuaciones tpicas que les corresponden, las diferencias son muy desigua-
les. Del percentil 75 al 95 hay una distancia mayor (.97 s) que del percentil
55 al 75 (.55 s) cuando utilizamos como unidad la desviacin tpica.

5.2. Clculo de los percentiles

Hay varios mtodos para calcular los percentiles:


1. El clculo directo; es el ms frecuente y se utiliza siempre que desea-
mos calcular los percentiles para la interpretacin de resultados indivi-
duales.
2. El clculo por interpolacin: se utiliza sobre todo cuando interesa co-
nocer el valor de percentiles especficos que quizs (y frecuentemente)
ningn sujeto ha obtenido (como la mediana, o Percentil 50 y los Per-
centiles 75 y 25, y otros como los deciles).
3. Tambin podemos calcular los percentiles mediante el grfico de las
frecuencias relativas acumuladas.
4. Podemos calcular tambin los percentiles a partir de los valores de la
media y de la desviacin tpica (y puede ser muy til cuando no dis-

97
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

ponemos de todos los datos de todos los sujetos), pero ya veremos


que en este caso se trata de percentiles normalizados (los que corres-
ponden a la distribucin normal, y lo veremos al tratar las puntuacio-
nes normalizadas).

5.2.1. Clculo directo

Es el clculo habitual de los percentiles. Lo explicamos con un ejemplo re-


suelto en la tabla 6.
Tabla 6

Los smbolos utilizados son:


X = Puntuaciones directas, ordenadas de mayor a menor. En este
ejemplo estn agrupadas de tres en tres para que no haya un nme-
ro excesivo de intervalos o de divisiones. Lo habitual es agrupar las
puntuaciones directas para que no haya un nmero excesivo de in-

98
TIPOS DE PUNTUACIONES INDIVIDUALES

tervalos; unos 10 12 es lo normal; ms de 15 puede ser ya excesi-


vo (cmo hacer esta agrupacin est explicado al comienzo, al tra-
tar de la distribucin de frecuencias).
i = Valor o amplitud del intervalo; aqu i = 3 porque las puntuaciones
estn agrupadas de tres en tres. Si las puntuaciones estuvieran sin
agrupar (una sola puntuacin en cada intervalo) tendramos i =1.
No hay que confundir el nmero de intervalos (10 en este caso),
con el valor del intervalo (que interviene en algunas frmulas, co-
mo en el clculo de percentiles por interpolacin).
f = Frecuencia, o nmero de casos en cada intervalo.
fa = Frecuencias acumuladas: se van sumando las frecuencias de abajo
arriba. La frecuencia acumulada en el intervalo superior debe ser
igual al nmero de sujetos (es til caer en la cuenta para detectar
posibles errores; en este caso N = 40 = fa en el intervalo ms alto).
fam= Frecuencias acumuladas al punto medio; a cada frecuencia acu-
mulada se le resta la mitad de su f correspondiente.
Tambin se calculan a veces los percentiles a partir de las frecuencias
acumuladas (P = [fa/N] 100), pero lo convencional es hacerlo a par-
tir de las frecuencias acumuladas al punto medio. La razn de hacer-
lo as es porque suponemos que cada uno de los que estn en cada
intervalo (si pudiramos matizar mucho la medicin) superan a la
mitad de los que tienen idntica puntuacin y tienen por encima a la
otra mitad. Se supone que los que aparecen igualados en realidad
son distintos y as apareceran si los midiramos matizando ms.
P = Percentil, o tanto de por ciento de sujetos que caen debajo de ca-
da puntuacin. Los percentiles se redondean y se presentan sin
decimales.

En la tabla 6 vemos que un sujeto con una puntuacin directa (nmero de


respuestas correctas, suma de todas sus respuestas, etc.) que est entre 26 y
28, tiene un rango percentil de 72, o tiene por debajo (supera) al 72% del
grupo en el que se han calculado los percentiles.

5.2.2. Clculo por interpolacin

Con frecuencia interesa conocer el valor de determinados percentiles; por


ejemplo:
La mediana o P50, y los percentiles 75 y 25 (P75 o Q3 y P25 o Q1) como
datos descriptivos o para calcular la medida de dispersin Q,
Los deciles (P10, P20, P30, etc. tambin simbolizados como D1, D2, D3,
etc.) para simplificar la interpretacin de un test, dando slo estos
percentiles como referencia.

99
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El clculo directo de los percentiles no suele darnos estos valores a no ser


que un sujeto los haya obtenido, por lo que es necesario hacer el clculo por
interpolacin.
El procedimiento puede parecer complicado a primera vista, pero es muy
simple si se procede con orden y se tiene a la vista un ejemplo resuelto, como
lo hacemos aqu con los datos de la tabla 7.

Tabla 7

Vamos a calcular, por ejemplo, el Percentil 75. Corresponder a la puntua-


cin que deje por debajo al 75% de la muestra.
1 Calculamos el nmero de sujetos que necesitamos. El 75% de 58 es
igual a (58)(.75) = 43.5. El Percentil 75 ser la puntuacin que deje por
debajo a 43.5 sujetos o 75% de 58.
2 Buscamos en las frecuencias acumuladas, el nmero de sujetos que
necesitamos, que son 43.5
En este caso, como ninguna puntuacin deja por debajo a 43.5 sujetos,
localizamos la frecuencia acumulada inmediatamente inferior a la
que vamos buscando, que es 42; en la siguiente, que es 50, ya nos he-
mos pasado.
3 Identificamos el lmite superior de la puntuacin que corresponde a
la frecuencia acumulada localizada en el paso 2; en este caso el
percentil 75 tendr un valor de por lo menos 16.5 (sumamos medio
punto, .5, al valor superior del intervalo).
4 Calculamos el nmero de sujetos que todava nos faltan.

100
TIPOS DE PUNTUACIONES INDIVIDUALES

Tenemos 42 y necesitamos 43.5, por lo tanto nos faltan 1.5 sujetos (=


nmero de sujetos que necesito [paso 1] menos nmero de sujetos
que tengo [paso 2]).
5 Del intervalo siguiente tomamos la parte proporcional de sujetos que
necesitamos; para esto dividimos el nmero de sujetos que nos faltan
por la frecuencia (o nmero de sujetos) del intervalo inmediatamen-
te superior: 1.5/8 = .1875
6 Esta cantidad la multiplicamos por el valor del intervalo. El valor del
intervalo es igual al nmero de puntuaciones que hay en cada interva-
lo; en este caso este valor es igual a 1 porque las puntuaciones van de
una en una. Si estuvieran agrupadas de dos en dos (9-10, 11-12, etc.) el
valor del intervalo sera igual a dos.
7 La cantidad calculada en el paso anterior la sumamos al lmite su-
perior del intervalo inferior al que contiene el percentil buscado (pa-
so 3), con lo que el valor del Percentil 75 ser igual a 16.5 +.1875 =
16.69.
Expresando todas las operaciones hechas tendramos que:

Si vamos a utilizar este valor para interpretar las puntuaciones de un test o


como dato descriptivo, redondeamos los decimales y obtendremos P75 = 17.
Si vamos a utilizar este valor para otros clculos (por ejemplo para calcular le
valor de Q), dejamos los decimales.
La frmula de los percentiles calculados por interpolacin podemos ex-
presarla tal como se indica en la figura 3

Figura 3

5.2.3. Clculo de los percentiles mediante la representacin


grfica de las frecuencias relativas acumuladas

Una representacin grfica frecuente de las puntuaciones directas es la de


las frecuencias relativas acumuladas. La utilidad de esta representacin gr-
fica est en que permite un localizar de manera muy aproximada, sin hacer

101
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

ningn clculo, los percentiles correspondientes a cada puntuacin directa o


a cada intervalo.
Posiblemente es preferible calcular los percentiles directamente, sin ayuda
de grficos, dada la facilidad de clculo que permiten las calculadoras y pro-
gramas de ordenador. Aun as este mtodo puede ser til, sobre todo cuando
los sujetos son muchos; utilizando papel milimetrado da resultados muy
exactos. En cualquier caso la representacin grfica de las frecuencias acumu-
ladas puede ser de utilidad independientemente de que se estimen los per-
centiles con este procedimiento.
En primer lugar hay que calcular las frecuencias acumuladas relativas o
percentiles (frecuencias acumuladas de cada intervalo divididas por el nme-
ro de sujetos). En la tabla 8 estn los datos que han servido para hacer (de
manera aproximada) el grfico de las frecuencias acumuladas.

Tabla 8

fa: Frecuencias acumuladas. Vamos sumando de abajo arriba, de mane-


ra que cada valor de fa (frecuencia acumulada) indica el nmero de
sujetos que tienen una puntuacin igual o inferior a la del intervalo.
As a la puntuacin directa 51-53 le corresponde una frecuencia acu-
mulada de 9: 9 sujetos tienen una puntuacin de 53 o ms baja.
Cuando calculamos los percentiles por el mtodo habitual, las frecuen-
cias suelen acumularse al punto medio, como hemos visto ya en el cl-
culo directo.
(fa/N)/100: Es el tanto por ciento de sujetos que tienen esa puntuacin o
ms baja; son las frecuencias acumuladas relativas. Si no multiplica-

102
TIPOS DE PUNTUACIONES INDIVIDUALES

mos por 100, lo que tenemos es la proporcin (no porcentaje) de su-


jetos que tienen esa puntuacin o una puntuacin menor

Las columnas X y f son las mismas que hemos visto antes (X = puntuacio-
nes directas agrupadas y f = frecuencia o nmero de casos en cada intervalo).
Estas frecuencias relativas acumuladas suelen redondearse, sin poner
decimales.
Una vez que tenemos las frecuencias acumuladas relativas o percentiles,
podemos hacer ya un grfico como el de la figura 4
El procedimiento para construir el grfico de las frecuencias acumuladas
es el siguiente:
1 En primer lugar calculamos los percentiles o frecuencias acumuladas
relativas que corresponden a cada puntuacin (tabla 8). Este clculo
tambin puede hacerse sin agrupar las puntuaciones (con intervalos de
i = 1), pero normalmente las agrupamos para tener un nmero de in-
tervalos manejable.
2 En el eje vertical (eje Y, de las ordenadas) no ponemos las frecuencias,
sino los porcentajes. Dividimos este eje vertical (Y) de 1 a 100. Ya he-
mos indicado que estos grficos es preferible hacerlos con papel mili-
metrado, que simplifica mucho la confeccin del cuadro y se gana en
exactitud.
3 En el eje horizontal (X, de las abscisas) sealamos los lmites superio-
res de cada intervalo (y esto por el mismo concepto de frecuencia
acumulada, nos situamos en el lmite superior de cada posible puntua-
cin).
4 Por cada intervalo situamos el punto donde confluyen el lmite supe-
rior del intervalo y la frecuencia acumulada relativa calculada previa-
mente. Los puntos resultantes se unen mediante una curva (en el
ejemplo se ha hecho con rectas y slo de manera aproximada). Si la
distribucin es simtrica el grfico tender a tener la forma de una S.

Observando el grfico que nos sirve de ejemplo puede verse cmo se cal-
culan los percentiles, sin necesidad de operaciones. Basta con trazar desde
cualquier percentil (los porcentajes del eje vertical) una paralela al eje X de
las puntuaciones directas, y desde donde esta paralela corta la curva se traza
una perpendicular al eje X, que nos indicar la puntuacin directa correspon-
diente al percentil buscado.
En este caso la mediana (o percentil 50) es igual a 61: los que tienen una
puntuacin de 61 superan al 50% del grupo.

103
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Figura 4:
GRFICO DE LAS FRECUENCIAS RELATIVAS ACUMULADAS (OJIVA)

100
95

90
85
Q3 = P75 = 65

80
75
70
65
60
55 M = P50 = 61
50
45
40
35
Q2 = P25 = 54

30
25


20
15
10
5
0
38.5 41.5 44.5 47.5 50.5 53.5 56.5 59.5 62.5 65.5 68.5 71.5 74.5 77.5

6. PUNTUACIONES NORMALIZADAS

Las puntuaciones normalizadas equivalen a las puntuaciones (tpicas o


tipificadas, o percentiles) que habra si la distribucin fuera normal. Por eso
mismo se denominan normalizadas: se supone que la distribucin es nor-
mal. Si de hecho la distribucin original se aparta mucho de la distribucin
normal, es discutible hacer esta transformacin. Frecuentemente la distribu-
cin observada es parecida a la normal, y aumentando el nmero de sujetos
podemos suponer que la distribucin no se desviara mucho de la distribu-
cin normal.
Las puntuaciones normalizadas pueden ser o puntuaciones tpicas o per-
centiles. Lo ms frecuente es que se trate de puntuaciones tpicas (o de sus
puntuaciones derivadas), pero los percentiles normalizados pueden ser su-
mamente tiles en ocasiones

6.1. Puntuaciones tpicas normalizadas

El proceso de clculo es semejante al clculo directo de los percentiles; re-


almente seguiremos el mismo proceso, con la diferencia final de que no uti-
lizaremos el percentil sino la puntuacin tpica correspondiente a cada per-
centil en la distribucin normal.

104
TIPOS DE PUNTUACIONES INDIVIDUALES

1 Se calcula la proporcin de sujetos que caen debajo de cada puntua-


cin. Esta proporcin de sujetos se calcula as para cada puntuacin (como se
ha hecho en la tabla 6):
frecuencia acumulada al
Proporcin de sujetos que caen punto medio fam
por debajo de cada puntuacin = =
nmero de sujetos N

Si multiplicramos esta proporcin por cien, tendramos el percentil


(clculo directo). En ocasiones tambin se utiliza fa/N, o frecuencia acumula-
da (no al punto medio) dividida por N, pero posiblemente es preferible calcu-
lar fam/N, tal como se hace en el clculo habitual de los percentiles (con un
nmero muy grande de sujetos los resultados son casi los mismos); la con-
vencin ms aceptada es utilizar frecuencias acumuladas al punto medio.
Por qu acumulamos las frecuencias al punto medio est explicado al tratar
del clculo directo de los percentiles.
Para hacer los clculos disponemos los datos como figuran en la tabla 9
(que es semejante a la tabla 8; aqu utilizamos un ejemplo ficticio, N = 10).

Tabla 9

En esta tabla 9: X = puntuaciones directas


f = frecuencia o nmero de casos
fa = frecuencias acumuladas
fam = frecuencias acumuladas al punto medio (fa-f/2)
fam/N= fam dividido por el nmero de sujetos (N)

El procedimiento lo hemos visto con ms detalle al ver el clculo directo


de los percentiles (tabla 6), y podemos recordar que:
a) Las frecuencias acumuladas divididas por el nmero de sujetos (fam/N)
indican la proporcin de sujetos que caen debajo de cada puntuacin
directa.
b) Si multiplicamos estas proporciones por 100, tenemos el tanto por
ciento de sujetos superados por cada puntuacin: en este ejemplo el

105
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

que tuviera una puntuacin directa de 39 supera al 60% de sujetos del


grupo; la puntuacin 39 corresponde en este caso al percentil 60. Tam-
bin es frecuente denominar percentil a la proporcin (sin multiplicar
por 100).

Una vez conocida la proporcin de sujetos que caen debajo de cada pun-
tuacin, se consulta en las tablas de la distribucin normal a qu puntua-
cin tpica corresponde esa proporcin4.
Por ejemplo: un sujeto con una puntuacin directa de 38 (en la tabla 9) su-
pera a una proporcin de sujetos del .25 ( 25%). En las tablas de la distribu-
cin normal una proporcin de .25 corresponde a una puntuacin tpica de
z = -.68: esta puntuacin tpica es ya una puntuacin tpica normalizada: es
la que correspondera a una puntuacin directa de 38 si suponemos que dis-
tribucin es normal.

6.2. Puntuaciones tpicas normalizadas y agrupadas: los estaninos y


otras puntuaciones

Un tipo de puntuaciones muy utilizado consiste en:


1 Agrupar estas puntuaciones tpicas en intervalos; el criterio para ha-
cer esta agrupacin es que cada intervalo comprenda una misma mag-
nitud en desviaciones tpicas.
2 Numerar estos intervalos de manera consecutiva, y esta numeracin es
la nueva puntuacin normalizada, y as tenemos los estaninos, pentas,
etc.

Con estas agrupaciones minimizamos pequeas diferencias inter-indivi-


duales y reducimos el nmero total de puntuaciones distintas; hacemos ms
manejable el uso e interpretacin de las puntuaciones de un test.
Las puntuaciones normalizadas (y las tipificadas) se utilizan mucho en la
interpretacin de tests, en evaluaciones de diverso tipo, y tambin como da-
to previo para pensar en una calificacin convencional, etc.

4
Podemos consultar las tablas de la distribucin normal o podemos acudir a alguna
fuente de Internet como Surfstat.australia: an online text in introductory Statistics
http://www.anu.edu.au/nceph/surfstat/surfstat-home/, buscamos en el men Tables y es-
cogemos Standard Normal (figura 13 en el captulo de la distribucin normal) y seala-
mos la curva identificada con la letra a; tambin a partir de la columna fam/N de la tabla 9
podemos identificar el estanino correspondiente como veremos en el prximo apartado.

106
TIPOS DE PUNTUACIONES INDIVIDUALES

6.2.1. Los estaninos5

Los estaninos dividen la distribucin normal en nueve intervalos cada uno


de los cuales comprende media desviacin tpica excepto los dos extremos
(el 1 y el 9).
Realmente cada estanino no es una puntuacin sino un intervalo relativa-
mente amplio. Al utilizar la desviacin tpica como unidad (.5 s en este caso)
una misma diferencia entre dos pares de estaninos equivale aproximadamen-
te a la misma diferencia en la variable que se est midiendo.

Tabla 10

5
El trmino estanino (stanine en ingls) se deriva del ingls STAndard NINE-point
scale, nueve puntuaciones tipificadas o estandarizadas; en espaol tambin se emplea el
trmino eneatipo, de la raz griega enea que significa nueve. Este tipo de puntuaciones lo
desarroll y populariz la Fuerza Area de EE. UU. en 1942, durante la segunda guerra
mundial. Para interpretar muchos tests nueve intervalos puede ser suficiente; adems se
pretenda que todas las puntuaciones fueran de una sola cifra.

107
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En la tabla 10 tenemos:
a) Los lmites de los estaninos en la distribucin normal, en puntuaciones
tpicas y en percentiles (aqu proporcin de casos que caen por deba-
jo en la distribucin normal). La primera columna de las puntuaciones
tpicas nos indica la puntuacin tpica que equivale a cada percentil en
la distribucin normal, pero como referencia para localizar las puntua-
ciones normalizadas es ms cmodo calcular las proporciones de la se-
gunda columna (que corresponden a la columna fam/N de la tabla 6)6.
b) El valor del estanino; se numeran los nueve intervalos. La media es 5
(intervalo central) y la desviacin vale 2 aproximadamente.
c) En la columna siguiente se puede observar cmo cada estanino compren-
de media desviacin tpica, excepto los dos extremos que quedan abiertos.
d) En la ltima columna tenemos el porcentaje de casos en cada estanino
en la distribucin normal.

Limitaciones de los estaninos.


a) Aunque de estanino a estanino podemos suponer que hay un incre-
mento idntico (de .5 s), esto no sucede en las puntuaciones extre-
mas, 1 y 9, pues tienen los lmites abiertos. En estas puntuaciones ex-
tremas puede haber sujetos muy distintos; se matiza menos en los
extremos de la distribucin y esto puede ser una limitacin (aunque es-
ta limitacin afecta a muy pocos sujetos).
b) Otra limitacin es que se pueden magnificar pequeas diferencias en
los casos lmite entre estaninos contiguos.
Si deseamos un nivel mayor de matiz (no siempre deseable) podemos cal-
cular puntuaciones tpicas normalizadas (consultando las tablas de la distri-
bucin normal) en las que a cada percentil le corresponde una puntuacin t-
pica, o podemos utilizar otros criterios para dividir la distribucin normal
(como puede verse ms adelante en la tabla 12).

Podemos calcular los estaninos de diversas maneras.


1. Si calculamos las puntuaciones tpicas de los sujetos y las agrupamos
en intervalos segn los lmites de cada estanino en puntuaciones tpicas (prime-
ra columna de la tabla 10), tendremos estaninos pero sin normalizar; este pro-
cedimiento es adems muy laborioso y no suele utilizarse.
2. Podemos ordenar las puntuaciones de ms a menos y seguimos los
porcentajes puestos en la ltima columna de la tabla 10: al 4% ms alto le asig-
namos el estanino 9, al 7 % siguiente el estanino 8, etc.

6
Tambin podramos utilizar la ltima columna de la tabla 8, sin multiplicar por 100.

108
TIPOS DE PUNTUACIONES INDIVIDUALES

3. Otra manera de calcular los estaninos es partir de la mediana:


1 Calculamos, como punto de partida, la mediana, la puntuacin que
divide al grupo en dos mitades iguales,
2 Al 10% por encima de la mediana y al 10% por debajo de la mediana,
se les asigna el estanino 5 (que es la media de los estaninos, la pun-
tuacin central),
3 Al 17% siguiente por encima se le asigna el estanino 6 y al 17% si-
guiente por debajo el estanino 4, y as sucesivamente.
Los estaninos pueden presentar el problema de que sujetos con idntica
puntuacin directa nos pueden quedar en estaninos distintos si queremos
mantener las proporciones exactas que corresponden a cada estanino; sin
embargo y de manera aproximada puede ser un sistema vlido con muestras
grandes.
4. El sistema ms cmodo es utilizar como referencia la columna de los
percentiles de la tabla 10 que seala los lmites de cada nueva puntuacin. En
esta columna tenemos la proporcin de casos que caen por debajo; son per-
centiles en sentido propio si multiplicamos estas proporciones por 100.
En la tabla 9 tenemos cmo hacerlo: calculamos la proporcin de casos
que caen por debajo de cada puntuacin directa y utilizamos estas proporcio-
nes o percentiles como lmites de los estaninos.
As por ejemplo:
Todas las puntuaciones directas (X) cuyo percentil sea superior a .226 e in-
ferior a .401, le asignaremos el estanino 4, que ser la nueva puntuacin nor-
malizada.
Si a una puntuacin directa le corresponde, por ejemplo, un percentil (o
frecuencia acumulada dividida por N) de .780, como .780 est entre 773 y
.894, le corresponder el estanino 7.
En ocasiones el percentil puede caer en el mismo lmite; si disponemos de
un cuarto decimal nos sacar de dudas.

6.2.2. Las pentas

Las pentas7 son puntuaciones anlogas a los estaninos, pero en este caso
dividimos todos los casos solamente en cinco intervalos, y cada penta com-
prende una desviacin tpica excepto en los dos extremos.
En la tabla 11 tenemos la informacin relativa a las pentas, semejante a la
de los estaninos.

7
Del griego, penta = cinco.

109
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Tabla 11

Como sucede con los estaninos, en las dos puntaciones extremas (5 1


en el caso de las pentas) pueden quedar igualados con la misma puntuacin
sujetos muy distintos entre s.
Naturalmente las pentas agrupan los datos en menos intervalos y se pier-
de ms informacin sobre cada sujeto, pero puede ser un sistema muy til si
no se desea gran precisin. Cuando los datos (de tests de diverso tipo) nos
vienen en percentiles puede ser de inters agrupar a los sujetos en grandes
bloques. Esto puede ser de ms inters cuando los datos provienen de tests o
cuestionarios de no gran calidad (pueden ser sobre actitudes, etc.) y no con-
viene exagerar pequeas diferencias individuales. En cualquier caso estos sis-
temas son con mucho preferibles a utilizar determinados percentiles como
puntos de corte, como si hubiera una unidad en los percentiles, sin tener en
cuenta su equivalencia en puntuaciones tpicas.

6.2.3. Otras puntuaciones normalizadas

Caben otras puntuaciones normalizadas que son en realidad puntuaciones


tpicas agrupadas con diversos criterios, pero siempre tomando la desviacin

110
TIPOS DE PUNTUACIONES INDIVIDUALES

tpica (o una fraccin) como criterio. En la tabla 12 vemos varios tipos de pun-
tuaciones que podemos comparar con facilidad.
Las puntuaciones tpicas y los percentiles que estn subrayados son los lmi-
tes de los estaninos, as el estanino 9 comienza a partir de z = + 1.75 o p = .959.
La escala 11 son los estaninos ya vistos, pero subdividiendo los intervalos
extremos donde puede haber sujetos muy diferentes; quedan en total 11 di-
visiones (de 0 a 10, o si se prefiere evitar el cero, de 1 a 11); puede ser una
buena alternativa a los estaninos y tambin es utilizada. La escala 20 (de 1 a
20, o de 0 a 19) es menos usual pero tiene un mayor nivel de matiz; cada in-
tervalo comprende .25 s.
Tabla 12
PUNTUACIONES NORMALIZADAS: LMITES Y EQUIVALENCIAS

Qu puntuacin normalizada debemos utilizar?


Depende de nuestro juicio prudencial, del nivel de matiz que deseemos.
Los estaninos son muy utilizados: nos dividen el grupo en nueve subgrupos;
nueve puntuaciones puede ser suficiente en muchos casos.

111
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Ya hemos indicado que una limitacin de los estaninos est en que en los
extremos (estaninos 1 y 9) puede haber sujetos muy distintos (y con mayor
razn en los pentas). Con la escala 11 matizamos mejor en los extremos (los
estaninos 9 y 1 se subdividen y quedan 11 puntuaciones distintas). Si nos bas-
ta una clasificacin menos matizada, podemos utilizar los pentas. En todos es-
tos casos se trata de puntuaciones agrupadas para minimizar pequeas dife-
rencias.
Lo que s es claro es que si se desea dividir un grupo en subgrupos segn
sus resultados en algn tipo de un test (no necesariamente para calificar) no
hay que buscar que cada subgrupo tengo un idntico nmero de sujetos. En
la tabla 13 tenemos un grupo dividido en cinco subgrupos segn dos crite-
rios. Los juicios verbales (muy bien, bien, etc.) son en este caso arbitrarios.

Tabla 13

En un caso tomamos los percentiles como unidad: 20% de sujetos en cada


subgrupo; en el otro caso utilizamos las pentas y consecuentemente el crite-
rio de divisin son las puntuaciones tpicas.
Este segundo caso (pentas en este ejemplo) es el que podemos conside-
rar correcto a pesar de la aparente lgica de dividir el grupo en cinco subgru-
pos con idntico nmero de sujetos. Dentro de cada subgrupo los sujetos es-
tn mejor igualados cuando el criterio de divisin es la desviacin tpica, sin
buscar el que haya un nmero idntico de sujetos en cada subgrupo.
Si el dato disponible es el percentil (como es frecuente o en cualquier ca-
so es de clculo sencillo) y queremos dividir el grupo en cinco subgrupos po-
demos utilizar como puntos de corte los percentiles que corresponden a las

112
TIPOS DE PUNTUACIONES INDIVIDUALES

puntuaciones tpicas que separan las pentas (por encima del percentil 93 co-
rresponde un 5, entre los percentiles 93 y 64, corresponde un 4, etc.) (tablas
11 y 12).

6.3. Percentiles normalizados: clculo de los percentiles a partir de la


media y de la desviacin tpica

Cuando de un grupo solamente conocemos la media y la desviacin tpi-


ca en cualquier test y deseamos dar a los sujetos una clave de interpretacin
individual, podemos hacerlo a partir de estos datos, calculando una serie de
percentiles normalizados.
Hemos visto que si conocemos el percentil correspondiente a una determi-
nada puntuacin directa, podemos ver en las tablas de la distribucin normal a
qu puntuacin tpica corresponde. Si una puntuacin deja por debajo el 84%
de los casos (o una proporcin de .84), ya sabemos que en la distribucin nor-
mal a esa puntuacin directa le corresponde una puntuacin tpica de z = 1
(porque por debajo de z =1 cae el 84% de los casos). A z = 0 (cuando la pun-
tuacin directa coincide con la media), le corresponder el percentil 50.
De manera inversa, si conocemos una puntuacin tpica, ya sabemos a qu
percentil corresponde en la distribucin normal: si un sujeto tiene una pun-
tuacin tpica de z = 1, ya sabemos que est en el percentil 84. Se trata de un
percentil normalizado: el que tendra ese sujeto si la distribucin fuera nor-
mal.

Sobre estos percentiles normalizados:


a) El clculo es muy sencillo: nos basta calcular las puntuaciones tpicas
de cada puntuacin directa y ver en las tablas el percentil correspon-
diente (en las tablas viene en forma de proporcin; multiplicamos por
100, redondeamos decimales, y ya tenemos el percentil en su expre-
sin habitual).
Por ejemplo si la media es igual a 20.5 y la desviacin tpica es igual a
3.5 A qu percentil corresponder una puntuacin directa de 21?
21-20.5
La puntuacin tpica de X = 21 ser igual a z= = .14
3.5
En las tablas vemos que por debajo de z = .14 cae una proporcin de
casos de .555; multiplicando por 100 y eliminando los decimales tene-
mos que a X = 21 le corresponde el percentil 55.
b) Al consultar las tablas no hay que olvidar que si la puntuacin tpica es
positiva encontraremos el percentil en el rea mayor, y si la puntua-
cin tpica es negativa, encontraremos el percentil en el rea menor.

113
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

c) Si la distribucin de las puntuaciones reales, observadas, se aparta no-


tablemente de la distribucin normal, estos percentiles pueden quedar
muy distorsionados. Con muestras razonablemente grandes el clculo
de estos percentiles normalizados tiene ms sentido.
d) Una utilidad clara de estos percentiles normalizados, y que es la que
realmente justifica este apartado, la tenemos cuando de un grupo s-
lo conocemos la media y la desviacin tpica en algn test o escala, y
deseamos preparar unas normas o baremos para interpretar las pun-
tuaciones individuales.
En estos casos nos puede bastar buscar las puntuaciones directas que
corresponden a una serie de percentiles previamente escogidos como
referencia suficiente. En la tabla 14 tenemos una serie de percentiles y
las puntuaciones tpicas que les corresponden en la distribucin nor-
mal; nuestra tarea ser localizar las puntuaciones directas (X) que co-
rresponden a esas puntuaciones tpicas.

Tabla 14

Ahora tenemos que calcular la puntuacin directa (X) que corresponda a


las puntuaciones tpicas seleccionadas:
X-X
Si z = tendremos que X = (s)(z)+X [6]
s
Como en [6] conocemos todos los valores (s, y z lo buscamos en la tabla
14), podemos calcular el valor de X, o puntuacin directa que corresponde a
determinados percentiles.

114
TIPOS DE PUNTUACIONES INDIVIDUALES

Por ejemplo, si la media es igual a 20.8 y la desviacin tpica es igual a 5:


La puntuacin directa correspondiente al Percentil
75: X = (3.5)(.67)+20.8 = 23.14 ( 23)
50: X = (3.5)(0) +20.8 = 20.8 ( 21)
25: X = (3.5)(-.67)+20.8 = 18.45 ( 18)

De esta manera podemos preparar con toda facilidad una tabla con los
percentiles normalizados que corresponden a una serie de puntuaciones di-
rectas; si un sujeto tiene una puntuacin directa que no coincide con ningu-
na de las escogidas, se puede estimar por interpolacin cul es su percentil
aproximado.

6.4. Equivalencias de diversos tipos de puntuaciones en la distribu-


cin normal

Ya hemos visto que en la distribucin normal se pasa fcilmente de unas


puntuaciones a otras; todas tienen su equivalente en otros sistemas. Podemos
visualizar esta equivalencia en la figura 5.

Figura 5

115
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

7. PUNTUACIONES TPICAS, Y SUS PUNTUACIONES DERIVADAS: RESUMEN

Las ventajas de las puntuaciones tpicas y de sus puntuaciones derivadas


(tipificadas, normalizadas) son muchas (ms claras en unos tipos de puntua-
ciones que en otros), por ejemplo:
a) Aunque las puntuaciones originales vengan de instrumentos distintos
(o de exmenes que difieren en dificultad, nmero o tipo de pregun-
tas), todas quedan homogeneizadas con idntica media, idntica des-
viacin e idnticas puntuaciones extremas posibles.
b) De manera intuitiva dicen ms que las puntuaciones directas originales,
porque sabemos cul es la media (sin calcularla) o cundo una puntua-
cin es muy extrema o atpica.
c) Consecuentemente permiten hacer comparaciones con facilidad (entre
sujetos, o entre varias puntuaciones del mismo sujeto, dnde est ms
alto, ms bajo, etc.).
d) Suelen ser puntuaciones cmodas para comunicar y explicar resultados
individuales;
e) Permiten calcular medias individuales cuando de los mismos sujetos se
disponen puntuaciones distintas, ya que se dispone de una unidad (la
desviacin tpica), y ninguna puntuacin parcial pesa ms que otra (to-
das tienen idntica desviacin tpica).
Las puntuaciones directas en cambio no suelen representar una es-
cala de unidades iguales, o lo hacen con menos propiedad que estas
puntuaciones. Las preguntas (o tems) no representan por lo general
unidades iguales, porque unas son ms fciles, otras ms difciles,
etc., no todas miden lo mismo, y como unidades de ciencia (o de
actitud, personalidad, etc.) resultan ambiguas.
f) La relacin de estas puntuaciones con la distribucin normal resulta
tambin muy til. Con facilidad podemos verificar en cuntas desvia-
ciones se aparta de la media cualquier resultado individual, y apreciar
as si se trata de un resultado normal, o poco frecuente, etc.
g) No hay que olvidar, sin embargo, que se trata de puntuaciones rela-
tivas al grupo y sobre todo si se trata de exmenes o pruebas que se
van a calificar, puede ser preferible apreciar el rendimiento en trmi-
nos absolutos (objetivos conseguidos), aunque en todo caso las pun-
tuaciones tpicas y sus puntuaciones derivadas, y otras como los per-
centiles, aportan una informacin complementaria que tambin es
til.

116
TIPOS DE PUNTUACIONES INDIVIDUALES

8. RESUMEN DEL CLCULO DE LAS PUNTUACIONES DERIVADAS

A partir de una distribucin de frecuencias es muy sencillo calcular todas


las puntuaciones que hemos viendo y otras variantes. Podemos visualizar el
proceso en el esquema-resumen de la figura 6.

Figura 6

117
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Por qu hacemos estas transformaciones:


Disponemos de una nueva media y de una nueva desviacin tpica (ex-
cepto en el caso de los percentiles en los que no se calculan estas medi-
das) que son siempre las mismas cualquiera que sea la magnitud de las
puntuaciones originales; unificamos el tipo de medida, los valores extre-
mos posibles son los mismos, etc., y todo esto:
facilita la comunicabilidad de los datos;
facilita su interpretacin:

1 Tenemos ms informacin:
Localizamos puntuaciones atpicas (puntuaciones tpicas extre-
mas), Situamos al sujeto dentro de su grupo (posicin relativa;
percentiles).
2 Podemos hacer comparaciones aunque los datos se recojan con
instrumentos distintos:
entre sujetos
intra-individuales

Por este tipo de razones los diversos tipos de puntuaciones constitu-


yen el lenguaje de los tests (de inteligencia, de habilidades, de personali-
dad, de actitudes, etc.); las normas o baremos de interpretacin vienen
expresadas en alguna de estas puntuaciones. Tambin son tiles en el
contexto de la evaluacin.

118
CAPTULO 5
CONCEPTO DE CORRELACIN Y COVARIANZA

1. CONCEPTO DE CORRELACIN Y COVARIANZA

1.1. Relacin y variacin conjunta

El concepto de relacin en estadstica coincide con lo que se entiende


por relacin en el lenguaje habitual: dos variables estn relacionadas si varan
conjuntamente. Si los sujetos tienen valores, altos o bajos, simultneamente
en dos variables, tenemos una relacin positiva. Por ejemplo peso y altura en
una muestra de nios de 5 a 12 aos: los mayores en edad son tambin los
ms altos y pesan ms, y los ms jvenes son los que pesan menos y son ms
bajos de estatura; decimos que peso y altura son dos variables que estn re-
lacionadas porque los ms altos pesan ms y los ms bajos pesan menos. De-
cimos por lo tanto que existe relacin en la medida en que los sujetos ocu-
pan la misma posicin relativa en las dos variables.
Si los valores altos en una variable coinciden con valores bajos en otra va-
riable, tenemos una relacin negativa; por ejemplo edad y fuerza fsica en
una muestra de adultos de 30 a 80 aos de edad: los mayores en edad son los
menores en fuerza fsica; hay una relacin, que puede ser muy grande, pero
negativa: segn los sujetos aumentan en una variable (edad) disminuyen en
la otra (fuerza fsica).
La correlacin se define por lo tanto por la co-variacin (co = con, jun-
tamente: variar a la vez). Correlacin y covarianza son trminos concep-
tualmente equivalentes, expresan lo mismo. La covarianza es tambin una
medida de relacin, lo mismo que el coeficiente de correlacin. Habitual-
mente se utiliza el coeficiente de correlacin (r de Pearson), pero es til en-
tender simultneamente qu es la covarianza, y entenderlo precisamente en
este contexto, el de las medidas de relacin.

119
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El concepto de relacin y qu se mide exactamente con estos coeficientes,


lo veremos mejor con un ejemplo (tabla 1) donde tenemos los datos de tres
situaciones o casos distintos:
1) En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver
todos los datos con facilidad) con puntuaciones en dos variables, X (un
test de inteligencia) e Y (una prueba objetiva de rendimiento).
2) Junto a la puntuacin de cada sujeto en las dos variables, X e Y, pone-
mos su nmero de orden: 1 al que tenga la puntuacin ms alta, 2 al
que tenga la siguiente ms alta, etc.:

Tabla 1

En el caso 1 la relacin es positiva y la mxima posible (los sujetos tienen


el mismo orden en X e Y); si el orden es inverso, como en el caso 2, tenemos
tambin una relacin, pero negativa. Esta variacin conjunta o co-varia-
cin, puede ser clara y alta (como en los casos 1 y 2 de la tabla 1), puede ser
moderada o baja o puede no haber relacin (como en el caso 3).

1.2. Los diagramas de dispersin

La representacin grfica de estos pares de puntuaciones se denomina


diagrama de dispersin, y tambin nos ayuda a entender el mismo con-
cepto de relacin (ejemplos en la figura 1).
Cada punto representa la posicin de un sujeto (donde confluyen sus dos
puntuaciones). En la medida en que hay relacin, los puntos tienden a situar-
se en una recta diagonal; cuando no hay relacin o es muy pequea la nube
de puntos aparece sin una direccin clara.

120
CONCEPTO DE CORRELACIN Y COVARIANZA

Figura 1
DIAGRAMAS DE DISPERSIN

Y Y Y Y

X X X X
relacin positiva alta relacin positiva relacin negativa alta ausencia de relacin
moderna

1.3. Otras maneras de visualizar la correlacin

Los diagramas de dispersin (como los de la figura 1) nos permiten ver


con facilidad qu entendemos por correlacin (o simplemente relacin), pe-
ro otras maneras de presentar los datos tambin son tiles para visualizar y
comunicar la relacin entre dos variables.
En la tabla 2 tenemos un ejemplo real. Los mismos alumnos han respondi-
do a dos series de cinco preguntas:
a) cinco preguntas sobre datos dicotmicos (respuestas1 0; p y q)
b) cinco preguntas sobre la interpretacin de los percentiles.

En la tabla 2 podemos ver con facilidad que a mayor nmero de respues-


tas correctas sobre datos dicotmicos corresponde una media ms alta en las
preguntas sobre percentiles. Los alumnos que saben ms y menos de ambos
temas, tienden a ser los mismos (los que responden correctamente las 5 pre-
guntas sobre datos dicotmicos tienen una media de 3.9 en las preguntas so-
bre percentiles, etc.) .

Tabla 2

121
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Tambin podemos reducir la informacin a un cuadro de doble entrada,


como tenemos en la tabla 3. Tenemos a los mismos alumnos clasificados con
estos criterios:
a) Nmero de frmulas que recuerdan de memoria sin haberlas estudia-
do, puestas al final de un examen y sin contar para nota. Los alumnos
estn divididos en dos grupos, los que recuerdan 5 6 frmulas y los
que recuerdan 4 o menos.
b) Nmero de respuestas correctas en el examen de 45 preguntas: 37 o
ms y 36 o menos.

En la tabla 3 figura el nmero y el tanto por ciento de alumnos en cada cla-


sificacin; el tanto por ciento est referido a los dos totales segn el nmero
de frmulas recordadas: el 67 % de los que recuerdan 5 6 frmulas tienen
37 o ms respuestas correctas en el examen, frente a slo el 33 % de los que
tienen 36 o menos respuestas correctas.
Es clara la relacin entre frmulas recordadas de memoria y buenos re-
sultados en el examen.

Tabla 3

En esta disposicin de los datos hemos dicotomizado el grupo por la me-


diana de respuestas correctas (15 alumnos 36 o menos y otros 15 alumnos
37 o ms). Con este planteamiento (sujetos agrupados en categoras) caben
otros anlisis que veremos en al captulo del ji cuadrado.

1.4. Correlacin, covarianza y dispersin: importancia de las diferencias

Es importante caer en la cuenta desde el principio de la importancia de


las diferencias interindividuales para poder comprobar relaciones: sin dife-
rencias en los sujetos (u objetos) no podemos ver relaciones. Sin diferencias

122
CONCEPTO DE CORRELACIN Y COVARIANZA

en las dos variables no podemos encontrar variacin conjunta: si todos los


sujetos tienen idntica puntuacin en X no podemos ver si los altos en X son
tambin altos en Y, porque en X son todos iguales.
Si, por ejemplo, queremos comprobar si la altura est relacionada con la
capacidad de encestar (jugando al baloncesto) necesitaremos jugadores de
distintas alturas, para ver si los ms altos encestan ms y los ms bajos ences-
tan menos. Si todos los jugadores tienen la misma altura, no podemos com-
probar esa relacin; no podemos comprobar si las diferencias en altura se co-
rresponden con diferencias en la habilidad de encestar porque todos tienen
idntica altura. Y tambin necesitaremos que unos encesten ms y otros me-
nos. Los sujetos deben ser distintos en las dos caractersticas cuya relacin
queremos comprobar.
La correlacin y la covarianza dicen de dos variables lo mismo que la va-
rianza (o la desviacin tpica) dice de una variable: hasta qu punto los suje-
tos son distintos simultneamente en las dos variables. De la misma manera
que la varianza es una medida de dispersin en una variable, la correlacin
(y la covarianza) son tambin medidas de dispersin, pero de dos variables
tomadas a la vez.

1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r


de Pearson

El coeficiente de correlacin comprueba y cuantifica solamente relaciones


lineares, como las expresadas en los ejemplos y diagramas de dispersin an-
teriores. No comprueba por lo tanto relaciones curvilneas, las que expresa-
das grficamente mostraran una curva. Por ejemplo la relacin entre edad
(tomando un espectro amplio de edades) y fuerza fsica sera curvilnea: pri-
mero sera positiva (a ms edad mayor fuerza fsica), y luego negativa (a ma-
yor edad, menos fuerza).

1.6. Tipos de variables con las que se puede utilizar el coeficiente r


de Pearson

Para poder utilizar el coeficiente de correlacin r de Pearson: las dos varia-


bles deben ser:
a) Las dos continuas,
b) Una continua y otra dicotmica (1 0).
c) Las dos dicotmicas (1 0).

La correlacin entre una variable continua y otra dicotmica se deno-


mina correlacin biserial-puntual (rbp) pero el clculo y la interpretacin

123
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

son los mismos que cuando las dos variables son continuas (y podemos utili-
zar calculadoras y programas informticos que tienen ya programada la corre-
lacin r de Pearson).
Cuando las dos variables son dicotmicas no se trata propiamente del co-
eficiente de Pearson (en principio referido a dos variables continuas) sino del
coeficiente f (fi); se puede incluir aqu porque realmente equivale al coefi-
ciente de Pearson calculado con datos dicotmicos aunque tambin tiene fr-
mulas especficas1. Tambin tiene sus peculiaridades (el valor mximo no es
siempre 1). En un apartado final (n 7) explicamos brevemente ste y otros ti-
pos de coeficientes de relacin.

2. L A MEDIDA DE LA RELACIN

2.1. Cmo cuantificamos o medimos el grado de relacin

Es sencillo y til entender cmo podemos cuantificar (medir) esta varia-


cin conjunta y adems ayuda a la comprensin e interpretacin de estas
medidas de relacin.

Si las dos variables estn los sujetos tendern a estar por


relacionadas y esta relacin encima o por debajo de la media en
es positiva las dos variables a la vez

Si las dos variables estn los sujetos tendern a estar por


relacionadas y esta relacin encima de la media en una variable y
es negativa por debajo de la media en la otra
variable
Si las dos variables no estn el estar por encima o por debajo de
relacionadas la media en una variable es
independiente del estar por encima
o por debajo de la media en la otra
variable
Este estar por encima o por debajo de la media en dos variables simul-
tneamente nos va a permitir cuantificar el grado de relacin, tal como se ex-
plica en la figura 3. Lo explicamos por pasos:
1 La distancia, o diferencia, de un sujeto con respecto a la media pode-
mos expresarla de dos maneras:

1
Si en una calculadora con programacin estadstica introducimos unos y ceros, el
valor de r que nos d es el valor de f, por eso tiene sentido incluir aqu este coeficiente.

124
CONCEPTO DE CORRELACIN Y COVARIANZA

En puntuaciones directas (restando cada d = (X - X)


puntuacin de la media)
En puntuaciones tpicas (la misma
(X - X)
diferencia pero dividida por z =
s
la desviacin tpica):
Estas diferencias con respecto a la media (puntuaciones diferenciales)
(en la figura 3 slo estn puestos los signos de la diferencia):
sern positivas si la puntuacin directa (X) es superior a la media (X),
sern negativas si la puntuacin directa (X) es inferior a la media (X)
2 Si a cada sujeto le multiplicamos sus dos puntuaciones diferenciales
(dxdy o zxzy) tendremos que unas veces los productos tendrn signo ms y
otras signo menos
a) Cuando hay relacin positiva: todos los productos (o la mayora, de-
pender del grado de relacin) sern de idntico signo positivo (ms
por ms y menos por menos = ms);
b) Cuando hay relacin negativa: los productos sern de idntico signo
negativo (ms por menos o menos por ms = menos);
c) Cuando no hay relacin: unos productos sern de idntico signo y
otros de distinto signo.

Figura 3

125
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

3. La suma de los productos cruzados de las puntuaciones diferenciales


(directas Sdxdy tpicas Szxzy), ya nos est indicando el grado de relacin; la
suma ser mayor (con signo ms o signo menos) cuando haya una mayor re-
lacin porque habr ms sumandos de idntico signo. La mera suma de estos
productos no nos es muy til porque no podemos compararla con otras su-
mas, pero si la dividimos por el nmero de sujetos lo que tenemos es una me-
dia comparable con cualquier otra media obtenida con un nmero distinto de
sujetos (esta explicacin figura en la figura 3).
Si dividimos esta suma por el nmero de sujetos (= media de los produc-
tos cruzados) tenemos la frmula de la covarianza (utilizando puntuaciones
directas) o de la correlacin (utilizando puntuaciones tpicas).

Covarianza: [1] Correlacin: [2]

Por lo tanto correlacin (smbolo rxy o simplemente r) y covarianza (sm-


bolo sxy) expresan lo mismo: cuantifican el grado de covariacin y a ese gra-
do de covariacin le denominamos relacin. Realmente el coeficiente de
correlacin no es otra cosa que la covarianza calculada con puntuacio-
nes tpicas.
Correlacin y covarianza se relacionan mediante estas frmulas:
sxy
rxy (correlacin) = [3] sxy (covarianza) = rxy sxsy [4]
sx sy
Como medida de relacin se pueden utilizar tanto la covarianza como el
coeficiente de correlacin (r de Pearson). El utilizar preferentemente el coe-
ficiente de correlacin se debe a estas razones:
1) El utilizar puntuaciones tpicas permite comparar todo con todo; dos
coeficientes de correlacin son comparables entre s cualquiera que
sea la magnitud original de las puntuaciones directas. La magnitud
de la covarianza va a depender de la unidad utilizada y no se pueden
comparar dos covarianzas, para comprobar dnde hay mayor relacin,
cuando las unidades son distintas.
2) El coeficiente de correlacin r vara entre 0 (ausencia de relacin) y un
valor mximo de 1 (con signo + -). El que los valores extremos sean
0 y 1 facilita el uso y la valoracin de la magnitud de estos coeficientes.
La demostracin de que el valor mximo de r es igual a 1 (1) es sencilla:
1 La suma de las puntuaciones tpicas elevadas al cuadrado es igual al
nmero de sujetos (N):

126
CONCEPTO DE CORRELACIN Y COVARIANZA

2 Si se diera una relacin perfecta, tendramos que para cada sujeto


zx = zy con lo que zxzy sera igual a z2, y como Sz2 = N, tendramos
que:

2.2. Otras frmulas y procedimientos

Hay muchas frmulas, pero todas equivalen a la frmula bsica (frmula


[2]: rxy = (Szxzy)/N). Esta frmula bsica es muy laboriosa de clculo. Hay
otras frmulas ms sencillas en las que slo se utilizan puntuaciones directas,
pero tampoco resultan prcticas, ya que la correlacin puede encontrarse ya
programada en muchas calculadoras sencillas (y en hojas de clculo y en pro-
gramas de ordenador o de Internet).
Si se dispone de una calculadora con la desviacin tpica programada, una
frmula sencilla es sta:

[5]

Para el clculo disponemos los datos tal como estn en la tabla 4

Tabla 4

Se calculan las desviaciones de las dos variables y de la suma de ambas y se


aplica la frmula anterior [5]:

Esta frmula puede ser la ms cmoda cuando tenemos pocos sujetos y


una calculadora con programacin estadstica; con muestras grandes, o cuan-
do hay calcular varios coeficientes con los mismos datos, hay que acudir a ho-
jas de clculo o a programas de ordenador, que es lo que haremos habitual-
mente.

127
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

3. INTERPRETACIN DEL COEFICIENTE DE CORRELACIN R DE PEARSON

En principio la interpretacin del coeficiente de correlacin es sencilla;


nos basta mirar los diagramas de dispersin ( figura 1) para caer en la cuenta de
qu estamos cuantificando o midiendo: en qu grado ambas variables va-
ran conjuntamente (es decir, en qu grado estn relacionadas).
En este apartado recogemos de manera ms sistemtica todo aquello que
nos puede ayudar a interpretar y a aprovechar los coeficientes de correlacin
que nos encontremos. Hay informacin que es obvia y viene dada por el mis-
mo coeficiente; otro tipo de informacin adicional podemos extraerlo de los
datos que ya tenemos, y por ltimo hay hiptesis y conjeturas razonables
que pueden enriquecer la interpretacin o nos pueden poner en la pista pa-
ra buscar otras cosas.
De alguna manera este apartado viene a ser una gua que podemos repa-
sar cuando nos interese, para interpretar y utilizar mejor la informacin que
nos aportan los coeficientes de correlacin.

3.1. Interpretacin bsica

a) El coeficiente de correlacin expresa en qu grado los sujetos (u obje-


tos, elementos) estn ordenados de la misma manera en dos varia-
bles simultneamente.
b) Los valores extremos son 0 (ninguna relacin) y 1 (mxima rela-
cin).
Si r = 1, el orden (posicin relativa) de los sujetos es el mismo en las
dos variables. Aunque hablaremos despus sobre cmo valorar la
magnitud de estos coeficientes, si los valores extremos son 0 y 1 ( -1),
ya podemos ver que coeficientes prximos a 0 expresan poca relacin,
y los coeficientes cercanos al 1 expresan mucha relacin.
c) La magnitud del coeficiente es independiente del signo.
r =-.95 expresa ms relacin que r = +.75; el que la relacin sea po-
sitiva o negativa es algo distinto de que sea grande o pequea.
d) Dos tems (o sujetos, variables, etc.) que tengan entre s una relacin
muy alta, pueden ser valorados de manera muy distinta en trminos
absolutos. En este punto hay con cierta frecuencia errores de interpre-
tacin.
El suponer que una correlacin muy alta entre dos variables quiere de-
cir que las dos tienen una media parecida es un error muy comn;
una correlacin alta significa simplemente que las dos variables son or-
denadas de manera parecida, pero no que tengan valores absolutos
parecidos.

128
CONCEPTO DE CORRELACIN Y COVARIANZA

Lo vemos con facilidad en un ejemplo ficticio. Supongamos que cuatro


sujetos valoran en una escala de 1 (no me gusta nada) a 6 (me gusta
mucho) a tres personajes polticos o a tres profesores (y as vemos un
ejemplo en el que no hay tests ni exmenes; tabla 5):

Tabla 5

El coeficiente de correlacin entre A y B es exactamente r = 1, la mxi-


ma relacin posible; sin embargo sus medias son muy distintas: el per-
sonaje A tiene una media de 5.5 (muy alta en una escala de 1 a 6, gusta
a todos) y el personaje B muy baja (1.5, no gusta a nadie). Lo que suce-
de es que los que valoran mejor al personaje A tambin valoran mejor
(en trminos relativos) al personaje B y viceversa: los sujetos que valo-
ran menos al personaje A tambin valoran menos al personaje B.
El personaje C tiene una media de 4, su relacin con A es r = 0 y su re-
lacin con B es tambin r = 0: cmo valoran los sujetos a los persona-
jes A y B no tiene nada que ver con cmo valoran al personaje C2.
En la tabla 6 tenemos otro ejemplo de cuatro alumnos con calificacio-
nes en cuatro asignaturas.

Tabla 6

En este ejemplo:
Una tentacin es afirmar que entre Fsica y Matemticas hay una rela-
cin muy alta, sin embargo la correlacin entre Fsica y Matemticas es
cero; no se puede decir que los alumnos tengan el mismo orden en las

2
Si quisiramos medir la proximidad o parecido en valores absolutos entre estos
personajes, habra que utilizar otra tcnica que se estudia en relacin con el Diferencial
Semntico de Osgood, la denominada distancia euclidiana (simbolizada D; puede verse
Morales, Urosa y Blanco, 2003, pg. 38). Un coeficiente de correlacin alto indica orden se-
mejante, no medias semejantes.

129
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

dos asignaturas porque no hay orden, no se puede ordenar a los que


estn igualados. Necesitaramos calificaciones distintas en las dos asig-
naturas para verificar si coinciden en ambas asignaturas los que estn
mejor o peor.
La correlacin entre Historia y Lengua es la mxima posible (r = 1),
porque los alumnos tienen el mismo nmero de orden en ambas asig-
naturas; sin embargo en trminos absolutos las calificaciones no se pa-
recen: son muy altas en Historia y muy bajas en Lengua.
e) Un coeficiente de correlacin no equivale a una proporcin.
Una correlacin de r =.50 no quiere decir que haya un 50% de varia-
bilidad comn o de varianza comn entre las dos variables.
f) No es necesario que las dos variables (X e Y) estn medidas en la mis-
ma escala o en las mismas unidades, ya que, como hemos visto, el
clculo se hace a partir de puntuaciones tpicas.
La correlacin entre edad y peso o entre pluviosidad y altura sobre el
nivel del mar (en este caso los sujetos seran comarcas) oscilar entre
0 y 1 aunque todas estas variables se midan con unidades muy diferen-
tes (esto no sucede con la covarianza, en la que mantenemos las uni-
dades originales). De la misma manera podemos calcular la correlacin
entre un test de rendimiento de 50 preguntas y la actitud hacia el estu-
dio medida con una sencilla escala, etc.
g) En los coeficientes de correlacin no hay unidad en sentido propio.
Por esta razn un coeficiente de .50 no expresa el doble de relacin
que otro de .25. La distancia en relacin es mayor entre dos coeficien-
tes altos que entre dos coeficientes bajos.
Veremos la diferencia entre dos coeficientes con ms exactitud si los
elevamos al cuadrado: entre .95 y .90 (coeficientes muy altos, .952 -
.902 = .0925) hay una mayor distancia que entre .15 y .10 (coeficientes
muy bajos, .152 - .102 = .0125). Este punto lo veremos al hablar del co-
eficiente de determinacin.
h) La correlacin de una variable (como un test de inteligencia) con un
criterio (por ejemplo un examen) se denomina frecuentemente coefi-
ciente de validez.
El trmino validez aplicado a los tests es mucho ms complejo y tiene
ms significados; en este caso se trata de un simple coeficiente de co-
rrelacin entre dos variables.
i) La correlacin entre dos variables es relativa a los instrumentos utili-
zados.
Cuando decimos que la inteligencia tiene una correlacin determina-
da con rendimiento acadmico, habra que especificar inteligencia
tal como la mide ese test rendimiento tal como lo mide este tipo
de examen

130
CONCEPTO DE CORRELACIN Y COVARIANZA

No medimos rasgos o caractersticas puras o abstractas, por eso los coe-


ficientes de correlacin hay que interpretarlos teniendo en cuenta c-
mo han sido medidos esos rasgos. Cuando decimos que la autocon-
fianza est relacionada con el rendimiento acadmico, hay que
sobrentender tal como medimos o expresamos estas variables con es-
tos instrumentos. sta es una razn (entre otras) por la que entre las
mismas variables podemos encontrar coeficientes de correlacin muy
distintos: a veces (cuando las medimos con instrumentos distintos) no
se trata realmente de las mismas variables exactamente, salvo en un
sentido muy genrico.

3.2. Correlacin y causalidad

La causalidad merece un comentario especfico porque en el contexto de la


correlacin es fcilmente fuente de errores de interpretacin (al menos es una
tentacin el interpretar algunas correlaciones como pruebas de causalidad).
El concepto de causa es complejo y el lugar propio para su estudio est
ms en la filosofa que en los anlisis estadsticos. En nuestro contexto pode-
mos dar una definicin puramente operacional de causalidad para su uso li-
mitado a la investigacin experimental: establecemos una relacin de causa
a efecto cuando podemos mostrar que una variable independiente sistem-
ticamente produce cambios (influye) en una variable dependiente, una
vez controlado el influjo de otras variables extraas.
Con esta nocin de causalidad s podemos hacer unos comentarios sobre
correlacin y causalidad.
a) Una correlacin no puede interpretarse como prueba de una relacin
causal; el que dos variables covaren, se den juntas, no quiere decir
que una sea causa de la otra. Una correlacin s nos puede dar pistas
para proponer hiptesis sobre posibles relaciones causales.
Aunque de hecho hubiera una relacin de causa a efecto, esta relacin
no queda demostrada por un coeficiente de relacin.
b) Para poder hablar de causalidad, al menos como hiptesis, hay que po-
der excluir otras explicaciones. Frecuentemente la explicacin de por
qu dos variables estn relacionadas entre s es que ambas estn a su
vez relacionadas con una tercera variable (que tampoco es necesaria-
mente causa de las otras dos pero s puede ser una buena explica-
cin). Peso y altura estarn relacionadas en una muestra de nios de 2
a 10 aos porque tanto el peso como la altura estn relacionados con la
edad.
c) El coeficiente de correlacin trata las dos variables como simtricas:
nos da lo mismo calcular la correlacin de A con B que la de B con A. Si

131
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

furamos a interpretar un coeficiente de correlacin como indicador


de una relacin de causa a efecto, no sabramos cul es la causa y cul
es el efecto en funcin solamente de ese coeficiente. Si entre fumar y
enfermedades coronarias encontramos una relacin alta, podramos
concluir que las enfermedades coronarias son la causa del fumar En
ejemplos no tan obvios es fcil cometer errores de interpretacin y dar
por establecidas relaciones de causa a efecto sin fundamento.
d) Para establecer relaciones de causa-efecto, al menos como hiptesis ra-
zonable, se requieren cuatro condiciones:
1 Que a un aumento en el predictor (supuesta causa) se siga un
aumento en el criterio (supuesto efecto);
2 Que se puedan excluir otras explicaciones plausibles;
3 Que se pueda establecer algn tipo de teora o justificacin que ex-
plique la relacin causal;
4 Que se pueda replicar el mismo resultado en otras poblaciones y
con otras caractersticas3.
Por lo general en estos estudios (para verificar hiptesis causales) se utili-
zan diseos experimentales y no simples estudios correlacionales, que por
otra parte pueden ser buenos estudios piloto que pueden a su vez orientar
otros tipos de investigacin.

3.3. Cmo calcular la media de varios coeficientes de correlacin

Como no hay una unidad en sentido propio no se debera calcular en


principio la media aritmtica de varios coeficientes; por otra parte es til la in-
formacin que puede darnos una media de varios coeficientes de correlacin.
El mtodo tradicional que se suele proponer en muchos textos para cal-
cular una correlacin media es el siguiente:
1 Se transforma el valor de r en el valor Z de Fisher (el smbolo es zeta
mayscula; hay tablas apropiadas);
2 Se opera con estos valores Z (se calcula el valor medio de Z);
3 El valor de Z resultante se reconvierte en un valor de r (con las mismas
tablas), que ser en este caso la verdadera correlacin media.

Sin embargo esta prctica habitual se puede substituir sin especial proble-
ma por el simple clculo de la media aritmtica: si disponemos de varios co-
eficientes de correlacin calculados en muestras distintas, la mejor estima-
cin de la correlacin en la poblacin es la media ponderada de los distintos
coeficientes:

3
Light, Singer y Willett, (1990)

132
CONCEPTO DE CORRELACIN Y COVARIANZA

[6]

Tenemos, por ejemplo, estos dos coeficientes de correlacin calculados en


las mismas dos variables en dos muestras distintas:
En una muestra de N = 60 r = .45
En una muestra de N = 120 r = .30
Correlacin media:

Esta media ponderada es de clculo sencillo, de fcil comprensin y no


distorsiona ms la verdadera media que lo que la distorsiona la transforma-
cin de Fisher4. Si el nmero de sujetos es el mismo se calcula directamente
la media aritmtica.
Tambin es frecuente utilizar la mediana en vez de la media (el uso de la
mediana es siempre apropiado) cuando se dispone de una serie de coeficien-
tes de correlacin y se quiere indicar una medida de tendencia central.
Como siempre que se utiliza la mediana en vez de la media hay que re-
cordar dnde est la diferencia entre ambos estadsticos. Como la mediana es
simplemente el valor central que divide a la muestra (de coeficientes en este
caso) en dos mitades iguales, no se ve afectada por valores extremos que s se
influyen y se notan en la media. Unos pocos coeficientes atpicos (o muy al-
tos o muy bajos), o un solo coeficiente muy atpico, pueden sesgar la media
como valor representativo en una direccin. En estos casos puede ser prefe-
rible utilizar la mediana, o ambos valores, la media y la mediana.

3.4. El coeficiente de determinacin

El coeficiente de correlacin elevado al cuadrado (r2) se denomina coefi-


ciente de determinacin e indica la proporcin (o porcentaje si multipli-
camos por 100) de variabilidad comn: indica la proporcin de varianza de
una variable determinada por o asociada a la otra variable.
En trminos ms simples, r2 indica el tanto por ciento (r2 x 100) de acuer-
do, de rea comn o de variabilidad comn entre ambas variables. Un co-
eficiente de r = .50 indica un 25% de varianza comn entre ambas variables
(.502 =.25). Una correlacin de r = .50 entre un test de inteligencia abstracta

4
La transformacin de Fisher tiene un sesgo positivo: la media resultante es ligeramen-
te mayor de lo que debera ser. Con la media ponderada por el nmero de sujetos (frmula
[6]) la media que resulta es ligeramente menor, pero la desviacin es menor en trminos ab-
solutos que la que provoca la transformacin de Fisher, y con muestras grandes (a partir de N
= 40) el margen de error es muy bajo y slo afecta al tercer decimal (Hunter y Schmidt, 1990).

133
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

y rendimiento en matemticas, indica que el 25% de las diferencias en mate-


mticas (propiamente el 25% de la varianza en matemticas) tiene que ver
con (depende de o se explica por) las diferencias en el test de inteligencia
abstracta. Un coeficiente de .30 expresa solamente un .302 o un 9% de variabi-
lidad en una variable asociada a la variabilidad o diferencias en la otra variable.
Los valores de r2 s pueden compararse entre s directamente; por ejemplo:
r = .20 indica un 4% de acuerdo entre las dos variables (.202 =.04);
r = .40 indica un 16% de acuerdo entre las dos variables (.402 =.16);
r = .60 indica un 36% de acuerdo entre las dos variables (.602 =.36).

Se ve con claridad que de r =.60 a r =.40 (del 16% al 36%) hay ms distan-
cia que de r =.40 a r =.20 (del 16% al 4%), aunque aparentemente las dife-
rencias sean idnticas (de .20). El elevar al cuadrado el valor del coeficiente
de correlacin ayuda a interpretarlo.
Los valores de r bajan drsticamente cuando los trasformamos en r2 y esto
puede hacernos pensar que las correlaciones bajas son de menor importancia.
Por ejemplo r = .32 significa solamente un 10% (.322) de varianza comn; muy
poco, solamente el 10% de la variabilidad (o de las diferencias) en una variable
est asociada a diferencias en otra variable. A pesar de esto no conviene infrava-
lorar la importancia potencial de los coeficientes pequeos pues pueden apor-
tar informacin de mucho inters o decir ms de lo que parece (lo veremos al
tratar de la valoracin de la magnitud de estos coeficientes). Aun as y en tr-
minos generales, los coeficientes ms bien bajos (inferiores a .30) suelen tener
poco inters prctico aunque si son estadsticamente significativos (qu signi-
fica esta expresin lo vemos en el prximo apartado) se pueden prestar a una
buena elaboracin terica e interpretativa.

3.5. La significacin estadstica de los coeficientes de correlacin

3.5.1. Qu es un coeficiente de correlacin estadsticamente


significativo

Lo primero en lo que solemos fijarnos es en la magnitud del coeficiente


de correlacin. Antes podemos comprobar si el coeficiente es mayor de lo
que se puede esperar por puro azar.5

5
Hasta aqu hemos tratado de la correlacin dentro de la estadstica descriptiva;
ahora estamos ya en estadstica inferencial, tema que retomaremos al tratar del error t-
pico de la media y del contraste de medias. En muchos textos la estadstica meramente
descriptiva y la estadstica inferencial se tratan en captulos o partes distintas; aqu preferi-
mos tratar conjuntamente todo lo referido a la correlacin, al menos lo que juzgamos ms
importante para interpretar adecuadamente estos coeficientes.

134
CONCEPTO DE CORRELACIN Y COVARIANZA

Podemos entenderlo con un ejemplo muy simple. Entre dos variables ob-
viamente no relacionadas (como da de nacimiento y nmero de plantas
que uno tiene en su casa) difcilmente obtendremos r = 0.0000. Por simple
casualidad obtendremos algn valor, positivo o negativo, distinto de cero.
Con 5 sujetos un valor de r =.30 puede ser casual (una mera coincidencia;
un sujeto con muchas ventanas en su casa naci a finales de mes) y en cam-
bio con 100 sujetos es muy improbable obtener r =.20 por casualidad, sin
que exista alguna relacin. Ya podemos intuir que con pocos sujetos necesi-
taremos un valor mayor para poder rechazar la casualidad, y que con mu-
chos sujetos un valor pequeo es muy improbable que sea casual (o explica-
ble por el error muestral, en trminos ms propios).

3.5.2. El modelo terico

Es importante entender el modelo terico en el que nos basamos para lle-


gar a la conclusin de que un coeficiente de correlacin es mayor de lo que
podramos esperar por azar y poder afirmar por lo tanto que con toda proba-
bilidad expresa una verdadera relacin (o correlacin estadsticamente sig-
nificativa). El mismo modelo lo veremos tambin en planteamientos seme-
jantes. Lo exponemos paso a paso, de manera muy sucinta.
1) Suponemos que calculamos el coeficiente de correlacin entre dos varia-
bles que no estn relacionadas (podemos pensar en el ejemplo anterior,
da de nacimiento y nmero de plantas que uno tiene en su casa).
2) Suponemos tambin que esta correlacin la calculamos en un nmero
muy grande de muestras (realmente no calculamos nada, se trata de un
modelo terico).
3) Aunque la correlacin esperada sea igual a cero (estamos suponiendo
que no hay relacin) no siempre obtendremos r = 0; por puro azar
unas veces tendremos una correlacin distinta de cero y positiva y
otras veces tendremos una correlacin distinta de cero y negativa,
aunque lo normal es que se trate de valores muy pequeos.
4) Al calcular muchos coeficientes de correlacin entre estas dos variables
que no estn relacionadas tendremos una distribucin normal de los
coeficientes de correlacin. Esta distribucin tendr su media y su des-
viacin tpica.
5) Estas distribuciones se denominan distribuciones muestrales (no es la
distribucin de unas puntuaciones individuales sino de estadsticos o
medidas de muchas muestras hipotticas; tambin hablaremos de la
distribucin muestral de la media).
6) La media de esta distribucin ser igual a cero (ste es nuestro su-
puesto en caso de no relacin); los valores positivos y negativos se anu-
lan mutuamente.

135
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

La desviacin tpica de esta distribucin no la conocemos pero s po-


demos estimarla. En estos planteamientos (distribuciones muestrales
hipotticas) la desviacin tpica se denomina error tpico.
La interpretacin es la misma que hacemos de la desviacin tpica en
la distribucin normal, as por ejemplo el 95% de los casos caern en-
tre la media (= 0) ms menos 1.96 errores tpicos, y solamente el 5%
de los coeficientes de correlacin se apartar de una media de cero en
+1.96 errores tpicos o en 1.96 errores tpicos, tal como aparece en la
figura 4. La mayora de los valores estarn en torno a cero.

Figura 4

El 95% de los coeficientes


de correlacin caen entre
ms menos 1.96
errores tpicos

-1.96 errores tpicos correlacin media = 0 +1.96 errores tpicos

7) Cuando nos preguntamos si un coeficiente de correlacin es estadsti-


camente significativo, lo que nos preguntamos es si es probable que
ocurra cuando no hay relacin, o, lo que es lo mismo, si es probable
que ocurra cuando la media de las posibles correlaciones entre esas
dos variables es cero.
Si nuestro coeficiente es muy poco probable cuando no hay relacin,
es entonces cuando concluiremos que el coeficiente de correlacin es
estadsticamente significativo: es demasiado grande para ese nmero
de sujetos como para que sea casual y expresa por lo tanto una verda-
dera relacin distinta de cero. Dicho de otra manera, no pertenece a la
poblacin de coeficientes cuya media es cero.
8) Para decidir si un coeficiente de correlacin es probable o improbable
cuando la media de los posibles coeficientes de correlacin es cero, ne-
cesitamos un criterio (en qu punto empieza lo improbable).
El criterio convencionalmente aceptado es que lo que por azar sucede
ms de 5 veces de cada 100 est dentro de lo probable, y lo que por

136
CONCEPTO DE CORRELACIN Y COVARIANZA

azar sucede 5 o menos de 5 veces de cada 100 lo consideramos ya im-


probable o fuera de lo normal. A este criterio le denominamos nivel de
confianza, y se expresa a = .05 cuando consideramos poco probable
lo que sucede menos del 5% de las veces (tambin se expresa a veces
as: nivel de confianza del 95% que son las probabilidades de no equi-
vocarnos al afirmar la relacin).
9) Ya sabemos que en la distribucin normal el 95% de los casos estn entre
la media (que es igual a cero en nuestro modelo de la figura 4) y ms me-
nos 1.96 errores tpicos. Diremos por lo tanto que un coeficiente de co-
rrelacin es estadsticamente significativo cuando se aparte de la media
cero en ms de 1.96 errores tpicos. Volviendo a la figura 4, un coeficien-
te de correlacin es estadsticamente significativo si no est en el 95%
central de los posibles coeficientes de correlacin cuya media es cero.
Cuando la probabilidad de que ocurra en el caso de no relacin es infe-
rior al 5% se expresa as: p < .05; si esta probabilidad es superior al 5%
lo expresamos as: p > .05.
10) Aunque nuestro nivel de confianza sea .05, tambin es informativo indi-
car si las probabilidades de que la correlacin son inferiores al 1%
(p<.01) o al 1/1000 (p < .001). Lo que se suele recomendar es indicar la
probabilidad exacta (por ejemplo p = .02) sin limitarse a poner si es su-
perior o inferior (p<.05 o p.05) a una determinada probabilidad previa-
mente especificada6.

3.5.3. Interpretacin de una correlacin estadsticamente


significativo

Es importante entender bien qu significa el decir que una correlacin es


o no es estadsticamente significativa.
Una correlacin estadsticamente significativa, por ejemplo p < .05,
quiere decir que si no hay relacin en la poblacin (es decir, si se da esa
condicin importante de ausencia de relacin) la probabilidad de obtener
un coeficiente de esa magnitud por puro azar es inferior al 5%.
En la prctica, y cuando una correlacin es estadsticamente significativa
(porque p <.05 si .05 es nuestro nivel de confianza):
a) Podemos afirmar con mucha seguridad que en la poblacin esa corre-
lacin no es cero: si no hubiera ningn tipo de relacin es muy impro-
bable obtener el coeficiente que hemos obtenido. Podemos afirmar el
hecho de la relacin.

6
Las probabilidades exactas, si no nos las da ya un programa de ordenador, se bus-
can fcilmente en alguna de las direcciones de Internet puestas en el Anexo II.

137
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

b) Lo que no podemos afirmar es que en muestras semejantes (de la mis-


ma poblacin) obtendramos coeficientes de magnitud semejante (in-
terpretacin frecuente y errnea). Para hablar de la magnitud de la co-
rrelacin en general (en la poblacin) necesitamos acudir a los
intervalos de confianza de los que trataremos enseguida.

Cuando una correlacin no es estadsticamente significativa (porque p


>.05):
a) Una correlacin no significativa es una correlacin que no podemos
generalizar sin ms. Con los datos que tenemos no podemos afirmar
que en la poblacin (en otras muestras semejantes) hay una relacin,
aunque sea pequea, y distinta de cero.
b) Por otra parte una correlacin no significativa no es prueba de no rela-
cin en la poblacin (podramos encontrarla quizs en muestras mayo-
res, o utilizando otras medidas ms precisas, etc.; no probar que hay
relacin no es lo mismo que probar que no hay relacin).

Con muestras muy pequeas podemos encontrar coeficientes de correla-


cin relativamente grandes pero no estadsticamente significativos (el cero
es un valor probable; no nos permiten extrapolar el hecho de la relacin a
otras muestras de la misma poblacin).
Aunque con frecuencia los coeficientes de correlacin no estadsticamen-
te significativos suelen ser pequeos (sobre todo en muestras grandes) cuan-
do el signo de la relacin est en la direccin esperada y la muestra es pe-
quea, es posible que obtengamos una correlacin estadsticamente
significativa en muestras mayores (al menos se puede proponer como hip-
tesis razonable).
Los coeficientes de correlacin estadsticamente significativos pero muy
bajos (caso frecuente en muestras relativamente grandes) suelen ser de poca
relevancia prctica, aunque no podemos despreciar sin ms los coeficientes
pequeos (si son estadsticamente significativos) porque pueden dar buen
juego interpretativo desde una perspectiva ms terica o metodolgica, co-
mo veremos despus.

3.5.4. Cmo comprobamos si un coeficiente de correlacin es


estadsticamente significativo

El primer paso por lo tanto para interpretar un coeficiente de correlacin es


comprobar si es mayor de lo que podra esperarse por azar, o utilizando la ex-
presin habitual, comprobar si es estadsticamente significativo. Una correla-
cin estadsticamente significativa es una correlacin muy improbable por

138
CONCEPTO DE CORRELACIN Y COVARIANZA

azar (en la hiptesis de no relacin); la consecuencia es que podemos suponer


que en la poblacin (en otras muestras semejantes) seguiremos encontrando
una correlacin distinta de cero. Esto lo veremos tambin despus desde otra
perspectiva al tratar de los intervalos de confianza de la correlacin.
La teora subyacente a esta comprobacin es la misma que la de plantea-
mientos semejantes en estadstica (cundo podemos considerar que una di-
ferencia entre dos medias es mayor de lo puramente casual y aleatorio?). Lo
que hacemos es dividir nuestro coeficiente de correlacin (o con ms propie-
dad |r 0|, la diferencia entre la correlacin obtenida y una correlacin me-
dia de cero) por el error tpico de la correlacin (frmulas [10] y [11]) pa-
ra ver en cuntos errores tpicos se aparta nuestro coeficiente de una
correlacin media de cero7.

a) Con muestras de 100 sujetos o menos


Lo ms prctico es consultar las tablas apropiadas (anexo I, al final del ca-
ptulo)8, en las que se indica la probabilidad de obtener un determinado coe-
ficiente por azar, sin que haya relacin entre las dos variables.
Para consultar las tablas tenemos que tener en cuenta los grados de liber-
tad, que en el caso de la correlacin son N-2.
Por ejemplo, con N = 12 los grados de libertad son 10. En las tablas y con
10 grados de libertad vemos:

Grados de libertad = N -2 .05 .01 .001


10 .5760 .7079 .8233

Vemos .576 en la columna correspondiente a .05; esto quiere decir que


con 12 sujetos (10 grados de libertad) una correlacin tan alta como .576 la
obtendramos por azar, sin que hubiera relacin entre las dos variables, 5 ve-
ces de cada 100 (y nuestra conclusin ser que s hay relacin; no ha sido
una casualidad).
Debajo de .01 vemos r = .7079, que es el valor de la correlacin que podra-
mos obtener por azar 1 vez cada 100, y debajo de .001 vemos r = .8233, la co-
rrelacin que podramos obtener por azar 1 vez cada 1000 veces.

7
Aunque consultemos tablas o vayamos a direcciones de Internet que nos lo dan re-
suelto, conviene entender qu estamos haciendo.
8
Tablas semejantes figuran en muchos textos; tambin podemos consultar las direc-
ciones de Internet puestas en el Anexo II.

139
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Siempre que el valor de nuestra correlacin sea igual o mayor que el valor
indicado en la columna .05, podemos concluir que la correlacin es estads-
ticamente significativa (improbable por azar; ese coeficiente de correlacin
lo podramos encontrar, sin que se d relacin, 5 veces o menos de cada 100).
Si supera los valores de las columnas .01 .001 se indica de esta manera: p<
.01 p< .001.
Ya hemos indicado en el apartado anterior que este 5% es el lmite conven-
cional y aceptado para rechazar el azar (el error muestral en trminos ms
apropiados) como explicacin, por lo que podramos concluir que s hay re-
lacin aunque sta puede ser pequea y de poco valor prctico. Una corre-
lacin estadsticamente significativa no significa una correlacin grande.
El poner un 5% de probabilidades de error (para afirmar que s hay rela-
cin) es un criterio usual aunque arbitrario; si uno desea ms seguridad pue-
de poner como lmite un 1% de probabilidad de error; son los dos lmites
convencionales ms utilizados.

b) Con muestras de ms de 100 sujetos


Vemos en cuntas desviaciones tpicas (errores tpicos) se aparta nuestro co-
eficiente de correlacin de una correlacin media de cero; es decir calculamos
la puntuacin tpica (z) correspondiente a nuestro coeficiente de correlacin:

[7]

Lo que tenemos en el denominador es la frmula del error tpico de los


coeficientes de correlacin (en muestras grandes).

Esta frmula queda simplificada as: [8]

En la tabla 6 estn los valores crticos para interpretar los resultados.

Tabla 6

En el numerador de la frmula [7] tenemos la diferencia entre nuestra co-


rrelacin y una correlacin media de cero; lo que tenemos en el denomina-

140
CONCEPTO DE CORRELACIN Y COVARIANZA

dor es el error tpico (o desviacin tpica) de la distribucin de las correlacio-


nes cuando la correlacin media es cero. Lo que hemos hecho es por lo
tanto calcular una puntuacin tpica: nos indica, utilizando los trminos con-
vencionales, en cuntas desviaciones tpicas (o errores tpicos) se aparta
nuestra correlacin de una correlacin media de cero. Y ya sabemos (por las
tablas de la distribucin normal) que un valor que se aparte de la media en
ms de 1.96 desviaciones (fijndonos en ambos extremos de la distribucin)
slo ocurre por azar 5 veces de cada 100 o menos.
Por ejemplo: encontramos una correlacin de r = .14 en una muestra de
275 sujetos; aplicando la frmula [8] (ms sencilla que la [7]) tendremos que
que supera el valor de z = 1.96 por lo que podemos
concluir que una correlacin de r = .14 en esa muestra, en el caso de no rela-
cin, la obtendramos por azar menos de cinco veces de cada 100 (p< .05);
nuestra conclusin ser que esa correlacin es estadsticamente significativa.

c) Cuando de los mismos sujetos tenemos varios coeficientes de


correlacin
En vez de aplicar la frmula [7] o la frmula [8] a cada coeficiente, pode-
mos construir nuestras propias tablas, cuando el nmero de sujetos es siem-
pre el mismo y los valores de z de inters tambin son siempre los mismos
(los que figuran en la tabla 6). En la frmula [7] podemos despejar los valores
de r que nos interesan:

Si podemos despejar r;

Esta frmula queda simplificada de esta manera: [9]

Por ejemplo, si nuestros sujetos son N = 212, nuestras tablas sern estas9:

Para p .05

Para p .01

Para p .001

9
Dado un nmero determinado de sujetos (N) los valores correspondientes a .05,
.01 y .001 nos lo da directamente Department of Obstetrics and Gynaecology, The Chine-
se University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correla-
tion.asp, buscando minimum r to be significant. Esta direccin, y otras que nos dan la
misma informacin, tambin est en el Anexo II.

141
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

3.6. Los intervalos de confianza: magnitud de la correlacin en la


poblacin

Si calculamos el coeficiente de correlacin, por ejemplo, entre una medi-


da de motivacin y otra de rendimiento escolar, encontraremos un valor de-
terminado en nuestra muestra. Puede ser que nuestro inters no est en co-
nocer el grado de relacin entre estas dos variables en una muestra concreta,
sino en la poblacin ms general representada por esa muestra10.
Si lo que nos interesa es la magnitud de la correlacin en la poblacin (y
no solamente en nuestros sujetos), el valor exacto de la correlacin en la po-
blacin no podemos saberlo, pero s podemos estimar entre qu valores m-
ximo y mnimo se encuentra. Estos valores extremos se denominan, muy
apropiadamente, intervalos de confianza.
El modelo terico es semejante al visto antes para ver si una correlacin es
estadsticamente significativa; la diferencia est en que antes (figura 4) supo-
namos una correlacin media de cero en la poblacin y ahora (figura 5) la co-
rrelacin media estimada en la poblacin es la obtenida en una muestra.
Si calculamos el coeficiente de correlacin entre las mismas dos variables
en un gran nmero de muestras, tendramos una distribucin normal de los
coeficientes de correlacin entre las dos variables.
La correlacin calculada en nuestra muestra la tomamos como una esti-
macin de la media en la poblacin. Esta estimacin ser ms ajustada si la
muestra es realmente representativa.
El error tpico (desviacin tpica) de esta distribucin lo estimamos a par-
tir de los datos de una muestra concreta y las frmulas son:

para muestras grandes sr = [10]

para muestras pequeas sr = [11]

El error tpico, lo mismo que una desviacin tpica, nos indica el margen
de variabilidad probable (de oscilacin) de los coeficientes de correlacin si
los calculramos en muchas muestras. Como suponemos una distribucin
normal, el 95% de los casos de los coeficientes de correlacin caen entre la
correlacin obtenida en la muestra (la media de la distribucin) ms 1.96

10
En este apartado, lo mismo que en el anterior, no nos limitamos a hablar de la co-
rrelacin obtenida en una muestra concreta que describe la relacin entre dos variables en
esa muestra, sino que estamos tratando de la correlacin en la poblacin. Cuando a par-
tir de los datos obtenidos en una muestra deducimos los valores probables en la poblacin
(extrapolamos) estamos ya en estadstica inferencial y no meramente descriptiva.

142
CONCEPTO DE CORRELACIN Y COVARIANZA

errores tpicos y la correlacin obtenida menos 1.96 errores tpicos. Estos son
los intervalos de confianza de la correlacin, como podemos ver represen-
tado en la figura 5 (con un nivel de significacin de .05).

Figura 5

95% de los
Lmite mnimo coeficientes Lmite mximo
probable en la de correlacin en probable en la
poblacin muestras de la poblacin
misma poblacin

-1.96 errores tpicos +1.96 errores tpicos


Correlacin obtenida en la muestra =
estimacin de la correlacin en la poblacin

Por ejemplo: en una muestra de 102 sujetos encontramos una correlacin


de r = .20;
Aplicando la frmula [8] tendramos z = = 2.01, p< .05 (su-
peramos el lmite de 1.96, tabla 6). La correlacin de .20 en una muestra de
102 sujetos es estadsticamente significativa (no es cero en la poblacin).
Si calculamos la correlacin entre las mismas dos variables en una serie in-
definida de muestras Entre qu lmites oscilaran los coeficientes de correla-
cin?
El error tpico de los coeficientes de correlacin (con N = 102) sujetos es
(frmula [10]):

Lmite ms bajo de la correlacin en la poblacin:


.20 (media) (1.96)(.099) = .005
Lmite ms alto de la correlacin en la poblacin:
.20 (media) + (1.96)(.099) = .394
Asumiendo la correlacin que hemos encontrado de r = .20 como una esti-
macin de la correlacin media, podemos afirmar que el coeficiente de corre-
lacin en la poblacin representada por esta muestra estar entre.005 y .394.

143
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Vemos que entre estos lmites extremos probables no se encuentra el ce-


ro, por eso la correlacin es estadsticamente significativa (distinta de cero
en la poblacin), aunque el lmite inferior es casi cero.
Vamos a ver un ejemplo de correlacin no estadsticamente significativa.

En una muestra de N = 120 y r = .14 vemos que (frmula [8])


z = .14 120 1 = 1.53

Como no llegamos al valor crtico de 1.96 concluimos que p > .05; la pro-
babilidad de obtener un coeficiente de esa magnitud es superior al 5%. Nues-
tra conclusin ser que esta correlacin no es estadsticamente significativa.
Calculamos ahora los lmites extremos (intervalos de confianza) de ese
coeficiente en la poblacin:
1
Lmite inferior: .14 1.96 () = .14 - .179 = -.04
120 1
1
Lmite superior: .14 + 1.96 () = .14 + .179 = +.319
120 1

En la poblacin esa correlacin estar entre -.04 y + .319; como el lmite


inferior es negativo (-.04) entre esos intervalos est la posibilidad de encon-
trar r = 0, por eso decimos que no es estadsticamente significativa; porque
puede ser r = 0 en la poblacin. Siempre que los lmites extremos son de dis-
tinto signo, la correlacin no es estadsticamente significativa (el cero es un
valor probable porque est comprendido entre esos lmites).
Cuando un coeficiente de correlacin calculado en una muestra es esta-
dsticamente significativo, la informacin que tenemos sobre la magnitud
de la correlacin en la poblacin representada por esa muestra es por lo
tanto muy imprecisa, aunque podemos afirmar que no es cero. Para esti-
mar la magnitud de la correlacin en la poblacin con una mayor preci-
sin (entre unos lmites estrechos) nos hacen falta muestras muy grandes
porque al aumentar el tamao de la muestra disminuye el error tpico.
Podemos verlo de manera ms grfica calculando los intervalos de confian-
za (lmites mximo y mnimo en la poblacin) de un coeficiente de .20 calcu-
lado en muestras de tamao progresivamente mayor (tabla 7).
Un coeficiente de correlacin de r = .20 calculado con una muestra gran-
de nos da una idea ms precisa (lmites extremos ms estrechos) de dnde se
encuentra este valor en la poblacin.
Con frecuencia vemos en la literatura experimental resultados conflictivos:
correlaciones grandes y positivas en una muestra y bajas o incluso negativas en

144
CONCEPTO DE CORRELACIN Y COVARIANZA

Tabla 7

otras muestras esta conflictividad suele ser aparente como podemos com-
probar si calculamos entre qu lmites pueden oscilar estos coeficientes: cual-
quiera de los dos coeficientes podran caer dentro de los lmites del otro11.

Aqu es oportuno hacer dos observaciones:


1. Cuando calculamos los intervalos de confianza de un coeficiente de
correlacin (o de cualquier otro estadstico) estamos comprobando tambin
si ese coeficiente de correlacin es estadsticamente significativo (si est
dentro de lo probable una correlacin igual a cero en la poblacin).
Por ejemplo, con N = 120 obtenemos una correlacin de r = .15. Este co-
eficiente lo hemos calculado en una muestra concreta y ahora nos pregunta-
mos entre qu lmites se encuentra ese coeficiente de correlacin en la pobla-
cin representada por esa muestra.
El error tpico es (frmula [10]) 1 / 120 1 = .0916, luego los lmites es-
tarn entre .15 (1.96)(.0916); como (1.96)(.0916) = .179, los lmites estarn
entre .15 .179:
Lmite mnimo: .15-.179 = -.03 Lmite mximo: .15 + .179 = .33

En la poblacin esa correlacin de .15, calculada en 120 sujetos, se en-


cuentra entre -.03 y + .33, el lmite mnimo tiene signo menos, luego cero es
un valor posible; no se trata por lo tanto de una correlacin estadsticamente

11
Los intervalos de confianza del coeficiente de correlacin tambin podemos cal-
cularlos muy fcilmente en programas de Internet (Anexo II; uno muy cmodo es el de
VassarStats).

145
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

significativa. Siempre que entre los valores extremos posibles (mximo y m-


nimo) de la correlacin hay un cambio de signo, entra como posible el valor
cero y la correlacin ya no es en ese caso estadsticamente significativa (pue-
de ser cero en la poblacin).
2. Los intervalos de confianza son ms informativos que el decir simple-
mente si un coeficiente de correlacin es o no es estadsticamente significa-
tivo; nos dicen entre qu valores probables puede oscilar ese coeficiente en
la poblacin representada por la muestra. Lo que suele recomendarse es
aportar tambin los intervalos de confianza.

3.7. Cmo valorar la magnitud de la correlacin

Cundo un coeficiente de correlacin es suficientemente alto? No vamos


a tener una respuesta clara y de aplicacin universal, pero s se pueden dar
orientaciones para valorar la magnitud de estos coeficientes.

3.7.1. Orientaciones generales

Una vez que hemos comprobado que un coeficiente de correlacin es es-


tadsticamente significativo (= muy improbable por azar y que por lo tanto
se puede interpretar como indicador de una verdadera relacin distinta de
cero), la cuestin siguiente es valorar la magnitud del coeficiente.
Como criterio orientador (sin convertirlo en norma) se suelen sugerir las
valoraciones indicadas en la tabla 8.

Tabla 8

un valor de r entre: indica una relacin:


0 y .20 ...................................... muy baja,
.20 y .40 .................................... baja
.40 y .60 .................................... moderada
.60 y .80 .................................... apreciable, ms bien alta
.80 y 1 ....................................... alta o muy alta

Las valoraciones anteriores, y otras semejantes que pueden encontrarse


en libros de texto, son orientadoras y hay que interpretarlas con cautela. Es-
tas valoraciones suelen darse teniendo en cuenta la mera magnitud, pero
una correlacin baja puede tener inters interpretativo12.

12
Cohen (1988:77-81) establece (y justifica) como criterio orientador (y provisional) es-
tas valoraciones: correlacin pequea r = .10, media r = .30 y grande r = .50. Basa sus va-

146
CONCEPTO DE CORRELACIN Y COVARIANZA

a) Una correlacin no significativa o simplemente muy baja, puede ser


tan informativa e interesante como una correlacin alta. El descubrir
una no relacin puede tener tanto inters como verificar que s exis-
te relacin. Tambin puede suceder que se d una clara relacin, pe-
ro no linear sino curvilnea, y esto puede apreciarse en un diagrama
de dispersin (el coeficiente eta, h, es el apropiado para relaciones
curvilneas).
b) Un coeficiente de correlacin puede tambin calificarse como alto o ba-
jo aadiendo y matizando en este contexto. Las correlaciones muy ba-
jas a veces se deben no a que las relacin es efectivamente baja, sino a
que medimos mal las variables, con instrumentos poco precisos que no
detectan bien las diferencias entre los sujetos, etc. En un cuadro gene-
ral de coeficientes ms bien bajos, obtenidos con instrumentos seme-
jantes y en un mismo planteamiento de investigacin, pueden destacar
los coeficientes altos en trminos relativos.
c) Para valorar la magnitud de un coeficiente de correlacin, r2 (o coefi-
ciente de determinacin, que expresa la proporcin de variacin
conjunta) puede parecer ms til que el valor de r (y as suele a veces
indicarse) ya que aparentemente este valor expresa el impacto de una
variable sobre la otra variable. Como los valores de r2 son mucho ms
bajos que los de r (si r = .30, r2 = .09) el utilizarlos como criterio para
valorar la magnitud o la importancia de un coeficiente de correlacin
tiene sus riesgos porque los coeficientes bajos pueden ser tambin in-
formativos o sugerir preguntas de inters como indicamos en el apar-
tado siguiente.

3.7.2. Sobre la interpretacin y utilidad de los coeficientes de


correlacin bajos

Los coeficientes de correlacin altos o moderadamente altos no ofrecen es-


peciales problemas; en general resultan gratificantes para el investigador. Son
los coeficientes bajos, aunque sean estadsticamente significativos, los que a ve-
ces nos cuesta interpretar adecuadamente. Por eso les dedicamos una especial
atencin (en el apartado siguiente sugerimos posibles causas que pueden expli-
car coeficientes muy bajos donde cabra esperarlos mayores).
La primera observacin sobre estos coeficientes muy bajos (como cuando
son mucho menores de .30), es que simplemente expresan una relacin en-

loraciones en que en las ciencias de la conducta las correlaciones suelen ser bajas. Este autor
es conocido (y citado) por las valoraciones que hace sobre las magnitudes de determinados
estadsticos (son citadas sobre todo sus valoraciones sobre el tamao del efecto). En otro
apartado (3.7.3.) damos posibles explicaciones de coeficientes de correlacin bajos.

147
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

tre las dos variables (matizando siempre tal como la medimos) que es muy
pequea. Con muestras grandes es normal encontrar correlaciones estadsti-
camente significativas pero tan pequeas que pueden ser prcticamente irre-
levantes. Aun as estos coeficientes pequeos pueden darnos informacin til
o buenas pistas para pensar al menos por qu no encontramos una relacin
apreciable donde cabra esperarla (este punto lo tratamos en el apartado si-
guiente). Adems, dadas las limitaciones de nuestros instrumentos de medi-
cin, la relacin real puede ser mayor de la que somos capaces de cuantificar
(una imagen que nos puede ayudar es la de un iceberg: lo que somos capaces
de ver y cuantificar es mucho menor que lo que est sumergido).
1 Los coeficientes bajos (por ejemplo de .30) son poco tiles (o intiles)
desde una perspectiva prctica; por ejemplo para predecir resultados. Si dos
variables estn relacionadas, conociendo la puntuacin de un sujeto en una
variable, podemos predecir (o estimar) cul ser su puntuacin en la otra va-
riable. Por eso se habla de la validez predictiva de los tests (admisiones, se-
leccin, etc.). Aun as tests con baja validez predictiva pueden ser predictores
tiles unidos a otros en correlaciones mltiples (que no tratamos ahora), pe-
ro esta utilidad habra que comprobarla13. En estos casos (validez predictiva
de los tests) tambin hay que tener en cuenta lo que explicamos en el aparta-
do los coeficientes de correlacin corregidos por restriccin de la amplitud.
2 Coeficientes de correlacin muy pequeos, si son significativos (es de-
cir, que probablemente no son cero en la poblacin), pueden estar indicando
alguna ley psicolgica14; el que la correlacin sea pequea puede significar no
que sea realmente pequea sino que medimos muy pobremente las variables
o que esta correlacin est contaminada por otras variables que no tenemos
en cuenta; casi nunca medimos variables puras (as la inteligencia, tal como la
medimos, puede estar contaminada por niveles de educacin, capacidad lec-
tora, etc.).
3 Algunos autores15 sealan que una correlacin de .30 (aparentemente
baja) viene a indicar el tipo de relacin que un observador puede detectar ca-
sualmente; es una relacin detectable a simple vista; por ejemplo, cuando un
profesor cae en la cuenta, al cabo de los aos, de que entre los alumnos que
se sientan en las ltimas filas y junto a una ventana hay ms suspensos que en-
tre los que se sientan en la primera fila esa relacin observable podra ser
del orden de r = .30 y ciertamente relevante.
13
El tema de la prediccin, obviamente muy relacionado con la correlacin, no lo es-
tamos tratando aqu; puede verse tratado en el documento correlacin y regresin
(www.upcomillas.es/personal/peter).
14
Guilford y Fruchter (1973: 92).
15
Por ejemplo Cohen P. (1981) y Cohen J. (1988:80), y tambin otros autores hacen
la misma observacin. Cohen J. (1988:80) cita coeficientes de correlacin importantes que
son de este tipo de magnitud (.30).

148
CONCEPTO DE CORRELACIN Y COVARIANZA

4 Cuando las dos variables son dicotmicas (una puede ser participar o
no participar en una terapia, en un nuevo mtodo, experiencia, etc. y la otra
mejorar o no mejorar, sobrevivir o no sobrevivir, etc.) el coeficiente de co-
rrelacin es igual al tanto por ciento de xito; as una correlacin de .20 (que
indica que solamente hay un 4% de varianza comn) quiere decir que con ese
tratamiento han mejorado, sobrevivido, etc., un 20% ms de los que hubie-
ran sobrevivido de no seguir ese tratamiento16. Este es un dato importante pa-
ra valorar los coeficientes de correlacin, que aunque sean bajos pueden in-
dicar un xito cualitativamente importante (es despreciable un 4% de
supervivientes (si r = .04) que de otra manera no hubieran sobrevivido?).
Sobre esta ltima valoracin e interpretacin de los coeficientes de corre-
lacin hacemos dos observaciones:
1 Aunque literalmente se refiere a la correlacin entre dos variables dico-
tmicas (un caso especial de la correlacin de Pearson que en principio
requiere que al menos una variable sea continua), esta interpretacin
es tambin vlida cuando las variables son continuas (como escalas ti-
po Likert).17
2 Aunque este tipo de comprobaciones (por ejemplo eficacia de una te-
rapia) las hacemos habitualmente comparando medias (comparando
dos grupos, uno experimental y otro de control) los resultados (t de
Student) se pueden convertir fcilmente en un coeficiente de correla-
cin que aade una informacin complementaria que no nos aporta la
t de Student, pues nos permite valorar la magnitud (y por lo tanto la
importancia) de la diferencia.18

Aunque estos planteamientos no sean los que ms nos interesen ahora


mismo al tratar de la correlacin de Pearson, no sobra intuir el valor informa-
tivo que puede tener una correlacin pequea.

16
Esta interpretacin (denominada Binomial Effect Size Display, BESD) elaborada
por Rosenthal y Rubin (1979, 1982; Rosenthal, 1987); la recogen tambin otros autores
(por ejemplo Hunter y Schmidt, 1990:202; Cohen, 1988:533) que revalorizan la informa-
cin que pueden aportar a veces coeficientes pequeos de correlacin en determinadas si-
tuaciones. En los primeros autores citados pueden encontrarse una explicacin ms deta-
llada y tablas que facilitan esta interpretacin. Sobre el Binomial Effect Size Display puede
verse en Internet Randolph y Edmondson (2005), que exponen su utilidad y limitaciones
y tambin cmo calcular este Binomial Effect Size Display a partir del tamao del efecto
(d de Cohen) si se ha hecho un contraste de medias (la t de Student puede transformarse
en un coeficiente de correlacin).
17
Rosenthal (1987: 114-115).
18
Las frmulas para convertir los valores de t en r y viceversa suelen verse tratando
del tamao del efecto en el contexto del contraste de medias.

149
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

5 Hay que tener en cuenta la situacin y el uso del coeficiente. Un valor


pequeo (por ejemplo de r =.20) puede ser poco til (o nada til) con fines
predictivos, y ser sin embargo de inters en una investigacin terica; a veces
lo que interesa es constatar si se da alguna relacin.
Estas consideraciones sobre los coeficientes pequeos de correlacin hay
que complementarlas con otras sobre las posibles causas de estos valores ba-
jos, sobre todo si cabra esperar que fueran mayores. Nos introducen en otras
reflexiones tiles para el investigador.

3.7.3. Explicaciones posibles de coeficientes de correlacin muy


bajos

Una correlacin baja puede significar simplemente eso, que la relacin en-
tre esas dos variables es pequea. Sin embargo una correlacin baja donde
hubiramos esperado un valor mayor nos invita a preguntarnos el por qu de
esa correlacin baja o nula. Puede que sea baja tal como la hemos medido y
adems en una determinada muestra, pero que en la realidad, en la vida, la
relacin sea mayor y ms clara.

Explicaciones posibles de coeficientes de correlacin bajos.


Las posibles explicaciones (ms que causas) de los coeficientes de corre-
lacin muy bajos pueden ayudarnos en su interpretacin y explicacin.

a) Poca fiabilidad, o poca precisin, en los instrumentos de medicin


Entre dos variables puede haber una verdadera relacin, pero no detecta-
ble si medimos con poca precisin, sin diferenciar adecuadamente a unos
sujetos de otros. Debemos tener en cuenta que a veces intentamos medir
sentimientos, profundos, recuerdos del pasado, valoraciones difciles de ha-
cer, etc., con preguntas sencillas, que los sujetos a veces responden rpida-
mente y sin especial cuidado19; quizs no tenemos otra manera mejor de ha-
cerlo en un momento dado, pero en cuanto instrumentos de medicin
resultan muy pobres (aunque pueden ser muy tiles).

19
Con las preguntas de muchos cuestionarios lo que hacemos con frecuencia es inten-
tar atrapar sentimientos con un cazamariposas. A veces podemos sospechar que una co-
rrelacin muy pequea, sobre todo detectada con instrumentos muy pobres, es simple-
mente la punta del iceberg; la realidad sumergida (o sugerida como hiptesis) puede ser
mucho mayor. Para Cohen (1988:79) muchas de las correlaciones que podemos buscar en
las ciencias blandas de la conducta son del orden de .10 ya que en las variables, tal como
las operacionalizamos, hay muchos ruidos (falta de fiabilidad o de fidelidad al construc-
to terico, etc.). El mismo autor cita a Thurstone cuando dice que en psicologa medimos
a los hombres por sus sombras.

150
CONCEPTO DE CORRELACIN Y COVARIANZA

Es posible aplicar las frmulas de correccin por atenuacin que dan una
estimacin de la correlacin que podramos obtener si la fiabilidad fuera
perfecta. De estas frmulas (que suponen una comprensin adecuada de lo
que es la fiabilidad) tratamos ms adelante.

b) Homogeneidad de la muestra
La relacin verificada (que es lo que indica el coeficiente de correlacin)
supone diferencias entre los sujetos en las variables cuya relacin nos intere-
sa comprobar. Con muestras muy homogneas los coeficientes son bajos;
con muestras heterogneas es ms fcil detectar relaciones. Por ejemplo la re-
lacin comprobada mediante el coeficiente r entre inteligencia y rendi-
miento escolar puede ser muy baja o nula si los alumnos han sido selecciona-
dos precisamente por su inteligencia (no hay diferencias, o muy pequeas, en
una de las variables).

c) Instrumentos poco discriminantes


Tambin puede suceder que el poco matiz de algunas medidas no recoge
las diferencias que de hecho se dan, e impide encontrar coeficientes de corre-
lacin altos. Se trata en definitiva de limitaciones en el instrumento de medi-
da. Con frecuencia es ste el caso cuando:
a) Una de las variables son calificaciones escolares que apenas diferencian
a los alumnos, o son notas medias que tienen a parecerse mucho en-
tre s.
b) Cuando medimos una variable con unas preguntas que admiten pocas
respuestas (como s o no, o poco, algo, mucho, cuando los sujetos po-
dran matizar ms) y que por lo tanto no recogen la diversidad que de
hecho puede estar presente en la muestra.

La homogeneidad de la muestra puede estar provocada por el mismo ins-


trumento, que no discrimina lo suficiente, y sin diferencias claras en la mues-
tra y en ambas variables no se detectan relaciones. Este punto hay que tener-
lo en cuenta en la construccin de instrumentos de medida (tests, escalas,
cuestionarios).

3.8. Los coeficientes de correlacin cuando unimos o separamos


submuestras

Este apartado es de inters porque muchas veces los sujetos de nuestras


muestras se pueden subdividir de muchas maneras (cursos, carreras, profe-
siones, sexos, procedencia), y tambin en las variables que correlacionamos

151
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

cabe distinguir varias subvariables (por ejemplo, en vez de, o adems de, una
nota media como criterio de rendimiento se pueden utilizar las notas de las
distintas asignaturas y tambin otros criterios disponibles).
En dos muestras distintas podemos encontrar una correlacin alta entre,
por ejemplo, un test de inteligencia y calificaciones en una asignatura, y al
unir las dos muestras podemos encontrarnos con que la correlacin baja
apreciablemente. Esto puede suceder si las medias en esa asignatura son muy
distintas en las dos muestras (como puede suceder si se trata de profesores
distintos, o con distinto criterio para calificar, etc.) Calculando coeficientes de
correlacin uniendo muestras distintas o separndolas podemos hacer que
aumenten o disminuyan las diferencias en una o en las dos variables y esto na-
turalmente afecta a los coeficientes de correlacin.
Presentamos (de manera un tanto exagerada para que quede ms claro)
algunos casos tpicos que ponen de relieve lo que puede suceder al unir o se-
parar muestras.
Cuando una muestra est compuesta por submuestras (ambos sexos, di-
versas edades, o una muestra subdividible por cualquier otra variable) puede
merecer la pena calcular la correlacin dentro de cada submuestra; con fre-
cuencia aparecen correlaciones en subgrupos concretos sin que aparezcan en
la muestra general; y al revs, puede no haber una relacin apreciable en una
submuestra y aparecen relaciones importantes cuando las unimos en una so-
la muestra.
Los grficos siguientes (diagramas de dispersin, con datos ficticios) ilus-
tran situaciones que pueden ser frecuentes y en las que los coeficientes de
correlacin varan mucho si los calculamos en submuestras distintas o en to-
da la muestra20.
En el diagrama I (figura 6) tenemos que dentro de cada muestra r = 0, en
cambio si unimos las dos muestras en una sola, la correlacin pasa a ser muy
alta. Una muestra tiene las dos medias ms altas que la otra, y al unirlas en una
sola muestra tienden a coincidir los altos y los bajos en las dos variables.

20
De hecho un mismo coeficiente de correlacin puede corresponder a diagramas
de dispersin muy distintos en los que el mismo coeficiente no se podra interpretar de la
misma manera, por eso para interpretar estos coeficientes es muy aconsejable tener a la
vista el diagrama de dispersin. Un ejemplo muy ilustrativo son los cuatro diagramas de
dispersin que con datos ficticios public Anscombe (1973); los cuatro diagramas de dis-
persin son muy distintos pero corresponden a un idntico coeficiente de correlacin de
.82; estos diagramas los reproducen con su explicacin algunos autores (por ejemplo Fox;
1993:246 y Etxcheberria, 1999:49) y tambin podemos encontrarlos con facilidad en Inter-
net (por ejemplo Behrens, 1997); tambin en Internet Dallal (2001) reproduce (en corre-
lation coefficients) ocho diagramas muy distintos que corresponden a un mismo coefi-
ciente de correlacin de .70

152
CONCEPTO DE CORRELACIN Y COVARIANZA

Figura 6:
DIAGRAMA I

8 Caso 1

6 Subgrupo B, r = 0.00

Y
5

4 Subgrupo A, r = 0.00

3 Todos, r = 0.82

1 2 3 4 5 6 7 8 9

ste podra ser el caso de la correlacin entre peso (X) y edad (Y) en un
grupo de nios de cinco aos y en otro de diez aos. En cada grupo la co-
rrelacin es cero; las diferencias en edad (meses, semanas) y en peso son pe-
queas y sobre todo no son sistemticas (dos meses ms de edad no implica
pesar medio kilo ms). En cambio si juntamos los dos grupos y calculamos
la correlacin con todos sube a .82 (muy alta): ahora coinciden altos en edad-
altos en peso y bajos en edad-bajos en peso. Como ejemplo puede ser irrele-
vante, pero es claro
En el diagrama II (figura 7) tenemos el caso opuesto: dentro de cada gru-
po la correlacin es alta, pero baja apreciablemente al unirlos en un solo grupo.
Posiblemente ambos grupos proceden de poblaciones distintas por lo que
respecta a las medias en la variable X (y esto podra comprobarse).

153
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Figura 7:
DIAGRAMA II

8 Caso 2 Todos, r = 0.30

6
Y 5 Subgrupo A Subgrupo B

4 r = 0.84 r = 0.84

1 2 3 4 5 6 7 8 9

En el ejemplo del diagrama II (figura 7) la variable Y podra ser un test de


inteligencia abstracta, y la variable X notas en matemticas. En ambos gru-
pos las medias en Y (inteligencia) son parecidas, pero las medias en X (no-
tas en matemticas) son claramente diferentes. En ambos casos los ms inte-
ligentes segn ese test son tambin los que mejores notas sacan; en cada
clase hay una relacin alta y clara entre el test (Y) y las notas (X), pero esta re-
lacin baja si calculamos la correlacin juntando las dos clases en un mismo
grupo. Por qu? En este ejemplo podra tratarse de profesores distintos, uno
califica ms bajo y el otro ms alto al juntar a todos los alumnos de las dos
clases se neutralizan las diferencias y queda menos claro lo de altos en las dos
o bajos en las dos En un caso como ste se podra calcular la correlacin
por separado en cada muestra y luego calcular la correlacin media.
Esto es frecuente tambin que suceda cuando una de las variables es la no-
ta media de varias asignaturas; estas notas medias neutralizan las diferencias
en rendimiento acadmico. En estos casos puede ser preferible comprobar la
correlacin en cada muestra por separado y calcular despus la correlacin
media.

154
CONCEPTO DE CORRELACIN Y COVARIANZA

Figura 8:
DIAGRAMA III

8 Caso 3

6 Subgrupo B, r = 0.00
Y
5

4 Todos, r = 0.92

2 Subgrupo A, r = 0.83

1 2 3 4 5 6 7 8 9

En el diagrama III (figura 8) tenemos un caso distinto pero frecuente cuando


ha habido procesos de seleccin. En toda la muestra la correlacin es muy alta,
sin embargo si la calculamos en la submuestra con puntuaciones ms altas en
una o las dos variables, la correlacin baja e incluso puede ser negativa.
Si una variable es un test de inteligencia (X) utilizado para seleccionar can-
didatos en una universidad, y la otra variable (Y) es rendimiento acadmico,
tendramos que dentro de los seleccionados (los nicos de los que tenemos
datos en las dos variables) la correlacin obtenida entre inteligencia y rendi-
miento es muy baja e incluso puede ser negativa. Con la seleccin elimina-
mos diferencias en una variable (X), y sin diferencias sistemticas en las dos
variables no hay relacin comprobable. ste es un caso tpico cuando se de-
sea ver si los tests utilizados en las pruebas de admisin (o cualquier otro da-
to de entrada) tiene que ver con el xito posterior.
En el caso representado en la figura 8 no han sido admitidos los que no
han llegado a 6 en la prueba de admisin (X) con lo que tenemos datos en X
de todos (admitidos y no admitidos), pero en Y (xito acadmico) slo tene-
mos datos de los admitidos. Hemos homogeneizado la muestra y entre los

155
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

seleccionados no se detecta ninguna relacin entre el test de admisin (X, un


presunto predictor) y xito acadmico.
Veremos mtodos para calcular una estimacin de la correlacin entre las
dos variables en toda la muestra, si disponemos de la correlacin en el gru-
po seleccionado (en el que tenemos datos de las dos variables) y adems la
varianza de toda la muestra en una de las dos variables (en este caso del
test de inteligencia utilizado en la seleccin). Estas estimaciones son tiles pa-
ra poder apreciar y valorar la eficacia de un test supuestamente predictivo,
independientemente de las correlaciones (quizs muy bajas) que hayamos
obtenido (volvemos a este punto al tratar de los coeficientes de correlacin
corregidos por restriccin de la amplitud, n 4.2).

3.9. Influjo en la correlacin de las puntuaciones extremas (outliers)

Una puntuacin extrema o atpica (outlier en ingls) es la que se aparta


mucho de las dems. Si una variable es la edad y la muestra es de nios de 12
a 14 aos, si incluimos un sujeto de 40 aos se trata evidentemente de una
puntuacin extrema en la variable edad. Estas puntuaciones extremas o atpi-
cas pueden influir mucho en el coeficiente de correlacin. Lo vemos clara-
mente en el diagrama IV de la figura 9.

Figura 9:
DIAGRAMA IV

8
r = .64
7

6
Y
5

3
r = .00
2

1 2 3 4 5 6 7 8 9

156
CONCEPTO DE CORRELACIN Y COVARIANZA

Si calculamos la correlacin con los sujetos encerrados en el recuadro te-


nemos r = 0, no hay ninguna relacin como se aprecia a simple vista en el
diagrama, pero si aadimos un sujeto ms con puntuaciones muy altas en las
dos variables (altas en trminos relativos, comparadas con los de los dems
sujetos), la correlacin sube de 0 a .64. Tambin pueden bajar como podemos
ver en el diagrama V de la figura 10.

Figura 10:
DIAGRAMA V

8
r = .71
7

6
Y 5

2 r = .15

1 2 3 4 5 6 7 8 9

En los sujetos encerrados en el recuadro vemos una correlacin ms bien


alta (r = .71) que baja a .15 si incluimos un solo sujeto con una puntuacin
muy alta en una variable (en X) y muy baja en la otra (en Y).
El efecto de estas puntuaciones atpicas (outliers) es muy grande en mues-
tras pequeas (como en las de estos ejemplos ficticios); en muestras muy
grandes puede ser inapreciable, pero aun as estas puntuaciones que se salen
de lo normal pueden distorsionar la informacin de un coeficiente de corre-
lacin. Estas puntuaciones pueden estar indicando a veces respuestas inten-
cionadamente exageradas o simplemente que el sujeto no entendi la pre-
gunta, pero tambin pueden reflejar respuestas sinceras de sujetos realmente
atpicos.

157
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Con respecto a estas puntuaciones atpicas:


a) Puede ser de inters hacer un anlisis cualitativo de los sujetos con es-
te tipo de respuestas Qu caracterstica tienen en comn? Aqu puede
haber resultados interpretables.
b) Se puede presentar el valor de la correlacin con o sin estos sujetos at-
picos; esto puede ser ms aconsejable en muestras pequeas.
c) Ciertamente en muchos estudios se prescinde de estos sujetos porque
distorsionan el valor de los coeficientes de correlacin y no muestran la
relacin entre las variables que podemos esperar en sujetos normales;
por alguna razn estas respuestas no son normales y es preferible no
contabilizar a esos sujetos. En estos casos conviene indicarlo, lo mismo
que el criterio que se ha seguido para identificar los datos atpicos21.
d) Sobre cundo una puntuacin se aparta realmente de lo normal no hay
unanimidad en los criterios, pero una norma aceptable es prescindir de
los sujetos que en cualquiera de las variables tengan una puntuacin t-
pica superior a 3 (positiva o negativa)22.

4. COEFICIENTES DE CORRELACIN CORREGIDOS

Los coeficientes de correlacin pueden resultar a veces de alguna manera


deformados (demasiado altos o demasiado bajos) por diversas causas, de ma-
nera que no dan una idea clara sobre la verdadera relacin entre dos variables.
Tenemos por ejemplo estos tres casos de los que vamos a tratar a conti-
nuacin:
1 Una baja relacin donde la esperamos mayor puede deberse a la baja
fiabilidad de los instrumentos de medicin, y no tanto a que las varia-
bles no estn claramente relacionadas; al menos las correlaciones se-
ran mayores con una fiabilidad mayor en los instrumentos.
2 Tambin una baja relacin puede deberse a que la muestra en la que se
ha calculado ha sido artificialmente homogeneizada, han disminuido

21
En grandes estudios correlacionales se suele prescindir de estos sujetos atpicos
(por ejemplo con puntuaciones tpicas en alguna variable superiores a z = 2), e incluso es-
ta supresin est prevista en programas como el SPSS.
22
Orientacin de Osborne y Overbay (2004) que recomiendan la exclusin de estas
puntuaciones (there are strong arguments for removal or alteration of outliers) y expo-
nen los diversos posibles orgenes de estos outliers. Otra alternativa propuesta por otros
autores consiste en recodificar los outliers y sustituir estas puntuaciones por las puntua-
ciones mxima y mnima presentes en el resto de los datos (truncation). Estas puntuacio-
nes atpicas tambin afectan a la t de Student y al anlisis de varianza.

158
CONCEPTO DE CORRELACIN Y COVARIANZA

las diferencias en una de las variables y naturalmente bajan los coefi-


cientes de correlacin (explicado antes a propsito del diagrama III, fi-
gura 8).
3 Cuando calculamos la correlacin entre una parte y el todo (como en-
tre un tem y la puntuacin total de la que forma parte ese tem) en es-
te caso la correlacin sube artificialmente y da una idea incorrecta so-
bre la verdadera relacin entre esa parte y el todo.

Para estas situaciones, que son frecuentes, disponemos de frmulas co-


rrectoras que nos dan una estimacin de la verdadera correlacin (o la corre-
lacin exacta como en el caso 3).

4.1. Correlacin y fiabilidad: los coeficientes de correlacin


corregidos por atenuacin

Ya hemos indicado antes que la verdadera relacin puede ser mayor que la
que muestra un determinado coeficiente, debido a la falta de fiabilidad de los
instrumentos de medicin. Si el instrumento (test, escala, etc.) no detecta con
precisin las diferencias que hay entre los sujetos, la correlacin calculada pue-
de ser inferior a la real (o superior en el caso de las correlaciones parciales)23.
Este apartado, que es importante situarlo en el contexto de los coeficien-
tes de correlacin, supone un estudio previo de lo que son los coeficientes de
fiabilidad, pero se puede entender con slo una nocin bsica de lo que es
la fiabilidad (precisin en la medida).

4.1.1. Frmula de correccin por atenuacin

Disponemos de unas frmulas que nos permiten estimar cual sera el co-
eficiente de correlacin si la fiabilidad fuera perfecta. Se denominan frmulas
de correccin por atenuacin porque el coeficiente de correlacin est ate-
nuado (disminuido) por la falta de fiabilidad de los instrumentos.

La frmula general de la correlacin corregida por atenuacin es:


rxx y ryy son los coeficientes de fiabilidad
de cada medida; en el denominador pue-
de estar tambin slo la fiabilidad de uno
de los instrumentos si la del otro nos es
desconocida, como aparece ms adelante
en la frmula [13].
23
Una buena exposicin de los efectos de la baja fiabilidad en los coeficientes de co-
rrelacin y de la correccin por atenuacin puede verse en Osborne (2003).

159
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Por ejemplo: tenemos un coeficiente de correlacin entre dos variable de


.25; los coeficientes de fiabilidad de los dos instrumentos son .70 uno (sufi-
cientemente alto) y .40 (muy bajo) el otro. Podemos preguntarnos Cul es la
estimacin de la correlacin entre estas dos variables si las midiramos con
una fiabilidad ideal?:

Para poder aplicar esta frmula con resultados fiables:


1) Los coeficientes de fiabilidad que aparecen en el denominador deben
estar calculados en muestras grandes24.
2) Los coeficientes de fiabilidad deben calcularse mediante los procedi-
mientos que dan las mejores estimaciones de la fiabilidad (como las
frmulas Kuder-Richardson 20 y el coeficiente a de Cronbach). Cuando
el coeficiente de fiabilidad es ms bien una estimacin pobre y aproxi-
mada, la correlacin corregida por atenuacin puede incluso superar el
valor de 1.
3) Los coeficientes de fiabilidad deben calcularse solamente en medidas
claramente unidimensionales, es decir, que miden un nico rasgo25.

4.1.2. Cundo debe hacerse esta correccin por atenuacin

1 Cuando interese saber hasta qu punto dos variables estn relaciona-


das, independientemente de los errores de medicin de los instrumentos uti-
lizados. Esto sucede en muchos planteamientos de investigacin terica.
Si por ejemplo calculamos la correlacin entre autoeficacia acadmica y
autorregulacin en el estudio, lo que realmente nos interesa conocer es has-
ta qu punto ambas variables van juntas. Si las medidas que de hecho utiliza-
mos (tests, escalas, etc.) tienen una fiabilidad baja (clasifican mal a los sujetos)
la correlacin sin corregir puede sugerir que las dos variables estn menos re-
lacionadas que lo que de hecho estn.
Estos coeficientes de correlacin corregidos son interesantes para apre-
ciar lo que podemos estimar que es el verdadero valor de una relacin, pe-
ro no tienen utilidad prctica (por ejemplo para hacer estudios de predic-
cin) porque de hecho medimos con los instrumentos que tenemos, con

24
Segn Nunnally (1978) no deben ser inferiores a N =300.
25
Cuando se utiliza esta correccin por atenuacin en medidas que no son unidi-
mensionales, el valor de la fiabilidad puede superar el valor de 1 (Schmitt, 1996).

160
CONCEPTO DE CORRELACIN Y COVARIANZA

todas sus imperfecciones y en este caso es preferible no hacer estas correc-


ciones por atenuacin.
2 Tambin suele aplicarse la frmula de correccin por atenuacin
cuando se calcula la correlacin entre dos formas paralelas del mismo test,
como una forma de fiabilidad (para comprobar si las dos versiones del mis-
mo test ordenan a los sujetos de manera semejante).
En este caso es discutible el calcular el error tpico (que se calcula a par-
tir de los coeficientes de fiabilidad, que en este caso es un coeficiente de co-
rrelacin), porque este error (o margen de oscilacin de las puntuaciones in-
dividuales si los sujetos respondieran varias veces al mismo test) puede
parecer menor de lo que realmente es. En general siempre que de estos
clculos se derivan de alguna manera datos que van a influir en decisiones o
diagnsticos de sujetos, hay que tener en cuenta los errores de medicin (la
falta de fiabilidad de los instrumentos) en vez de suponer que no existen. Pa-
ra la toma de decisiones tenemos que asumir las limitaciones que nuestros
instrumentos tienen de hecho.
3 Otra serie de aplicaciones de la correccin por atenuacin tienen que
ver con lo que suele denominarse validez predictiva, o correlacin entre un
predictor X y un criterio Y. El predictor puede ser, por ejemplo, un examen
o un test de admisin, y el criterio (que se desea predecir) pueden ser califi-
caciones, un examen final, o cualquier otra medida que refleje xito.
En estos casos el problema est en el criterio: la falta de fiabilidad del cri-
terio hace bajar la correlacin entre predictor y criterio, y el test predictor
puede parecer menos vlido de lo que realmente es. En estos casos se aplica
esta frmula:

rxy = correlacin calculada entre el


predictor (X) y el criterio (Y)
ryy = fiabilidad del criterio

Si comparamos esta frmula con la anterior, vemos que hemos suprimido


del denominador la fiabilidad del predictor; slo se ha corregido la correla-
cin por la falta de fiabilidad en el criterio.
Lo que nos interesa conocer en estos casos es la correlacin entre el pre-
dictor (X, por ejemplo un examen de ingreso), con los errores y la fiabilidad
que de hecho tenga, y el criterio (Y) si tuviera la mxima fiabilidad. Esta
correlacin nos indicar mejor la calidad del predictor.
En los problemas de prediccin, la fiabilidad del predictor impone un lmi-
te en su capacidad de predecir, y con esa limitacin hay que contar. En cam-
bio la falta de fiabilidad del criterio lo que hace es obscurecer la capacidad

161
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

predictora del test o instrumento utilizado como predictor. Muchos de los lla-
mados coeficientes de validez (que en este caso no son otra cosa que coefi-
cientes de correlacin entre predictor y criterio) aportan de hecho poca in-
formacin o son de interpretacin ambigua porque no se ha tenido en cuenta
la fiabilidad del criterio.
Un problema que suele encontrarse en estos planteamientos es la dificul-
tad de calcular la fiabilidad del criterio. Frecuentemente todo el inters se
centra en el predictor (qu test se utiliza, etc.) y se descuida la calidad y fia-
bilidad del criterio (o variable que se pretende predecir, por ejemplo notas,
xito acadmico, etc.)26

4.1.3. Otras estimaciones de la correlacin modificando la


fiabilidad

Existen otras frmulas para estimar la correlacin que obtendramos entre


un predictor (X) y un criterio (Y), no si tuvieran la mxima fiabilidad, sino sim-
plemente una fiabilidad distinta. Por fiabilidad distinta no hay que entender
una fiabilidad mayor necesariamente, tambin podra ser menor. Puede suce-
der que con tests ms breves (y probablemente de una fiabilidad menor pe-
ro con el consiguiente ahorro econmico, de tiempo, etc.) obtengamos casi
los mismos resultados que con tests ms largos.
Este planteamiento puede tener su inters porque la fiabilidad depende (en
parte) del nmero de tems (otras frmulas relacionan la longitud del test y fia-
bilidad). La fiabilidad perfecta no la tenemos nunca, pero s podemos conseguir
que aumente mejorando la calidad de los tems y aumentando su nmero.
Aunque este tipo de planteamientos se presentan sobre todo cuando inte-
resa predecir el xito (en seleccin de personal, por ejemplo) estas frmulas
son aplicables tambin para analizar cualquier coeficiente de correlacin en-
tre dos variables que en un sentido ms propio no puedan calificarse como
predictor y criterio.
Lo que se plantea con ms frecuencia es estimar la correlacin entre X e Y
si aumentamos la fiabilidad de ambos instrumentos (aadiendo ms tems).
La frmula aplicable en estos casos es la siguiente:

26
Cuando se pretende predecir xito acadmico (a partir de un test, de datos pre-
vios) el criterio suele ser nota media final con frecuencia poco fiable o de fiabilidad impo-
sible de calcular. En estos casos (y otros) conviene disponer de varios criterios de xito
(nmero de sobresalientes, de suspensos, notas en determinadas asignaturas, etc.)

162
CONCEPTO DE CORRELACIN Y COVARIANZA

rxy = correlacin obtenida entre X e Y


rxx y ryy = coeficientes de fiabilidad distintos (nuevos, deseados)
rxx y ryy = coeficientes de fiabilidad obtenidos de hecho

Si solamente vamos a modificar el coeficiente de fiabilidad de uno de los


dos instrumentos (X en este caso, pero podra ser Y) la frmula es sta:

rxy = correlacin obtenida entre X e Y


rxx = coeficientes de fiabilidad en X distinto
rxx = coeficientes de fiabilidad obtenido en X

El coeficiente de fiabilidad de X distinto puede ser menor, por ejemplo en


una versin reducida (y ms econmica o ms cmoda) del mismo test. En
este caso (frecuente) podemos suponer que no nos es fcil modificar, e inclu-
so calcular, la fiabilidad del criterio.

4.1.4. Relacin entre longitud del test y fiabilidad y longitud del


test y correlacin

Existen otras frmulas que relacionan:


a) El nmero de tems y la fiabilidad de cualquier test (al aumentar el n-
mero de tems la fiabilidad tiende a aumentar); las frmulas que rela-
cionan el nmero de tems y la fiabilidad suelen verse en el contexto de
la fiabilidad.
b) La correlacin entre X e Y y el nmero de tems (la longitud) de X (X
es el test predictor que se controla con ms facilidad).

Estas frmulas, y otras (como las que vemos en el apartado siguiente),


pueden encontrarse con facilidad en textos de psicometra y de estadstica
aplicada a la educacin27.
Cuando se trata de aumentar el nmero de tems (para que suban la fiabi-
lidad o un coeficiente de correlacin), se supone que los nuevos tems son
del mismo estilo (miden lo mismo, son de formulacin parecida y de seme-

27
Las frmulas que relacionan la fiabilidad y el nmero de tems pueden verse en Mo-
rales, Urosa y Blanco (2003).

163
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

jante dificultad, etc.) que los que ya tenemos; como esto no suele ser as
exactamente, habra que hablar de estimaciones de la nueva fiabilidad o co-
rrelacin al aumentar el nmero de tems.
Estas frmulas son de una utilidad en general muy limitada, pero pueden
tener su inters cuando nos interesa construir o modificar un test para que
tenga una clara validez predictiva o al menos una mayor validez (es decir,
una mayor correlacin entre el predictor y el criterio) que la que disponemos
(por ejemplo en procesos de seleccin, admisiones, etc.; buscamos una co-
rrelacin clara con criterios definidos); a la vez podemos controlar la fiabili-
dad del test predictivo aumentando el nmero de tems.

Estas frmulas suelen aplicarse:


a) En aquellos tests que se pueden manipular con facilidad porque resul-
ta fcil aumentar el nmero de tems, como puede ser un examen ob-
jetivo de conocimientos.
b) En situaciones en las que es de gran inters la validez predictiva (co-
mo en procesos de admisin o seleccin, que por otra parte tampoco
suelen limitarse a un test).

No es habitual utilizar estas frmulas con otros tipos de tests (por ejemplo
en tests de personalidad, inteligencia, etc.) ya hechos y publicados, y que ya
tienen el nmero de tems decidido por el constructor del test.

4.2. Los coeficientes de correlacin corregidos por restriccin de


la amplitud

Ya hemos visto que cuando la muestra es ms homognea (los sujetos son


muy parecidos unos a otros en las dos o en una de las dos variables) baja el
valor del coeficiente de correlacin. No se comprueban relaciones si los suje-
tos no son distintos en las dos variables.
El que los coeficientes de correlacin sean menores cuando la muestra es
homognea plantea tambin problemas de validez predictiva en situaciones
de seleccin.
Vamos a suponer que ponemos un test de seleccin (el test X, el predic-
tor) para admitir a los futuros alumnos de una universidad y nos quedamos
con los mejores, los que puntan muy alto en el test X. Entre los alumnos ad-
mitidos habr menos diferencias en lo que mida el test X que entre todos los
que se presentaron a las pruebas de admisin; hemos homogeneizado la
muestra mediante el proceso de seleccin.
Posteriormente queremos comprobar la validez del test X, y calculamos la
correlacin entre el test X y el criterio Y (por ejemplo calificaciones, o una

164
CONCEPTO DE CORRELACIN Y COVARIANZA

prueba objetiva de rendimiento). Podemos encontrarnos con que la correla-


cin es muy pequea y concluir que el test no es vlido (hay una relacin muy
pequea entre el predictor y el criterio). Esta conclusin puede ser discutible:
la correlacin la hemos calculado solamente con los alumnos admitidos y no
con todos los que se presentaron inicialmente y de los que tenemos datos en
el test X. La varianza en X de los admitidos es lgicamente ms pequea que
la varianza calculada en todos los que se presentaron, admitidos y no admiti-
dos, y una varianza menor (grupo ms homogneo) hace bajar la correlacin
entre X e Y.
En estas situaciones podemos estimar la correlacin entre X e Y en el ca-
so de que todos hubieran sido admitidos. Esta correlacin (se trata de una es-
timacin), calculada con todos los presentados, es la que podra darnos una
idea mejor sobre la validez predictiva del test X.
Esta correlacin estimada se puede calcular mediante esta frmula:

Rxy = estimacin de rxy si la calculramos en toda la muestra inicial;


rxy = correlacin entre X e Y obtenida en la muestra seleccionada;
si = desviacin tpica en X calculada en toda la muestra inicial (ad-
mitidos y no admitidos)
ss = desviacin tpica calculada en X en la muestra seleccionada (ad-
mitidos solamente)

sta es la frmula que suele encontrarse en los textos (y por esta razn la
ponemos aqu), pero esta otra expresin [17] de la misma frmula [16] pue-
de resultar ms sencilla28:

si
donde U =
ss
y Rxy y rxy como antes

28
Puede verse comentada en Hunter y Schmidt (1990, pp.125ss); los coeficientes de
correlacin corregidos por restriccin de la amplitud estn bien tratados en Guilford y
Fruchter (1973)

165
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Por ejemplo: en un test de seleccin para entrar en una universidad en-


contramos que
En la muestra inicial (todos los candidatos que se presentan a la selec-
cin, incluidos naturalmente los que no admitidos) la desviacin tpica es
sinicial = 6
En la muestra seleccionada la desviacin tpica es
sseleccionada = 3

La correlacin entre el test de seleccin y un criterio (por ejemplo, nota


media al terminar el primer curso) es de .30; esta correlacin la calculamos
solamente en la muestra seleccionada, como es natural. Podemos preguntar-
nos Cul hubiera sido esta correlacin si la hubiramos podido calcular en
toda la muestra que se present al examen de admisiones?

Substituyendo tenemos:

En la primera frmula [16]:

En la segunda frmula [17] (U = 6/3 = 2)

El diferente redondeo de los decimales en los diferentes pasos hace que


los resultados no sean siempre exactamente iguales, pero la diferencia es pe-
quea. Vemos que la correlacin ha subido de .31 (calculada con los seleccio-
nados) a .41 (una estimacin de la que hubiramos obtenido si todos hubie-
ran sido admitidos).

4.3. Correccin de las correlaciones de una parte con el todo

A veces nos interesa conocer la correlacin entre una parte y un total al


que esa parte tambin contribuye.
El ejemplo ms comn (no el nico posible) es cuando calculamos la co-
rrelacin entre cada uno de los tems de un test o escala y el total del test. Es-
te clculo es interesante: a mayor correlacin entre un tem y el total, ms tie-
ne que ver ese tem con lo que miden los dems tems (son los que

166
CONCEPTO DE CORRELACIN Y COVARIANZA

discriminan ms, y los que mejor representan el constructo subyacente o ras-


go que se desea medir). En la construccin y anlisis de instrumentos de me-
dicin este paso es de mucho inters.
El problema surge del hecho de que ese tem tambin est sumado en el
total, con lo que la correlacin resultante es artificialmente alta. En realidad lo
que nos interesa es la correlacin de cada tem con la suma de todos los de-
ms, es decir, con el total menos el tem en cuestin.
En algunos programas de ordenador29 ya est programada la correlacin
de cada tem con el total menos el tem, pero no siempre disponemos de es-
tos programas. A veces lo ms cmodo (cuando no se dispone de un progra-
ma adecuado) es calcular la correlacin de cada tem con el total, sin ms30.
En este caso estas correlaciones artificialmente altas podemos dejarlas en su
magnitud exacta aplicando despus la frmula [18].

ri(T-i) = Correlacin entre un tem (o parte de un total) y el total me-


nos ese tem (o correlacin entre un tem y la suma de todos
los dems)
riT = Correlacin tem-total
si y sT: desviaciones tpicas del tem y del total

Sobre esta correccin:


a) Suponemos que la correlacin de cada tem con el total (con la suma
de todos los tems, riT) est calculada con un programa de ordenador,
lo mismo que las desviaciones tpicas de los tems y de los totales. Con
estos datos es fcil aplicar esta frmula [18] (o programarla).
b) Cuando los tems son muchos la diferencia entre riT y ri(T-i) es pequea.
c) En estas situaciones y para valorar estos coeficientes, es til estimar cul
sera el valor medio de la correlacin de cada tem con el total cuando 1)
realmente no hay relacin (correlacin cero entre los tems) y 2) todos
los tems o partes tuvieran igual varianza; en este caso la frmula [18]
nos da la estimacin de la correlacin de cada tem con el total 31:
donde k es el nmero de tems

29
Como en el SPSS, en Analizar-Escalas-Anlisis de la Fiabilidad.
30
Podemos hacerlo fcilmente con una hoja de clculo tipo EXCEL.
31
Guilford y Fruchter, 1973:321.

167
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

5. CORRELACIONES PARCIALES

Una correlacin parcial entre dos variables es una correlacin que anula
o neutraliza una tercera variable (o ms variables): es la correlacin entre
dos variables igualando a todos los sujetos en otras variables.
Aqu tratamos solamente de las correlaciones parciales de primer orden.
Se denominan correlaciones parciales de primer orden aquellas en la que
neutralizamos (o mantenemos constante) solamente una tercera variable; en
las correlaciones parciales de segundo orden neutralizamos dos variables; el
procedimiento es similar aunque la frmula es algo ms complicada si no la
tenemos ya programada. En cambio las correlaciones parciales de primer or-
den son sencillas y muy tiles.
La correlacin parcial, como todos los coeficientes de correlacin relacio-
nados con el coeficiente r de Pearson, comprueba solamente relaciones rec-
tilneas.

5.1. Utilidad de las correlaciones parciales

La correlacin parcial es til para controlar variables y puede substituir


determinados diseos experimentales en los que se pretende no tener en
cuenta el influjo de una o dos determinadas variables
Los casos en que se utiliza ms son aquellos en los que se pretende con-
trolar variables como la edad y la inteligencia.
Por ejemplo la correlacin entre peso y altura en un grupo de nios de
distinta edad se ver influida por la edad. Los nios mayores en edad tambin
sern de ms peso y de mayor estatura. La misma correlacin entre peso y al-
tura en grupo de nios de la misma edad ser menor. La diversidad en edad
hace que la relacin entre peso y altura aumente.
Si queremos conocer la relacin entre peso y altura independientemente
de la edad, podramos hacer el clculo utilizando una muestra de la misma
edad, o comprobando la correlacin por separado en grupos homogneos en
edad. Otra manera de calcular la correlacin entre peso y altura prescindien-
do de la edad (o suponiendo que todos los sujetos tienen la misma edad) es
a travs de las correlaciones parciales.

5.2. Frmula de las correlaciones parciales de primer orden

168
CONCEPTO DE CORRELACIN Y COVARIANZA

r12.3 es la correlacin entre las variables 1 y 2 neutralizando la variable 3


(como si todos los sujetos estuvieran igualados en la variable 3)

Lo veremos en un ejemplo32. En la tabla 9 tenemos las correlaciones entre


Ingls, Matemticas (dos exmenes) y dos tests de inteligencia, abstracta y
verbal. El nmero de sujetos es de 2172 (datos reales).

Tabla 9

1. Ingls 2. Matemticas 3 Intel. verbal 4.Intel. abstracta


1. Ingls 1
2. Matemticas .338 1
3. Intel. Verbal .330 .392 1
4. Intel. Abstracta .224 379 .423 1

Entre Ingls y Matemticas tenemos una correlacin de .338. Podemos


pensar que en buena medida esta relacin est influida por la inteligencia ver-
bal. Cul sera la correlacin entre Ingls y Matemticas si todos los sujetos
tuvieran idntica inteligencia verbal (tal como la mide un test determinado)?
Aplicamos la frmula anterior; los subndices 1 y 2 corresponden a las va-
riables 1 y 2 (Ingls y Matemticas); la variable 3 es la inteligencia verbal (r12.3:
despus del punto se pone el smbolo de la variable anulada).

Vemos que la correlacin entre Ingls y Matemticas baja de .338 a .240


cuando neutralizamos las diferencias en inteligencia verbal.
Podemos preguntarnos lo mismo con respecto a la inteligencia abstracta,
cual ser la relacin entre Ingls y Matemticas suponiendo que todos los su-
jetos estn igualados en inteligencia abstracta?
Utilizamos la misma frmula, pero teniendo en cuenta que el sufijo 3 de la
frmula denota ahora la variable 4 que corresponde a la inteligencia abstrac-
ta, por lo que en la frmula podemos substituir el 3 por el 4 para evitar confu-
siones.

32
Tambin podemos calcular las correlaciones parciales en programas de Internet
(Anexo II) como VassarStats, lo mismo que las correlaciones mltiples de las que no es-
tamos tratando.

169
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

La correlacin entre Ingls y Matemticas tambin baja (de .338 a .281)


cuando igualamos a todos los sujetos en inteligencia abstracta, pero menos
que cuando los igualamos en inteligencia verbal, ya que el Ingls tiene una
mayor relacin con la inteligencia verbal (.330) que con la abstracta (.224).
Si quisiramos neutralizar simultneamente las dos variables de inteligen-
cia tendramos que utilizar la frmula de las correlaciones parciales de segun-
do orden.

5.3. Cundo una correlacin parcial es estadsticamente


significativa

Los grados de libertad son en este caso N - m, donde N es el nmero de


sujetos y m el nmero de variables. En nuestro ejemplo (cuatro variables) los
grados de libertad son N - 4; en este caso 2172 - 3 = 2168.
Para verificar si un coeficiente de correlacin parcial es estadsticamente sig-
nificativo podemos aplicar esta frmula (con ms seguridad cuando N > 100):

N = nmero de sujetos
m = nmero de variables.

En las tablas de la distribucin normal vemos:


z > 1.96, p< .05
z > 2.56, p < .01
z > 3.30, p < .001

El denominador de la frmula (1/ N-m) es el error tpico (desviacin tpi-


ca) de la distribucin de correlaciones parciales cuando la media es cero.
Tambin podemos calcular directamente el valor necesario de r para unos
grados de libertad (N -m) determinados, as para p < .05, necesitamos este
valor de r:

170
CONCEPTO DE CORRELACIN Y COVARIANZA

En los ejemplos utilizados, con un nmero tan grande de sujetos, todos


los coeficientes son claramente significativos, independientemente de que su
magnitud la juzguemos grande o pequea.
Tambin pueden calcularse correlaciones parciales de segundo orden (y
tercer orden, etc.) con las que neutralizamos ms de una variable; las frmu-
las son parecidas pero algo ms complejas y normalmente se hacen con pro-
gramas de ordenador.

6. CMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS33

Qu pretendemos con el cluster analysis: simplemente simplificar la in-


formacin de una matriz de correlaciones, verificando cmo tienden a
agruparse las variables. Se trata por lo tanto de reducir la informacin para
facilitar la interpretacin. Si las distintas variables se pueden agrupar en
unos pocos conjuntos en los que podemos ver un significado comn a un ni-
vel ms genrico, resulta ms fcil la interpretacin, sobre todo cuando hay
muchos tems.
Al final del proceso vamos a agrupar los tems que tienden a tener corre-
laciones ms altas entre s que con los dems, dndonos una idea de la estruc-
tura subyacente.
Hay varios procedimientos para hacer este cluster analysis, algunos ms
complicados que el expuesto aqu, pero ste es sencillo y con frecuencia su-
ficientemente orientador. Ya a otro nivel tenemos el anlisis factorial, que
podemos hacer con programas de ordenador, pero el cluster analysis que ex-
plicamos aqu puede dar una buena idea sobre la estructura de una serie de
variables a partir de la matriz de intercorrelaciones.
Lo explicamos con un ejemplo. Los datos (tabla 10) corresponden a un
cuestionario de comunicacin interpersonal34; los tems son temas posibles
de conversacin (puestos aqu de manera abreviada; son temas pretendida-
mente distintos en niveles de intimidad); una puntuacin alta en un tem
quiere decir que uno se abre con facilidad en ese mbito temtico.

33
Cluster analysis es obviamente una expresin inglesa; en espaol suele traducirse
como anlisis de agrupamientos y quizs ms frecuentemente anlisis de clusters; tam-
bin est aceptado el uso de la expresin inglesa, cluster analysis.
34
El cuestionario es una adaptacin de uno de los que presenta Jourard (1971).

171
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Tabla 10:
MATRIZ DE INTERCORRELACIONES (CUESTIONARIO DE COMUNICACIN N = 158,
ALUMNAS DE LA UNIV. COMILLAS, 1990)

2 3 4 5 6 7 8 9 10 11 12 13 14 15
1. Poltica .392 .371 .291 .256 .105 .211 .234 .193 .316 .222 .190 .335 .297 .282
2. Lo que
me gusta 1 .327 .268 .315 .158 .117 .251 .260 .254 .287 .261 .455 .295 .243
de TV.
3. Moral
.327 1 .673 .466 .355 .391 .337 .426 .348 .384 .359 .469 .243 .401
sexual
4. Lo que
me gusta
.226 .673 1 .473 .415 .321 .315 .503 .490 .435 .562 .450 .246 .398
en el otro
sexo
5. Limitac.
.315 .466 .473 1 .391 .188 .310 .557 .522 .347 .566 .393 .229 .514
propias
6. Limit.
en mis .158 .335 .415 .391 1 .237 .334 .409 .333 .328 .368 .374 .478 .304
padres
7. Problemas
.117 .391 .321 .188 .237 1 .261 .312 .300 .156 .346 .170 .290 .313
sexuales
8. Dinero
de que .251 .237 .315 .310 .334 .261 1 .378 .388 .405 .254 .320 .599 .220
dispongo
9. Mi
aspecto .260 .426 .503 .557 .409 .312 .378 1 .487 .333 .437 .359 .291 .475
fsico
10. Lo que
ms me .254 .348 .490 .522 .333 .300 .388 .487 1 .330 .453 .382 .290 .435
gusta en m
11. Plan fut.
.287 .384 .435 .347 .328 .156 .405 .333 .330 1 .271 .457 .260 .129
profesional
12. Mis
.261 .359 .562 .566 .368 .346 .254 .437 .453 .271 1 .319 .235 .551
depresiones
13. Divers.
.455 .469 .450 .393 .374 .170 .320 .359 .382 .457 .319 1 .223 .395
favoritas
14. Economa
.295 .243 .246 .229 .478 .290 .599 .291 .290 .260 .235 .223 1 .269
familiar
15. Sentim.
.243 .401 .398 .514 .304 .313 .220 .475 .435 .129 .551 .395 .269 1
profundos

172
CONCEPTO DE CORRELACIN Y COVARIANZA

1. Como paso previo se anota cul es la correlacin mayor de cada tem


(no es necesario teniendo la matriz a la vista, pero se facilita el proceso).
El tener a la vista las segundas correlaciones mayores tambin ayuda.
En este caso, las correlaciones mayores de cada tem las tenemos en la
tabla 11.

Tabla 11:

tem n Tiene su mayor correlacin con Item n Tiene su mayor


el tem n correlacin con el tem n
1 2 (.392) 9 5 (.557)
2 13 (.455) 10 5 (.522)
3 4 (.673) 11 13 (.457)
4 3 (.673) 12 5 (.566)
5 12 (.566) 13 3 (.469)
6 14 (.478) 14 8 (.599)
7 3 (.391) 15 12 (.551)
8 14 (.599)

2. Y uno se pregunta cual es la mayor correlacin de todas? Y se dibuja


a modo de sociograma. En este caso la correlacin mayor est entre el
3 y el 4:
3 4
3. Y ahora nos preguntamos: de los tems que quedan hay alguno que ten-
ga su correlacin ms alta con el 3 o con el 4? Pues s, el 7 tiene su corre-
lacin mayor con el 3, y tambin el 13 tiene su mayor relacin con el 3 y
adems no la tiene baja con el 4, con lo que el cluster quedara as:
3 4

7 13
Aqu tenemos ya un curioso primer cluster provisional que habr que
examinar mejor ms adelante, porque el tem n 2 tiene su mayor co-
rrelacin con el 13 (atendiendo al contenido el 13 (diversiones) pega
ms con el 2). Los tems 3, 4 y 7 son de un contenido ms ntimo. Ya
podemos ir intuyendo a dnde nos va a llevar este cluster analysis
4. Ya no queda ningn tem que tenga su mayor relacin con el n 3 o con
el n 4. Volvemos a comenzar para localizar un segundo cluster: de las

173
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

correlaciones mayores de cada tem que nos quedan, cual es la ma-


yor? Es la correlacin entre el 8 y el 14, y ya tenemos el ncleo de un
segundo cluster.
8 14

Y nos preguntamos como antes: de las correlaciones mayores de los


tems que nos quedan alguna lo es con el tem 8 o 14? S, el 6, que tie-
ne su mayor relacin con el 14; y tenemos un segundo cluster de tipo
familiar-econmico.
8 14

5. Continuamos con nuestra bsqueda y de todas las correlaciones m-


ximas de cada tem que nos van quedando observamos que la mayor
es la del 5 y 12, y que adems el 9 y el 10 tienen su mayor relacin con
el 5, y el 15 la tiene con el 12, con lo que nos queda un tercer cluster
que emerge del yo secreto y confidencial:
5 12

9 10 15

6. Vamos a por otro cluster. La correlacin mayor que nos queda es la del
tem 2 y 13. Pero resulta que el 13 ya est en el primer cluster. De todas
maneras vamos a ver qu pasa con este cluster; el 13 habr que dejar-
lo en este cluster o en el primero de todos.
2 13

Los tems que tienen su mayor correlacin con el 2 o con el 13 son el


1 (con el 2), y el 11 (con el 13); adems el 1 no va mal con el 13, tiene
ah su tercera mayor correlacin y no muy baja en este contexto. Nos
quedara provisionalmente algo as:
2 13

1 11

Este cluster tiene coherencia conceptual pues se trata de tems que


pertenecen aparentemente al yo abierto. Sin embargo el 13 nos estro-
pea el conjunto porque tambin est en el primer cluster. Dentro de la

174
CONCEPTO DE CORRELACIN Y COVARIANZA

imprecisin de estos mtodos, una segunda regla para asignar un tem


a un cluster es meterlo con el que tenga una correlacin media ma-
yor. Vamos a ver qu pasa con el tem 13:
Correlaciones del 13 con el primer cluster:
.469 (con el 3)
.450 (con el 4) correlacin media = .363
.170 (con el 7)
Correlaciones del 13 con el ltimo cluster:
.455 (con el 2)
.335 (con el 1) correlacin media = .416
.457 (con el 11)
Decididamente el 13 tiene que ver ms con los tems del ltimo cluster; lo
dejamos en ste y lo quitamos del primer cluster que hemos localizado.
Nos quedan finalmente los clusters puestos en la tabla 12; en cada uno se
puede calcular la correlacin media (que indica claridad, consistencia inter-
tem):
Tabla 12

cluster 1 cluster 2 cluster 3 cluster 4

3 4 8 14 5 12 2 13

7 6 9 10 15 1 11

correlacin correlacin correlacin correlacin


media: media: media: media:
r = .462 r = .438 r = .499 r = .358
relacin con dinero y cosas ms temas
el sexo familia personales fciles

El procedimiento es sencillo:
1 Para comenzar en cada tem buscamos con qu otro tem tiene su ma-
yor correlacin (su pareja ms clara; y no viene mal tener presente
tambin con qu tem su segunda mayor correlacin)
2 Se localiza la correlacin mayor de todas, y ya tenemos dos tems que
sern el ncleo del primer cluster;
3 Se localizan los tems que tienen sus mayores correlaciones con cual-
quiera de los dos tems localizados en el paso anterior, y ya tenemos el
primer cluster

175
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

4 Buscamos la correlacin mayor de las que nos quedan, y ya tenemos el n-


cleo de un segundo cluster, y se sigue el proceso visto en el paso anterior.
5 Los tems dudosos los situamos en el cluster con el que tiene su mayor
correlacin media

Este mtodo es sencillo pero puede ser un tanto impreciso (depende de


los datos).
Ahora vendra el anlisis cualitativo (intentando encontrar sentido a los
tems que van juntos en el mismo cluster) y anlisis cuantitativos adicionales:
1 Una correlacin media ms alta indica cluster (anlogo a los factores ro-
tados del anlisis factorial) ms claro, ms definido;
2 Las medias de cada cluster (no medias de las correlaciones sino de los
tems) daran el nivel de apertura o secretismo de estos clusters;
3 Habra que ver o explorar relaciones inter-cluster.
4 Un estudio ms completo nos llevara a explorar diferencias entre gru-
pos (por ejemplo segn el sexo) en los distintos factores (clusters) o
en cada tem; tambin se podran explorar relaciones entre tems o
clusters y otras variables conocidas.

7. COEFICIENTES DE CORRELACIN MS IMPORTANTES

Nos hemos centrado en el coeficiente r de Pearson, pero hay otros mu-


chos coeficientes de relacin o asociacin. En la tabla 13 damos una breve in-
formacin sobre los ms utilizados. Esta informacin puede servir de gua o
de referencia rpida, aunque para utilizar algunos de estos coeficientes sea
necesario buscar informacin adicional.
De estos coeficientes el ms utilizado e importante es el primero, el coe-
ficiente r de Pearson.
Los coeficientes 2, 3 y 4 podemos decir que pertenecen a la familia de los
coeficientes de Pearson; son aplicaciones especiales de este coeficiente.
Los coeficientes 5 y el 6 (rho y tau) son apropiados para datos ordinales,
cuando el dato que manejamos es el rango o nmero de orden del sujeto (u
objeto) y son especialmente tiles con muestras pequeas o muy pequeas35.
Los coeficientes 7, 8 y 9 son apropiados para datos nominales (sujetos cla-
sificados en categoras) y estn relacionados con el ji cuadrado, de hecho se
utilizan como complemento del ji cuadrado. El coeficiente 7 (phi), para da-
tos genuinamente dicotmicos (1 0) podemos tambin calcularlo con las
mismas frmulas que el coeficiente r de Pearson.

35
Estos coeficientes para datos ordinales suelen venir bien explicados en los textos
de mtodos estadsticos no paramtricos.

176
CONCEPTO DE CORRELACIN Y COVARIANZA

Tabla 13

coeficiente variables comentarios


1 Coeficiente r las dos Es el coeficiente mejor en conjunto, el
de Pearson continuas ms estable y el ms utilizado; cuando
(producto- no se especifica otra cosa se supone
momento) que es ste el coeficiente calculado;
Supone que la distribucin de las va-
riables es normal (en la poblacin, no
en la muestra utilizada; esta suposi-
cin tambin es necesaria en otros co-
eficientes derivados del de Pearson);
Aunque hay varias frmulas para su
clculo, ninguna es cmoda; el clcu-
lo suele estar programado en calcula-
doras y programas estadsticos;
Existen tablas para comprobar el nivel
de significacin en muestras peque-
as, o se utiliza la frmula apropiada
en muestras grandes;
El coeficiente r de Pearson puede
transformase en el estadgrafo Z de
Fisher (mediante tablas) que permite
resolver determinados problemas, co-
mo calcular medias de correlaciones
(aunque es preferible calcular la me-
dia ponderada, multiplicando cada
coeficiente por su N) o comprobar si
dos coeficientes de correlacin son
estadsticamente distintos;
Se trata siempre de correlaciones line-
ares, como todos los dems, excepto
el coeficiente h (eta) para relaciones
curvilneas.

2 Coeficiente una continua Se trata de un caso particular del coe-


biserial y otra ficiente r de Pearson, y aunque hay
puntual (rbp) dicotmica frmulas especficas y mtodos rpi-
dos mediante grficos (baco de
Dingman) se pueden utilizar las fr-
mulas de la r de Pearson y las calcula-
doras y programas que tienen este co-
eficiente ya programado;

177
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

coeficiente variables comentarios


2 Coeficiente una continua Para comprobar el nivel de significacin
biserial y otra se pueden utilizar las mismas frmulas
puntual (rbp) dicotmica y tablas que con la r de Pearson;
Aunque es en todo equivalente al coe-
ficiente r de Pearson, el trmino con
que se denomina (biserial-puntual)
indica que una de las variables es di-
cotmica (1 0);
Este coeficiente se puede utilizar
cuando una variable es genuinamente
dicotmica, es decir, no dicotomizada
artificialmente (como puede ser clasi-
ficar a los sujetos entre apto y no ap-
to); en estos casos el coeficiente apro-
piado es el biserial;
Tenemos variables dicotmicas en sen-
tido propio cuando slo hay dos clasifi-
caciones que se excluyen mutuamente,
como varn-mujer, verdadero-falso,
acierto-error (en tests objetivos), etc.;
tambin pueden tratarse como varia-
bles dicotmicas las que tericamente
son continuas (como alcohlico-no al-
cohlico, apto-no apto, bueno-malo)
cuando existe un claro punto de infle-
xin, una distribucin bimodal que
permite clasificar a los sujetos en una
genuina dicotoma (1 0).

3 Coeficiente una variable Es una estimacin de la r de Pearson,


de correlacin continua, y otra pero menos fiable que la r o la rpb;
biserial (rb) dicotomizada para los mismos datos da un coefi-
artificialmente ciente mayor que rpb;
(continua pero A veces el coeficiente mximo es ma-
dividida en dos yor que 1 (en distribuciones no nor-
categoras, como males, bimodales);
apto y no apto) En general no es aconsejable si hay
otras alternativas, y en caso de duda
es preferible r o rpb; a veces puede
ser til el dicotomizar una variable
por falta de datos fiables; en este caso
se debe dicotomizar la variable conti-
nua por la mediana.

178
CONCEPTO DE CORRELACIN Y COVARIANZA

coeficiente variables comentarios


4 Coeficiente las dos variables Es una estimacin aproximada del co-
de correlacin continuas eficiente r de Pearson y menos fiable;
tetracrica (rt) pero no se debe emplear con pocos casos
dicotomizadas (200 sujetos o ms); no es fcil com-
artificialmente probar su nivel de significacin;
Si se puede, es preferible utilizar otra
alternativa (r de Pearson o f)

5 Coeficiente las dos variables Es la mejor alternativa no paramtrica


rho (r) de continuas al coeficiente r de Pearson; se trata
Spearman pero ordenadas del coeficiente r calculado con los
(tambin se por rangos rangos o nmero de orden de cada
utiliza el (el rango o puntuacin;
smbolo sr). nmero de Da un coeficiente algo inferior a la r
orden es el de Pearson calculado con los mismos
dato que se datos directos;
utiliza) Fcil y rpido de clculo; muy til con
datos ordinales y con no ms de 30
sujetos o pares de puntuaciones;
Existen tablas y frmulas para com-
probar su significacin.

6 Coeficiente las dos variables No es comparable directamente con


Tau (t) de continuas y el coeficiente r de Pearson;
Kendall ordenadas por Fcil y til con muestras muy peque-
rangos as (10 sujetos o menos; si son ms
es preferible el coeficiente ? de Spear-
man);
Existen tablas y frmulas para com-
probar su significacin; una modali-
dad es el coeficiente de correlacin
parcial con el mismo mtodo.

7 Coeficiente las dos variables Relacionado con el ?2; el valor de sig-


phi (f) dicotmicas nificacin es el mismo que el de ?2; no
admite valores negativos;
Una limitacin es que el valor mximo
no es 1 necesariamente; slo se pue-
de alcanzar cuando la proporcin de
unos es idntica en las dos variables;
Especialmente til para calcular las
correlaciones entre tems dicotmi-
cos (de pruebas objetivas, tests, etc.).

179
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

coeficiente variables comentarios

8 Coeficiente las dos variables Derivado tambin del c2, el valor de


phi (F) de categricas significacin es el mismo que el de c2;
Cramer pero con es el coeficiente apropiado cuando
ms de dos hay ms de dos filas o columnas. Un
criterios de coeficiente semejante es el coeficien-
clasificacin en te T de Tschuprow;
una o en las Vara de 0 a 1 independientemente
dos variables del tamao de la tabla y por esto es
(k = nmero una alternativa preferible al coeficien-
de columnas o te C de Contingencia; no admite valo-
filas, el que sea res negativos.
menor)

9 Coeficiente C las dos variables Es el coeficiente relacionado con c2


de Contingencia divididas en ms utilizado aunque no es siempre
dos o ms el preferible; es significativo si lo es el
categoras c2;
El valor mximo nunca es 1 y depen-
de del nmero de filas y columnas
por lo que slo son comparables los
coeficientes que proceden de cuadros
con idntico nmero de filas y colum-
nas; no admite valores negativos.

10 Coeficiente las dos variables Es el coeficiente apropiado para rela-


eta (h) continuas ciones curvilneas; si se calcula el co-
eficiente r de Pearson cuando hay re-
lacin curvilnea, el valor resultante es
ms bajo;
El valor de h es siempre positivo.

8. COEFICIENTE DE CORRELACIN: RESUMEN

1. El coeficiente de correlacin expresa en qu grado los sujetos (u obje-


tos, elementos) estn ordenados de la misma manera en dos variables si-
multneamente; as en el caso de relacin positiva y alta los sujetos tienen
puntuaciones altas o bajas en las dos variable simultneamente.
2. Correlacin y covarianza expresan grado de relacin; su interpretacin
es bsicamente la misma; el coeficiente de correlacin se calcula con puntua-
ciones tpicas y la covarianza con puntuaciones directas.

180
CONCEPTO DE CORRELACIN Y COVARIANZA

3. Un coeficiente de correlacin se puede interpretar sin entender por qu o


cmo cuantifica el grado de relacin; sin embargo es fcil entenderlo y ayuda a
la interpretacin porque pone de relieve la importancia de las diferencias. Po-
demos cuantificar (medir) el grado de relacin entre dos variables porque:

a) Si hay relacin positiva


1. Los sujetos tendern a estar o por encima de la media en las dos va-
riables o por debajo de la media en las dos variables;
2. Las diferencias (expresadas en puntuaciones z) con respecto a las
dos medias sern del mismo signo, luego el producto de estas dife-
rencias ser positivo y su suma grande (y dividida por N nos da el
coeficiente de correlacin).

b) Si hay relacin negativa


Los sujetos tendern a estar simultneamente por encima de la media
en una variable y por debajo de la media en la otra; las diferencias con
respecto a la media tendern distinto signo y al multiplicar una por la
otra el signo ser negativo (- por +); la suma de estos productos ser
grande pero con signo menos.

c) si no hay relacin
1. Unos sujetos estarn por encima de la media en las dos variables,
otros por debajo de la media en las dos variables, otros por encima
de la media en una variable y por debajo de la media en la otra varia-
ble
2. Las diferencias (expresadas en puntuaciones z) con respecto a las
dos medias sern unas del mismo signo (y su producto positivo) y
otras de signos distintos (y su producto negativo). la suma de estos
productos tender hacia cero en la medida en que no haya relacin.

4. Los valores extremos posibles son 0 (ausencia de relacin) y 1 (mxi-


ma relacin). Si r = 1, el orden (posicin relativa) de los sujetos es el mismo
en las dos variables. Como conocemos los valores ms altos y ms bajos po-
sibles, podemos apreciar y valorar la magnitud de la relacin (poca hasta .30,
alta a partir de .75).
5. La magnitud del coeficiente es independiente del signo; r =-.95 expre-
sa ms relacin que r = +.75; el que la relacin sea positiva o negativa es al-
go distinto de que sea grande o pequea.
6. Una correlacin no puede interpretarse como prueba de una relacin
causal.

181
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

7. Un coeficiente de correlacin estadsticamente significativo quiere de-


cir que es muy improbable si no hay relacin en la poblacin: en muestras se-
mejantes obtendramos un coeficiente de correlacin distinto de cero (pero
no necesariamente de magnitud semejante al que hemos obtenido en nues-
tra muestra).
8. A partir del coeficiente de correlacin obtenido en una muestra y del
tamao N de esa muestra, podemos estimar entre qu lmites se encuentra
esa correlacin en la poblacin (intervalos de confianza).
9. Un coeficiente de correlacin no significativo no es prueba de que no
haya relacin en la poblacin (podramos encontrarla quizs en muestras
mayores, o utilizando otras medidas ms precisas, etc.)
10. Los coeficientes de correlacin tienden a bajar cuando:
a) Las muestras son homogneas (sin diferencias en ambas variables
no se detectan relaciones).
b) Los instrumentos de medicin discriminan poco (no establecen
bien las diferencias entre los sujetos).
c) La fiabilidad de los instrumentos es baja.

182
CONCEPTO DE CORRELACIN Y COVARIANZA

ANEXO I

Tablas del coeficiente de correlacin r de Pearson


(N entre 3 y 102)

Grados de
libertad. 05 .01 .001
= N-2

1 .9969 .9998 .9999


2 .9500 .9900 .9990
3 .8783 .9587 .9911
4 .8114 .9172 .9740
5 .7545 .8745 .9507

6 .7067 .8343 .9249


7 .6664 .977 .8982
8 .6319 .7646 .8721
9 .6021 .7348 .8471
10 .5760 .7079 .8233

11 .5529 .6835 .8010


12 .5324 .6614 .7800
13 .5139 .6411 .7603
14 .4973 .6226 .7420
15 .4821 .6055 .7246

16 .4683 .5897 .7084


17 .4555 .5751 .6932
18 .4438 .5614 .6787
19 .4329 .5487 .6652
20 .4227 .5368 .6523

25 .3809 .4869 .5974


30 .3494 .4487 .5541
35 .3246 .4182 .5189
40 .3044 .3932 .4896
45 .2875 .3721 .4648

50 .2732 .3541 .4433


55 .2609 .3386 .4244
60 .2500 .3248 .4078
65 .2405 .3127 .3931
70 .2319 .3017 .3799

183
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Grados de
libertad .05 .01 .001
= N-2

75 .2242 .2919 .3678


80 .2172 .2830 .3568
85 .2108 .2748 .3468
90 .2050 .2673 .3375
95 .1996 .2604 .3291
98 .1986 .2591 .3274
100 .1946 .2540 .3211

Con muestras grandes:

y consultar las tablas de la distribucin normal;

z >1.96, p<.05
z >2.56, p<.01
z >3.3, p<.001

o consultar alguna direccin de Internet (Anexo siguiente).

ANEXO II: L A CORRELACIN EN INTERNET


(Los nmeros entre parntesis corresponden
a las direcciones puestas al final).

1. La probabilidad exacta de cualquier valor de r


http://graphpad.com/quickcalcs/PValue1.cfm (1)
(se introducen el valor de r y los grados de libertad o N-2)
http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation_coeff.asp
(2)
(se introduce el valor de r y el tamao N de la muestra).
http://faculty.vassar.edu/lowry/VassarStats.html (3)
2. Valores mnimos de r estadsticamente significativos (p =.05, .01 y
.001 para cualquier valor de N)
http://department.obg.cuhk.edu.hk/ResearchSupport/Minimum_correlation.asp
(2)
3. Intervalos de confianza (dados r y N)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
http://glass.ed.asu.edu/stats/analysis/rci.html (6)

184
CONCEPTO DE CORRELACIN Y COVARIANZA

4. Correlacin parcial
http://faculty.vassar.edu/lowry/par.html (3) (se introducen los coeficientes de
correlacin entre tres variables (o cuatro) y calcula la correlacin parcial ente
dos coeficientes igualando a los sujetos en las variables restantes).
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
5. Correlacin mltiple
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
6. Diferencias estadsticamente significativas entre dos (o ms) coefi-
cientes de correlacin
http://department.obg.cuhk.edu.hk/ResearchSupport/HomoCor.asp (2)
(calculados en muestras distintas)
http://faculty.vassar.edu/lowry/VassarStats.html (3)
(calculados en muestras distintas)
http://home.clara.net/sisa/correl.htm (ver help correlation) (4)
(de la misma muestra o de distintas muestras)
http://www.psych.ku.edu/preacher/corrtest/corrtest.htm (en muestras distin-
tas) (7)
7. Clculo del coeficiente de correlacin
http://calculators.stat.ucla.edu/correlation.php (5)
http://faculty.vassar.edu/lowry/VassarStats.html (3)

Direcciones originales (Home):


(1) GraphPad, Free Online Calculators for Scientists,
http://graphpad.com/quickcalcs/index.cfm
(2) Department of Obstetrics and Gynaecology, The Chinese University
of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Corre-
lation.asp
(3) VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar
College Poughkeepsie, NY USA
http://faculty.vassar.edu/lowry/VassarStats.html
(4) SISA, Simple Interactive Statistical Analysis
http://home.clara.net/sisa/index.htm#TOP
(5) Statistics Calculators, UCLA Department of Statistics,
http://calculators.stat.ucla.edu/
(6) Glass, Gene. V., Arizona State University College of Education, Online
Analysis of Data http://glass.ed.asu.edu/stats/analysis/ (o Gene V Glass Intro
to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources
for Statistics, en Online statistical calculators that can perform many diffe-
rent analyses.
(7) quantpsy.org, Kristopher J. Preacher, University of Kansas
http://www.psych.ku.edu/preacher/

185
CAPTULO 6
LA FIABILIDAD DE LOS TESTS Y ESCALAS

1. CONCEPTOS PRELIMINARES BSICOS

Antes de entrar en explicaciones muy precisas y en frmulas concretas,


nos es til hacer una aproximacin conceptual a lo que entendemos por fia-
bilidad en nuestro contexto (los tests, la medicin en las ciencias sociales)
porque lo que entendemos aqu por fiabilidad es de alguna manera anlogo a
lo que entendemos por fiabilidad en otras situaciones de la vida corriente.
Tambin es til desde el principio distinguir la fiabilidad de conceptos como
el de validez que utilizamos en los mismos contextos y situaciones y en refe-
rencia al uso de los tests.

1.1. Equivocidad del concepto de fiabilidad

El concepto de fiabilidad, tal como lo aplicamos en la medicin en las


ciencias humanas, desemboca en diversos mtodos o enfoques de compro-
bacin que se traducen en unos coeficientes de fiabilidad que a su vez supo-
nen conceptos o definiciones distintas de lo que es la fiabilidad, por lo que te-
nemos en principio un concepto equvoco ms que unvoco (salvo en un
sentido muy genrico). Por esta razn cuando en situaciones aplicadas se ha-
bla de la fiabilidad o de coeficientes de fiabilidad, hay que especificar de qu
fiabilidad se trata. Esto quedar ms claro al hablar de los distintos enfoques,
pero conviene tenerlo en cuenta desde el principio.

187
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

1.2. Fiabilidad y precisin de la medida

Aun as cabe hablar de un concepto ms genrico de fiabilidad con el que


se relacionan los otros conceptos ms especficos. En principio la fiabilidad
expresa el grado de precisin de la medida. Con una fiabilidad alta los suje-
tos medidos con el mismo instrumento en ocasiones sucesivas hubieran que-
dado ordenados de manera semejante. Si baja la fiabilidad, sube el error, los
resultados hubieran variado ms de una medicin a otra.
Ninguna medicin es perfecta; en otro tipo de mbitos una manera de ve-
rificar la precisin es medir lo mismo varias veces, o varios observadores in-
dependientes miden lo mismo para obtener una media que se estima ms
precisa que lo que un nico observador ha estimado, como cuando se desea
comprobar la densidad de una determinada especie animal en un determi-
nado hbitat. En la medicin psicolgica y educacional, que es la que nos in-
teresa aqu, no es posible o no es tan fcil utilizar procedimientos o estrate-
gias que se utilizan ms en otros campos de la ciencia; tendremos que buscar
otros enfoques para apreciar e incluso cuantificar la precisin de nuestras
medidas (como puede ser la precisin de un instrumento para medir cono-
cimientos, actitudes, un rasgo de personalidad, etc.). Lo que importa desta-
car aqu es la asociacin entre los conceptos de fiabilidad y precisin o
exactitud.

1.3. Fiabilidad y margen de error en al medida

Ya hemos indicado que si fiabilidad significa precisin, a menor fiabilidad


subir el margen de error de nuestras medidas. En muchas aplicaciones prc-
ticas el inters de los coeficientes de fiabilidad est precisamente en que nos
permiten calcular ese margen de error que a su vez nos permiten relativizar
los resultados individuales, por eso junto a la fiabilidad hay que estudiar el
error tpico de la medida (apartados 9.2 y 11, referido a resultados escolares).

1.4. Fiabilidad y predictibilidad

Otro concepto que nos ayuda a comprender qu entendemos por fiabili-


dad es el de consistencia o predictibilidad. Nos fiamos de un amigo cuando
sabemos cmo va a reaccionar ante un problema que le llevemos, y esto lo sa-
bemos porque tenemos experiencias repetidas. De manera anloga un juga-
dor de ftbol es fiable si sabemos de antemano que va a hacer un buen parti-
do, y de nuevo esto lo sabemos porque ya ha jugado bien en otras muchas
ocasiones (aunque esto no quiere decir que siempre juegue bien).

188
LA FIABILIDAD DE LOS TETS Y ESCALAS

1.5. Fiabilidad y validez

El concepto de fiabilidad es distinto del concepto de la validez. En el sen-


tido ms usual del trmino (no el nico), un instrumento es vlido si com-
prueba o mide aquello que pretendemos medir. Un instrumento puede ser
vlido, porque mide lo que decimos que mide y queremos medir, pero lo
puede medir con un margen de error grande; con instrumentos parecidos o
en mediciones sucesivas hubiramos obtenido resultados distintos. Tambin
puede haber una fiabilidad alta (los sujetos estn clasificados, ordenados,
con poco margen de error) y a la vez el instrumento puede carecer de vali-
dez, porque no mide lo que se pretende o lo que se dice que se est midien-
do (por ejemplo si un test de inteligencia lo que mide realmente es en bue-
na parte capacidad lectora, o si un examen supuestamente de comprensin
lo que se verifica es memoria y repeticin, etc.)1.

1.6. Fiabilidad y validez: errores sistemticos y errores aleatorios

En estos dibujos (figuras 1 y 2) tenemos dos representaciones grficas que


pueden ayudarnos a comprender lo que es validez y lo que es fiabilidad.

Figura 1 Figura 2

Validez: Fiabilidad:
Controlamos los Controlamos los
errores sistemticos errores aleatorios

Podemos imaginar a dos tiradores apuntando a un blanco. Cuando hay va-


lidez (figura 1, cuando el tiro es vlido) se apunta al blanco aunque puede
haber poca precisin en el tiro. Los errores son aleatorios (falta de fiabilidad;
1
El tema de la validez no lo tratamos de manera expresa; puede verse tratado en Mo-
rales, Urosa y Blanco (2003. pgs 126 y ss.) y de manera ms extensa en Morales (2006, cap.
12 y 13).

189
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

fruto de defectos del arma, inestabilidad en el pulso, etc.), pero no son siste-
mticos (apuntamos al blanco que queremos).
Cuando hay fiabilidad hay precisin en el tiro. En este ejemplo (figura 2)
no hay validez: se apunta sistemticamente fuera del blanco, aunque hay una
mayor fiabilidad o precisin (los tiros estn ms prximos entre s).
Para evitar los errores aleatorios (y que aumente la fiabilidad) habr que
mejorar el instrumento. Para evitar los errores sistemticos habr que apun-
tar bien al blanco, y para eso hay que saber dnde est, y no a otro sitio. La
comprobacin de la validez sigue otros mtodos distintos (anlisis del conte-
nido de los tems, verificar determinadas hiptesis sobre el significado pre-
tendido, etc.) y salvo en casos especficos (como cuando se habla de validez
predictiva) no se concreta en el clculo de un coeficiente determinado.
De lo que vamos diciendo se desprende que en primer lugar nos debe
preocupar la validez ms que la precisin: podemos medir muy bien lo que
no queramos medir (memoria en vez de comprensin, por ejemplo en un
examen).

1.7. La fiabilidad no es una caracterstica de los instrumentos

La fiabilidad no es una caracterstica de un instrumento; es una caracters-


tica de unos resultados, de unas puntuaciones obtenidas en una muestra
determinada. Esto es importante aunque en el lenguaje habitual nos refira-
mos a la fiabilidad como si fuera una propiedad del instrumento. Esta mane-
ra de hablar (este test tiene una fiabilidad de) es muy frecuente, pero hay
que entender lo que realmente queremos decir. Lo que sucede es que un
mismo instrumento puede medir o clasificar bien a los sujetos de una mues-
tra, con mucha precisin, y mal, con un margen de error grande, a los sujetos
de otra muestra. Con un mismo instrumento se mide y se ordena mejor a los
sujetos cuando estos sujetos son muy distintos entre s, y al revs, baja la fia-
bilidad si la muestra es ms homognea. Podemos visualizarlo con la imagen
de una balanza de poca precisin: si pesamos objetos que pesan entre 4 Kg.
y 10 Kg. no establecer diferencias en peso entre objetos que pesan casi lo
mismo y slo se diferencian en miligramos; en cambio esa misma balanza dis-
tinguir bien entre objetos con diferencias en peso de varios kilos. La balan-
za es la misma, pero su precisin (fiabilidad al distinguir segn unos objetos
pesen ms o menos) depende de las diferencias en peso de los objetos.
La fiabilidad se debe calcular con cada nueva muestra, sin aducir la fia-
bilidad obtenida con otras muestras como aval o prueba de la fiabilidad del
instrumento2.
2
El calcular el coeficiente de fiabilidad en cada nueva muestra es una de las recomen-
daciones de la American Psychological Association (Wilkinson and Task Force on Statisti-

190
LA FIABILIDAD DE LOS TETS Y ESCALAS

Todo esto quedar mejor entendido al examinar las variables que inciden
en que un coeficiente de fiabilidad sea alto o bajo, pero es importante ver
desde el principio que en sentido propio la fiabilidad no es la propiedad de
un determinado instrumento, sino del conjunto de puntuaciones con l ob-
tenido y que puede variar de una situacin a otra (y como en el ejemplo de
la balanza, va a estar en funcin de las diferencias entre los sujetos).

1.8. Fiabilidad y diferencias: teora clsica de la fiabilidad

En ltima instancia lo que nos va a decir un coeficiente de fiabilidad es si


el instrumento diferencia adecuadamente a los sujetos en aquello que mide
el test o escala. Con un test o escala pretendemos diferenciar a los sujetos;
establecer quin tiene ms o menos del rasgo que medimos. Los tests, sobre
todo los que miden rasgos psicolgicos, no nos seran tiles si de alguna ma-
nera no establecieran diferencias entre los sujetos. Ya veremos que, por lo
tanto, no hay fiabilidad sin diferencias. Por estas razones la fiabilidad de un
test de conocimientos o de un examen (prueba objetiva) no se puede inter-
pretar automticamente como un indicador de la calidad del test, como co-
mentamos en el apartado 11 sobre la interpretacin de estos coeficientes
cuando se trata de medir conocimientos. A esta teora de la fiabilidad basada
en las diferencias se le suele denominar teora clsica de la fiabilidad.

2. ENFOQUES Y MTODOS EN EL CLCULO DE LA FIABILIDAD

En el clculo de la fiabilidad hay tres enfoques que, aunque parten de mo-


delos tericos idnticos o parecidos, siguen procedimientos distintos y sus
resultados no pueden interpretarse exactamente del mismo modo; por eso
hemos dicho al principio que el concepto de fiabilidad es en cierto modo
equvoco. Estos tres enfoques son 1) el test-retest, 2) el de las pruebas pa-
ralelas y 3) los coeficientes de consistencia interna.

2.1. Mtodo: Test-retest

Los sujetos responden dos veces al mismo test, dejando entre las dos ve-
ces un intervalo de tiempo. El coeficiente de correlacin entre las dos
ocasiones es lo que denominamos coeficiente de fiabilidad test-retest. El in-
tervalo de tiempo puede ser de das, semanas o meses, pero no tan grande

cal Inference, APA Board of Scientific Affairs (1999); American Psychological Association
(2001) y tambin est recomendado por la poltica editorial de buenas revistas (Thomp-
son, 1994).

191
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

que los sujetos hayan podido cambiar. Una correlacin grande indica que en
las dos veces los sujetos han quedado ordenados de la misma o parecida ma-
nera. El intervalo de tiempo debe especificarse siempre (y suele estar en tor-
no a las dos o tres semanas).
a) Este mtodo corresponde al concepto ms intuitivo de fiabilidad: un ins-
trumento es fiable si en veces sucesivas aporta los mismos resultados.
b) No tiene sentido utilizarlo cuando est previsto un cambio en los suje-
tos, o cuando entre la primera y segunda vez se puede dar un aprendi-
zaje. Por esto no es un mtodo apto para comprobar la fiabilidad de un
instrumento de medicin escolar porque puede haber aprendizaje de
una vez a otra, aprendizaje que puede incluso estar provocado por el
mismo instrumento. La fiabilidad del tipo test-retest tiene ms sentido
en la medicin de rasgos y actitudes ms estables.
c) Este coeficiente de correlacin podemos entenderlo como un coefi-
ciente o indicador de estabilidad o de no ambigedad en la medi-
da en que ambas ocasiones los resultados son parecidos (los sujetos
entendieron lo mismo de la misma manera y respondieron de manera
idntica o casi idntica).
d) Una fiabilidad alta de este tipo no es garanta de una fiabilidad alta con
otro de los enfoques, sobre todo con el de consistencia interna que
veremos enseguida y que es el ms importante. Puede haber una fiabi-
lidad alta de este tipo, test-retest, con tems que preguntan cosas muy
distintas (como peso, altura, sexo, gusto por la msica, ao de naci-
miento, etc.), pero con poca (o ninguna) consistencia interna porque
se estn preguntando cosas distintas cuyas respuestas no tendra senti-
do sumar en un total.

2.2. Mtodo: Pruebas paralelas

Se utiliza cuando se preparan dos versiones del mismo test; los tems son
distintos en cada test pero con ambos se pretende medir lo mismo. En este
caso el coeficiente de fiabilidad es la correlacin entre las dos for-
mas paralelas, respondidas por los mismos sujetos.
a) Puede interpretarse como un coeficiente o indicador de equivalen-
cia entre los dos tests: si la correlacin es alta, las dos formas del mis-
mo test dan resultados parecidos, ordenan a los sujetos de manera pa-
recida, ambas formas son intercambiables. Si la correlacin entre las
dos formas (respondidas con das u horas de diferencia) es baja, la
conclusin ms razonable no es que los sujetos han cambiado, sino
que las dos formas no estn equilibradas en sus contenidos y de algu-
na manera miden cosas distintas o con nfasis distintos.

192
LA FIABILIDAD DE LOS TETS Y ESCALAS

b) Una confirmacin adicional de que las dos formas son realmente para-
lelas es comprobar si la correlacin media inter-tem dentro de cada
forma es de magnitud similar, lo mismo que la correlacin de los tems
de una forma con los de la otra versin.
c) Este tipo de fiabilidad, o prueba de equivalencia, es necesario siempre
que se disponga de dos o ms versiones del mismo test, y su uso que-
da en la prctica restringido a esta circunstancia no frecuente.

2.3. Mtodo: Coeficientes de consistencia interna3

Este es el enfoque ms utilizado y al que le vamos a dar una mayor exten-


sin. Hay que hablar de enfoque ms que de mtodo pues son muchas las po-
sibles frmulas en que se puede concretar en el clculo de la fiabilidad. Cuan-
do se habla de fiabilidad sin ms matizaciones, hay que entender que se trata
de fiabilidad en el sentido de consistencia interna.
Lo que expresan directamente estos coeficientes es hasta qu punto las
respuestas son lo suficientemente coherentes (relacionadas entre s) como
para poder concluir que todos los tems miden lo mismo, y por lo tanto son
sumables en una puntuacin total nica que representa, mide un rasgo bien
definido. Por esta razn se denominan coeficientes de consistencia interna,
y se aducen como garanta de unidimensionalidad, es decir, de que un ni-
co rasgo subyace a todos los tems. Hay que advertir sin embargo que un al-
to coeficiente de fiabilidad no es prueba de unidimensionalidad (tratado con
ms amplitud en el apartado 9.1).
El resto de la teora sobre la fiabilidad que exponemos a continuacin res-
ponde fundamentalmente a la fiabilidad entendida como consistencia inter-
na. Cuando se habla de la fiabilidad de un instrumento y no se especifica otra
cosa, suele entenderse que se trata de la fiabilidad entendida como consisten-
cia interna.

3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FRMULA BSICA DE LA


FIABILIDAD

Como punto de partida podemos pensar que cuando observamos dife-


rencias entre los sujetos, estas diferencias, que se manifiestan en que sus
3
Los coeficientes de consistencia interna tambin suelen denominarse coeficientes
de homogeneidad como si se tratara de trminos sinnimos, pero este trmino (coefi-
ciente de homogeneidad) es impropio (como advierte Schmitt, 1996). La consistencia in-
terna se refiere a las correlaciones entre los tems (relacin emprica) y la homogeneidad
se refiere a la unidimensionalidad (relacin lgica, conceptual) de un conjunto de tems
que supuestamente expresan el mismo rasgo.

193
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

puntuaciones totales (al sumar todas sus respuestas a los tems) son distin-
tas, se deben:
1 En parte a que los sujetos son distintos en aquello que se les est mi-
diendo; si se trata de un examen hay diferencias porque unos saben
ms y otros saben menos.
2 Las diferencias observadas se deben tambin en parte a lo que llama-
mos genricamente errores de medicin; por ejemplo, en este caso,
las respuestas distintas pueden estar ocasionadas por preguntas ambi-
guas, por la diferente capacidad lectora de los sujetos, etc.; no todo lo
que hay de diferencia se debe a que unos saben ms y otros saben
menos.

La puntuacin total de un sujeto podemos por lo tanto descomponerla


as:
X t = Xv + Xe [1] Xt = puntuacin total de un sujeto, puntua-
cin observada;
Xv = puntuacin verdadera, que representa
lo que un sujeto realmente sabe o sien-
te (depende de qu se est preguntan-
do o midiendo).
Xe = puntuacin debida a errores de medi-
cin, que puede tener signo ms o sig-
no menos.

Lo que decimos de cada puntuacin individual lo podemos decir tambin


de las diferencias entre todos los sujetos:

Diferencias verdaderas
Diferencias
los sujetos son distin- Diferencias falsas
observadas = +
tos en lo que estamos (errores de medicin)
entre los sujetos
midiendo.

Hablando con propiedad, ms que de diferencias concretas hay que hablar


de varianza, que cuantifica todo lo que hay de diferencia entre los sujetos.
La frmula bsica de la fiabilidad parte del hecho de que la varianza se puede
descomponer. La varianza de las puntuaciones totales de un test podemos
descomponerla as [2]:
s2t = s2v + s2e [2]

194
LA FIABILIDAD DE LOS TETS Y ESCALAS

s2v = Varianza total, expresa todo lo que hay de diferente en las puntua-
ciones totales; unos sujetos tienen puntuaciones totales ms altas,
otros ms bajas, etc.; la varianza ser mayor si los sujetos difieren mu-
cho entre s. Si lo que pretendemos con un instrumento de medida es
clasificar, detectar diferencias, una varianza grande estar asociada
en principio a una mayor fiabilidad.
s2e = Varianza verdadera; expresa todo lo que hay de diferente debido a
que los sujetos son distintos en lo que pretendemos medir, o dicho
de otra manera, expresa todo lo que hay de diferente debido a lo que
los tems tienen en comn, de relacin, y que es precisamente lo
que queremos medir. El trmino verdadero no hay que entenderlo
en un sentido cuasi filosfico, aqu la varianza verdadera es la que
se debe a respuestas coherentes (o respuestas relacionadas), y esta
coherencia (o relacin verificada) en las respuestas suponemos que
se debe a que todos los tems del mismo test miden lo mismo.
s2t = Varianza debida a errores de medicin, o debida a que los tems mi-
den en parte cosas distintas, a lo que no tienen en comn. Puede ha-
ber otras fuentes de error (respuestas descuidadas, falta de motiva-
cin al responder, etc.), pero la fuente de error que controlamos es la
debida a falta de relacin entre los tems, que pueden medir cosas
distintas o no muy relacionadas. El error aqu viene a ser igual a inco-
herencia en las respuestas, cualquiera que sea su origen (incoheren-
cia sera aqu responder no cuando se ha respondido s a un tem de
formulacin supuestamente equivalente).

Suponemos que los errores de medicin no estn relacionados con las


puntuaciones verdaderas; no hay ms error en las puntuaciones ms altas o
menos en las ms bajas y los errores de medicin se reparten aleatoriamente;
con este supuesto la frmula [2] es correcta.
La fiabilidad no es otra cosa que la proporcin de varianza verdadera, y
la frmula bsica de la fiabilidad [3] se desprende de la frmula anterior [2]
(r11 es el smbolo general de los coeficientes de fiabilidad):

s2v
r11 = [3]
s2t

Por varianza verdadera entendemos lo que acabamos de explicar; la va-


rianza total no ofrece mayor problema, es la que calculamos en los totales de
todos los sujetos; cmo hacemos operativa la varianza verdadera lo vere-
mos al explicar las frmulas (de Cronbach y Kuder-Richardson). Expresando
la frmula [3] en trminos verbales tenemos que

195
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

todo lo que discriminan los tems por lo que tienen de relacionados


fiabilidad =
todo lo que discriminan de hecho al sumarlos en una puntuacin total

o expresado de otra manera

varianza debida a lo que hay de coherente en las respuestas


fiabilidad =
varianza debida tanto a lo que hay de coherente como
de no coherente en las respuestas

Por respuestas coherentes hay que entender que no se responde de mane-


ra distinta a tems que supuestamente y segn la intencin del autor del instru-
mento, expresan el mismo rasgo. En una escala de actitud hacia la msica se-
ra coherente estar de acuerdo con estos dos tems: me sirve de descanso
escuchar msica clsica y la educacin musical es muy importante en la
formacin de los nios; lo coherente es estar de acuerdo con las dos afirma-
ciones o no estar tan de acuerdo tambin con las dos. Un sujeto que est de
acuerdo con una y no con la otra es de hecho incoherente segn lo que pre-
tende el autor del instrumento (medir la misma actitud a travs de los dos
tems). Esta incoherencia de hecho no quiere decir que el sujeto no sea cohe-
rente con lo que piensa; lo que puede y suele suceder es que los tems pueden
estar mal redactados, pueden ser ambiguos, medir cosas distintas, etc.; por es-
tas razones la fiabilidad hay que verificarla experimentalmente.
En la varianza total (todo lo que hay de diferencias individuales en las
puntuaciones totales) influye tanto lo que se responde de manera coheren-
te o relacionada, como lo que hay de incoherente o inconsistente (por la
causa que sea); la fiabilidad expresa la proporcin de consistencia o cohe-
rencia emprica.
En el denominador tenemos la varianza de los totales, por lo tanto la fia-
bilidad indica la proporcin de varianza debida a lo que los tems tienen en
comn. Una fiabilidad de .80, por ejemplo, significa que el 80% de la varian-
za se debe a lo que los tems tienen en comn (o de relacionado de hecho).

4. REQUISITOS PARA UNA FIABILIDAD ALTA

Si nos fijamos en la frmula anterior [3] (y quizs con ms claridad si nos


fijamos en la misma frmula expresada con palabras), vemos que aumentar
la fiabilidad si aumenta el numerador; ahora bien, es importante entender
que aumentar el numerador si por parte de los sujetos hay respuestas distin-
tas (no todos los sujetos responden de la misma manera) y a la vez relacio-
nadas, de manera que tendremos una fiabilidad alta:

196
LA FIABILIDAD DE LOS TETS Y ESCALAS

1 Cuando haya diferencias en las respuestas a los tems, es decir,


cuando los tems discriminan; si las respuestas son muy parecidas (to-
dos de acuerdo, o en desacuerdo, etc.) la varianza de los tems baja y
tambin la fiabilidad;
2 Y adems los tems (las respuestas) estn relacionadas entre
s, hay coherencia, consistencia interna; cuando si se responde muy
de acuerdo a un tem, tambin se responde de manera parecida a
tems distintos pero que expresan, suponemos, el mismo rasgo; hay
una tendencia generalizada responder o en la zona del acuerdo o en la
zona del desacuerdo.

Entender cmo estos dos requisitos (respuestas distintas en los sujetos y


relacionadas) influyen en la fiabilidad es tambin entender en qu consiste la
fiabilidad en cuanto consistencia interna. Esto lo podemos ver con facilidad
en un ejemplo ficticio y muy simple en el que dos muestras de cuatro sujetos
responden a un test de dos tems con respuestas s o no (1 0) (tabla 1).

Tabla1

Podemos pensar que se trata de una escala de integracin familiar com-


puesta por dos tems y respondida por dos grupos de cuatro sujetos cada
uno. Los tems en este ejemplo podran ser:
1. En casa me lo paso muy bien con mis padres [s=1 y no =0]
2. A veces me gustara marcharme de casa [s = 0 y no = 1]

En estos ejemplos podemos observar:


1 Las desviaciones tpicas (lo mismo que las varianzas, s2) de los tems
son idnticas en los dos casos, adems son las mximas posibles (por-
que el 50% est de acuerdo y el otro 50% est en desacuerdo, mxima
dispersin). Desviaciones tpicas grandes en los tems (lo que supone

197
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

que distintos sujetos responden de distinta manera al mismo tem)


contribuyen a aumentar la fiabilidad, pero vemos que no es condicin
suficiente: con las mismas desviaciones tpicas en los tems el coeficien-
te de fiabilidad es 1 (grupo A) en un caso y 0 en otro (grupo B).
2 La diferencia entre los grupos A y B est en las correlaciones inter-tem:
la mxima posible en A (r = 1), y la ms baja posible en B (r = 0). La co-
rrelacin es grande cuando las respuestas son coherentes, cuando se
responde bsicamente de la misma manera a todos los tems; la corre-
lacin es pequea cuando las respuestas son incoherentes.

Cuando las respuestas son coherentes (simplificando: unos dicen que s a


todo y otros dicen que no a todo), la puntuacin total est ms diversificada
porque se acumulan puntuaciones muy altas o muy bajas en los tems; conse-
cuentemente la desviacin tpica (o la varianza) de los totales ser mayor. Con
respuestas diferentes y adems coherentes, los sujetos quedan ms diversifi-
cados, mejor clasificados por sus puntuaciones totales, y esta diversidad de
los totales se refleja en una mayor desviacin tpica o varianza.
Esta diversidad coherente de las respuestas (y que la vemos de manera
exagerada en el grupo A del ejemplo anterior) queda recogida en la frmula
de la fiabilidad o de consistencia interna.
Para que suba la fiabilidad hace falta por lo tanto lo que ya hemos indicado
antes:
1 que unos y otros sujetos respondan de manera distinta a los tems
2 y que adems esas respuestas a los tems de cada sujeto sean coherentes.

Si esto es as, las diferencias en los totales se debern a que los sujetos han
respondido de manera distinta y coherente a los distintos tems. Esto hace
que los totales sean distintos, para unos sujetos y otros, segn tengan ms o
menos del rasgo que deseamos medir. unos van acumulando valores altos en
sus respuestas, y otros van acumulando valores bajos.
Lo que significa la fiabilidad, y las condiciones de una fiabilidad alta, pode-
mos verlo en otro ejemplo (obviamente ficticio, tabla 2). Imaginemos que se
trata ahora de una escala de actitud hacia la msica compuesta por tres
tems, con respuestas continuas de 1 (mximo desacuerdo) a 5 (mximo
acuerdo) respondida por seis sujetos:

198
LA FIABILIDAD DE LOS TETS Y ESCALAS

Tabla 2

Qu vemos fcilmente en estos datos:


1. Los tems miden lo mismo conceptualmente; al menos es lo que inten-
tamos al redactarlos;
2. Los sujetos son distintos en las respuestas a cada tem, por eso hay va-
rianza (diferencias) en los tems; a unos les gusta ms la msica, a
otros menos;
3. Los tems estn relacionados: si tomamos los tems de dos en dos ve-
mos que los sujetos tienden a puntuar alto en los dos o bajo en los dos
(ms o menos). Esta relacin podemos verificarla experimentalmente
calculando los coeficientes de correlacin: r12 = .95, r13 = .81 y r23 =
.734 (en ejemplos reales, con ms tems y ms sujetos, no suelen ser
tan altos).
4. Consecuentemente el puntuar alto en un tem supone un total ms al-
to en toda la escala; esto podemos verificarlo experimentalmente cal-
culando la correlacin de cada tem con la suma de los otros dos (co-
rrelacin tem-total): r1t = .93, r2t = .88 y r3t = .79.
Un procedimiento que nos dara la misma informacin es comparar en
cada tem a los sujetos con totales ms altos y totales ms bajos; si los
mismos tems diferencian simultneamente a los mismos sujetos, es
que los tems estn relacionados.
5. Los sujetos van acumulando puntuaciones altas o bajas en cada tem,
por lo tanto quedan muy diferenciados en la puntuacin total: estn
bien ordenados o clasificados.
6. Nos encontramos con una coherencia global en las respuestas, todos
los tems estn relacionados; esta coherencia global es la que estima-
mos en los coeficientes de fiabilidad (de consistencia interna; en el
ejemplo ficticio de la tabla 2 el coeficiente de fiabilidad es a = .9244.
7. Esta relacin entre los tems es la que comprobamos experimental-
mente y nos permite sumarlos en una sola puntuacin total porque

4
Sobre cmo construir escalas de actitudes y cmo hacer estos anlisis puede verse
Morales, Urosa y Blanco (2003).

199
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

nos confirma (aunque no necesariamente) que todos miden lo mismo.


Si un tem no est claramente relacionado con los dems, puede ser
que est midiendo otra cosa.
8. La relacin conceptual (homogeneidad de los tems) la suponemos
(procuramos que todos los tems expresen el mismo rasgo, aunque po-
demos equivocarnos), pero la comprobamos empricamente en cada
tem (mediante la correlacin de cada tem con todos los dems) y en
el conjunto de todo el instrumento (coeficiente de fiabilidad).
Sin embargo puede haber relacin emprica (un tem correlaciona bien
con los dems) sin que eso signifique que hay una clara relacin con-
ceptual. Si l ejemplo de la tabla 2 en vez del tem me entusiasma la
pera (que claramente expresa gusto por la msica) ponemos en mi
casa tengo un piano, que podra expresar gusto por la msica pero
tambin, y con ms claridad, indica nivel econmico (algo distinto al
gusto por la msica, con unas respuestas no sumables con las dems),
y los dos melmanos del ejemplo son adems ricos y tienen un piano
en casa y los dos a quienes no gusta o gusta menos la msica son de ni-
vel econmico inferior y por supuesto no tienen un piano en su casa,
tendramos que este tem, en mi casa tengo un piano, est contribu-
yendo a la fiabilidad de la escala sin que podamos decir que est mi-
diendo lo mismo que los dems. Los nmeros no entienden de signifi-
cados, de ah la insistencia en los controles conceptuales.
9. El coeficiente de fiabilidad aumenta por lo tanto:
a) si hay diferencias en las respuestas a cada tem
b) y si adems hay relacin entre los tems (es decir, hay coherencia
en las respuestas).

10. La fiabilidad supone tambin que los sujetos son distintos en aquello
que es comn a todos los tems. El mismo test o escala, con los mismos
tems, puede tener una fiabilidad alta en una muestra y baja en otra: si
todos responden a los tems de idntica manera: a) los tems tendrn
varianzas pequeas y b) interrelaciones pequeas, y por lo tanto baja-
r la fiabilidad. La fiabilidad viene a expresar la capacidad del instru-
mento para discriminar, para diferenciar a los sujetos a travs de sus
respuestas a todos los tems. Es ms probable encontrar una fiabilidad
alta en una muestra grande, porque es ms probable tambin que haya
sujetos ms extremos en lo que estamos midiendo. En sentido propio
la fiabilidad no es una propiedad del test o escala, sino de las puntua-
ciones obtenidas con el instrumento en una muestra dada.

200
LA FIABILIDAD DE LOS TETS Y ESCALAS

5. L AS FRMULAS DE KUDER RICHARDSON 20 Y a DE CRONBACH

Las dos frmulas posiblemente ms utilizadas son las de Kuder-Richardson


20 y el coeficiente a de Cronbach. En realidad se trata de la misma frmula,
una (Kuder-Richardson) expresada para tems dicotmicos (con respuestas
de unos y ceros) y otra (Cronbach) para tems continuos (con varias respues-
tas graduadas de menos a ms, como en las escalas de actitudes). Los nom-
bres distintos se deben a que los autores difieren en sus modelos tericos,
aunque estn relacionados, y los desarrollaron en tiempos distintos (Kuder y
Richardson en 1937, Cronbach en 1951).
Para hacer operativa la frmula [3]
s2v
r11 = [3]
s2t

El denominador no ofrece mayor problema, se trata de la varianza de las


puntuaciones totales del test o instrumento utilizado.
El numerador, o varianza verdadera, lo expresamos a travs de la suma
de las covarianzas de los tems. Es til recordar aqu qu es la co-varianza.
Conceptualmente la co-varianza es lo mismo que la co-relacin; en el coe-
ficiente de correlacin utilizamos puntuaciones tpicas y en la covarianza uti-
lizamos puntuaciones directas, pero en ambos casos se expresa lo mismo y si
entendemos qu es la correlacin, entendemos tambin qu es la covarianza
o variacin conjunta. La varianza verdadera la definimos operativamente
como la suma de las covarianzas de los tems.
La covarianza entre dos tems expresa lo que dos tems discriminan por
estar relacionados, esto es lo que denominamos en estas frmulas varianza
verdadera, por lo tanto la frmula [3] podemos expresarla poniendo en el
numerador la suma de las covarianzas entre los tems:

o lo que es lo mismo ya que

La covarianza entre dos tems (sxy) es igual al producto de su correlacin


(rxy) por sus desviaciones tpicas (sx y sy): ah tenemos la varianza verdade-
ra: diferencias en las respuestas a los tems (expresadas por las desviaciones
tpicas) y relacionadas (relacin expresada por los coeficientes de correla-
cin entre los tems). Se trata por lo tanto de relaciones empricas, verifica-
das, no meramente lgicas o conceptuales.

201
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Esta frmula [5] de la fiabilidad no es, por supuesto cmoda para calcular-
la (tenemos otras alternativas) pero pone de manifiesto qu es lo que influye
en la fiabilidad, por eso es importante.
Aumentar la fiabilidad si aumenta el numerador. Y lo que tenemos en el
numerador (frmula [5]) es la suma de las covarianzas de los tems (Ssxy =
Srxysxsy) que expresa a) todo lo que discriminan los tems (y ah estn sus
desviaciones tpicas) y b) por estar relacionados (y tenemos tambin las co-
rrelaciones inter-tem).
Si nos fijamos en la frmula [5] vemos que si los tems no discriminan (no
establecen diferencias) sus desviaciones tpicas sern pequeas, bajar el nu-
merador y bajar la fiabilidad.
Pero no basta con que haya diferencias en los tems, adems tienen que es-
tar relacionados; la correlacin entre los tems tambin est en el numerador
de la frmula [5]: si las desviaciones son grandes (como en el grupo B de la
tabla 1) pero los tems no estn relacionados (= respuestas no coherentes),
bajar la fiabilidad, porque esa no relacin entre los tems hace que las pun-
tuaciones totales estn menos diferenciadas, como sucede en el grupo B. En
este caso vemos que cuando las desviaciones de los tems son muy grandes,
pero la correlacin inter-tem es igual a 0, la fiabilidad es tambin igual a 0.
La fiabilidad expresa por lo tanto cunto hay de diferencias en los totales
debidas a respuestas coherentes (o proporcin de varianza verdadera o de-
bida a que los tems estn relacionados). Por eso se denomina a estos coefi-
cientes coeficientes de consistencia interna: son mayores cuando las relacio-
nes entre los tems son mayores. La expresin varianza verdadera puede
ser equvoca; en este contexto varianza verdadera es la debida a que los tems
estn relacionados, son respondidos de manera bsicamente coherente, pe-
ro no prueba o implica que de verdad todos los tems midan lo mismo.
Esta relacin emprica, verificable, entre los tems nos sirve para apoyar
o confirmar (pero no probar) la relacin conceptual que debe haber entre
los tems (ya que pretendidamente miden lo mismo), aunque esta prueba no
es absoluta y definitiva y requerir matizaciones adicionales (dos tems pue-
den estar muy relacionados entre s sin que se pueda decir que miden lo mis-
mo, como podran ser edad y altura).
La frmula [4] puede transformarse en otra de clculo ms sencillo. Se
puede demostrar fcilmente que la varianza de un compuesto (como la va-
rianza de los totales de un test, que est compuesto de una serie de tems que
se suman en una puntuacin final) es igual a la suma de las covarianzas en-
tre los tems (entre las partes del compuesto) ms la suma de las varianzas
de los tems:

de donde

202
LA FIABILIDAD DE LOS TETS Y ESCALAS

y sustituyendo en [4] tenemos que

de donde

La frmula que sin embargo utilizamos es esta otra y que corresponde al


coeficiente s de Cronbach [8]:

nmero de tems
suma de las varianzas de los tems
varianza de los totales

La expresin [k/(k-1)] (k= nmero de tems) la aadimos para que el va-


lor mximo de este coeficiente pueda llegar a la unidad. El segundo miembro
de esta frmula [8], que es el que realmente cuantifica la proporcin de va-
rianza debida a lo que los tems tienen en comn o de relacionado, puede al-
canzar un valor mximo de [(k-1)/k] y esto solamente en el caso improbable
de que todas las varianzas y covarianzas sean iguales. Como [(k-1)/k] x [k/(k-
1)]= 1, al aadir a la frmula el factor [k/(k-1)] hacemos que el valor mximo
posible sea 1.
La frmula [8], tal como est expresada, corresponde al a de Cronbach
(para tems continuos); en la frmula Kuder-Richardson 20 (para tems dico-
tmicos, respuesta 1 0) sustituimos Ss2i por Spq pues pq es la varianza de
los tems dicotmicos (p = proporcin de unos y q = proporcin de ceros).
La parte de la frmula [8] que realmente clarifica el sentido de la fiabilidad
est en el segundo miembro que, como hemos visto, equivale a Srxysxsy/s2t
(suma de las covarianzas de todos los tems dividida por la varianza de los to-
tales, frmulas [4] y [5]).

6. FACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD

Es til tener a la vista los factores o variables que inciden en coeficientes


de fiabilidad altos. Cuando construimos y probamos un instrumento de me-
dicin psicolgica o educacional nos interesa que su fiabilidad no sea baja y
conviene tener a la vista qu podemos hacer para obtener coeficientes altos.
Adems el tener en cuenta estos factores que inciden en la magnitud del co-
eficiente de fiabilidad nos ayuda a interpretar casos concretos.
En general los coeficientes de fiabilidad tienden a aumentar:

203
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

1 Cuando la muestra es heterognea; es ms fcil clasificar a los su-


jetos cuando son muy distintos entre s. Con muestras de sujetos muy
parecidos en el rasgo que queremos medir, todos respondern de ma-
nera parecida, y las varianzas de los tems y sus intercorrelaciones sern
pequeas.
2 Cuando la muestra es grande porque en muestras grandes es ms
probable que haya sujetos muy distintos (es la heterogeneidad de la
muestra, y no el nmero de sujetos, lo que incide directamente en la
fiabilidad); aunque tambin podemos obtener un coeficiente alto en
muestras pequeas si los sujetos son muy diferentes en aquello que es
comn a todos los tems y que pretendemos medir.
3 Cuando las respuestas a los tems son ms de dos, porque en
este caso hay una mayor probabilidad de que las respuestas difieran
ms, de que se manifiesten las diferencias que de hecho existen. Cuan-
do el nmero de respuestas supera la capacidad de discriminacin de
los sujetos, la fiabilidad baja porque las respuestas son ms inconsisten-
tes; en torno a 6 7, e incluso menos, suele situarse el nmero ptimo
de respuestas. Lo ms claro experimentalmente es que la fiabilidad su-
be al pasar de dos respuestas a tres.
4 Cuando los tems son muchos (ms oportunidad de que los sujetos
queden ms diferenciados en la puntuacin total) aunque un nmero
de tems grande puede dar una idea equvoca de la homogeneidad del
instrumento como indicaremos ms adelante (muchos tems poco re-
lacionados entre s pueden llevar una fiabilidad alta en todo el instru-
mento sin que quede muy claro qu se est midiendo).
5 Cuando la formulacin de los tems es muy semejante, muy re-
petitiva (si hay diferencias entre los sujetos, aparecern en todos los
tems y subirn sus intercorrelaciones) aunque sta no es una caracte-
rstica necesariamente deseable en un instrumento (que medira un
constructo definido con lmites muy estrechos). En general los cons-
tructos o rasgos definidos con un nivel alto de complejidad requerirn
tems ms diversificados y la fiabilidad tender a ser menor.

7. INTERPRETACIN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA

Basndonos en estas frmulas y en sus modelos tericos, estos coeficien-


tes podemos interpretarlos de las siguientes maneras (unas interpretaciones
se derivan de las otras):
1. Expresa directamente lo que ya hemos indicado: la proporcin de
varianza debida a lo que los tems tienen de relacionado, de co-

204
LA FIABILIDAD DE LOS TETS Y ESCALAS

mn; un coeficiente de .70 indica que el 70% de la varianza (diferencias en los


totales, que es lo que cuantifica la varianza) se debe a lo que los tems tienen
en comn (de estar relacionado, de coherencia en las respuestas), y un 30%
de la varianza se debe a errores de medicin o a lo que de hecho tienen los
tems de no relacionado. De esta interpretacin podemos decir que es una
interpretacin literal, que se desprende directamente de la lectura de la fr-
mula (Suma de covarianzas/Varianza total).
Estos coeficientes, dicho en otras palabras, expresan en qu grado los
tems discriminan o diferencian a los sujetos simultneamente. De alguna
manera son un indicador de relacin global entre los tems (aunque no
equivalen a la correlacin media entre los tems).
2. Consecuentemente interpretamos estos coeficientes como indicado-
res de la homogeneidad de los tems (es decir, de que todos los tems
miden lo mismo, por eso se denominan coeficientes de consistencia inter-
na); pero esto es ya una interpretacin: suponemos que si las respuestas es-
tn relacionadas es porque los tems expresan o son indicadores del mismo
rasgo, aunque no hay que confundir relacin emprica (verificada, re-
lacin de hecho en las respuestas y es esto lo que cuantificamos con estas fr-
mulas) con homogeneidad conceptual. Esta relacin o consistencia inter-
na comprobada de los tems es la que legitima su suma en una puntuacin
total, que es la que utilizamos e interpretamos como descriptor del rasgo
(ciencia, una actitud, un rasgo de personalidad, etc.) que suponemos presen-
te en todos los tems.
3. Son una estimacin del coeficiente de correlacin que pode-
mos esperar con un test similar, con el mismo nmero y tipo de tems.
Esta interpretacin se deriva directamente del modelo terico propuesto
por Cronbach. De un universo o poblacin de posibles tems hemos escogi-
do una muestra de tems que es la que conforma nuestro instrumento. Si la
fiabilidad es alta, con otra muestra de tems de la misma poblacin de tems
obtendramos unos resultados semejantes (los sujetos quedaran ordenados
de manera similar).
Un uso importante de estos coeficientes es poder comunicar hasta qu
punto los resultados obtenidos con un determinado instrumento son repeti-
bles, en el sentido de si con un test semejante los resultados hubieran sido si-
milares. La fiabilidad es en este sentido un indicador de la eficacia del instru-
mento. Si estos coeficientes son una estimacin de la correlacin del test con
otro similar, podemos concluir que con otro test semejante los sujetos hubie-
ran quedado ordenados, clasificados, de manera parecida.
4. En trminos generales el coeficiente de fiabilidad nos dice si un test
discrimina adecuadamente, si clasifica bien a los sujetos, si detec-
ta bien las diferencias que existen entre los sujetos de una muestra. Diferen-
cias En qu? En aquello que es comn a todos los tems y que es lo que pre-

205
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

tendemos medir. Es ms, sin diferencias entre los sujetos no puede haber un
coeficiente de fiabilidad alto. La fiabilidad es una caracterstica positiva siem-
pre que interese detectar diferencias que suponemos que existen. Esto suce-
de cuando medimos rasgos de personalidad, actitudes, etc., medir es, de al-
guna manera, establecer diferencias.
5. Una observacin importante: la interpretacin de estos coeficientes,
como caracterstica positiva o deseable, puede ser distinta cuando se trata de
comprobar resultados escolares en los que no hay diferencias o no se preten-
de que existan, por ejemplo en un examen de objetivos mnimos, o si se tra-
ta de verificar si todos los alumnos han conseguido determinados objetivos. A
la valoracin de la fiabilidad en exmenes y pruebas escolares le dedicamos
ms adelante un comentario especfico (apartado 11).
La valoracin de una fiabilidad alta como caracterstica positiva o de cali-
dad de un test es ms clara en los tests de personalidad, inteligencia, etc., o
en las escalas de actitudes: en estos casos pretendemos diferenciar a los su-
jetos, captar las diferencias que de hecho se dan en cualquier rasgo; digamos
que en estos casos las diferencias son esperadas y legtimas. Adems en este
tipo de tests tambin pretendemos medir (en un sentido analgico) un ni-
co rasgo expresado por todos los tems, mientras que en el caso de un exa-
men de conocimientos puede haber habilidades muy distintas, con poca rela-
cin entre s, en el mismo examen (aunque tampoco esto es lo ms habitual).
Aun con estas observaciones, en un examen largo, tipo test, con muchos o
bastantes alumnos, entre los que esperamos legtimamente que haya diferen-
cias, una fiabilidad baja s puede ser un indicador de baja calidad del instru-
mento, que no recoge diferencias que probablemente s existen.
6. ndice de precisin. Hemos visto que el coeficiente de fiabilidad ex-
presa una proporcin, la proporcin de varianza verdadera o varianza debi-
da a lo que los tems tienen en comn. Tambin sabemos que un coeficiente
de correlacin elevado al cuadrado (r2, ndice de determinacin) expresa
una proporcin (la proporcin de varianza compartida por dos variables). Es-
to quiere decir que la raz cuadrada de una proporcin equivale a un coefi-
ciente de correlacin (si r2 = proporcin, tenemos que = r).
En este caso la raz cuadrada de un coeficiente de fiabilidad equivale al co-
eficiente de correlacin entre las puntuaciones obtenidas (con nuestro ins-
trumento) y las puntuaciones verdaderas (obtenidas con un test ideal que
midiera lo mismo). Este coeficiente se denomina ndice de precisin (tam-
bin ndice, no coeficiente, de fiabilidad).

ndice de precisin robservadas.verdaderas = [9]

Una fiabilidad de .75 indicara una correlacin de .86 con las


puntuaciones verdaderas. Este ndice expresa el valor mximo que puede al-

206
LA FIABILIDAD DE LOS TETS Y ESCALAS

canzar el coeficiente de fiabilidad. No es de mucha utilidad, pero se puede


utilizar junto con el coeficiente de fiabilidad.
7. La interpretacin del coeficiente de fiabilidad se complementa con el
clculo y uso del error tpico o margen de error; es la oscilacin probable
de las puntuaciones si los sujetos hubieran respondido a una serie de tests pa-
ralelos; a mayor fiabilidad (a mayor precisin) bajar la magnitud del error pro-
bable. Tratamos del error tpico en otro apartado (9.2); el error tpico, como ve-
remos, puede ser de utilidad ms prctica que el coeficiente de fiabilidad.

8. CUNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO

Esta pregunta no tiene una respuesta ntida; cada coeficiente hay que va-
lorarlo en su situacin: tipo de instrumento (define un rasgo muy simple o
muy complejo), de muestra (muy homognea o ms heterognea) y uso pre-
tendido del instrumento (mera investigacin sobre grupos, o toma de deci-
siones sobre sujetos).
En la prctica la valoracin depende sobre todo del uso que se vaya a ha-
cer del instrumento (de las puntuaciones con l obtenidas). Como orienta-
cin podemos especificar tres usos posibles de los tests y algunos valores
orientadores (tabla 3).

Tabla 3

Estas valoraciones, como otras similares que pueden encontrarse en libros


de texto y en diversos autores, son slo orientadoras5. Lo que se quiere poner

5
Nunnally (1978) propone un mnimum de .70; para Guilford (1954:388-389) una fiabi-
lidad de slo .50 es suficiente para investigaciones de carcter bsico; Pfeiffer, Heslin y Jones
(1976) y otros indican .85 si se van a tomar decisiones sobre sujetos concretos; en algunos
tests bien conocidos (de Cattell) se citan coeficientes inferiores a .50 (Gmez Fernndez,
1981). No hay un valor mnimo sagrado para aceptar un coeficiente de fiabilidad como ade-
cuado; medidas con una fiabilidad relativamente baja pueden ser muy tiles (Schmitt, 1996).
Por otra parte coeficientes muy altos; pueden indicar excesiva redundancia en los tems
(muy repetitivos) por esta razn hay autores que recomiendan un mximum de .90 (Strei-
ner, 2003). Como referencia adicional podemos indicar que la fiabilidad media en artculos
de buenas revistas de Psicologa de la Educacin est en torno a .83 (Osborne, 2003).

207
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

de manifiesto es que no es lo mismo investigar (comparar medias de grupos,


etc.) que tomar decisiones sobre individuos. Si se van a tomar decisiones so-
bre sujetos concretos (como aprobar, excluir, recomendar tratamiento psi-
quitrico, etc.) hay que proceder con ms cautela, teniendo en cuenta ade-
ms que no todas las posibles decisiones son de igual importancia. Cuando
baja la fiabilidad sube el error tpico (o margen de error en la puntuacin in-
dividual) que con una forma paralela del mismo test o en otra situacin, etc.,
podra ser distinta. Los grupos son ms estables que los individuos, y el mar-
gen de error que pueda haber es de menor importancia (el error tpico de la
media es menor que la desviacin tpica de la muestra).
Por lo dems si se trata de tomar decisiones sobre individuos concretos se
puede tener en cuenta el error tpico y tomar la decisin en funcin de la
banda de posibles puntuaciones individuales ms que en funcin de la pun-
tuacin concreta obtenida de hecho; de esta manera asumimos la menor fia-
bilidad del instrumento. En este sentido importa menos la poca fiabilidad de
un test si en la interpretacin de los resultados individuales tenemos en cuan-
ta el error tpico (del que tratamos en 9.2). Por otra parte tampoco se suelen
tomar decisiones importantes en funcin del resultado de un nico test.
En el caso de informar sobre grupos se pueden especificar los intervalos
de confianza de la media (margen de error o de oscilacin de la media, que se
ver en el lugar apropiado).
Los valores del coeficiente de fiabilidad oscilan entre 0 y 1, pero ocasional-
mente podemos encontrar valores negativos, simplemente porque no se
cumplen en un grado apreciable las condiciones de estos modelos (Black,
1999:286); en este caso (valor negativo) podemos interpretar este coeficiente
como cero6.

9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD

Vamos a fijarnos en tres ventajas o usos frecuentes de estos coeficientes:


1 Nos confirman en principio que todos los tems miden lo mismo, y de
hecho estos coeficientes se utilizan como un control de calidad, aun-
que esta interpretacin es discutible y habr que entenderla y relativi-
zarla. Ms bien habra que decir que un coeficiente alto de fiabilidad

6
Valores negativos del coeficiente de fiabilidad pueden encontrarse cuando hay subs-
tanciales correlaciones negativas entre los tems; esto puede suceder cuando est mal la
clave de correccin y hay tems con una formulacin positiva y negativa que tienen la mis-
ma clave; tambin puede suceder que los tems realmente miden constructos distintos y
no hay suficiente varianza compartida; en estos casos la fiabilidad puede considerarse
igual a cero (Streiner, 2003).

208
LA FIABILIDAD DE LOS TETS Y ESCALAS

apoya (pero no prueba) la hiptesis de que todos los tems miden b-


sicamente el mismo rasgo o atributo.
2 Los coeficientes de fiabilidad permiten calcular el error tpico de las
puntuaciones individuales; este error tpico puede incluso ser de un
inters mayor que el coeficiente de fiabilidad porque tiene aplicaciones
prcticas como veremos en su lugar.
3 Los coeficientes de fiabilidad obtenidos nos permiten estimar los coe-
ficientes de correlacin que hubiramos obtenido entre dos variables
si su fiabilidad fuera perfecta (y que se denominan coeficientes de co-
rrelacin corregidos por atenuacin).

9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretacin uni-


dimensional del rasgo medido

Como vamos exponiendo, la consistencia interna que manifiesta el coe-


ficiente de fiabilidad apoya (pero no prueba) la interpretacin de que todos
los tems miden lo mismo (es lo que entendemos por unidimensionalidad;
que el instrumento mide un nico rasgo bien definido); esto es lo que en
principio se pretende cuando se construye un test o escala.
sta es la interpretacin y valoracin ms comn de estos coeficientes.
Simplificando, lo que decimos es esto: si unos sujetos tienden a estar de
acuerdo con todos los tems y otros responden en la zona del desacuerdo a
los mismos tems, esta coherencia de las respuestas nos dice que todos los
tems miden el mismo rasgo. Esta interpretacin, que es vlida en principio,
hay que relativizarla, porque en la fiabilidad influyen variables ajenas a la re-
daccin de los tems, que por otra parte pueden ser buenos (con criterios
conceptuales) pero no para cualquier muestra o para cualquier finalidad.
El interpretar una fiabilidad alta como indicador claro de que todos los
tems miden lo mismo no se puede aceptar ingenuamente; el coeficiente de
fiabilidad no es una medida de unidimensionalidad. Esto es importante
porque precisamente se aduce este coeficiente como prueba de que los tems
miden lo mismo, de que todos los tems expresan bien un mismo rasgo, y es-
to no est siempre tan claro.
Por otra parte (como ya se ha indicado en el n 7) una de las interpretacio-
nes standard de estos coeficientes (en la misma lnea de apoyo a la unidi-
mensionalidad del test) es que expresan la correlacin que obtendramos
con un test paralelo. Podemos concebir un test (o escala de actitudes, etc.)
como compuesto por una muestra aleatoria de tems tomada de un univer-
so o poblacin de tems que miden lo mismo: la fiabilidad indicara la correla-
cin de nuestro test con otro de idntico nmero de tems tomados del mis-
mo universo. En primer lugar no hay un valor ptimo del coeficiente de
fiabilidad y por otra parte esta interpretacin (derivada del modelo de Cron-

209
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

bach) supone al menos una condicin que no suele darse en la prctica: que
todas las correlaciones tem-total son de la misma magnitud. En la prctica es
preferible hablar de una estimacin de esa correlacin, que ser ms exacta
si somos muy restrictivos en la seleccin de los tems.
Hay que matizar la interpretacin de estos coeficientes porque no depen-
den exclusivamente de la redaccin de los tems, tambin dependen de la
complejidad o simplicidad de la definicin del rasgo que queremos medir, y
adems (y frecuentemente sobre todo) influyen en la fiabilidad caractersti-
cas de la muestra. Hablando con propiedad, la fiabilidad ya sabemos que no
es una caracterstica del instrumento de medicin sino de las puntuaciones
con l obtenidas en una situacin dada y con una muestra determinada.
En estas observaciones nos fijamos sobre todo en los coeficientes de fia-
bilidad ms bien altos, porque no indican necesariamente que el instrumen-
to es bueno, tambin prestaremos atencin a los coeficientes bajos, que pue-
den tener su explicacin e incluso ser compatibles con un buen instrumento.
Vamos a explicar por qu un coeficiente alto no expresa necesariamente
que los tems son suficientemente homogneos como para concluir que to-
dos miden lo mismo, que hay suficiente homogeneidad conceptual como
para sumarlos en una nica puntuacin que refleja lo un sujeto tiene del ras-
go que estamos midiendo y que consideramos expresado por la formulacin
de los tems.
Nos fijaremos en tres puntos:
1) Esta consistencia interna que cuantifican los coeficientes de fiabili-
dad expresa una relacin de hecho, estadstica, emprica, entre los
tems, pero la relacin emprica no supone necesariamente que hay
coherencia conceptual (que todos expresan bien el mismo rasgo).
2) Una fiabilidad alta puede deberse a un nmero grande de tems que
en ocasiones no se prestan a una interpretacin clara como descripto-
res de un nico rasgo, bien definido.
3) Una fiabilidad alta puede deberse tambin a una concepcin del ras-
go muy limitada, expresada a travs de tems de contenido casi idn-
tico, muy repetitivos.

Todo esto hay que tenerlo en cuenta para valorar estos coeficientes y no
dar necesariamente por bueno un instrumento porque hemos obtenido una
fiabilidad alta7.

7
Sobre los usos y abusos del coeficiente a puede verse Schmitt (1996).

210
LA FIABILIDAD DE LOS TETS Y ESCALAS

9.1.1. Una fiabilidad alta no es prueba inequvoca de que todos


los tems miden lo mismo: necesidad de controles concep-
tuales

Puede suceder que los tems estn relacionados de hecho pero que expre-
sen cosas distintas (o suficientemente distintas) y que por lo tanto sea cues-
tionable el sumarlos como si realmente midieran lo mismo; al menos esa
puntuacin total puede no ser de interpretacin clara. Ya lo hemos comenta-
do a propsito de dos supuestos tems de una escala de actitud hacia la m-
sica (apartado n 4) y que es oportuno repetir aqu:
1. En mi tiempo libre me gusta escuchar msica
2. En mi casa tenemos un piano

Estos dos tems son un ejemplo pretendidamente exagerado (porque ob-


viamente no describen el mismo rasgo), pero es claro para ilustrar que rela-
cin emprica (la que expresan estos coeficientes de fiabilidad) no es lo mis-
mo que relacin conceptual (que de entrada todos los tems midan un mismo
rasgo interpretable). Si a los que ms les gusta la msica tienen adems un
piano en casa, obtendremos una correlacin alta entre estos dos tems pero
sera discutible considerar los dos tems homogneos como si midieran lo
mismo, a pesar de un coeficiente de fiabilidad alto. El tener un piano en ca-
sa mide o expresa nivel econmico aunque el tener un piano en casa coinci-
da de hecho (no necesariamente pero tendra su lgica) con una actitud ms
favorable hacia la msica. Hace falta un control cualitativo y no meramente
estadstico de la homogeneidad de los tems.
Adems de la fiabilidad que podemos calcular tenemos que considerar la
homogeneidad conceptual de los tems. Aunque esta homogeneidad con-
ceptual la suponemos (al menos es lo que se intenta), un ndice alto de ho-
mogeneidad emprica (consistencia interna), calculada (correlaciones) no
es garanta de homogeneidad conceptual. Cuando decimos que todos los
tems miden lo mismo, que son homogneos, porque la fiabilidad es alta, lo
que realmente queremos decir es que las respuestas estn de hecho relacio-
nadas pero no que los tems (las preguntas) estn bien redactadas en torno
a un mismo constructo o rasgo claramente definido. Hace falta tambin una
evaluacin cualitativa y conceptual de los tems para poder afirmar que to-
dos los tems miden lo mismo, expresan el mismo rasgo tal como lo hemos
concebido.
Por otra parte varios subconjuntos de tems muy relacionados entre s pe-
ro marginalmente relacionados con otros subconjuntos de tems pueden dar
un coeficiente de fiabilidad alto en todo el instrumento y sin embargo un an-
lisis conceptual de estos subconjuntos (ms otros anlisis estadsticos, como

211
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

el anlisis factorial) nos pueden llevar a la conclusin de que los subconjun-


tos de tems miden rasgos suficientemente distintos como para que sea cues-
tionable sumarlos en un total nico. Consistencia interna (tal como la cuan-
tifican estos coeficientes) y unidimensionalidad son conceptos distintos,
por eso decimos que un coeficiente alto de fiabilidad es un apoyo pero no
una prueba de que el conjunto de tems que componen el instrumento mi-
de un nico rasgo bien conceptualizado.

9.1.2. Fiabilidad y nmero de tems

El coeficiente de fiabilidad aumenta al aumentar el nmero de tems;


quiere esto decir que los tests ms largos son ms homogneos, que sus
tems miden con ms claridad el mismo rasgo? Obviamente no; los tems no
estn ms relacionados entre s por el mero hecho de ser ms en nmero; el
mismo Cronbach (1951) lo expresaba as: un galn de leche no es ms homo-
gneo que un vaso de leche; un test no es ms homogneo por el mero he-
cho de ser ms largo.
El que al aumentar el nmero de tems aumente la fiabilidad se debe, al
menos en parte, a un mero mecanismo estadstico: cuando aumenta el nme-
ro de tems (con tal de que estn mnimamente relacionados entre s) la su-
ma de las covarianzas entre los tems (numerador de la frmula [4]) aumen-
ta proporcionalmente ms que la varianza de los totales (denominador de la
frmula [4]). Una fiabilidad alta se puede obtener con muchos tems con re-
laciones bajas entre s, e incluso con algunas negativas; y puede suceder tam-
bin que (como ya hemos indicado) dos (o ms) bloques de tems con claras
correlaciones entre los tems dentro de cada bloque, pero con poca o nula re-
lacin con los tems del otro bloque den para todo el test un coeficiente alto
de fiabilidad. En este caso la homogeneidad del conjunto, y la interpretacin
de las puntuaciones como si expresaran un nico rasgo bien definido puede
ser cuestionable.
Por lo tanto:
a) No se debe buscar una fiabilidad alta aumentando sin ms el nmero de
tems, sin pensar bien si son realmente vlidos para expresar sin confu-
sin el rasgo que deseamos medir. Una fiabilidad alta no es un indicador
cuasi automtico de la calidad de un test, sobre todo si es muy largo;
hace falta siempre una evaluacin conceptual de los tems (adems de
verificar empricamente su correlacin con el total del instrumento).
b) Con frecuencia con un conjunto menor de tems se puede conseguir
una fiabilidad semejante o no mucho ms baja que si utilizamos todos
los tems seleccionados en primer lugar, y varios subconjuntos de tems
pueden tener coeficientes de fiabilidad muy parecidos.

212
LA FIABILIDAD DE LOS TETS Y ESCALAS

c) La fiabilidad tambin sube al aumentar el nmero de respuestas de los


tems (esto es ms claro si pasamos de dos a tres o ms respuestas);
con un nmero menor de tems pero con ms respuestas se puede
conseguir una fiabilidad semejante a la que conseguiramos con ms
tems y menos respuestas.

No hay que olvidar nunca que la validez es ms importante que la fiabili-


dad; lo que ms importa en primer lugar es que los tems reflejen bien el ras-
go que se desea medir.

9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido

Un coeficiente alto puede estar indicando que los tems tienen homoge-
neidad conceptual, pero porque son excesivamente repetitivos, porque esta-
mos midiendo un constructo o rasgo definido de manera muy limitada. Con
pocos tems muy repetitivos obtenemos con facilidad una fiabilidad alta.
Una definicin muy simple de un rasgo no es necesariamente una mala
caracterstica cuando se trata hacer un instrumento de medicin (puede ser
incluso preferible segn lo que se pretenda medir) pero hay que tener en
cuenta esta simplicidad de la concepcin del rasgo en la interpretacin, y ms
teniendo en cuenta que los nombres con que designamos a instrumentos y
rasgos suelen ser muy genricos (autoestima, motivacin, asertividad) y la
interpretacin no debe hacerse en funcin del nombre del instrumento sino
del contenido de los tems que lo componen. Los nombres breves son cmo-
dos, pero con frecuencia requieren alguna explicacin adicional.
Un ejemplo claro y frecuente de un rasgo que a veces se mide de manera
muy simple y otras de manera ms compleja es la autoestima. Se puede pre-
parar un instrumento de autoestima general, que incluir mltiples aspectos
(acadmico, social, familiar, etc.), o se puede construir un instrumento para
medir la autoestima en un sentido muy restringido, como sera la autoestima
acadmica.
Tambin se pueden construir instrumentos pluridimensionales: se mide
un rasgo complejo con todos los tems del instrumento, y con una definicin
ms bien genrica pero que tiene sentido (autoestima, asertividad, etc.) pero
que a su vez se puede descomponer en subescalas ms especficas; la fiabili-
dad puede calcularse tanto en todo el instrumento como en las subescalas
que miden aspectos ms simples.

9.2. El error tpico de la medida

Una utilidad importante de los coeficientes de fiabilidad puede estar no


en la magnitud misma de estos coeficientes, sino en los clculos posteriores

213
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

que podemos hacer a partir de los mismos. Uno de estos clculos es el del
error tpico de la medida.
El error tpico de la medida es de especial utilidad cuando se van a hacer
interpretaciones individuales, sobre todo si se derivan consecuencias im-
portantes para los sujetos (aprobar, ser seleccionado para un puesto de tra-
bajo, etc.), y con ms razn si se juzga que la fiabilidad del instrumento dis-
ta de ser ptima. Ya hemos indicado en otro lugar que una fiabilidad alta es
importante cuando los resultados (de un test) van a influir en la toma de de-
cisiones sobre los sujetos (y el aprobar o suspender a un sujeto es una de-
cisin importante).

9.2.1. Concepto y frmula del error tpico

El error tpico de la medida viene a ser la desviacin tpica de las pun-


tuaciones individuales, e indica el margen de error o variacin probable de
las puntuaciones individuales. En trminos informales podemos decir que el
error tpico nos indica el margen de oscilacin probable de las puntuaciones
de una ocasin a otra o entre pruebas hipotticamente iguales o semejantes.
Nos puede servir para relativizar los resultados individuales, y de alguna ma-
nera neutralizar la baja fiabilidad de instrumento indicando y teniendo en
cuenta los mrgenes de error.
Vamos a pensar en un ejemplo sencillo, un examen tipo test. Cada alumno
tiene un resultado, su nmero de respuestas correctas.
Si cada alumno hubiera respondido a un nmero indefinido de exmenes,
no hubiera obtenido en todos exactamente el mismo resultado; sus posibles
resultados se hubieran distribuido segn la distribucin normal (figura 3).

Figura 3

214
LA FIABILIDAD DE LOS TETS Y ESCALAS

Esta distribucin hubiera tenido su media y su desviacin tpica o error t-


pico de la medicin. Podemos suponer que la puntuacin de hecho obteni-
da es la media de la distribucin (aunque esto no es as exactamente, como
veremos despus al tratar de las puntuaciones verdaderas).
El error tpico de la medicin se calcula a partir del coeficiente de fiabili-
dad, y en muchos casos el mejor uso del coeficiente de fiabilidad es utilizarlo
para calcular el error tpico, (por ejemplo en exmenes o en cualquier test)
cuando interese situar a cada uno en su banda de posibles probables resulta-
dos. Esta banda de posibles resultados ser ms estrecha (con un error tpico
menor) cuando la fiabilidad sea alta, y ser ms amplia cuando baje la fiabili-
dad. Una baja fiabilidad de un instrumento puede quedar neutralizada si utili-
zamos el error tpico en la interpretacin de las puntuaciones individuales.
La frmula del error tpico podemos derivarla con facilidad de las frmulas
[2] y [3].
De la frmula [2] podemos despejar la varianza verdadera: s2v = s2t - s2e

s2t s2e s2e


y substituyendo esta expresin de s en [3]:2
v r11 = = 1-
s2t s2t
s2e
de donde = 1- r11 y despejando se tenemos que
s2t

error tpico [10]

Esta es la frmula de la desviacin tpica de los errores de medicin, deno-


minada error tpico de la medida o de las puntuaciones individuales. Se cal-
cula a partir de la desviacin tpica (de los totales del test) y del coeficiente de
fiabilidad calculados en la muestra. Si un sujeto hubiera respondido a una se-
rie de tests paralelos semejantes, el error tpico sera la desviacin tpica obte-
nida en esa serie de tests. Se interpreta como cualquier desviacin tpica e in-
dica la variabilidad probable de las puntuaciones obtenidas, observadas.
El error tpico es directamente proporcional al nmero de tems y en el ca-
so de los tests con respuestas 1 0 (como en las pruebas objetivas) un clcu-
lo rpido (y aproximado) es el dado en la frmula [11]8:

error tpico [11]

8
Puede verse explicado en Gardner (1970) y en Burton (2004). Hay varias frmulas
que permiten clculos aproximados del error tpico, del coeficiente de fiabilidad y de otros
estadsticos que pueden ser tiles en un momento dado (por ejemplo, y entre otros, Sau-
pe, 1961; McMorris, 1972).

215
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Aqu hay que hacer una observacin importante. Este error tpico se apli-
ca en principio a todos los sujetos por igual; hay un error tpico que indica la
oscilacin probable de cada puntuacin. Esto no es as exactamente. Pense-
mos en un examen: el alumno que sabe todo, en exmenes semejantes segui-
ra sabiendo todo, y el alumno que no sabe nada, en exmenes semejantes
seguira sin saber nada: la oscilacin probable en los extremos es menor que
en el centro de la distribucin. sta es una limitacin de esta medida del
error probable individual. Aun as es la medida ms utilizada aunque hay
otras9. Si la distribucin es normal (o aproximadamente normal) y las pun-
tuaciones mximas y mnimas obtenidas no son las mximas o mnimas posi-
bles (la amplitud real no es igual a la amplitud mxima posible), ste error t-
pico de la medida es ms o menos uniforme a lo largo de toda la escala de
puntuaciones.
Aqu nos limitamos a exponer el error tpico habitual, el que se utiliza nor-
malmente y que tiene aplicaciones muy especficas, pero en situaciones apli-
cadas (como en exmenes) s conviene caer en la cuenta de que la posible va-
riabilidad individual tiende a ser menor en los extremos de la distribucin.

9.2.2. Las puntuaciones verdaderas

Un punto importante para el clculo e interpretacin del error tpico es


que el centro de la distribucin de los posibles resultados no es para cada su-
jeto la puntuacin que ha obtenido. Si un sujeto obtiene una puntuacin de
120 y el error tpico es de se = 4.47, no podemos concluir que hay un 68% de
probabilidades (aproximadamente, es la proporcin de casos que suelen dar-
se entre 1s) de que su verdadera puntuacin est entre 120 4.47. El cen-
tro de la distribucin no es en este caso la puntuacin obtenida, sino la deno-
minada puntuacin verdadera (Xv) que se puede estimar mediante la
frmula [12]:
Estimacin de la puntuacin verdadera: X v = [(X-X) (r11)] + X [12]

En el caso anterior si X = 100 y r11 = .80, la estimacin de la puntuacin


verdadera de un sujeto que tuviera una puntuacin de X = 120, sera [(120 -
100)(.80)] + 100 = 116. Si la fiabilidad es igual a 1, la puntuacin obtenida es
tambin la que aqu denominamos verdadera.
Siguiendo con el mismo ejemplo, de un sujeto con X =120 y una puntua-
cin verdadera de 116, podemos decir que sus posibles resultados en ese test

9
En Mehrens y Lehmann (1973, pg. 106) puede verse cmo calcular el error tpico
de cada sujeto; es una frmula poco utilizada porque resulta laborioso calcularla para ca-
da sujeto y a efectos prcticos son suficientes las expuestas en el texto.

216
LA FIABILIDAD DE LOS TETS Y ESCALAS

(con un 5% de probabilidades de equivocarnos) estn entre 116 (1.96 erro-


res tpicos); en este caso entre 116 (1.96)(4.47) o entre 107 y 125.
Estas puntuaciones verdaderas tienden a ser menores que las obtenidas
cuando estas son superiores a la media, y mayores cuando son inferiores a la
media. No debemos entender esta puntuacin verdadera (aunque ste sea el
trmino utilizado) como expresin de una verdad absoluta, que nos dice
exactamente lo que vale o sabe una persona en aquello en la que la hemos
medido. Hay que entender ms bien esta puntuacin verdadera como la
puntuacin ms probable que un sujeto hubiera obtenido si le hubiramos
medido repetidas veces en el mismo rasgo y con el mismo instrumento.
Las puntuaciones verdaderas y las puntuaciones observadas tienen una
correlacin perfecta (el orden de los sujetos es el mismo con las dos puntua-
ciones) por lo que el clculo de estas puntuaciones verdaderas no tiene
siempre una especial utilidad prctica; s puede tenerla cuando se desea pre-
cisamente utilizar el error tpico para precisar con mayor rigor y exactitud en-
tre qu lmites o banda de resultados probables se encuentra la verdadera
puntuacin, como tratamos en el apartado siguiente.

9.2.3. Los intervalos de confianza de las puntuaciones individuales

Como el error tpico se interpreta como una desviacin tpica, si el error


tpico es de 4.47, hay un 68% de probabilidades de que la verdadera puntua-
cin estara entre 116 4.47 (la puntuacin verdadera ms-menos un error
tpico; es la proporcin de casos que caen en la distribucin normal entre la
media ms una desviacin tpica y la media menos una desviacin tpica, co-
mo se representa en la figura 1).
Podemos establecer intervalos de confianza con mayor seguridad, y as
podramos decir, con un 95% de probabilidades de acertar (z = 1.96) que la
puntuacin verdadera se encuentra entre 116 1.96se y en nuestro ejemplo
entre 116 (1.96)(4.47) o entre 116 8.76 (es decir, entre 107 y 125).
El error tpico nos sirve para relativizar las puntuaciones obtenidas, y ms
que pensar en una puntuacin concreta, la obtenida por cada sujeto, pode-
mos pensar en una banda de posibles puntuaciones.
La puntuacin verdadera exacta de cada sujeto (la que hubiera obtenido
respondiendo a todos los tems del universo e tems o a muchas pruebas pa-
ralelas) no la sabemos, pero s podemos estimar entre qu lmites se encuen-
tra, y esto puede ser de utilidad prctica en muchas ocasiones. Cuando en un
examen hay una puntuacin mnima para el apto, sumando a los que estn
en el lmite un error tpico, o margen de oscilacin probable, algunos quizs
superen holgadamente ese lmite; al menos hay un criterio razonablemente
objetivo, justificable y comn para todos.

217
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

9.3. Coeficientes de correlacin corregidos por atenuacin

En buena medida la utilidad de los coeficientes de fiabilidad est en los


clculos adicionales que podemos hacer. Posiblemente el ms importante, y
de utilidad prctica, es el del error tpico de la medida que ya hemos visto.
Otra utilidad de estos coeficientes es que nos permiten calcular el valor de
un coeficiente de correlacin entre dos variables corregido por atenuacin.
La correlacin calculada entre dos variables queda siempre disminuida,
atenuada, por culpa de los errores de medicin, es decir, por su no perfec-
ta fiabilidad. La verdadera relacin es la que tendramos si nuestros instru-
mentos midieran sin error. Esta correlacin corregida por atenuacin es la
que hubiramos obtenido si hubisemos podido suprimir los errores de me-
dicin en las dos variables (o al menos en una de las dos; no siempre conoce-
mos la fiabilidad de las dos variables).
Conociendo la fiabilidad de las dos variables podemos estimar la verdade-
ra relacin mediante la frmula [13]:

En esta frmula rxy es el coeficiente de correlacin obtenido entre dos va-


riables, X e Y, y rxx y ryy son los coeficientes de fiabilidad de cada variable; si co-
nocemos solamente la fiabilidad de una de las dos variables, en el denomina-
dor tendremos solamente la raz cuadrada de la fiabilidad conocida.
Por ejemplo si entre dos tests o escalas tenemos una correlacin de .30 y
los coeficientes de fiabilidad de los dos tests son .50 y .70, la correlacin esti-
mada corregida por atenuacin sera:

Vemos que la correlacin sube apreciablemente; y expresa la relacin en-


tre las dos variables independientemente de los errores de medicin de los
instrumentos utilizados.
Sobre estas estimaciones de la correlacin entre dos variables (entre las
verdaderas puntuaciones de X e Y, sin errores de medicin) ya se han hecho
una serie de observaciones al tratar sobre los coeficientes de correlacin (en
el apartado 4.1. del captulo sobre correlacin y covarianza; se es el contex-

218
LA FIABILIDAD DE LOS TETS Y ESCALAS

to apropiado); conviene tener en cuenta esas observaciones (que no repeti-


mos aqu) sobre 1 en qu condiciones se debe utilizar esta frmula de correc-
cin por atenuacin, 2 en qu situaciones es ms til y 3 otras frmulas dis-
tintas de correccin por atenuacin. Conviene repasar estas observaciones
antes de aplicar estas frmulas10.

10. CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO

Un coeficiente de fiabilidad bajo no indica necesariamente que el instru-


mento es malo y que no es posible utilizarlo. Tambin puede suceder que ha-
ya una razonable homogeneidad conceptual en la formulacin de los tems,
y esto se procura siempre, y que esta homogeneidad no se refleje en un coe-
ficiente alto de fiabilidad. En cualquier caso con un coeficiente de fiabilidad
bajo y si se van a tomar decisiones sobre los sujetos (una decisin puede ser
dar un informe) s conviene incorporar el error tpico a la interpretacin.
Ahora nos interesa examinar de dnde puede venir un bajo coeficiente de
fiabilidad.

10.1. Inadecuada formulacin de los tems

Puede ser que los sujetos entiendan los tems de una manera distinta a
como lo pretende el autor del instrumento. Un a veces me gustara mar-
charme de casa podra significar para algunos me gusta viajar, etc. y en este
caso las respuestas no seran coherentes con el significado pretendido por el
constructor del instrumento (me siento mal en casa). La coherencia concep-
tual prevista la comprobamos con la coherencia que de hecho encontramos
en las respuestas. En el anlisis de tems, al construir un instrumento, pode-
mos comprobar si los sujetos que responden, parecen entender la formula-
cin con el significado previsto; en caso contrario tendremos que eliminarlos
o reformularlos.

10.2. Homogeneidad de la muestra

Podemos encontrarnos con una homogeneidad conceptual clara en los


tems y una fiabilidad muy baja. Una causa de la baja fiabilidad puede estar en
que apenas hay diferencias entre los sujetos (todos o casi todos responden
de manera parecida). Si no hay diferencias tampoco habr relacin clara y
verificada entre las respuestas porque sin diferencias entre los sujetos los co-

10
Una buena exposicin de los efectos de la baja fiabilidad en los coeficientes de corre-
lacin y de la correccin por atenuacin puede verse en Osborne (2003).

219
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

eficientes de correlacin entre los tems son muy bajos. Por eso la fiabilidad
es mayor con muestras heterogneas, en las que hay mayores diferencias en
las respuestas. Con una muestra ms variada (o simplemente mayor, donde
es ms probable que haya sujetos muy diferentes) podemos encontrar una
fiabilidad alta. De todas maneras con una fiabilidad baja que no se deba a la
mala calidad del instrumento sino a la homogeneidad de la muestra, seguire-
mos clasificando mal (diferenciando, midiendo mal) a los sujetos de esa
muestra.

10.3. Definicin compleja del rasgo medido

Por supuesto una fiabilidad baja, sobre todo si la obtenemos con una mues-
tra razonablemente heterognea, puede significar una concepcin del rasgo
excesivamente compleja o una construccin deficiente del instrumento. Aun
as podemos encontrar coeficientes bajos en tests reconocidos como buenos
porque miden rasgos definidos con un grado grande de complejidad11.
Rasgos definidos de manera compleja o muy genrica pueden tener
tems poco relacionados entre s y consecuentemente tendremos una fiabili-
dad baja aunque est presente la unidad conceptual pretendida por el autor.
Una consecuencia de definir los rasgos que medimos de manera muy com-
pleja es que en estos casos es que se puede llegar a una misma puntuacin to-
tal por caminos distintos, y esto hay que asumirlo en la interpretacin. En
cualquier caso la fiabilidad debera estar dentro de unos mnimos aceptables
para poder afirmar que estamos midiendo, diferenciando a los sujetos segn
posean ms o menos del rasgo que supuestamente medimos12.
Cuando la fiabilidad es baja, observando la redaccin de los tems y cmo
se relacionan entre s, podemos llegar a la conclusin que es preferible una
concepcin ms simple del rasgo, sin mezclar ideas relacionadas pero no lo
suficiente, o dividir el instrumento en dos (o ms) instrumentos y medir as-
pectos distintos por separado con instrumentos distintos.

10.4. Utilidad del error tpico cuando la fiabilidad es baja

Una valoracin racional del coeficiente de fiabilidad tendr en cuenta tan-


to la homogeneidad de la muestra como la complejidad del instrumento, y en
cualquier caso con coeficientes bajos siempre es conveniente utilizar el error t-

11
Para Cattell (1964), que prefiere medir en sus tests rasgos complejos, la consistencia in-
terna no tiene por que ser la mxima posible, sino la mxima compatible con la complejidad
deseada en la misma concepcin del constructo (optimum low, en expresin de Cattel).
12
Un tratamiento ms extenso de la fiabilidad y de la unidimensionalidad de los
tests puede verse en Morales (2006, cap. 9 y 10).

220
LA FIABILIDAD DE LOS TETS Y ESCALAS

pico en la interpretacin de los resultados individuales. Cuando se trata de to-


mar decisiones sobre sujetos, o de dar un informe de cierta importancia (por
ejemplo en un psicodiagnstico) y la fiabilidad del instrumento es baja, es cuan-
do puede ser de especial utilidad (e incluso de responsabilidad tica) no limi-
tarse a informar con una puntuacin o resultado muy preciso, sino con una
banda de puntuaciones probables; esta banda o lmites probables de la pun-
tuacin ser mayor cuando el error tpico sea mayor (y la fiabilidad ms baja).

11. L A FIABILIDAD EN EXMENES Y PRUEBAS ESCOLARES

En primer lugar recordemos que es relativamente frecuente calcular la fia-


bilidad de las pruebas tipo test (estos clculos, y otros, suelen estar programa-
dos), pero tambin se puede calcular la fiabilidad de un examen compuesto
por unas pocas preguntas de respuesta abierta, con tal de que en todas las
preguntas se utilice la misma clave de correccin. Las frmulas adecuadas las
veremos despus; en las pruebas cuyos tems puntan 1 0 (lo habitual con
pruebas objetivas) se utiliza alguna de las frmulas de Kuder-Richardson, y
cuando las puntuaciones son continuas (por ejemplo de 0 a 4 o algo similar)
se utiliza el coeficiente a de Cronbach.
Cuando se trata de exmenes escolares el coeficiente de fiabilidad puede
presentar problemas especficos de interpretacin. No hay que olvidar que la
psicometra clsica trata de las diferencias individuales en medidas psicolgi-
cas que parten al menos de dos supuestos:
a) Todos los componentes (tems) del test miden el mismo rasgo.
b) Los sujetos son distintos en el rasgo que queremos medir.

Estos dos supuestos no son aplicables siempre y automticamente a los di-


versos tipos de exmenes y pruebas escolares. En estas pruebas los coeficien-
tes de fiabilidad pueden dar informacin til, pero hay que tener cuidado en
la interpretacin.
Es importante pensar en la fiabilidad de los exmenes porque se interpre-
ta y utiliza habitualmente como un control de calidad, y se estima que siem-
pre es bueno que un test de conocimientos (como un examen tipo test) ten-
ga una fiabilidad alta. En el caso de los exmenes esto puede ser discutible
(aunque no en todas las situaciones) y conviene hacer algunas matizaciones.

11.1. Fiabilidad y validez

En primer lugar la caracterstica ms importante de una prueba escolar


(como de cualquier instrumento de medicin) no es la fiabilidad psicomtri-

221
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

ca, sino la validez: una prueba de evaluacin o cualquier examen es bueno si


comprueba los objetivos deseados (y comunicados previamente), si condicio-
na en el alumno un estudio inteligente. Con una prueba objetiva se puede
conseguir fcilmente una fiabilidad muy alta, pero se pueden estar compro-
bando meros conocimientos de memoria cuando quizs el objetivo pretendi-
do era (o debera ser) de comprensin, anlisis, etc. La validez es por lo tan-
to la primera consideracin para evaluar la evaluacin: en principio un
instrumento es vlido si mide lo que decimos que mide.

11.2. Fiabilidad y diferencias entre los sujetos

Por lo que respecta a la fiabilidad, hay que tener en cuenta que en ltima
instancia la fiabilidad expresa la capacidad diferenciadora de un test, y esto
es en principio deseable cuando se trata precisamente de diferenciar. Si un test
de inteligencia no diferencia adecuadamente a los ms y a los menos inteli-
gentes (y lo mismo diramos de cualquier otra capacidad o rasgo psicolgico)
sencillamente no nos sirve. En definitiva en estos casos medir es diferenciar.
Por eso en todo tipo de tests psicolgicos, escalas de actitudes, etc., una fiabi-
lidad alta es una caracterstica deseable. Entendiendo bien que la fiabilidad no
es una caracterstica de un test (aunque sta sea la expresin habitual) sino de
un conjunto de puntuaciones que quedan mejor o peor diferenciadas.
Si pensamos en los tests escolares de conocimientos, podemos preguntar-
nos si las diferencias son deseables, si es verdad que un test que distingue,
matiza y establece diferencias ntidas entre los alumnos implica que tenemos
un buen test y, sobre todo, unos buenos resultados.
Una fiabilidad baja en un examen puede provenir de cualquiera de estas
dos circunstancias: sujetos muy igualados o preguntas muy distintas (el saber
unas no implica saber otras).
a) La clase est muy igualada, apenas hay diferencias pronunciadas o
sistemticas entre los alumnos. No se puede clasificar bien a los in-
clasificables. Que esto sea bueno o malo deber juzgarlo el profesor.
En un test sencillo de objetivos mnimos un buen resultado es que to-
dos sepan todo, y en este caso la fiabilidad psicomtrica, sera igual a
cero. Lo mismo puede suceder con un test ms difcil, sobre todo en
grupos pequeos, en los que todos los alumnos tienen un rendimien-
to alto.
b) Las preguntas son muy distintas y el saber unas cosas no implica saber
otras, no hay homogeneidad en los tems ni se pretende. Esta situacin
no suele ser la ms frecuente en los tests escolares ms convenciona-
les, pero si no hay homogeneidad en las preguntas de un test (porque
se preguntan cosas muy distintas o de manera muy distinta) y el saber

222
LA FIABILIDAD DE LOS TETS Y ESCALAS

unas cosas no implica saber otras, entonces lgicamente bajar la fia-


bilidad de todo el test (debido a la poca relacin entre unas y otras pre-
guntas o ejercicios).

En un examen final ms o menos largo, donde hay de todo, fcil y difcil,


en una clase relativamente numerosa, en la que hay alumnos ms y menos
aventajados, una fiabilidad alta en una prueba objetiva nos indicar que de-
tectamos bien diferencias que de hecho existen y que adems son legtimas o
al menos esperables. Cuando todos saben todo en un examen de esas carac-
tersticas, esto puede significar que estamos igualando a la clase por su nivel
ms bajo y que el profesor no da juego a los ms capaces.

11.3. Fiabilidad y calificacin

Tambin hay que pensar que una fiabilidad alta indica en principio diferen-
cias consistentes entre los alumnos, pero no indica necesariamente que los
de puntuacin ms baja no lleguen al nivel del apto. Si todos los alumnos es-
tn en la parte alta de la distribucin pero bien diferenciados, la fiabilidad se-
r alta; en este caso los que saben menos pueden saber lo suficiente; y tam-
bin puede suceder lo contrario, que los que saben ms que los dems no
sepan lo suficiente.
Lo que s parece claro es que una fiabilidad alta es deseable en todo instru-
mento de medida cuya funcin y utilidad est precisamente en que nos per-
mite conocer si un sujeto tiene mucho o poco del rasgo que estamos midien-
do y adems nos interesa diferenciar a unos sujetos de otros, o al menos es
razonable esperar diferencias claras entre los sujetos (como ya se ha indicado
en 11.2).
Lo que s puede ser siempre de utilidad en cualquier tipo de examen es
calcular y utilizar el error tpico de la medida o de las puntuaciones obteni-
das (para lo cual necesitamos el coeficiente de fiabilidad)13, porque nos indi-
ca la banda probable de resultados en la que se encuentra cada alumno, y es-
ta banda, aunque sea ms imprecisa, refleja mejor que un nmero exacto de
respuestas correctas por dnde se encuentra cada uno. En lenguaje coloquial
podramos decir que el error tpico expresa el margen de mala o buena
suerte del alumno ante unas preguntas concretas, y puede ayudar a relativizar
una mera suma de respuestas correctas. Si establecemos previamente una
puntuacin de corte para situar el aprobado, el sumar, por ejemplo, un error

13
I am convinced that the standard error of measurement is the most important
single piece of information to report regarding an instrument, and not a coefficient
(Cronbach y Shavelson, 2004).Ya hemos indicado que un clculo aproximado y rpido del
error tpico de la media es .43k donde k es el nmero de tems (Burton, 2004).

223
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

tpico a los alumnos que estn en el lmite del apto puede ser una buena
prctica (como ya se ha indicado en el apartado 9.2.3)14.

12. FRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA

Las frmulas del coeficiente de fiabilidad son muchas, aqu exponemos las
ms utilizadas. Podemos dividirlas en dos grupos:
1) Frmulas que se basan en la particin del test en dos mitades
2) Frmulas en las que se utiliza informacin de todos los tems, como las
de Kuder-Richardson y Cronbach.

En cada uno de los apartados se incluyen otras frmulas relacionadas o de-


rivadas. Tambin exponemos otras formulas de inters, como las frmulas
que relacionan la fiabilidad con el nmero de tems.
Aunque vamos a repasar una serie de frmulas, conviene adelantar (y po-
dra ser suficiente) que las frmulas preferibles, y que deben utilizarse habi-
tualmente, son las de Kuder-Richardson [18] (para tems dicotmicos) y el a
de Cronbach [20] (para tems continuos); realmente se trata de la misma for-
mula (varan los smbolos) y es la que suele venir programada en los progra-
mas informticos. Como clculo aproximado y rpido de la fiabilidad la fr-
mula ms cmoda es la formula [19] que veremos despus, pero slo si los
tems son dicotmicos (puntan 1 0).

12.1. Frmulas basadas en la particin del test en dos mitades

12.1.1. Cmo dividir un test en dos mitades

1. Como cualquier test puede dividirse en muchas dos mitades, puede ha-
ber muchos coeficientes de distintos de fiabilidad. El resultado es slo una es-
timacin que puede infravalorar o supervalorar la fiabilidad. Es habitual la
prctica de dividir el test en tems pares e impares, pero puede dividirse en
dos mitades cualesquiera. Cada mitad debe tener el mismo nmero de tems
o muy parecido.
2. Si al dividir el test en dos mitades emparejemos los tems segn sus con-
tenidos (matching), de manera que cada mitad del test conste de tems muy
parecidos, obtendremos una estimacin ms alta y preferible de la fiabilidad.

14
Si en un examen tipo test sumamos a los que estn justo debajo del lmite propues-
to para el aprobado dos erres tpicos nos ponemos prcticamente en el lmite mximo pro-
bable al que hubiera llegado ese alumno.

224
LA FIABILIDAD DE LOS TETS Y ESCALAS

3. Cuando la mitad (o casi la mitad) de los tems son positivos y la otra mi-
tad son negativos (favorables o desfavorables al rasgo medido, con distinta
clave de correccin), es til que las dos mitades estn compuestas una por
los tems positivos y otra por los negativos. En este caso la correlacin entre
los dos tipos de tems es muy informativa en s misma, aunque no se calcule
despus la fiabilidad por este procedimiento. Una correlacin entre los dos
subtests en torno a .50 o mayor indica suficiente coherencia entre los dos ti-
pos de tems, y que no se manifiesta de modo apreciable la aquiescencia o
tendencia a mostrar acuerdo (o responder s) a tems que expresan ideas con-
tradictorias.

12.1.2. Frmulas

De estas frmulas la primera y ms clsica es la de Spearman-Brown; am-


bos autores derivaron las mismas frmulas de manera independiente en 1910
(la frmula bsica de estos autores es la [21], de la que se derivan la [14], la
[22] y la [23]). La frmula que se conoce habitualmente como procedimien-
to de las dos mitades (vamos a ver que adems hay otras frmulas) y no sue-
le faltar en ningn texto cuando se trata de la fiabilidad, es la frmula [14].

2r12 r12 = correlacin entre las dos mitades


r11 = [14] del test. El test se divide en dos
1 + r12 mitades y se calcula la correlacin
entre ambas como si se tratara de
Frmula de Spearman-Brown
dos tests.

1. La correlacin entre las dos mitades es la fiabilidad de una de las dos


(pruebas paralelas); con esta frmula [14] se calcula la fiabilidad de todo el
test. Observando la frmula [14] puede verse que si r12 = 1, tambin tendre-
mos que r11 = 1.
2. La frmula [14] supone que las dos mitades tienen medias y varianzas
idnticas; estos presupuestos no suelen cumplirse nunca, y de hecho con es-
ta frmula se sobrestima la fiabilidad; por lo que est desaconsejada (a pesar
de su uso habitual); la frmula de las dos mitades preferible es la conocida co-
mo dos mitades alpha (r2a) [15]15:

15
Esta frmula la aconsejan buenos autores (incluido el mismo Cronbach). La impor-
tancia del clculo de la fiabilidad por el procedimiento de las dos mitades es sobre todo
histrica; el mtodo de las pruebas paralelas (dos pruebas en vez de dos mitades) y el
de consistencia interna (en el que cada tem funciona como una prueba paralela) parten
de la intuicin original de las dos mitades de Spearman y Brown. Una crtica y valoracin
de estas frmulas puede verse en Charter (2001).

225
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En esta frmula entran tambin, adems de la correlacin de las dos mita-


des, las desviaciones tpicas de cada mitad.
3. Otras frmulas basadas en la particin de un test en dos mitades, y que
suelen encontrarse en algunos textos, son la [16] y la [17], que no requieren
el clculo de la correlacin entre las dos mitades; de todas maneras en estos
casos (particin del test en dos mitades) es siempre preferible la frmula
[15].

s21 y s22 son las varianzas de las dos


mitades,
s2t es la varianza de todo el test
Frmula de Flanagan16

s2d = Es la varianza de la diferen-


cia entre las dos mitades.
Cada sujeto tiene dos pun-
tuaciones, una en cada mi-
tad: a cada sujeto se le res-
tan ambas puntuaciones y
se calcula la varianza de es-
tas diferencias.

12.2. Frmulas de Kuder-Richardson y s de Cronbach

Se trata de las frmulas de consistencia interna que hemos justificado an-


teriormente con mayor amplitud; son las ms utilizadas17.
a) Son mtodos en principio preferibles porque con los mtodos de las
dos mitades cabe dividir un test en muchas dos mitades con que las
que podemos obtener distintos valores del coeficiente de fiabilidad. El
resultado que nos dan las frmulas de Kuder-Richardson y Cronbach

16
Esta frmula tambin se conoce como frmula de Rulon que es el primero que la
expuso (en 1939) aunque Rulon se la atribuye a Flanagan (Traub, 1994).
17
Este coeficiente de fiabilidad (Kuder-Richardson o Cronbach) se calcula en el SPSS
en la opcin analizar, en escalas.

226
LA FIABILIDAD DE LOS TETS Y ESCALAS

equivale a la fiabilidad media que obtendramos dividiendo un test en


todas sus posibles dos mitades; obtenemos un nico coeficiente que es
una estimacin ms segura.
b) En los modelos tericos de donde parten estas frmulas se supone que
tanto las varianzas como las intercorrelaciones de los tems son iguales;
esto no suele suceder por lo que estas frmulas tienden a dar una esti-
macin de la fiabilidad algo baja.
c) Las frmulas de Kuder-Richardson son vlidas para tems dicotmicos
(0 1), y el coeficiente s de Cronbach para tems con repuestas conti-
nuas (ms de dos repuestas).

k= nmero de tems
Spq = suma de las varianzas de
los tems
s2t = varianza de los totales
frmula Kuder-Richardson 20
(para tems dicotmicos)

Como ya sabemos, p es la proporcin de unos (aciertos, ses, la respuesta


que se codifique con un 1) y q es la proporcin de ceros (nmero de unos o
de ceros dividido por el nmero de sujetos).
Con tems dicotmicos sta es la frmula [18] que en principio debe utili-
zarse. Si se tienen calculadas las varianzas o desviaciones tpicas de cada tem,
no es muy laboriosa.
Si el clculo resulta laborioso y no se tiene ya programada la frmula com-
pleta de la fiabilidad, hay otras alternativas ms sencillas; la ms utilizada es la
frmula Kuder-Richardson 21.

k es el nmero de tems;

X y s2t son la media y varianza de
los totales
frmula Kuder-Richardson 21

1. Esta frmula [19] se deriva de la anterior [18] si suponemos que todos


los tems tienen idntica media. En este caso tendramos que:

Haciendo las sustituciones oportunas en [18] llegamos a la frmula [19].

227
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

2. Esta frmula [19] es sencilla y cmoda, porque solamente requiere el


clculo de la media y varianza de los totales, adems del nmero de tems, y es-
tos son datos que suelen estar siempre disponibles. La suposicin de que to-
dos los tems tienen idntica media no suele cumplirse, por lo que esta frmu-
la slo da una estimacin de la fiabilidad. Se utiliza frecuentemente para
calcular la fiabilidad de las pruebas objetivas (exmenes, evaluaciones) hechas
por el profesor y por lo menos indica por dnde va la fiabilidad; puede ser su-
ficiente para calcular el error tpico y relativizar los resultados individuales.
Existen otras aproximaciones de la frmula Kuder-Richardson 20, pero es
sta la ms utilizada.
Con tems continuos, con ms de una respuesta como los de las escalas
de actitudes, la frmula apropiada es la del coeficiente a de Cronbach que es
una generalizacin de la Kuder-Richardson 20; es la frmula [8] que ya vimos
antes:

k= nmero de tems
Ss2i = es la suma de las varian-
zas de los tems
s2t = es la varianza de los tota-
a de Cronbach para tems continuos les

12.3. Frmulas que ponen en relacin la fiabilidad y el nmero de


tems

1. La frmula [14] se deriva de esta otra, denominada frmula proftica


de Spearman-Brown y que es la frmula original de estos autores:

rkk = fiabilidad de un test com-


puesto por k tems
r-ij = correlacin media entre
los tems

En la frmula [14] hemos supuesto que k =2 y r-ij = r12. De la frmula an-


terior [21] se derivan otras dos especialmente tiles, y que se pueden utilizar
aunque la fiabilidad no se calcule por el mtodo de Spearman-Brown.

228
LA FIABILIDAD DE LOS TETS Y ESCALAS

12.3.1. Cunto aumenta la fiabilidad al aumentar el nmero de


tems

Disponemos de una frmula que nos dice (siempre de manera aproxima-


da) en cunto aumentar la fiabilidad si aumentamos el nmero de tems
multiplicando el nmero de tems inicial, que ya tenemos, por un factor n. Es
en realidad una aplicacin de la misma frmula.

rnn = nuevo coeficiente de fiabilidad esti-


mado si multiplicamos el nmero de
tems que tenemos por el factor n
r11 = coeficiente de fiabilidad conocido
n= factor por el que multiplicamos el
nmero de tems

Por ejemplo: tenemos una escala de actitudes de 10 tems y una fiabilidad


de .65. La fiabilidad nos parece baja y nos preguntamos cul ser el coeficien-
te de fiabilidad si multiplicamos el nmero de tems (10) por 2 (n = 2) y lle-
gamos as a 20 tems (del mismo estilo que ya los que ya tenemos). Aplicando
la frmula anterior [22] tendramos:

multiplicando por 2 el nmero inicial de


tems llegaramos a una fiabilidad en torno a
.80

Si en la frmula [22] hacemos n = 2, tendremos la frmula [14]; r12 es la


fiabilidad de una de las dos mitades, lo que nos dice la frmula [14] es la fia-
bilidad del test entero (formado por las dos mitades)18.

12.3.2. En cunto debemos aumentar el nmero de tems para


alcanzar una determinada fiabilidad

Posiblemente es ms til la frmula siguiente [23]. Si tenemos una fiabili-


dad conocida (r11) y queremos llegar a otra ms alta (esperada, rnn), En cun-
tos tems tendramos que alargar el test? En este caso nos preguntamos por el
valor de n, el factor por el que tenemos que multiplicar el nmero de tems
que ya tenemos.

18
A partir de una fiabilidad obtenida con un nmero determinado de tems puede ver-
se en Morales, Urosa y Blanco (2003) una tabla con la fiabilidad que obtendramos multi-
plicando el nmero inicial de tems por un factor n.

229
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

n= factor por el que debemos multiplicar


el nmero de tems para conseguir
una determinada fiabilidad
rnn = fiabilidad deseada
r11 = fiabilidad obtenida con el nmero ori-
ginal de tems

Si, por ejemplo, con 8 tems hemos conseguido una fiabilidad de .57 y de-
seamos llegar a una fiabilidad aproximada de rnn = .75, Por qu coeficiente n
deberemos multiplicar nuestro nmero inicial de tems?

Naturalmente los nuevos tems deben ser parecidos a los que ya tenemos.
Si el nmero de tems que necesitamos para alcanzar una fiabilidad aceptable
es obviamente excesivo, posiblemente los contenidos del ncleo inicial de
tems no representan bien un rasgo definido con claridad (al menos para la
poblacin representada por esa muestra) y es preferible intentar otra cosa.

12.4. Estimacin de la fiabilidad en una nueva muestra cuya varian-


za conocemos a partir de la varianza y fiabilidad calculadas en
otra muestra

La fiabilidad hay que calcularla en cada muestra. Al obtener los datos con
un test en una nueva muestra no se puede aducir la fiabilidad obtenida en
otras muestras como prueba o garanta de que en la nueva muestra la fiabili-
dad ser semejante19. En definitiva la fiabilidad indica en qu grado el test di-
ferencia a unos sujetos de otros y esto depende de la heterogeneidad de la
muestra; por lo tanto se puede ordenar bien a los sujetos de una muestra y
no tan bien a los de otra muestra distinta en la que los sujetos estn ms igua-
lados. En nuevas muestras con una varianza menor, lo normal es que la fiabi-
lidad baje.
Lo que s se puede hacer es estimar la fiabilidad en una nueva muestra co-
nociendo su desviacin tpica a partir de la fiabilidad obtenida en otra mues-
tra de la que tambin conocemos la desviacin tpica (Guilford y Fruchter,
1973:420), bien entendido que se trata solamente de una estimacin.

19
El obtener la fiabilidad en cada nueva muestra es una de las recomendaciones de la
American Psychological Association (5 edicin, 2001).

230
LA FIABILIDAD DE LOS TETS Y ESCALAS

rnn = fiabilidad estimada en la nue-


va muestra
so y roo = desviacin tpica y fiabilidad ya
calculadas (observadas) en una
muestra
sn = desviacin tpica en la nueva
muestra (en la que deseamos
estimar la fiabilidad)

Por ejemplo, si en una escala de actitudes hemos obtenido en una mues-


tra una desviacin tpica de 6.86 y una fiabilidad de s = .78 qu fiabilidad po-
demos esperar en otra muestra cuya desviacin tpica vemos que es 7.28?

6.682 (1 .78)
Aplicando la frmula [24]: fiabilidad esperada = 1 = .8147
7.282

De hecho la fiabilidad calculada en la nueva muestra (ejemplo real) es de


8.15, aunque no siempre obtenemos unas estimaciones tan ajustadas.

13. RESUMEN: CONCEPTO BSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA

En el cuadro puesto a continuacin tenemos un resumen significativo de


lo que significa la fiabilidad en cuanto consistencia interna, cmo se interpre-
ta y en qu condiciones tiende a ser mayor.

1. Cuando ponemos un test o una escala aun grupo de sujetos nos encontramos
con diferencias inter-individuales. Estas diferencias o diversidad en sus puntua-
ciones totales las cuantificamos mediante la desviacin tpica (s) o la varianza
(s2).
2. Esta varianza (diferencias) se debe a las respuestas de los sujetos que pueden
ser de dos tipos (fijndonos en los casos extremos; hay grados intermedios):
coherentes (relacionadas) o incoherentes, por ejemplo:
respuestas respuestas
coherentes incoherentes
En mi casa me siento mal de acuerdo en desacuerdo
A veces me gustara marcharme de casa de acuerdo de acuerdo

231
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

3. La incoherencia aqu quiere decir que la respuesta no est en la direccin de


las otras, tal como lo pretende el autor del instrumento (y esto por cualquier
razn: pregunta ambigua, el que responde lo entiende de otra manera, etc.).
Las respuestas coherentes son las respuestas relacionadas.
Diversidad (o varianza) total =
diversidad debida a respuestas coherentes + diversidad debida a respuestas incoherentes
o en trminos ms propios, varianza total =
varianza verdadera + varianza debida a errores de medicin
5. La fiabilidad la definimos como la proporcin de varianza verdadera:

varianza verdadera
fiabilidad =
varianza total

En trminos ms simples:

varianza debida a respuestas coherentes (o relacionadas)


fiabilidad =
varianza debida a respuestas coherentes y no coherentes

Decimos respuestas distintas porque suponemos que los sujetos son distintos,
unos tienen ms y otros menos del rasgo que medimos y decimos repuestas
coherentes porque esperamos que cada sujeto responda de manera coheren-
te (de manera parecida si todos los tems expresan lo mismo).
6. El coeficiente de fiabilidad es un indicador de relacin global entre las res-
puestas; expresa cunto hay de relacin en las respuestas. Esta relacin es re-
lacin verificada, emprica, no es necesariamente conceptual, aunque la in-
terpretacin que se hace es conceptual (los tems miden lo mismo)
Un coeficiente de, por ejemplo, .80 quiere decir que el 80% de la varianza se
debe a respuestas coherentes, a lo que los tems tienen en comn o de relacio-
nado; el 80% de la varianza total (de la diversidad que aparece en las puntua-
ciones totales) se debe a lo que los tems tienen de relacionado.
7. La fiabilidad aumentar si aumenta el numerador, es decir 1 si hay diferencias
en las respuestas y 2 si adems las respuestas son coherentes (respuestas co-
herentes: las que de hecho estn relacionadas).

8. Cmo se interpreta un coeficiente de fiabilidad alto:


a) El test o escala clasifica, ordena bien a los sujetos en aquello que es co-
mn a todos los tems;
b) Con un instrumento parecido encontraramos resultados parecidos, o si
los sujetos respondieran muchas veces al mismo test o a tests semejantes,
quedaran ordenados de manera similar (el coeficiente de fiabilidad es una
estimacin de la correlacin esperable con un test paralelo).

232
LA FIABILIDAD DE LOS TETS Y ESCALAS

c) Los tems miden lo mismo (por eso se llaman coeficientes de consistencia


interna); generan respuestas coherentes y a la vez distintas de sujeto a su-
jeto. (Que los tems miden lo mismo hay que interpretarlo con cautela;
siempre es necesario un anlisis conceptual y cualitativo).

9. La fiabilidad tiende a ser mayor:


a) cuando los tems expresan lo mismo; la definicin del rasgo se expresa
bien en todos los tems;
b) cuando es mayor el nmero de tems, (con tal de que sean ms o menos
semejantes),
c) cuando los tems tienen un mayor nmero de respuestas (aunque no
necesariamente),
d) cuando los sujetos son ms diferentes en aquello que se mide (muestra he-
terognea; no se puede clasificar bien a los muy semejantes);
e) en muestras grandes (porque hay ms probabilidad de que haya sujetos
ms distintos).

14. COMENTARIOS BIBLIOGRFICOS

1. La derivacin de las frmulas ms conocidas del coeficiente de fiabili-


dad y otras relacionadas (como el error tpico, etc.) pueden verse en
Magnusson (1976). Entre las muchas obras que tratan de estos temas
son especialmente recomendables las de Guilford (1954), Guilford y
Fruchter, (1973), Nunnally (1978), Nunnally y Bernstein (1994), Thorn-
dike (1982), Traub (1994). Tambin disponemos de buenos artculos
(Traub y Roley, 1991; Moss, 1994; Cronbach y Shavelson, 2004, del se-
gundo autor utilizando notas de Cronbach fallecido en 1997, que resu-
men la historia de estos coeficientes).
2. La frmula Kuder-Richardson 20 (y con ms razn Kuder-Richardson
21, las dos ms utilizadas con tems dicotmicos) supone que todos los
tems tienen idntica dificultad (media) e idntica varianza; si esto no
es as la fiabilidad resultante es una estimacin ms bien baja. Existen
otros mtodos que tienen en cuenta la diferente dificultad de los tems,
pero son ms complicados; puede verse por ejemplo, en Horst (1953)
y en Guilford y Fruchter (1973).
3. Ya hemos indicado que existen una serie de frmulas de clculo muy
sencillo que simplifican las de Kuder-Richardson y otras como la del
error tpico. En general estas frmulas no son recomendables dada la
facilidad de clculo que proporcionan calculadoras y programas infor-
mticos y adems se trata solamente de estimaciones ya que suponen

233
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

unas condiciones que no se suelen darse. Aun as pueden tener su uti-


lidad para clculos rpidos y aproximativos. Pueden encontrarse estas
frmulas en Saupe (1961) y en McMorris (1972), y para el error tpico
tambin en Burton (2004).
4. En las pruebas de rendimiento escolar no es siempre fcil dividir un
test o prueba en dos mitades equivalentes para calcular la fiabilidad por
el procedimiento de las dos mitades. Tambin se puede calcular a par-
tir de dos mitades de tamao desigual o incluso a partir de tres partes
(con muestras grandes en este caso). Se trata de procedimientos me-
nos conocidos pero que pueden ser de utilidad en un momento dado;
pueden encontrarse en Kristof (1974) y en Feldt (1975).
5. En los tests o pruebas objetivas de criterio (en los que hay una pun-
tuacin de corte para distinguir al apto del no apto y consecuente-
mente la distribucin deja de ser normal) la fiabilidad se estima de
otras maneras (pueden verse diversos ndices en Mehrens y Lehmann,
1984, y en Berk, 1978); un ndice apropiado y sencillo es el coeficiente
de Livingston (puede verse en Mehrens y Lehmann, 1984; Black,
1999:291; en Black, 1999:292, tenemos tambin el ndice de discrimi-
nacin apropiado en los tests de criterio).
6. El coeficiente de fiabilidad tambin se puede calcular mediante el an-
lisis de varianza para muestras relacionadas, con los mismos resul-
tados que la frmula del coeficiente a; puede verse en Hoyt (1941,
1952) y un ejemplo resuelto en Kerlinger (1975: 314-317) y en Fan y
Thompson (2001). La relacin entre fiabilidad y anlisis de varianza
tambin est explicada en Nunnally y Bernstein (1994: 274ss) y en Ro-
senthal y Rosnow (1991). Posiblemente como mejor se entiende la fia-
bilidad es desde el anlisis de varianza.
7. Cmo calcular los intervalos de confianza de los coeficientes de fiabi-
lidad puede verse en Fan y Thompson (2001); Duhachek y Iacobucci
(2004) presentan tablas con el error tpico de a para diversos valores
del nmero de sujetos y de tems y de la correlacin media inter-tem.
El aportar estos intervalos de confianza es una de las recomendaciones
(guidelines) de la American Psychological Association (Wilkinson and
Task Force on Statistical Inference APA Board of Scientific Affairs, 1999).
8. Para verificar si dos coeficientes de fiabilidad (a) difieren significativa-
mente puede verse Feldt y Kim (2006).
9. Fiabilidad inter-jueces. Un caso especfico es el clculo de la fiabili-
dad (o grado de acuerdo) entre diferentes evaluadores, cuando una
serie de jueces evalan una serie de sujetos, situaciones, etc. Puede uti-
lizarse el anlisis de varianza para muestras relacionadas que res-
ponde a esta pregunta: las diferencias observadas (la varianza total):
Se deben a que los jueces son distintos en su forma de evaluar, o a que

234
LA FIABILIDAD DE LOS TETS Y ESCALAS

los sujetos evaluados son distintos entre s? De este anlisis se deriva


un coeficiente que expresa lo mismo que el coeficiente ?, pero la inter-
pretacin se hace sobre la homogeneidad de los jueces (o, con ms
propiedad, sobre el grado de acuerdo entre los jueces que aqu son los
tems). Este coeficiente da un valor muy parecido a la correlacin me-
dia entre jueces (Rosenthal y Rosnow, 1991)20.
Hay tambin otras medidas de acuerdo entre jueces; pueden verse,
entre otros, en Holley y Lienert (1974) y Shrout y Fleiss (1979). El coe-
ficiente kappa (k) (Cohen, 1960) para medir el acuerdo entre dos jue-
ces (datos dicotmicos, unos y ceros; k = .60 se interpreta ya como un
grado de consensus importante) es muy popular (puede encontrarse
en numerosos textos, por ejemplo Fink, 1998; y sobre su interpreta-
cin Stemler, 2004). En Stemler (2004) pueden verse bien expuestos y
valorados los diferentes enfoques para medir la fiabilidad de los jueces
(interrater reliability), tambin es muy informativo Uebersax (Statis-
tical Methods for Rater Agreement, last updated: 19 Feb 2008).

20
La fiabilidad de los jueces calculada a partir del anlisis de varianza para muestras
relacionadas (disponible en EXCEL) es sencillo y de fcil comprensin por su relacin
con el coeficiente a de Cronbach; frmula y explicacin en Morales (2007a).

235
CAPTULO 7
ESTADSTICA INFERENCIAL:
EL ERROR TPICO DE LA MEDIA

1. INTRODUCCIN: ESTADSTICA DESCRIPTIVA Y ESTADSTICA INFERENCIAL:


ESTADSTICOS Y PARMETROS, POBLACIONES Y MUESTRAS

Recordamos algunos conceptos bsicos:


Una poblacin es un conjunto de elementos (sujetos, objetos) cuyos lmi-
tes los define el investigador; por ejemplo los alumnos de una universidad,
o los de una sola facultad o los de todo el pas
Una muestra es un nmero concreto de elementos extrados de una po-
blacin.
Una muestra aleatoria es aquella en la que todos los sujetos (u objetos)
han tenido la misma probabilidad de ser escogidos; las muestras aleatorias
son las que mejor representan las caractersticas de la poblacin1.

La estadstica descriptiva tiene por objeto describir las muestras: por


ejemplo, la media aritmtica (una medida de tendencia central) y la desvia-
cin tpica (una medida de dispersin) son estadsticos o medidas propias de
la estadstica descriptiva: nos describen cmo es una muestra.
La estadstica inferencial nos permite hacer inferencias, sacar conclusio-
nes con respecto a una poblacin: a partir de los datos descriptivos de una

1
Los diversos tipos de muestreo, aleatorio otros, y cmo llevarlos a cabo, pueden ver-
se en muchos textos (como Hernndez Sampieri, Fernndez Collado y Baptista Lucio,
2000; Salkind, 1998) y en monografas especficas (como Rodrguez Osuna, 1993). Una bre-
ve exposicin de los tipos de muestras puede verse en Internet, en STATPAC INC (2003) (en
Sampling Methods).

237
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

muestra, deducimos los datos o medidas de la poblacin, que en este caso se


denominan parmetros.
Normalmente el investigador trabaja con muestras, grupos concretos a los
cuales tiene acceso o que ha buscado y que puede medir en alguna caracters-
tica. Las poblaciones son en general inasequibles; se trabaja con pequeas
muestras y se generalizan las conclusiones a las poblaciones a las que perte-
necen las muestras. Lo que vamos a ver ahora tiene que ver sobre todo (no
exclusivamente) con la generalizacin a la poblacin de los datos que encon-
tramos en muestras concretas.

2. L AS DISTRIBUCIONES MUESTRALES Y EL ERROR TPICO

Dos conceptos previos importantes son los de distribucin muestral y


error tpico. En definitiva nos vamos a encontrar con una aplicacin de lo que
ya sabemos de la distribucin normal y de las puntuaciones tpicas: en la
distribucin normal conocemos las probabilidades de obtener una puntua-
cin superior o inferior a cualquier puntuacin tpica. Ahora se trata bsica-
mente de una aplicacin de esta relacin. Bsicamente ya lo hemos visto al
tratar de la significacin estadstica de los coeficientes de correlacin.
Qu es una distribucin muestral lo podemos ver con facilidad con un ca-
so concreto:
1 Imaginemos una poblacin de sujetos; por ejemplo los alumnos de
una universidad. Los lmites de la poblacin (qu sujetos, u objetos, pertene-
cen a una poblacin) lo determina el que investiga. De la misma manera que
ponemos como ejemplo de poblacin a los alumnos de una universidad, po-
dramos decidir que la poblacin que vamos a estudiar son los alumnos de
una sola facultad, o los alumnos de todas las universidades del pas.
2 De esta poblacin podemos extraer una muestra aleatoria de, por
ejemplo, 30 sujetos.
Muestra aleatoria quiere decir que todos los sujetos de la poblacin han
tenido en principio la misma oportunidad de ser elegidos. Las muestras ale-
atorias son en principio las que mejor representan las caractersticas de la po-
blacin. Hay varios mtodos para elegir muestras aleatorias pero no los trata-
mos aqu.
3 De esta muestra podemos calcular la media. Seguimos extrayendo
muestras aleatorias y calculando sus medias.
4 Al disponer de un nmero grande de medias tendramos una distribu-
cin de estas medias; esa distribucin es una distribucin muestral: no se
trata de una distribucin de puntuaciones individuales sino de medias de
muestras.

238
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA

Un punto importante es que aunque las muestras no tengan una distribu-


cin normal, las medias de estas muestras s tienden a seguir la distribucin
normal.
5 La desviacin tpica de estas distribuciones muestrales se denomina
error tpico y se puede estimar a partir de los datos de una muestra. Por lo
tanto un error tpico es la desviacin tpica de una distribucin muestral, y
se interpreta como cualquier desviacin tpica.
Dos distribuciones muestrales, con sus errores tpicos, nos van a interesar
de manera especial:
1) la distribucin muestral de las medias;
2) la distribucin muestral de las diferencias entre medias de la misma
poblacin.
Estas distribuciones muestrales son modelos tericos que a partir de los
datos de una muestra nos van a permitir inferir conclusiones acerca de la po-
blacin a la que pertenece la muestra. Conociendo el error tpico de estas dis-
tribuciones podemos estimar entre qu limites se encuentra la media de la
poblacin o si dos muestras proceden de poblaciones distintas con media dis-
tinta. Ahora nos centramos en el error tpico de la media.
Conviene caer en la cuenta desde el principio de la utilidad del error tpi-
co de la media. Es fcil obtener la media de una muestra en cualquier varia-
ble de inters, pero con frecuencia lo que nos interesa no es la media como
dato descriptivo de una muestra, sino conocer o tener una idea de por dn-
de anda la media en la poblacin representada por esta muestra. La media de
la poblacin no la vamos a conocer, pero s podremos estimar entre qu va-
lores se encuentra.
La media de una muestra podemos interpretarla como una estimacin
(solamente una estimacin sujeta a error) de la media de la poblacin. Esta
estimacin ser ms precisa:
1 Si la muestra es aleatoria porque en ese caso representa mejor las ca-
ractersticas de la poblacin,
2 Si la muestra es grande (si la muestra comprendiera a toda la poblacin
tendramos el dato exacto, no una estimacin).
El error tpico, como es la desviacin tpica de todas las posibles muestras
de esa poblacin, nos va a permitir localizar entre qu lmites se encuentra la
media de la poblacin.
Este planteamiento es semejante al que nos encontramos en los sondeos
de opinin, como son las encuestas pre-electorales. Si el 48% de los sujetos
entrevistados dice que va a votar a un determinado candidato, esto no quie-
re decir que el 48% exacto de la poblacin le vaya a votar. Sin embargo los da-
tos obtenidos de una muestra nos van a permitir estimar un tanto por ciento

239
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

mnimo probable y un tanto por ciento mximo probable de votantes a ese


candidato: entre esos dos tantos por ciento se va a encontrar el tanto por
ciento definitivo cuando todos hayan votado. De los datos de una muestra ex-
trapolamos a la poblacin, por eso se trata de estadstica inferencial.
De manera anloga podemos pensar en distribuciones muestrales de
otros estadsticos como proporciones, medianas, coeficientes de correlacin,
etc., y tambin en distribuciones muestrales de las diferencias entre propor-
ciones, medianas, coeficientes de correlacin, etc., con aplicaciones semejan-
tes a las que vamos a ver con respecto a la media que son las de utilidad ms
inmediata y frecuente.

3. EL ERROR TPICO DE LA MEDIA

Segn el teorema del lmite central, si de cualquier poblacin se extraen


muestras aleatorias del mismo tamao N, al aumentar el nmero de mues-
tras sus medias se distribuyen normalmente, con media m y una desviacin t-
pica, o error tpico
Esta distribucin muestral de las medias es independiente de la distribu-
cin de la poblacin: aunque la distribucin en la poblacin no sea normal,
las medias de las muestras aleatorias extradas de esa poblacin s tienden a
tener una distribucin normal.
El error tpico de la media (desviacin tpica de la distribucin muestral
de las medias) podemos expresarlo de dos maneras:

En la frmula [1] la desviacin tpica En la frmula [2] la desviacin tpica


del numerador se supone calculada se ha calculado dividiendo por N, co-
dividiendo por N-1 la suma de cua- mo es normal hacerlo cuando se cal-
drados (o la suma de las puntuacio- cula la desviacin tpica como dato

nes diferenciales, X-X, elevadas pre- descriptivo de la muestra. Ambas fr-
viamente al cuadrado). mulas son equivalentes y dan el mis-
mo resultado; la nica diferencia est
en cundo se ha restado 1 a N.

En principio suponemos que la desviacin tpica de la muestra la hemos cal-


culado dividiendo por N, como dato descriptivo de la dispersin en la muestra,
por eso al calcular el error tpico de la media utilizaremos la frmula [2].

240
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA

La desviacin tpica del numerador en ambas frmulas es la calculada en


la muestra, pero debera ser la desviacin tpica calculada con todos los suje-
tos de la poblacin. Como desconocemos la desviacin tpica de la pobla-
cin, utilizamos la de la muestra como una estimacin de la desviacin tpi-
ca de la poblacin.
Observando la frmula del error tpico de la media podemos ver que:
1 Es claro que el error tpico de la media ser menor que la desviacin
tpica de cualquier muestra: el cociente siempre ser menor que el nu-
merador. Esto quiere decir que las medias de las muestras son ms es-
tables y tienden a oscilar menos que las puntuaciones individuales; di-
cho de otra manera, las medias de muestras de la misma poblacin se
parecen entre s ms que los sujetos (u objetos) de una muestra entre
s.
2 Observando las frmulas vemos tambin que el error tpico de la me-
dia ser ms pequeo en la medida en que N sea grande: si aumenta-
mos el denominador, disminuir el cociente.
Es natural que al aumentar el nmero de sujetos (N) el error sea me-
nor: la media de la muestra se aproximar ms a la media de la pobla-
cin. Si N es muy grande, el error tiende a cero; y si N no comprende
a una muestra sino a toda la poblacin, el error sera cero: en este ca-
so la media de la poblacin coincide con la media de la muestra y no
hay error muestral (o variacin esperable de muestra a muestra).
3 Por otra parte si la desviacin tpica de la muestra es grande, el error t-
pico estimado de la media ser tambin mayor: si aumentamos el nu-
merador, el cociente ser mayor.
Tambin esto es lgico: una desviacin tpica grande en una muestra
quiere decir que las diferencias entre los sujetos son mayores, y conse-
cuentemente las medias de las diferentes muestras tambin diferirn
ms entre s.

4. UTILIDAD DEL ERROR TPICO DE LA MEDIA

Vamos a exponer dos usos del error tpico de la media. Aqu el ms impor-
tante es el primero, establecer los lmites probables (intervalos de confian-
za) entre los que se encuentra la media de la poblacin, un planteamiento t-
pico y frecuente en estadstica inferencial. Veremos tambin lo mismo
aplicado a una proporcin, que es la media cuando se trata de datos dicot-
micos (1 0).
En segundo lugar el error tpico de la media nos permite comprobar si una
muestra con una determinada media puede considerarse como perteneciente

241
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

a una poblacin cuya media conocemos o establecemos como hiptesis. La


media tambin puede ser una proporcin (una proporcin es la media cuan-
do los datos son unos y ceros). Es conveniente exponerlo aqu brevemente,
pero lo volveremos a encontrar al tratar del contraste de medias, pues all ve-
remos un procedimiento ms sencillo. Son procedimientos equivalentes.
Podemos aadir un tercer uso del error tpico de la media, que es determi-
nar el nmero de sujetos que necesitamos en la muestra para extrapolar los
resultados a la poblacin. Cuando a partir de los datos de una muestra nos in-
teresa extrapolar los resultados a la poblacin (por ejemplo cuntos van a vo-
tar a un partido poltico en unas elecciones), lo hacemos con un margen de
error (en cuyo clculo tenemos en cuenta el error tpico y nuestro nivel de
confianza): si queremos un margen de error pequeo, necesitaremos ms
sujetos por eso en las frmulas para determinar el nmero de sujetos de la
muestra entrar el error tpico. Este punto lo veremos de manera ms sucin-
ta, porque suele verse con ms detalle en otro contexto ms prctico, al tratar
de las muestras, tipos de muestras, nmero de sujetos necesario segn distin-
tas finalidades, etc.

4.1. Establecer entre qu limites (intervalos de confianza) se en-


cuentra la media (m) de la poblacin (establecer parmetros
poblacionales)

La media de una muestra (X) es una estimacin de la media de la pobla-
cin (m); pero decir que es una estimacin quiere decir que est sujeta a
error. La media exacta de la poblacin no la conocemos; pero s podemos es-
timar entre qu lmites extremos se encuentra, y esto a partir de la media de
una muestra y del error tpico de la media.
El error tpico de la media no es otra cosa que una estimacin de la des-
viacin tpica de las medias (de muestras de la misma poblacin), y se inter-
preta de la misma manera; as por ejemplo segn la distribucin normal, el
95% de las medias se encontrar entre -1.96s y + 1.96s; aqu s es propiamen-
te sx-, el error tpico de la media.

Si tenemos estos datos de una muestra: N = 30, X = 62.8 y s = 7.9, ten-
dremos que (frmula [2]):

El error tpico de la media (o desviacin tpica de las medias posibles) es


en este caso igual a 1.47, y segn las probabilidades de la distribucin normal
podremos afirmar que:

242
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA

Hay un 68% de probabilidades de que la media de la poblacin se encuen-


tre entre la media de la muestra ms menos un error tpico:
entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27.

Hay un 95% de probabilidades de que la media de la poblacin se encuen-


tre entre la media de la muestra ms menos 1.96 errores tpicos:
entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68.

Si deseamos mayor seguridad al establecer los lmites probables entre los


que se encuentra la media de la poblacin, podemos tomar como lmite 2.57
errores tpicos, porque sabemos que entre la media ms menos 2.57 desvia-
ciones tpicas se encuentra el 99% de los casos. En este caso:
El lmite inferior de la media de la poblacin sera [62.8 - (2.57 x 1.47)] = 59.02
El lmite superior de la media de la poblacin sera [62.8 + (2.57 x 1.47)] = 66.58

A estos lmites, o valores extremos, superior e inferior, de la media en la


poblacin se les denomina intervalos de confianza, porque eso es precisa-
mente lo que expresan: entre qu lmites podemos situar la media de la po-
blacin con un determinado grado de confianza o de seguridad (o de pro-
babilidades de no equivocarnos). Los intervalos de confianza suelen
denominarse en las encuestas de opinin mrgenes de error.
Estos intervalos de confianza podemos establecerlos con diversos nive-
les de seguridad, que vendrn dados por el valor de z que escojamos, por lo
que podemos expresarlos as:

intervalos de confianza de la media =

La cantidad que sumamos y restamos a la media de la muestra podramos


denominarla margen de error al estimar los lmites probables de la media en
la poblacin y que podemos expresar de esta manera:

Como ya hemos indicado estos lmites o mrgenes de error sern ms ajus-


tados cuando el nmero de sujetos sea mayor. Es til visualizar el efecto del ta-
mao de la muestra en los intervalos de confianza (tabla 1). Queremos saber,
por ejemplo, entre qu lmites se encuentra la media de la poblacin, estimada

243
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

a partir de una muestra pequea (N = 10) y de una muestra grande (N = 500),


y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos
casos suponemos en las muestras una media = 8 y una desviacin tpica = 2.

Tabla 1

Lo vemos con ms claridad con una representacin grfica:

Lmites extremos de la media de


la poblacin estimados a partir de
N = 10
Lmites extremos de la media de
la poblacin estimados a partir de
N = 500

Con ms sujetos los lmites son ms ajustados, hay ms precisin; con 10


sujetos situamos la media de la poblacin entre 6.68 y 9.13 (una diferencia de
2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos
lmites de slo .36).
Tambin con un nivel de confianza ms estricto (.01, que corresponde a
z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos pro-
fetas, ms seguridad, pero los lmites son ms amplios (una mayor seguri-
dad pero menor precisin). Si en el ejemplo anterior utilizamos .01 en vez
de .05 con 500 sujetos veremos la diferencia (tabla 2).

Tabla 2

Con una menor probabilidad de error (.01 en vez de .05) los lmites extremos
de la media en la poblacin son 7.77 y 8.23, una diferencia de .46 en vez de .36

244
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA


Tanto X como s son los valores calculados en una muestra. Naturalmente
el valor exacto de la media de la poblacin (m) no lo conocemos: puede estar
en cualquier punto entre los valores extremos indicados. Tambin puede es-
tar fuera de los lmites indicados, pero esto va siendo ms improbable cuan-
do establecemos unos intervalos de confianza ms estrictos.
Es normal operar con un nivel de confianza del 95% (o, lo que es lo mis-
mo, con una probabilidad de error, al situar los lmites extremos de la media,
de un 5%); en este caso z en la frmula [3] ser igual a 1.96; como se despren-
de de esta frmula, a mayor valor de z (mayor seguridad) los lmites sern
ms extremos.
Cuando calculamos la media de una muestra en una variable de inters Es
til calcular adems entre qu lmites se encuentra la media de la poblacin?
Con frecuencia nos bastar conocer la media de una muestra concreta co-
mo dato informativo, pero con frecuencia extrapolamos informalmente de
la muestra a la poblacin. Siempre es til relativizar este tipo de informa-
cin, y con mayor razn si de hecho (como es frecuente) estamos utilizando
la media de una muestra como estimacin de la media de la poblacin2.

4.2. Establecer los intervalos de confianza de una proporcin

El error tpico de una proporcin es un caso particular del error tpico de


la media pero dado el uso frecuente de proporciones y porcentajes es til ver-
lo por separado y con ejemplos ilustrativos.
Cuando los datos son dicotmicos (1 0) la media p es la proporcin de
sujetos que responden s o que escogen la respuesta codificada con un 1. Si
de 200 sujetos 120 responden s ( 1) a una pregunta y 80 responden no (0),
la media p es igual a 120/200 = .60: el 60% de los sujetos (o una media del
60%) han respondido s.
El error tpico de una proporcin es el mismo que el error tpico de cual-
quier media, solo que en este caso la media es p, la varianza es pq [propor-
cin de unos por proporcin de ceros] y la desviacin tpica es .

La frmula del error tpico de una proporcin (sp) ser por lo tanto:

2
Una de las recomendaciones de la American Psychological Association es calcular
siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Infe-
rence APA Board of Scientific Affairs 1999; American Psychological Association, 2001).

245
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En el ejemplo anterior tenemos que N = 200, p =120/200 = .60 y q =.40


( 1 - .60) por lo tanto el error tpico de la proporcin ser:

De manera anloga a lo que hemos visto en los intervalos de confianza de


la media en variables continuas (frmulas [3] y [4]), los intervalos de confian-
za de una proporcin p sern:

Intervalos de confianza de una proporcin =

Ahora podemos hacernos esta pregunta: en esa muestra de 200 sujetos


han respondido s 120 sujetos (una media de .60 o el 60%), pero cuntos
respondern s en la poblacin representada por esa muestra? Ya podemos in-
tuir la importancia de esta pregunta si pensamos en los sondeos pre-electora-
les; lo que interesa realmente no es conocer cuntos sujetos de esa muestra
van a votar a un candidato, sino cuntos le votarn el da de las elecciones.
La proporcin de votantes que dirn s a ese candidato (o la media de vo-
tantes) en la poblacin no la sabemos (habra que preguntar a todos y eso se
har el da de las elecciones), pero s podemos estimar entre qu lmites m-
ximo y mnimo se encuentra esa proporcin con un determinado nivel de
confianza (o seguridad de acertar en la prediccin); es decir, podemos esta-
blecer los mrgenes de error.
Para responder a esta pregunta calculamos los intervalos de confianza de
la media (p = .60) con un nivel de confianza de .05 (un 5% de probabilidades
de equivocarnos) que equivale a z = 1.96.
La proporcin de los que dirn s a juzgar por los datos de esa muestra es-
tar entre .60 menos 1.96 errores tpicos y .60 ms 1.96 errores tpicos:
Lmite mnimo: .60 (1.96)(.0346) = .60 .0678 = .5322 (el 53%)
Lmite mximo: .60 + (1.96)(.0346) = .60 + .0678 = .6678 (el 67%)
El margen de error en nuestra prediccin es .0678 (casi un 7% redonde-
ando). En la muestra encuestada ha respondido s el 60%, pero en la pobla-
cin representada por esa muestra esperamos que responda s entre un 53%
y un 67%.
El ejemplo de los sondeos pre-electorales pone de relieve la importancia
de calcular los intervalos de confianza de una proporcin (y es lo que se ha-
ce y comunica cuando se publican estas encuestas), pero estos intervalos de
confianza son informativos casi en cualquier situacin. Cuando se hacen son-
deos de opinin en grupos diversos (alumnos, padres de alumnos, grupos

246
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA

profesionales, etc.) prcticamente se tienen muestras (no responde toda la


poblacin) pero los resultados suelen interpretarse como si todos hubieran
respondido; lo realmente informativo es aportar los intervalos de confianza,
o entre qu lmites se encuentran con toda probabilidad las respuestas si to-
dos hubieran respondido.
Cuando distintos grupos responden a la misma pregunta (s o no en este
caso, pero puede tratarse tambin de respuestas con valores continuos) es
til especificar el error tpico de la proporcin en cada muestra y los interva-
los de confianza entre los que se encuentra la proporcin de ses (o unos) en
las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con
un nivel de confianza de .05 z = 1.96).

Tabla 3

En la tabla 3 podemos observar que en las muestras A y B responde afir-


mativamente la misma proporcin de sujetos (un 60%), pero al extrapolar los
resultados a las poblaciones representadas por esas muestras el margen de
error es mucho menor en la muestra A porque se trata de ms sujetos.
Al hablar de extrapolar a la poblacin los resultados de una muestra (en
este caso y en cualquier otro) hay que hacer una observacin importante. Es-
tamos suponiendo que esa muestra es representativa de la poblacin, que no
est sesgada, y esto es lo se intenta conseguir con las muestras aleatorias.
Cuando ste no es el caso (responden los sujetos disponibles, los que quie-
ren, etc.) siempre podemos pensar en la poblacin que pueda estar repre-
sentada por esa muestra y ser cautelosos al generalizar los resultados. En cual-
quier caso siempre es ms seguro informar sobre los intervalos de confianza
sin limitarnos a una proporcin o porcentaje aparentemente exacto.

4.3. Comparar la media de una muestra con la media de una poblacin

Se trata ahora de verificar si podemos considerar que una muestra, cuya


media conocemos, pertenece a una poblacin cuya media tambin conoce-

mos. Si tenemos la media de una muestra (X) y la media de una poblacin
(m), podemos preguntarnos Es posible afirmar que nuestra muestra, cuya

247
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

media conocemos, pertenece a (es una muestra aleatoria de) una poblacin
con media m? Si la respuesta es no, podremos afirmar que la muestra pertene-
ce a una poblacin distinta, con una media distinta.
Al hablar de diferencias estadsticamente significativas estamos hablando
de diferencias no aleatorias, no explicadas por el error muestral, no espera-
bles por azar. Esto lo afirmaremos con una determinada probabilidad de
error; es el nivel de significacin o nivel de confianza.
Es ms frecuente comparar las medias de dos muestras (para comprobar
si proceden de o pertenecen a poblaciones distintas con distinta media), pe-
ro tambin tiene su inters el comparar la media de una muestra con la media
de una poblacin cuando sta es conocida por otras investigaciones o estu-
dios, o es la conclusin lgica de una determinada teora, o simplemente la
media de la poblacin es una hiptesis de trabajo; siempre podemos pensar
en medias hipotticas.
Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de

problemas y obtiene estos resultados: N = 40, X = 12.6 y s = 4.25. El profe-
sor piensa que un resultado ptimo y posible hubiera sido obtener una media
de 15, y se pregunta puede considerarse esta muestra de 40 alumnos como
una muestra aleatoria de una poblacin cuya media fuera m = 15?
Este tipo de planteamientos puede tener su inters cuando la media de la
poblacin es una hiptesis plausible o hay datos de otros estudios, etc. Vamos
a suponer que el nivel de confianza que nos ponemos es de a = .01 (que co-
rresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; slo el 1%
de los casos cae ms all de 2.57).
Podemos solucionar el problema de dos maneras.
1 Nuestra muestra pertenece a una poblacin cuya media en principio
desconocemos. Lo que s podemos hacer es estimar el lmite mximo de la
media de la poblacin a la que pertenece nuestra muestra, tal como hemos
visto antes, y con un riesgo mximo de error del 1%, tal como hemos fijado
previamente.
1. Calculamos el error tpico de la media,

2. Cules sern los lmites superior e inferior de la media de la poblacin,


con una probabilidad de error del 1%?

El lmite superior ser X +(2.57)(sx) = 12.6 + (2.57)(.68) = 14.35

El lmite inferior ser X - (2.57)(sx) = 12.6 (2.57)(.68) = 10.85

Podemos considerar que nuestra muestra, con una media de 12.6, per-
tenece a una poblacin cuya media estar entre 10.85 y 14.34, y esto
podemos afirmarlo con una probabilidad de error del 1%.

248
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA

3. Nuestra conclusin es clara: nuestra muestra con media de 12.6 no per-


tenece a una poblacin hipottica cuya media fuera 15 porque el lmite
mximo de la poblacin de nuestra media es 14.35 y no llega a 15, lue-
go nuestra muestra pertenece a otra poblacin con otra media, cuyo
lmite inferior no es 15.
Podemos visualizar el resultado con un sencillo grfico:

Salta a la vista que la media de la poblacin de referencia (= 15) es mayor


que el lmite superior de la media de la poblacin representada por esa mues-
tra (=14.35).
2 De hecho el procedimiento utilizado habitualmente para comprobar si
la media de una muestra difiere significativamente de la media de una pobla-
cin suele ser otro que nos permite llegar a las mismas conclusiones. Nos bas-
ta calcular una puntuacin tpica (z), que nos dir en cuntos errores tpicos
se aparta nuestra media de la media de la poblacin. El procedimiento y la
frmula apropiada estn puestos y explicados como un caso ms del contras-
te de medias.

4.4. Calcular el tamao N de la muestra para extrapolar los resultados


a la poblacin

No es ste el lugar apropiado para tratar con cierta extensin sobre el ta-
mao necesario de la muestra, pero s es til, tratando del error tpico de la
media o de una proporcin, ver y entender en este contexto la relacin entre
la magnitud de los intervalos de confianza de la media y el nmero necesario
de sujetos en la muestra para extrapolar los resultados a la poblacin con un
determinado margen de error.
De manera anloga a lo que hemos visto en [4] y en [6] el margen de error
cuando la proporcin encontrada en una muestra la extrapolamos a la pobla-
cin es:

Si en [7] despejamos N (el tamao de la muestra) tendremos:

249
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En [8] conocemos todos los valores que nos interesan para calcular N
z Este valor corresponde al nivel de confianza y lo establecemos nos-
otros; habitualmente utilizaremos un nivel de confianza del .05 y z =
1.96 ( z = 2.57 si nuestro nivel de confianza es de .01)
pq Es la varianza de la poblacin, no la varianza de la muestra. Esta va-
rianza no la conocemos, pero como a mayor varianza en la poblacin
har falta una muestra mayor, nos situamos en la situacin en que la
varianza es la mxima posible; en este caso p = q = .50, y pq = .25,
que es un valor constante.
e Es el margen de error que estamos dispuestos a aceptar y tambin lo
establece el investigador. Si por ejemplo estamos dispuestos a aceptar
un margen de error del 5%, esto quiere decir que si en la muestra en-
cuestada en esta caso responde s el 35%, en la poblacin esperamos
que responda s entre el 30% y el 40%. ste 5% lo expresaremos en
forma de proporcin (o tanto por uno): .05

Vemos de nuevo que si queremos un margen de error pequeo (e, el de-


nominador en 8) necesitaremos una muestra mayor.
Podemos ver la aplicacin de esta frmula [8] con un ejemplo. Vamos a
hacer una encuesta para extrapolar los resultados a una poblacin mayor
(muy grande, de tamao indefinido).
El margen de error que estamos dispuestos a aceptar es del 5% (e = .05),
de manera que si nos responden s el 50% de la muestra ya sabemos que en la
poblacin el s estar entre el 45% y el 55%
El nivel de confianza es del .05, que corresponde a z = 1.96
(1.96)(.25)
Necesitaremos una muestra de este tamao: N = = 384 sujetos
.052

Si el margen de error mximo que nos interesa es del 3% (e = .03), la


muestra necesaria sera de 1067 sujetos.
Hacemos algunas observaciones ya que el exponer y justificar brevemente
estas frmulas tiene un valor complementario para entender mejor el con-
cepto y utilidad del error tpico, pero no tratamos aqu de manera expresa so-
bre el tamao de la muestra, tipos de muestreos y cmo hacerlos, etc.3
3
Puede verse ms informacin en la bibliografa mencionada y en otras muchas publi-
caciones; sobre el tamao de la muestra necesario tambin con otras finalidades (cons-
truir una escala de actitudes, hacer un anlisis factorial, etc.) puede verse Morales (2007b).

250
ESTADSTICA INFERENCIAL: EL ERROR TPICO DE LA MEDIA

a) Estas frmulas para calcular el tamao de la muestra son vlidas aun


cuando las preguntas no sean dicotmicas (estamos utilizando el error
tpico de una proporcin, cuya varianza mxima es pq = .25).
b) Son vlidas cuando se hace un muestreo aleatorio simple; hay variantes
cuando se utilizan otros tipos de muestreo (como el estratificado).
c) Suponemos que la poblacin a la que se extrapolan los resultados es
grande, de tamao indefinido y que podemos no conocer con exacti-
tud. Con poblaciones menores y cuyo tamao conocemos hay frmu-
las ms ajustadas; ms o menos a partir de poblaciones en torno a los
30.000 sujetos el tamao necesario de la muestra no vara mucho; al
aumentar el tamao de la poblacin no aumenta proporcionalmente el
tamao necesario de la muestra.

ANEXO. LOS INTERVALOS DE LA MEDIA Y DE LAS PROPORCIONES EN INTERNET

Varios programas disponibles en Internet nos dan los intervalos de con-


fianza de una media o proporcin para un determinado nivel de confianza, lo
mismo que el tamao de la muestra necesario para determinados mrgenes
de error.
Entre otras direcciones:
LOWRY, RICHARD, VASSARSTATS: WEB SITE FOR STATISTICAL COMPUTATION,Vassar Co-
llege, Poughkeepsie, NY, USA; http://faculty.vassar.edu/lowry/VassarS-
tats.html (men en proportions: the confidence interval of a propor-
tion; en t test & procedures: .95 and .99 Confidence Intervals for the
Estimated Mean of a Population).
GENE V GLASS Intro to quant methods http://glass.ed.asu.edu/stats/ En
Links to Online Resources for Statistics, en Online statistical calculators
that can perform many different analyses. :
Confidence Interval on a Proportion http://glass.ed.asu.edu/stats/analysis/
pciform.html
Confidence Interval on a Sample Mean http://glass.ed.asu.edu/stats/analy-
sis/mci.html
Algunas direcciones relacionadas con encuestas de opinin:
CREATIVE RESEARCH SYSTEMS. The Survey System Sample Size Calculator
http://www.surveysystem.com/sscalc.htm
CUSTOMINSIGHT.COM. Survey Random Sample Calculator (Home: http://www.
custominsight.com/index.asp) http://www.custominsight.com/articles/
random-sample-calculator.asp
DIMENSION RESEARCH, INC. Confident Intervals for Means Calculator
http://www.dimensionresearch.com/resources/calculators/conf_me-
ans.html (home: http://www.dimensionresearch.com/index.html).

251
CAPTULO 8
EL CONTRASTE DE MEDIAS

1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS

Uno de los planteamientos ms frecuentes en anlisis estadstico es senci-


llamente comparar las medias de dos grupos (hacer un contraste de me-
dias)1. Antes de ver el procedimiento conviene tener una idea general de la
utilidad de estos contrastes.
a) Muchos diseos experimentales, y planteamientos de evaluacin en
general, desembocan en una comparacin de las medias de dos grupos:
un grupo experimental (el que ha seguido nuestra metodologa, el que
ha tenido una determinada experiencia, formacin etc.) lo comparamos
con otro grupo de control o de contraste (un grupo comparable al gru-
po experimental pero que no ha pasado por esta experiencia, mtodo,
etc.). Son varios los diseos experimentales (y cuasi-experimentales)
que se pueden proponer y cuyo anlisis bsico es un simple contraste
de medias.
En definitiva esperamos que si la experiencia, mtodo, terapia, etc., ha
sido provechosa, los sujetos del grupo experimental tendrn una me-
dia mayor que la del otro grupo (una media mayor en la variable de-
pendiente: aquella caracterstica en la que esperamos que se haya pro-
ducido un cambio). Por una media mayor entendemos mayor de lo
que cabra esperar por azar o mayor que lo que se puede esperar de la
variacin natural de una muestra a otra.

1
Si tenemos tres grupos o ms en el mismo planteamiento y deseamos compararlos
de dos en dos, el procedimiento adecuado es el anlisis de varianza.

253
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

b) Aunque no tengamos un diseo experimental, ni ningn planteamien-


to de investigacin propiamente dicho, muchas veces exploramos di-
ferencias entre grupos, sin hiptesis previas, por simple curiosidad o
por inters personal. Tenemos los datos y los aprovechamos para des-
cubrir cosas
c) El contraste (comparacin) de las medias de los subgrupos con pun-
tuacin total ms alta y ms baja (en un examen, en un test, en una es-
cala, etc.; en cualquier total que supone la suma de una serie de pre-
guntas) tiene aplicaciones especficas:
1) Aporta informacin de inters (en qu se parecen ms y en que se
diferencian ms los altos y los bajos en cualquier variable).
2) Es una manera sencilla de analizar los tems de una escala o test, pa-
ra quedarnos con los ms discriminantes (los ms diferenciado-
res): con estos tems tenemos una fiabilidad mayor, podemos re-
ducir la longitud del instrumento, etc.

2. A QU PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS

Es importante tener claro desde el principio a qu preguntas de inters


debemos responder (o podemos responder) cuando comparamos dos gru-
pos, porque no se trata simplemente de restar una media de la otra para ver
la diferencia. Hacemos bsicamente dos tipos de clculos o anlisis distintos
que responden a otras dos preguntas distintas a las que habr que aadir otra
tercera pregunta sobre la relevancia o inters de la diferencia.

Primera pregunta

La diferencia entre las medias de estos dos grupos Est dentro de lo nor-
mal, dentro de lo que se puede esperar habitualmente cuando no hay ms di-
ferencia que la puramente aleatoria? O se trata ms bien de una diferencia
rara, atpica, fuera de lo normal?
Si la respuesta es que la diferencia es mayor de lo normal, de lo que se
puede esperar por azar, decimos que se trata de una diferencia estadstica-
mente significativa. En principio podemos tomarnos en serio la diferencia;
podemos afirmar que entre las poblaciones representadas por estas muestras
s hay una diferencia distinta de cero.
Hay que tener claro tanto lo que queremos expresar cuando decimos que
una diferencia es estadsticamente significativa como lo que no podemos
decir:

254
EL CONTRASTE DE MEDIAS

a) Queremos decir que podemos extrapolar los resultados solamente en


este sentido: en situaciones semejantes y con sujetos semejantes, lo
probable es que encontremos una diferencia distinta de cero (y que es
suficiente para poder decir que los grupos pertenecen a poblaciones
distintas en lo que respecta a la variable o rasgo en el que hemos me-
dido a los sujetos).
b) Lo que no podemos decir es que:
1) en muestras semejantes encontraremos una diferencia de magni-
tud semejante (interpretacin frecuente pero errnea); es posible
que as sea, pero lo que demostramos es que la diferencia en otros
pares de muestras no ser cero (y esto no es decir mucho),
2) tampoco podemos decir que una diferencia es grande o importan-
te por el mero hecho de ser estadsticamente significativa.

Por todo esto habr que completar la informacin con la respuesta a la se-
gunda pregunta que nos haremos a continuacin.
Una observacin: estamos suponiendo que las muestras que compara-
mos o son muestras aleatorias o son muestras cuyos sujetos han sido asigna-
dos aleatoriamente a las diversas condiciones o grupos. En la prctica fre-
cuentemente se trabaja o investiga con grupos hechos, por lo que no se trata
de muestras aleatorias. En estos casos tan habituales:
1) Siempre podemos pensar a qu poblaciones pueden representar estos
dos grupos y extrapolar los resultados a la poblacin hipottica repre-
sentada por estas muestras con la debida cautela (pueden ser mues-
tras sesgadas o no representativas de la poblacin general o de la po-
blacin que en principio nos interesa estudiar).
2) En cualquier caso si la diferencia es estadsticamente significativa po-
demos excluir el azar o variabilidad normal como explicacin plausible
o razonable de esa diferencia.

Segunda pregunta

Cul es la magnitud de esta diferencia entre los dos grupos? Es grande,


pequea, moderada?
Una diferencia estadsticamente significativa puede ser de hecho peque-
a y poco relevante (sucede con frecuencia cuando comparamos muestras
grandes); lo mismo sucede a la inversa, una diferencia que no es estadstica-
mente significativa puede ser grande y de importancia en una situacin dada
(y esto es ms probable que suceda cuando comparamos muestras peque-
as). El dato de la magnitud de la diferencia tiene su clculo especfico que
veremos ms adelante. La magnitud de la diferencia es un dato importante

255
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

para interpretar los resultados, para ver si la diferencia es relevante, etc. Sobre
todo esto volveremos ms adelante, porque la confusin entre estadstica-
mente significativo y grande o relevante es muy frecuente.
En la prctica habitual:
1 Se responde en primer lugar a la primera pregunta: la diferencia Est
dentro de lo normal y aleatorio? Es mayor de lo que se podra esperar
si ambas muestras pertenecieran a la misma poblacin?
2 Despus se matiza y se completa la informacin respondiendo a la se-
gunda pregunta sobre la magnitud de la diferencia (pequea, modera-
da, grande).

La estadstica inferencial ms tradicional se limita con frecuencia a res-


ponder a la primera pregunta, pero tambin es importante (y a veces ms im-
portante) analizar la magnitud de la diferencia (cuestin a la que no suelen
responder muchos libros de texto).

Tercera pregunta

Cul es la relevancia, el inters que puede tener la diferencia que hemos


encontrado? Para valorar la relevancia tenemos que responder a las dos pre-
guntas anteriores (la diferencia est dentro de lo normal? es grande, peque-
a?) y adems hay ya que tener en cuenta otro tipo de informacin ms
cualitativa: contexto, finalidad de la comparacin, etc.

3. EL MODELO TERICO DEL CONTRASTE DE MEDIAS: LA DISTRIBUCIN MUESTRAL DE


DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIN

Lo que vamos a comprobar es cundo una diferencia es mayor de lo que


se podra esperar por azar si entre los dos grupos no hubiera ms diferencias
que las puramente casuales (o explicadas por el error muestral, dicho en
trminos ms acadmicos).
Nuestro modelo terico es la distribucin muestral de las diferencias en-
tre medias de muestras que proceden de la misma poblacin: entre estas
medias no hay, por hiptesis, ms diferencias que las puramente aleatorias.
Esta distribucin es un modelo terico anlogo al de la distribucin mues-
tral de la media que ya hemos visto; ahora ya no se trata de medias, sino de
diferencias entre medias.
En este modelo se supone lo siguiente:
1 De una misma poblacin extraemos un nmero indefinido (muy
grande) de pares de muestras y calculamos la diferencia entre sus

256
EL CONTRASTE DE MEDIAS

medias: la media de la primera muestra menos la media de la segun-


da muestra.
Unas veces la diferencia ser positiva (la media de la primera muestra
es mayor que la de la segunda muestra), otras negativa (la media de la
segunda muestra es mayor que la media de la primera muestra) y otras
veces la diferencia ser cero.
2 Al tener muchas diferencias entre medias (un nmero indefinido, se
trata de un modelo terico), por hiptesis tendremos que:
1. Estas diferencias tendrn una distribucin normal (que se deno-
mina distribucin muestral de las diferencias entre medias de
muestras que proceden de la misma poblacin).
2. La media de esta distribucin ser cero porque las diferencias po-
sitivas anulan a las negativas (cuando no hay ms diferencias que las
puramente aleatorias).
3. La desviacin tpica de esta distribucin (que como se trata de una
distribucin muestral se denomina error tpico) podemos estimarla
a partir de los valores del tamao y de las desviaciones tpicas de las
muestras (esto es demostrable aunque aqu no pongamos la demos-
tracin; se trata del teorema del lmite central ya mencionado).
4. La mayora de estas diferencias (el 95%) estar entre 1.96 errores
tpicos y + 1.96 errores tpicos; convencionalmente situamos la
normalidad entre estos lmites.

Lo que vamos a hacer es comprobar si nuestra diferencia (la que hemos


calculado entre dos medias) est dentro de lo normal, si pertenece a esa dis-
tribucin (o poblacin) de diferencias cuya media es cero. En ese caso con-
cluiremos que la diferencia est dentro de lo normal y aleatorio (no es esta-
dsticamente significativa).

Figura 1

257
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En la figura 1 tenemos representada la distribucin de las diferencias entre


medias cuando la media de las diferencias es cero porque no hay ms dife-
rencias que las puramente casuales.
Entre 1.96 errores tpicos (o desviaciones tpicas) y + 1.96 errores tpicos
tendremos el 95% de las diferencias. A estas diferencias las consideramos nor-
males porque estn dentro de los lmites que convencionalmente hemos de-
terminado como criterio de lo que suele suceder cuando no hay ms diferen-
cias que las aleatorias o casuales.
Al comparar dos medias podemos encontrar una de las dos posibilidades
representadas en la figura 2, cada posibilidad nos llevar a una conclusin
distinta.

Figura 2

Cundo podemos afirmar que las dos Cundo podemos afirmar que las dos
muestras pertenecen a la misma muestras proceden de poblaciones
poblacin? distintas?

Afirmamos que las dos muestras Afirmamos que las dos muestras
pertenecen a la misma poblacin proceden de poblaciones distintas
cuando la diferencia est dentro de lo cuando la diferencia es atpica, poco
normal o frecuente; frecuente, se sale de lo normal

Es decir, cuando se trata de una Es decir, cuando se trata de una


diferencia probable en el caso de que las diferencia poco probable. En ese caso
dos muestras procedan de la misma podremos afirmar que las medias
poblacin (m1 = m2 = m) pertenecen a muestras de poblaciones
distintas, con distinta media (m1 m2)

258
EL CONTRASTE DE MEDIAS

4. CMO COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIN DE DIFERENCIAS


CUYA DIFERENCIA MEDIA ES CERO

4.1. Modelo y frmula bsica

Hacemos esta comprobacin verificando en cuntos errores tpicos (des-


viaciones tpicas) se aparta nuestra diferencia de la diferencia media de cero.
Si nuestra diferencia se aparta mucho (1.96 errores tpicos si seguimos el
criterio habitual) de la diferencia media de cero:
1. Podremos deducir que esa diferencia es improbable si las dos medias
proceden de la misma poblacin.
2. Y afirmaremos por lo tanto que las muestras proceden de poblaciones
distintas con distinta media. Difieren ms de lo que consideramos nor-
mal cuando no hay ms diferencias que las puramente aleatorias.

Cmo sabemos que la diferencia est dentro de lo probable? (probable


en la hiptesis de que ambas muestras procedan de la misma poblacin):
Verificando en cuntos errores tpicos se aparta nuestra diferencia de la di-
ferencia media de cero.
Para esto nos basta calcular la puntuacin tpica de esa diferencia (z, t de
Student) que nos indicar si la diferencia es probable (p >.05) o improbable
(p<.05) (en este caso el nivel de confianza, o probabilidad de error al afir-
mar la diferencia, es de a =.05).
Esta puntuacin tpica, expresada en trminos no convencionales, ser:

La frmula, expresada en smbolos convencionales es:

En esta frmula [1]:


El numerador equivale de hecho a la diferencia entre dos medias
(entre las medias de dos diferencias); restamos una diferencia en-
tre dos medias de una diferencia media de cero.

259
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

El denominador (smbolo del error tpico de la diferencia entre


medias), vara segn se trate de muestras independientes o relacio-
nadas, grandes o pequeas; las frmulas especficas para cada caso
estn en el apartado 4.7.

Lo que hacemos es calcular la puntuacin tpica (z) de una diferencia: com-


probar en cuntas desviaciones tpicas (errores tpicos) se aparta esa diferencia
de la diferencia media de cero. Esta puntuacin tpica nos dir la probabilidad
de que ocurra nuestra diferencia cuando la media de las diferencias es cero.
Cundo es grande la probabilidad de que ocurra una diferencia? El lmite
es convencional; habitualmente se acepta que ms de 5 veces de cada 100 son
ya muchas veces; en ese caso se interpreta como una diferencia normal cuan-
do las medias pertenecen a muestras de la misma poblacin. Este lmite es el
nivel de significacin (.05) o nivel de confianza (.95), como en plantea-
mientos anlogos, y a cada nivel de confianza le corresponde un valor de z. Se
trata de una aplicacin directa de la distribucin normal.
El nivel de significacin se expresa as: a = .05, y en este caso necesitaremos
un valor de z igual o superior a 1.96 (en pruebas bilaterales, que son las que uti-
lizamos normalmente como explicamos ms adelante, y con muestras grandes;
si se trata de muestras pequeas consultaremos las tablas de la t de Student).
El nivel de significacin expresa la probabilidad de equivocarnos al afir-
mar la diferencia y el nivel de confianza expresa la probabilidad de acertar
(.05+.95 = 1; 100%); ambas expresiones vienen a decir lo mismo.
Si nuestro nivel de significacin es a = .01, necesitaremos un valor de z
superior a 2.57, y si es a = .001, el valor de z debe ser igual o superior a 3.30.
Segn el valor de z que se obtenga, los resultados suelen expresarse de es-
ta forma:
p > .05 cuando el valor de z no llega a 1.96 (o diferencia no estadsticamen-
te significativa)
p <. 05 cuando z > 1.96 (a partir de z = 1.96 solemos decir que la diferencia
es estadsticamente significativa, porque el nivel de confianza habi-
tual es a = .05)
p < .01 cuando z > 2.56
p <.001 cuando z > 3.30

Los programas de ordenador suelen indicar la probabilidad exacta que co-


rresponde a cada valor de z (p =.03, p = .002, etc.) y es el dato que se debe
manifestar si est disponible (la probabilidad exacta del valor de z (o t) tam-
bin se encuentra fcilmente en programas de Internet)2.
2
Pueden verse los programas de Internet del anexo 4 de este captulo.

260
EL CONTRASTE DE MEDIAS

Con muestras pequeas la frmula utilizada se denomina usualmente t de


Student (que nos remite a las tablas para muestras pequeas, anexo 3); con
muestras grandes suele denominarse z (y tambin es usual mantener la ex-
presin t de Student, aunque con menos propiedad) y en todos los casos tam-
bin se utiliza a veces el trmino genrico de Razn Crtica (R.C.).
Con muestras pequeas las probabilidades de ocurrencia en los extre-
mos son algo mayores (los valores exactos dependen del nmero de sujetos),
por eso necesitamos consultar las tablas especficas para muestras pequeas
(las tablas de la t de Student)3 pero segn va aumentando el nmero de suje-
tos las probabilidades se van pareciendo ms a las de la distribucin normal.

4.2. Hiptesis Nula e Hiptesis Alterna

En este contexto es til recordar, o introducir, los conceptos de Hiptesis


Nula e Hiptesis Alterna.
Aqu es importante entender dos puntos: 1 a qu llamamos Hiptesis Nu-
la e Hiptesis Alterna, y 2 por qu hacemos esta distincin.

1 Qu son las Hiptesis Nula y Alterna

La Hiptesis Alterna es la del investigador: que existe una diferencia (o


una relacin), que la diferencia es mayor de lo que se puede esperar por
azar, etc.
La Hiptesis Nula es la negacin de la Hiptesis Alterna: la diferencia es-
t dentro de lo normal y probable, no se aparta significativamente de una
diferencia media de cero.

Los conceptos (y los trminos) de Hiptesis Alterna e Hiptesis Nula son


importantes y conviene que estn muy claros. La Hiptesis Nula es siempre la
negacin de la Hiptesis Alterna, que es en principio nuestra hiptesis. Por
ejemplo:
Hiptesis Alterna (mi hiptesis): El mtodo A es mejor que el mtodo B
Hiptesis Nula: El mtodo A no es mejor que el
mtodo B

Para formular la Hiptesis Nula nos basta poner un no delante del verbo
utilizado en la Hiptesis Alterna.

3
Las probabilidades de la tabla para muestras pequeas se la debemos a William S.
Gosset que firmaba con el seudnimo the Student, de ah el trmino t de Student y el sm-
bolo t en vez de z (conceptualmente se trata de lo mismo)

261
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

La formulacin de la Hiptesis Nula quedara ms clara si aadimos (al me-


nos mentalmente): porque si hay alguna diferencia entre las medias de los
dos grupos, esta diferencia est dentro de lo normal y se explica suficiente-
mente por el error muestral, por factores aleatorios, etc.
Utilizando los smbolos convencionales expresaramos as estas hiptesis
(m es el smbolo de la media de una poblacin):
Hiptesis Nula H o: m 1 = m 2 (o lo que es lo mismo m1 - m2 = 0)
Hiptesis Alterna: podemos expresarla de dos maneras
H1: m1 m2 (no especificamos la direccin de la
diferencia)
H1: m1 > m2 o m1 < m2 (s especificamos la direccin
de la diferencia)

2 Por qu distinguimos entre estos dos tipos de hiptesis (nula y alterna)

A primera vista puede parecer que la nica hiptesis que tenemos es la


alterna (que hay una diferencia, que un mtodo es mejor que otro, etc.) y
es sta la hiptesis que probamos o dejamos de probar. Sin embargo la hi-
ptesis que ponemos a prueba es la Hiptesis Nula: es la que aceptamos
(o ms bien fracasamos en el intento de rechazarla y afirmamos que la di-
ferencia est dentro de lo normal, o no es extrapolable) o la que recha-
zamos.
Aunque no tengamos hiptesis formuladas y prescindamos de las hipte-
sis nula y alterna, cuando contrastamos dos medias y encontramos una dife-
rencia estadsticamente significativa, implcitamente estamos rechazando la
hiptesis nula, lo digamos o no. Estas hiptesis nulas de no diferencia estn
implcitas en el mismo modelo y procedimiento.
Una manera sencilla (aunque quizs incompleta) de entender y recordar
estos conceptos puede ser sta:
Identificar la Hiptesis Nula con diferencia casual, normal, aleatoria, pro-
bable, etc.,
Identificar la Hiptesis Alterna con diferencia improbable, no casual, etc.
(improbable si las dos muestras proceden de la misma poblacin, sin ms
diferencias que las puramente aleatorias o casuales).

En definitiva lo que vamos a hacer es determinar la probabilidad de que se


d una determinada diferencia entre dos muestras en el caso de que ambas
procedan de la misma poblacin, con la misma media y sin ms diferencias
que las que pueden explicarse por la variabilidad normal que hay en cualquier
grupo (eso significa pertenecer a la misma poblacin).

262
EL CONTRASTE DE MEDIAS

As, si hacemos un contraste de medias con un nivel de confianza de


a = .05:

Si la diferencia es probable (p >.05) Si la diferencia es improbable


[probable en el caso de que las (p <.05) [improbable en el caso de que
muestras procedan de la misma las muestras procedan de la misma
poblacin] poblacin]

Aceptamos (no rechazamos) la Rechazamos (no aceptamos) la


Hiptesis Nula; o lo que es lo mismo: Hiptesis Nula y aceptamos la Hiptesis
Alterna, o lo que es lo mismo:

Afirmamos que las muestras pertenecen Afirmamos que las muestras proceden
a la misma poblacin (m1 = m2) de poblaciones distintas (m1 m2)

Afirmamos que la diferencia no es Afirmamos que la diferencia s es


estadsticamente significativa. estadsticamente significativa (es muy
improbable que las muestras
pertenezcan a la misma poblacin).

Si la probabilidad de que ocurra la diferencia es grande, afirmamos que


ambas muestras proceden de la misma poblacin, y que la diferencia est
dentro de lo aleatorio (se explica por el error muestral, por la variabilidad
normal que hay en cualquier conjunto de datos) y lo solemos expresar di-
ciendo que aceptamos la Hiptesis Nula, aunque con ms propiedad habra
que decir que no rechazamos la Hiptesis Nula (propiamente nunca demos-
tramos que la Hiptesis Nula es verdadera; simplemente no demostramos
que es falsa).
Si esta probabilidad es pequea (menos del 5% o p < .05 si sealamos ese ni-
vel de confianza o a = .05) rechazamos que las muestras procedan de la misma
poblacin con idntica media (no aceptamos la Hiptesis Nula) y podremos
afirmar que las dos muestras proceden de poblaciones distintas con distinta me-
dia (y decimos entonces que la diferencia es estadsticamente significativa).
Una cuestin distinta es identificar automticamente diferencia estadsti-
camente significativa con hiptesis de investigacin demostrada (si la dife-
rencia es mayor de lo normal, es que este mtodo es mejor que el otro, etc.);
del hecho de la diferencia no se deduce sin ms que la causa o explicacin
de la diferencia sea la propuesta como hiptesis por el investigador; simple-
mente afirmamos la diferencia.

263
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

4.3. Contrastes unilaterales y bilaterales

Hemos visto que hay dos tipos de hiptesis alternas (una hiptesis es m1
m2 y otra hiptesis es m1 > m2 o m1 < m2).
Por ejemplo, no es lo mismo tener como hiptesis:
Nios y nias son diferentes en Smbolo: m1 m2; (afirmamos la
diferencia, pero no la direccin de la
diferencia)
que tener como hiptesis:
Los nios aventajan a las Smbolo: m1 > m2; (especificamos la
nias en direccin de la diferencia, quin es
ms que quin)

Cuando no afirmamos como hi- tenemos lo que se denominan


ptesis la direccin de la diferen- contrastes (o hiptesis) bilatera-
M

cia (los nios y las nias son dis- les, bidireccionales o de dos colas.
tintos en)
Cuando s afirmamos como hip- tenemos lo que se denominan
tesis la direccin de la diferencia contrastes (o hiptesis) unilate-
M

(las nias aventajan a los nios rales, unidireccionales o de una


en) cola.

Dnde est en la prctica la importancia entre estos dos tipos de hiptesis?

Antes hemos mencionado que cuando al comparar dos medias obtene-


mos una z de 1.96 o ms, rechazamos el azar como explicacin de la diferen-
cia Por qu exactamente 1.96?
Porque por encima de 1.96 caen el 2.5% de los casos y por debajo de -1.96
otro 2.5% de los casos (figura 1): nos fijamos en los dos extremos (o en las
dos colas) de la distribucin. No sealamos la direccin de la diferencia y es-
tamos por lo tanto en una hiptesis bilateral, tal como se muestra en la figu-
ra 3 (semejante a la figura 1).

264
EL CONTRASTE DE MEDIAS

Figura 3

Si nuestra hiptesis es unilateral, nos fijaremos en un lado de la distribu-


cin, y en vez de z = 1.96 necesitaremos llegar solamente a 1.64, porque por
encima de z = 1.64 (o por debajo de z = - 1.64) cae el 5% de los casos, tal co-
mo se muestra en la figura 4.

Figura 4

Naturalmente es ms fcil encontrar un valor de 1.64 que de 1.96 por lo


que se confirman con ms facilidad las hiptesis unilaterales.
Aqu no entramos ms en esta distincin porque habitualmente nos vamos
a referir a hiptesis bilaterales (o bidireccionales, o de dos colas), porque es la
prctica ms comn y aconsejada, por eso mantendremos z = 1.96 como crite-
rio; a partir de ese valor es cuando afirmamos que una diferencia es muy impro-
bable en el caso de que ambas muestras procedan de la misma poblacin4.

4
Aunque nuestras hiptesis nos parezcan con frecuencia lgicamente unidirecciona-
les (este mtodo es mejor que) y as las formulemos, se suelen utilizar de manera habi-

265
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

4.4. Esquema-resumen del proceso de verificacin de hiptesis

Es til disponer de un cuadro-resumen que nos clarifique estos conceptos


y nos resuma el proceso de verificacin de hiptesis (figura 5). Partimos de
nuestra hiptesis (la hiptesis alterna) pero lo que realmente ponemos a
prueba es la negacin de nuestra hiptesis (la hiptesis nula); lo que hace-
mos en definitiva es determinar las probabilidades de que se d una determi-
nada diferencia (o en su caso relacin).

Figura 5

tual los valores de z (o de la t de Student) propios de las hiptesis bidireccionales; una ex-
plicacin ms amplia de estos dos tipos de hiptesis, direccionales y no direccionales, y
por qu se utilizan habitualmente hiptesis bidireccionales puede verse en Morales (pgi-
na Web) (2008; sobre las hiptesis direccionales y no direccionales).

266
EL CONTRASTE DE MEDIAS

4.5. Interpretacin del significado de aceptar o no aceptar la hiptesis


nula: tipos de errores

Es fcil interpretar mal las conclusiones que se derivan del aceptar o no


aceptar la Hiptesis Nula (la hiptesis de no diferencia) y que ya estn sucin-
tamente expuestas en los apartados anteriores.

4.5.1 Cuando no aceptamos la Hiptesis Nula

No aceptamos la Hiptesis Nula cuando es muy improbable que por azar


se d esa diferencia entre las muestras cuando las poblaciones no difieren
(m1 = m2, m1 - m2 = 0; se trata de la misma poblacin). Al decir que recha-
zamos la Hiptesis Nula exactamente queremos decir esto:
Una probabilidad pequea de que la diferencia sea aleatoria (y que corres-
ponde a un valor grande de z o t), es decir una diferencia estadsticamente
significativa:
1 Nos da ms seguridad para afirmar esta diferencia; para extrapolar es-
tos resultados a la poblacin: con muestras semejantes hubiramos ob-
tenido una diferencia distinta de cero;
2 Pero, como acabamos de indicar, no probamos que entre otros pares
de muestras semejantes obtendramos necesariamente una diferencia
de magnitud semejante.
3 Un valor grande de z o t no quiere decir que la diferencia entre las
muestras sea grande; la magnitud de la diferencia y su valoracin es al-
go distinto. Una diferencia muy significativa (ese muy tan frecuente se
presta a interpretaciones equvocas y es preferible evitarlo) no es sin-
nimo de diferencia grande o importante; esto nos lo dir la magnitud
del efecto (o magnitud de la diferencia expresada en trminos cuan-
titativamente ms fcilmente interpretables, y que veremos despus) y
otras consideraciones de carcter ms cualitativo que nos permitirn
valorar esa magnitud de la diferencia.
4 Si no aceptamos la Hiptesis Nula (el azar o el error muestral como
explicacin de la diferencia) podremos aceptar la Hiptesis Alterna, es
decir, podemos afirmar que la diferencia es muy improbable en el caso
de que las muestras procedan de la misma poblacin con idntica me-
dia, pero, y esto es importante, una cosa es afirmar la diferencia (y has-
ta ah hemos llegado) y otra distinta es que est claro el por qu de la
diferencia.

Conviene estudiar o recordar todo lo referente a los diseos o plantea-


mientos de investigacin. El que una diferencia sea estadsticamente signifi-
cativa no prueba sin ms, por ejemplo, que en un colegio se ensea mejor

267
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

que en otro (los alumnos de un colegio, o de una universidad, pueden ir ya


mejor preparados), o que un mtodo sea mejor que otro (puede ser que
quien sea mejor es el profesor, con cualquier mtodo). Con un buen dise-
o de investigacin lo que pretendemos es excluir otras explicaciones.

4.5.2. Cuando aceptamos la Hiptesis Nula

Aceptar (o no rechazar) la Hiptesis Nula es lo mismo que aceptar que la


diferencia es normal, que est dentro de lo aleatorio: en comparaciones se-
mejantes podemos encontrarnos con una diferencia de cero.
Hay dos puntos en los que conviene insistir y que son aplicables cuando
aceptamos (o con ms propiedad no rechazamos) la Hiptesis Nula de no
diferencia:
1 Una cosa es no probar que hay una diferencia (como sucede cuan-
do no rechazamos la Hiptesis Nula) y otra distinta es probar que no hay
diferencia.
En este punto es fcil hacer interpretaciones errneas. Lo veremos con fa-
cilidad con un ejemplo. Vamos a suponer que tenemos la hiptesis (alterna)
de que a los italianos les gusta ms la pera que a los espaoles (o sin hip-
tesis formuladas formalmente queremos verificar si existe alguna diferencia).
Responden a una escala de actitudes hacia la pera una muestra de 10 italia-
nos y otra de 10 espaoles (igualados en nivel socio-cultural y econmico).
Encontramos que la diferencia favorece a los italianos pero no es estadstica-
mente significativa (est dentro de lo normal):
Hemos probado que hay diferencia? (es decir, podemos extrapolar el
hecho de la diferencia a la poblacin general representada por esas
muestras?) La respuesta es no; no hemos probado que a los italianos
les gusta la pera ms que a los espaoles.
Hemos probado que no hay diferencia? Tampoco. Es muy posible que
la diferencia, si la hay, quede clara con muestras mayores.

Con muestras grandes es muy fcil no aceptar la Hiptesis Nula de no di-


ferencia, por eso siempre (y ms con muestras pequeas) interesa verificar si
el signo de la diferencia favorece a nuestra hiptesis, porque con muestras
mayores es muy posible que dejemos las cosas claras.

2 Una diferencia que no es estadsticamente significativa puede ser


importante.
Pensemos en un mtodo de enseanza o en un tipo de terapia aplicado a
muy pocos sujetos. Podemos comparar nuestro grupo experimental (partici-

268
EL CONTRASTE DE MEDIAS

pan en el mtodo, en la terapia), con otro grupo que nos sirve de compara-
cin (grupo de control o de contraste)5 para verificar si el mtodo o la terapia
son eficaces. A simple vista podemos observar que el mtodo s es eficaz, ve-
mos el cambio en los sujetos, etc., pero al hacer la comparacin podemos
comprobar que la diferencia est dentro de lo aleatorio y no rechazamos la
Hiptesis Nula. Esto puede suceder, y sucede con frecuencia, con muestras
pequeas.
En estos casos: 1 nos abstendremos de extrapolar el hecho de la diferen-
cia, pero 2 si la diferencia es grande (y a favor de nuestro grupo experimen-
tal) podemos pensar que algo importante est pasando aqu con estos su-
jetos. De ah la importancia de disponer de un mtodo que nos permita
apreciar cundo una diferencia es grande (y lo veremos despus). Posible-
mente aumentando el tamao de la muestra (o acumulando pequeas mues-
tras) podremos rechazar (no aceptar) la Hiptesis Nula.

4.5.3. Tipos de errores

Con respecto a la Hiptesis Nula podemos cometer dos tipos de errores


objetivos:
1. Error tipo I: podemos no aceptar la Hiptesis Nula (y aceptar la dife-
rencia entre las medias) cuando en realidad la Hiptesis Nula es verda-
dera (y esa diferencia est dentro de lo normal).
Este posible error objetivo lo controlamos con los niveles de con-
fianza; un nivel de confianza de a = .05 (un 5% de probabilidades
de equivocarnos al afirmar la diferencia) se acepta como suficiente-
mente seguro.
2. Error tipo II: podemos aceptar la Hiptesis Nula (y no afirmamos la dife-
rencia) cuando en realidad la Hiptesis Nula es falsa (y s hay diferencia).
Se trata de un error que no solemos controlar. Las probabilidades
de cometer este error en el contraste de medias son muy altas pe-
ro se pueden minimizar utilizando un nmero grande de sujetos.
Con muchos sujetos se detectan con ms facilidad las diferencias
entre grupos, incluso las diferencias pequeas (las diferencias gran-
des se detectan con facilidad comparando muestras pequeas).

5
En trminos ms propios cuando hablamos de grupo de control estamos suponien-
do que los sujetos han sido asignados aleatoriamente a los dos grupos, experimental y de
control; cuando esto no es as (como no suele serlo en muchas comparaciones porque tra-
bajamos con grupos hechos) es preferible denominar al grupo que nos sirve como trmi-
no de comparacin grupo de contraste.

269
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Los dos tipos de errores estn resumidos en la figura 6.

Figura 6

En principio se pretende minimizar el error tipo I (como es afirmar la dife-


rencia cuando realmente no la hay) y por eso se insiste en los niveles de con-
fianza: es ms seguro (es la postura ms conservadora) decir no hay dife-
rencia cuando realmente s la hay, que decir s hay diferencia cuando
realmente no la hay.
Una sencilla analoga nos puede ayudar a entender la importancia relati-
va de estos dos errores: en un juicio un error puede ser condenar a un ver-
dadero inocente y otro error puede ser absolver a un verdadero culpable
(figura 7)6.

Figura 7

6
Esta analoga est inspirada en la pelcula doce hombres sin piedad, en la que un ju-
rado tiene que decidir por unanimidad sobre la inocencia (por falta de pruebas) o la culpa-
bilidad de un presunto culpable.

270
EL CONTRASTE DE MEDIAS

Siempre interesa tomar la decisin correcta, pero el error ms grave y que


se pretende minimizar es el error Tipo I; volviendo al contraste de medias es
preferible y ms seguro concluir la diferencia no est probada (aunque en la
realidad s se d la diferencia) que concluir la diferencia est probada cuan-
do realmente no existe esa diferencia. Con niveles de significacin ms estric-
tos (.01, .001) aumentan las probabilidades de cometer el error tipo II (en ge-
neral se estima que a = .05 es un nivel de significacin razonable). El error
objetivo Tipo II es ms fcil que suceda con muestras pequeas.

4.6. Observaciones sobre el contraste de medias: limitaciones y


requisitos previos
4.6.1. Presupuestos tericos para poder utilizar el contraste de
medias

El modelo terico que utilizamos en el contraste de medias supone deter-


minados presupuestos tericos como son la homogeneidad de varianzas en
las muestras y distribucin normal en la poblacin; sin embargo est sufi-
cientemente demostrado que las denominadas pruebas paramtricas (como
la t de Student y el anlisis de varianza) permiten rechazar la Hiptesis Nula
(hiptesis de no diferencia) cuando es falsa, aunque se violen los presupues-
tos del modelo terico, excepto cuando se dan a la vez estas circunstancias:
1 Muestras ms bien pequeas (a partir de N < 20 suelen considerarse
pequeas, aunque estos lmites son arbitrarios),
2 Muestras de tamao muy desigual (como cuando una muestra es tres
veces mayor que la otra),
3 Muestras con varianzas muy desiguales (algn autor pone el lmite de
que una varianza sea ms de 10 veces mayor que la otra con mues-
tras grandes las varianzas muy desiguales importan menos; aun as la
homogeneidad de varianzas es el presupuesto ms importante).
En estos casos al menos (cuando se dan simultneamente dos o tres de las
circunstancias mencionadas) son preferibles los mtodos no paramtricos
para datos ordinales (alternativas a la t de Student; la U de Mann-Whitney pa-
ra muestras independientes y la T de Wilcoxon para muestras relacionadas).
La homogeneidad de varianzas es el presupuesto ms importante; aun as
el que las varianzas sean distintas importa menos si las muestras son de idn-
tico o parecido tamao y en contrastes bilaterales (que son los habituales)7.
7
Cuando se hace un contraste de medias con el SPSS el programa verifica el presu-
puesto de la homogeneidad de varianzas, y da las probabilidades asumiendo y sin asumir la
igualdad de varianzas; en general las diferencias no son muy apreciables. Sobre estos su-
puestos previos y sobre el requisito de disponer de una unidad de intervalo pueden verse
ms citas y comentarios en Morales (2006, Cap. 1).

271
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Los modelos tericos suponen que las muestras son aleatorias (y por lo
tanto representativas de la poblacin) y esto no sucede con frecuencia por-
que se trata de grupos hechos, sin que los sujetos hayan sido escogidos alea-
toriamente de una poblacin mayor; en estos casos tenemos que pensar en la
poblacin que pueda estar representada por esas muestras concretas.

4.6.2. Es suficiente verificar si una diferencia es estadsticamente


significativa?

Podemos pensar que el limitarse a aceptar o rechazar la Hiptesis Nula


(de no diferencia) es poco informativo, porque la diferencia puede ser signifi-
cativa y pequea o no ser significativa por falta de sujetos o no ser significativa
y a la vez grande (frecuente con pocos sujetos) En buena medida as es, limi-
tarse a afirmar que una diferencia es (o no es) estadsticamente significativa es
poco e incompleto a pesar de la prctica ms habitual en investigacin, de ah
la necesidad de los clculos complementarios, sobre la magnitud de la diferen-
cias, que trataremos ms delante. Es aqu donde se pone ahora el nfasis.

4.6.3. Cuando tenemos ms de dos muestras en el mismo plantea-


miento: anlisis de varianza

Con las frmulas del contraste de medias (t de Student) podemos compa-


rar medias de dos en dos; pero cuando en el mismo planteamiento hay ms
de dos muestras tenemos que acudir a otros procedimientos (anlisis de va-
rianza). No se pueden comparar las diversas muestras de dos en dos porque
en este caso las probabilidades de error al rechazar la Hiptesis Nula son ms
de las que indican las tablas (como queda explicado al tratar del anlisis de va-
rianza; aqu basta con advertir que no se debe utilizar la t de Student cuando
hay ms de dos muestras)8.
8
Cuando tenemos slo dos grupos pero vamos a compararlos en muchas variables o
rasgos tambin puede suceder que algn contraste estadsticamente significativo realmen-
te se deba a factores aleatorios (la probabilidad de error es pequea, pero no podemos te-
ner una absoluta seguridad). En estos casos algunos autores recomiendan los llamados con-
trastes de Bonferroni (la publicacin de Carlo Emilio Bonferroni es de 1936), por eso no
sobra una nota aclaratoria. En estos contrastes se utiliza la misma t de Student pero con un
nivel de confianza ms estricto: se utiliza la probabilidad (p) que expresa nuestro nivel de
confianza dividida por el nmero de comparaciones previstas, as si nuestro nivel de con-
fianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza
.05/3 = .0167. Tambin si conocemos la probabilidad exacta (p) podemos multiplicarla por
el nmero de contrastes para ver si llega a .05 (as si tenemos tres contrastes y p = .0167
tendremos p = (.0167)(3) = .05). La crtica hecha a este contraste es que es muy conserva-
dor; tiene poca potencia para rechazar la Hiptesis Nula cuando realmente es falsa (por

272
EL CONTRASTE DE MEDIAS

4.7. Frmulas del contraste de medias9

La frmula bsica es la frmula [1] ya vista antes: una diferencia entre dos
medias dividida por el error tpico de las diferencias:

Nos falta conocer el valor del denominador ( es solamente un sm-


bolo).
La frmula general del denominador de la frmula [1] (error tpico de la
diferencia entre medias) es:

Como el error tpico de la media es siempre la frmula [2]


se puede expresar as:

Estamos suponiendo que habitualmente calculamos la s de la muestra di-


vidiendo por N-1; si la hubiramos calculado dividiendo por N, en los deno-
10
minadores tendramos N y no N-1 .

ejemplo y entre otros, Hancock y Klockars, 1996). Una crtica bien razonada a los ajustes de
Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by
epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, de-
leterious to sound statistical inference The main weakness is that the interpretation of
a finding depends on the number of other tests performed The likelihood of type II
errors is also increased, so that truly important differences are deemed non-significant
Bonferroni adjustments imply that a given comparison will be interpreted differently ac-
cording to how many other tests were performed. Tambin se proponen estos niveles de
confianza ms estrictos cuando tenemos muchos coeficientes de correlacin, pero la crti-
ca que puede hacerse es la misma
9
Podemos llevar a cabo un contraste de medias, sin necesidad de conocer las frmu-
las, con programas como EXCEL o SPSS, y tambin con los programas que podemos en-
contrar en Internet (anexo 4); sin embargo debemos entender qu estamos haciendo.
10
En los programas estadsticos (como el SPSS) lo normal es utilizar la desviacin tpi-
ca de la poblacin (dividiendo por N-1; con muestras relativamente grandes la diferencia
entre dividir por N o N-1 puede ser irrelevante).

273
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Es til conocer de dnde viene esta frmula [2] (o [3]; es la misma). La va-
rianza de un compuesto, por ejemplo la varianza de la suma de los tests 1 y 2,
no es igual a la varianza del test 1 ms la varianza del test 2, sino sta otra:

Podemos ver el parecido de esta expresin con el cuadrado de un bino-


mio (de eso se trata):

Si no se trata de un compuesto (o suma), sino de una diferencia, sabemos


que (a-b)2 =a2+b2 -2ab. ste es nuestro caso: no se trata del cuadrado de una
suma (a+b), sino del cuadrado de una diferencia (a-b), de ah el signo menos
en el denominador de las frmulas [2] y [3].
Lo que tenemos en esta frmula (del error tpico o desviacin tpica de las
diferencias entre medias de muestras de la misma poblacin) es la suma de
los dos errores tpicos de las medias menos dos veces su covarianza (recorde-
mos que r12s1s2 es la frmula de la covarianza).
Este denominador [2] no lo utilizaremos habitualmente. Si se trata de
muestras independientes (sujetos distintos) el valor de la correlacin que
aparece en la frmula es cero, con lo que el denominador queda muy simpli-
ficado. El denominador [2] es vlido cuando de trata de comparar medias de
muestras relacionadas (los mismos sujetos medidos antes y despus en el
caso ms frecuente), pero aun en este caso tenemos un procedimiento alter-
nativo ms sencillo en el que no tenemos que calcular la correlacin, como
veremos ms adelante.
En el apartado siguiente estn todas las frmulas necesarias para el con-
traste de medias. Aunque habitualmente utilicemos programas informticos
no siempre es as y en cualquier caso las frmulas nos ayudan a entender lo
que estamos haciendo.

4.7.1. Diferencia entre la media de una muestra y la media de una


poblacin

En este caso conocemos todos los datos de la muestra (nmero de suje-


tos, media y desviacin); de la poblacin conocemos solamente la media (que
puede ser una media hipottica, o deducida de otros estudios, etc.).

274
EL CONTRASTE DE MEDIAS

t = Valor de la t de Student (o z cuando se


utilizan muestras grandes); tambin se
utiliza el smbolo ms genrico de R.C.
(Razn Crtica); con muestras pequeas
El denominador es el error se utilizan las tablas de la t de Student
tpico de la media de la m = media de la poblacin

muestra X = (media) s (desviacin tpica) y N (nme-
ro de sujetos o tamao de la muestra)
son los datos de la muestra;

En el numerador de todas estas frmulas tenemos siempre una diferencia


entre medias menos cero; naturalmente este menos cero se puede omitir
porque no va a alterar el resultado, sin embargo es preferible ponerlo porque
recordamos lo que estamos haciendo: comparar una diferencia entre dos me-
dias con una diferencia media de cero.
Otra manera de abordar el mismo planteamiento es calcular los intervalos
de confianza de la media. Ya vimos en el captulo anterior (sobre el error t-
pico de la media, apartado 4.3) que a partir de los datos de una muestra po-
demos conocer entre qu lmites probables se encuentra la media de la po-
blacin representada por esa muestra. Si queremos comprobar si existe una
diferencia estadsticamente significativa entre la media de una muestra y la
media de una poblacin (m), nos basta calcular los intervalos de confianza de
la media de la muestra y ver si la media de la poblacin se encuentra com-
prendida entre esos intervalos.

4.7.2. Diferencia entre dos medias de muestras independientes


(sujetos fsicamente distintos)

1 Muestras grandes y de distinto tamao

Como en todas estas frmulas, si las des-


viaciones estn calculadas dividiendo por
N-1, ahora el denominador ser N.
Es prctica comn el considerar una mues-
tra grande cuando pasa de 30 sujetos aun-
que este criterio es un tanto arbitrario;
ms seguro es poner el lmite en torno a
los 50 sujetos, o considerar que la muestra
es pequea siempre que se puedan con-
sultar las tablas de la t de Student.

275
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

La interpretacin, cuando se trata de muestras grandes, se hace consultan-


do las tablas de la distribucin normal (o en programas de Internet, anexo 4),
con grados de libertad igual a N1+N2-2. Como por lo general los niveles de
confianza que utilizamos son .05, .01 y .001, no necesitamos acudir a las ta-
blas, pues ya conocemos los valores de referencia para muestras grandes:
Los valores de z utilizados habitualmente con muestras grandes son:
Si z es mayor que 1.96 2.57 3.30
La probabilidad de que la diferencia sea
aleatoria es inferior a .05 .01 .001

2 Muestras pequeas y de distinto tamao

Esta frmula puede utili-


zarse con muestras de
cualquier tamao;
La interpretacin se hace
consultando las tablas de la
t de Student, con grados
de libertad igual a N1+N2- 2

Cuando se van a hacer muchos contrastes de medias con el mismo par de


muestras, y por lo tanto los valores de N van a ser constantes, es ms cmo-
do y rpido transformar la frmula [6] en sta otra [7]:

De esta manera la primera parte del denominador se convierte en una


constante que basta calcular una sola vez.

3 Diferencia entre dos medias de muestras independientes (grandes o


pequeas) y de idntico tamao
Cuando las muestras son de idntico tamao (N = N) las frmulas anterio-
res quedan muy simplificadas (se trata de la frmula [5] simplificada porque
los denominadores son idnticos):

276
EL CONTRASTE DE MEDIAS

En este caso N1 = N2 = N, que es el nmero de


sujetos en cada grupo; los grados de libertad
son como en los casos anteriores: N1+ N2 -2
(nmero total de sujetos, restando un sujeto a
cada grupo).

Esta frmula es vlida tanto para muestras grandes como pequeas; con
muestras pequeas se consultan las tablas de la t de Student.

4.7.3. Diferencia entre medias de muestras relacionadas (compro-


bacin de un cambio)

Tenemos muestras relacionadas cuando los sujetos son los mismos, y de


cada sujeto tenemos dos datos en la misma variable; son dos muestras de da-
tos procedentes de los mismos sujetos. En la situacin ms frecuentemente
estos datos los obtenemos en la misma variable antes y despus de alguna ex-
periencia o proceso y se desea comprobar si ha habido un cambio11.
Cuando se dispone de una calculadora estadstica (con la media y la des-
viacin tpica programadas), lo ms sencillo es calcular para cada sujeto su
puntuacin diferencial (diferencia entre las dos puntuaciones, entre antes y
despus) y aplicar esta frmula:
El trmino muestras relacionadas (y las frmulas correspondientes) tam-
bin se aplica cuando tenemos sujetos distintos pero igualados en variables
importantes, tal como se estudia en el contexto de los diseos experimenta-
les; en estos caso tenemos una muestra de parejas de sujetos.

X D = Media de las diferencias,
s2D = Varianza de las diferencias,
N = nmero de sujetos o de pares de pun-
tuaciones; los grados de libertad son N-1.

Tambin se puede utilizar el denominador puesto en la frmula [2] o [3],


y as aparece en muchos textos, pero el utilizar la frmula [9] es un mtodo
ms claro y sencillo.

11
Aunque si no hay un grupo de control o de contraste (trmino de comparacin) es-
ta comprobacin de un cambio puede ser cuestionable; conviene estudiar cul debe ser el
diseo apropiado en estos casos. Otros mtodos para verificar un cambio los tenemos en
el captulo siguiente, la prueba de los signos (n 8.2.3) y la prueba de McNemar (n 10.2);
tambin tenemos la prueba no paramtrica de la T de Wilcoxon que no tratamos aqu.

277
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Podemos observar la semejanza de esta frmula [9] con la frmula [4]. En


realidad se trata del mismo planteamiento: comparar la media en cambio de
una muestra, con la media m = 0 de una poblacin que no hubiera cambiado
nada.
Los grados de libertad son N-1 o nmero de pares de observaciones me-
nos uno (es decir, N = nmero de sujetos, pues cada uno tiene dos puntua-
ciones). Con muestras grandes se consultan las tablas de la distribucin nor-
mal, y con muestras pequeas las de la t de Student.
Podemos ver la aplicacin de esta frmula [9] con un ejemplo ficticio.
Cuatro sujetos han respondido a una pregunta (respuestas de 1 a 6) antes y
despus de una experiencia.
Antes Despus Diferencia Utilizando la media y desvia-
cin en cambio (despus me-
2 4 4-2 = 2
nos antes) y aplicando la fr-
3 3 3-3 = 0
mula 12, tendremos:
4 5 5-4 = 1
5 6 6-5 = 1
Media 3.5 4.5 1.0
s 1.118 1.118 .707

La correlacin entre antes y despus es r = .80; si utilizamos el denomina-


dor de la frmula [3] tendramos:

El resultado es el mismo, pero es claro que en este caso (muestras rela-


cionadas) es preferible utilizar la frmula [9].

4.8. Variables que influyen en el valor de t (o z)

Los valores mximos y mnimos que solemos encontrar en las puntuacio-


nes tpicas (y en la t de Student que es una puntuacin tpica, la puntuacin
tpica de una diferencia) suelen oscilar (pueden ser mucho mayores) entre 3
y +3; lo que queda fuera de 1.96 lo consideramos ya atpico, poco proba-
ble (slo en el 5% de los casos se supera por azar un valor de 1.96).
Sin embargo al calcular la t de Student nos encontramos con frecuencia con
valores muy altos, sobre todo cuando el nmero de sujetos es muy grande.

278
EL CONTRASTE DE MEDIAS

Qu factores influyen en que encontremos una t de Student grande o


simplemente estadsticamente significativa?
Este punto es sencillo e importante porque nos facilita la interpretacin
de nuestros resultados e incluso proponer nuevas hiptesis

Observamos la frmula general [5] (para


muestras grandes e independientes y de
tamao distinto):

El cociente aumentar si aumenta el numerador (si la diferencia es gran-


de), pero tambin aumentar, aunque el numerador sea pequeo (diferencia
cuantitativamente pequea) si disminuye el denominador
Qu factores influyen en que disminuya el denominador y que por lo tan-
to el cociente sea mayor?
En el denominador tenemos otro quebrado:
a) El cociente disminuir si disminuye el numerador (la varianza de los
grupos).
A mayor homogeneidad en los grupos (menor varianza), la diferencia se-
r significativa con ms probabilidad. Esto es adems conceptualmente razo-
nable: no es lo mismo una diferencia determinada entre dos grupos muy he-
terogneos (mucha diversidad dentro de cada grupo) que entre dos grupos
muy uniformes Una diferencia entre las medias de dos grupos muy hetero-
gneos puede variar si tomamos otras dos muestras igualmente muy hetero-
gneas, pero si la diferencia procede de dos muestras con sujetos muy pare-
cidos, con pequeas diferencias entre s, hay ms seguridad en que se
mantenga la diferencia entre otros pares semejantes de grupos.

b) El cociente disminuir si aumenta el denominador del denominador,


que es el nmero de sujetos. Con muestras grandes es ms fcil encontrar di-
ferencias significativas.
Qu podemos decir sobre el hecho de que aumentando el nmero de suje-
tos encontramos fcilmente diferencias estadsticamente significativas? Que
con un nmero grande de sujetos podemos demostrar casi lo que queramos?
1 En parte s; con nmeros grandes encontramos con facilidad diferen-
cias significativas. Pero esto no tiene que sorprendernos porque de he-
cho hay muchas diferencias entre grupos que se detectan con ms faci-
lidad cuando los grupos son muy numerosos. En la vida real la
Hiptesis Nula (m1 = m2) suele ser falsa y cuando no la rechazamos sue-
le ser por falta de sujetos.

279
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

2 Estas diferencias significativas que descubrimos, sobre todo con mues-


tras grandes, son con frecuencia diferencias pequeas y a veces trivia-
les. Una diferencia estadsticamente significativa no es una diferencia
necesariamente grande o relevante.
3 Disponer de un nmero grande de sujetos es como mirar de cerca:
vemos incluso las cosas pequeas. Disponer de un nmero pequeo
de sujetos es como mirar de lejos: slo vemos las cosas grandes. Dife-
rencias grandes y obvias las descubrimos con pocos sujetos. Con mu-
chos sujetos (si miramos de cerca) descubrimos muchas diferencias
entre grupos que pueden no tener mayor importancia.
4 Una diferencia no significativa, sobre todo si es grande y con muestras
pequeas, puede ser importante en una situacin dada (aunque no se
pueda extrapolar, puede decir algo relevante de la situacin analizada
o permite establecer como hiptesis que con muestras mayores s po-
dramos encontrar una diferencia estadsticamente significativa).

Qu hacer entonces?
a) Por lo menos deberamos utilizar siempre las expresiones apropiadas y
no hablar simplemente de diferencias significativas, sino de diferen-
cias estadsticamente significativas. El adverbio estadsticamente ya
expresa los lmites de nuestras conclusiones. Tambin se debe evitar la
expresin diferencia muy significativa, porque ese muy invita a pen-
sar en diferencias grandes o relevantes: a mayor valor de z o t tenemos
ms seguridad, menos probabilidad de error al afirmar la diferencia
(que la diferencia no es cero), pero sin referencia directa a la magnitud
o a la relevancia de esa diferencia. Por otra parte esa mayor seguridad
es con frecuencia irrelevante pues ya ponemos el umbral de la seguri-
dad (nivel de confianza) suficientemente alto.
b) Muchas veces nos bastar con saber si hay o no hay una diferencia esta-
dsticamente significativa entre dos grupos, es decir, si difieren ms de
lo que podemos esperar casualmente entre muestras de la misma po-
blacin y podemos extrapolar el hecho de la diferencia (una diferencia
distinta de cero) a otros pares de muestras semejantes. Muchos plan-
teamientos de investigacin se quedan aqu (y por eso con frecuencia se
quedan cortos; no se aprovechan bien los datos disponibles).
c) Aun en estos casos un valor significativo de t (una diferencia estadsti-
camente significativa) no debemos asumirla ingenuamente como un
criterio de certeza. Tenemos que considerar a qu poblaciones pueden
representar esas muestras para no hacer extrapolaciones poco pruden-
tes; con frecuencia no son muestras aleatorias (porque se trata de gru-
pos hechos, son las muestras que estn disponibles). La interpretacin

280
EL CONTRASTE DE MEDIAS

mnima prudente es concluir que la diferencia entre estos dos grupos es


muy poco probable que se deba al azar.
d) Como criterio general no debemos limitarnos a comprobar si una dife-
rencia es o no es estadsticamente significativa. Es lo ms frecuente,
pero no es una buena prctica. Adems debemos buscar un dato ms
claro sobre cul es la magnitud de la diferencia, para poder interpre-
tarla y valorarla como grande, moderada, pequea y poder juzgar
mejor sobre su relevancia.
Para poder valorar la magnitud de la diferencia tenemos el clculo del tama-
o del efecto que nos cuantifica la magnitud de la diferencia en valores fcilmen-
te interpretables. Adems se expresa en unos valores que nos permiten compa-
rar unas diferencias con otras aunque provengan de instrumentos distintos y de
escalas mtricas distintas. Disponemos adems de criterios para valorar su mag-
nitud. Todo lo referido a la magnitud de la diferencia (tamao del efecto) lo ex-
ponemos en al apartado siguiente (n 6) sobre anlisis complementarios.

5. CONTRASTE ENTRE PROPORCIONES (MUESTRAS INDEPENDIENTES)

El contraste entre proporciones (o porcentajes multiplicando por 100) es


un caso particular del contraste entre medias; en este caso la media oscilar
entre 0 y 1.
Introducimos el contraste entre proporciones con un ejemplo. Dos gru-
pos distintos responden s o no a la misma pregunta:
Grupo A Grupo B uniendo ambos grupos
Responden s: 65 (81%) 52 (58%) 117 (69%)
Responden no 15 (19%) 38 (42%) 53 (31%)
Total de sujetos en cada grupo: 80 (100%) 90 (100%) 170 (100%)

La pregunta que nos hacemos es sta: la diferencia en responder s entre


estos dos grupos (entre el 81% del grupo A y el 58% del grupo B) Es mayor
de lo que podramos esperar por azar? Existe una diferencia estadsticamen-
te significativa entre los dos porcentajes?
Para comparar proporciones tanto entre muestras independientes como
entre muestras relacionadas, posiblemente el procedimiento ms utilizado es
la prueba del ji cuadrado12, que por otra parte es muy sencillo. Con ambos
procedimientos se llega a las mismas conclusiones. Tratando del contraste de
medias es oportuno ver tambin cmo se aplica al contraste de proporciones.

12
La prueba del ji cuadrado la tratamos en el captulo siguiente.

281
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Aunque los resultados los expresemos frecuentemente en porcentajes


(%), los clculos se hacen con proporciones. El procedimiento es anlogo al
del contraste de medias: dividimos una diferencia entre proporciones por el
error tpico de la diferencia entre dos proporciones, que est en el denomi-
nador de la frmula [10]. En rigor lo que tenemos en el numerador no es la
diferencia entre dos proporciones, sino la diferencia entre una diferencia (la
nuestra) y una diferencia de cero.
En la frmula [10] tenemos en el denominador el error tpico de la dife-
rencia entre dos proporciones13.

Y aplicando la frmula [10] a nuestros datos:

La probabilidad de que la diferencia sea aleatoria es casi del 1 por mil.

6. ANLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CMO CUANTIFICAR LA MAGNITUD


DE LA DIFERENCIA

6.1. Finalidad del tamao del efecto

Para obviar las limitaciones del mero contraste de medias, se ha ido impo-
niendo el clculo del denominado tamao del efecto (effect size en ingls).
13
En muchos textos la frmula aducida para el contraste de proporciones indepen-
dientes es la misma frmula vista para el contraste de medias (frmula [5]), con la salve-
dad de que se utiliza pq para expresar las varianzas de los dos grupos (p1q1 y p2q2 en vez de
esta frmula es correcta cuando p y q tienen valores parecidos; cuando los va-
lores de p o q son muy extremos, y siempre en general, la frmula preferible es la puesta
aqu (en Downie y Heath, 1971, puede verse una explicacin ms amplia); adems es uti-
lizando esta frmula cuando la equivalencia con el ji cuadrado (tablas 2x2) es exacta (z2 =
c2). Este contraste de proporciones y procedimientos alternativos (ji cuadrado) puede
verse tambin en el captulo IX.

282
EL CONTRASTE DE MEDIAS

La expresin es quizs poco afortunada; el trmino tamao ya expresa que se


trata de cuantificar una diferencia; del efecto se refiere al resultado de un tra-
tamiento experimental o consecuencia de una determinada variable indepen-
diente, pero estos trminos se utilizan tambin en los casos en los que hay un
simple contraste de medias, sin un diseo experimental propiamente dicho14.
Como ya hemos indicado anteriormente, al comparar dos medias nos ha-
cemos dos preguntas:
1 Podemos afirmar que la diferencia encontrada entre dos muestras es ex-
trapolable a las poblaciones representadas por esas muestras? A esta pre-
gunta respondemos con el contraste de medias habitual (t de Student).
2 Cules la magnitud de la diferencia? Grande, pequea? La magni-
tud nos servir adems para juzgar sobre la relevancia de la diferencia.

La informacin que nos da el tamao del efecto nos ayuda a responder a


esta segunda pregunta. Cuando se trata de una diferencia entre proporcio-
nes, las diferencias posibles oscilan entre 0 y 1; en este caso no hay mayor
problema tanto para apreciar la magnitud de la diferencia como para compa-
rar unas diferencias con otras, pero esta comparacin directa no es posible
cuando las escalas mtricas utilizadas son distintas.

6.2. Procedimientos en el clculo del tamao del efecto

Los procedimientos ms utilizados (hay otros) son dos (que a su vez admi-
ten variantes):
1 El clculo de coeficientes de correlacin (que como todo coeficiente
de correlacin cuantifican de 0 a 1 los resultados);
2 Una diferencia tipificada, que es lo que con ms propiedad, o al me-
nos ms habitualmente, se denomina tamao del efecto.

6.2.1. El coeficiente de correlacin biserial- puntual

Una manera de cuantificar la magnitud de la diferencia en trminos


ms interpretables consiste en convertir el valor de t en un coeficiente de co-
rrelacin biserial-puntual (rbp) en el que una variable es dicotmica (perte-

14
El clculo del tamao del efecto lo exige ya la poltica editorial de buenas revistas
(como Educational and Psychological Measurement, Thompson, 1996, y muchas otras
como Journal of Experimental Education y Journal of Applied Psychology, Hubbard y
Ryan, 2000; Huberty (2002) menciona 19 revistas en las que se exige presentar el tamao
del efecto) y figura en las orientaciones (guidelines) de la American Psychological Asso-
ciation (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs,
1999, American Psychological Association, 2001).

283
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

necer a uno u otro grupo, 1 0), y la otra variable es continua (la utilizada al
comparar las medias). Estos coeficientes son semejantes al coeficiente de co-
rrelacin de Pearson (r) y se interpretan de manera semejante; el trmino bi-
serial-puntual indica que una de las dos variables es dicotmica.
La conversin del valor de t en un coeficiente de correlacin se hace me-
diante esta frmula:

Si los grupos son de idntico tamao, tendramos el mismo resultado si


calculramos directamente la correlacin entre pertenecer a uno u otro gru-
po (1 0) y la puntuacin de cada sujeto en la variable dependiente (la que
hemos medido).
Podemos verlo con ejemplo sencillo: tenemos estas dos muestras de cua-
tro sujetos cada una y calculamos la t de Student para contrastar las medias:
grupo A grupo B Calculamos la t de Student:
9 5
9 9
7 6
8 6

X= 8.25 6.50
s = .83 1.5

Podemos pensar ahora en trminos de correlacin entre la variable que


hemos medido (X) y el pertenecer o no a uno de los grupos (Y): pertenecer
al grupo A = 1 y B (no pertenecer al grupo A) = 0

Disponemos los datos de la manera usual (dos columnas, x e y):


X Y
9 1
9 1
7 1
8 1
5 0
9 0
6 0
6 0

284
EL CONTRASTE DE MEDIAS

Si calculamos la correlacin (que denominamos biserial-puntual porque


una de las dos variables es dicotmica) tenemos que r = .585
Ahora calculamos el mismo coeficiente a partir del valor de t, frmula [11]:

; hemos llegado al mismo resultado

Un mismo valor de t va a equivaler a coeficientes de correlacin ms bajos


segn aumente el nmero de sujetos (aumentar el denominador y disminui-
r el cociente). Podemos verlo en este ejemplo (tabla 1) en que se mantiene
constante el valor de t (en todos los casos p < .01) y se van variando los gra-
dos de libertad (nmero de sujetos).
Tabla 1

N1 N2 gl t rbp r
20 20 38 3.60 .50 .25
50 50 98 3.60 .34 .12
100 100 198 3.60 .25 .06
500 500 998 3.60 .11 .01

A este coeficiente de correlacin tambin se le denomina genricamente


tamao del efecto, aunque la expresin tamao del efecto se suele reservar
para la diferencia tipificada que veremos despus. Algunos autores, para dis-
tinguir ambos clculos, denominan a esta correlacin magnitud del efecto.
La finalidad y utilidad de este coeficiente de correlacin es clara:
1 Es un dato sobre la magnitud y no sobre si una diferencia es simple-
mente estadsticamente significativa o no (si es o no es extrapolable a
la poblacin el hecho de una diferencia distinta de cero).
2 Dos valores de t obtenidos en pares de muestras de tamao distinto, o
en variables distintas, no son fcilmente comparables entre s; en cam-
bio esta conversin nos traduce el resultado (una diferencia) a trmi-
nos comparables y ms fcilmente interpretables. Los juicios sobre si
una diferencia es o no es relevante, de importancia prctica, etc., no
dependen solamente de que sea estadsticamente significativa (a veces
nos puede bastar con eso), sino tambin de que sea grande o peque-

285
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

a; incluso una diferencia no estadsticamente significativa puede ser


importante en una situacin dada si es grande.

Cuando nos planteamos un contraste de medias podemos plantearnos co-


mo anlisis alternativo el simple clculo de la correlacin entre la pertenencia
a un grupo u otro (1 0) y la variable dependiente; por lo que respecta a re-
chazar o no la Hiptesis Nula, las conclusiones van a ser las mismas.

6.2.2. Tamao del efecto (diferencia tipificada)

6.2.2.1. Concepto y frmula general


El clculo ms frecuente para cuantificar la diferencia entre dos medias y
apreciar mejor su magnitud lo tenemos expresado por la frmula general (ad-
mite variantes que veremos despus)15:

Tamao del efecto (muestras independientes): [12]

Los smbolos para expresar el tamao del efecto varan segn las frmulas
utilizadas para calcular la desviacin tpica del denominador; en la frmula [12]
utilizamos el smbolo d porque corresponde a una de las frmulas ms utiliza-
das (de Cohen). Con frecuencia se utiliza d como smbolo genrico del tamao
del efecto, pero hay otros smbolos que iremos viendo (como g y D) y que co-
rresponden a otras frmulas; a veces se utiliza ES (del ingls Effect Size).
Aunque la desviacin tpica del denominador se puede calcular de diver-
sas maneras (a partir de las desviaciones tpicas que ya conocemos en las
muestras) es en todo caso una estimacin de la desviacin tpica de la pobla-
cin comn a ambos grupos. Lo que es importante ahora es captar que el ta-
mao del efecto es una diferencia tipificada: una diferencia entre dos me-
dias dividida por una desviacin tpica. Viene a ser lo mismo que una
puntuacin tpica (z) (como podemos ver por la frmula [12]), por lo que su
interpretacin es sencilla y muy til.
Antes de ver las frmulas especficas de la desviacin tpica del denomina-
dor, es de especial inters entender las interpretaciones y usos del tamao
del efecto, que se derivan del hecho de que se puede interpretar como una

15
Una presentacin completa del tamao del efecto en Coe (2000) (en Internet); tam-
bin se encuentra ampliado en Morales (2007c, El tamao del efecto (effect size): anli-
sis complementarios al contraste de medias).

286
EL CONTRASTE DE MEDIAS

puntacin tpica (realmente es una diferencia expresada en desviaciones


tpicas).

6.2.2.2. Interpretacin y utilidad del tamao del efecto (diferencia tipificada)


Antes de exponer los diversos modos de hallar la desviacin tpica del de-
nominador podemos aclarar cmo se interpreta este tamao del efecto y
cul es su utilidad.

1 Comparacin de diferencias que provienen de medidas obtenidas con ins-


trumentos distintos
Lo que obtenemos mediante estas frmulas es una diferencia tipificada: nos
dice a cuntas desviaciones tpicas equivale la diferencia entre dos medias.
La primera consecuencia que se deriva de esta transformacin es que el
valor de este tamao o magnitud es independiente de las puntuaciones
originales; todas las diferencias quedan expresadas en el mismo sistema
de unidades y por lo tanto estos valores son comparables entre s aun
cuando vengan de estudios distintos e incluso aunque se hayan utilizado
instrumentos distintos. Es lo mismo que sucede con las puntuaciones tpi-
cas convencionales: vengan de donde vengan sus magnitudes son compa-
rables entre s.
Si, por ejemplo, hemos comparado dos grupos en autoestima utilizan-
do en una ocasin una escala con 4 respuestas, y en otra ocasin, con otros
dos grupos, hemos hecho la misma comparacin utilizando una escala con
6 respuestas o con otros tems, las diferencias entre las medias no son
comparables directamente entre s, pero s lo son las diferencias tipifica-
das. Si utilizamos mtodos distintos de aprendizaje con dos grupos y com-
paramos despus su rendimiento en dos asignaturas distintas, con tests
distintos, etc., las diferencias entre estos grupos no se pueden comparar
directamente entre s (puede haber incluso un nmero distinto de pregun-
tas en cada test), pero s podemos comparar los dos tamaos del efecto, y
comprobar en qu asignatura uno de los mtodos ha sido mejor que el
otro.

2 Sntesis cuantitativas de resultados que provienen de estudios distintos


Como todos los valores del tamao del efecto son comparables entre s,
de estos valores se puede calcular la media procedente de estudios diferen-
tes, para resumir todos los resultados en un nico dato. Este es el precisa-
mente el procedimiento utilizado en el meta-anlisis para integrar los resul-
tados de diversos estudios. La tcnica del meta-anlisis se utiliza para
establecer el estado de la cuestin en un determinado tema, integrando los

287
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

resultados de estudios mltiples, con un menor peligro de subjetivismo que


en las revisiones puramente cualitativas (que tampoco se excluyen).
Sin necesidad de hacer un meta-anlisis en sentido propio, cualquier in-
vestigador que haya hecho varios estudios comparando diversos pares de me-
dias en la misma variable, puede calcular la media de los tamaos del efecto
para presentar una sntesis de sus resultados. Tambin puede verificar qu ca-
ractersticas (por ejemplo de la situacin, de la muestra, etc.) estn asociadas
al tamao del efecto (calculando coeficientes de correlacin, o haciendo an-
lisis equivalentes, entre estas caractersticas y el tamao del efecto; cada estu-
dio o comparacin particular se convierte en el sujeto del nuevo anlisis).
Esta posible integracin de estudios o experimentos pequeos puede ser
de mucho inters. Cada estudio en particular puede ser poco conclusivo o te-
ner muchas limitaciones, o pueden tener resultados bastante distintos de
otros semejantes (diferencia grande en una ocasin, pequea en otra, etc.),
pero la posibilidad integrar todos los resultados revaloriza los pequeos estu-
dios o experimentos y los hace ms tiles16.

3 Valoracin de la relevancia y significacin prctica de las diferencias


Si suponemos que la distribucin es normal en la poblacin (y en princi-
pio podemos suponerlo), esta diferencia tipificada nos da una informacin
adicional que nos permite valorar mejor la relevancia de nuestros resultados.
El que una diferencia sea estadsticamente significativa puede no decir mu-
cho en trminos de relevancia; adems tampoco es fcil formular juicios so-
bre la magnitud de una diferencia observando solamente la diferencia en tr-
minos absolutos. Y sin una idea clara sobre la magnitud es difcil formular
juicios sobre relevancia prctica.
Para interpretar y valorar el tamao del efecto nos basta saber que en de-
finitiva se trata de una puntuacin tpica, su relacin con la distribucin nor-
mal nos es aqu muy til. Para interpretar el tamao del efecto buscamos en
las tablas de la distribucin normal (en el rea mayor) cuantos sujetos caen
por debajo de la puntuacin tpica que es igual a nuestro tamao del efecto.
Si, por ejemplo, obtenemos un tamao del efecto de d = 1 al comparar
dos medias, la diferencia entre las dos medias es de una desviacin tpica
(figura 8).

16
Una exposicin ms amplia sobre el origen del meta-anlisis y su utilidad puede ver-
se en Morales (1993).

288
EL CONTRASTE DE MEDIAS

Figura 8

a) La media del grupo con media mayor se aparta una desviacin tpi-
ca de la media del grupo con media ms pequea. La media ms pe-
quea es ahora igual a 0 y la media mayor es igual a 1 (se aparta 1s de
la otra media).
b) Segn las proporciones que nos indica la tabla de la distribucin nor-
mal, el sujeto medio del grupo con media mayor, supera al 84% de los
sujetos del grupo con media menor (con frecuencia el grupo de con-
trol). La misma puntuacin que en un grupo (el de media mayor) equi-
vale al Percentil 50, en el otro grupo (con media menor) corresponde
al Percentil 84: el mismo sujeto medio del grupo con media mayor su-
pera a un 34% ms de sujetos si lo incluimos en el grupo con media
ms baja.

Sobre cundo se puede considerar grande o pequeo un determinado valor


del tamao del efecto, suelen aceptarse estas orientaciones (Cohen, 1988)17:
d = .20 (pequeo),
d = .50 (moderado)
d = .80 (grande).

Estas orientaciones son un tanto arbitrarias aunque son muy aceptadas co-
mo razonables y citadas en la bibliografa experimental.

17
Otras valoraciones y su justificacin pueden verse en Lane, David (Rice University)
(2007) (en 18. Measuring Effect Size).

289
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Siguiendo las valoraciones de Cohen tenemos que (tabla 2):

Tabla 2

El sujeto medio del grupo con media mayor


Tamao del efecto supera en su propio supera en el grupo
grupo al con media inferior al
d = .20 50 % 58 % (diferencia pequea)
d = .50 50 % 69 % (diferencia moderada)
d = .80 50 % 79 % (diferencia grande)

La interpretacin basada en la distribucin normal es slo literalmente v-


lida si las distribuciones observadas en los dos grupos son normales; pero si
se apartan de la distribucin normal cabe hablar de aproximaciones; en cual-
quier caso se trata de un dato sobre la magnitud de la diferencia, una magni-
tud expresada en desviaciones tpicas y en el nmero de sujetos que caen por
debajo de esa puntuacin tpica.
La justificacin de estas valoraciones va en esta lnea:
a) Las diferencias pequeas (en torno a d = .20) pueden parecer muy
pequeas como referencia til y ciertamente su relevancia prctica
puede ser nula o escasa, pero estas pequeas diferencias pueden igual-
mente ser de inters en muchas situaciones: en reas nuevas de inves-
tigacin, en estudios meramente explorativos (para ver si merece la pe-
na continuar), cuando los diseos son muy modestos y no se
controlan bien otras variables, o cuando se utilizan instrumentos de
medicin muy limitados o en perodo de experimentacin, etc.; en es-
te tipo de situaciones podemos suponer que con mejores instrumen-
tos y diseos estas diferencias podran mayores18.
b) Por diferencias moderadas (en torno a d = .50) se entienden aqu aque-
llas diferencias entre grupos que pueden detectarse por simple observa-
cin o aquellas diferencias que la experiencia nos hace caer en la cuenta
de que efectivamente estn all (por ejemplo, un determinado tipo de
alumnos suele terminar mejor que los dems, etc.); traducidas estas dife-
rencias a coeficientes de correlacin, estos coeficientes pueden tener un
valor en torno a .25 .30.
18
Como nota el autor (Cohen, 1988), en la investigacin sobre personalidad, psicolo-
ga clnica, etc., es normal encontrar diferencias (o correlaciones) pequeas en parte por
los problemas de validez en los instrumentos utilizados y en buena parte tambin por la
complejidad de las situaciones, interaccin entre variables, etc. Cohen (1988) justifica bien
estas valoraciones que propone simplemente como orientadoras.

290
EL CONTRASTE DE MEDIAS

Convencionalmente suele considerarse un valor de d = .50 como de


significacin prctica (importante); cuando se trata de resultados
de rendimiento escolar o de investigacin educacional se conside-
ran de relevancia prctica valores en torno a .30 (Borg, Gall, y Gall,
1993; Valentine y Cooper, 2003).
c) El considerar una diferencia grande a partir de d = .80 puede parecer
poco a simple vista; es muy frecuente encontrar tamaos del efecto
mucho mayores. Lo que se tiene aqu en cuenta al valorar como gran-
de una magnitud que no lo es mucho en trminos absolutos, es que no
merece la pena limitarse a definir como grandes aquellas diferencias
tan obvias que prcticamente hacen intil el anlisis estadstico19.
Con frecuencia es ms informativo comparar unos valores con otros
cuando tenemos varios tamaos del efecto en una misma investigacin
o en el mismo planteamiento, o buscar como referencia qu valor suele
obtenerse en estudios similares. En cualquier caso el comprobar el per-
centil del sujeto medio del grupo con media mayor (en el que estara en
el percentil 50 en su propio grupo) cuando le situamos en el grupo con
media inferior nos permite apreciar mejor si la diferencia es importante.

4 El tamao del efecto cuando la diferencia no es estadsticamente


significativa
El proceso normal en un contraste de medias es 1 descartamos el azar
(verificamos si la diferencia es estadsticamente significativa) y 2 verifica-
mos la magnitud de la diferencia (tamao del efecto). Cuando el valor de t no
es estadsticamente significativo el tamao del efecto suele ser tambin muy
pequeo, pero no siempre es ste el caso, sobre todo con muestras peque-
as. Una diferencia grande calculada en muestras pequeas puede darnos un
valor de t que no es estadsticamente significativo, por esta razn merece la
pena calcular el tamao del efecto cuando la diferencia no es estadsticamen-
te significativa, sobre todo si se trata de muestras pequeas.
El que el valor de t no sea estadsticamente significativo quiere decir que la
diferencia no es extrapolable a las poblaciones representadas por esas dos mues-
tras, al menos con los sujetos disponibles, y no se puede presentar como un re-
sultado o conclusin segn el nivel de confianza especificado previamente, pe-
ro puede tener su importancia en una situacin concreta, en la que adems, si
contramos con ms sujetos, la diferencia sera probablemente estadsticamen-
te significativa; esto es algo que al menos se puede proponer como hiptesis.20

19
Cohen (1988) cita aqu un comentario de Tukey: el confirmar diferencias muy gran-
des y obvias con anlisis estadsticos equivale a una canonizacin estadstica.
20
Sobre si se debe o no calcular y exponer el tamao del efecto cuando la diferencia
no es estadsticamente significativa es algo discutido entre autores (Gliner, Leech y Mor-

291
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Un ejemplo real21:
Para evaluar la eficacia de una terapia familiar se comparan un grupo
experimental (N = 10) con un grupo de control (N = 11). El valor de t es
1.62, claramente no significativo; con estos datos no podemos afirmar que la
diferencia en las poblaciones sea distinta de cero. Con tan pocos sujetos (la
unidad de anlisis no es propiamente cada sujeto individual, sino cada fami-
lia) no es tan fcil obtener diferencias estadsticamente significativas, aunque
la diferencia est favor del grupo experimental (y de la eficacia de la terapia).
Encontramos sin embargo que el tamao del efecto (al comparar los dos
grupos en nivel de conflicto familiar despus de la terapia) es d = .69. Por
debajo de z = .69 cae el 75 % de los casos; esto quiere decir que la familia
media del grupo experimental supera en ausencia o disminucin de conflic-
tos al 75 % de las familias del grupo de control. Es una diferencia de tamao
moderado-alto que indica que algo positivo y de inters est sucediendo
aqu; es un buen resultado que se puede quizs confirmar con mayor segu-
ridad en estudios semejantes. Esta es una conclusin ms sensata que el limi-
tarse a enunciar sin ms que la diferencia no es estadsticamente significati-
va, no ha habido cambio, aceptamos la hiptesis nula, etc. Por otra parte la
mera diferencia entre las dos medias no nos dice nada de particular si no la
traducimos al tamao del efecto para apreciar mejor la magnitud de esa di-
ferencia. Una diferencia de magnitud apreciable (tal como lo vemos en el ta-
mao del efecto) pero que no es estadsticamente significativa nos permite al
menos proponer y justificar hiptesis para futuras investigaciones.

5 Tamao del efecto y tamao de la muestra


El tamao de la muestra suele plantearse cuando interesa extrapolar los
resultados a la poblacin con un margen de error pequeo o al menos tolera-
ble. Esto es lo que sucede con los sondeos de opinin de carcter sociolgi-
co, y de este punto hemos tratado brevemente a propsito del error tpico de
la media.
Frecuentemente no estamos interesados directamente en extrapolar
nuestros resultados a una poblacin grande, sino en detectar posibles dife-
rencias entre determinadas muestras; por ejemplo nos puede interesar veri-

gan, 2002). Las recomendaciones de la A.P.A. son sin embargo muy claras always report
effect sizes (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Af-
fairs, 1999); una razn para calcular el tamao del efecto, aunque la diferencia no sea esta-
dsticamente significativa, es adems que facilita el integrar los resultados de cualquier in-
vestigacin en un meta-anlisis.
21
Tomado de Olalla, Consuelo (1993), Relaciones familiares y su modificacin a tra-
vs de la terapia familiar sistmica. Tesis doctoral, Madrid, Universidad Pontificia Comillas.

292
EL CONTRASTE DE MEDIAS

ficar un cambio en funcin de un tratamiento, o verificar diferencias entre


grupos en planteamientos de evaluacin, etc. En estos casos el tamao de la
muestra depende (no solamente) de la magnitud de la diferencia que nos
interesa detectar.
Es importante captar la relacin entre tamao de la muestra y la magni-
tud de la diferencia en la que estamos interesados. Las diferencias grandes
se detectan con facilidad en muestras pequeas. Un ejemplo sencillo: para
comprobar si pigmeos y escandinavos difieren en altura no necesitamos
muestras grandes: la diferencia la veremos con muy pocos sujetos porque se
trata de una diferencia que se aprecia a simple vista. Para captar diferencias
pequeas y sutiles entre grupos, necesitaremos muestras mayores. Ya lo he-
mos indicado al tratar sobre las variables que influyen en el valor de t. Con
muestras grandes minimizamos la posibilidad de no ver diferencias cuando s
las hay, aunque sean pequeas.
En la prctica no solemos estar muy interesados en detectar diferencias
muy pequeas, por ejemplo un cambio pequeo en funcin de un mtodo o
tratamiento; en ese caso necesitaramos muchos sujetos. Si nos interesan so-
lamente diferencias (tamaos del efecto) grandes, necesitaremos menos su-
jetos, aunque dejaremos fuera la posibilidad de encontrar diferencias no muy
grandes, pero que pueden ser de inters. En la prctica podemos buscar un
punto de equilibrio y buscar el nmero de sujetos suficiente para encontrar
diferencias de magnitud moderada.
Como criterio orientador, en la tabla 3 tenemos el tamao de la muestra
necesario segn el tamao del efecto que estemos interesados en detectar, a
un nivel de confianza de a = .05 .01 (como es usual, un 5% de probabilida-
des de no equivocarnos al rechazar la hiptesis nula de no diferencia), y una
probabilidad del 80% de aceptar la hiptesis alterna cuando es verdadera22.

Tabla 3

nivel de d =.20 d = .30 d =.50 d = .70 d =.80 d =.1.0 d =1.20


confianza
.05 392 174 63 32 25 16 12
.01 586 260 93 48 36 23 18

22
Estas cifras (redondendolas) las tomamos de Cohen (1988). Una exposicin detalla-
da de las variables que influyen en el tamao de la muestra, incluido el tamao del efecto
deseado o previsto, y de las frmulas apropiadas para calcularlo pueden verse en otros
autores como Kirk (1995), Hinkle, Wiersma y Jurs (1998) y en otros autores.

293
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Si por ejemplo estamos interesados en detectar diferencias grandes (d =


.80) con un nivel de confianza de a = .05 (5% de probabilidades de no encon-
trarlas si las hay), nos bastan grupos de 25 sujetos; si nos interesa encontrar
diferencias aunque sean pequeas (como d = .30) nos harn falta muestras
mucho mayores (de unos 174 sujetos). Naturalmente de hecho podemos de-
tectar diferencias de estas magnitudes con muestras ms pequeas, pero tam-
bin nos exponemos a no verlas por falta de sujetos.

6.2.2.3. Frmulas del tamao del efecto: desviacin tpica del denominador
Vamos a distinguir cuatro posibilidades
1 Diferencia entre las medias de dos muestras independientes, cuando
no se trata de un diseo experimental (no hay un grupo de control
propiamente dicho).
2 Diferencia entre las medias de dos muestras relacionadas (diferencia
entre el pre-test y el post-test de la misma muestra).
3 Diferencia entre las medias de un grupo experimental y otro de control
(diseo experimental).
4 Diferencia entre las medias de un grupo experimental y otro de control
cuando los dos han tenido pre y post-test.

1 Dos muestras independientes


ste es el caso posiblemente ms frecuente. Tenemos dos maneras muy
parecidas de calcular la desviacin tpica combinada, la de Cohen (1977,
1988) y la de Hedges y Olkin (1985).
En la frmula del tamao del efecto de Cohen (smbolo d) se utilizan las
desviaciones tpicas de las muestras, dividiendo por N (aqu las simbolizamos
como sn).
En la frmula del tamao del efecto de Hedges (smbolo g) se utilizan las
desviaciones tpicas de la poblacin, dividiendo por N-1 (aqu las simboliza-
23
mos como sn-1) .

Cohen: d = donde [13]

Las desviaciones tpicas de la frmula [13] (Cohen) se calculan divi-


diendo por N (desviacin tpica de las muestras)

23
El smbolo g lo pone Hedges en homenaje a Gene Glass, autor importante en el
campo del meta-anlisis.

294
EL CONTRASTE DE MEDIAS

Hedges: g= donde [14]

Las desviaciones tpicas de la frmula [14] (Hedges) se calculan divi-


diendo por N-1 (estimacin de la desviacin tpica de las poblaciones)

Estas desviaciones tpicas del denominador del tamao del efecto no son
otra cosa que una combinacin de las desviaciones tpicas de las dos mues-
tras; por eso suelen denominarse desviacin tpica combinada (en ingls
pooled standard deviation). Podemos verlo fcilmente (en la frmula de Co-
hen se ve con ms facilidad): utilizamos ahora la varianza en vez de la desvia-
cin tpica para eliminar la raz cuadrada:

Sabemos que s2 = de donde

Para combinar dos desviaciones tpicas sumamos los dos numeradores y


los dos denominadores, que es lo que tenemos en las frmulas anteriores (en
el caso de la g de Hedges se utiliza N-1 en vez de N, como es usual cuando se
trata de la estimacin de la desviacin tpica de la poblacin).
Cuando N = N (muestras de idntico tamao) en ambos casos (frmulas
[13] y [14]) la desviacin tpica combinada es igual a la raz cuadrada de la me-
dia de las varianzas:

scombinada [15]

Podemos ver la diferencia entre las dos frmulas en un ejemplo concreto


(ficticio, tabla 3). Tenemos dos grupos (muestra A y muestra B) de cuatro su-
jetos cada una. Calculamos en cada muestra la media y las dos desviaciones t-
picas; para diferenciarlas utilizamos los subndices n (dividimos por N) y n-1
(dividimos por N-1).

295
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Tabla 3

Muestra A Muestra B
16 18
12 14
14 16
14 18
Media 14 16.5
sn 1.414 1.658
sn-1 1.633 1.915

En este caso la diferencia no es estadsticamente significativa (t =1.987,


p = .094) pero el tamao del efecto, calculado con cualquiera de las dos
frmulas, puede considerarse como grande; esto no es inusual en muestras
pequeas.
No podemos afirmar que ambas muestras procedan de poblaciones distin-
tas (no afirmamos una diferencia distinta de cero en la poblaciones) , pero
tampoco debemos ignorar la diferencia entre estos dos grupos de sujetos
concretos.
Vamos a calcular los dos tamaos del efecto (Cohen y Hedges):

Desviacin tpica combinada tamao del efecto

Cohen: s = d=

Hedges: s = g=

Es natural que el tamao del efecto sea mayor con la frmula de Cohen
porque el denominador es menor (las desviaciones tpicas de las muestras
son menores que las desviaciones tpicas estimadas en la poblacin).
Como en este ejemplo se trata de muestras de idntico tamao, podemos
utilizar la frmula [15] para calcular la desviacin tpica combinada:

296
EL CONTRASTE DE MEDIAS

Cohen: s =

Hedges: s =

De cualquiera de estas dos frmulas de la desviacin tpica combinada


([13] y [14]) podemos pasar a la otra:

sCohen = sHedges [16] sHedges =


[17]

Con los datos del ejemplo anterior:

sCohen = sHedges=

Lo habitual es combinar la desviacin tpica de dos grupos, pero tambin


pueden ser ms de dos grupos24.
Podemos utilizar cualquiera de las dos frmulas (Cohen y Hedges); posi-
blemente la de uso ms frecuente es la de Cohen [13], que se puede utilizar
rutinariamente.
Ya hemos visto (frmulas [16] y [17]) que de una desviacin tpica pode-
mos pasar a la otra (de la desviacin tpica de la muestra sn a la de la pobla-
cin sn-1 y viceversa); de manera anloga podemos pasar de un tamao del
efecto al otro (de d a g y de g a d). Ambas frmulas del tamao del efecto se
relacionan de esta manera (Rosenthal, 1994):

24
Si en el mismo planteamiento tenemos ms de dos grupos, como sucede en el an-
lisis de varianza, podemos calcular la magnitud del efecto (o diferencia tipificada) entre
cualesquiera dos grupos utilizando en el denominador la desviacin tpica combinada de
todos ellos. En el anlisis de varianza para muestras independientes los cuadrados me-
dios dentro de los grupos (el denominador de la razn F) es precisamente la combinacin
de las varianzas de los diversos grupos; esto se ve, naturalmente, al tratar del anlisis de va-
rianza, pero no sobra indicarlo aqu

297
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

[18] [19]

Las frmulas [18] y [19] son semejantes a las frmulas [16] y [17], substi-
tuyendo el valor de la desviacin tpica combinada por el tamao del efecto.

2 Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la


misma muestra)
Cuando se trata de muestras relacionadas, se utiliza en el denominador
la desviacin tpica del post-test; en estos casos se verifica la magnitud del
cambio:

[20]

Tambin es frecuente utilizar en el denominador la desviacin tpica com-


binada de antes y despus; en cualquier caso conviene indicar qu desviacin
tpica se ha utilizado.

3 Diferencia entre las medias de un grupo experimental y otro de control


(diseo experimental) sin pre-test
La frmula habitual (y con D, delta mayscula, como smbolo) es la pro-
puesta por Glass, McGaw y Smith (1981), en la que se utiliza la desviacin t-
pica del grupo de control (dividiendo por N -1):

[21]

a) La alternativa a utilizar en el denominador la desviacin tpica del gru-


po de control, es la desviacin tpica combinada de los dos o ms
grupos (frmulas [12] o [13]); sta es tambin una prctica muy co-
mn y autorizada.
b) El utilizar la desviacin tpica del grupo de control es ms recomenda-
ble cuando hay varios grupos experimentales con desviaciones tpicas
muy distintas, o cuando el grupo de control es muy grande.

298
EL CONTRASTE DE MEDIAS

4 Grupos experimental y de control cuando los dos han tenido pre y


post-test
Cuando tenemos dos grupos, experimental y de control, y los dos con pre
y post-test, hay varios procedimientos25 pero es aceptable utilizar la frmula
[13] o [14] con los datos del post-test, sobre todo si no hay diferencias impor-
tantes en el pre-test.

6.3. Transformaciones de unos valores en otros

Los valores de la t de Student, coeficiente de correlacin (r) y diferencia ti-


pificada (d o g) estn relacionados entre s, de manera que a partir de cual-
quiera de ellos podemos pasar a los otros. Estas transformaciones pueden ser
muy tiles.
Ya hemos visto antes cmo calcular el coeficiente de correlacin a partir
de la t de Student (frmula [11]), y cmo calcular el tamao del efecto de Co-
hen (d) a partir del tamao del efecto de Hedges (g) (y viceversa, frmulas
[16] y [17]).
Cuando se ha calculado previamente la t de Student se puede calcular di-
rectamente el tamao del efecto (d g), de la misma manera que del tama-
o del efecto podemos pasar a la t de Student:

[22] [23]

Si se trata del tamao del efecto g de Hedges (14], para calcularlo a partir
de la t de Student podemos distinguir cuando se trata de muestras de tamao
idntico o desigual26:
con muestras de idntico tamao con muestras de tamao desigual

[24] [25]

Tambin podemos pasar de la magnitud del efecto a un coeficiente de


correlacin.

25
Expuestos y discutidos en Glass, McGaw y Smith (1981).
26
Frmulas tomadas de Mahadevan (2000), pero es fcil encontrarlas en otros autores.

299
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

[26] [27]

En la frmula [27] p es igual a la proporcin de sujetos que corresponde a


uno de los dos grupos (n1/(n1+n2)) y q es igual a 1-p o la proporcin de suje-
tos en el otro grupo. Si los grupos son de idntico tamao tenemos que p =
q = .5 y 1/pq = 4, tal como aparece en la frmula [26].
Si se trata de convertir el valor de g (tamao del efecto de Hedges) en un
coeficiente de correlacin, la frmula propuesta es la [28] (Mahadevan, 2000):

[28]

Tambin podemos calcular el valor de d (tamao del efecto de Cohen) a


partir del coeficiente de correlacin.

[29]

Sobre estas conversiones de unos valores en otros:


a) Los resultados son los mismos solamente cuando el nmero de sujetos
en los dos grupos es idntico; en este caso da lo mismo calcular el ta-
mao del efecto con las frmula directas que calcularlos a partir de la t
de Student.
b) Cuando el nmero de sujetos es desigual, la frmulas del tamao del
efecto calculadas a partir de t dan slo una aproximacin, pero muy
cercana al valor exacto del tamao del efecto cuando los grupos no son
muy distintos en tamao, del orden del 40% en uno y el 60% en el otro
(Rosenthal, 1987).

Todas estas conversiones27 pueden ser tiles por estas razones:


a) A veces facilitan las operaciones; lo ms cmodo puede ser calcular el
valor del tamao del efecto a partir del valor de t (frmula [21]), sobre
todo cuando los tamaos de las muestras son iguales o muy parecidos.
27
Estas y otras conversiones pueden encontrarse en diversos autores, por ejemplo en
Rosenthal, 1987, 1991, 1994; Wolf, 1986; Hunter y Schmidt, 1990, Kirk, 1996, y otros.

300
EL CONTRASTE DE MEDIAS

b) Aunque prefiramos un enfoque determinado, el utilizar otro enfoque


puede ayudar a la interpretacin. Lo ms frecuente es calcular una dife-
rencia tipificada, pero el coeficiente de correlacin elevado al cuadrado
nos dice la proporcin de varianza debida a la variable experimental o
a pertenecer a un grupo o a otro y es tambin un dato de inters para
interpretar los resultados.
c) Puede interesar presentar con la misma mtrica resultados que pro-
vienen de diversos estudios en los que se han utilizado anlisis distin-
tos (t, r, etc.,). Esto es til para hacer comparaciones y para calcular
medias como resumen de los resultados de estudios distintos pero to-
dos expresados en trminos del tamao del efecto (es lo que se hace
en el meta-anlisis o integracin cuantitativa de los resultados de va-
rios estudios o experimentos, y que se utiliza sobre todo para exponer
el estado de la cuestin en un determinado tema).

6.4. Utilidad del tamao del efecto: resumen

El clculo del tamao del efecto es de especial utilidad por varias razones:
1 El tamao del efecto informa sobre la magnitud de la diferencia y no
sobre la probabilidad de que est dentro de lo aleatorio. Diferencias es-
tadsticamente significativas pueden ser muy pequeas y poco relevan-
tes. Aporta una informacin bsica para apreciar la relevancia de la di-
ferencia en una situacin dada, y esto incluso aunque la diferencia no
sea estadsticamente significativa.
2 Se utiliza una mtrica comn que permite presentar diversos resulta-
dos, obtenidos de maneras distintas, incluso con instrumentos distintos,
en pares de muestras distintos, con los mismos estadsticos, de manera
que las magnitudes de las diferencias sean comparables directamente.
3 Permite calcular la media de varios tamaos del efecto, procedentes
de estudios distintos, para presentar una sntesis cuantitativa (como
se hace en la tcnica del meta-anlisis, o sntesis integradoras de los
resultados de varios estudios) y dejar as ms claro el estado de la cues-
tin cuando disponemos de varias investigaciones sobre la misma va-
riable aunque haya sido medida con instrumentos distintos.

301
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

ANEXO 1: MODELO DEL CONTRASTE DE MEDIAS, RESUMEN

1 Preguntas que nos hacemos


1 Estas dos medias, Pertenecen a muestras de
la misma poblacin? O pertenecen a mues-
tras de poblaciones distintas que tienen dis-
tinta media? Estas tres preguntas son
2 La diferencia entre estas dos medias Es ma- equivalentes: lo que nos
yor de la que se puede esperar por puro preguntamos, de diversas
azar? Porque si la diferencia est dentro de lo maneras, es si las dos
normal, habr que concluir que ambas me- muestran pertenecen o
dias pertenecen a muestras de la misma po- no a la misma poblacin.
blacin; no habr que interpretar la diferen- Teora subyacente:
cia como una verdadera diferencia, ya que el distribucin muestral de
error muestral explica suficientemente esa las diferencias entre
diferencia. medias; error tpico de la
3 Esta diferencia entre dos medias, Se aparta distribucin muestral.
mucho, ms de lo normal de la diferencia
cero? Si no se aparta significativamente de la
diferencia cero habr que interpretarla como
una no diferencia entre las poblaciones.

2 Proceso para llegar a una respuesta


1 Calculamos una diferencia entre dos medias

(d = |X1 X2|);
2 Esta diferencia, en el caso de que las mues-
Teora subyacente:
tras pertenezcan a la misma poblacin, Es
relacin entre
probable o es improbable? (es decir es nor-
puntuaciones tpicas y
mal o rara, esperable o no esperable)
probabilidad de
Para comprobarlo debemos calcular en
ocurrencia en la
cuntas sigmas (aqu errores tpicos) se
distribucin normal.
aparta esa diferencia de la diferencia media
La media es 0 en este
de cero, que es la media de las diferencias
caso; sd es el error tpico
cuando las dos muestras pertenecen a la
(desviacin tpica) de la
misma poblacin y no hay ms diferencias
distribucin de las
que las casuales.
diferencias entre medias
Para comprobar si esta diferencia es normal de la misma poblacin.
calculamos su puntuacin tpica: z = (d - 0)/sd
que nos dir si la diferencia est dentro de lo
normal y probable

302
EL CONTRASTE DE MEDIAS

3 Interpretacin de la Razn crtica (z o t)


z (o t) grande z (o t) pequea
La diferencia es muy La diferencia est den-
improbable si ambas tro de lo normal y pro- El valor de z (o de t)
muestras pertenecen a bable si ambas muestras escogido como lmite
la misma poblacin. pertenecen a la misma entre lo probable e
poblacin. improbable depender
de nuestro nivel de
Luego es ms probable Luego es ms probable
confianza.
que las muestras proce- que las muestras proce-
dan de poblaciones dan de la misma pobla-
distintas. cin.

4 Conclusiones
1 Rechazo el azar 1 No rechazo el azar 1 se rechaza o no se re-
(error muestral) co- (error muestral) co- chaza la Hiptesis Nula
mo explicacin de la mo explicacin de la (o el azar como expli-
diferencia. diferencia cacin de la diferen-
2 Acepto que las 2 No acepto que las cia);
muestras pertene- muestras pertene- 2 consecuentemente se
cen a poblaciones cen a poblaciones acepta o no se acepta
distintas. distintas. la Hiptesis Alterna.

La Hiptesis Nula establece que si hay diferencia, sta se explica por el error
muestral (que podemos convencionalmente denominar azar). Un s o un no a la
Hiptesis Nula es lo nico que afirmamos (con una determinada probabilidad de
error; el s o el no no son absolutos) mediante el clculo de la t de Student (o z).
Aceptaremos la Hiptesis Alterna si rechazamos (no aceptamos) la Hiptesis Nu-
la, pero en este paso puede haber otras fuentes de error (un mal diseo, muestra
inadecuada, etc.). Tampoco concluimos si la diferencia es grande o pequea; sim-
plemente afirmamos que es muy improbable que esa diferencia sea cero en la po-
blacin. Para apreciar la magnitud de la diferencia calculamos el tamao del
efecto.

303
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

ANEXO 2: CONCEPTOS BSICOS DE ESTADSTICA INFERENCIAL


(REFERIDOS AL CONTRASTE DE MEDIAS PERO EXTRAPOLABLES A OTROS PLANTEA-
MIENTOS)

Diferencia estadsticamente significativa


La diferencia entre dos medias (o entre dos proporciones, etc.) es mayor de lo
que se puede esperar por azar, es mayor de lo que ocurre normalmente cuando
no hay ms diferencia que la puramente aleatoria, es una diferencia muy im-
probable cuando las muestras proceden de la misma poblacin: si hacemos la
misma comparacin entre muestras semejantes, la diferencia no ser cero.
Si probamos que una diferencia es estadsticamente significativa, no por eso
probamos que la diferencia es grande o importante.

Nivel de confianza:
Seguridad con que afirmamos que una diferencia es mayor de lo que se pue-
de esperar por azar;
El nivel de confianza se simboliza como ? y se establece antes de analizar los da-
tos; a = .05 significa que ponemos en un 5% las probabilidades de equivocarnos al
afirmar que hay diferencia entre dos medias (que la diferencia se aparta mucho de la
diferencia media de cero; que las muestras proceden de poblaciones distintas con
distinta media); a = .01 significa que ponemos el lmite en un 1% las probabilidades
de error al afirmar que dos medias difieren significativamente, etc. (la probabilidad
de que la diferencia sea aleatoria la expresamos as: p < .05, p < .01, p < .001; si las
probabilidades son mayores del 5%: p> .05).

Razn Crtica:
Es el valor de z (o de t de Student en muestras pequeas, las tablas son distin-
tas pero el concepto y la interpretacin son las mismas) que nos permite estable-
cer la probabilidad (simbolizada como p) de que una diferencia sea aleatoria;
en muestras grandes si z > 1.96 tendremos que p < .05
z > 2.57 tendremos que p < .01
z > 3.30 tendremos que p < .001

Hiptesis Nula:
Es la negacin de la hiptesis del investigador
Si mi hiptesis es: el mtodo A es mejor que el mtodo B,
la hiptesis nula ser el mtodo A no es mejor que el B

304
EL CONTRASTE DE MEDIAS

Aceptar la Hiptesis Nula = Diferencia no estadsticamente significativa


Diferencia dentro de lo aleatorio; se interpreta
como una no diferencia; en el sentido de que el
hecho de la diferencia no se puede extrapolar a la
poblacin; en comparaciones semejantes pode-
mos encontrarnos con una diferencia de cero
En sentido estricto no probamos que no hay dife-
rencia, (quizs con un N mayor se podra no
aceptar la Hiptesis Nula); simplemente fracasa-
mos en el intento de probar que s la hay.

Hiptesis Alterna:
Es la hiptesis del investigador, se acepta la Hiptesis Alterna (hay una diferen-
cia distinta de cero) si no se acepta la Hiptesis Nula (se excluye el azar o el error
muestral como explicacin de la diferencia)
Aceptar la Hiptesis = La diferencia es estadsticamente significativa;
Alterna

La diferencia es mayor de lo que se puede esperar por azar en caso de no di-


ferencia; se puede extrapolar a las poblaciones representadas por esas muestras;
la diferencia entre las medias de las poblaciones representadas por esas muestras
es distinta de cero
Las medias pertenecen a muestras que proceden de poblaciones distintas
con distinta media.

305
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

ANEXO 3: TABLAS DE LA T DE STUDENT

Grados de libertad:
Muestras independientes: N1 + N2 -2
Muestras relacionadas: N-1

(habitualmente utilizamos pruebas bilaterales, o bidireccionales o de dos


colas)

Grados de 0.05 0.025 0.005 0.0005 (1)


libertad: .10 .05 .01 .001 (2)
1 6.313752 12.70620 63.65674 636.6192
2 2.919986 4.30265 9.92484 31.5991
3 2.353363 3.18245 5.84091 12.9240
4 2.131847 2.77645 4.60409 8.6103
5 2.015048 2.57058 4.03214 6.8688

6 1.943180 2.44691 3.70743 5.9588


7 1.894579 2.36462 3.49948 5.4079
8 1.859548 2.30600 3.35539 5.0413
9 1.833113 2.26216 3.24984 4.7809
10 1.812461 2.22814 3.16927 4.5869

11 1.795885 2.20099 3.10581 4.4370


12 1.782288 2.17881 3.05454 4.3178
13 1.770933 2.16037 3.01228 4.2208
14 1.761310 2.14479 2.97684 4.1405
15 1.753050 2.13145 2.94671 4.0728

16 1.745884 2.11991 2.92078 4.0150


17 1.739607 2.10982 2.89823 3.9651
18 1.734064 2.10092 2.87844 3.9216
19 1.729133 2.09302 2.86093 3.8834
20 1.724718 2.08596 2.84534 3.8495

21 1.720743 2.07961 2.83136 3.8193


22 1.717144 2.07387 2.81876 3.7921
23 1.713872 2.06866 2.80734 3.7676
24 1.710882 2.06390 2.79694 3.7454
25 1.708141 2.05954 2.78744 3.7251

(1) Pruebas de una cola (unilaterales)


(2) Pruebas de dos colas (bilaterales)

306
EL CONTRASTE DE MEDIAS

Grados de 0.05 0.025 0.005 0.0005 (1)


libertad: .10 .05 .01 .001 (2)
26 1.705618 2.05553 2.77871 3.7066
27 1.703288 2.05183 2.77068 3.6896
28 1.701131 2.04841 2.76326 3.6739
29 1.699127 2.04523 2.75639 3.6594
30 1.697261 2.04227 2.75000 3.6460

1.644854 1.95996 2.57583 3.2905

Tablas adaptadas de STATSOFT, INC. (2002). Electronic Statistics Textbook. Tulsa,


OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html

ANEXO 4: EL CONTRASTE DE MEDIAS EN INTERNET

Entre otros muchos programas que se pueden localizar en Internet disponemos


de los siguientes:
I. Si lo que deseamos es solamente conocer si un valor de t es estadsticamente
significativo tenemos en Internet varios programas
1. SURFSTAT.AUSTRALIA: AN ONLINE TEXT IN INTRODUCTORY STATISTICS surfstat-main.
http://www.anu.edu.au/nceph/surfstat/surfstat-home/ (buscar Tables en el
men de la izquierda)
2. DEPARTMENT OF OBSTETRICS AND GYNAECOLOGY, THE CHINESE UNIVERSITY OF HONG
KONG http://department.obg.cuhk.edu.hk/index.asp?scr=1024 (buscar en
el men Statistics Tool Box escoger Statistical Tests y escoger Statistical Sig-
nificance).
3. INSTITUTE OF PHONETIC SCIENCES (IFA)AMSTERDAM (h http://fonsg3.let.
u v a . n l / W e l c o m e . h t m l) en el menu: D e m o s , t e s t s , e x p e r i m e n t s y
escoger Statistics) o directamente en The Student-t distribution
h t t p : / / f o n s g 3 . l e t . u v a . n l / S e r v i c e / S t a t i s t i c s / S t u d e n t - t _ d i s t r i b u-
tion.html
II. Para calcular la t de Student
1. Introduciendo o copiando todos los datos individuales
COLLEGE OF SAINT BENEDICT, SAINT JOHNS UNIVERSITY h t t p : / / w w w . p h y s i c s .
c s b s j u . e d u / s t a t s / t - t e s t . h t m l o Students t-Test, en h t t p : / / w w w . p h y -
s i c s . c s b s j u . e d u / s t a t s / (muestras independientes y relacionadas)
2. Introduciendo solamente la media, desviacin y nmero de sujetos de ca-
da grupo (muestras independientes y relacionadas
GENE V. GLASS h t t p : / / g l a s s . e d . a s u . e d u / s t a t s / o n l i n e . h t m (Delta
COE502, Intro to Quant Methods, h t t p : / / g l a s s . e d . a s u . e d u / s t a t s / i n -

307
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

dex.html , Online statistical calculators that can perform many


d i f f e r e n t a n a l y s e s .) (no calcula el tamao del efecto)
The Significance of the Difference Between Two Independent Sample Me-
ans introduciendo M, s y N) http://glass.ed.asu.edu/stats/analysis/
t2test.html
The Significance of the Difference Between Two Dependent Means using
the t-test (introduciendo N, M y s de las diferencias) http://glass.ed.
asu.edu/stats/analysis/tdtest.html
UNIVERSITT ULM-MEDIZINISCHE FAKULTT, SEKTION INFORMATIK IN DER PSYCHOTHE-
RAPIE (SOFTWARE UND WERKZEUGE) h t t p : / / s i p . m e d i z i n . u n i - u l m . d e / i n f o r -
m a t i k / p r o j e k t e / O d d s / e s t . h t m l (Calcula la t de Student y el tamao
del efecto).
3. Para todos estos casos tenemos tambin GRAPHPAD, FREE ONLINE CALCULATORS
FOR SCIENTISTS (h h t t p : / / g r a p h p a d . c o m / q u i c k c a l c s / i n d e x . c f m) t test Cal-
culator, h t t p : / / g r a p h p a d . c o m / q u i c k c a l c s / t t e s t 1 . c f m ? F o r m a t = 5 0
III. Tamao del efecto.
1. LEE A. BECKER, EFFECT SIZE CALCULATORS. h t t p : / / w e b . u c c s . e d u / l b e c k e r /
P s y 5 9 0 / e s c a l c 3 . h t m (consultado 25, 03, 08).
En muestras de idntico tamao calcula el tamao del efecto (de Cohen) y
el coeficiente de correlacin 1 a partir de los valores de las medias y de las
desviaciones tpicas, 2 a partir del valor de t y de los grados de libertad
(N+N-2). (For a discussion of these effect size measures see E f f e c t S i z e
L e c t u r e N o t e s)
2. COE, ROBERT (2000) Effect Size Resources (Durham University, Cem Centre)
http://www.cemcentre.org/RenderPage.asp?LinkID=30310000
(revisado 1, Enero, 2007)
3. MILLS, MICHAEL E. (Loyola Marymount University, Los Angeles), http://myweb.
lmu.edu/mmills/, en el ndice de la izquierda Software y effect size calcula-
tion (consultado 25, 03, 08).

308
CAPTULO 9
ANLISIS DE VARIABLES NOMINALES:
LA PRUEBA DE JI CUADRADO (c2),
LA DISTRIBUCIN BINOMIAL,
EL CONTRASTE DE PROPORCIONES

1. PLANTEAMIENTO GENERAL

Tenemos variables nominales o categricas cuando el dato disponible de


los sujetos es a qu categora de clasificacin pertenecen, como vamos a ver
en numerosos ejemplos. No disponemos de una puntuacin individual en
sentido propio; los datos son simplemente categoras de clasificacin y fre-
cuencias en cada categora. Aunque habitualmente hablamos de sujetos, pue-
de tratarse tambin de sucesos, objetos, etc.
La prueba del ji cuadrado1 (con su propia distribucin y sus propias tablas)
nos va a servir para analizar este tipo de datos, y va ser el mtodo central en es-
ta exposicin porque es vlido para todas las situaciones que vamos a presentar.
El ji cuadrado y sus variantes metodolgicas (como la prueba exacta de
Fisher y el test de McNemar) no es por otra parte el nico mtodo de anli-
sis cuando tenemos a los sujetos clasificados en categoras; segn el plantea-
miento que tengamos disponemos tambin de otras alternativas de anlisis,
como son las aplicaciones de:
a) La distribucin binomial
b) El contraste de proporciones

1
En ingls chi square y a veces en espaol el anglicismo chi cuadrado; la letra grie-
ga utilizada como smbolo es c que se pronuncia como la jota espaola.

309
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Con frecuencia estos anlisis son una alternativa ms sencilla al ji cuadra-


do. En vez de ver por separado estos mtodos (como es usual) los expondre-
mos cuando sean aplicables, ya que con frecuencia los mismos datos se pue-
den analizar de diversas maneras con resultados idnticos o equivalentes y que
llevan a las mismas conclusiones. De esta manera se facilita el que cada uno es-
coja el mtodo que prefiera, y no se ven en contextos distintos mtodos de
anlisis que son vlidos en las mismas situaciones y con los mismos datos.
La presentacin que hacemos es por lo tanto por situaciones o modos de
organizar los datos, y no por mtodos de anlisis.
Las situaciones son sujetos clasificados en categoras de diversas maneras
y cada situacin est representada por un tipo de cuadro o tabla que permite
visualizar dnde encajan nuestros datos y nuestras preguntas. Los cuadros de
doble entrada, con dos criterios de clasificacin, se denominan tambin ta-
blas de contingencia.
Podemos distinguir los cuatro modelos bsicos puestos en la figura 1. Aun-
que iremos poniendo numerosos ejemplos ms adelante, es til ver desde el
comienzo los diversos tipos o modelos de cuadros o tablas porque van cen-
trando la atencin en las posibilidades que tenemos para analizar este tipo de
datos. Estas tablas de la figura 1 representan las distintas posibilidades.
Todas las denominadas preguntas bsicas puestas en la figura 1 podemos
hacerlas preguntando por una diferencia (difieren los grupos A y B en sus
preferencias, en sus respuestas, etc.?) o preguntando por una relacin (tie-
ne que ver el pertenecer al grupo A o B con escoger una u otra opcin?).

Figura 1

310
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Mediante la prueba estadstica del ji cuadrado podemos abordar todos es-


tos planteamientos, para detectar diferencias y relaciones, por eso centra-
mos el anlisis de los datos nominales en la prueba del ji cuadrado.
Como ya hemos indicado, en algunos casos, no en todos, hay otros mto-
dos de anlisis, como la aplicacin directa de la distribucin binomial y el
contraste de proporciones, que son equivalentes y los iremos introduciendo
en cada caso como alternativas de anlisis. Adems, aunque hay una frmu-
la general del ji cuadrado aplicable en todos los casos, algunas situaciones re-
presentadas en estos cuadros admiten frmulas ms sencillas.
Para visualizar mejor los procedimientos que vamos a ver, podemos repe-
tir los cuadros o tablas con los modos habituales de presentar los datos (tal
como estn en la figura 1), indicando los modos de anlisis aplicables en cada
caso (figura 2) aunque no siempre son intercambiables.

Figura 2

Con el ji cuadrado y sus variantes metodolgicas podemos analizar todos


estos planteamientos aunque en algunos casos disponemos de otras alterna-
tivas equivalentes, como el contraste entre proporciones.
En realidad lo que nos dice el ji cuadrado es si los sujetos que observa-
mos en cada celda son los que veramos si no hubiera diferencias ni relacio-
nes entre los criterios de clasificacin. Al ji cuadrado se le denomina por es-
ta razn prueba de independencia (o lo contrario, de asociacin), porque
verificamos si los criterios de clasificacin son independientes.
La prueba del ji cuadrado nos va a decir si lo que observamos:
a) Est dentro de lo normal y probable; en ese caso afirmaremos que no
hay diferencia ni relacin (aceptamos la Hiptesis Nula dicho en otros
trminos; aceptamos que los resultados estn dentro de lo normal y
aleatorio).
b) Es atpico y poco normal en el caso de no diferencia o relacin; en es-
te caso s afirmaremos que hay relacin entre los criterios de clasifica-
cin o que los grupos son distintos (no aceptamos la Hiptesis Nula).

311
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Se trata en definitiva de verificar la probabilidad de que ocurra casual-


mente lo que nos hemos encontrado en el caso de que no hubiera ni diferen-
cias ni relaciones en la poblacin representada por esos datos. De la misma
manera que hay una distribucin normal que ya hemos aplicado en otros ca-
sos (medias, diferencias entre medias), hay otra distribucin normal para es-
tos planteamientos2.
Como en otros casos semejantes procedemos de esta manera:
1 Calculamos un valor (en este caso denominado ji cuadrado)
2 Consultamos una tablas para comprobar si ese valor es probable o im-
probable
3 Tambin, y como sucede en el contraste de medias, despus de verifi-
car si un valor de ji cuadrado es significativo (poco probable si no hay
relacin o diferencia), podemos cuantificar el grado de relacin me-
diante una serie de coeficientes para poder apreciar si la relacin es
grande o pequea e interpretar mejor los resultados.

2. QU COMPROBAMOS MEDIANTE EL c2

Vamos a centrar la explicacin del c2 en uno de los casos ms sencillos y


frecuentes, cuando tenemos a los sujetos clasificados en dos categoras de
clasificacin y cada categora tiene dos niveles o subcategoras.
Qu comprobamos mediante el c2 podemos verlo de manera intuitiva.
Por ejemplo clasificamos a un grupo de sujetos segn la variable sexo (ser
hombre o ser mujer) y segn sus respuestas (s o no) a una pregunta que es
la otra categora de clasificacin.

hombre mujer totales

60 30
S (75%) (25%) 90

20 90
No (25%) (75%) 110

total 80 (100%) 120 (100%) 200

2
Es la distribucin multinomial denominada de ji cuadrado y que se la debemos a
Karl Pearson, a quien ya conocemos a propsito del coeficiente de correlacin r de Pearson.

312
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Preguntas que nos hacemos:


Tiene que ver el sexo con el responder s o no a esa pregunta? Existe aso-
ciacin entre estas dos variables o criterios de clasificacin?
Tambin podemos preguntarnos lo mismo de esta forma: Son distintos
hombres y mujeres en sus respuestas a esa pregunta?

A primera vista podramos responder a estas preguntas que s hay relacin


entre la pregunta y el sexo: el 75% de los hombres dice que s frente a slo un
25% de las mujeres.
Para entender lo que nos dice el c2 lo ms sencillo es situarnos ante dos
posibilidades extremas cuya interpretacin no dejara lugar a dudas:

Posibilidad A Posibilidad B
hombre mujer totales hombre mujer totales

40 60 80
S 100 S 0 100
(50%) (50%) (100%)

40 60 120
No 100 No 0 100
(50%) (50%) (100%)

totales 80 120 200 totales 80 120 200


(100%) (100%) (100%) (100%)

En cada grupo la mitad dice que s Todos los hombres dicen que s y
y la otra mitad dice que no: todas las mujeres dicen que no:
Es la distribucin ms probable Es la distribucin menos probable
en el caso de no asociacin. El sexo en el caso de no asociacin. El sexo
no tiene nada que ver con el conte- s parece que tiene que ver con el
nido de la pregunta. contenido de la pregunta.
El valor de c2 que obtengamos se- El valor de c2 que obtengamos se-
r bajo, como de manera anloga un r alto, como de manera anloga un
valor bajo de la t de Student nos indi- valor alto de la t de Student nos indi-
ca una diferencia normal y probable. ca una diferencia mayor de lo normal.

En este caso: En este caso:


Hiptesis Nula aceptada; es Hiptesis Nula no aceptada
una distribucin probable cuando las (no aceptamos el azar); es la distri-

313
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

dos variables son independientes; bucin menos probable cuando las


cuando una variable no tiene que ver dos variables son independientes; es
con la otra (en este ejemplo: cuando una distribucin fuera de lo normal
no hay relacin entre el sexo y la res- (en el caso en que el sexo y el respon-
puesta a la pregunta). der s o no no tuvieran nada que ver).
Las frecuencias observadas (las co- Las frecuencias observadas (las
dificadas) no se apartan mucho de las codificadas) se apartan mucho de las
frecuencias tericas, las frecuencias
frecuencias tericas, que son las ms
observadas son poco probables en
probables en caso de no asociacin.
caso de no asociacin.
Hiptesis Alterna no acepta- Hiptesis Alterna aceptada; el
da; el ser hombre o mujer no tiene sexo s tiene que ver con las respues-
que ver con cmo se responde a esa tas a esa pregunta.
pregunta.

El ji cuadrado se utiliza con dos tipos de hiptesis que se denominan as:


a) Pruebas de independencia, cuando hay dos criterios de clasificacin
(como en los ejemplos anteriores, con cuadros de doble entrada sub-
divididos en dos o ms niveles);
b) Pruebas de bondad de ajuste, cuando tenemos un solo criterio de cla-
sificacin (como cuando tenemos un grupo de sujetos, o de objetos,
subdividido en varias categoras).

3. FRECUENCIAS OBSERVADAS (O EMPRICAS) Y FRECUENCIAS TERICAS (O ESPERADAS)

En todos los casos es importante la distincin entre dos tipos de frecuen-


cias (o nmero de casos) porque en definitiva lo que hacemos mediante el ji
cuadrado es comparar estos dos tipos de frecuencias.
a) Frecuencias observadas (tambin denominadas empricas), que son
las que observamos y anotamos,
b) Frecuencias tericas (tambin denominadas esperadas), que son las
ms probables (y ciertamente las ms claras) en el caso de no relacin
o no diferencia.3

3
Posiblemente los trminos ms claros son frecuencias observadas (ms claro que
frecuencias empricas) y frecuencias esperadas (ms claro que tericas). Aqu utiliza-
mos los trminos frecuencias observadas y frecuencias tericas simplemente porque los
smbolos (fo y ft) no se prestan a confusin (fe podra ser tanto frecuencia emprica co-
mo esperada).

314
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

En los casos como los que nos han servido de ejemplo (tablas 2x2 o mayo-
res) se trata de pruebas de independencia, y lo que comprobamos se puede
formular de dos maneras y es til verlo as:
1 Si existe relacin o asociacin entre las dos variables que han servido
de criterio de clasificacin;
2 Si dos o ms grupos (la pertenencia a un grupo es un criterio de clasi-
ficacin) difieren en el otro criterio de clasificacin (en realidad se tra-
ta del mismo planteamiento).

En cualquier caso lo que comprobamos es si las frecuencias observadas


(representadas en el apartado anterior como posibilidad B) se apartan signifi-
cativamente de las frecuencias tericas o esperadas en el caso de no relacin
o no diferencia (representadas en el apartado anterior como posibilidad A).
El c2 lo que nos dice es si las frecuencias observadas estn dentro de lo
probable en el caso de no asociacin. A mayor valor de c2 corresponde una
menor probabilidad, por eso con un valor grande de c2 diremos que ese re-
sultado es muy improbable si no hubiera relacin, y por lo tanto decimos
que s la hay.
Para expresarlo en trminos muy simples. En el apartado anterior hemos
visto dos posibilidades extremas A y B. Esos resultados hipotticos son muy
claros, pero tan claros es difcil que los encontremos. El valor de c2 nos viene
a decir lo siguiente:
a) Un valor de c2 pequeo nos dice que nuestros resultados podemos
equipararlos a la posibilidad A (no hay relacin); las frecuencias que
observamos se parecen mucho a las tericas o esperadas, a las que ten-
dramos en caso de no asociacin o no diferencia).
b) Un valor de c2 grande nos dice que nuestros resultados podemos in-
terpretarlos como la posibilidad B (s hay relacin), las frecuencias
que observamos se apartan mucho de las tericas o esperadas, las que
tendramos en caso de no asociacin o no diferencia.

4. CONDICIONES PARA UTILIZAR EL c2

1 Se trata siempre de observaciones independientes: al clasificar los su-


jetos (u objetos) en cada casilla debe haber sujetos distintos; no pue-
de haber sujetos repetidos en ms de una casilla. Esta condicin es
esencial; en ningn caso debe haber sujetos clasificados en ms de un
lugar.
2 La segunda condicin es ahora muy discutida: que las frecuencias te-
ricas o esperadas en cada casilla de clasificacin no sean inferiores a 5.

315
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Recordamos que las frecuencias tericas o esperadas son las que ha-
bra (o las ms probables) en el caso de que no hubiera relacin entre
las variables (o diferencias entre los grupos clasificados). Es tolerable
que un 20% de las casillas tengan una frecuencia terica inferior a 5, pe-
ro no deben ser muy inferiores. Cuando las frecuencias tericas (ya ve-
remos cmo se calculan) son muy pocas, se pueden juntar columnas o
filas adyacentes (si hay ms de dos) en una sola categora, con tal de
que tenga sentido lgico el hacerlo. Adems con muestras muy peque-
as (N<20) y en tablas 2x2 tenemos como alternativa la prueba exac-
ta de Fisher mencionada ms adelante.

Esta segunda condicin (necesidad de un nmero mnimo de frecuencias


tericas) la discuten ahora bastantes autores y se puede no tener en cuenta
(lo veremos ms adelante a propsito de la correccin de Yates); s conviene
mencionarla porque responde a una prctica muy generalizada y figura en
muchos textos.

5. CLCULO DE LAS FRECUENCIAS TERICAS

El clculo de las frecuencias tericas es necesario porque estas frecuencias


entran en la frmula bsica del ji cuadrado, adems con un nmero de suje-
tos muy pequeo (N < 25, como criterio ms bien liberal) si hay frecuencias
tericas inferiores a 5 ya hemos visto que el uso del ji cuadrado es discutible.
Al calcular las frecuencias tericas (o esperadas) conviene dejar al menos
tres decimales.

a) Cuando tenemos un solo criterio de clasificacin dividido en varias


categoras

El clculo de las frecuencias tericas es sencillo:

nmero total de sujetos N


frecuencias tericas en cada casilla: (=)
nmero de clasificaciones k

Por ejemplo tenemos un grupo de 300 sujetos clasificados en una catego-


ra (preferencia por un color) dividida en tres niveles (tres colores: verde,
azul y rojo que pueden ser los colores del envase de un producto comercial;
tabla 2).

316
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Tabla 2

prefieren Verde Azul Rojo total


el color 160 100 40 300

Estas son las frecuencias observadas, Cules seran las frecuencias teri-
cas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 su-
jetos se repartiran por igual, y cada color tocara a 100 sujetos; las frecuen-
cias tericas son por lo tanto 300/3 = 100.
Estas frecuencias tericas o esperadas podran ser otras distintas en otras
hiptesis; en definitiva lo que hacemos es comprobar si las frecuencias obser-
vadas se ajustan a las esperadas, por esta razn tambin se denomina a esta
comprobacin prueba de bondad de ajuste, porque comprobamos si nues-
tra distribucin se ajusta a un modelo terico.

b) Cuando hay dos criterios de clasificacin (cuadros de doble entrada)

Las frecuencias tericas de cada casilla son iguales al producto de las su-
mas marginales dividido por el nmero total de sujetos. En el caso de dos
categoras con dos niveles de clasificacin (podran ser ms) tendramos
(tabla 3):

Tabla 3

De dnde viene esta frmula para calcular las frecuencias tericas?; en las
frecuencias tericas hacemos un reparto proporcional de las frecuencias
observadas en la hiptesis de no diferencia o relacin. Es un sencilla regla de
tres si nos fijamos en el cuadro anterior:

317
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Si de un total de N sujetos .............................. responden s (a+b)


De un total de (a+c) sujetos .............................. respondern s X sujetos
(a + b) (a + c)
Por lo tanto X ( frecuencias tericas de a): .... =
N

Es decir, multiplicamos las dos frecuencias marginales y dividimos el pro-


ducto por el N total. Cuando solamente hay cuatro casillas (tabla 2x2 como
en este ejemplo) lo nico que nos puede interesar saber es si todas las fre-
cuencias tericas son superiores a 5; ya que es recomendable que las fre-
cuencias tericas no sean muy pequeas; para esto basta empezar calculan-
do la frecuencia terica ms pequea, y si es superior a 5 ya no hay que
hacer ms clculos.
Para calcular la frecuencia terica ms pequea y comprobar que es igual
o superior a 5:

Si nos da un valor igual o superior a 5 ya no hay por qu seguir calculan-


do frecuencias tericas a no ser que sean necesarias para calcular el valor de
c2 (y no son necesarias en cuadros con cuatro casillas, 2x2, porque admiten
una frmula ms sencilla).
Es importante caer en la cuenta de que la suma de las frecuencias obser-
vadas debe ser igual a la suma de las frecuencias tericas: se trata del mis-
mo nmero de sujetos (u objetos) repartidos con dos criterios: lo que obser-
vamos y lo que observaramos en el caso de no diferencia. Estas dos sumas
(de todas las frecuencias observadas y de todas las frecuencias tericas) con
frecuencia no son idnticas porque redondeamos los decimales o no utiliza-
mos todos, pero deben ser muy parecidas.

6. GRADOS DE LIBERTAD

Los grados de libertad son necesarios para consultar las tablas de la dis-
tribucin de c2.
Recordamos el concepto de grados de libertad: el nmero de valores que
pueden variar libremente manteniendo o imponiendo previamente unas de-
terminadas restricciones a los datos. Dicho de una manera ms sencilla y apli-
cable a este caso y a otros muchos: los grados de libertad son igual al nmero
de valores o datos que pueden variar libremente dado un determinado resul-

318
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

tado (o resultados). El concepto se entender mejor al ver cules son los gra-
dos de libertad precisamente en el ji cuadrado.
En los planteamientos ms frecuentes (no son los nicos) se calculan de
este modo:

a) Cuando hay un solo criterio de clasificacin

Grados de libertad = k -1 (nmero de categoras menos una)


En el ejemplo anterior en el que 300 sujetos estn clasificados segn elijan
A, B C (tres categoras de clasificacin) los grados de libertad sern 3-1 = 2.
Si partimos de un total de 300 sujetos divididos en tres categoras, en dos
de ellas podemos poner cualquier nmero (sus frecuencias pueden variar li-
bremente) pero en la tercera ya no hay libertad para poner cualquier valor:
habr que poner lo que nos falte para llegar a 300.

b) Cuando hay dos criterios de clasificacin

Es decir, tenemos varias columnas y varias filas:


Grados de libertad = (f -1)(c -1)
(nmero de filas menos una) por (nmero de columnas menos una).

En el primer ejemplo que hemos puesto (cuadro 2x2): dos columnas


(hombre/mujer) y dos filas (s/no), los grados de libertad sern (2-1)(2-1) = 1.
En este caso partimos de los totales marginales como datos fijos y previos,
stas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, pode-
mos variar libremente solamente la frecuencia (nmero) de una de las casi-
llas: las dems vendrn forzadas para mantener los totales marginales (si par-
timos de que a + b = 90, uno de los dos, a b, pueden variar libremente,
pero el otro valor debe ser necesariamente lo que falte para llegar a 90).

7. FRMULA GENERAL DEL JI CUADRADO4

Hay una frmula general aplicable a todos los planteamientos del ji cuadra-
do, pero hay tambin frmulas ms sencillas para planteamientos particulares,
que son por otra parte los ms frecuentes y de interpretacin ms sencilla.
Ponemos en primer lugar la frmula general de c2, aplicable en todos los
casos:

4
El ji cuadrado en todas sus variantes lo tenemos en programas de ordenador y en
numerosas direcciones de Internet que pueden verse en el Anexo II.

319
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

fo son las frecuencias observadas,


ft son las frecuencias tericas.

se calcula en cada casilla y se suman todos


La fraccin estos valores.

El valor resultante de esta suma se consulta en las tablas de c2 segn los


grados de libertad que correspondan.
Aunque esta frmula es vlida para todos los casos, hay planteamientos,
que son tambin los ms frecuentes (como las tablas 2x2), que admiten
frmulas ms sencillas. Vamos a ver ahora los casos ms frecuentes con sus
frmulas especficas.

8. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN DIVIDIDO


EN DOS NIVELES

Por ejemplo, preguntamos a un grupo de N = 60 si est a favor o en con-


tra de una determinada proposicin y obtenemos estos resultados (tabla 4):

Tabla 4
A favor En contra total
40 20 60

Este anlisis es muy til pues es muy normal presentar a un grupo una se-
rie de preguntas con respuestas s o no mutuamente excluyentes Cundo
predomina una de las dos respuestas ms all de lo probable por azar?
La pregunta que nos hacemos en nuestro ejemplo es si existe una diferen-
cia estadsticamente significativa (por encima de lo puramente aleatorio) en-
tre 40 y 20 (o entre dos proporciones o porcentajes obtenidos en la misma
muestra).
Tenemos dos maneras de llegar a una respuesta; una a travs del ji cua-
drado, y otra utilizando la distribucin binomial; con ambas llegamos al
mismo resultado. Aunque aparentemente haya muchas frmulas, en reali-
dad todas son equivalentes y muy sencillas; posiblemente con la [2] o con la
[5] podemos resolver todas las situaciones en las que queramos hacer este
anlisis.

320
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

8.1. Ji cuadrado

Tenemos dos sencillas frmulas que dan idntico resultado.


1. Podemos aplicar en primer lugar la frmula [1], que es la frmula gene-
ral del ji cuadrado. Lo primero que tenemos que hacer es calcular las fre-
cuencias tericas, que en este caso son 60/2 = 30: si no hubiera ms diferen-
cia entre las dos respuestas que la puramente casual, la frecuencia terica ms
probable sera la que resulta de repartir por igual el nmero de sujetos entre
las dos categoras.

En las tablas vemos que con un grado de libertad (= k -1) los valores cr-
ticos de c2 son estos:
si c2 > 3.841 tenemos que p < .05
> 6.635 p < .01
> 10.827 p < .001

En nuestro ejemplo p < .01: no aceptamos la Hiptesis Nula y aceptamos


que la diferencia entre 40 (a favor) y 20 (en contra) es superior a lo que se
puede encontrar por azar en el caso de que no hubiera una diferencia mayor
de lo casual entre las dos posturas representadas por estas respuestas (a favor
o en contra o cualesquiera otras dos alternativas mutuamente excluyentes).

2. Sin entrar ahora en ms explicaciones podemos ver que en estos casos


(un grado de libertad) c2 = z2; el valor correspondiente de z para a = .05 re-
cordamos que es 1.96 y 1.962 = 3.841, que es el valor correspondiente de c2.
En estos casos, un mismo grupo dividido en dos niveles de clasificacin,
tenemos sin embargo una frmula ms sencilla [2], en la que f1 y f2 son las dos
frecuencias, 40 y 20:

Esta frmula [2] podemos aplicarla siempre que N sea > 25; con nmeros
ms bajos (N < 25) tambin suele recomendarse aplicar la correccin de Ya-
tes, que consiste en restar una unidad al numerador antes de elevarlo al cua-
drado (frmula [3]). De todas maneras ya veremos que la eficacia de esta co-
rreccin es muy discutida (porque corrige en exceso).

321
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Con nmeros pequeos es sin embargo preferible prescindir de esta co-


rreccin y acudir directamente a las tablas de la distribucin binomial, que
nos dan directamente la probabilidad un obtener una determinada diferencia
entre dos frecuencias cuando N es muy bajo.

8.2. Aplicacin de la distribucin binomial

Cuando tenemos un grupo dividido en dos categoras podemos aplicar di-


rectamente la distribucin binomial. Cuando un grupo (sujetos, respuestas,
objetos) de tamao N se divide en dos categoras que se excluyen mutuamen-
te (como antes, a favor o en contra) podemos ver si la proporcin de sujetos
en cada categora (p y q) se aparta significativamente de p = q = .50 (que se-
ra la Hiptesis Nula: idntico nmero de sujetos encada categora). Vamos a
verlo con muestras pequeas (N < 25) y muestras que ya van siendo mayores
(N > 25).

8.2.1. Cuando N < 25

En estos casos no necesitamos hacer ningn clculo (ni aplicar la frmula


[3]); nos basta consultar las tablas de la distribucin binomial que nos dan
la probabilidad exacta que tenemos de encontrar por azar cualquier divisin
de N sujetos (N < 25) en dos categoras. Estas tablas podemos encontralas en
numerosos textos de estadstica y tambin disponemos de cmodos progra-
mas en Internet (Anexo II)5.
En estas tablas tenemos los valores de N y de X (nmero de sujetos en
cualquiera de las dos categoras) y la probabilidad de encontrar X en N suje-
tos o casos. Suponemos que en principio p = q, es decir que hay dos catego-
ras con idntica probabilidad (p = q = .50).

8.2.2. Cuando N > 25

Cuando aumenta el nmero de casos o sujetos, la distribucin binomial se


va pareciendo a la distribucin normal. En estos casos podemos hacer algo
anlogo al contraste de medias.

5
Un programa muy cmodo es GRAPHPAD; basta introducir el nmero total de sujetos
(objetos, etc.) y el nmero de los clasificados en una de las dos categoras.

322
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Esta distribucin normal y aleatoria (la que podemos esperar si entre las
dos categoras no hay ms diferencias que las casuales) tiene su media y su
desviacin tpica:

Media (los sujetos tienden a repartirse por igual en las


dos categoras)

Desviacin tpica

Pero como en este caso p = q = .50, tenemos que pq = .25, por lo tanto
la desviacin tpica ser igual a:

Desviacin tpica

Podemos utilizar cualquiera de estas expresiones para calcular la desvia-


cin tpica.
Ahora podemos comparar nuestra media (cualquiera de las dos frecuen-
cias; nmero de sujetos en cualquiera de las dos categoras) con la media ms
probable por azar y que es N/2:

Donde X es cualquiera de las dos frecuencias; con


las dos llegamos al mismo resultado aunque con
distinto signo, como podemos comprobar:

En nuestro ejemplo (40 a favor y 20 en contra, total N = 60) tendremos:

donde X = los 40 que estn a favor

donde X = los 20 que estn en contra

323
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En estos casos (un grupo dividido en dos categoras) c2 = z2 y z = ;

Podemos verificarlo: z2 = 2.5822 = 6.67, que es el valor de c2 encontrado


antes (y las probabilidades son las mismas, p<.01)
La frmula [4] es la ms clara porque expresa lo que estamos haciendo
(una diferencia entre medias dividida por una desviacin tpica), pero pue-
de simplificarse notablemente si utilizamos la frmula [5] (f1 y f2 son las dos
frecuencias):

De todas estas frmulas Cul es la preferible? La que resulte ms cmoda;


la nica salvedad es que todas estas frmulas son adecuadas cuando N no es
muy bajo (preferiblemente no menos de N = 50).
Ya hemos indicado que:
a) Cuando N es igual o inferior a 20, podemos acudir directamente a las
tablas de la distribucin binomial (que nos da la probabilidad de obte-
ner cualquier valor de X para cualquier valor de N hasta 20 o incluso
ms, segn las tablas de que dispongamos).
b) Cuando N est entre 20 y 50 podemos aplicar la frmula [3], o la [5]
(ms cmoda que la [4]), pero restando una unidad al numerador (en
valores absolutos), o podemos aplicar la frmula [4] con la llamada co-
rreccin por continuidad, tal como aparece en la frmula [6]

Sumamos o restamos .5 de manera que el nu-


merador sea menor en trminos absolutos.

8.2.3. La prueba de los signos: aplicacin de la distribucin binomial


para comprobar cambios

Una aplicacin popular y sencilla para verificar cambios es la conocida co-


mo prueba de los signos que es til introducir aqu.
Lo veremos con un ejemplo. De un grupo de sujetos tenemos sus res-
puestas a una simple pregunta, por ejemplo sobre la utilidad de la asignatu-

324
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

ra, con respuestas graduadas de este estilo: ninguna, alguna, bastante y


mucha. Los sujetos responden al comienzo del curso (antes) y al finalizar el
curso (despus) (tabla 5).

sujeto Respuesta Respuesta Signo de la


antes despus diferencia
1 3 4 +
2 1 3 +
3 2 2 0
4 4 2 -
5 4 5 +
6 2 4 +

Tabla 6

El nmero de sujetos es N = 6, pero tenemos en cuenta solamente el


nmero de cambios, por lo tanto N = 5 porque un sujeto (el n 3) no ha
cambiado.
Podemos disponer los datos de esta manera (tabla 7, semejante a la tabla 4):

Cambios positivos Cambios negativos Total de cambios


4 1 5

Tabla 7

Podemos aplicar ahora cualquiera de los procedimientos anteriores (ji


cuadrado, distribucin binomial) segn el nmero de sujetos (nmero de
cambios) que tengamos.
Es obvio que estamos teniendo en cuenta solamente la direccin del
cambio y no la magnitud del cambio; aprovechamos mejor la informacin
disponible con otros mtodos de anlisis, como un contraste de medias. Aun
as con medidas pobres, a veces improvisadas y que no nos inspiran mucha
confianza, la prueba de los signos puede ser una buena alternativa. Tambin
cabra hacer una nica pregunta al final, como un sondeo rpido de opinio-
nes o impresiones de este estilo: Ves ahora la asignatura ms til que al
comienzo del curso? Con unas respuestas muy simples, ms til (cambio po-
sitivo), menos til (cambio negativo), igual de til (sin cambio).

325
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

9. MTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIN DIVIDIDO


EN MS DE DOS NIVELES (PRUEBAS DE BONDAD DE AJUSTE)

A esta aplicacin del ji cuadrado se le denomina tambin prueba de bon-


dad de ajuste porque comprobamos si una distribucin de frecuencias obser-
vadas se ajusta a una distribucin terica.

9.1. Cuando las frecuencias esperadas son las mismas

El planteamiento ms frecuente lo veremos con un ejemplo: 600 perso-


nas eligen entre tres marcas, A, B y C de un mismo producto, su marca pre-
ferida (tabla 8): Hay diferencias entre las marcas por encima de lo puramen-
te aleatorio?
Tabla 8
A A C total
frecuencias observadas: 170 200 230 600
frecuencias tericas: 200 200 200 600

Las frecuencias tericas son las que habra si no hubiera diferencias entre
las marcas; es la distribucin terica ms probable en caso de no diferencia:
nmero total de casos dividido por el nmero de categoras de clasificacin,
600/3 = 200 (las tres marcas son igualmente preferidas).
En este caso se aplica la frmula general del ji cuadrado (frmula [1])
que adems se puede utilizar en todos los casos:

Grados de libertad: nmero de categoras de clasificacin menos una:


3-1 = 2 grados de libertad.
En las tablas tenemos que con dos grados de libertad y c2 = 9; p <.05 (su-
peramos el valor de 5.99 que tenemos en las tablas). La probabilidad de que
la distribucin de las frecuencias observadas (170/200/230) sea casual, en el
que caso de que las marcas fueran igualmente preferidas, es inferior al 5% (de
hecho es inferior al 2%), por lo que concluimos que s hay diferencias signifi-
cativas entre las marcas. Cabra ahora parcializar los datos y comparar las mar-
cas de dos en dos; (al menos podemos afirmar que la marca A es significati-
vamente menos preferida que la marca C).

326
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

9.2. Cuando las frecuencias esperadas son las de la distribucin


normal

Esta prueba de bondad de ajuste se utiliza tambin para comprobar si una


distribucin se ajusta a la distribucin normal.
En este caso las categoras de clasificacin son intervalos y las frecuencias
tericas son las que corresponderan en la distribucin normal.
Aunque una distribucin puede dividirse en intervalos de muchas mane-
ras, lo ms cmodo es dividir la distribucin en intervalos que tengan un
idntico nmero de sujetos, para facilitar las operaciones. Si se divide en 10
intervalos, puede quedar como aparece en la tabla 9.

frecuencias tericas:

Tabla 9

10% 10% 10% 10% 10% 10% 10% 10% 10% 10%

z: -1.28 -0.84 -0.52 -.025 0.00 +0.25 +0.52 +0.84 +1.28

Podramos haber hecho otra agrupacin distinta, de manera que en cada


intervalo tuviramos el 20% de los casos, o podramos tener intervalos con
frecuencias esperadas distintas, como sucede cuando utilizamos los estani-
nos o los pentas.
Si en cada intervalo vamos a tener el 10% de las frecuencias tericas y te-
nemos N = 200, en cada intervalo tendramos 20 sujetos en las frecuencias
tericas; a cada sujeto le calculamos su puntuacin tpica, y lo situamos en el
intervalo que le corresponda: estas son nuestras frecuencias observadas, y
aplicamos por ltimo la frmula [1].

Grados de libertad:
En este caso debemos tener en cuenta para consultar las tablas que los
grados de libertad son igual al nmero de intervalos menos tres (k-3), por-
que partimos de tres restricciones iniciales: los valores de N, de la media y de
la desviacin tpica.
En esta comprobacin lo que nos interesa comprobar es que el valor de c2
es inferior al de las tablas: en este caso no habra diferencia entre las frecuen-
cias observadas y las del modelo terico, y podemos concluir que nuestra dis-
tribucin se aproxima a la distribucin normal. Un resultado estadsticamen-
te significativo nos dira que la distribucin no puede considerarse normal.

327
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Es prctico o importante hacer esta comprobacin de normalidad de


una distribucin? Por lo general no; nos puede bastar una inspeccin de los
datos para ver si una distribucin se aparta apreciablemente de la distribucin
normal, pero en muchos planteamientos de anlisis podemos necesitar la ve-
rificacin de que las distribuciones en la poblacin son normales. Cuando es-
to es necesario o bien nos lo hacen ya los programas de ordenador, o hay m-
todos no paramtricos ms sencillos (como el de Kolmogorov-Smirnov). Aun
as es til conocer estas pruebas de bondad de ajuste para entender lo que
nos puede dar hecho un programa de ordenador.

10. TABLAS 2X2: DOS CRITERIOS DE CLASIFICACIN CON DOS NIVELES CADA UNO

Es ste uno de los planteamientos ms frecuentes y tiles, como los ejem-


plos puestos al comienzo para introducir el c2. En general los cuadros de do-
ble entrada (cruzar los datos) son muy tiles para detectar ya de manera in-
tuitiva diferencias y relaciones.
Podemos distinguir dos planteamientos: para muestras independientes (el
ms habitual) y para muestras relacionadas. En ambos casos la disposicin
de los datos es la misma.

10.1. Tablas 2x2 para muestras independientes

10.1.1. Modelos de tablas 2x2: cmo clasificar a los sujetos

El uso ms frecuente del ji cuadrado est seguramente en el anlisis de


este tipo de tablas (2x2; dos criterios de clasificacin cada uno dividido en
dos niveles), por esta razn exponemos diversos criterios que pueden emple-
arse para clasificar a los sujetos en dos categoras.
Proponemos cuatro modos de clasificar a los sujetos; realmente todos son
equivalentes, pero el tener a la vista ejemplos distintos nos puede sugerir pre-
guntas a las que podemos responder con estos anlisis.

a) Sujetos clasificados segn dos grupos de pertenencia o dos caractersticas


personales
Los sujetos pueden pertenecer a dos grupos a la vez; el trmino grupo hay
que entenderlo con amplitud, y viene a ser lo mismo que participar de una ca-
racterstica comn.
Por ejemplo, en una universidad podemos tener alumnos de primer curso
que pertenecen a una facultad o carrera (un grupo de pertenencia) y a la vez
pueden estar estudiando en su lugar habitual de residencia o pueden haber
venido de otra localidad (tabla 10).

328
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Tabla 10

La pregunta que nos hacemos es sta: Es una carrera ms atractiva que la


otra para los que viven fuera? En la carrera A hay ms alumnos de fuera que
en la carrera B; Es esta diferencia superior a lo que podramos encontrar por
azar?
Los porcentajes dentro de cada celda pueden estar referidos a los totales
de las filas o a los totales de las columnas (o a ambos), lo que resulte ms in-
formativo en cada caso.

b) Sujetos clasificados segn 1 grupo de pertenencia y 2 respuestas a una


pregunta
El grupo de pertenencia puede ser tambin una caracterstica personal,
etc. y la pregunta puede expresar conocimientos, actitudes, etc.; realmente
se trata del mismo caso anterior, pero una presentacin matizada y con ejem-
plos de estos criterios para clasificar a los sujetos sugiere ms posibilidades de
anlisis con los datos que tenemos o que podemos fcilmente obtener.
Por ejemplo podemos preguntar al terminar el curso a los alumnos del pri-
mer curso de dos carreras si estn de acuerdo con esta afirmacin: la estads-
tica me va a ser muy til en mi trabajo profesional (si en las dos carreras se
cursa la misma asignatura) (tabla 11).

Tabla 11

329
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Como antes, podemos preguntarnos por la diferencia entre las dos carre-
ras en aprecio de una asignatura; o lo que es lo mismo, podemos preguntar-
nos si hay relacin entre estudiar una carrera y juzgar que una asignatura es
til.

La pregunta anterior podemos proponerla con dos respuestas (de acuer-


do o en desacuerdo) o con ms respuestas (desde muy en desacuerdo has-
ta muy de acuerdo); en este caso dicotomizamos (agrupamos en dos catego-
ras) las respuestas. Cuando varias respuestas las reducimos a dos solamente,
estamos prescindiendo de informacin que de hecho tenemos disponible, y
en estos casos el ji cuadrado puede que no sea el mtodo ms apropiado pa-
ra analizar los datos. De todas maneras el agrupar las respuestas en dos posi-
bilidades para hacer un cuadro 2x2 es til para simplificar la informacin.
Cuando dicotomizamos las respuestas, una manera de hacerlo es utilizan-
do la mediana (y en la zona del acuerdo y del desacuerdo quedar ms o me-
nos el mismo nmero de sujetos), o podemos agrupar las respuestas segn
su significado literal; en cualquier caso debemos exponer qu es lo que he-
mos hecho.

c) Prueba de la mediana
Con este trmino, prueba de la mediana, se denomina otra manera de cla-
sificar a los sujetos. que quedan clasificados en estos dos criterios: 1 segn
grupo de pertenencia y 2 segn estn por encima o por la debajo de la me-
diana comn en un mismo test o escala.
En el ejemplo anterior (tabla 11) veamos la posibilidad de dicotomizar las
respuestas a una sola pregunta. En este caso (tabla 12) no se trata ya de una
pregunta sino de todo un test, escala, etc., que mide de manera ms clara y
fiable una determinada caracterstica. Este anlisis tiene incluso su propio
nombre: prueba de la mediana.
El proceso es el siguiente:
1 Todo los sujetos, pertenecientes a dos grupos, responden al mismo
instrumento (test, escala).
2 Calculamos la mediana comn a todos los sujetos (la puntuacin que
divide a todos lo sujetos, juntndolos en un solo grupo, en dos mitades
iguales aproximadamente).

En un ejemplo similar anterior (tabla 11) podramos sustituir la pregun-


ta sobre una asignatura por una escala de actitudes hacia la asignatura de
estadstica.

330
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Tabla 12

En trminos simples, la pregunta que nos hacemos es la siguiente:


Uno de los dos grupos Coloca ms sujetos que el otro por encima de la
mediana comn, en la mitad superior?

Si en el caso anterior advertamos que dicotomizar las respuestas a una


pregunta supone perder informacin, en este caso la prdida es mucho ma-
yor. En vez de utilizar la puntuacin individual de cada sujeto en el test o es-
cala, slo nos fijamos si est por encima o por debajo de la mediana comn.
En este caso el anlisis en principio ms idneo no sera el ji cuadrado sino
un contraste de medias entre las dos carreras. Sin embargo este anlisis tam-
bin puede ser oportuno, bien como complemento informativo a un con-
traste de medias, o porque nos parece suficiente, o porque la medida utiliza-
da es poco fiable y es ms seguro dicotomizar las respuestas en dos grandes
categoras.

d) Un mismo grupo clasificado segn sus respuestas a dos tems o preguntas


Seguimos con el mismo esquema; en los casos anteriores siempre tena-
mos dos grupos (o un grupo que lo consideramos como dos grupos en fun-
cin de alguna caracterstica que nos permite dividir a los sujetos en dos sub-
grupos); lo que pretendamos es en ltima instancia verificar diferencias
entre grupos. Ahora tenemos un solo grupo y el nfasis lo ponemos en el
anlisis de la relacin entre las preguntas.
Por ejemplo (el ejemplo es real, tabla 13), los alumnos de una clase expre-
san su grado de acuerdo con estas dos afirmaciones: la suerte influye mucho
en los exmenes y me divierte estudiar. Si las respuestas son ms de dos, las
podemos agrupar en dos categoras (con la consiguiente prdida de informa-
cin pero no por eso deja de ser til este anlisis).

331
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Tabla 13

Estn relacionadas las dos opiniones o actitudes o son independientes?


Este planteamiento del ji cuadrado suele denominarse prueba de inde-
pendencia.

Tambin podemos conceptualizar este planteamiento como el de una


comprobacin de diferencias entre dos grupos: el grupo que cree en la suer-
te se diferencia en actitud hacia el estudio del grupo de los que no creen en
la suerte?
Salta a la vista que si tenemos puntuaciones continuas el clculo que en
principio parece ms oportuno es un coeficiente de correlacin, pero esta
disposicin de los datos es tambin muy informativa.
Si los datos son genuinamente dicotmicos (1 0) tambin disponemos
de un coeficiente de correlacin (f) que veremos despus y que podemos
calcular directamente o como complemento al ji cuadrado.

10.1.2. Cmo analizar los datos

En estos casos (cuadros 2x2, muestras independientes) podemos abordar


el anlisis al menos con dos enfoques que nos llevan a los mismos resultados:
1 Ji cuadrado (y prueba exacta de Fisher para muestras muy pequeas)
2 Contraste de proporciones entre muestras independientes

Del ji cuadrado podemos pasar al clculo de coeficientes de correlacin o


de asociacin (puestos en el apartado n 12).
Cuando el nmero total de sujetos es muy pequeo (N < 20), podemos
aplicar la prueba exacta de Fisher, que no requiere ningn clculo, sino sim-
plemente consultar las tablas apropiadas6.

6
La prueba exacta de Fisher la exponemos ms adelante. Estos enfoques metodolgi-
cos (ji cuadrado y contraste de proporciones) suelen estar en los textos en apartados dis-

332
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

1 Ji cuadrado
a) Planteamiento y frmulas
Disponemos los datos como es usual (e incluyendo los porcentajes si es
conveniente con fines informativos).
Una observacin importante: Convencionalmente las frecuencias de las
cuatro casillas las simbolizamos con las cuatro letras a, b, c y d. Conviene po-
nerlas siempre de la misma manera porque en las frmulas asociadas a este
planteamiento se supone que se han puesto en ese orden; en alguna frmu-
la que veremos esto es especialmente importante.
Cuando los datos se codifican como 1 0 (s o no, bien o mal, etc.), y el
cero significa mal, en desacuerdo, no, etc., es importante que el no, mal,
etc. (lo que codificamos con un 0) estn puestos en la fila c y d (para una va-
riable), y en la columna a y c (para la otra variable), tal como lo ponemos
aqu. Los dos ceros confluyen en c; en ese ngulo se sitan los valores meno-
res cuando se trata de coordenadas. Naturalmente el 0 y el 1 no tienen senti-
do como juicio de valor cuando slo significan pertenecer a un grupo u otro
(varn o mujer, un curso u otro, etc.).
Aunque podemos aplicar la frmula [1], disponemos de frmulas ms sen-
cillas, como son las frmulas [7] y [8].

La frmula [7] es la habitual, y la que se utiliza siempre, al menos cuando


N no es muy inferior a 40.

b) Observacin sobre la correccin de Yates y el nmero de sujetos


La frmula [8] incluye la llamada correccin de Yates (restar N/2 a la dife-
rencia entre ad y bc en valores absolutos antes de elevarla al cuadrado)7, y

tintos y posiblemente es lo ms apropiado desde una perspectiva ms terica. Como alter-


nativa y complemento, y con un enfoque quizs ms pragmtico, preferimos poner aqu
juntos los distintos procedimientos cuando son vlidos para analizar los mismos datos.
7
Frank Yates, britnico, propuso esta correccin en 1934 (Yates, F (1934). Contin-
gency table involving small numbers and the 2 test. Journal of the Royal Statistical So-
ciety (Supplement) 1: 217-235).

333
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

suele recomendarse cuando los sujetos son pocos (N < 40) o cuando alguna
frecuencia terica no llega a 5.
Aunque esta correccin de Yates (y el requisito de que las frecuencias
tericas no sean inferiores a 5) viene rutinariamente en muchos textos (y
en programas de ordenador), hace tiempo que se cuestiona su necesidad
o conveniencia porque una serie de estudios muestran que con esta co-
rreccin la prueba del ji cuadrado se convierte en una prueba demasiado
conservadora (no se rechaza la Hiptesis Nula cuando se podra rechazar
legtimamente)8.
La recomendacin tradicional es a) aplicar la correccin de Yates en ta-
blas 2x2 cuando una frecuencia terica es inferior a 5 y b) no utilizar el ji cua-
drado en tablas mayores si el ms del 20% de las frecuencias tericas es infe-
rior a 5.

c) Orientaciones prcticas para tablas 2x2


Posiblemente la prctica ms aconsejable en tablas 2x2 es:
1) Prescindir de esta correccin (frmula [8]) y utilizar habitualmente la
[7]. Cuando no aplicamos esta correccin en las situaciones en las que
suele o sola ser recomendada, tenemos una prueba ms liberal9.
2) No utilizar el ji cuadrado con pocos sujetos (no muy inferior a N = 40
es una recomendacin segura).10
3) Con muestras muy pequeas (en torno a N = 20) utilizar la prueba
exacta de Fisher (en el apartado siguiente)

8
A pesar de que esta frmula [8] se sigue recomendando, ya se va viendo cuestiona-
da en bastantes textos (como el de Daniel, 1981), suprimida y no recomendada en otros
como innecesaria (como en el de Runyon y Haber, 1984; Rosenthal y Rosnow, 1991; Spatz,
1993; Hinkle, Wiersma y Jurs, 1998), y esta no recomendacin es elogiada en recensiones
publicadas en revistas de prestigio en este campo (Morse, 1995). Estos autores mencionan
las investigaciones en las que se apoyan, y aqu los citamos a ttulo de ejemplo (se pueden
buscar ms citas autorizadas) porque la supresin de esta correccin de Yates (que data de
1934) todava supone ir en contra de una prctica muy generalizada. El consensus parece
ser que esta correccin hace del ji cuadrado una prueba excesiva e innecesariamente con-
servadora (Black, 1999:580). Otros autores (Heiman, 1996) siguen recomendando el que
las frecuencias tericas sean superiores a 5 (en tablas 2x2) pero omiten la correccin de Ya-
tes. Un comentario ms amplio y matizado sobre la correccin de Yates y otras alternativas
puede verse en Ato Garca y Lpez Garca (1996).
9
El programa de VassarStats (Internet, Anexo II) calcula el ji cuadrado con y sin la co-
rreccin de Yates.
10
No hay un acuerdo claro sobre el nmero mnimo de sujetos en el ji cuadrado; Ro-
senthal y Rosnow (1991:514) mencionan N = 20 pero advierten que frecuencias tericas
muy bajas pueden funcionar bien en muestras todava ms pequeas.

334
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

d) Ejemplo resuelto
Podramos utilizar la frmula [1], que se puede aplicar siempre, pero es
mucho ms cmoda la frmula [7] que es la que generalmente se utiliza en
estos casos.
Tenemos 161 sujetos clasificados segn el grupo al que pertenecen (A o B)
y sus respuestas a una pregunta (s o no). Disponemos los datos en un cua-
dro de doble entrada (tabla 14).

Tabla 14

Los grados de libertad son: (columnas menos una) por (filas menos una)
= (2-1) (2-1) = 1 totales 90 (100%) 71 (100%).

La probabilidad de que estas frecuencias sean aleatorias son inferiores al


1/1000 (p < .001), ya que nos pasamos del valor sealado en las tablas
(10.827).
Podemos concluir que las dos variables que han servido de criterio de cla-
sificacin (responder s o no a una pregunta y pertenecer a uno u otro grupo)
estn relacionadas (o lo que es lo mismo, los grupos difieren significativamen-
te en sus respuestas).

e) Clculo complementario: coeficiente de correlacin


Un valor grande de c2 nos da mucha seguridad para afirmar que existe
asociacin entre las dos variables, pero no nos dice si la relacin es grande o
pequea. Para cuantificar el grado de relacin tenemos que acudir a alguno
de los coeficientes relacionados con el c2 puestos al final (apartado n 12).

335
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

En el caso de tablas 2x2 y con variables dicotmicas (que se excluyen mu-


tuamente) el coeficiente apropiado es el coeficiente ? (fi, frmula [15] que re-
petimos aqu), que es el mismo coeficiente r de Pearson cuando las dos varia-
bles son dicotmicas (1 y 0):

La relacin entre pertenencia a un grupo u otro y responder s o no a esa


pregunta es moderada. Si hacemos que pertenecer al grupo A = 1, y pertene-
cer al grupo B = 0, y decir que s = 1 y decir que no = 0 y calculamos el co-
eficiente r de Pearson, obtendremos el mismo resultado.
Disponemos tambin de otros coeficientes de relacin para tablas mayo-
res (el coeficiente de contingencia C es el ms popular aunque no el nico);
los exponemos y valoramos brevemente en el apartado n 12.

2 Prueba exacta de Fisher


En tablas 2x2 y con un N bajo (ciertamente < 20) es preferible la prueba
exacta de Fisher: basta consultar las tablas apropiadas, en las que vienen to-
das las combinaciones posibles de a, b, c y d con N = 20 o menos (una tabla
para cada valor posible de N). Las tablas nos indican qu combinaciones tie-
nen una probabilidad de ocurrir por azar inferior al 5% o al 1%11. Otra alterna-
tiva cmoda (adems de los programas informticos ms comunes) es utilizar
alguno de los varios programas disponibles en Internet12.

3 Contraste entre proporciones (muestras independientes)


Como alternativa que da idnticos resultados, podemos utilizar el contras-
te entre proporciones (o entre porcentajes si multiplicamos por 100) para
muestras independientes (frmula [9]). Obtendremos un valor de z, pero ya
sabemos que en estos casos z2 = c2
El procedimiento ya est explicado en el contraste de medias pero es til
repetirlo en este contexto para ver su equivalencia con el c2: dividimos una di-
ferencia entre proporciones por el error tpico de la diferencia entre dos
proporciones, que est en el denominador de la frmula [9]. En rigor lo que

11
Estas tablas se encuentran en algunos textos (como el de Siegel, 1972; Siegel y Cas-
tellan, 1988 [tabla 35]; Langley, 1973; Leach, 1982) o en compendios de tablas estadsticas
(como en Meredith, 1971 y en Ardanuy y Tejedor, 2001, tabla I).
12
Anexo II; en estos programas (como GRAPHPAD) basta introducir en el cuadro de di-
logo las cuatro frecuencias a, b, c y d.

336
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

tenemos en el numerador no es la diferencia entre dos proporciones, sino la


diferencia entre una diferencia (la nuestra) y una diferencia de cero.
En la frmula [9] tenemos en el denominador el error tpico de la diferen-
cia entre dos proporciones.
Utilizamos como ejemplo los mismos datos de la tabla anterior [14].

Y aplicando la frmula [9] a nuestros datos:

Ya sabemos que con un grado de libertad c2 = z2: 5.2892 = 27.97; llegamos


a la misma conclusin que con la prueba del c2. Los resultados son idnticos
si utilizamos todos los decimales.

10.2. Tablas 2x2 para muestras relacionadas

10.2.1. Procedimientos

a) Ji cuadrado (prueba de McNemar)


Las frmulas vistas hasta ahora, y referidas al ji cuadrado, son todas equi-
valentes a la frmula [1]. Las frmulas para muestras relacionadas nos sir-
ven para comparar dos proporciones (o porcentajes) cuando los mismos su-
jetos pueden estar incluidos en los dos grupos (y en este sentido se trata de
muestras relacionadas, como se puede apreciar con claridad en los ejem-
plos especficos que ponemos despus para ilustrar las aplicaciones de este
procedimiento).

337
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

La frmula [10] se utiliza cuando (a + d) es


igual o mayor de 10;
La frmula [11] se utiliza cuando (a + d) <
10; se resta una unidad al numerador po-
niendo el signo + a la diferencia; se trata de
disminuir esta diferencia antes de elevarla al
cuadrado.

Estas frmulas corresponden a la denominada prueba de McNemar (y as


figura en muchos textos). En estos casos los grados de libertad son igual a 1.
Recordamos la observacin importante que ya hemos hecho sobre los
smbolos utilizados: a y d son las celdillas donde se sitan las frecuencias dis-
crepantes a y d (s/no y no/s; 0/1/ y 1/0), por lo que esas frmulas, expresadas
con estos smbolos, slo tienen sentido si los datos estn bien dispuestos.

b) Contraste entre proporciones relacionadas


Podemos tambin hacer un contraste de proporciones para muestras re-
lacionadas; como en estos casos (tablas 2x2, un grado de libertad) c2 = z2, la
frmula queda simplificada as:
Veremos la utilidad de estas frmulas con dos ejemplos referidos a dos
planteamientos tiles y frecuentes.

10.2.2. Aplicaciones especficas

a) Para comprobar cambios


Clasificamos a los sujetos segn hayan respondido s o no (o de acuerdo
o en desacuerdo, 1 0, etc.) en dos ocasiones distintas.
Podemos suponer que hemos preguntado a nuestros alumnos si les inte-
resa la asignatura en dos ocasiones, primero al comenzar el curso y ms
adelante al terminar el curso (tabla 15).

Tabla 15

338
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Al comenzar el curso la asignatura interesa a 10 alumnos (17% del total); al


terminar les interesa a 39 (65% del total).
Nos interesa comprobar si este 65% es significativamente superior al 17%
inicial.

Se trata de muestras relacionadas porque hay sujetos que estn en los


dos grupos (como los 4 sujetos en (b), interesados tanto antes como despus
y los 15 en (c) a quienes no interesa la asignatura ni al comienzo ni al final).
En todas estas tablas hay que prestar atencin a la disposicin de los datos
de manera que en la celda (c) coincidan los dos ceros y en la celda (b) los dos
unos.

b) Para comprobar una diferencia entre proporciones relacionadas


Se trata del mismo caso anterior pero nos formulamos la pregunta de otra
manera. Repetimos los mismos datos, pero ahora se trata de dos preguntas
de un examen, y respondidas por lo tanto en la misma ocasin (no antes y
despus) y que pueden estar bien o mal respondidas; queremos comparar su
nivel de dificultad; ver si una es ms difcil que la otra (tabla 16).

Tabla 16

Si queremos saber si una pregunta est relacionada con la otra (si el sa-
ber una supone saber tambin la otra) utilizaremos la frmula convencional;
en este caso la [1] o la [7].
Pero si lo que queremos es comprobar si una pregunta es ms difcil que
la otra (como en este ejemplo), estamos en el mismo caso anterior (muestras
relacionadas, lo mismo que para comprobar un cambio)
La pregunta 1 la ha respondido correctamente el 65% (39 alumnos), y la
2 el 17% (10 alumnos). Como algunos alumnos han respondido bien las dos,
tenemos muestras relacionadas.
En ambos casos aplicamos la frmula [10] porque a + d = 41 (>10), y te-
nemos que:

339
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Con un grado de libertad tenemos que p <.001; nuestra conclusin es


que ha habido cambio en el primer ejemplo y que una pregunta es ms dif-
cil que la otra en el segundo ejemplo. En ambos casos la diferencia entre
[a+b] y [b+d] es superior a lo que se puede esperar por azar.
Si preferimos un contraste de proporciones para muestras relacionadas,
podemos utilizar la frmula [12] para obtener el valor de z:

; el resultado es el mismo

10.2.3. Adaptacin de la prueba de McNemar (muestras relacio-


nadas) para tablas mayores (nxn)

La frmula de McNemar es apropiada para tablas 2x2, pero se puede adap-


tar para tablas mayores, como en este ejemplo para comprobar un supuesto
cambio. La pregunta que se ha hecho antes y despus admite en este caso
tres respuestas: s, no s y no (podran ser otras categoras de respuesta o de
observacin, como bien, regular y mal si hay criterios claros para este tipo de
clasificacin).

Tabla 17a Tabla 17b

Como en tablas semejantes, los noes (el nivel ms bajo) deben coincidir en
la celda inferior izquierda y los ses (el nivel ms alto) en la celda superior de-
recha (tabla 17a). Lo que hemos hecho (tabla 17b) es agrupar los cambios ne-
gativos (de s a no y a no s, y de no s a no) y los cambios positivos (de no a
no s y s y de no s a s), y ya tenemos los dos valores, a y d, de la frmula [10].

(32 10)2
Ahora podemos aplicar la frmula [10]: c = = 11.52, p < .001;
2

32 + 10

340
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Podemos concluir que s ha habido un cambio positivo superior a lo que


cabra esperar por azar.13

11. DOS CRITERIOS DE CLASIFICACIN, CADA UNO DIVIDIDO EN DOS O MS NIVELES


(TABLAS NXN)

En este caso se aplica la frmula general [1].


El procedimiento es el siguiente:
1 En cada casilla se calcula la frecuencia terica (tal como se ve en el
apartado n 4)
2 En cada casilla se calcula el valor correspondiente de ji cuadrado,
3 Por ltimo se suman todos estos valores de ji cuadrado de cada casi-
lla en un valor nico de ji cuadrado que es el que consultamos en las
tablas.

Lo veremos con un ejemplo14. Se ha hecho una encuesta de opinin entre


los accionistas de una determinada empresa, para ver si su posicin frente a
una posible fusin con otra empresa era independiente o no del nmero de
acciones que cada uno de ellos tiene. Tenemos las respuestas de 200 accionis-
tas clasificados segn el nmero de acciones (tabla 18); debajo de cada fre-
cuencia observada se pone el tanto por ciento con respecto al total de la fila
(nmero de acciones), porque resulta ms informativo (tambin cabra poner
los tantos por ciento con respecto al total de la columna).

Tabla 18

13
Otra alternativa para tablas 3x3 y muestras relacionadas podemos verla en Hinkle,
Wiersma y Jurs (1998).
14
Ejemplo tomado de W. Mendenhall y James E. Reinmouth (1978), Estadstica para
administracin y economa, Mxico, Grupo Editorial Iberoamericana.

341
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Tabla 19

El clculo del c2 est en la tabla 19. Las frecuencias tericas o esperadas


(ft) de cada casilla las calculamos tal como se indic anteriormente:

(marginal de la fia) (marginal de la columna)


ft =
(nmero total de sujetos)

(99) (58)
as en (a) tendremos: ft = = 28.71
200

(fo - ft)2 (37 - 28.71)2


Y el c2 correspondiente a (a) ser igual a = = = 2.3937
ft 28.71

Comprobamos que la suma de las frecuencias observadas es igual a la su-


ma de las frecuencias tericas o esperadas; se trata de los mismos sujetos re-
partidos con distintos criterios: los que observamos en cada casilla, y los que
tendramos si no hubiera relacin entre los dos criterios de clasificacin. Es-
tas dos sumas no coinciden siempre exactamente, depende de cmo haya-
mos redondeado los decimales, pero deben ser casi iguales.

342
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

Los grados de libertad son (3-1)(3-1) = 4. Con cuatro grados de libertad


rechazamos la Hiptesis Nula con una probabilidad de error inferior al 5%
(p<.05; el valor de las tablas es 9.488 y nosotros lo superamos; en realidad la
probabilidad es p<.02).
Podemos afirmar con mucha seguridad que el nmero de acciones que
uno tiene en la empresa est relacionado con la postura frente a la posible fu-
sin de la empresa con otra.

Coeficientes de asociacin
Para comprobar si la relacin es grande o pequea acudimos a alguno
de los coeficientes de asociacin relacionados con el ji cuadrado (en el
apartado siguiente Coeficientes de relacin asociados al c2 se comentan
estos coeficientes).
En este caso (tablas mayores de 2x2) el coeficiente ms utilizado es el co-
eficiente de contingencia (frmula [13]):

La relacin es ms bien baja, aunque se puede afirmar con mucha seguri-


dad que s hay relacin.
Si queremos interpretar con ms detalle la informacin disponible, pode-
mos fijarnos en qu casillas hay una mayor discrepancia entre las frecuencias
observadas y las tericas; esto nos lo indican los mismos valores del ji cua-
drado, que son mayores en unas casillas que en otras. Lo que est ms claro
es la discrepancia:
En la casilla h (entre los que tienen ms de 500 acciones hay ms en
contra de la fusin que los que podramos esperar),
En la casilla a (entre los que tienen menos de 100 acciones hay ms a fa-
vor de la fusin)
En la casilla b (entre los que tienen menos de 100 acciones hay menos
en contra de la fusin).

En los cuadros 2x2 la interpretacin suele ser ms fcil e intuitiva, en cua-


dros grandes no siempre es tan sencillo y hay que fijarse cmo se distribuyen
las frecuencias. Hay mtodos especficos para parcializar estos cuadros y ha-
cer una interpretacin ms matizada15.
15
Pueden verse en Linton, Gallo Jr. y Logan (1975).

343
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Con estos mismos datos podramos calcular tambin el coeficiente de co-


rrelacin r de Pearson. Para esto podramos codificar los datos as:
nmero de acciones: 1 (menos de 100), opinin: 3 (a favor),
2 (entre 100 y 500) 2 (sin opinin)
3 (ms de 500) 1 (en contra).

Posiblemente para calcular este coeficiente sera preferible tener a los su-
jetos agrupados en ms categoras segn el nmero de acciones que tengan,
o sencillamente no agruparlos. Cuando agrupamos a los sujetos (y elimina-
mos diferencias individuales) los valores del coeficiente de correlacin no son
los mismos (suelen ser ms bajos) que si no agrupamos a los sujetos. Lo que
sucede es que a veces los nicos datos disponibles son los datos agrupados,
como los de este ejemplo.

12. COEFICIENTES DE RELACIN ASOCIADOS AL c2

Un valor alto de c2 nos da seguridad para afirmar que hay asociacin o re-
lacin entre dos variables (o una diferencia entre dos o ms grupos), pero no
nos dice si la relacin es grande o pequea (como tampoco nos dice si es im-
portante). Con un N grande es relativamente fcil obtener valores altos (esta-
dsticamente significativos) de c2, sin que esto quiera decir que la relacin
entre las dos variables sea grande o importante.
Para apreciar la magnitud de la asociacin existen varios coeficientes de-
rivados del c2 Estos coeficientes aportan una informacin anloga a la del ta-
mao del efecto en el contraste de medias. Los ms utilizados son:
a) El coeficiente f (fi) cuando las dos variables son genuinamente dicot-
micas (no dicotomizadas); en estos casos es el preferible.
b) El coeficiente de contingencia (C) con tablas nxn (ms de dos nive-
les al menos en uno de los dos criterios) pero hay otros que pueden
ser ms adecuados. Se pueden examinar las peculiaridades de cada
uno de los coeficientes disponibles para utilizar el que creamos ms
conveniente.

Para comparar coeficientes de relacin asociados al c2 dentro de un mis-


mo estudio se debe utilizar el mismo coeficiente, porque los valores de los
distintos coeficientes no son estrictamente comparables entre s.
Exponemos a continuacin algunos de los coeficientes ms utilizados indi-
cando sus particularidades para poder escoger el que en cada caso nos parez-
ca ms conveniente.

344
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

a) Coeficiente de contingencia

Valor mximo de C cuando el nmero de filas (f)


es igual al de columnas (c):

Es vlido para cuadros de cualquier tamao;


Es estadsticamente significativo en el mismo grado en que lo es el c2;
El valor mnimo es 0, pero su valor mximo depende del tamao de la ta-
bla; por esta razn estos coeficientes slo se pueden comparar entre s cuan-
do proceden de tablas del mismo tamao; en el caso de un grado de libertad
(tablas 2x2), su valor mximo es .707; en tablas 3x3 su valor mximo es .816
No es comparable con el coeficiente r de Pearson.
Su valor es siempre positivo; el signo de la asociacin se deduce de la ob-
servacin directa de los datos

b) Coeficiente f

Cuando se calcula a partir de los datos de una tabla de contingencia 2x2


su frmula es:

El coeficiente f es un caso particular del coeficiente r de Pearson (y pue-


den emplearse las mismas frmulas o una calculadora programada con el co-
eficiente r); es estadsticamente significativo (no aleatorio) en el grado en
que lo es el valor de c2;
Se utiliza con datos dicotmicos (1 0) en cuadros 2x2; no es vlido para
datos dicotomizados (cuando los datos originales son continuos); en este ca-
so podemos utilizar el c2 pero no este coeficiente.

345
ESTADSTICA APLICADA A LAS CIENCIAS SOCIALES

Es de uso frecuente para calcular correlaciones entre tems dicotmicos


(tests, pruebas objetivas).
Si se calcula a partir de c2 su signo ser siempre positivo; el signo es real-
mente positivo si bc > ad (en b y c estn los datos que indican relacin posi-
tiva; 1 en las dos variables 0 en las dos).
Una limitacin de este coeficiente es que su valor mximo no es 1 necesaria-
mente; slo cuando la proporcin de unos es idntica en las dos variables.

c) Coeficiente f de Cramer

k es el nmero de filas o de columnas, el que sea menor de los dos.


Este coeficiente vara de 0 a 1, independientemente del tamao de la tabla,
por lo que puede ser una alternativa preferible al coeficiente de contingencia
(aunque se utiliza menos).
Es estadsticamente significativo si lo es el valor de c2 correspondiente.

d) Coeficiente T de Tschuprow

f = nmero de filas y c = nmero de columnas;


Este coeficiente puede alcanzar el valor mximo de 1 solamente cuando f =
c (el nmero de filas es igual al nmero de columnas).
Es estadsticamente significativo si lo es el valor de c2 correspondiente.

346
ANLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO (c2)

13. VALORACIN DEL JI CUADRADO

1 El ji cuadrado es un mtodo muy utilizado y muy til cuando los datos


disponibles son realmente nominales (o categricos): lo nico que sa-
bemos de los sujetos es en qu categora podemos clasificarlos.
2 Frecuentemente sabemos algo ms de los sujetos: no solamente, por
ejemplo, si estn por encima o por debajo de la media (o apto o no
apto) sino una puntuacin exacta. O los tenemos clasificados segn
respuestas que admiten un cdigo en nmeros (como nada, poco,
mucho que pueden equivaler a 1, 2 y 3). Muchas veces el uso del ji
cuadrado supone una prdida de informacin, y debemos preguntar-
nos si en vez de o adems del ji cuadrado no disponemos de otros
mtodos preferibles de anlisis (como puede ser un coeficiente de co-
rrelacin) porque aprovechamos mejor la informacin que de hecho
tenemos.
3 El ji cuadrado es muy sensible al nmero de sujetos (como sucede en
todas las pruebas de significacin estadstica): con facilidad obtenemos
unos valores no solamente estadsticamente significativos, sino de una
magnitud muy grande. Esto no quiere decir que la diferencia o la rela-
cin sea grande, puede ser muy pequea. Como otros mtodos de an-
lisis que nos remiten a una probabilidad, conviene calcular siempre al-
gn coeficiente que nos cuantifique mejor la magnitud de la relacin
o de la diferencia. En tablas 2x2 y con datos genuinamente dicotmi-