Está en la página 1de 207

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/284722577

INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO CON SPSS PARA WINDOWS

Book · January 2000

CITATIONS READS

8 4,429

2 authors:

Constantino Arce Eulogio Real Deus


University of Santiago de Compostela University of Santiago de Compostela
100 PUBLICATIONS   1,149 CITATIONS    60 PUBLICATIONS   498 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Psychological Skills & Sports Performance Factors View project

Deseño de medidas para mellora-las actitudes cara ó galego e incrementa-lo seu uso View project

All content following this page was uploaded by Eulogio Real Deus on 03 December 2015.

The user has requested enhancement of the downloaded file.


INTRODUCCIÓN AL ANÁLISIS ESTADÍSTICO
CON SPSS PARA WINDOWS

Constantino Arce
Eulogio Real

1
ÍNDICE

PRESENTACIÓN .......................................................................................................................4

PRIMERA PARTE: COMENZANDO A TRABAJAR CON SPSS PARA WINDOWS .................6

1. Cómo entrar en SPSS para Windows ....................................................................................7

2. Creación de un Archivo de Datos ...........................................................................................8


2.1. Cómo escribir los datos...................................................................................................8
2.2. Cómo corregir un error ..................................................................................................12
2.3. Cómo grabar los datos ..................................................................................................12
2.4. Cómo salir de SPSS para Windows..............................................................................13
2.5. Cómo entrar en un archivo de datos ya existente.........................................................14
2.6. Cómo borrar una fila o una columna (y cómo recuperarla)...........................................15
2.7. Cómo moverse con rapidez dentro del archivo de datos ..............................................16
2.8. Manejo del Archivo de Resultados ................................................................................18
2.9. Cómo Imprimir el Archivo de Resultados ......................................................................22

SEGUNDA PARTE: FORMATO DE LOS DATOS Y TRANSFORMACIONES........................25

3. Formato de los Datos de Entrada.........................................................................................26

4. Transformación de las Variables ..........................................................................................32


4.1. Cómo recodificar las variables ......................................................................................33
4.2. Cómo crear nuevas variables ........................................................................................38
4.3. Cómo seleccionar sujetos .............................................................................................49
4.4. Cómo clasificar a los sujetos por orden en una o más variables .................................52

TERCERA PARTE: ANÁLISIS ESTADÍSTICO CON SPSS PARA WINDOWS ......................54

5. Descripción de Variables (Frecuencias y Descriptivos)........................................................55


5.1. Distribución de frecuencias ...........................................................................................55
5.2. Interpretación de la posición de un sujeto en un grupo.................................................73

6. Relaciones entre Variables (Correlación y Regresión) .........................................................76


6.1. La covarianza ................................................................................................................77
6.2. El coeficiente de correlación de Pearson ......................................................................79
6.3. Regresión lineal con una variable independiente..........................................................84
6.4. Regresión múltiple.........................................................................................................96

7. Comparaciones entre Medias(t de Student) .......................................................................101


7.1. Dos muestras independientes.....................................................................................102
7.2. Dos muestras relacionadas.........................................................................................108

8. Introducción al Análisis de Varianza ...................................................................................112


8.1. Análisis de varianza con un factor...............................................................................112
8.2. Análisis de varianza con dos o más factores ..............................................................120

9. Tablas de Contingencia ......................................................................................................125

10. Introducción al Análisis Estadístico No-Paramétrico ........................................................132


10.1. Prueba de bondad de ajuste de Kolmogorov-Smirnov..............................................133
10.2. Prueba U de Mann-Whitney para dos muestras independientes..............................134
10.3. Prueba T de Wilcoxon para dos muestras relacionadas ..........................................138

2
10.4. Prueba de Kruskal-Wallis para k muestras independientes .....................................145
10.5. Prueba de Friedman para k muestras relacionadas .................................................149

CUARTA PARTE: GENERACIÓN DE GRÁFICOS CON SPSS PARA WINDOWS..............156

11. Ejemplos de uso del Menú de Gráficos de SPSS ............................................................159


11.1. Generación de un gráfico de sectores ......................................................................159
11.2. Generación de un gráfico de dispersión....................................................................166

QUINTA PARTE: ESTADÍSTICA AVANZADA CON SPSS PARA WINDOWS .....................173

12. Análisis de Varianza con Medidas Repetidas...................................................................174


(Mª José Ferraces, Mª Soledad Rodríguez, Elena Andrade)
12.1.Analisis de varianza de un factor con medidas repetidas ..........................................174
12.2. Análisis de varianza de dos factores con medidas repetidas....................................179

13. Introducción al Análisis de Covarianza .............................................................................184


(Mª José Ferraces, Mª Soledad Rodríguez, Elena Andrade)
13.1. Ancova con una covariable .......................................................................................184

14. ANÁLISIS FACTORIAL ....................................................................................................189


(Gloria Seoane, Mª Soledad Rodríguez)
14.1. Ejecución del Análisis Factorial .................................................................................191
14.2. Resultados e interpretación.......................................................................................196

BIBLIOGRAFÍA.......................................................................................................................205

3
PRESENTACIÓN

Cada día son más los profesionales que necesitan de la estadística. Para facilitar su
trabajo se ha desarrollado un importante número de programas de ordenador. Dado
que la estadística es, hoy en día, un campo de conocimiento muy amplio no basta con
un solo programa. Es necesario contar con un paquete de programas. Este libro trata
sobre uno de estos paquetes de programas, denominado Statistical Package for the
Social Science (abreviadamente, SPSS).

Debido a la amplitud del alcance del paquete de programas SPSS, existe un


importante problema de comunicación entre los constructores del SPSS y sus
usuarios. Esta dificultad puede producir graves problemas de ansiedad en las
personas; sobre todo en aquellas que se acercan por primera vez al sistema SPSS.

El sistema SPSS podría considerarse como un bosque desonocido, que usted ha de


cruzar. Yo voy a cruzar el bosque ahora mismo y le invito a que me acompañe. Para
ello elegiré un camino. Lógicamente, el bosque es muy grande y existen muchos
caminos alternativos. Si me acompaña, luego, haciendo uso de su experiencia e
imaginación es muy probable que pueda cruzar el bosque usted sólo por otros muchos
caminos. Probablemente, el número de caminos sea, incluso, infinito.

Hace algún tiempo, escribí un libro titulado Introducción al análisis estadístico con
SPSS/PC+ en la Editorial PPU. El objetivo era el mismo que busco ahora. Lo único
que cambia es la versión del SPSS que vamos a utilizar. El entorno Windows es un
sistema que permite al usuario la manipulación de programas sin escribir apenas nada.
Lo único que tiene que hacer el usuario es moverse de unos menús a otros donde se le
va ofreciendo una gran variedad de recursos informáticos para que elija los que le
interesan.

En el presente libro asumo que usted tiene acceso a un ordenador, con el sistema
SPSS instalado para alguna de las versiones de Windows. Con respecto al entorno
Windows no asumo ningún tipo de conocimiento. En consecuencia, le indicaré todos
los pasos detenidamente, sin omisiones, hasta que usted adquiera cierta experiencia.

Otra novedad importante en este libro, con respecto a la versión anterior está en que
he dado participación en el mismo a mis compañeros de Universidad y amigos, Gloria
Seoane, María José Ferraces, María Soledad Rodríguez, Eulogio Real y Elena
Andrade. Su participación ayudará, sin duda, a enriquecer la idea original del libro.

4
RELACIÓN DE AUTORES:

Constantino Arce Fernández


Departamento de Métodos. Facultad de Psicología. Universidad de Santiago
de Compostela
José Eulogio Real Deus
Departamento de Métodos. Facultad de Psicología. Universidad de Santiago
de Compostela
Gloria Seoane
Departamento de Métodos. Facultad de Psicología. Universidad de Santiago
de Compostela
María José Ferraces Otero
Departamento de Métodos. Facultad de Psicología. Universidad de Santiago
de Compostela
María Soledad Rodríguez
Departamento de Métodos. Facultad de Psicología. Universidad de Santiago
de Compostela
Elena Andrade
Departamento de Métodos. Facultad de Psicología. Universidad de Santiago
de Compostela

5
PRIMERA PARTE: COMENZANDO A TRABAJAR CON SPSS
PARA WINDOWS

6
1. Cómo entrar en SPSS para Windows

Una vez instalado SPSS en el ordenador, Windows crea un acceso al programa en el


menú "Inicio". Este acceso se representa mediante un icono. La apariencia de este
icono varía dependiendo de la versión de SPSS que ud. utilice:

Icono para la versión 6.0 Icono para las versiones posteriores de


de SPSS SPSS

Al hacer doble clic sobre el icono aparecerá una ventana como la siguiente:

Veamos con detalle los elementos que aparecen en esta ventana:

• En la parte superior de la ventana observamos la cabecera, donde aparece el rótulo


"Sin título - Editor de datos de SPSS". Esta cabecera nos indica que nos
encontramos en la ventana del editor de datos. Esta ventana es la que nos permite,
pues, introducir datos en SPSS para analizarlos más tarde.
• Debajo de la cabecera aparece una lista de palabras (Archivo, Edición, Ver, Datos,
Transformar, Analizar, Gráficos, Utilidades, Ventana, ?) correspondientes a
distintas opciones. A esta lista de palabras se la denomina "menú". Cada una de las
opciones del menú contiene otras opciones, o "submenús", asociados con ella. Así,

7
la opción Archivo contiene todas las acciones que pueden llevarse a cabo en el
manejo de archivos; la opción Transformar contiene todas las transformaciones
que el programa nos permite realizar con los datos, etc.
• Inmediatamente debajo de este menú aparece una barra con diferentes botones.
Cada uno de ellos sirve para realizar rápidamente algunas de las acciones más
habituales en el uso de SPSS: Abrir un archivo, imprimir, etc. Al situar el puntero
del ratón sobre uno de estos botones aparecerá un mensaje que nos indicará la
finalidad del mismo. Estas acciones también pueden llevarse a efecto utilizando las
opciones del menú; los botones sirven simplemente para efectuarlas de forma más
rápida.
• Ocupando el espacio interno de la ventana del editor de datos de SPSS se
encuentran las celdillas de datos, que se encuentran organizadas en filas y
columnas. Las filas se hallan numeradas consecutivamente, mientras que las
columnas aparecen etiquetadas todas ellas con la palabra "var" (variable). Cada
celdilla contendrá un único dato. Cada columna de datos contendrá datos de una
misma variable, mientras que cada fila de datos contendrá datos de una misma
fuente.
• Debajo de las celdillas de datos vemos dos solapas llamadas Vista de datos y Vista
de variables. La primera de ellas nos muestra precisamente las celdillas de datos.
• Finalmente, en la parte inferior de la ventana, aparece un mensaje que nos indica
que el procesador de SPSS está preparado. En esta zona inferior es donde aparecen
los mensajes que SPSS nos puede mostrar para informarnos de los procesos que se
están llevando a cabo durante la sesión de trabajo.

2. Creación de un Archivo de Datos

Ahora ya vamos a comenzar a trabajar con SPSS. Un requisito indispensable es


disponer de un archivo de datos. El archivo de datos contiene aquella información
susceptible de análisis que ha sido obtenida en una investigación. Pueden ser las
respuestas dadas por una muestra de sujetos a un cuestionario; los resultados
obtenidos por un grupo de sujetos en una tarea experimental, o las relaciones
existentes entre un grupo de variables. En el caso más simple, el archivo de datos
contiene los registros obtenidos por una muestra de sujetos en una serie de variables.
Este tipo de datos suele disponerse en una matriz rectangular, donde cada fila
corresponde a un sujeto, y cada columna a una variable.

2.1. Cómo escribir los datos

Como yo no conozco su investigación, ni tengo acceso a sus datos, lo que voy hacer es
simular que realizo una investigación y que obtengo un conjunto de datos, que aunque
no son iguales a los suyos, sí se van a parecer en la forma.

Imagine que estuviera interesado en realizar una encuesta sociolingüística en Galicia,


la Comunidad Autónoma donde vivo. Para ello, utilizo el cuestionario que se muestra
a continuación.

8
1
Encuesta sociolingüística

Nada Regular Bien


1.- Entiendo el gallego hablado 1 2 3
2.- Entiendo el gallego escrito 1 2 3
3.- Soy capaz de hablar en gallego 1 2 3
4.- Soy capaz de escribir en gallego 1 2 3

Gallego Castellano Los dos


5.- Con los hijos hablo normalmente 1 2 3
6.- Con los familiares hablo normalmente 1 2 3
7.- Con los amigos/amigas hablo normalmente 1 2 3
8.- En el trabajo/estudio hablo normalmente 1 2 3
9.- Si tengo que intervenir en público hablo 1 2 3

Totalmente En desacuerdo De acuerdo Totalmente


en desacuerdo de acuerdo
10.- El gallego sirve para tratar cualquier tema 1 2 3 4
11.- El gallego es útil en el mundo de hoy 1 2 3 4
12.- El gallego debe ser la lengua habitual de Galicia 1 2 3 4
13.- La situación de la lengua gallega está mejorando 1 2 3 4

Gallego Castellano Las dos


14.- La lengua de la enseñanza en Galicia debe ser 1 2 3

Si (nivel elemental) Si (nivel perfeccionamiento) No


15.- Asistiría a un curso de gallego 1 2 3

Galicia (ciudad) Galicia (villa) Galicia (rural) Fuera de Galicia


16.- Lugar de nacimiento 1 2 3 4

Hombre Mujer
17.- Sexo 1 2 18.- Edad ....... años

Ninguno Primarios Medios Superiores


19.- Estudios 1 2 3 4

20.- Profesión

1 Estudiante 2 Profesor 3 Funcionario administración 4 Profesión liberal 5 Trabajador autónomo


6 Trabajador asalariado 7 Labores de casa 8 Otras

Si deseara conocer la opinión representativa de la población gallega tendría que


administrar, sin duda, el cuestionario a un gran número de personas. Pero, para hacer
el ejemplo asequible, voy asumir que el cuestionario ha sido administrado a tan sólo
20 personas. Lo que nosotros tenemos, por tanto, son 20 cuestionarios, que contienen
las respuestas emitidas por 20 personas. Lo que queremos es crear un archivo de datos
donde queden recogidas las respuestas de estas 20 personas. Para ello, decidimos
utilizar el Editor de Datos del sistema SPSS para Windows.

Imagine que el que se ofrece a continuación es el cuestionario correspondiente al


primero de los sujetos.

1
Encuesta original de Bieito Silva, profesor del ICE de la Universidad de Santiago de Compostela.

9
Cuestionario correspondiente al sujeto 1

Nada Regular Bien


1.- Entiendo el gallego hablado 1 2 3
2.- Entiendo el gallego escrito 1 2 3
3.- Soy capaz de hablar en gallego 1 2 3
4.- Soy capaz de escribir en gallego 1 2 3

Gallego Castellano Los dos


5.- Con los hijos hablo normalmente 1 2 3
6.- Con los familiares hablo normalmente 1 2 3
7.- Con los amigos/amigas hablo normalmente 1 2 3
8.- En el trabajo/estudio hablo normalmente 1 2 3
9.- Si tengo que intervenir en público hablo 1 2 3

Totalmente En desacuerdo De acuerdo Totalmente


en desacuerdo de acuerdo
10.- El gallego sirve para tratar cualquier tema 1 2 3 4
11.- El gallego es útil en el mundo de hoy 1 2 3 4
12.- El gallego debe ser la lengua habitual de Galicia 1 2 3 4
13.- La situación de la lengua gallega está mejorando 1 2 3 4

Gallego Castellano Las dos


14.- La lengua de la enseñanza en Galicia debe ser 1 2 3

Si (nivel elemental) Si (nivel perfeccionamiento) No


15.- Asistiría a un curso de gallego 1 2 3

Galicia (ciudad) Galicia (villa) Galicia (rural) Fuera de Galicia


16.- Lugar de nacimiento 1 2 3 4

Hombre Mujer
17.- Sexo 1 2 18.- Edad ....... años

Ninguno Primarios Medios Superiores


19.- Estudios 1 2 3 4

20.- Profesión

1 Estudiante 2 Profesor 3 Funcionario administración 4 Profesión liberal 5 Trabajador autónomo


6 Trabajador asalariado 7 Labores de casa 8 Otras

Para grabar estos datos no tenemos que movernos de la pantalla donde estábamos
situados. En efecto, nos encontramos ya en el editor de datos que es, como ya se ha
comentado, la ventana en la que se guardan los datos que van a ser analizados. Fíjese
de nuevo en la rejilla que constituye la parte interna de la ventana. La rejilla que usted
está viendo es, en realidad, una pequeña porción de una hoja gigantesca, con miles de
filas y miles de columnas. Si desea comprobarlo, haga clic con el botón izquierdo del
ratón, una sola vez, sobre la flecha abajo en forma de triángulo invertido, que está
situada en la parte inferior derecha de la ventana del editor de datos. Observará que ha
avanzado una línea hacia abajo. Si hace clic otra vez, avanzará otra línea más, y así
sucesivamente. Existen miles de líneas. Si desea explorar este aspecto por sí mismo,
asegúrese de que está situado sobre la flecha abajo, haga clic y no suelte el dedo.
Observará como van pasando filas y más filas. Fíjese en el pequeño cuadrado situado
dentro de la barra vertical que limita, en su parte inferior, la flecha abajo que usted
está pulsando. Este cuadrado es el indicador de desplazamiento, y sirve para saber
cuántas filas hemos bajado en el archivo de datos. A medida que vamos bajando filas,
el indicador de desplazamiento se va aproximando a la parte inferior de la barra
vertical.

Cuando lo estime oportuno, vuelva a las primeras líneas del editor de datos. Para
hacer esto de forma rápida, coloque el puntero sobre el indicador de desplazamiento y
haga clic con el botón izquierdo del ratón. Sin soltar el botón, arrastre el indicador

10
hasta la parte superior de la barra vertical, y luego suéltelo. Se encontrará ahora en la
primera línea.

Con las columnas sucede lo mismo. Aunque en la pantalla sólo se ofrecen unas
cuantas existen, en realidad, miles de columnas. Con la flecha derecha, que está
situada en la parte inferior derecha de la ventana podría moverse usted a través de las
columnas. No obstante, en este caso, no lo intente porque las columnas no están
numeradas y, aunque se mueva a la derecha, no podrá apreciarlo. Fíjese que también
existe un indicador de desplazamiento en la barra horizontal situada en la parte
inferior de la ventana del editor de datos. Este otro indicador de desplazamiento le
sirve para saber cuántas columnas se ha movido hacia la derecha.

En SPSS se asume que en la fila 1 se coloca la información relativa al primer sujeto,


en la fila 2 la información relativa al segundo sujeto, y así sucesivamente. De forma
similar, se asume que la información que situemos en la primera columna es el primer
registro (o medida) que hemos efectuado para un sujeto, la información que situemos
en la segunda columna es el segundo registro, y así sucesivamente. Por tanto, para
grabar las respuestas del sujeto 1 lo que tenemos que hacer es situarnos en la primera
fila de la rejilla.

Es probable que la casilla de la rejilla correspondiente a la fila 1 y a la columna 1


tenga los bordes más marcados que el resto de las casillas. Si no fuera así, sitúe el
puntero sobre esta casilla, y haga clic. Los bordes de la casilla aparecerán ahora más
marcados. Para estar seguro de que se encuentra realmente en la primera casilla,
observe si el indicador de desplazamiento vertical se encuentra en lo más alto de la
barra vertical, y si el indicador de desplazamiento horizontal se encuentra totalmente a
la izquierda de la barra horizontal. También puede ir de un solo golpe a la primera
casilla pulsando la combinación de teclas Ctrl+Inicio (pulse la tecla Ctrl y, sin
soltarla, pulse a continuación la tecla Inicio).

Lo que queremos indicar al sistema marcando esta casilla es que éste es el lugar en el
que deseamos introducir el primer dato. Hemos elegido la fila 1 porque se trata del
primer sujeto, y hemos elegido la columna 1 porque se trata del primer registro de este
sujeto.

Si busca ahora la respuesta del primer sujeto al primer ítem del cuestionario,
observará que se trata de un 3. Para introducir los datos abandonamos
momentáneamente el ratón y cogemos el teclado del ordenador. Pulsamos la tecla
correspondiente al número 3 y cuando lo hayamos hecho pulsamos la tecla que tiene
la flecha mirando hacia la derecha [→]. Si lo hace así, en un instante podrá observar
como ha aparecido escrito el número 3 (con dos decimales) en la casilla deseada.
Justo encima de esta casilla, también podrá observar como el sistema le ha concedido
un nombre a esta respuesta. Le ha denominado var00001, que se puede interpretar
como "variable 1".

Ahora que ya ha registrado la primera respuesta del sujeto 1, fíjese como la casilla que
está ahora bordeada es la casilla correspondiente a la columna 2. El sistema está
esperando que introduzca la segunda respuesta emitida por este sujeto. Si vuelve otra
vez al cuestionario, podrá observar como esta respuesta es nuevamente un 3. Escriba

11
el número 3 y pulse la tecla con la flecha que mira hacia la derecha [→].
Inmediatamente aparecerá el número 3 (con dos decimales) escrito en la posición
deseada. Observe también como encima de esta casilla aparece ahora la etiqueta
var00002, que puede interpretarse como variable 2. Continúe introduciendo así los
datos correspondiente al sujeto 1. Proceda despacio. Espere siempre a que el número
que introduzca aparezca en la casilla correspondiente, antes de introducir un nuevo
número. Cuando llegue al ítem 18 del cuestionario, fíjese en que debe escribir dos
números en lugar de uno solo, antes de pulsar la tecla con la flecha que mira hacia la
derecha. Cuando llegue al ítem 20, asegúrese, aunque sea el último, de que también
pulsa la tecla que mira hacia la derecha. En ese momento habrá acabado de introducir
la información relativa al sujeto 1.

2.2. Cómo corregir un error

Antes de continuar, repase todos los datos y asegúrese de que no existe ningún error.
Para ello vaya a la columna 1. Para hacer esto rápidamente, de un solo "golpe", pulse
Ctrl+[←] (Pulse la tecla Ctrl y, sin soltarla, pulse la tecla flecha a la izquierda [←]).
Repase ahora los datos. El primer número debe ser un 3, el segundo un 3, el tercero...
Si observa algún error, sitúese en la casilla que contenga dicho error. Utilice para ello
las flechas del teclado, la que mira hacia la izquierda o la que mira hacia la derecha,
según proceda. Una vez situado en la casilla que contiene el error, escriba el número
correcto y pulse la tecla con la flecha que mira hacia la derecha. Verá como aparece
ahora el número deseado en la casilla correspondiente.

2.3. Cómo grabar los datos

Cuando haya finalizado de escribir los datos correspondientes al sujeto 1, lo que


vamos hacer es grabarlos en un archivo. Hasta ahora, aunque usted vea los datos
escritos en la rejilla, en realidad, no están grabados aún. Para grabarlos haga lo
siguiente. Mueva el puntero del ratón a la parte superior izquierda de la pantalla,
donde está la opción Archivo, y haga clic con el botón izquierdo del ratón. Se
despliega un menú debajo con varias opciones. Baje hasta la opción Guardar, y haga
clic.

También puede utilizar, en la barra de botones, el botón con el icono que


representa un diskette.

En ambos casos se encontrará el siguiente cuadro de diálogo:

12
Preste atención al recuadro situado a la derecha del rótulo Nombre de archivo. Dentro
del mismo hay una barra vertical que parpadea ligeramente. Esta barra es el "cursor",
que le indica que puede escribir en ese recuadro el nombre del archivo. El nombre de
un archivo consta de dos partes separadas por un punto (.). La primera parte puede ser
un nombre cualquiera, a elección del usuario. El nombre que vamos a elegir aquí será
encuest. La segunda parte del nombre, a la que se denomina extensión, tiene que ser
necesariamente .sav, y no es necesario especificarla, puesto que SPSS la adjudica por
defecto (puede verlo en el recuadro inferior, donde figura la leyenda Guardar como
tipo). Por tanto, el nombre completo del archivo de datos una vez almacenado será
encuest.sav. Escriba encuest en el recuadro donde debe especificarse el nombre de
archivo. Cuando lo haya hecho, coja nuevamente el ratón, mueva el puntero a la parte
derecha de la pantalla, colóquese sobre el botón Guardar y haga clic.

Volverá aparecer la pantalla con la rejilla. Sus datos, a diferencia de la vez anterior,
están ahora grabados en un archivo denominado encuest.sav. Puede apreciarlo porque
en la cabecera de la ventana, en lugar del rótulo "Sin título" aparece el nombre del
archivo: "encuest".

Este podría ser un buen momento para finalizar la primera sesión de trabajo con el
sistema SPSS para Windows.

2.4. Cómo salir de SPSS para Windows

Para salir, sitúe el puntero del ratón sobre la opción Archivo, y haga clic. Se abrirá un
menú ya conocido para usted. Elija la última opción del menú, denominada Salir, y
vuelva a hacer clic. Ya ha salido usted de SPSS para Windows. Existen otras formas
de salir de un programa en Windows, pero le aconsejo que no las utilice. Aunque no
suelen dar problemas, están pensadas más bien para cerrar sin más una pequeña
aplicación sin menús o una ventana, que para salir de un programa complejo como
SPSS.

13
2.5. Cómo entrar en un archivo de datos ya existente

Supongamos que ahora, en su segunda sesión de trabajo, lo que desea es grabar los
datos de los restantes 19 sujetos. Recuerde que el número de sujetos era 20. Hasta
ahora sólo hemos grabado los datos del primer sujeto en el archivo encuest.sav.
Vamos a entrar ahora en este mismo archivo y grabar los datos correspondientes a los
otros 19 sujetos. Suponga que estos son los datos.

Sujeto 1: (Estos datos ya están grabados)


Sujeto 2: 2 2 2 2 2 2 2 3 2 3 3 3 3 3 3 1 1 38 3 3
Sujeto 3: 3 3 3 3 3 1 3 3 3 3 3 3 3 3 3 3 2 19 2 7
Sujeto 4: 3 3 2 2 2 2 2 3 2 2 2 2 3 2 3 4 2 20 4 1
Sujeto 5: 1 1 1 1 2 2 2 2 2 1 1 1 2 2 3 4 2 40 3 7
Sujeto 6: 2 2 1 1 2 2 2 2 1 3 2 4 4 3 3 1 2 30 2 7
Sujeto 7: 2 2 2 2 2 2 2 2 3 3 4 4 1 3 3 4 2 37 4 2
Sujeto 8: 2 2 2 2 2 2 2 2 2 3 3 3 1 3 3 4 2 32 4 4
Sujeto 9: 3 3 2 2 2 2 2 2 2 4 3 3 4 3 2 1 2 20 4 1
Sujeto 10: 3 3 3 3 3 3 2 3 3 4 3 4 1 1 2 1 2 48 4 7
Sujeto 11: 3 3 2 2 2 2 2 2 3 3 2 4 2 3 2 3 2 22 3 1
Sujeto 12: 3 3 2 2 3 3 3 2 3 3 2 3 3 3 2 3 2 43 3 7
Sujeto 13: 3 3 3 3 1 1 3 3 2 3 3 4 4 3 1 3 2 44 3 8
Sujeto 14: 3 2 2 2 2 3 3 2 2 2 2 2 3 3 3 2 2 29 3 7
Sujeto 15: 3 3 2 2 3 3 3 3 3 4 4 4 4 3 1 3 2 55 3 7
Sujeto 16: 3 3 2 1 2 2 2 2 2 4 4 4 3 3 1 2 2 42 3 7
Sujeto 17: 3 3 3 2 3 3 3 3 3 4 4 4 4 3 2 3 2 44 4 7
Sujeto 18: 3 3 3 1 2 2 2 2 2 4 4 4 4 3 3 1 2 41 3 7
Sujeto 19: 3 3 3 2 3 3 3 3 3 4 4 4 3 3 3 1 2 30 2 7
Sujeto 20: 3 3 1 2 2 2 2 2 2 3 2 2 3 2 3 4 2 34 4 4

Para entrar en SPSS para Windows siga los pasos indicados en el apartado 1.

Recuerde que lo que deseamos hacer ahora es entrar nuevamente en el archivo


encuest.sav que ha creado usted en la sesión anterior. Para ello, siga los siguientes
pasos:

1. Sitúese sobre Archivo y haga clic.


2. Sobre el menú que se despliega debajo de Archivo, elija la opción Abrir.

También puede abrir directamente el archivo de datos situándose, en la barra de


botones, sobre el botón con el icono que representa una carpeta abierta.

Observará que aparece un cuadro de diálogo muy similar al que vio en la sesión
anterior. Lo que se ofrece en este recuadro es un listado, ordenado alfabéticamente, de
todos los archivos de datos de que dispone usted en el directorio de trabajo. Entre
ellos se encuentra encuest.sav. Sitúese sobre él y haga clic. Se resaltará el nombre el
archivo y, además, verá como aparece escrito el nombre de este archivo en el recuadro
situado a la izquierda del rótulo Nombre de archivo. Lo que usted le ha indicado al
programa es que desea trabajar con este archivo. A continuación, coloque el puntero
del ratón sobre el botón Abrir y haga clic. Inmediatamente aparecerán los datos
introducidos en la sesión anterior.

Para continuar grabando datos, sitúe el puntero del ratón en la fila 2, columna
var00001, y haga clic. Observará como esta casilla aparece ahora con los bordes
sombreados.

14
Tal como habíamos indicado en la primera sesión, la fila 2 está reservada para el
segundo sujeto. En la columna var00001 escribiremos la primera respuesta de este
sujeto, en la columna var00002 escribiremos la segunda respuesta, y así
sucesivamente hasta la columna var00020, donde escribiremos la respuesta dada por
este sujeto al último ítem del cuestionario.

Como la respuesta al primer ítem es un 2, escriba un 2 y pulse, en el teclado, la flecha


que mira hacia la derecha. Observará como aparece un 2 (con dos decimales) en la
casilla deseada. Además, podrá observar como la casilla sombreada es ahora la
correspondiente a var00002. En esta casilla, y en las siguientes de la misma fila,
aparece ahora una coma (,). No se preocupe por ello. Lo único que indica esta coma es
que faltan todavía 19 datos por introducir para el segundo sujeto. Escriba otra vez el
número 2, dado que esta es la respuesta de este sujeto al ítem 2 del cuestionario.
Continúe así hasta finalizar con este sujeto.

Seguramente habrá podido apreciar que el tiempo que tarda ahora el ordenador en
situar las respuestas en la casilla correspondiente es menor que el que le llevaba
cuando se trataba del primer sujeto. La razón es que ahora las variables ya están
creadas. En el primer sujeto todas las columnas se denominaban var, y el programa
necesitaba un cierto tiempo para asignarle, por defecto, un nombre a cada columna
(variable).

En la primera sesión ya se ha indicado cómo debe proceder si se equivoca en un


número y decide escribir otro en su lugar. Existen dos botones que sirven de auxilio
en el caso de que necesite insertar un sujeto o una variable que se le pasó por alto. Son
éstos:

El botón Insertar caso le permite insertar los datos de un sujeto entre dos filas
del archivo de datos.

El botón Inservar variable le permite insertar una nueva variable entre otras dos
cualesquiera.

2.6. Cómo borrar una fila o una columna (y cómo recuperarla)

2.6.1. Cómo borrar una fila (y cómo recuperarla)

Si el número de errores cometidos al introducir los datos de un sujeto es muy grande,


lo que probablemente deseará es borrar toda la información correspondiente a ese
sujeto y volver a escribirla de nuevo. Para ello, proceda como se se indica a
continuación.

A la izquierda de cada una de las filas de la rejilla aparece un botón gris con un
número entero escrito en él. Este botón es el que ayuda a identificar la fila (sujeto). La
primera fila está identificada con el número 1, la fila 2 con el número 2, y así
sucesivamente. Vamos ahora a hacer una prueba borrando los datos que usted acaba

15
de introducir para el segundo sujeto. Si no le apetece volver a escribir de nuevo los
datos, no se preocupe; luego le mostraré cómo puede recuperarlos otra vez.

Dado que lo que desea es borrar la fila 2, primero tiene que seleccionarla. Para ello,
sitúese sobre el botón gris con el número 2, que identifica esta fila y, a continuación,
haga clic. Observe que ahora el botón aparece "hundido", y la casilla inmediatamente
a su derecha, marcada. El resto de las casillas de la misma fila aparecen ahora en
vídeo inverso (caracteres blancos sobre fondo negro). Aunque usted sólo puede ver las
primeras columnas, en realidad, las restantes (hasta la 20) también han sido
seleccionadas. Si desea comprobarlo usted mismo puede desplazarse hacia la derecha
utilizando el indicador de desplazamiento horizontal que se encuentra en la parte
interior de la ventana de datos. No utilice las flechas del teclado para desplazarse;
anularía la selección que acaba de hacer. Cuando haya hecho esta comprobación,
vuelva a la posición inicial; es decir, a la primera columna de esta fila. Sitúe ahora el
puntero del ratón sobre la opción Edición, y haga clic. Del menú que se despliega
ahora elija la opción Eliminar y haga clic. Observará ahora como la información
contenida en la fila 2 ha desaparecido. También puede realizar esta acción utilizando
la tecla Supr (borrar) de su teclado.

Si no desea volver a introducir los datos, no tiene por qué hacerlo. Dentro del mismo
menú anterior existe otra opción que le permite anular su última acción. Vuelva a
situarse sobre la opción Edición, y seleccione ahora la opción Deshacer. Observará
como todos los datos de la fila 2 han sido recuperados.

También puede utilizar el botón Deshacer para anular la última acción.

2.6.2. Cómo borrar una columna

Al introducir los datos puede ocurrir que, accidentalmente, se cree una variable más
de las deseadas. Es posible que también esto le haya pasado a usted, y que de ese
modo haya creado la variable var00021, que no necesita. Si ese es el caso y desea
borrarla, haga lo siguiente.

1. Sitúe el puntero del ratón sobre el botón gris con el rótulo var00021, y haga clic.
Observará como la casilla inmediatamente inferior aparece ahora marcada, y las
que se encuentran bajo ella se muestran en vídeo inverso. Dado que sólo tiene dos
filas, sólo podrá ver en vídeo inverso la casilla de la fila 2. Si hubiese más filas
también aparecerían de ese modo.
2. Sitúe el puntero del ratón sobre la opción Edición y haga clic.
3. Elija la opción Eliminar, y haga clic de nuevo. Observará como la columna
var00021 ha desaparecido.

2.7. Cómo moverse con rapidez dentro del archivo de datos

Ahora ya sabe que puede moverse arriba y abajo del archivo de datos utilizando el
indicador de desplazamiento vertical de la parte derecha de la ventana, y puede

16
moverse a izquierda y derecha utilizando el indicador de desplazamiento horizontal de
la parte inferior de la ventana. También ha visto que puede ir rápidamente a la primera
columna del archivo de datos utilizando la combinación de teclas Ctrl+[←]. Pero
existen más combinaciones de teclas que le permiten moverse con rapidez y facilidad,
no sólo en la ventana de datos, sino también en cualquier otra ventana de SPSS. Las
combinaciones más útiles son las siguientes:

Tecla(s) Función

Inicio Nos lleva a la primera columna sin cambiarnos de fila


Fin Nos lleva a la última columna sin cambiarnos de fila
Ctrl+[←] Nos lleva a la primera columna sin cambiarnos de fila
Ctrl+[→] Nos lleva a la última columna sin cambiarnos de fila
Ctrl+[↑] Nos lleva a la primera fila sin cambiarnos de columna
Ctrl+[↓] Nos lleva a la última fila sin cambiarnos de columna
Ctrl+Inicio Nos lleva a la primera fila y primera columna (principio del archivo)
Ctrl+Fin Nos lleva a la última fila y última columna (final del archivo

Recuerde que las combinaciones del tipo Ctrl+... significan que pulse la tecla Ctrl y,
sin soltarla, pulse a continuación la otra tecla. Otras herramientas para desplazarse por
el archivo de datos son éstas:

El botón Ir a caso le permitirá ir directamente a un caso, o sujeto determinado.


Únicamente debe especificar el número de fila correspondiente al sujeto.

El botón Variables le mostrará información sobre las variables existentes en su


archivo de datos. También le permite ir directamente a una variable determinada.

El botón Buscar le ayuda a localizar un dato determinado dentro de una variable


del archivo de datos.

Continuemos ahora con la introducción de datos. Para empezar a escribir la


información relativa al tercer sujeto, necesitará situarse nuevamente en la primera
columna (var00001). Para ello, utilice la tecla Inicio, o la combinación de teclas
Ctrl+[←] ya comentada. Cuando esté en la primera columna, baje a la fila 3.
Comience a escribir los datos correspondientes al tercer sujeto. Cuando haya
finalizado con este sujeto, vuelva a la primera columna para comenzar a escribir los
datos del siguiente sujeto. Continúe del mismo modo hasta llegar al último sujeto.
Procure hacerlo despacio y no cometer errores. Una vez que haya terminado de
introducir todos los datos, sería conveniente que los revisase por si hubiese algún
error. Si todo está bien, daremos por finalizada la segunda sesión de trabajo, grabando
el archivo de datos y saliendo de SPSS para Windows.

Para grabar el archivo simplemente tenemos que proceder del mismo modo que se
describe en el apartado 2.3, con la única diferencia de que nuestro archivo de datos
ahora ya tiene nombre, por lo que SPSS no nos pedirá ninguno. Una vez grabados los
datos podemos salir de SPSS tal y como se describe en el apartado 2.4.

17
2.8. Manejo del Archivo de Resultados

En las dos sesiones anteriores usted ha aprendido a crear un archivo de datos


utilizando la ventana de datos de SPSS. En esta nueva sesión va a aprender a guardar
los resultados de un análisis estadístico. Para ello, es necesario disponer del archivo de
datos, por lo que recuperaremos primero el archivo encuest.sav.

Puede abrir el archivo encuest.sav utilizando los menús, o el botón con el dibujo de
una carpeta abierta que se encuentra en la barra de botones. Este procedimiento ya lo
ha visto en el apartado 2.5. Cuando aparezca el cuadro de diálogo, seleccione el
archivo encuest.sav de la lista que aparece en el recuadro de mayor tamaño, y pulse el
botón Abrir.

Si todo ha ido bien, en la ventana de datos aparecerán ahora los datos de los 20 sujetos
que contestaron la encuesta sociolingüística. Vamos, a continuación, a pedirle a SPSS
que nos proporcione una distribución de frecuencias para los 20 ítems del
cuestionario.

Una distribución de frecuencias es una Tabla de datos con dos columnas principales.
Una primera columna con todos los valores observados para una variable. Y una
segunda columna con el número de casos (frecuencias) que ha obtenido cada uno de
dichos valores. Verá que resulta realmente sencillo hacer esto en SPSS. Coloque el
puntero del ratón sobre la opción Analizar. En el menú que se despliega a
continuación, elija la opción Estadísticos descriptivos. Finalmente, del menú que se
desplegará a la derecha, elija la opción Frecuencias. Aparecerá el siguiente cuadro de
diálogo:

Observe el cuadro de diálogo. En la zona izquierda aparece un recuadro con todas las
variables que contiene el archivo de datos, ordenadas desde var00001 hasta
var00020. A su derecha aparece un botón con una flecha que apunta hacia la derecha,
donde se encuentra otro recuadro, que lleva el encabezado Variables. En este último
recuadro es en el que debe usted colocar aquellas variables que van a entrar en el
análisis. Puesto que queremos obtener la distribución de frecuencias para las 20
variables, debemos seleccionar todas ellas en el recuadro de la izquierda y moverlas al

18
recuadro vacío de la derecha. Para ello, coloque el puntero del ratón sobre la primera
de las variables, var00001, que aparece en vídeo inverso. Pulse el botón izquierdo del
ratón y no lo suelte. A continuación, vaya bajando despacio el puntero hasta el borde
inferior del recuadro. Observará que, a medida que mueve el puntero hacia abajo, van
quedando marcadas las variables de la lista. Cuando llegue a la parte inferior del
recuadro, donde se halla var00011, la lista continuará descendiendo hasta que llegue a
la última variable, var00020. Ahora todas las variables están seleccionadas y aparecen
en vídeo inverso. Suelte el botón izquierdo, y no lo pulse de nuevo; desharía la
selección anterior. Para introducir las variables en el recuadro de la derecha,
simplemente tiene que pulsar el botón con la flecha que apunta a ese recuadro. Ahora
todas las variables han pasado al recuadro de la derecha, lo que significa que todas
ellas entrarán en el análisis. Pulse ahora el botón Aceptar para realizar el análisis de
frecuencias.

Una vez que comienza el análisis, SPSS crea una nueva ventana donde se almacenan
los resultados. La ventana tiene este aspecto:

La ventana de resultados contiene varios elementos que vamos a comentar de arriba


abajo, al igual que hicimos para la ventana de datos:

• En la parte superior de la ventana aparece la cabecera con el rótulo "Resultados1 -


Visor SPSS". Esto nos indica que nos hallamos en la ventana donde se muestran los
resultados de los análisis efectuados.
• Debajo de la cabecera aparece un menú ligeramente diferente al de la ventana de
datos. En lugar de las opciones Datos y Transformar, propias del menú del editor

19
de datos, aparecen ahora las opciones Insertar y Formato, que son específicas del
visor de resultados.
• Inmediatamente debajo del menú aparece una barra con botones. Aunque algunos
de ellos son iguales a los de la ventana del editor de datos, la mayoría son
diferentes y específicos de esta nueva ventana.
• Ocupando el espacio interno del visor de resultados, vemos dos zonas
diferenciadas a la izquierda y la derecha. La zona de la izquierda nos permite
"navegar" por los resultados obtenidos, desde el título del análisis y los estadísticos
generales para los 20 análisis de frecuencias hasta cada una de las 20 tablas de
frecuencias obtenidas para las variables incluidas en el análisis. La zona de la
derecha nos muestra el resultado concreto que hayamos elegido en la zona de la
izquierda. También es posible desplazarse directamente por los resultados
utilizando la barra de desplazamiento vertical de la zona de la derecha.
• Finalmente, en la zona inferior de la ventana aparece de nuevo el mensaje que nos
indica que el procesador de SPSS está preparado.

El manejo del visor de resultados es muy sencillo una vez que se comprende su
funcionamiento. Para familiarizarse con el mismo, pruebe a seleccionar, en la zona
izquierda del visor, la tabla de frecuencias para la variable var00019. En la zona
derecha aparecerá una tabla como la siguiente:

VAR00019

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 2.00 4 20.0 20.0 20.0
3.00 9 45.0 45.0 65.0
4.00 7 35.0 35.0 100.0
Total 20 100.0 100.0

Lo que usted observa en esta tabla es la distribución de frecuencias correspondiente a


la pregunta 19 del cuestionario, que fue etiquetada por SPSS como var00019. La
primera columna de la tabla contiene los valores de var00019. Recuerde que existían
4 categorías para el ítem "Estudios": 1=ninguno, 2=primarios, 3=medios,
4=superiores. La segunda columna, etiquetada con la palabra Frecuencia, contiene las
frecuencias (o número de sujetos) para cada una de los valores de var00019. El valor
4 de esta columna indica que 4 sujetos tienen estudios primarios (no hay ningún sujeto
sin estudios), el valor 9 siguiente indica que 9 sujetos tenían estudios medios, y el
valor 7 indica que 7 sujetos tenían estudios superiores. Finalmente, se presenta el total
de sujetos que respondieron a la pregunta (20). La tercera columna, etiquetada con la
palabra Porcentaje, contiene la misma información que la columna anterior, pero con
las frecuencias transformadas en porcentajes. La cuarta columna, etiquetada como
Porcentaje válido, contiene los porcentajes válidos, que en este caso son los mismos
que los de la columna anterior. Finalmente, la columna etiquetada como Porcentaje
acumulado contiene los porcentajes acumulados. Éstos nos indicarían que el 20% de
los sujetos tenían estudio primarios o menos, el 65% estudios medios o menos, y que
el 100% de los sujetos tenían estudios superiores o menos; un resultado lógico, puesto
que no hay ningún nivel de estudios superior a éste.

20
Del mismo modo que ha examinado las tablas de frecuencias para la variable
var00019 puede examinar también cualquier otro resultado incluido dentro del visor.
Existen una serie de botones que le facilitan el trabajo de moverse por el visor.
Veamos su función:

El botón Seleccionar últimos resultados le permite ir, dentro de la ventana del


visor de resultados, a los últimos análisis efectuados.

El botón Designar ventana le permite, cuando tiene varias ventanas de


resultados abiertas, indicar cuál de ellas recibirá los resultados de los siguientes
análisis.

Los botones Ascender y Degradar le permiten subir o bajar un nivel un


resultado o grupo de resultados en la casilla izquierda del visor.

Los botones Expandir y Contraer le permiten encoger o desplegar un


conjunto de resultados obtenidos en un sólo análisis.

Los botones Mostar y Ocultar sirven para mostrar u ocultar partes del
listado de resultados.

El botón Insertar encabezado le permite insertar un encabezado antes de un


resultado.

El botón Insertar título le permite poner título a un grupo de resultados.

El botón Insertar texto le permite colocar un texto informativo junto a un


resultado.

A continuación, vamos a guardar los resultados obtenidos en un archivo. La forma en


que guardamos un archivo de resultados es casi exactamente igual a la empleada para
el archivo de datos. En primer lugar, mueva el puntero del ratón hacia la opción
Archivo y haga clic. A continuación, seleccione, dentro del menú que se despliega, la
opción Guardar. También puede hacer esto mismo pulsando sobre el botón que
representa un diskette. En ambos casos aparecerá el siguiente cuadro de diálogo:

21
Como ve, este cuadro de diálogo es casi idéntico al que aparecía cuando grabó usted
el archivo de datos. Fíjese en el recuadro situado a la derecha del rótulo Nombre de
archivo. Aparece ya escrito un nombre para el archivo: Resultados1.spo. Este es el
nombre que SPSS asignará, por defecto, al archivo de resultados, pero puede
reemplazarse por otro más adecuado. Pulse la tecla Supr del teclado de su ordenador;
esto borrará el nombre asignado por defecto al archivo de resultados. Escriba ahora
encuest en el recuadro vacío. Ahora el archivo se guardará con el nombre encuest.spo
(recuerde que la extensión, .spo, es asignada automáticamente por SPSS). Pulse ahora
el botón Guardar.

Una vez hecho esto, el rótulo "Resultados1" en la cabecera de la ventana de resultados


se verá sustituido por el nombre de nuestro archivo de resultados: "encuest.spo".

Además de guardar el archivo de resultados en el formato asignado por SPSS, también


es posible exportarlos en un formato distinto (por ejemplo, como texto simple).

El botón Exportar es el que le permite exportar sus resultados en un formato


distinto al asignado por SPSS.

2.9. Cómo Imprimir el Archivo de Resultados

Probablemente ya ha comprobado al ver el listado de resultados, intentar leer un


archivo de este tipo en pantalla puede resultar un trabajo "pesado", sobre todo si
consta de muchas páginas. La solución más corriente suele ser imprimirlo y leerlo
cómodamente en papel. Para ello, asegúrese de que tiene la impresora correctamente
conectada al ordenador, y que ésta está encendida.

Mueva el puntero del ratón a la opción Archivo, y seleccione a continuación la opción


Imprimir.

También puede hacer esto utilizando la barra de botones; para ello, pulse el
botón que tiene un icono con el dibujo de una impresora.

22
En ambos casos aparecerá el cuadro de diálogo de la impresora:

Como puede ver en este cuadro de diálogo aparece el nombre de la impresora.


Compruebe que en su pantalla aparece el nombre de su impresora correctamente
especificado. A continuación, se nos pregunta si se van a imprimir todos los
resultados o sólo una selección, y el número de copias (por defecto, 1). Observe si en
el cuadro de diálogo que usted tiene en pantalla aparecen seleccionados todos los
resultados visibles; en caso de que tuviese marcada la opción Selección, significaría
que ha marcado sin querer un trozo de listado y que éste, por tanto, aparecerá
incompleto. Si es así, marque la opción Todos los resultados visibles.

A continuación pulse el botón Aceptar. Espere unos instantes y obtendrá una copia del
listado en su impresora. Puede utilizar este listado para comprobar que no ha
cometido errores al introducir los datos. Compruebe que no ha omitido datos en
ninguna variable (esto es, que el número total de sujetos en todos los análisis es de
20), y que no existen valores fuera de rango (por ejemplo, en var00001, que no hay
valores distintos de 1, 2 y 3).

También puede imprimir el archivo de datos si lo desea. De este modo podrá


comprobar sobre los propios datos si ha cometido algún error. Para ello sólo tiene que
cambiar a la ventana del editor de datos y, una vez en ella, repetir el procedimiento
que utilizó para imprimir el archivo de resultados.

El botón Ir a datos le permite pasar directamente desde el visor de resultados a


la ventana del editor de datos.

El botón Presentación preliminar le permite ver cómo saldrá impreso su archivo


de resultados antes de enviarlo a la impresora.

23
Una vez que hemos realizado el análisis de los datos en que estábamos interesados
(obtener una distribución de frecuencias para cada variable) y hemos obtenido una
copia impresa de los mismos podemos dar por finalizada la sesión. Seleccione la
opción Archivo y, dentro del menú, seleccione la opción Salir. Se cerrarán ambas
ventanas: la del editor de datos y la del visor de resultados. En la próxima sesión
veremos cómo preparar los datos y darles formato para facilitar tanto la introducción
de los mismos como la lectura de listados.

24
SEGUNDA PARTE: FORMATO DE LOS DATOS Y
TRANSFORMACIONES

25
Ahora que ya sabe introducir la matriz de datos y obtener los resultados de un análisis,
vamos a ver cómo puede mejorar el modo de presentación de los datos y cómo
efectuar transformaciones adicionales sobre los datos originales.

3. Formato de los Datos de Entrada

En esta nueva sesión vamos a continuar utilizando el archivo de datos encuest.sav.


Abra el archivo de datos encuest.sav y observe los números que aparecen en la
pantalla. Todos ellos tienen dos decimales. Sin embargo, usted sólo introdujo números
enteros ¿Por qué aparecen ahora con dos decimales? La razón es que, por defecto,
SPSS adjudica a los datos un formato numérico, de 8 dígitos con 2 decimales. SPSS
procede así, por defecto, porque este es el formato más frecuente para los datos de una
investigación. En la mayoría de los casos nos ocurrirá que nuestros datos se ajusten a
este formato general y no tengamos que cambiar nada. Sin embargo, puede darse el
caso de que no queramos introducir valores, sino otro tipo de datos (nombres, fechas,
valores dinerarios, etc.). O también puede ocurrir que queramos introducir números de
más de 8 dígitos, o números de más de 2 decimales, sin redondear. O simplemente,
puede que queramos introducir los números en un formato determinado por nosotros.
En cualquiera de estos casos, es necesario cambiar el formato de los datos de entrada.

Seleccione la solapa Vista de variables en la parte inferior del editor de datos. La


ventana tendrá ahora este aspecto:

26
Ahora cada una de las variables ocupa una fila del editor de datos. La información
sobre las variables aparece organizada en columnas. Veamos lo que indica cada una
de ellas:

• Nombre.- En esta casilla podremos indicar un nombre para la variable. Usted ya


sabe que SPSS adjudica un nombre por defecto a las variables que se van creando
en el archivo de datos. Este nombre empieza siempre por la palabra var seguida de
un número correlativo. Sin embargo, esta es sólo la opción por defecto; también es
posible asignar un nombre diferente a una variable. La única condición es que el
nuevo nombre no tenga más de 8 caracteres y incluya espacios en blanco o
caracteres especiales ($, &, %, /, etc.).
• Tipo.- Por defecto, todas las variables introducidas son de tipo numérico.
• Anchura.- Número de dígitos que pueden contener los valores de la variable.
• Decimales.- Número de decimales de precisión para la variable. Los valores por
defecto para anchura y decimales (8 y 2, respectivamente) significa que los datos
de la varaible tienen, como máximo 8 dígitos, incluyendo la coma decimal y 2
decimales (es decir, que el número mayor representable es 99.999.999, y el mayor
número decimal representable es 99.999,99).
• Etiqueta.- Permite asignar una etiqueta a la variable. Más adelante veremos la
utilidad de las etiquetas.
• Valores.- Permite asignar etiquetas a los valores de una variable. También veremos
más adelante la utilidad de estas etiquetas
• Perdidos.- Permite definir lo que SPSS denomina “valores perdidos”. Un valor
perdido es aquel del que no disponemos por alguna razón; por ejemplo, porque el
sujeto no contestó a esa pregunta. Esto es lo que se conoce como un valor “perdido
por el sistema”. En este caso, sin embargo, se trata de que el propio usuario defina
un valor determinado como perdido. En el caso de nuestro cuestionario esto podría
ocurrir si en las preguntas formuladas a los sujetos hubiese una opción de respuesta
del tipo: “No Sabe/No Contesta”. Si usted no quisiera que los sujetos que
seleccionaron esta opción sean incluidos en los análisis, podría definir el valor
correspondiente como perdido. En este caso estaríamos hablando de un valor
“perdido por el usuario”.
• Columnas.- Permite especificar el ancho ocupado por la columna correspondiente a
la variable en el editor de datos. Por defecto es igual al valor especificado en
Anchura.
• Alineación.- Alineación de los datos. Pueden aparecer justificados a la izquierda,
centrados en la celdilla o justificados a la derecha. Esta última es la opción por
defecto, y es la más cómoda cuando se trabaja con números.
• Medida.- Escala de medida de los datos. Se refiere al grado de “calidad” de la
medida obtenida en la variable. Si únicamente establecemos distintas categorías
excluyentes entre sí (como en la var00017: “sexo”), la medida será nominal; si
podemos ordenar estas categorías (como en la var00019: “estudios”), la medida
será ordinal; en cualquier otro caso la medida será de intervalo o razón (que SPSS
denomina “escala”). Ésta última es también la medida por defecto.

Vamos a modificar las opciones que aparecen para var00001, de modo que al final
hayamos dado formato a la misma. Concretamente, asignaremos un nombre a la

27
variable, cambiaremos el tipo de datos, e introduciremos una etiqueta para la variable
y para sus valores.

En el caso de nuestro archivo de datos, encuest.sav, cada variable corresponde a un


ítem de un cuestionario. Así, por ejemplo, var00001 es el ítem 1 del cuestionario, de
modo que podría llamarse item01. Veamos cómo podemos hacer este cambio. Para
cambiar el nombre de la variable bastará con que nos situemos en la casilla
correspondiente de la columna Nombre, y reemplacemos var00001 por item01.

En la columna Tipo podemos ver que SPSS asume que los datos en item01 son de
tipo numérico. Esto es así de hecho, de modo que no es necesario que cambiemos el
tipo de la variable. Revisemos, no obstante, las opciones disponibles:

• Numérico.- Los datos almacenados en la variable son valores numéricos, enteros o


de cualquier otro tipo.
• Coma.- Datos numéricos que utilizan una coma como separador de miles y un
punto como separador de decimales (en uso en países anglosajones y en muchos
programas informáticos).
• Punto.- Datos numéricos que utilizan un punto como separador de miles y una
coma como separador de decimales (en uso predominantemente en Europa).
• Notación científica.- Datos numéricos en formato científico: Cada valor consta de
número, mantisa y exponente en base decimal.
• Fecha.- Datos en forma de fecha. En españa se escribe en formato: DD/MM/AA o
DD-MM-AA. En países anglosajones, el formato es: MM/DD/AA o MM-DD-AA.
• Dólar.- Datos numéricos en forma de valores dinerarios en dólares. SPSS añade un
signo dólar ($) a cada valor introducido.
• Moneda personalizada.- Datos numéricos en forma de valores dinerarios locales
(por ejemplo, euros). Para poder hacer uso de esta opción, debe especificarse una
moneda en el apartado Opciones, situado dentro del menú de la opción Edición.
• Cadena.- Datos no numéricos. Pueden ser letras, números, o una combinación de
ambos (p. ej.: nombre, apellidos, DNI y NIF, etc.). Este tipo de datos es de uso muy
restringido en SPSS, y, salvo casos particulares, no suelen ser útiles para la
mayoría de los procedimientos estadísticos. Las mayúsculas y minúsculas se
consideran caracteres diferentes (p. ej.: “ANA” y “ana” se consideran dos datos
diferentes).

Queremos modificar item01 de forma que sólo admita números de un dígito y sin
decimales. Recuerde que en item01 se utilizaban valores de un solo dígito y sin
decimales, puesto que las opciones de respuesta a la pregunta “Entiendo el gallego
hablado” eran tres valores enteros de un dígito (1=Nada; 2=Regular; 3=Bien). Para
llevar a cabo estas modificaciones, seleccione la casilla correspondiente a esta
variable en la columna Decimales y reemplace el valor 2 por un cero; puede hacer el
cambio tecleando directamente un cero, o seleccionándolo de una lista de valores. A
continuación, en la casilla correspondiente de la columna Anchura, reemplace el valor
8 por un 1.

Si quisiésemos cambiar el tipo de una variable sólo tendríamos que pulsar en la


casilla correspondiente a esa variable en la columna Tipo y pulsar el botón con

28
tres puntos suspensivos que nos permite modificar el tipo, así como también el
número de dígitos y de decimales.

Veamos ahora una opción más avanzada para dar formato a sus datos: el etiquetado.
Una etiqueta no es más que un trozo de texto que va asociado a una variable o a un
valor. Este trozo de texto sustituye luego a la variable o valor originales en los
listados, de modo que sean más legibles. La mejor forma para ver la utilidad de las
etiquetas es un ejemplo práctico. Lo que vamos a hacer es etiquetar tanto la variable
item01 como los tres valores de respuesta posibles (1, 2 y 3).

Sitúese sobre la casilla correspondiente a item01 en la columna Etiqueta y escriba el


texto “entiendo el gallego hablado” (no incluya las comillas). Ya ha etiquetado la
variable. A continuación, sitúese sobre la casilla situada inmediatamente a la derecha,
correspondiente a la columna Valores y pulse el botón con tres puntos suspensivos
que aparecerá en la misma. Se encontrará el siguiente cuadro de diálogo:

Este cuadro de diálogo le permite asociar una etiqueta a cada valor de item01. En el
recuadro con la leyenda Valor debe indicar uno de los posibles valores de la variable,
y en el recuadro situado debajo, que lleva la leyenda Etiqueta de valor, debe escribir la
etiqueta correspondiente al valor. Para asociar el valor con su etiqueta debe pulsar el
botón Añadir. Ahora introduzca como valor el 1, y como etiqueta la palabra “nada”
(no incluya las comillas). Pulse Añadir. Aparecerá la equivalencia:

1= “nada”

A continuación, repita el proceso para la siguiente respuesta. En el recuadro


etiquetado Valor escriba un 2, y en el recuadro etiquetado Etiqueta de valor escriba la
palabra “regular”. A continuación, pulse de nuevo Añadir. Aparecerá escrita la
equivalencia:

2= “regular”

Repita de nuevo el procedimiento con la tercera etiqueta. Cuando termine, el cuadro


de diálogo tendrá este aspecto:

29
Pulse ahora el botón Aceptar. Las etiquetas pasarán a incorporarse a la variable.

Ahora que hemos dado formato a una variable, es es el momento de aprender la


función de dos de los botones de la barra que está situada debajo del menú.

El primer botón, que tiene un icono representando una variable acompañada de


una interrogación, sirve para obtener rápidamente una descripción de la variable
seleccionada. Al pulsar el botón aparecerá el siguiente cuadro de diálogo:

A la izquierda aparece un recuadro con todas las variables incluidas en el archivo de


datos. Si selecciona una de ellas, en el recuadro de la derecha aparecerá la descripción
completa de la variable.

El segundo botón, que tiene un icono en forma de etiqueta, sirve para ver las
etiquetas de los valores, en lugar de los propios valores, cuando se encuentra en
el modo Vista de datos. Si selecciona la pestaña Vista de datos y pulsa este botón, en
lugar de unos, doses y treses, en la variable item01 verá las etiquetas
correspondientes: nada, regular, bien. En las otras variables continuará viendo
números, puesto que no tienen etiquetas de valores asignadas. Vuelva a pulsar el
botón; la ventana de datos volverá a contener sólo cifras. El uso de este botón no
afecta para nada al contenido de los datos, que continúan siendo números, aunque
veamos etiquetas.

30
A modo de ejercicio, lo que le propongo ahora es que ponga etiquetas a todas las
variables del archivo de datos. Aunque esto pueda parecer una tarea tediosa, es de
gran ayuda para interpretar luego los listados proporcionados por el programa. Existe,
además, una forma de aligerar el trabajo. Fíjese que muchas variables usan el mismo
número de dígitos y decimales, e incluso las mismas etiquetas de valores. Es posible
copiar estas especificaciones de una variable a otra sin tener que escribirlas de nuevo.
Veamos cómo con un ejemplo.

Las variables var00002, var00003 y var00004 comparten muchas características con


item01. Todas ellas necesitan un solo dígito, sin decimales, y las opciones de
respuesta son las mismas que las de item01. Podemos, por consiguiente, copiar estas
especificaciones de item01 a estas variables.

Empezaremos con la información sobre el número de decimales. Para copiar esta


información de la variable item01, sitúese con el ratón sobre la casilla correspondiente
en la columna Decimales y pulse el botón derecho de su ratón. Aparecerá un pequeño
menú:

Seleccione la opción Copiar. A continuación, sitúese sobre la casilla correspondiente


de var00002 y vuelva a pulsar el botón derecho de su ratón. Seleccione ahora la
opción Pegar. Ahora var00002 también tiene cero decimales. Repita esta última
operación con var00003 y var00004.

A continuación copie la información sobre el número de dígitos de item01 en la


casilla correspondiente de la columna Anchura usando el botón derecho de su ratón y
péguela en las casillas correspondientes a var00002, var00003 y var00004 en esa
misma columna.

Finalmente, copie las etiquetas de valores de item01 en la casilla correspondiente de


la columna Valores y péguelas en las casillas correrspondientes a var00002,
var00003 y var00004 en esa misma columna.

Ahora únicamente deberá cambiar los nombres de las variables var00002, var00003 y
var00004 por los de item02, item03 e item04, e introducir sus etiquetas en la
columna Etiqueta. Estas características, especialmente el nombre, son específicas de
cada variable, por lo que deben introducirse individualmente.

Una vez hecho el cambio, ya está usted en condiciones de dar formato a todas las
variables de encuest.sav de forma rápida y cómoda. Un último aviso: no se olvide de
que la variable var00018, que contiene los datos sobre edad de los sujetos, constituye
un caso especial. En efecto, al igual que las demás variables, es de tipo numérico sin
decimales, pero no de un dígito, sino de dos (o incluso de tres, en el caso de que
tuviésemos sujetos centenarios). Además, esta variable no es susceptible de recibir

31
etiquetas de valores; no tendría sentido adjudicar una etiqueta a cada una de las
posibles edades.

Si ha llevado a cabo todos los cambios y todavía se siente con fuerzas, puede
comprobar ahora la utilidad de todo este trabajo. Vuelva a realizar el mismo análisis
de frecuencias que efectuó en el apartado 2.9 y observe, por ejemplo, el aspecto de la
tabla de frecuencias para la variable item19 (antes var00019) que ahora se le ofrece
en el visor de resultados. Es ligeramente diferente, ¿verdad? Ahora tiene este aspecto:

estudios

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos primarios 4 20.0 20.0 20.0
medios 9 45.0 45.0 65.0
superiores 7 35.0 35.0 100.0
Total 20 100.0 100.0

Fíjese que en la nueva tabla, en lugar del nombre de la variable (ahora item01)
aparece la etiqueta correspondiente: “estudios”. Del mismo modo, al lado de los tres
posibles valores de respuesta (1, 2, y 3) aparecen sus etiquetas (“primarios”, “medios”,
y “superiores”). Esto hace que la tabla sea mucho más inteligible, de modo que no sea
necesario consultar un ejemplar del cuestionario para saber de qué variable se trata y
qué significa cada valor de respuesta.

El uso de etiquetas mejora la presentación, y es muy recomendable cuando hagamos


presentaciones de nuestros datos tales como tablas, distribuciones de frecuencias o
gráficos. En otro tipo de análisis estadísticos, su utilidad es mucho más limitada.

Antes de dar por terminada esta larga sesión, le recomiendo que guarde los resultados
en un archivo. Utilice los menús o el icono con el botón que representa un diskette. En
el cuadro de diálogo, que es semejante al que ya vio en el apartado 2.9, dele al nuevo
archivo el nombre encuest. Aparecerá un mensaje de SPSS advirtiéndole de que el
archivo ya existe y si quiere sobreescribirlo. Esto se debe a que le ha dado el mismo
nombre que al archivo de resultados que guardamos en aquella sesión. Recuerde que
el archivo encuest.spo antiguo contiene los mismos resultados que el actual. Sin
embargo, el nuevo listado contiene las etiquetas y es, por tanto, más completo que el
anterior. Acepte sobreescribir el archivo.

Ahora ya puede dar por finalizada esta sesión y salir de SPSS.

4. Transformación de las Variables

En esta nueva sesión usted aprenderá a realizar transformaciones, a modificar sus


datos, o a crear datos a partir de otros preexistentes. Daremos inicio a la sesión, como
siempre, abriendo el archivo de datos encuest.sav.

32
4.1. Cómo recodificar las variables

A veces puede ocurrir que, habiendo creado un archivo de datos, nos interese cambiar
la codificación de alguna de las variables. Para verlo claramente basta con un ejemplo.
Considere la variable item18 (antes var00018), que contiene los datos sobre la edad
de los sujetos. Si estuviésemos interesados en estudiar las diferencias entre jóvenes y
adultos, o entre adultos de distintas edades, sería complicado hacerlo con los datos
originales. Lo que tendríamos que hacer es crear distintos grupos en función de la
edad. Una posible agrupación podría ser la siguiente:

1. Grupo 1: 25 años o menos.


2. Grupo 2: 26 a 35 años.
3. Grupo 3: 36 a 50 años.
4. Grupo 4: 51 años o más.

Para ello tendríamos que recodificar item18 de forma que asignaríamos a todos los
sujetos comprendidos entre

16 y 25 años, el número 1,
26 y 35 años, el número 2,
36 y 50 años, el número 3,
51 y 65 años, el número 4.

Llevar a cabo esta recodificación es realmente sencillo en SPSS. Incluso hay dos
formas distintas de hacerla. En la primera forma, la variable original se conserva y se
crea una nueva con los valores recodificados. En la segunda forma, la variable original
misma es recodificada. Mi consejo es que haga las recodificaciones siempre de la
primera forma; de este modo, no perderá nunca datos originales. De todos modos,
veremos ambos procedimientos.

4.1.1. Recodificación en distinta variable

Para recodificar la variable item18, seleccione la opción Transformar y, en el menú


que se despliega, la opción Recodificar. A la derecha, aparecen dos opciones:

Seleccione ahora la segunda opción. Aparecerá el siguiente cuadro de diálogo:

33
Al igual que en otros cuadros de diálogo de SPSS, a la izquierda se le ofrece una lista
de las variables existentes en el archivo de datos. Seleccione item18 (“Edad”) y luego
pulse el botón con forma de flecha que se encuentra a la derecha de la lista. De este
modo, item18 figurará en el recuadro siguiente como variable de entrada. A la derecha
tiene usted dos recuadros para introducir la variable de resultado, esto es, la variable
donde se almacenarán los datos sobre edad de los sujetos una vez recodificados. En el
primer recuadro debe escribir el nombre de la nueva variable (p. ej.: edad2) y en el
segundo puede asignarle una etiqueta (p. ej.: “nueva edad”). A continuación, pulse el
botón Cambiar; de este modo, edad2 pasará a ser la variable de salida.

Una vez especificadas la variable origen y destino (item18 y edad2, respectivamente),


es necesario indicar cómo se va a llevar a cabo la recodificación. Observe los dos
botones que se encuentran en la parte central del cuadro de diálogo, etiquetados Si y
Valores antiguos y nuevos. El primero de ellos puede utilizarse para indicar una
recodificación condicional (p. ej.: aplicar sólo si el sujeto es hombre). Nosotros no
queremos especificar ninguna condición, sino recodificar la variable item18 para
todos los sujetos; por tanto, no utilizaremos en esta sesión el botón Si. En cuanto al
botón etiquetado Valores antiguos y nuevos, se utiliza para indicar qué valores en la
variable antigua (item18), van a ser reemplazados por qué valores en la variable nueva
(edad2). Pulse este último botón. Aparecerá el siguiente cuadro de diálogo:

34
A la izquierda del recuadro aparecen las opciones a aplicar a los valores antiguos. A la
derecha, se encuentran las opciones a aplicar al nuevo valor. Para cada recodificación
que se haga hay que especificar ambas opciones.Veamos primero las opciones para
valores antiguos:

• Valor: Convierte un valor antiguo determinado en un valor nuevo.


• Perdido por el sistema: Convierte un dato perdido por el sistema en la variable
antigua en un valor nuevo.
• Perdido por el sistema o usuario: Convierte un dato perdido por el sistema o por el
usuario, en la variable antigua, en un valor nuevo.
• Rango: Convierte un rango de valores en la variable antigua en un sólo valor en la
variable nueva. Hay tres formas de rangos: los que van de un valor determinado a
otro, los que van del menor valor a otro, y los que van de un valor determinado
hasta el mayor.
• Todos los demás valores: Convierte todos aquellos valores de la variable antigua
que no fueron definidos previamente, en un mismo valor en la variable nueva.

En el recuadro de la derecha especificaremos el valor nuevo correspondiente para cada


uno de los antiguos seleccionados. Tenemos tres opciones: podemos especificar un
valor determinado, o bien convertirlo en un valor perdido por el sistema o, finalmente,
copiar el valor antiguo tal como estaba.

Por último, y en la parte inferior derecha del cuadro de diálogo, aparecen dos opciones
a utilizar cuando recodificamos una variable cuyos datos son cadenas de caracteres en
una variable numérica, o viceversa. Este tipo de situaciones no se da habitualmente en
las recodificaciones y no se da, de hecho, con nuestros datos, por lo que no
comentaremos estas opciones.

Veamos cómo llevaríamos a cabo la recodificación de item18 en edad2. Siguiendo la


filosofía de SPSS, podríamos resumir nuestras intenciones con el siguiente esquema:

35
Valores antiguos (variable item18) se convierten en... Valores nuevos (variable edad2)

hasta 25 años → 1
desde 26 hasta 35 años → 2
desde 36 hasta 50 años → 3
desde 51 años en adelante → 4

Procederemos a crear estos cuatro grupos de edad en edad2 siguiendo este mismo
orden. Para crear el primer grupo, debemos seleccionar, en el recuadro destinado al
valor antiguo un rango de edades que vaya desde el sujeto más joven hasta los sujetos
de 25 años. Seleccione, por tanto, el rango que lleva escrito debajo la leyenda Del
menor hasta. Aparecerá marcado con un punto negro. Ahora haga clic sobre el
recuadro situado a la derecha de la leyenda y teclee el número que marca el límite
superior del rango (25). Acto seguido, en el recuadro destinado al valor nuevo teclee
el valor correspondiente (1) en la variable edad2. Luego pulse el botón que lleva la
etiqueta Añadir. En el recuadro situado a la derecha del botón, y en el que figura la
leyenda Antiguo→ Nuevo aparecerá la siguiente expresión:

Lowest thru 25 → 1

Lo que significa esta expresión es que los valores de item18 que vayan desde el más
pequeño hasta 25 (lowest thru 25) se convertirán todos ellos en el valor 1 en edad2.

Pasemos al segundo grupo, que incluye a los sujetos de edades comprendidas entre 26
y 35 años. En el recuadro destinado al valor antiguo, seleccione el rango de edades
que contiene dos recuadros separados por la leyenda hasta. En el primer recuadro
escriba el límite inferior del rango (26), y en el segundo recuadro, el límite superior
(35). A continuación, en el recuadro destinado al valor nuevo, teclee el valor
correspondiente (2) en edad2. Pulse ahora el botón etiquetado Añadir. Aparece una
nueva expresión:

26 thru 35 → 2

Esta expresión nos viene a indicar que los valores de item18 que vayan desde 26 hasta
35 se convertirán todos ellos en el valor 2 en edad2.

El tercer grupo incluye a los sujetos entre 36 y 50 años. Seleccione este rango en el
recuadro destinado al valor antiguo del mismo modo que lo hizo para el segundo
grupo. En el recuadro correspondiente al valor nuevo, escriba un 3. Pulse otra vez el
botón Añadir. Ya tiene la tercera expresión:

36 thru 50 → 3

Y vamos a finalizar con el cuarto grupo. Éste incluye a los sujetos de 51 años o más.
Por tanto, en el recuadro destinado al valor antiguo seleccione el rango que lleva
escrita la leyenda hasta el mayor. En el recuadro situado a la izquierda de la leyenda
teclee el límite inferior del rango (51). En el recuadro correspondiente al valor nuevo,
escriba un 4. Pulse una vez más el botón Añadir. Y esta es la cuarta expresión:

51 thru highest → 4

36
Una vez creados los cuatro grupos de edad, el cuadro de diálogo debe tener este
aspecto:

Pulse ahora el botón Continuar. Volverá al cuadro de diálogo inicial del


procedimiento de recodificación. Pulse el botón Aceptar. SPSS creará la variable
edad2 al final del archivo de datos. Puede comprobarlo desplazándose hacia la
derecha; verá que edad2 se encuentra a continuación de item20, la variable
correspondiente al último ítem del cuestionario. Como ejercicio práctico, puede dar
formato a edad2 añadiéndole las etiquetas correspondientes a los valores 1, 2, 3, y 4,
que son las siguientes:

1. “hasta 25 años”.
2. “de 26 a 35 años”.
3. “de 36 a 50 años”.
4. “más de 50 años”.

4.1.2. Recodificación en la misma variable

Veamos ahora cómo haríamos esta misma recodificación sin utilizar una variable
nueva. Recuerde que la recodificación en la misma variable elimina totalmente la
información contenida originalmente en la misma. Por tanto, si alguna vez efectúa una
recodificación en sus datos, le aconsejamos que lo haga siempre en otra variable
distinta de la original.

Vuelva a selecicionar la opción Transformar y, en el menú que se despliega, la opción


Recodificar. A la derecha, aparecen las dos opciones que ya conoce:

Seleccione ahora la primera opción. Aparecerá el siguiente cuadro de diálogo:

37
Este cuadro de diálogo es más sencillo que el que vimos en el apartado 4.1.1. Usted
simplemente tiene que especificar la variable o variables a recodificar (en este caso
item18). Una vez hecho esto, puede usar los botones Si y Valores antiguos y nuevos
que ya conoce. El cuadro de diálogo que aparece es muy similar al que ya vio en el
apartado 4.1.1:

El procedimiento a seguir con la recodificación es el mismo que ya vio en el apartado


anterior, así que no lo comentaremos. Puede hacer la recodificación si así lo desea,
pero recuerde: perderá la variable item18 tal y como era originalmente (datos brutos
sobre edad), y deberá asignar etiquetas de valores a item18 una vez la haya
recodificado, puesto que ahora sí será susceptible de recibir dichas etiquetas.

4.2. Cómo crear nuevas variables

Una vez que hemos creado un archivo de datos, nos puede interesar realizar
transformaciones para algunas variables. Por ejemplo, en algunos análisis estadísticos se
transforman las variables en logaritmos para garantizar el cumplimiento de ciertos
supuestos. En otros casos, nos puede interesar sumar dos (o más) variables, así como

38
también muchas otras transformaciones. SPSS para Windows permite gran variedad de
transformaciones. La principal distinción entre los distintos tipos de transformaciones
posibles es la que se hace entre transformaciones incondicionales y transformaciones
condicionales. En el caso de las transformaciones incondicionales, se crea una nueva
variable a partir de otra u otras variables. En las transformaciones condicionales, cada
transformación tiene lugar sólo si se cumplen determinadas condiciones. A
continuación, vamos a ver ejemplos de ambos tipos de transformaciones.

4.2.1. Transformaciones incondicionales

Veamos primero un ejemplo de transformación incondicional. Lo que se pretende es


transformar la variable item01 de la encuesta sociolingüística, cuyos datos estaban
almacenados en encuest.sav, en logaritmos neperianos. Recuerde que los logaritmos
neperianos tienen como base el número e (2.718281), y es el tipo de logaritmo más
utilizado en estadística. Recuerde también que el logaritmo (neperiano) para un número
dado es el valor del exponente al que hay que elevar 2.718281 para obtener dicho
número. Considérese, a modo de ejemplo, que estuviésemos interesados en conocer el
exponente en la siguiente expresión:
exp
2.718281 = 3.

El exponente (desconocido) es precisamente el logaritmo (neperiano) de 3. Si usted coge


ahora una calculadora manual, pulsa el número 3 y, a continuación, la función del
logaritmo neperiano (probablemente representado por ln) obtendrá el valor 1.0986123,
que es precisamente el valor del exponente en la expresión anterior.

A continuación se ofrece el logaritmo neperiano para algunos valores numéricos:

Valores numéricos Concepto Exp (ln)


exp
0.1 2.718281 =0.1 -2.302585
exp
0.5 2.718281 =0.5 0.693147
exp
1 2.718281 =1 0.000000
exp
2 2.718281 =2 0.693147
exp
3 2.718281 =3 1.098612
exp
50 2.718281 =50 3.912023
exp
100 2.718281 =100 4.6051702
exp
1000 2.718281 =1000 6.9077553

Para realizar esta transformación en item01, seleccione la opción Transformar y, en el


menú que se despliega a continuación, la opción Calcular. Aparecerá el siguiente cuadro
de diálogo:

39
El cuadro de diálogo contiene todas las opciones para realizar gran cantidad de
transformaciones sobre una o más variables y almacenar el resultado en otra variable.
Esa nueva variable, o variable destino, debe especificarse en el recuadro etiquetado
Variable de destino. Puesto que nuestra variable será el logaritmo neperiano de item01,
escribiremos en el recuadro lnitem01. Una vez puesto el nombre a la variable destino,
puede pulsar el botón etiquetado Tipo y etiqueta para especificar el tipo y la etiqueta de
esta nueva variable. El tipo que viene asignado por defecto es numérico, por tanto, no es
necesario modificarlo. Como etiqueta de la variable, puede escribir “logaritmo
neperiano de item01”.

A la derecha de la variable destino se encuentra un signo igual (=) y el recuadro donde


especificaremos la transformación a realizar, etiquetado como Expresión numérica. Para
completar esta expresión numérica de la transformación, tenemos otros tres recuadros
con distintos elementos:

1. En la zona izquierda, un recuadro que contiene, en orden alfabético, la lista de


variables existente en el archivo de datos. Esta lista nos sirve para incluir
transformaciones realizadas a partir de cualquiera de estas variables.
2. En el centro, una consola para cálculo, con un conjunto de botones que permiten
representar números y realizar operaciones aritméticas como sumas (+), restas (-),
divisiones (/), o exponenciaciones (**). También pueden especificarse operaciones
lógicas como “igual que” (=), “menor que” (<), “menor o igual que” (≤), “distinto a”
(~=), y los operadores lógicos AND (&), OR (), y NOT (~) con los elementos
involucrados en la transformación.
3. A la derecha, un recuadro con una larga lista, ordenada alfabéticamente, de
funciones disponibles en SPSS. El logaritmo neperiano es sólo una función más que
incorpora SPSS. De entre las muchas otras funciones que usted puede utilizar para
hacer transformaciones, le señalo las siguientes:

40
Funciones Significado
SQRT Raíz cuadrada
LN Logaritmo neperiano (base e =
LG10 2.718281)
RND Logaritmo decimal (base 10)
ABS Redondear
SIN Valor absoluto
COS Seno
Coseno

En el cuadro de diálogo también disponemos de un botón Si, destinado a la


especificación de condiciones. Pero no vamos a ver por ahora su funcionamiento, puesto
que estamos trabajando en transformaciones incondicionales. Veamos, pues, los pasos a
dar para obtener una variable que contenga los logaritmos neperianos de los valores
originales de item01.

Seleccione la función de transformación que va a utilizar, que será la etiquetada en el


cuadro de funciones, como LN(expr_num). La palabra expr_num encerrada entre
paréntesis significa que debe indicar una variable o expresión numérica a la que se
aplicará el logaritmo neperiano. Para incluir esta función , pulse el botón que representa
una flecha apuntando hacia arriba, y que se encuentra justo sobre el recuadro que
contiene las funciones. En el recuadro etiquetado Expresión numérica aparecerá la
siguiente expresión:

LN(?)

Con el signo de interrogación (?) en vídeo inverso. Este signo nos indica que falta por
indicar a quién se le aplicará el logaritmo neperiano que va a almacenarse en lnitem01.
Ahora seleccione, en el recuadro de la izquierda, que contiene la lista de variables, la
variable item01. A continuación pulse el botón que representa una flecha apuntando
hacia el lado derecho y que se halla a la derecha de este recuadro. La expresión quedará
así:

LN(item01)

Pulse ahora el botón Aceptar. SPSS creará la variable lnitem01. Observe que usted ya
puede saber cuáles van a ser los valores de lnitem01, después de la transformación.
Dado que los valores de item01 eran el 1 (que significaba “nada”) el 2 (que significaba
“regular”) y el 3 (que significaba “bien”), lnitem01 aparecerán, en lugar de 1, 2 y 3, sus
logaritmos neperianos que son, respectivamente:

1 0.0000000,
2 0.6931471,
3 1.0986123.

Puede comprobar esto llevando a cabo un análisis de frecuencias de lnitem01. Si no


recuerda el procedimiento, puede revisarlo en el apartado 2.8. Obtendrá la siguiente
tabla de frecuencias:

41
logaritmo neperiano de item01

Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos .00 1 5.0 5.0 5.0
.69 4 20.0 20.0 25.0
1.10 15 75.0 75.0 100.0
Total 20 100.0 100.0

Observe la primera columna de la tabla. En lugar del valor 1, está su logaritmo


neperiano ,00; en lugar del valor 2 está su logaritmo neperiano ,69 (los dos primeros
decimales de 0,6931471); y en lugar del valor 3, está su logaritmo neperiano 1,10 (1,10
se consigue redondeando 1,0986123 a dos decimales). Recuerde que los valores de las
variables creadas tienen, por defecto, dos decimales. Si desea ver más decimales, debe
cambiar el tipo de la variable del mismo modo que vio ya en el apartado 3.1. Veamos
ahora otro tipo de transformaciones incondicionales que podemos llevar a cabo con
nuestros datos.

Con frecuencia ocurre que se desean hacer transformaciones de las variables existentes
en el archivo de datos que no se corresponden con ninguna de las funciones
incorporadas en el sistema. Por ejemplo, nos podría interesar crear una nueva variable
(item21) que fuera la suma de las variables item01 e item02; es decir,

item21=item01+item02

Para hacer esta transformación también podemos utilizar el procedimiento anterior.


Vuelva a seleccionar la opción Transformar y, en el menú que se despliega, la opción
Calcular. Aparecerá de nuevo el cuadro de diálogo que vio anteriormente. Quizá se
sorprenda al encontrar todavía escritas las especificaciones que dio para la
transformación anterior. Esto se debe a que SPSS guarda las especificaciones dadas por
última vez para cada procedimiento. De este modo, resulta más fácil hacer
modificaciones sobre un procedimiento dado. En nuestro caso, vamos a iniciar un
procedimiento de transformación diferente al anterior; por lo tanto, borre el contenido de
los recuadros etiquetados como Variable de destino y Expresión numérica. Una vez
haya dejado ambos recuadros en blanco, podemos continuar con la nueva
transformación.

En el recuadro correspondiente a Variable de destino escriba el nombre de la nueva


variable, item21. Acto seguido, en el recuadro situado inmediatamente debajo, el que
contiene la lista de variables del archivo de datos, seleccione item01; a continuación,
pulse el botón que representa una flecha apuntando hacia la derecha. La variable item01
aparecerá en el recuadro Expresión numérica. En el recuadro central, que contiene los
botones destinados a operaciones aritméticas y lógicas, seleccione el botón que
representa el signo de suma (+). Finalmente, en el recuadro de la izquierda, seleccione
ahora la variable item02 y vuelva a pulsar el botón que apunta hacia la derecha. Una vez
hecho esto, el cuadro de diálogo tendrá el siguiente aspecto:

42
Pulse ahora el botón Aceptar. Se creará una nueva variable, item21, al final del archivo
de datos. Los valores de esta nueva variable oscilarán entre un valor mínimo de 2 (en el
caso de que tanto item01 como item02 valgan 1) a un máximo de 6 (en el caso de que
tanto item01 como item02 valgan 3). Esta nueva variable indicaría, por tanto, en una
escala de 2 a 6, el grado de conocimiento de los sujetos, tanto del gallego hablado como
del gallego escrito, que son los ítems correspondientes a item01 e item02.

Tal como se podrá imaginar, habrá situaciones en que a usted como usuario le interese
realizar transformaciones donde tenga que utilizar varios operadores. Por ejemplo, si
deseáramos crear una nueva variable (p. ej.: item22) que fuera la media aritmética de
item01 e item02, tendríamos que utilizar dos operadores en la transformación, el
operador de la suma (+) y el operador de la división (/). Además, los operadores pueden
combinarse con las funciones incorporadas. Por ello, es necesario tener en cuenta cuál es
la preferencia que el sistema tiene incorporada para estas operaciones. A continuación se
ofrecen estas preferencias:

Preferencia Operador Símbolo


1 Funciones Ver tabla anterior
2 Exponenciación **
3 División /
3 Multiplicación *
4 Resta -
4 Suma +

Se observa en esta tabla que las funciones tienen preferencia 1; por tanto, serán las
primeras que se realicen. A continuación vendría la exponenciación (preferencia 2). En
tercer lugar está la división y la multiplicación (preferencia 3). Cuando tengamos una
transformación con una división y una multiplicación, el sistema realizará en primer
lugar la operación situada a la izquierda y, luego, la situada a la derecha. Algo similar
ocurre con la preferencia de la resta y la suma. Si se desea "romper" este orden de
preferencias deben usarse paréntesis. Por ejemplo, si deseásemos realizar antes una
suma que una multiplicación, debemos escribir la operación de sumar entre paréntesis y
ésta se realizará antes que la multiplicación.

43
Para comprender esto último, considérese la transformación consistente en crear una
variable (p. ej.: item22) tal que sea la media (aritmética) de item01 e item02. Para hallar
la media aritmética debemos sumar item01 e item02 y dividir, luego, entre 2. Si ésta
transformación la expresamos así:

item22=item01+item02/2

lo que haría el programa es

1. Dividir item02 entre 2,


2. Sumarle al resultado anterior item01.

Obviamente el resultado no sería la media aritmética. Lo que deseamos nosotros es


sumar primero item01 e item02 y, luego, dividir la suma entre 2. Para conseguir esto
deberíamos escribir:

item22=(item01+item02)/2

Procediendo así "rompemos" el orden de preferencias establecido en el sistema y


realizamos primero la suma y luego la división.

4.2.2. Transformaciones condicionales

Vamos ahora a ver el uso que podemos hacer del botón Si, que nos permite realizar
transformaciones condicionales. A efectos prácticos, la utilidad de este botón está en que
permite realizar transformaciones para subgrupos de sujetos. Recuerde que hasta ahora
hemos utilizado la opción Calcular de forma incondicional. Una vez que se define la
transformación se realiza para todos los sujetos. Para comprender mejor la función de Si
suponga que estamos interesados en crear una nueva variable (item23) en la que
deseásemos incluir los cuatro subgrupos de sujetos siguientes:

1. Hombres jóvenes,
2. Hombres adultos,
3. Mujeres jóvenes,
4. Mujeres adultas.

Supongamos que la edad que establece el límite entre lo que sería un sujeto joven y un
sujeto adulto son 25 años. De este modo, los cuatro subgrupos de sujetos que deseamos
crear deberían tener estas características:

Grupo 1: Valor 1 en item17 y valor igual o menor a 25 en item18.


Grupo 2: Valor 1 en item17 y valor mayor de 25 en item18.
Grupo 3: Valor 2 en item17 y valor igual o menor a 25 en item18.
Grupo 4: Valor 2 en item17 y valor mayor de 25 en item18.

Veamos cómo crearíamos item23 de modo que obtuviésemos esta clasificación de los
sujetos. En primer lugar, seleccione la opción Transformar y, en el menú que se
despliega a continuación, elija la opción Calcular. Aparecerá el cuadro de diálogo que

44
ya conoce bien. Borre las especificaciones correspondientes tanto a Variable de destino
como a Expresión numérica, puesto que vamos a hacer algo distinto. La variable destino
será ahora item23. Escriba este nombre en Variable de destino. Si lo desea, puede dar
una etiqueta a la variable pulsando el botón etiquetado Tipo y etiqueta. Como etiqueta
podría incluir el texto: “subgrupos por edad y sexo”. Ahora, en el recuadro Expresión
numérica escriba un 1, el primer valor que adoptará item23. Pulse ahora el botón Si.
Aparecerá el siguiente cuadro de diálogo:

Observe que este nuevo cuadro de diálogo tiene mucho en común con el cuadro de
diálogo correspondiente a Calcular. Aparecen: a la izquierda una lista ordenada de las
variables en nuestro archivo de datos; en el centro, la misma consola de cálculo; a la
derecha, la misma lista de funciones. En la parte superior aparecen dos alternativas:

Incluir todos los casos


Incluir si el caso satisface la condición:

Bajo la primera alternativa no es posible especificar condiciones, así que seleccione la


segunda. Tanto la lista de variables como la consola de cálculo y la lista de funciones se
harán operativas. Recuerde ahora las condiciones que debían cumplir simultáneamente
los sujetos para obtener el valor 1 en item23. Éstas eran:

1. Valor 1 en item17.
2. Valor menor o igual a 25 en item18.

Vamos con la primera de las condiciones. Seleccione item17 en la lista de variable y


pulse el botón que representa una flecha apuntando hacia la derecha. A continuación, en
la consola de cálculo, pulse, en este orden, los botones que representan el signo igual (=)
y el número uno (1). El recuadro Expresión numérica mostrará la siguiente expresión:

item17 = 1

Pasemos ahora a la segunda de las condiciones. Seleccione, en la consola de cálculo, el


botón que representa el operador lógico AND (&). A continuación, seleccione item18

45
en la lista de variable y vuelva a pulsar el botón con la flecha apuntando hacia la
derecha. Finalmente, en la consola de cálculo, pulse en este orden, los botones que
representan el signo menor o igual (<=) y los números dos y cinco (25). En este
momento el cuadro de diálogo tendrá este aspecto:

Deténgase ahora. Fíjese que la expresión contiene el operador lógico AND (&), que no
había utilizado hasta ahora. Veamos la función de los tres operadores lógicos de que
disponemos en SPSS:

• Operador AND (&). Significa “y”. Sirve para enlazar condiciones que deben
cumplirse simultáneamente (p. ej.: ser hombre y menor de 26 años).
• Operador OR (). Significa “o”. Sirve para enlazar condiciones, de las cuales al
menos una debe cumplirse (p. ej.: tener estudios medios o superiores).
• Operador NOT (~). Significa “no”. Sirve para negar condiciones. Es cierto cuando no
se cumple la condición (p. ej.: no ser funcionario).

Continuemos ahora con la creación de item23. Para que la primera condición surta
efecto, pulse el botón Continuar. El cuadro de diálogo de Calcular tendrá ahora este
aspecto:

46
Ahora ya tenemos la expresión completa. Podemos leerla de la siguiente forma: item23
(Variable de destino) vale 1 (Expresión numérica) siempre que (Si) item17 valga 1 y
además item18 sea menor o igual a 25. Pulse ahora el botón Aceptar. SPSS creará la
variable item23. Si observa la variable en la ventana de datos, descubrirá que no
contiene ningún dato. Esto se debe a que no existe ningún hombre joven en nuestra
muestra. No importa; pasemos a la segunda condición.

Seleccione de nuevo la opción Transformar y, a continuación, la opción Calcular. El


cuadro de diálogo aparecerá exactamente como lo dejó. En el recuadro Expresión
numérica borre el 1 y reemplácelo por un 2. Luego pulse el botón Si. Se encontrará con
que este cuadro de diálogo también está exactamente como lo dejó por última vez. La
condición continúa siendo

item17 = 1 & item18 <= 25

La condición asociada con el valor 2 en item23 era que el sujeto fuese hombre y la edad
fuese mayor de 25 años. Por tanto, lo único que usted tiene que cambiar en la condición
es el signo “menor o igual” (<=) y reemplazarlo por el signo “mayor que” (>). Pulse
luego el botón Continuar. El cuadro de diálogo de Calcular deberá tener este aspecto:

47
Del mismo modo que hicimos con la expresión anterior, podemos leer la
correspondiente al valor 2 de la siguiente forma: item23 (Variable de destino) vale 2
(Expresión numérica) siempre que (Si) item17 valga 1 y además item18 sea mayor que
25. Pulse ahora el botón Aceptar. Aparece un aviso del programa:

Este aviso nos indica que va a modificarse item23. Si pulsa el botón Aceptar, la
condición especificada se llevará a efecto; si pulsa el botón Cancelar, no se hará
efectiva. La razón de este aviso es que sea usted consciente de que va a modificar de
alguna forma item23, y es un aviso especialmente oportuno en el caso de que esté
especificando condiciones que se solapen unas con otras. Por ejemplo, si la primera
condición fue que item23 vale 1 si los sujetos son hombres y de 25 años o menos, los
sujetos que cumplan ambas condiciones recibirán un 1. Pero si la segunda condición
fuese que item23 vale 2 si los sujetos son hombres y mayores de 23 años, habrá un
grupo de hombres menores de 25 años (aquellos que tengan más de 23 años) que verán
cambiado el 1 que les fue asignado inicialmente en item23 por un 2, que les viene
asignado por la nueva condición. Por esto es muy importante, a la hora de especificar
condiciones, el que éstas sean mutuamente excluyentes (es decir, que un mismo sujeto
no se pueda ver afectado por dos o más de ellas) y que sean exhaustivas (es decir, que no
haya ningún sujeto al que no le afecte ninguna condición). En este caso, las condiciones
especificadas son mutuamente excluyentes y también exhaustivas, por lo que puede
pulsar el botón Aceptar. Fíjese que ahora aparece una puntuación con el valor 2 en
item23. Corresponde al único hombre de la muestra, que tiene 38 años.

48
Ahora ya puede especificar usted sin ayuda las condiciones correspondientes a los
valores 3 y 4 en item23. No obstante, por si tuviese alguna dificultad, le recuerdo la
forma que deben tener las dos condiciones restantes:

Valor 3: item17=2 & item18 <= 25


Valor 4: item17=2 & item18 > 25

4.3. Cómo seleccionar sujetos

Existen situaciones en que al usuario le interesaría realizar cálculos solamente para


ciertos subgrupos de sujetos. Por ejemplo, en el estudio sociolingüístico podríamos estar
interesados en realizar la distribución de frecuencias sólo para el subgrupo de mujeres
estudiantes. La forma en que SPSS para Windows realiza la selección de los sujetos es
mediante un “marcado” selectivo, de modo que sólo los sujetos seleccionados entren a
formar parte de los análisis. Veamos cómo podemos seleccionar al subgrupo de mujeres
estudiantes para un análisis en SPSS.

Seleccione la opción Datos y, en el menú que se despliega a continuación, seleccione la


opción Seleccionar casos.

También puede utilizar el botón Seleccionar casos.

Efectuando cualquiera de las dos operaciones anteriores aparecerá el cuadro de diálogo


para la selección de casos (el equivalente a sujetos en SPSS):

Fíjese en que la opción por defecto es que todos los sujetos están seleccionados. No
obstante, hay una serie de alternativas presentes. Veámoslas una por una:

49
• Todos los casos. Se tiene en cuenta a la muestra completa de sujetos.
• Si se satisface la condición. Se seleccionarán aquellos sujetos que cumplan una
determinada condición. Para especificar la condición, se utiliza el botón Si.
• Muestra aleatoria de casos. Se selecciona una muestra aleatoria de casos extraida a
partir de la muestra de datos original. Esta muestra puede ser un porcentaje de la
muestra total (p. ej.: el 20%) o un número fijo determinado por el usuario (p. ej.: 4
sujetos).
• Basándose en el rango del tiempo o de los casos. El usuario especifica un rango
determinado de sujetos indicando donde empieza y dónde termina (p. ej.: del sujeto
nº 10 al sujeto nº 13).
• Usar variable de filtro. Se utilizará una variable binaria (con unos o ceros como
únicos valores) para indicar qué sujetos serán seleccionados (los que tengan unos) y
qué sujetos no serán seleccionados (los que tengan ceros). La variable debe
introducirse en el recuadro situado debajo de la leyenda.

Por último, en la parte inferior, existen dos alternativas aplicables a los sujetos que no
han sido seleccionados. Éstos pueden ser simplemente filtrados, lo que significa que
pueden volver a ser utilizados deshaciendo la selección efectuada; de forma alternativa,
los sujetos no seleccionados pueden ser eliminados permanentemente del archivo de
datos.

En el caso que nos ocupa deseamos seleccionar a aquellos sujetos que cumplen una
determinada condición (ser mujeres y estudiantes); por tanto, debemos seleccionar la
alternativa que selecciona sólo a aquellos sujetos que satisfacen una condición. A
continuación, pulse el botón Si.

Dado que los sujetos son seleccionados en función de que cumplan o no una condición,
el cuadro de diálogo para selección de casos es muy parecido al que vimos para las
transformaciones condicionales: disponemos igualmente de una lista de variables, de
una consola de cálculo, y de una lista de funciones aplicables. Vamos ahora a especificar
la condición, que podría resumirse del siguiente modo:

item17 = 2 & item20 = 1

Usted ya sabe lo que significa la expresión anterior: los sujetos deben ser mujeres
(item17=2) y además (&) deben ser estudiantes (item20=1). Introduzca esta expresión
del modo que ya conoce. El cuadro de diálogo debe quedar de este modo:

50
Pulse ahora el botón Continuar. A continuación, pulse el botón Aceptar en el cuadro de
diálogo de selección de casos. Ocurrirán varias cosas interesnates en su ventanta de
datos: Desplácese hacia la derecha en la lista de variables y se encontrará algo parecido a
esto:

Observe, en primer lugar, que, salvo para los sujetos 4, 9 y 11, el botón que contiene el
número de orden de los sujetos aparece tachado. Cuando el botón correspondiente a un
sujeto aparece tachado, esto significa que ese sujeto no ha sido seleccionado ¿Qué
ocurre, pues, con los sujetos 4, 9 y 11? Estos sujetos son mujeres estudiantes (vea las
columnas correspondientes: item17 e item20) y, por tanto, sí están seleccionados. Si

51
solicita ahora un análisis de frecuencias, observará que la muestra que aparece en los
listados consta ahora de sólo 3 sujetos, los sujetos 9 y 11, en lugar de los 20 sujetos que
existen realmente en el archivo de datos. Fíjese ahora en la última variable, que tiene el
extraño nombre de filter_$. Usted no ha creado esta variable; la ha creado SPSS
despues de que usted efectuó una selección dentro de la muestra de sujetos. La función
de la variable filter_$ es la de contener la información sobre qué sujetos están
seleccionados y qué sujetos no lo están. A los primeros se les asigna un 1 en filter_$ y a
los segundos, se les asigna un 0. Todos los sujetos, menos el nº 4, el nº 9 y el nº 11,
tienen un 0 en la casilla correspondiente de filter_$. Los sujetos 4, 9 y 11, por su parte,
tienen un 1 en su casilla.

¿Qué ocurre si ahora quiere volver a utilizar la muestra completa de 20 sujetos? No hay
ningún problema. Simplemente vuelva a seleccionar la opción Datos y, a continuación,
la opción Seleccionar casos. Ahora seleccione la opción Todos los casos que aparece en
primer lugar en el cuadro de diálogo. La variable filter_$, aunque continúa presente,
dejará de estar en efecto, y todos los sujetos volverán a ser seleccionados. Si más
adelante vuelve a efectuar alguna selección, el resultado volverá a almacenarse en
filter_$.

Pruebe ahora usted solo a hacer alguna selección de sujetos basado en un criterio
distinto al condicional como, por ejemplo, un porcentaje de sujetos extraidos
aleatoriamente de la muesra de 20 original, o seleccionar un rango de casos
determinado. Observe los cambios que se operan en la ventana de datos. Finalmente,
vuelva a dejar el archivo de datos de modo que puedan volverse a utilizar todos los
sujetos.

Un procedimiento alternativo al de la selección de sujetos consiste en segmentar el


archivo en varios grupos distintos (p. ej.: hombres y mujeres). De este modo es posible
comparar los resultados de los análisis efectuados para cada grupo, o llevar a cabo
simplemente los análisis de forma separada para cada grupo.

El botón Segmentar archivo le permite segmentar el archivo en varios grupos, en


base a una variable de agrupación

4.4. Cómo clasificar a los sujetos por orden en una o más variables

El lugar que ocupan los sujetos en el archivo de datos viene determinado, por defecto,
por el orden en que fueron introducidos en el mismo. No obstante, en ocasiones es
posible que usted desee ordenar a los sujetos en base a algún otro criterio (edad, sexo,
etc.). En SPSS es posible ordenar los sujetos, en orden ascendente o descendente, en
base a los valores obtenidos en una o más variables. Si utilizamos una sola variable, los
sujetos serán ordenados en función de los valores numéricos o alfanuméricos obtenidos
en la misma. si utilizamos dos o más variables, aquellos sujetos que obtengan la misma
puntuación en la primera variable de ordenación serán ordenados, a su vez, en función
de los valores obtenidos en la segunda variable de ordenación. Si persistiesen los
empates, éstos serían ordenados en función de una tercera variable de ordenación, y así
sucesivamente.

52
Imagine que está usted interesado en ordenar a nuestros 20 sujetos en función de su
respuesta a item01, su capacidad para entender el gallego hablado. Seleccione la opción
Datos y, a continuación, la opción Ordenar casos. SPSS le mostrará el siguiente cuadro
de diálogo:

A la izquierda se muestra una lista de las variables que puede usted utilizar para realizar
la ordenación. Si eligiese varias, la primera de las elegidas sería utilizada por el
programa como primera variable de ordenación, la segunda como segunda variable de
ordenación, etcétera. Seleccione item01. Más abajo aparece un recuadro donde puede
usted seleccionar el tipo de ordenación: ascendente (de 0 a 9 y de A a Z) o descendente
(de Z a A y de 9 a 0). El modo ascendente es el que está seleccionado por defecto. Pulse
ahora el botón Aceptar y eche una ojeada al archivo de datos. Ahora los sujetos con
puntuación de 1 (“nada”) en item01 aparecen en primer lugar, seguidos de los sujetos
con puntuación 2 (“regular”) y puntuación 3 (“bien”).

53
TERCERA PARTE: ANÁLISIS ESTADÍSTICO CON SPSS PARA
WINDOWS

54
5. Descripción de Variables (Frecuencias y Descriptivos)

Uno de los objetivos más básicos del análisis estadístico es la descripción de variables.
En la mayoría de las ocasiones la descripción de las variables es una primera fase en el
análisis estadístico de los datos; pero pueden existir situaciones en que la descripción de
variables sea el único objetivo del análisis estadístico. Para la descripción de variables
suele utilizarse alguno de los siguientes recursos estadísticos:

1. Distribución de frecuencias;
2. Representación gráfica;
3. Definición de índices de valor central, variabilidad, asimetría y curtosis.

5.1. Distribución de frecuencias

Si usted ha pasado por las secciones anteriores de este libro ya conoce el procedimiento
básico para obtener una distribución de frecuencias (ver Apartado 2.8). No obstante,
SPSS dispone de muchas opciones dentro de este procedimiento. Comience la sesión
abriendo el archivo encuest.sav. A continuación, seleccione la opción Analizar. En el
menú que se despliega debajo, seleccione la opción Estadísticos descriptivos y,
finalmente, en el menú que se despliega a la derecha, seleccione la opción Frecuencias.
Para el análisis, seleccione la variable item01. El cuadro de diálogo tendrá ahora este
aspecto:

Observe que la opción para mostrar tablas de frecuencias está seleccionada.


Inmediatamente debajo aparecen tres botones etiquetados Estadísticos, Gráficos, y
Formato. Durante el curso de esta sesión aprenderá qué partido puede sacar de estos
botones en función de la información que desee obtener.

55
5.1.1. Representación gráfica

Para el análisis de frecuencias, SPSS posee dos tipos de gráficos: los gráficos de barras y
los histogramas. Estos gráficos proporcionan información similar a la distribución de
frecuencias, pero de forma más intuitiva. En el caso del gráfico de barras, que se aplica a
variables de tipo categórico, se utilizan dos ejes ortogonales. En el eje de abscisas
(horizontal) se representan los valores de la variable X, y en el eje de ordenadas
(vertical) se representan las frecuencias. La mayoría de las variables del archivo
encuest.sav son de tipo categórico; su representación gráfica debería hacerse, por tanto,
mediante un gráfico de barras.

El caso del histograma es muy semejante al del gráfico de barras, pero se aplica cuando
la variable representada en el eje X es contínua, es decir, tiene un gran número de valores
diferentes. En lugar de representar todos estos valores en el eje de abscisas, se crean
intervalos de valores, donde todos los intervalos tienen el mismo tamaño (abarcan un
rango de valores igual de grande). En el eje de ordenadas se representa el número de
casos que caen dentro de cada intervalo. El uso del histograma sería necesario, por
ejemplo, para representar gráficamente la variable item18, dado que el número de
edades diferentes puede ser muy grande. Al crear un histograma, SPSS calcula
automáticamente tanto el número como la amplitud de los intervalos que debe
representar en el gráfico.

Ahora pruebe usted a obtener un gráfico para la variable item01. Pulse el botón
etiquetado Gráficos. Aparecerá este cuadro de diálogo:

En el recuadro correspondiente al tipo de gráfico aparece seleccionada la opción por


defecto: ninguno. Podemos pedir tanto un gráfico de barras como un histograma. Para el
caso de los histogramas, existe además la posibilidad de superponer la curva normal a la
distribución obtenida, con la finalidad de efectuar comparaciones. Dado que item01 es
una variable categórica (sólo tres valores diferentes), seleccione la opción Gráficos de
barras. En la parte inferior del cuadro de diálogo se nos permite elegir entre mostrar
frecuencias (opción por defecto) o porcentajes en el eje de abscisas del gráfico. Deje
estar la opción por defecto. Pulse ahora el botón Continuar y, a continuación, pulse el
botón Aceptar. Aparecerá la ventana del visor de resultados de SPSS, que le ofrecerá,

56
además de la tabla de distribución de frecuencias que ya conoce, el siguiente gráfico de
barras:

entiendo el gallego hablado


16

14

12

10

4
Frecuencia

0
nada regular bien

entiendo el gallego hablado

Como puede ver, en el gráfico incluye tanto la etiqueta de la variable (“Entiendo el


gallego hablado”) como las etiquetas de los valores (“nada”, “regular” y “bien”). Hay
modificaciones adicionales que puede hacer usted sobre el gráfico, pero dejaremos ese
tema para la parte cuarta de este libro. Si quiere guardar los resultados obtenidos,
incluyendo el gráfico, siga los mismos pasos que en el apartado 2.8. Tenga en cuenta
que ahora debe especificar un nombre diferente para el archivo de resultados (p. ej.:
encuest2.spo); de lo contrario borraría los resultados guardados en la sesión anterior.

Para los siguientes ejercicios no va a necesitar ningún tipo de gráfico. Vuelva al cuadro
de diálogo de Frecuencias y, en el mismo, vuelva a pulsar el botón Gráficos. En el
recuadro Tipo de gráfico seleccione la opción Ninguno. Pulse ahora el botón Continuar.
Esto evitará que aparezcan gráficos en los análisis de frecuencias que haga a
continuación. Ahora que está en el cuadro de diálogo de Frecuencias, pulse el botón
Estadísticos. Aparecerá el siguiente cuadro de diálogo:

57
Como las opciones para estadísticos son bastante amplias, las iremos viendo una por
una: Tendencia central, Dispersión, Distribución, y Valores percentiles.

5.1.2. Índices de Tendencia central

La búsqueda de algún valor central de la distribución es uno de los recursos estadísticos


más utilizados cuando se pretende describir una variable. El valor central por excelencia
es la media aritmética. No obstante, pueden definirse otros valores centrales tales como
la moda, la mediana, la media geométrica, la media armónica o la media ponderada. De
todos ellos, sólo nos referiremos aquí a la media, mediana y moda. Seleccione todos los
estadísticos de tendencia central en el cuadro de diálogo y pulse Continuar. A
continuación, en el cuadro de diálogo de Frecuencias, pulse el botón Aceptar. Verá que
en el visor de resultados aparece una nueva tabla junto a la tabla de frecuencias. La tabla
tiene este aspecto:

Estadísticos

entiendo el gallego hablado


N Válidos 20
Perdidos 0
Media 2.70
Mediana 3.00
Moda 3
Suma 54

La moda es el valor de la variable que tiene la frecuencia más alta. Para saber cuál es la
moda basta con observar en la distribución de frecuencias cuál es el valor más frecuente.
En el caso de item01, observábamos que el valor 1 tenía 1 frecuencia, el valor 2 tenía 4
frecuencias, y el valor 3 tenía 15 frecuencias. Por tanto, la moda será 3. Éste es el valor
que aparece en su listado.

58
La mediana es un valor de la variable (observado o no) tal que deja la mitad de las
observaciones (datos) por encima y la otra mitad por debajo. Para el cálculo de la
mediana hay que considerar dos casos:

a) cuando el número total de observaciones N es impar;


b) cuando el número total de observaciones N es par.

Cuando N es impar se ordenan las observaciones de menor a mayor y se toma como


mediana la observación que deje la mitad de los observaciones (restantes) por debajo y
la otra mitad por encima. Por ejemplo, considérense las 5 observaciones siguientes (N =
5):

8, 3, 5, 6, 3.

En un primer paso, ordenamos las observaciones:

3, 3, 5, 6, 8.

Se observa que el valor 5 deja la mitad de las observaciones (3,3) por debajo y la otra
mitad (6,8) por arriba. Por tanto la mediana es 5.

Una manera más precisa de definir la mediana consiste en describirla como la


observación que ocupe el número de orden (N+1)/2. En este caso, (N+1)/2 = (5+1)/2 =
3. La observación que ocupa el tercer lugar es el 5. Por tanto, la mediana es 5.

Cuando el número de observaciones N es par, la mediana es el punto medio entre la


observación que ocupa el número de orden N/2 y la observación que ocupa el número de
orden (N/2) + 1. Por ejemplo, considérense las seis observaciones siguientes (N = 6):

8, 3, 5, 6, 3, 2.

Primero, se ordenan las observaciones:

2, 4, 4, 5, 6, 8.

La observación que ocupa el número de orden 6/2 (es decir, el tercer lugar) es el 4. La
observación que ocupa el número de orden (6/2) + 1 (es decir, el cuarto lugar) es el 5. El
punto medio entre 4 y 5 es 4.5. Por tanto la mediana es 4.5.

En el caso de nuestro listado, observará que la mediana para item01 es 3. Para ver cómo
se obtiene este resultado, recuerde que item01 tenía 3 posibles valores (1, 2, 3), y que las
frecuencias de estos valores eran 1, 4 y 15, respectivamente. He aquí las 20
observaciones ordenadas:

1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3.

59
N aquí es par (20). La observación que ocupa el lugar N/2 (es decir, el décimo lugar) es
un 3, y la observación que ocupa el lugar (N/2)+1 (es decir, el undécimo lugar) también
es un 3. El punto medio entre 3 y 3 es 3. De ahí que la mediana sea 3.

La media aritmética es el valor central con propiedades estadísticas más deseables. La


media aritmética se define como la suma de todas las observaciones obtenidas para una
variable, dividida por el número total de observaciones (N). Formalmente, la media
arimética ( X ) se puede definir así:

∑X
i=1
i

X =
N
donde Xi es una observación (dato o medida). En adelante, por simplicidad, una
observación la representamos simplemente por X, prescindiendo del subíndice i. En
consecuencia, tampoco ofreceremos los límites de la suma (Σ) que siempre son 1, en el
límite inferior, y N en el límite superior.

Para comprender por qué la media aritmética es el valor central por excelencia,
considérense las 4 observaciones siguientes:

1, 2, 4, 5.

La media aritmética es

1+ 2 + 4 + 5
X = = 3
4

La desviación (distancia o diferencia) existente entre cada una de las observaciones (1,
2, 4, 5) con respecto a 3 es, en conjunto, la menor posible. No existiría otro valor
numérico que hiciera más pequeñas estas desviaciones. Si medimos una a una estas
desviaciones obtenemos:

1 - 3 = -2
2 - 3 = -1
4-3= 1
5-3= 2

Se puede hacer la observación principal de que la suma de las desviaciones negativas (-


3), correspondientes a valores que están por debajo de la media aritmética, es igual a la
suma de la desviaciones positivas (3), correspondientes a valores situados por encima de
la media aritmética. Esta propiedad produce que la suma de todas las desviaciones sea
cero. En consecuencia, se dice que la media aritmética minimiza las desviaciones.

A modo de contraste, imagine que tomáramos como valor representativo del conjunto de
observaciones el 4. En este caso tendríamos:

60
1 - 4 = -3
2 - 4 = -2
4-4= 0
5-4= 1

Se observa que la suma de las desviaciones negativas (-5) es mayor que la suma de las
desviaciones positivas (1), lo que produce que 4 no minimice las desviaciones.

Volviendo a nuestro listado, podrá observar que la media aritmética para item01 es 2.7.

5.1.3. Índices de Dispersión

Supongamos que 3 sujetos (N=3) obtienen las tres puntuaciones siguientes en una
prueba:

7, 8, 9.

Denominemos a este conjunto de observaciones A. La media aritmética de A es 8.

Asumamos ahora que otros 3 sujetos (N=3) obtienen estas puntuaciones en la misma
prueba:

1, 8, 15.

Denominemos a este segundo conjunto B. La media aritmética de B también es 8.

Se observa fácilmente que, aunque los conjuntos de observaciones A y B tienen la


misma media aritmética, son sustancialmente distintos. ¿Qué es lo que los hace
distintos? La respuesta es: la variabilidad.

La manera más elemental de medir la variabilidad para un conjunto de observaciones


consiste en describir cuál es el valor observado más bajo, o mínimo, cuál es el valor
observado más alto, o máximo, y cuál es la diferencia entre ambos. A esta diferencia se
le denomina Amplitud total o también Rango.

A continuación se ofrecen estos índices para los conjuntos A y B:

conjunto A conjunto B
Mínimo 7 1
Máximo 9 15
Rango 2 14

Todos estos índices reflejan el hecho empírico de que B es más variable que A. Pero, a
pesar de que estos índices son útiles para medir la variabilidad de las observaciones
correspondientes a una variable, existen otros índices de variabilidad con propiedades
estadísticas más deseables. Estos índices son la varianza y la desviación típica.

61
Desde el punto de vista de estos índices, la variabilidad se mide utilizando como punto
de referencia la media aritmética. Cuanto más se desvíen las observaciones de la media
aritmética mayor será la variabilidad, y cuanto menos se desvíen menor. La manera más
simple de operativizar esta definición parece que podría obtenerse en los dos pasos
siguientes:

1. Hallar la desviación (distancia o diferencia) entre cada observación y la media


aritmética.

Esto en A sería:

7-8 = -1
8-8 = 0
9-8 = 1

Esto mismo en B sería:

1-8 = -7
8-8 = 0
15-8 = 7

2. Hallar la media de las desviaciones obtenidas en el paso 1.

La media de las desviaciones en A sería:

-1+ 0 + 1
= 0
3

La media de las desviaciones en B sería:

-7 + 0 +7
= 0
3

La media arimética de las desviaciones es en A y en B igual (cero en ambos casos). Esta


propiedad nos sugiere que el procedimiento no es adecuado. Se busca un índice (de
variabilidad) cuya magnitud refleje la intensidad de la variabilidad existente en las
observaciones. En este ejemplo, el índice ha de ser menor en A que en B, porque la
variabilidad en A es menor que en B.

Una manera de evitar el problema de los signos hubiera sido elevar las desviaciones al
cuadrado, y hallar luego la media de tales desviaciones elevadas al cuadrado. Este índice
es, precisamente, la varianza (Sx2).

La varianza para el conjunto A sería:

2 (-1 )2+(0 )2+(1 )2


S =
x = 0.67
3

62
La varianza para el conjunto B sería:

2 (-7 )2+(0 )2+(7 )2


Sx = = 32.67
3

Este sí es un indicador apropiado de la variabilidad. Sabíamos que la variabilidad en A


era pequeña en comparación con la variabilidad en B. Los resultados obtenidos (0.67
versus 32.67) reflejan este hecho.

Formalmente, la definición de la varianza se expresa así:

2 ∑(X - X )2
S = x
N

Al elevar las desviaciones al cuadrado se evita el problema de los signos, lo cual es muy
útil para el objetivo que se busca aquí. No obstante, la elevación al cuadrado produce
una "distorsión" notable de las desviaciones que provoca, a su vez, problemas de
interpretación. A modo de ejemplo, en el conjunto de observaciones B, la observación
más baja era el 1, y la más alta era el 15. La varianza, no obstante, era 32.67, que se sale
fuera del rango de las observaciones obtenidas. Un procedimiento muy práctico, que
permite recuperar la escala original de las observaciones, consiste en hallar la raíz
cuadrada de la varianza. A este índice se le denomina desviación típica, y se representa
por Sx. Formalmente,

Sx = S 2x

La desviación típica en el conjunto A sería:

Sx = 0.67 1 = 0.82.

La desviación típica en el conjunto B sería:

Sx = 32.67 2 = 5.72.

La desviación típica se denomina así porque representa la desviación (distancia o


diferencia) típica entre una observación y la media aritmética. Esta desviación típica es
0.82 en el conjunto A y 5.72 en el conjunto B.

A pesar de que la definición que hemos ofrecido de varianza (y, en consecuencia, de


desviación típica) es correcta, en SPSS se ofrece una definición ligeramente distinta. La
innovación está en que, en lugar de dividir la suma de los cuadrados de las desviaciones
entre N, SPSS la divide entre N-1. Esto es, se modifica la definición de varianza para
expresarla como sigue:

2 ∑(X - X )2
Sx =
N -1

63
Nótese que procediendo así lo que se hace es "exagerar" un poco el valor de la varianza.
En efecto, en el conjunto A la varianza, así definida, sería:

2 (-1 )2+(0 )2+(1 )2


S = x = 1
3 -1

Procediendo de igual forma, la varianza para el conjunto B sería:

2 (-7 )2+(0 )2+(7 )2


S =
x = 49
3-1

Para entender por qué SPSS ofrece esta definición modificada de la varianza, permítame
proponerle un ejemplo. Imagine que una empresa con 10.000 empleados le encarga a
usted un sondeo de opinión sobre el nivel de satisfacción laboral de sus empleados. Por
razones económicas y de tiempo, le piden que el estudio no lo haga con los 10.000
empleados sino con una muestra aleatoria de tan sólo 800 empleados. Su objetivo es
conocer la satisfacción laboral de los 800 empleados y extrapolar, luego, este
conocimiento a los 10.000 empleados de la empresa. Entre los indicadores de la
satisfacción laboral usted elige la media aritmética y la varianza. Pues bien, se sabe que
la mejor estimación de la media aritmética de los 10.000 empleados sería la media
aritmética de los 800 empleados; sin embargo, esto no es verdad para la varianza. La
mejor estimación de la varianza de los 10.000 empleados no sería la varianza de los 800,
sino la varianza de los 800 empleados ligeramente aumentada. Precisamente, para
producir este aumento se divide la suma de cuadrados del numerador de la definición de
varianza entre N-1. SPSS supone, por tanto, que el interés del usuario es la inferencia, la
extrapolación de las conclusiones obtenidas en una muestra a una población de donde es
extraída dicha muestra. A veces, para distinguir la varianza con N en el denominador de
la varianza con N-1 en el denominador se le denomina, a la primera, varianza y, a la
segunda, cuasi-varianza. No obstante, esta distinción no se hace en SPSS, y la única
varianza que se ofrece es la cuasi-varianza.

Todos los índices de variabilidad a los que nos hemos referido hasta ahora (mínimo,
máximo, rango, varianza, desviación típica) pueden obtenerse en SPSS. En el caso de
item01, por ejemplo, para obtener estos índices se puede proceder de la siguiente
manera:

Vuelva a solicitar un análisis de frecuencias. Puede hacer esto utilizando de nuevo el


menú o utilizando la barra de botones.

El botón Rellamada de cuadro de diálogo le permite volver a llamar a un


procedimiento de análisis estadístico previamente utilizado.

En el cuadro de diálogo correspondiente al procedimiento Frecuencias, vuelva a pulsar


el botón Estadísticos. Elimine la selección anterior sobre la media, mediana, moda y
suma. Vaya ahora el recuadro etiquetado Dispersión. Los índices de variabilidad o
dispersión que SPSS nos ofrece son: desviación típica, varianza, amplitud o rango,
mínimo y máximo, y error típico de la media. Seleccione los cinco primeros, deje el

64
último. Pulse Continuar y, en el cuadro de diálogo de Frecuencias, pulse Aceptar.
Obtendrá esta tabla con los estadísticos de dispersión:

Estadísticos

entiendo el gallego hablado


N Válidos 20
Perdidos 0
Desv. típ. .57
Varianza .33
Rango 2
Mínimo 1
Máximo 3

SPSS también permite obtener un índice de variabilidad denominado error típico de la


media, que también es el valor de una desviación típica, pero en este caso se trata de la
desviación típica de la media, y no de la desviación típica de las puntuaciones originales.
Puede interpretarse como el grado de variabilidad que puede encontrarse al hallar la
media tomando distintas muestras de sujetos. Si selecciona este índice en el recuadro
Dispersión, para item01, encontrará que es de 0.13. Esto quiere decir que las diferencias
que encontraríamos entre los valores de la media tomados de distintas muestras de
sujetos sería pequeña.

Además de los índices que hemos visto, en los libros de estadística se suele hacer
referencia a otros índices de variabilidad, tales como el coeficiente de variación y la
amplitud semi-intercuartil.

El coeficiente de variación es útil cuando queremos comparar la variabilidad


correspondiente a dos variables que tienen distinta unidad de medida. Mediante el
coeficiente de variación se transforma la variabilidad en porcentajes, lo que permite la
comparación.

El coeficiente de variación (C.V.) se define así:

C.V. = (Desviación Típica/Media aritmética) x 100

SPSS no produce el coeficiente de variación. No obstante, se puede calcular fácilmente


dado que el sistema sí ofrece la desviación típica y la media aritmética. Así, para la
variable 1 del estudio sociolingüístico, se obtendría:

0.571
C.V. = x 100 = 21.15
2.7

Otro índice de variabilidad que se recoge en los libros de estadística es la amplitud semi-
intercuartil. Con este índice se mide la variabilidad sin utilizar la media aritmética. La
amplitud semi-intercuartril (Q) se define así:

65
Q3 - Q1
Q =
2

donde Q3 es el cuartil 3 (o percentil 75) y Q1 es el cuartil 1 (o percentil 25). SPSS


tampoco ofrece la amplitud semi-intercuartil directamente, aunque sí los cuartiles
necesarios para calcularla (Q1 y Q3). Los cuartiles y percentiles se comentarán con
detalle en el apartado 5.2.1

5.1.4. Índices de Distribución

En la mayoría de las ocasiones, para describir la distribución de una variable, es


suficiente con indicar cuál es su valor más bajo, cuál es su valor más alto, cuál es su
media aritmética, y cuál es su desviación típica. Por ejemplo, la distribución de la
variable 1 (item01) del estudio sociolingüístico quedaría correctamente descrita si
indicáramos que su valor observado más bajo es el 1, su valor observado más alto el 3,
la media aritmética 2.7, y la desviación típica 0.571. No obstante, es posible definir,
además, algunas características relativas a la forma de la distribución de la variable.
Estas características son dos: (1) la asimetría, y (2) la curtosis. En este epígrafe nos
referiremos a la asimetría, y en el siguiente a la curtosis. En ocasiones, la definición de la
asimetría y la curtosis de una variable puede ser muy valiosa para la toma de decisiones
en cuanto al análisis estadístico de los datos.

5.1.4.1. Asimetría

Imagine que realiza una prueba a 15 sujetos y obtiene los siguientes resultados:

Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 5 12 2
5 4 13 2
6 4 14 1
7 4 15 3
8 3

Si realizáramos una representación gráfica de estos datos, obtendríamos el siguiente


diagrama:

66
0
1.0 2.0 3.0 4.0 5.0
Se observa que la distribución es simétrica. Se puede identificar un valor valor central
(el 3) que es el que tiene la frecuencia más alta. Luego, también se observa que la
distribución de los valores que quedan por debajo de este valor central es igual a la
distribución de los valores que quedan por encima.

Obviamente, las 15 observaciones ofrecidas aquí se han arreglado para que la


distribución fuese simétrica. No obstante, la probabilidad de obtener distribuciones
totalmente simétricas, cuando el número de observaciones es pequeño como aquí, es
muy baja. Lo más probable es que la distribución se desvíe de la simetría perfecta.
Cuando una distribución se desvía de la simetría se le denomina asimétrica. SPSS
dispone de un índice, que aquí representaremos por g1, que mide esta propiedad de la
distribución. Este índice se define así en SPSS:

N ∑(X - X )3
g1 =
(N - 1)(N - 2) S 3x

Cuando la distribución es simétrica, como la del ejemplo anterior, el resultado de este


índice siempre es cero.

Para verificarlo, basta con calcular el numerador de g1. N es 15 y la media aritmética es


3. Lo único que tendremos que calcular será la suma de los cubos de las desviaciones
con respecto a la media:

_
3
Sujeto X (X-X )
1 3 0
2 5 8
3 2 -1
4 5 8
5 4 1
6 4 1
7 4 1
8 3 0
9 1 -8
10 3 0
11 3 0
12 2 -1
13 2 -1
14 1 -8
15 3 0
0

Como el resultado de esta suma es cero, el numerador será cero. En consecuencia, sea
cual sea el denominador, g1 será cero.

Nótese en el gráfico anterior como la simetría puede "romperse" de dos maneras


distintas. Una sería "mover" los datos de forma que haya más observaciones en la parte
alta (hacia la derecha en el gráfico) que en la parte baja. A modo de ejemplo, hagamos
que los resultados de los 15 sujetos en la prueba fueran los siguientes:

67
Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 5 12 5
5 4 13 2
6 4 14 4
7 4 15 3
8 3

La representación gráfica de estos datos sería como sigue:

0
1.0 2.0 3.0 4.0 5.0

Se observa que la distribución es asimétrica. Existen más observaciones altas (parte


derecha del gráfico) que bajas (parte izquierda). A esta asimetría se le denomina
negativa. Cuando esto ocurre, el valor de g1 es negativo.

Para los datos del ejemplo, la media es ahora 3.40 y la desviación típica (con el
denominador N-1) es 1.183. Si calculamos la suma de los cubos de las desviaciones,
obtenemos:

_
3
Sujeto X (X-X )
1 3 -0.064
2 5 4.096
3 2 -2.744
4 5 4.096
5 4 0.216
6 4 0.216
7 4 0.216
8 3 -0.064
9 1 -13.824
10 3 -0.064
11 3 -0.064
12 5 4.096
13 2 -2.744
14 4 0.216
15 3 0.064
-6.480

68
Por tanto, sustituyendo en la definición de g1, obtenemos:

(15) (-6.480) -97.2


g1 = = = -0.32
(14)(13)(1.65) 300.3

La otra manera de "romper" la simetría consiste en "mover" las observaciones de forma


que haya más observaciones bajas (izquierda en el gráfico) que altas (derecha). Si esto
ocurriera, g1 sería positivo. Para verificarlo, hagamos que las 15 observaciones sean las
siguientes:

Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 1 12 2
5 4 13 2
6 2 14 1
7 4 15 3
8 3

En este caso, la representación gráfica sería como sigue:

0
1.0 2.0 3.0 4.0 5.0

Al igual que en el caso anterior, se observa que la distribución es asimétrica. Pero, en


este caso, existen más observaciones bajas (izquierda en el gráfico) que altas (derecha).
A este tipo de asimetría se le denomina positiva. La media es ahora 2.60 y la desviación
típica 1.183. Para calcular g1 sólo nos falta calcular la suma de los cubos de las
desviaciones:

69
_
3
Sujeto X (X-X )
1 3 -0.064
2 5 13.824
3 2 -0.216
4 1 -4.096
5 4 2.744
6 2 -0.216
7 4 2.744
8 3 0.064
9 1 -4.096
10 3 0.064
11 3 0.064
12 2 -0.216
13 2 -0.216
14 1 -4.096
15 3 0.064
6.416

(15) (6.416) 96.24


g1 = = = 0.32
(14)(13)(1.65) 300.3

5.1.4.2. Curtosis

El concepto de curtosis hace referencia al apuntamiento de la distribución de una


variable. El punto de referencia para medir esta característica de una distribución
empírica es el apuntamiento de una distribución teórica: la distribución normal tipificada
(con media 0 y varianza 1). El apuntamiento de esta distribución se considera intermedio
y, en consecuencia, se denomina a la distribución "mesocúrtica". A una distribución más
apuntada se le denomina "leptocúrtica", mientras a una distribución menos apuntada (o,
lo que es lo mismo, más aplastada) se le denomina "platicúrtica".

Tomemos otra vez las 15 observaciones que hemos utilizado en el ejemplo de la


distribución simétrica, esto es, cuando el índice de asimetría era justamente cero:

Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 5 12 2
5 4 13 2
6 4 14 1
7 4 15 3
8 3

Ya sabemos que la distribución es simétrica. Ahora deseamos saber, además, si el grado


de apuntamiento de la distribución es igual, mayor o menor que el apuntamiento de la
curva normal. Para describir esta propiedad de la distribución, SPSS dispone de un
índice, que aquí representaremos como g2, que se define de la siguiente manera:

70
[(N)(N + 1) ∑(X - X )4 ] - [(3) ∑(X - X )2 ∑(X - X )2 (N - 1)]
g2 =
(N - 1)(N - 2)(N - 3) S 4x

Este índice está ideado de tal manera que si el resultado es cero, el apuntamiento de la
distribición es intermedio (distribución mesocúrtica), si el resultado es mayor que cero el
apuntamiento es superior (distribución leptocúrtica), y si el resultado es menor que cero
el apuntamiento es inferior (distribución platicúrtica).

En el ejemplo, con media aritmética igual a 3, se obtiene:

_ _
2 4
Sujeto X (X-X ) (X-X )
1 3 0 0
2 5 4 16
3 2 1 1
4 5 4 16
5 4 1 1
6 4 1 1
7 4 1 1
8 3 0 0
9 1 4 16
10 3 0 0
11 3 0 0
12 2 1 1
13 2 1 1
14 1 4 16
15 3 0 0
22 70

[(15)(16)(70)] - [(3)(22)(22)(14)]
g2 = = -0.654
(14)(13)(12)(2.4694)

Lo que indica g2 es que la distribución es platicúrtica, esto es, más aplastada que la
distribución normal.

Si calcula el valor de la asimetría y la curtosis para item01, en el mismo cuadro de


diálogo que utilizó para seleccionar los índices de tendencia central y dispersión,
obtendrá que el índice de asimetría vale -1.845. La primera interpretación que se puede
hacer de este índice es que la asimetría es negativa, puesto que el índice es negativo.
Recuerde que una asimetría negativa quiere decir que hay más observaciones altas (a la
derecha en el gráfico) que bajas (izquierda). Además, dado que el índice se aleja
bastante de cero, también se puede concluir que la asimetría (negativa) es mucha. Dado
que el ítem 1 del cuestionario sociolingüístico preguntaba a los sujetos por el grado de
conocimiento que tenían del gallego hablado (donde 1 significaba que no entendían
nada, 2 que su grado de entendimiento era regular, y 3 que era bueno) se podría concluir,
de manera más concreta, que la mayoría de los sujetos encuestados entiende bien el
gallego hablado, siendo tan sólo unos pocos los que no entienden nada este idioma. En
el caso de la curtosis obtendrá un valor para item01 de 2.861. Como el resultado es
positivo y, además, se aparta bastante de cero podemos concluir que la distribución es
leptocúrtica (apuntamiento superior al de la curva normal) y, además, el grado de
apuntamiento es muy fuerte.

71
5.1.5. Selección de índices descriptivos y escala de medida

En el cuadro de diálogo que hemos utilizado últimamente SPSS ofrece un total de 14


índices descriptivos. Es evidente que para describir la distribución de una variable
adecuadamente no es necesario definir los 14 índices. En realidad, el sistema ofrece un
amplio repertorio para que el usuario elija un subconjunto determinado. Un criterio
importante para la elección de este subconjunto es la escala de medida utilizada. Si la
escala es de intervalos o razón, nuestro consejo es que se elijan los siguientes 4 índices:

1. Observación más baja,


2. Observación más alta,
3. Media aritmética,
4. Desviación típica.

Por ejemplo, si nuestro objetivo fuese describir la distribución de la variable item01 del
estudio sociolingüítico, y asumimos que está medida a nivel de intervalos, quedaría
adecuadamente descrita si señalamos que el valor observado más bajo era el 1, el más
alto el 3, la media aritmética 2.7, y la desviación típica 0.57.

En ocasiones, dependiendo de los análisis estadísticos que se vayan a realizar


posteriormente, suele ser útil definir, además de los 4 índices señalados, la forma de la
distribución de la variable; es decir, su asimetría y su curtosis.

Si la escala es ordinal, nuestro consejo es que se describa igualmente el valor observado


más bajo y el más alto; pero que, en lugar de la media aritmética se defina la mediana, y
en lugar de la desviación típica, la amplitud semi-intercuartil.

Finalmente, si la escala es nominal, nuestro consejo es que se ofrezca la distribución de


frecuencias (con excepción de la columna de porcentajes acumulados), haciendo
especial énfasis en señalar cuál es el valor observado más bajo, el más alto, y aquel que
más veces se repite (moda).

5.1.6. Procedimiento alternativo para el cálculo de estadísticos descriptivos

El análisis descriptivo le permite obtener, de entre todos los estadísticos referidos al


análisis de una variable, aquellos basados en la media. De este modo, puede obtener la
media como medida de tendencia central, la varianza y desviación típica como medidas
de dispersión, y la asimetría y la curtosis como medidas de distribución. En este sentido,
repite muchas de las opciones ya disponibles en un análisis de frecuencias. No obstante,
presenta varias opciones que son de uso exclusivo dentro de este procedimiento. La más
interesante de estas es la posibilidad de transformar las puntuaciones originales en
puntuaciones típicas, aspecto que se tratará en el siguiente apartado.

Para efectuar un análisis descriptivo, seleccione la opción Analizar. A continuación,


seleccione la opción Estadísticos descriptivos. Finalmente, en el menú que se despliega

72
a la derecha, seleccione la opción Descriptivos. Aparecerá el siguiente cuadro de
diálogo:

Seleccione item01 como variable para el análisis en el cuadro de diálogo. A


continuación, pulse el botón etiquetado Opciones. Aparecerá otro cuadro de diálogo, en
el que puede seleccionar los estadísticos que desea obtener para la(s) variable(s) de
interés. Por defecto, el procedimiento muestra sólo la media, desviación típica, y valores
máximo y mínimo de la variable. Sin embargo, también pueden pedírsele otros índices,
como suma de puntuaciones, varianza, rango, error típico de la media, asimetría y
curtosis. Como puede comprobar, estos estadísticos también podían obtenerse mediante
un análisis de frecuencias. En la figura siguiente aparece el cuadro de diálogo con las
opciones proporcionadas por defecto por el programa, junto con los estadísticos de
asimetría y curtosis, que también aparecen seleccionados.

5.2. Interpretación de la posición de un sujeto en un grupo

Existen situaciones en que el interés no es describir la distribución de una variable sino


describir, localizar la posición de una observación determinada dentro de la distribución.

73
Por ejemplo, imagine que se ha presentado a una prueba para acceder a un determinado
puesto de trabajo. Cuando termina la prueba le indican que usted ha obtenido una
puntuación global de 35. En principio, usted no dispone de criterios para juzgar si dicha
puntuación es buena, mala o regular. Lo que la hace buena, mala o regular es la
ejecución de los demás solicitantes.

5.2.1. Valores percentiles

Una manera de interpretar el significado de su ejecución en la prueba consiste en


transformar la puntuación 35 en percentil. Para hacer esta transformación se necesita
conocer la ejecución de los demás solicitantes en la prueba; es decir, se necesita conocer
la distribución de la variable (rendimiento en la prueba). El percentil, en este caso, nos
indicaría el porcentaje de solicitantes que han obtenido una puntuación igual o inferior a
35 en la prueba. De modo que, si le informan que usted ha obtenido el percentil 99
tendrá motivos para estar satisfecho, su ejecución fue igual o superior a la del 99% de
los solicitantes. Por contra, si le informan que el percentil obtenido ha sido el 10, tendrá
motivos para estar decepcionado, su ejecución sólo ha sido igual o superior a la del 10%
de los solicitantes.

La definición general de percentil es la siguiente:

frecuencia acumulada
percentil = x 100
numero de observaciones

En realidad, el percentil para una observación dada es el porcentaje acumulado para


dicha observación. Si con unos datos determinados, usted desease obtener el percentil
para cada una de las observaciones de que dispone podría conseguirlo, en SPSS, con un
simple análisis de frecuencias. Por ejemplo, cuando llevó a cabo el análisis de
frecuencias para item01, también obtuvo los percentiles correspondientes a cada uno de
los tres valores de esta variable. En efecto, observe que, en realidad, la última columna
de la tabla de distribución de frecuencias, etiquetada Porcentaje acumulado, es el
percentil para cada uno de los valores de la variable 1 (1, 2, 3). Observe que si un sujeto
ha obtenido un 1 ocupa el percentil 5, si ha obtenido un 2, el percentil 25, y si ha
obtenido un 3, el percentil 100. El recuadro Valores percentiles, que se encuentra en el
cuadro de diálogo Estadísticos dentro del procedimiento Frecuencias, le permite
obtener los percentiles de tres formas:

1. En primer lugar, le permite obtener los cuartiles de la distribución. Los cuartiles


dividen la distribución en cuatro grupos iguales. Corresponden, por tanto, a los
percentiles 25, 50, 75 y 100.
2. En segundo lugar, le permite obtener los puntos de corte para generar un número
determinado de grupos iguales (por defecto, el número de grupos es de 10). En el
caso de 10 grupos iguales, esto equivaldría a obtener los percentiles 10, 20, 30, 40,...,
100.
3. En tercer lugar, le permite obtener determinados percentiles que le resulten de
interés. Si utiliza esta opción, puede solicitar varios percentiles a la vez (p. ej.: 15,
17, 20, 80, 83, 85).

74
5.2.2. Puntuaciones típicas

En el apartado correspondiente a los percentiles observamos la utilidad de éstos para


ayudar a posicionar a un sujeto con respecto a su grupo. Otra manera de interpretar la
posición de una observación en una distribución consiste en transformar dicha
observación en puntuación típica (Z). Dado que las puntuaciones típicas se representan
por la letra Z, con frecuencia, a las puntuaciones típicas se les denomina simplemente
puntuaciones Z.

Si a una observación le denominamos X, la transformación para convertirla en Z es la


siguiente:

X-X
Z =
Sx

Observe que realizando esta transformación se interpreta la observación X en relación a


la media aritmética. Cuando la observación X es mayor que la media, la Z
correspondiente es positiva. Cuando X es menor que la media, la Z es negativa. Cuando
X coincide con la media, la Z es 0. Por tanto, si a usted le informaran que en la prueba a
la que hemos hecho referencia anteriormente, ha obtenido una puntuación típica igual a
0, esto no significa que su ejecución ha sido desastrosa. Lo que indica el 0 es que usted
está justo en el centro, su ejecución coincide con la ejecución media de todos los
solicitantes.

La interpretación de una puntuación típica igual a 0 es muy cómoda. Sin embargo, para
poder interpretar otros valores de Z necesitamos cierta información adicional. En la
transformación Z, definida anteriormente, se observa que en el denominador está la
desviación típica Sx. Esta desviación típica tiene un papel muy importante, a efectos de
interpretación, porque hace las veces de unidad de medida. Lo que esto significa es que
puede interpretarse la puntuación típica Z como el número de desviaciones típicas Sx que
la observación X se aparta de la media. Por ejemplo, si en la mencionada prueba usted
obtiene una puntuación típica igual a -2, esto significaría que usted está 2 desviaciones
típicas Sx por debajo de la media. De forma similar, si usted obtiene una puntuación
típica igual a 3, esto significa que usted está 3 desviaciones típicas Sx por encima de la
media.

Ahora bien, imagine que a usted le indican que está 3 desviaciones típicas por encima de
la media (Z=3), usted querrá saber si esto es mucho o poco. Para ello es necesario
conocer la distribución de Z. La distribución (teórica o probabilística) de Z es conocida.
Tiene media 0 y varianza 1. A continuación se ofrecen los porcentajes acumulados para
algunos valores de Z:

75
Valor de Z Porcentaje acumulado
-3 0.14%
-2 2.28%
-1 15.87%
0 50.00%
1 84.13%
2 97.72%
3 99.86%

Para información relativa a otros valores de Z puede consultar la Tabla de Z en cualquier


manual de estadística.

Si se deseasen transformar las puntuaciones de todos los sujetos en puntuaciones típicas,


para una variable dada, podría hacerse mediante un análisis descriptivo. Veamos cómo
hacerlo en el caso de item01. En primer lugar, seleccione el menú Analizar. A
continuación, seleccione la opción Estadísticos descriptivos. Dentro de esta última,
finalmente, seleccione la opción Descriptivos. Aparecerá el cuadro de diálogo que ya vio
en el apartado 5.1.6. Seleccione item01 como variable para el análisis si es que no
aparece ya como tal. Por último, seleccione la opción Guardar valores tipificados como
variables. Esta opción creará una nueva variable en el archivo de datos, llamada
zitem01. El cuadro de diálogo quedará así:

Pulse el botón Aceptar. En el visor de resultados aparecerá una tabla con los estadísticos
descriptivos por defecto para item01 (nº de sujetos, mínimo, máximo, media y
desviación típica). Vaya ahora al editor de datos y sitúese en la última variable del
archivo de datos; verá que aparece una nueva variable llamada zitem01. Los valores de
esta variable son las puntuaciones Z correspondientes a los valores 1, 2 y 3 de la variable
original. De este modo, el 1 se convierte en la puntuación Z: -2.97598; el 2 se convierte
en la puntuación Z: -1.22540; finalmente, el 3 se convierte en la puntuación Z: 0.52517.
Observe que las puntuaciones Z correspondientes a los valores 1 y 2 son negativas, ya
que 1 y 2 se encuentran por debajo de la media de item01 (2.70), mientras que la
puntuación Z correspondiente al valor 3, que se encuentra por encima de la media, es
positiva.

6. Relaciones entre Variables (Correlación y Regresión)

76
Hasta ahora hemos visto dos procedimientos, el análisis de frecuencias y el análisis
desciptivo, orientados a la descripción de variables tomadas aisladamente, una a una. No
hay duda de que la descripción de las variables, una a una, puede tener interés en la
investigación; sin embargo, se suele estar más interesado en conocer la relación
existente entre distintas variables. Téngase en cuenta que uno de los objetivos
prioritarios de la investigación científica es la predicción, el pronóstico o anticipación de
los fenómenos. Para que la predicción sea posible es necesario el estudio previo de la
relación existente entre distintas variables.

SPSS ofrece dos procedimientos para el análisis estadístico de las relaciones entre
variables: el análisis de correlaciones y el análisis de regresión.

El análisis de correlaciones está orientado al análisis estadístico de la relación entre


pares de variables. El análisis de regresión, por su parte, puede analizar la relación
existente entre dos o más variables.

6.1. La covarianza

La covarianza es un índice para la medida de la relación entre dos variables, que ofrece
información sobre los dos siguientes aspectos:

1. Si existe o no relación entre dos variables X e Y;


2. Cuál es la dirección de la relación (positiva o negativa).

Formalmente la covarianza puede representarse como cov (X,Y) y se define de la


siguiente manera:

∑ xy
cov (X,Y) =
N

donde Σxy se denomina suma de productos cruzados y N es el número total de


observaciones.

Por las mismas razones que hemos indicado cuando hemos definido la varianza, en
SPSS la covarianza se define de manera ligeramente distinta. El numerador es el mismo,
pero el denominador es N-1, en lugar de N. Esto es,

∑ xy
cov (X,Y) =
N -1

Observe que en la suma de productos cruzados (numerador) hemos representado las


variables X e Y con letras minúsculas. Lo hemos hecho así porque los valores de X e Y
no son aquí los valores originales de X e Y sino diferencias con respecto a la media
aritmética. Esto es,

x= X−X
y = Y −Y

77
A estos valores así transformados se les suele denominar puntuaciones diferenciales.
Observe cómo las puntuaciones diferenciales, en realidad, son el numerador de la
transformación para las puntuaciones típicas (o puntuaciones Z).

Para que pueda observar, de forma más concreta, cómo se define la covarianza,
permítame ofrecerle un ejemplo empírico. Suponga que 5 sujetos (N=5) han realizado
dos pruebas. A una le denominamos X y a la otra Y. Estamos interesados en saber si
existe relación entre la ejecución de los sujetos en la primera prueba (X) y la segunda
(Y). Para ello, decidimos calcular la covarianza. A continuación,se ofrecen los datos y
algunos cálculos necesarios para obtener este índice:

X Y x y xy
60 4 14 -1 -14 _
10 2 -36 -3 108 X = 46
80 9 34 4 136 _
50 7 4 2 8 Y= 5
30 3 -16 -2 32
230 25 270

En la primera fila de la Tabla anterior tenemos la puntuación obtenida por el sujeto 1 en


la prueba X (60), la puntuación obtenida por este mismo sujeto en la prueba Y (4), la
puntuación diferencial en X (x = 60-46 = 14), la puntuación diferencial en Y (y = 4-5= -
1), y el producto cruzado de x por y [xy = (14)(-1) = -14]. La fila 2 ofrece esta misma
información para el sujeto 2, y así sucesivamente.

Para el cálculo de la covarianza nos interesa conocer la suma de la última columna de la


Tabla; esto es, Σxy = 270. Conocida esta suma, la covarianza se calcula como sigue:

∑ xy 270
cov (X,Y) = = = 67.5
N -1 4

La covarianza se interpreta de la siguiente manera:

a) cov (X,Y) = 0 significa que no existe relación (lineal) entre las variables X e Y;
b) cov (X,Y) > 0 significa que existe una relación positiva (o directa) entre X e Y;
c) cov (X,Y) < 0 significa que existe una relación negativa (o inversa) entre X e Y.

En el ejemplo la covarianza es 67.5. Esto significa que existe una relación (lineal)
positiva entre las variables X e Y.

La covarianza tiene un gran interés estadístico. Sin embargo, a nivel interpretativo tiene
una limitación importante. La covarianza no indica la intensidad de la relación (o
asociación) existente entre las variables X e Y. En el ejemplo anterior la covarianza era
67.5. Concluíamos que la relación era positiva. Pero no podíamos decir nada sobre la
intensidad de la relación; es decir, si era mucha, regular o poca. Esto se explica porque la
covarianza es función de cómo se haya medido X y de cómo se haya medido Y. Suponga
que X se ha medido en una escala de 0 a 100. Pues bien, si en vez de medirla en una
escala de 0 a 100 la hubiéramos medido en una escala de 0 a 10, el valor de la
covarianza hubiera cambiado mucho. Sin embargo, la relación entre X e Y, si existe,

78
debe seguir siendo la misma. Para hacer esta idea más comprensible, suponga que X son
las notas en la Universidad e Y son las horas de estudio. Suponga que se sabe que existe
una relación positiva, a más horas de estudio mejores notas. Si esto es verdad, la relación
debe ser la misma si el rendimiento se mide en una escala e 0 a 10 que si se mide en una
escala de 0 a 100. Pues bien, la covarianza sería positiva en ambos casos, pero su valor
sería distinto.

6.2. El coeficiente de correlación de Pearson

Lo ideal sería disponer de un índice cuyo valor fuera independiente de cómo se midió X
y de cómo se midió Y; es decir, que permaneciera invariable ante cualquier
transformación de la unidad de medida de X o de la unidad de medida de Y (o de la
unidad de medida de ambas). Este índice lo ideó Pearson y se le conoce actualmente por
su nombre: coeficiente de correlación de Pearson. A veces se le denomina también
coeficiente de correlación producto-momento de Pearson.

La idea de Pearson consistió en transformar tanto los valores de X como los valores de Y
en puntuaciones típicas, es decir, reducir ambas variables a la misma escala, la escala de
puntuaciones típicas. Luego, se procede de la misma manera, es decir, se halla la media
de la suma de productos cruzados. Formalmente, el coeficiente de correlación de
Pearson, al que denominaremos rxy, se define de la siguiente manera:

∑ Zx Zy
r xy =
N

En SPSS se define el coeficiente poniendo N-1, en lugar de N en el denominador. Esto


es,

∑ Zx Zy
r xy =
N -1

A continuación se ofrece el cálculo del coeficiente de correlación de Pearson para el


mismo ejemplo que hemos utilizado en el caso de la covarianza:

X Y ZX ZY ZxZy
60 4 0.5182 -0.3430 -0.1777 _
10 2 -1.3324 -1.0290 1.3710 X = 46, Sx = 27.0185
80 9 1.2584 1.3720 1.7265 _
50 7 0.1480 0.6860 0.1015 Y = 5, Sy = 2.9155
30 3 -0.5922 -0.6860 0.4063
3.4276

∑ Zx Z y 3.4276
r xy = = = 0.8569
N -1 4

Otra definición equivalente a la anterior es la siguiente:

79
cov(X,Y)
r xy =
Sx S y

donde Sx es la desviación típica de la variable X y Sy es la desviación típica de la variable


Y.

Con los datos anteriores, se obtendría

cov(X,Y) 67.5
r xy = = = 0.8569
Sx S y (27.0185)(2.9155)

Para la interpretación de este resultado (0.8569) debemos tener en cuenta que rxy oscila
entre los valores -1 y 1, donde 1 indica la existencia de una relación (lineal) positiva
perfecta entre X e Y, y -1 indica la existencia de una relación (lineal) negativa perfecta
entre X e Y. Otro criterio que ayuda a interpretar rxy es el significado del valor 0. Al igual
que ocurría con la covarianza, un valor de rxy igual a 0 indica que no existe relación
(lineal) entre X e Y. Por tanto, para interpretar rxy debemos observar, primero, si éste es
positivo, negativo o igual a cero. Un valor positivo indica relación (lineal) positiva, un
valor negativo indica relación (lineal) negativa y un valor igual a 0 indica que no existe
relación (lineal) entre X e Y.

En el ejemplo, rxy = 0.8569 indica dos cosas:

1. que la relación entre X e Y es positiva, puesto que 0.8569 es positivo;


2. que la relación es intensa, puesto 0.8569 está mucho más cerca de 1 que de 0.

Una apreciación interesante que cabe hacer aquí es que el signo de rxy no es un indicador
de la intensidad de la relación. Por tanto, si tuviéramos un valor de rxy igual a 0.50 y otro
valor de rxy igual a -0.90 no podríamos concluir que la primera relación (0.50) es más
intensa que la segunda (-0.90). Al contrario la segunda relación (-0.90) es mucho más
intensa que la primera (0.50) porque -0.90 está mucho más próximo a -1 (relación
perfecta) que 0.50 a 1 (relación perfecta). Recuerde que el signo sólo sirve para
representar la dirección de la relación (positiva o negativa). En efecto, en un caso la
relación es positiva (0.50) y en otro negativa (-0.90).

A pesar de tener unos límites (-1 y 1) y un punto central (el cero), con un significado
inequívoco, la interpretación del coeficiente de correlación de Pearson puede portar
cierta subjetividad. La manera más objetiva de interpretar rxy se consigue elevándolo al
cuadrado. El cuadrado del coeficiente de correlación de Pearson tiene, incluso, un
nombre propio: coeficiente de determinación. El coeficiente de determinación ofrece la
ventaja de que indica la cantidad de varianza común a X y a Y, expresada dicha cantidad
en tantos por uno. Si eleváramos el coeficiente de correlación que obtuvimos en el
ejemplo (rxy = 0.8569) al cuadrado obtendríamos un valor de 0.7343, que es la
proporción de varianza común o compartida por X e Y. A veces se establece una
dirección en la relación y se le denomina proporción de varianza de Y determinada por X
(de ahí el nombre de coeficiente de determinación).

80
Ahora se puede ver más fácilmente por qué la intensidad de la relación es independiente
del signo. El en caso de rxy = 0.50 la proporción de varianza de Y determinada por X es
0.25, mientras en el caso de rxy = -0.90 esta proporción es 0.81. Obviamente es mucho
mayor el grado de asociación, de comunalidad o solapamiento entre las variables X e Y
en este segundo caso que en el primero.

Veamos, a modo de ejemplo, cómo podríamos obtener el valor de la correlación y la


covarianza entre item01 e item02 utilizando SPSS en nuestro estudio sociolingüístico.
En primer lugar, seleccione la opción Analizar y, dentro de ella, la opción
Correlaciones. Aparecerán tres opciones: Bivariadas, Parciales, y Distancias.
Seleccione la opción Bivariadas. Aparecerá el siguiente cuadro de diálogo:

Seleccione las variables item01 e item02 de la lista de variables de la izquierda. En el


recuadro Coeficientes de correlación puede seleccionar el tipo de coeficiente de
correlación que desea obtener. El coeficiente de correlación tau-b de Kendall y el
coeficiente de correlación de rangos de Spearman se aplican a variables medidas en
escalas ordinales. El coeficiente de correlación de Pearson, el que nos interesa, es el que
está señalado por defecto. En cuanto a las pruebas de significación, veremos su utilidad
más adelante, por lo que no nos detendremos aquí en explicarlas. Para obtener también
el valor de la covarianza, pulse ahora el botón Opciones. Aparecerá un nuevo cuadro de
diálogo:

81
En el recuadro Estadísticos se nos muestran como estadísticos opcionales las medias y
desviaciones típicas de item01 e item02, y también los productos cruzados de las
puntuaciones diferenciales (o de desviación) y las covarianzas. Seleccione esta última
opción y pulse el botón Continuar. A continuación, en el cuadro de diálogo de
Correlaciones bivariadas, pulse el botón Aceptar. Obtendrá una tabla como esta:

Correlaciones

entiendo entiendo
el gallego el gallego
hablado escrito
entiendo el Correlación de Pearson 1.000 .926**
gallego hablado Sig. (bilateral) . .000
Suma de cuadrados y
6.200 5.900
productos cruzados
Covarianza .326 .311
N 20 20
entiendo el Correlación de Pearson .926** 1.000
gallego escrito Sig. (bilateral) .000 .
Suma de cuadrados y
5.900 6.550
productos cruzados
Covarianza .311 .345
N 20 20
**. La correlación es significativa al nivel 0,01 (bilateral).

En las filas de la tabla correspondientes se ofrece la suma de los productos cruzados


(5.9) y el valor de la covarianza (0.311). Estos valores nos indican que la relación
existente entre item01 e item02 es una relación positiva, pero no resulta claro cuál es la
magnitud de esa relación. En la fila correspondiente a la correlación aparece el valor
0.926, que sí nos informa sobre la magnitud de la relación entre ambas variables. Dado
que el valor se halla muy próximo a 1 (correlación positiva perfecta), podremos decir
que la relación entre item01 e item02 es positiva y muy alta.

Probablemente se habrá fijado en que el valor la suma de productos cruzados, de la


covarianza y del coeficiente de correlación se ofrecen por duplicado. Esto se debe a que
los resultados se muestran en forma de matriz. Una matriz puede definirse como un
conjunto de coeficientes de elementos ordenados en filas y columnas. Aquí, además, las
filas representan variables. Por eso, la matriz tiene sólo dos filas. La primera fila

82
representa la primera variable (item01) y la segunda fila la segunda variable (item02).
De igual forma, las columnas también son variables. La columna 1 es la variable 1
(item01) y la columna 2 es la variable 2 (item02). En el caso del coeficiente de
correlación, esta es la forma de la matriz que usted ha visto en la tabla ofrecida por el
visor de resultados:

item01 item02
item01  r11 r12 
item02 r 
 21 r22 

Formalmente, un elemento se representa por una letra minúscula (aquí la r de rxy) y dos
subíndices. El primer subíndice se refiere a la fila. Observe como en los dos elementos
de la fila 1 el primer subíndice es un 1. De forma similar, observe como el primer
subíndice de los elementos de la segunda fila es un 2. El segundo subíndice se refiere a
la columna. Observe como el segundo subíndice de la columna 1 es un 1 y el segundo
subíndice de la columna 2 es un 2.

La matriz que usted ha obtenido tiene cuatro elementos. El elemento r11 es la correlación
de Pearson entre item01 e item01, es decir, la correlación de item01 consigo misma.
Evidentemente, esta correlación tiene que ser perfecta positiva. Por eso, el valor
numérico que se observa en dicha posición en el listado de SPSS es un 1. El elemento
r12 es la correlación entre la item01 e item02 (.926). El elemento r21 es la correlación de
Pearson entre item02 e item01. Obviamente, esta correlación tiene que ser idéntica a la
correlación entre item01 e item02. Por eso el coeficiente de correlación es también .926.
Finalmente, el elemento r22 es la correlación entre item02 e item02. Por eso, el resultado
es 1.

Cuando sólo se analizan dos variables no se observa la ventaja de ordenar los


coeficientes de correlación en una matriz. Esta observación se hace más fácilmente
cuanto mayor sea el número de variables. Pruebe a hacer el mismo análisis con item01,
item02, e item03. Si realiza este ejercicio, obtendrá una matriz de correlaciones con el
siguiente formato:

item01 item02 item03


item01 r11 r12 r13 
 
item02 r21 r22 r23 
item03 r31 r32 r33 

Dado que las filas son variables y las columnas son esas mismas variables, la matriz de
correlaciones siempre será cuadrada (número de filas = número de columnas). Una
matriz cuadrada se puede descomponer en tres partes: (a) la diagonal principal; (b) el
triángulo superior; y (c) el triángulo inferior.

La diagonal principal está formada por aquellos elementos en que el primer subíndice y
el segundo son iguales. Los elementos de la diagonal principal de la matriz anterior son
r11, r22 y r33. Ya habíamos señalado que una característica distintiva de la matriz de

83
correlaciones es que los elementos de la diagonal principal son siempre iguales a 1.
Usted podrá observar en su tabla que, en efecto, estos tres elementos son iguales a 1.

El triángulo superior está formado por todos los elementos situados por encima de la
diagonal principal. En la matriz anterior el triángulo superior está formado por los
elementos r12 (.926), r13 (.536) y r23 (.541).

El triángulo inferior está formado por todos los elementos situados por debajo de la
diagonal principal. En la matriz anterior el triángulo inferior está formado por los
elementos r21 (.926), r31 (.536) y r32 (.541).

Otra propiedad distintiva de la matriz de correlaciones es que es simétrica. Esto quiere


decir que, en este caso, se cumple que

r12 = r21 (aquí .926),


r13 = r31 (aquí .536),
r23 = r32 (aquí .541).

Es comprensible que sea así porque el número que le hemos concedido a las variables es
arbitrario.

6.3. Regresión lineal con una variable independiente

Con anterioridad señalamos que el análisis de relaciones entre variables es un objetivo


prioritario en la investigación científica. El conocimiento de la relación entre dos
variables X e Y nos puede permitir predecir Y a partir de valores conocidos en X.
Imagine que, en el ejemplo que hemos resuelto manualmente en el apartado anterior, X
fuera inteligencia e Y fuera rendimiento académico. Imagine, además, que nos dan la
puntuación de un nuevo sujeto en inteligencia (X) y nos piden que hagamos una
predicción de su rendimiento académico futuro (Y). El coeficiente de correlación de
Pearson es una medida global de la relación entre dos variables X e Y. Como en el
ejemplo este coeficiente era 0.8569, podremos afirmar que si la puntuación del sujeto en
inteligencia (X) es alta, el rendimiento académico tenderá a ser alto, mientras que si su
puntuación en inteligencia es baja su rendimiento académico tenderá a ser bajo. Habrá
observado que esta predicción no es muy precisa. Lo ideal sería pronosticar la
puntuación que el sujeto obtendrá en rendimiento académico (Y). Para este propósito se
ideó el análisis de regresión. A diferencia del coeficiente de correlación de Pearson, el
análisis de regresión especifica la forma de la relación entre X e Y, lo que permite la
predicción de valores puntuales en Y a partir de valores conocidos en X.

Dentro del análisis de regresión se pueden distinguir dos tipos: (1) regresión lineal; (2)
regresión no-lineal. Aquí sólo será considerado el primero de estos análisis.

El análisis de regresión lineal, como su propio nombre sugiere, asume que Y es función
lineal de X. La función lineal tiene la siguiente forma:

Y = a + bX

84
donde a y b son dos constantes.

Dado que la relación entre X e Y es, con frecuencia, no-exacta, en el análisis de regresión
se añade a la ecuación lineal un término de error. Formalmente, pues, la ecuación de
regresión se puede definir así:

Y = a + bX + e

donde e es el error que se cometería si utilizáramos esta ecuación para predecir valores
en Y a partir de valores conocidos en X.

Una manera más operativa de expresar la ecuación de regresión es la siguiente:

Y´ = a + bX

donde Y´ es la predicción que se hace en Y, que no tiene porque coincidir con el


verdadero valor de Y (desconocido). Precisamente, la diferencia entre Y e Y´ es el error.
Esto es,

Error = Y - Y´

En una situación empírica el problema de la regresión lineal consiste en estimar los


valores de a y b, a partir de valores conocidos en X e Y. Los valores de a y b se
determinan de forma que la magnitud de los errores sea lo más pequeña posible. A este
criterio matemático se le denomina criterio de mínimos cuadrados. Si se aplica este
criterio se obtiene la siguiente definición de b:

∑ xy
b =
∑ x2

donde x e y son puntuaciones diferenciales.

De formar similar, aplicando este criterio para a se obtiene que

a = Y − bX

A continuación, se ofrece el mismo ejemplo empírico que hemos utilizado para la


covarianza y el coeficiente de correlación de Pearson:
2
X Y x y xy x
60 4 14 -1 -14 196 _
10 2 -36 -3 108 1296 X = 46
80 9 34 4 136 1156 _
50 7 4 2 8 16 Y=5
30 3 -16 -2 32 256
230 25 270 2920

∑ x y 270
b = = = 0.09247
∑ x 2 2920

85
a = Y − bX = 5 − (0.09247)(46) = 0.74638

La ecuación de regresión lineal sería, por tanto, la siguiente:

Y´ = 0.74638 + 0.09247 X.

A nivel interpretativo, la constante a indica el valor que le corresponde a Y cuando X es


igual a 0. A la constante a se le denomina interceptal. La constante b indica el cambio
medio que se produciría en Y ante el cambio de una unidad en X. A esta constante se le
denomina pendiente y es la más interesante desde un punto de vista sustantivo. Lo
primero que debemos observar en b es su signo. Una constante b con signo positivo
indica que ante un incremento de X también se produciría un incremento de Y. Una
constante b negativa indica que ante un incremento de X se produciría una disminución
del valor de Y. En este caso, un valor de b igual a 0.09247 indica que ante el incremento
de una unidad en X, se produce un incremento medio de 0.09247 unidades en Y.

Para ilustrar la utilidad de la ecuación de regresión estimada anteriormente, imagine que


nos indican que un sujeto, distinto de los 5 anteriores, ha obtenido una puntuación en
inteligencia igual a 70. Este sujeto, además, no ha realizado la prueba Y y nos requieren
que hagamos un pronóstico de su rendimiento en tal prueba. Como tenemos construida
la ecuación de regresión de Y sobre X, resolvemos en ella para X = 70 y ya obtenemos la
predicción en Y. Esto es,

Y´ = 0.74638 + (0.09247) (70) = 7.22.

La ecuación de regresión nos permitió realizar una predicción de 7.22 para este nuevo
sujeto. Así se podría utilizar la misma ecuación de regresión para realizar predicciones
para otros muchos sujetos.

Ahora bien, una vez hecha esta predicción nos podrían preguntar por el grado de
"fiabilidad" de la misma. Para contestar a esta pregunta deberíamos disponer de índices
que reflejaran la precisión de la ecuación de regresión.

Existen dos maneras de enfrentarse al problema de la "fiabilidad" de la ecuación de


regresión. Una consiste en medir el error típico que se comete utilizando la ecuación de
regresión. La otra consiste en medir la cantidad de variabilidad de Y que explica la
ecuación de regresión.

Para comprender cómo se obtiene una medida global del error, recuerde que el error se
definía así:

Error = Y - Y´

donde Y es el verdadero valor de Y, e Y´ es la predicción que se realiza en Y mediante la


ecuación de regresión.

En principio podría pensarse que una medida global del error se obtendría hallando la
media de los errores. Esto es,

86
∑(Y - Y ′ )
N

Esto sería correcto de no ser porque se sabe que la suma de los errores (el numerador)
siempre es igual a 0. Para comprobarlo numéricamente se ofrecen, a continuación, estos
valores para el mismo ejemplo numérico tratado anteriormente:

Y Y’ Y-Y’
4 6.29 -2.29
2 1.67 0.33
9 8.14 0.86
7 5.37 1.63
3 3.53 -0.53
0.00

Observe como la suma de los errores cometidos con la ecuación de regresión, Σ(Y-Y´),
es igual a 0. Este hecho no sólo sería cierto para estos datos, sino para cualquier par de
valores (X,Y).

Para evitar este problema de la no aditividad de los errores, lo que se hace es elevarlos al
cuadrado y hallar, luego, la media de dichos cuadrados. Formalmente,

∑(Y - Y ′ )2
N

Observe que este índice es una medida global de la magnitud del error que se comete
utilizando una ecuación de regresión dada. Cuanto mayor sea este índice, mayor es el
error. Observe también que este índice es un tipo de varianza. Precisamente, por esta
razón, se le denomina varianza de los errores o también varianza residual. El término
"residuo" se utiliza en este contexto en el sentido de "error".

Dado que para el cálculo de la varianza residual se han elevado los errores al cuadrado,
su interpretación es difícil. Por esta razón, es muy útil hallar la raíz cuadrada de la
varianza residual. Este índice es una desviación típica que, en este contexto, se
denomina error típico. Formalmente, el error típico se define así:

∑ (Y - Y ′ )2
N

El error típico es de interpretación fácil. Sus límites son los siguientes:

0 ≤ Error típico ≤ Sy

Para una correcta interpretación del error típico debemos conocer, por tanto, la
desviación típica de la variable dependiente Y. En nuestro caso, Sy = 2.9155. A
continuación se ofrecen los cálculos necesarios para la obtención del error típico en el
ejemplo:

87
2
Y Y’ Y-Y’ (Y-Y’)
4 6.29 -2.29 5.2441
2 1.67 0.33 0.1089
9 8.14 0.86 0.7396
7 5.37 1.63 2.6569
3 3.53 -0.53 0.2809
9.0304

9.0304
Error típico = = 1.81 = 1.34
5

Nótese que un error típico de 1.34 indica que el error que se comete pronosticando una
puntuación de 7.22, para un hipotético sujeto que hubiese obtenido una puntuación en X
igual a 70, no es alto. Si el error fuese alto este índice debería estar próximo a 2.9155.
En este caso, 1.34 se aleja bastante de 2.9155.

Otra manera de aproximarse al problema de la "fiabilidad" de las predicciones realizadas


con la ecuación de regresión consiste en medir la cantidad de variabilidad de Y que es
capaz de explicar la ecuación de regresión. Esta aproximación suele realizarse de dos
maneras. Una de ellas consiste en hallar el coeficiente de correlación de Pearson entre
los verdaderos valores de Y y los valores predichos por la ecuación de regresión (Y´).
Formalmente, este coeficiente, que aquí denominaremos ryy´, puede definirse así:

cov(Y,Y ′ )
r yy ′ =
SySy′

Es importante señalar que, a diferencia de rxy, ryy´ no asume valores negativos, oscila
entre 0 y 1. Un valor de ryy´ negativo significaría que cuando Y es un valor alto, la
predicción Y´ es un valor bajo, y viceversa. Obviamente, esto no tendría sentido en este
contexto.

En el ejemplo anterior, utilizando la definición de covarianza y de desviación típica


incorporada en SPSS, obtendríamos un valor de ryy´ igual a 0.8569. A continuación se
ofrece el procedimiento seguido para obtener este resultado:

Y Y’ y y’ yy’
4 6.29 -1 1.29 -1.29 _
2 1.67 -3 -3.33 9.99 Y = 5, Sy = 2.9155
9 8.14 4 3.14 12.56 _
7 5.37 2 0.37 0.74 Y’ = 5, Sy’ = 2.4955
3 3.53 -2 -1.47 2.94
24.94

24.94
cov(Y,Y ′ ) = = 6.235
4

Por tanto,

88
6.235
r yy ′ = = 0.8569
(2.9155)(2.4955)

Si procedemos de la misma manera que hicimos con rxy y elevamos ryy´ al cuadrado
obtenemos la proporción de variabilidad de Y que es explicada por sus predicciones (Y´)
o, lo que es lo mismo, la proporción de variabilidad de Y que es explicada por la
ecuación de regresión. Para el ejemplo, tenemos

r2yy´ = (0.8569)2 = 0.7343.

Observe que una proporción de variabilidad explicada igual a 0.7343 indica la existencia
de una alta fiabilidad en las predicciones que se realicen con la ecuación de regresión. El
valor máximo de esta proporción sería 1, y el mínimo 0. Una proporción de 0.7343 está
bastante cerca de 1.

Otra manera de conocer la cantidad de variabilidad de Y explicada por la ecuación de


regresión se fundamenta en una propiedad sumamente interesante que posee la
variabilidad de Y. Se sabe que la variabilidad de Y puede descomponerse en dos partes
aditivas: (1) la variabilidad de Y que puede explicar la ecuación de regresión
(abreviadamente, Variabilidad Regresión); y (2) la variabilidad de Y que no puede
explicar la ecuación de regresión (abreviadamente, Variabilidad Residual). Esto es,

Variabilidad de Y = Variabilidad Regresión + Variabilidad Residual,

donde

∑ (Y − Y )
2
Variabilidad de Y =

∑ (Y '−Y )
2
Variabilidad Regresión =

Variabilidad Residual = ∑ (Y − Y ') 2

Observe como la definición que se ha ofrecido de la Variabilidad de Y es el numerador


de la definición de varianza. De forma similar, observe también como la definición que
se ha ofrecido de Variabilidad Residual es el numerador de la varianza residual.

Para comprobar la verdad de esta igualdad se ofrece nuevamente el ejemplo numérico


con el que hemos estado trabajando anteriormente. En las predicciones (Y´) se utilizan 5
decimales en lugar de 2, para conseguir una mayor precisión en el cálculo:

_ _
2 2 2
Y Y’ (Y-Y) (Y’-Y) (Y-Y’)
4 6.29478 1 1.68 5.27 _
2 1.67128 9 11.08 0.11 Y=5
9 8.14418 16 9.88 0.73 _
7 5.37008 4 0.14 2.65 Y’ = 5
3 3.52068 4 2.19 0.27
34 24.97 9.03

89
Tal como habíamos señalado, se puede observar que la Variabilidad de Y (aquí 34) es
igual a la suma de la Variabilidad explicada por la ecuación de regresión (Variabilidad
Regresión, aquí 24.97) y la Variabilidad no explicada por la ecuación de regresión
(Variabilidad Residual, aquí 9.03).

Una coincidencia importante se obtiene si dividimos ahora lo que hemos denominado


Variabilidad Regresión entre lo que hemos denominado Variabilidad de Y. El cociente
es la proporción de Variabilidad de Y explicada por la ecuación de regresión, y esta es la
definición del cuadrado de ryy´. En efecto, si dividimos en el ejemplo 24.97 entre 34
obtenemos un cociente de 0.7343 que es justamente el cuadrado de 0.8569, que era el
valor de ryy´.

Veamos cómo llevaríamos a cabo un análisis de regresión de item03 (variable


dependiente) sobre item01 (variable independiente) del estudio sociolingüístico. En
primer lugar, seleccione la opción Analizar. En el menú que se despliega a continuación,
seleccione la opción Regresión. A la derecha aparecerá un nuevo menú con distintos
tipos de regresión, tanto lineal como no lineal. Nosotros vamos a efectuar un análisis de
regresión lineal; por tanto, seleccione esta opción. Aparecerá un cuadro de diálogo como
el siguiente:

En primer lugar debe especificar cuál es la variable dependiente y cuál(es) la(s)


independiente(s). Como variable dependiente, seleccione item03, y como variable
independiente, item01. Puede efectuar el análisis de regresión para una misma variable
dependiente en distintos bloques; es decir, puede hacer varios análisis de regresión con
distintos grupos de variables independientes para una misma variable dependiente. Para
moverse de un bloque de análisis a otro, puede uitlizar los botones Anterior y
Siguiente. Existe también un recuadro, etiquetado Método, para especificar el método

90
de introducción de las variables independientes en la ecuación de regresión. El método
por defecto es el denominado Introducir, que introduce directamente item01 como
variable independiente. El recuadro etiquetado Variable de selección nos permite utilizar
una variable para seleccionar un subconjunto de sujetos de la muestra total (p. ej.: los
hombres, las amas de casa, etc.). El botón Regla nos permite seleccionar el valor de la
variable de selección que define al subconjunto en cuestión. El recuadro etiquetado
Etiquetas de caso nos permite utilizar una variable que contenga etiquetas para cada
sujeto, y puede ser de interés a la hora de llevar a cabo análisis más finos de la relación
entre las variables, pero no nos interesa ahora. Por último, en la base del cuadro de
diálogo aparecen distintos botones que nos permiten obtener más información del
análisis; Sin embargo, tampoco vamos a utilizarlos ahora. Pulse directamente el botón
Aceptar. El visor de resultados le mostrará una serie de tablas. La primera de ellas tiene
este aspecto:

Variables introducidas/eliminadasb

Variables Variables
Modelo introducidas eliminadas Método
1 entiendo el
gallego a . Introducir
hablado
a. Todas las variables solicitadas introducidas
b. Variable dependiente: soy capaz de hablar en gallego

Recuerde que estamos intentando resolver un problema de regresión lineal con dos
variables X e Y. Una de estas variables (Y) se asume que es función lineal de la otra (X).
A la variable Y se le denomina dependiente y a X independiente. En este ejemplo la
variable dependiente es item03 y la variable independiente es item01. La siguiente tabla,
de mayor interés para nosotros, contiene el resumen del modelo:

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .536a .287 .247 .58
a. Variables predictoras: (Constante), entiendo el gallego
hablado

En esta tabla, R es ryy´ (.536), y R cuadrado es el cuadrado de ryy´. En este caso R


cuadrado = .287 indica que la proporción de Variabilidad de item03 explicada por la
ecuación de Regresión es .287.

R cuadrado corregida se define de la manera siguiente:

p(1 - R cuadrado)
R cuadrado corregida = R cuadrado -
N - p -1

donde p es el número de variables independientes en la ecuación de regresión.

91
R cuadrado corregida es, en realidad, una infraestimación de R cuadrado. Su valor, es
por tanto, ligeramente inferior al de R cuadrado. En este caso,

1(1 - .287 )
R cuadrado corregida = .287 - = .247
20 - 1 - 1

En la siguiente columna aparece el error típico de estimación. En SPSS, el error típico


de estimación se define de manera ligeramente distinta a la definición que hemos
ofrecido nosotros anteriormente. No obstante, puede interpretarse de la misma manera.
La definición que se ofrece en SPSS es la siguiente:

Error típico = S y 1 - R cuadrado corregida

Según esta definición, para el cálculo del error típico necesitamos conocer la desviación
típica de la variable dependiente (aquí la desviación típica de item03). La desviación
típica de item03 puede obtenerse utilizando el botón Estadísticos, situado en la parte
inferior del cuadro de diálogo del análisis de regresión. Al pulsar ese botón aparece este
nuevo cuadro de diálogo:

Si selecciona la opción Descriptivos en este cuadro de diálogo, obtendrá un listado


análogo al anterior, con los estadísticos descriptivos para item01 e item03 añadidos al
mismo. No obstante, en la siguiente tabla del visor de resultados se dispone de
información suficiente para conocer la desviación típica de item03:

92
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 2.453 1 2.453 7.243 .015a
Residual 6.097 18 .339
Total 8.550 19
a. Variables predictoras: (Constante), entiendo el gallego hablado
b. Variable dependiente: soy capaz de hablar en gallego

Observe las dos primeras filas de esta Tabla. En ellas están representadas las dos partes
en que descomponíamos la Variabilidad de la variable dependiente (aquí item03). Estas
partes eran la Variabilidad explicada por la ecuación de regresión (Regresión) y la
Variabilidad no explicada por la ecuación de regresión (Residual). Recuerde que la
Variabilidad se definía como una Suma de Cuadrados. Por eso, en la columna 2 se
ofrecen las Sumas de Cuadrados para el componente explicado por la ecuación de
regresión (2.453) y para el componente no explicado por la ecuación de regresión
(6.097). Conocidos estos dos componentes, tenemos información para obtener la Suma
de Cuadrados de item03. Esto es,

Suma de Cuadrados de item03 = 2.453 + 6.097 = 8.55.

Como la Suma de Cuadrados de item03 es el numerador de su varianza, tenemos que

Suma de cuadrados de item03 8.55


Varianza de item03 = = = 0.45
N −1 19

Conocida la varianza de item03, la desviación típica será

0.45 = 0.67.

Ahora ya disponemos de toda la información necesaria para calcular el error típico:

Error típico = 0.67 1 - 0.247 = .58

Anteriormente se ha indicado que R cuadrado es el cuadrado de ryy´. Esta medida indica


la proporción de Variabilidad de item03 explicada por la ecuación de regresión. En este
caso, R cuadrado es .287. Otra manera de obtener esta proporción sería dividiendo la
Suma de Cuadrados explicada por la ecuación de regresión entre la Suma de Cuadrados
de item03. Esto es,

Suma de Cuadrados regresión 2.453


= = .287
Suma de Cuadrados de item 03 8.55

Para juzgar la importancia de esta proporción SPSS compara la Variabilidad explicada


por la ecuación de regresión con la Variabilidad no explicada por la ecuación de
regresión. Pero antes de realizar esta comparación se corrigen las dos Sumas de
Cuadrados (Regresión y Residual) dividiéndolas por sus respectivos grados de libertad.

93
Los grados de libertad están indicados en la primera columna de la Tabla de Análisis de
varianza mediante las letras gl. Se observa que la Suma de Cuadrados explicada por la
ecuación de regresión solamente tiene 1 grado de libertad. Los grados de libertad para
esta fuente de Variabilidad son iguales al número de variables independientes existentes
en la ecuación de regresión. Aquí sólo teníamos una variable independiente (item01). En
cuanto a la Suma de Cuadrados no explicada por la ecuación de regresión, se observa
que los grados de libertad son 18. Estos grados de libertad se obtienen así:

gl = Número de sujetos - Número de variables independientes - 1

En este caso,

gl = 20 - 1 - 1 = 18.

Al cociente entre la Suma de Cuadrados y sus grados de libertad se le denomina Media


Cuadrática. La Media Cuadrática para la Variabilidad explicada por la ecuación de
regresión es la siguiente:

Suma de Cuadrados regresion 2.453


Media Cuadratica = = = 2.453
grados de libertad 1

De forma similar, la Media Cuadrática para la Variabilidad no explicada por la ecuación


de regresión se obtiene así:

Suma de Cuadrados residual 6.097


Media Cuadratica = = =.339
grados de libertad 18

Una vez corregidas ambas fuentes de Variabilidad se procede a su comparación. Al


cociente se le denomina F. Esto es,

MC Regresión 2.453
F = = = 7.24
MC Residual .339

La distribución probabilística del cociente F es conocida. El valor que aparece al lado de


F, con la especificación Sig. (.015), es la probabilidad de obtener por azar un valor de F
superior a 7.24. Observe que esta probabilidad es muy baja. En tantos por cien,
solamente se obtendrá por azar un valor de F superior a 7.24, 1.5 veces de cada cien. Lo
que esto indica es que el valor obtenido de F es altamente fiable o también
"estadísticamente significativo". En general, se acepta la significatividad estadística
siempre que la probabilidad asociada (también denominada nivel de significación) sea
igual o menor que .05.

Veamos ahora la última tabla que nos ofrece el análisis de regresión efectuado, que
contiene los coeficientes de la ecuación de regresión. La tabla tiene este aspecto:

94
Coeficientesa

Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) .452 .644 .701 .492
entiendo el
.629 .234 .536 2.691 .015
gallego hablado
a. Variable dependiente: soy capaz de hablar en gallego

Esta tabla tiene 2 filas. En la fila 1 se ofrece información relativa a la constante a de la


ecuación de regresión, y en la fila 2 información relativa a la constante b. En la zona
izquierda (etiquetada B) de la columna de la tabla que contiene los coeficientes no
estandarizados, se dispone de información suficiente para construir la ecuación de
regresión. El valor .452 es la constante a, mientras el valor .629 es la constante b. Por
tanto, la ecuación de regresión es la siguiente:

item03´ = .452 + .629 item01.

A nivel interpretativo, recuerde que la constante a tenía escasa importancia. Lo que


indica a es el valor que tomaría item03 ante un hipotético valor igual a 0 en item01. En
este caso, item03 sería .452. En adelante no se ofrecerán más comentarios relativos a la
constante a. La constante auténticamente relevante es b. Una constante b igual a .629
indica que cuando item01 aumenta 1 unidad, item03 aumenta .629 unidades. En la zona
derecha (etiquetada Error típ.) de la columna que contiene los coeficientes no
estandarizados se ofrece una medida de la fiabilidad de la constante b: el error típico de
la constante b. El error típico de b es igual a .234. Para interpretar este error típico debe
considerarse que cuanto más se aproxime a 0 mayor es la fiabilidad de la constante b y
cuanto más se aproxime a b menor es su fiabilidad. Si el valor del error típico de b
excediera el valor de b sería una indicación muy clara de que b es muy poco fiable. Para
una interpretación más precisa del error típico de b se podría crear un intervalo de
confianza para b. Si entre los límites de dicho intervalo está el valor cero, se concluiría
que b no es fiable. En caso contrario, se concluiría que b es fiable o estadísticamente
significativo.

Para poder crear este intervalo es necesario conocer la distribución probabilística de b.


Afortunadamente, esta distribución es conocida. Se sabe que es una distribución t de
Student, con N-2 grados de libertad. Para estos datos N es 20 y, en consecuencia, los
grados de libertad son 18. Si consultamos la distribución t en un libro de estadística, para
18 grados de libertad, y un nivel de significación de .05, para un contraste con dos
direcciones, obtenemos un valor t igual a 2.101. Para crear el intervalo de confianza se
multiplica este valor crítico de t por el error típico de b. En este caso, multiplicamos
2.101 por .234. El resultado es .49. Si ahora restamos .49 a b, obtenemos el límite
inferior del intervalo, y si sumamos .49 a b, obtenemos el límite superior del intervalo.
En este caso, tenemos:

95
• límite inferior = .629 - .49 = .14;
• límite superior = .629 + .49 = 1.12.

Dado que el cero no se encuentra entre los límites del intervalo, concluimos que el valor
de b (.629) es fiable o estadísticamente significativo.

El valor Beta igual a .536 ofrecido en la siguiente columna de la tabla es el valor de b si


se estandarizaran tanto la variable independiente como la variable dependiente. Es decir,
es el valor de b si tanto item01 como item03 se transformaran en puntuaciones típicas
(Z). Recuérdese que si se realizara esta transformación las dos variables tendrían la
misma media (0 en ambos casos) y la misma varianza (1 en ambos casos). La
transformación de b en BETA se obtiene de la siguiente manera:

Desviación tipica variable independiente


BETA = b
Desviación tipica variable dependiente

Con estos datos,

0.57
BETA = 0.629 x = .535
0.67

Cuando el número de variables independientes en la ecuación de regresión es 1, BETA


coincide con el valor del coeficiente de correlación de Pearson entre la variable
independiente y la variable dependiente. Con estos datos, el coeficiente de correlación
de Pearson entre item01 e item03 también sería .535.

Solamente nos quedan por comentar las dos últimas columnas de la tabla anterior. El
procedimiento que se ofrece en estas columnas es, en realidad, una forma alternativa de
evaluar la fiabilidad de la constante b. En este caso, se compara b con su error típico. El
valor t se obtiene así:

constante b 0.629
t = = = 2.69
error tÍpico de b 0.234

La probabilidad que se ofrece en la última columna, para t = 2.691, bajo la


denominación de Sig., es la probabilidad de obtener por azar un valor de t superior a
2.691 o igual o inferior a -2.691 (recuerde que el contraste es bilateral). Se observa que
esta probabilidad es .015. Esta probabilidad es muy baja, lo que indica que la constante b
es fiable o estadísticamente significativa. Nótese que esta es la misma conclusión a la
que hemos llegado anteriormente creando un intervalo de confianza para b.

6.4. Regresión múltiple

Recuerde que en la regresión lineal existían dos variables. A una de ellas se le


denominaba dependiente y a la otra independiente. Se asumía que la variable
dependiente era función lineal de la variable independiente. En la regresión múltiple se
dispone igualmente de una variable dependiente, pero se asume que ésta es función

96
lineal de dos o más variables independientes. La forma de la ecuación de regresión para
el caso de dos variables independientes es la siguiente:

Y´ = a + b1X1 + b2X2.

Nótese que los valores de Y, X1 y X2 son conocidos para un problema dado, y los valores
de a, b1 y b2 desconocidos. Las constantes a, b1 y b2 se pueden calcular por el mismo
procedimiento de mínimos cuadrados utilizado en la regresión con una variable
independiente. Recuerde que este procedimiento garantiza la búsqueda de valores para
las constantes que producen los errores más pequeños posibles.

A la constante a se le sigue denominando interceptal e indica el valor de Y cuando X1 y


X2 son ambas iguales a 0. La constante b1 indica el cambio medio en Y ante el cambio de
una unidad en X1, bajo el supuesto de que X2 permanece constante. Por esta razón se le
denomina coeficiente de regresión parcial de la variable X1. De forma similar, la
constante b2 indica el cambio medio en Y ante el cambio de una unidad en X2, bajo el
supuesto de que X1 permanece constante. A la constante b2 se le denomina coeficiente de
regresión parcial de la variable X2.

En términos generales, la ecuación de regresión múltiple tiene la siguiente forma:

Y´ = a + b1X1 + b2X2 + ... + bpXp

donde p es el número total de variables independientes en la ecuación de regresión.

En SPSS, la regresión múltiple se realiza con el mismo procedimiento que se utiliza en


la regresión con una sola variable independiente. Para SPSS la regresión con una
variable independiente es, en realidad, un caso particular de la regresión múltiple.

Vamos a llevar a cabo un análisis de regresión múltiple utilizando las variables item01,
item03 e item11. El procedimiento es el mismo que en el análisis anterior, pero en este
caso item11 irá en la casilla etiquetada Dependiente, mientras que item01 e item03 irán
en la casilla etiquetada Independientes. Esto es, item11 es ahora la variable dependiente,
e item01 e item03 son las variables independientes. Como método de construcción de la
ecuación, mantendremos el método Introducir, aunque existe un procedimiento más
adecuado para el caso de la regresión múltiple. Este procedimiento, que veremos más
adelante, solamente incluye en la ecuación de regresión aquellas variables
independientes que tienen una relación estadísticamente significativa con la variable
dependiente. Si realiza este problema, el visor de resultados le mostrará estas dos tablas:

Resumen del modelo

R cuadrado Error típ. de la


Modelo R R cuadrado corregida estimación
1 .627a .393 .322 .77
a. Variables predictoras: (Constante), soy capaz de hablar en
gallego, entiendo el gallego hablado

97
ANOVAb

Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 6.512 2 3.256 5.514 .014a
Residual 10.038 17 .590
Total 16.550 19
a. Variables predictoras: (Constante), soy capaz de hablar en gallego, entiendo el
gallego hablado
b. Variable dependiente: el gallego es útil en el mundo de hoy

Los índices importantes de la primera tabla son R cuadrado y Error típico de la


estimación. El índice importante en la segunda tabla es el valor de F. Un valor de R
cuadrado igual a .393 indica que la variabilidad de item11 (variable dependiente)
explicada por la ecuación de regresión es 0.393. Para la interpretación del error típico de
la estimación (.77) es necesario conocer la desviación típica de la variable dependiente
(item11). Recuerde que la desviación típica representa el valor máximo que puede
asumir este índice. En este caso, la desviación típica es 0.91, por lo que el error parece
bastante grande. Finalmente, se observa que el valor de F (5.514) es estadísticamente
significativo (el nivel de significación es .014, sensiblemente inferior a .05).

La última tabla, etiquetada Coeficientes, nos da otra información, la que se refiere a la


ecuación de regresión:

Coeficientesa

Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1.093 .862 1.267 .222
entiendo el
-6.75E-02 .365 -.041 -.185 .856
gallego hablado
soy capaz de
.902 .311 .648 2.899 .010
hablar en gallego
a. Variable dependiente: el gallego es útil en el mundo de hoy

La ecuación de regresión es la siguiente:

item11´ = 1.093 + .902 item03 - .067 item01.

Se observa que el coeficiente de regresión parcial asociado con la variable item03 es


estadísticamente significativo (T = 2.899, Sig = .010). Sin embargo, el coeficiente de
regresión parcial asociado con item01 es no significativo (T = -.185, Sig T = .856).

Si se tipifican las tres variables, la ecuación de regresión quedaría así:

item11´ = .648 item03 - .041 item01.

98
La ventaja que tiene la tipificación es que permite la comparación entre los coeficientes
de regresión parcial.

Dado que el coeficiente de regresión parcial asociado con item01 es no significativo se


podría reducir la ecuación de regresión con dos variables independientes a una sóla,
formada con item03. Esto es,

item11´ = b item03.

Para facilitar este tipo de simplificaciones, SPSS dispone de un método alternativo al


método Introducir, denominado Pasos sucesivos. El método por pasos sucesivos
selecciona las variables independientes, de forma tal que primero entra en la ecuación la
que tiene la relación significativa más alta con la variable dependiente, luego la que tiene
la segunda relación significativa más alta y así sucesivamente. Si realiza el problema
anterior comprobará como sólo entra en la ecuación item03. La variable item01 no llega
a entrar porque la relación con la variable dependiente (item11) es no significativa. Para
ejecutar el análisis de regresión múltiple siguiendo este procedimiento, no tiene más que
seleccionar, en el recuadro etiquetado Método, la opción Pasos suc..

Veamos ahora, aunque sea someramente, la utilidad de los botones incluidos en el


cuadro de diálogo del procedimiento Regression. El primero de ellos, etiquetado MCP,
nos permite llevar a cabo un análisis por el método de Mínimos Cuadrados Ponderados.
Esta opción abre un espacio añadido dentro del cuadro de diálogo, en el que podemos
incluir una variable que contenga los pesos o ponderaciones asignadas a cada sujeto. La
aplicación de estas ponderaciones se da en casos en los que no todos los sujetos hayan
sido medidos con el mismo grado de precisión; es, por tanto, de aplicabilidad limitada a
casos muy especiales.

El segundo de los botones, el botón etiquetado Estadísticos, ya lo conoce. El siguiente


botón, etiquetado Gráficos, nos permite representar gráficamente los valores de los
residuos (es decir, los datos no explicados por la ecuación de regresión) frente a los
valores originales de la variable dependiente, o frente a los valores de ésta estimados por
la ecuación de regresión, así como también examinar la distribución de estos residuos.
Al igual que en el caso del cuadro de diálogo del análisis de regresión, aquí también
existe la posibilidad de pedir bloques de gráficos, que nos permiten examinar los
residuos desde distintos enfoques. La utilidad de estas representaciones es la de obtener
un conocimiento más completo de la relación existente entre las variables objeto de
análisis. El cuadro de diálogo correspondiente tiene este aspecto:

99
El siguiente botón, etiquetado Guardar, muestra este cuadro de diálogo:

Esta opción resulta útil principalmente para salvar los valores de la variable dependiente
predichos por la ecuación de regresión (Valores pronosticados) como una nueva
variable en el archivo de datos. Estos valores pueden salvarse tanto en la misma escala
de medida que la variable dependiente (No tipificados) como en puntuaciones típicas
(Tipificados). Las variables así generadas serán etiquetadas por SPSS con los caracteres
pre_ (predicha), seguidos del número de orden de creación de la variable (pre_1, pre_2,
etc.) en el caso de valores no estandarizados., mientras que si están en forma de

100
puntuaciones típicas, las etiquetas de las variables empezarán por los caracteres zpr_, (z
predicha), seguidos del número de orden (zpr_1, zpr_2, etc.)

El último botón, etiquetado Opciones, nos permite modificar los valores de F, o las
probabilidades asociadas, para que una variable independiente determinada pueda ser
incluida (Entrada) o excluida (Salida) del análisis. La utilidad de esta opción reside en
que podemos emplear criterios más restrictivos para introducir una nueva variable
dependiente en la ecuación de regresión, o criterios más laxos para eliminarla, de los
utilizados por SPSS. Otra opción presente en este cuadro de diálogo consiste en forzar
una recta de regresión que pase por el origen de coordenadas o, lo que es lo mismo,
forzar una ecuación de regresión en la que no haya constante a. La opción por defecto es
que se incluye el valor de a en la ecuación de regresión (Incluir constante en la
ecuación).

7. Comparaciones entre Medias(t de Student)

En la investigación empírica, es muy común comparar el comportamiento de dos


grupos. Por ejemplo, en el estudio sociolingüístico podrían compararse las respuestas de
los hombres con las respuestas de las mujeres, las respuestas de los más jóvenes con las
respuestas de los más viejos, las respuestas de los que tienen estudios universitarios con
las de los que tienen estudios inferiores, etc.

Según el procedimiento estadístico más habitual esta comparación se realiza a través de


las medias de los dos grupos. Esto es, se compara la media del grupo 1 con la media del
grupo 2.

Para comprender la lógica de esta comparación, debemos comenzar señalando algunas


ideas subyacentes al proceso estadístico. En primer lugar, se asume que las
observaciones de que disponemos en cada grupo son una muestra de una población
mayor de observaciones posibles. Nótese como anteriormente decíamos que se deseaba
comparar las respuestas de los hombres con las de las mujeres, las de los jóvenes con las

101
de los adultos, las de los universitarios con las de los que tienen estudios inferiores. Es
evidente que, en nuestro archivo, disponemos de una pequeña muestra de hombres y de
una pequeña muestra de mujeres, de una pequeña muestra de jóvenes y una pequeña
muestra de adultos, de una pequeña muestra con estudios universitarios y una pequeña
muestra con estudios inferiores. Sin embargo, la comparación estadística se realiza para
hipotéticas poblaciones mayores de observaciones posibles, y no para las muestras.

Para hacer posible esta comparación, se establece una hipótesis estadística a nivel de
población. En el caso más habitual, esta hipótesis establece que ambas muestras
proceden de una misma población, de modo que la diferencia observada entre ambas
medias se debe al azar y, en consecuencia, no es fiable. A esta hipótesis estadística se le
denomina hipótesis nula. El objetivo se convierte en comprobar esta hipótesis. Para ello,
se utiliza la información observada en las muestras, fundamentalmente sus medias y sus
varianzas. Toda la cuestión radica en decidir si la diferencia observada entre las medias
de las dos muestras es lo suficientemente grande como para poder descartar el azar como
explicación. Como siempre, la valoración de la diferencia entre las medias se hará en
términos probabilísticos. Afortunadamente, la distribución de la diferencia de medias de
muestras es conocida. Si se satisfacen ciertos supuestos, se trata de una distribución t de
Student con n1 + n2 - 2 grados de libertad, donde n1 y n2 son los tamaños de la muestra 1
y 2, respectivamente. Por tanto, lo que se hace es calcular la probabilidad de obtener una
diferencia de medias mayor (en términos absolutos) que la obtenida. Si esa probabilidad
es igual o menor que 0.05 (es decir, pequeña) se rechaza la hipótesis nula. En caso
contrario, no se rechaza. Rechazar la hipótesis equivale a afirmar que la diferencia
observada entre las medias de las dos muestras es "grande" y, en consecuencia,
significativa (fiable). Otra manera de expresar esto mismo consiste en afirmar que las
dos muestras proceden de dos poblaciones con medias distintas. No rechazar la hipótesis
nula equivale a afirmar que la diferencia entre las medias de las dos muestras es
"pequeña" y, en consecuencia, no significativa (no fiable). También se puede afirmar
que ambas muestras proceden de una misma población.

7.1. Dos muestras independientes

Veamos a continuación cómo utilizaríamos la prueba t de Student para comprobar si


existen diferencias entre los sujetos con estudios superiores y el resto de los sujetos en
cuanto a sus respuestas a item01. La información sobre el nivel de estudios se encuentra
en item19. Esta variable tenía cuatro valores, donde “1” significaba ningún estudio, “2”
estudios primarios, “3” estudios medios y “4“ estudios superiores. Como queremos
reducir los 20 sujetos a dos muestras, debemos recodificar los valores de la variable, de
modo que todos los sujetos con valores 1, 2 o 3, en la variable 19, sean recodificados
como 1, es decir, asignados a la muestra 1. Y todos los sujetos con valores 4 son
recodificados como 2, es decir, asignados a la muestra 2.

Para llevar a cabo este primer paso, utilizaremos el procedimiento Recodificar, que
usted ya conoce; si no recuerda su uso, vuelva al apartado 4.1.1. En el menú principal,
seleccione la opción Transformar y, en el menú que se despliega, la opción Recodificar.
De las dos opciones de recodificación, seleccione ahora En distintas variables.
Aparecerá el cuadro de diálogo de Recodificar. Como variable de entrada, seleccione
item19. Como variable de salida, cree una nueva variable, a la que llamaremos estudios.

102
Como etiqueta de la nueva variable puede utilizar la siguiente: “no
superiores/superiores”. A continuación, pulse el botón Valores antiguos y nuevos. Para
los valores 1,2 y 3 de item19, seleccione el valor 1 en la variable estudios. Para el valor
4 de item19, seleccione el valor 2 en la variable estudios. El cuadro de diálogo tendrá
este aspecto cuando termine:

Pulse el botón Continuar y, a continuación, el botón Aceptar. Ya ha creado la variable


estudios. Si lo desea, puede ahora colocar las etiquetas de valores a las puntuaciones 1 y
2. Para la puntuación 1, la etiqueta correspondiente será “no superiores” y, para la
puntuación 2, la etiqueta será “superiores”. Ahora ya tenemos la variable de
agrupamiento para llevar a cabo la prueba t de Student.

Para realizar la comparación entre la media de la muestra 1 (estudios no superiores) y la


media de la muestra 2 (estudios superiores), seleccione ahora en la opción Analizar, la
opción Comparar medias. A la derecha aparecerán distintas pruebas de comparación de
medias. Señale la que nos interesa ahora: Prueba T para muestras independientes. En el
cuadro de diálogo que aparece a continuación, debe usted especificar, en primer lugar,
la(s) variable(s) objeto de contraste en el recuadro titulado Contrastar variables.
Introduzca aquí la variable item01. En segundo lugar, debe especificar, en el recuadro
titulado Variable de agrupación, cuál es la variable de agrupamiento. Esta es la variable
en función de la cual se han creado los dos grupos: “estudios no superiores” y “estudios
superiores”. Seleccione aquí la variable estudios. Una vez hecho esto, el cuadro de
diálogo tendrá este aspecto:

103
Observe los dos interrogantes que aparecen a la derecha de la variable estudios. Nos
indican que SPSS no conoce los dos valores que esta variable puede tomar. Para
definirlos, pulse el botón Definir grupos. Aparecerá un pequeño cuadro de diálogo
donde debe introducir ambos valores: 1 para los sujetos con estudios no superiores, y 2
para los sujetos con estudios superiores. Introduzca ahora ambos valores. El cuadro de
diálogo debe quedar así:

Pulse ahora el botón Continuar y, en el cuadro de diálogo principal, el botón Aceptar. El


visor de resultados le ofrecerá dos tablas. Esta es la primera de ellas:

Estadísticos de grupo

Desviación Error típ. de


Estudios recodificada N Media típ. la media
entiendo el no superiores 13 2.69 .63 .17
gallego hablado superiores 7 2.71 .49 .18

En la primera tabla aparece la variable de agrupamiento, estudios, con su etiqueta. En


las casillas de la tabla se ofrecen ciertos estadísticos básicos para item01, pero no en
conjunto sino partida en dos. Primero se ofrece el número de casos (o sujetos) en cada
muestra. En el grupo de sujetos con nivel de estudios no superiores hay 13 casos,
mientras en el grupo de sujetos con nivel de estudios superiores hay 7. La media del
primer grupo es 2.69, mientras la media del segundo grupo es 2.71. La desviación típica
es .63 para los sujetos con estudios no superiores, y .49 para los sujetos con estudios
superiores. El error típico de la media de la siguiente columna es la desviación típica de
la distribución teórica (probabilística) de la media. Se obtiene de la siguiente manera:

104
Desviacion Tipica
Error Tipico =
Raiz cuadrada tamaño muestra

Por tanto,

(a) en el grupo 1,

0.630
Error típico = = .17.
13

(b) en el grupo 2,

0.488
Error típico = = .18
7

En principio, se observa que la media de los sujetos con estudios superiores (2.71) es
superior a la media de los sujetos sin estudios superiores (2.69). Por tanto, a nivel
muestral, ambas medias son distintas. Esto es innegable. Pero, la cuestión no es si ambas
medias son distintas a nivel muestral, sino si son distintas a nivel poblacional. Dicho
más concretamente, la cuestión es si la diferencia que hay entre 2.71 y 2.69 es "pequeña"
y se puede explicar por simple azar o la diferencia es "grande" y se debe a factores
sistemáticos o no-aleatorios. La respuesta a esta cuestión nos la da el estadístico t que se
muestra en la siguiente tabla:

Prueba de muestras independientes

Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
entiendo el Se han asumido
.164 .690 -.080 18 .937 -2.20E-02 .28 -.60 .56
gallego hablado varianzas iguales
No se han asumido
-.086 15.409 .932 -2.20E-02 .25 -.56 .52
varianzas iguales

Antes de examinar el valor del estadístico t, es necesario saber si las varianzas de las
poblaciones son o no iguales. Dependiendo de que se de una u otra circunstancia, varía
el modo en que debe calcularse el valor de t. Para solucionar este problema, SPSS
somete a comprobación la hipótesis nula de igualdad de varianzas. Esta comprobación
se realiza mediante la prueba de Levene, que calcula un estadístico F a partir de una
transformación de los datos originales en item01. En concreto, para cada sujeto se
calcula el valor absoluto de la diferencia entre la puntuación obtenida en item01 y la
media en item01 para el grupo al que pertenece ese sujeto (en nuestro caso, sin estudios
superiores o con estudios superiores). Por ejemplo, un sujeto que hubiese obtenido una
puntuación de 2 en item01 y perteneciese al grupo sin estudios superiores, obtendría esta
puntuación transformada: |2 - 2.69| = 0.69. Por su parte, un sujeto que hubiese obtenido
una puntuación de 1 en item01 y perteneciese al grupo con estudios superiores,
obtendría la siguiente puntuación transformada: |1 - 2.71| = 1.71.

105
Una vez transformados los datos, se efectúa un análisis de varianza de de un factor (ver
apartado 8.1) a partir de esos datos transformados. El análisis de varianza será el que es
el que nos proporcione el valor final de F. Se observa en el listado que el valor de F es
.164 y su probabilidad asociada (nivel de significación) es .690. Como el nivel de
significación es mayor que .05 no se rechaza la hipótesis nula y se afirma que las
varianzas de ambas poblaciones son iguales.

Ahora debemos saber qué valor de t es el correcto para nuestros datos. Observe las
columnas encabezadas con el rótulo Prueba T para la igualdad de medias. La primera
columna nos indica el valor de t calculado: para el caso de que se asuman varianzas
iguales o para el caso de que se asuman varianzas distintas. En nuestro caso, y dado el
resultado de la prueba de Levene, el valor de t correcto es el que corresponde al primer
caso, el de varianzas iguales. No obstante, veamos cómo se obtiene t en ambos casos.

7.1.1. Caso de varianzas desiguales

Cuando las varianzas son desiguales, se calcula un estadístico t cuya definición es la


siguiente:

X1 - X 2
t = 2 2
S1 + S 2
n1 n2

donde el subíndice 1 representa la muestra, y el subíndice 2 a la muestra 2.

Este valor es el que se ofrece en la tabla en la línea correspondiente a varianzas


desiguales. En la segunda columna de esta línea apreciamos que el valor de t es de -.086.
En efecto,

2.6923-2.7143
t = = - 0.86
(0.630 2 / 13)+ (0.488 2 / 7)

En la columna siguiente aparecen los grados de libertad (gl), que son de 15.409. Éstos se
obtienen de la siguiente manera:

1
grados de libertad =
Z1 + Z 2

donde

106
2
 2
s1 / n1 
Z1 =  2 2  / ( n1 - 1)
 s1 / n1 + s2 / n2 

2
 2
s2 / n 2 
Z2 =  2 2  / ( n2 - 1)
 s1 / n1 + s2 / n2 

En este caso,

2
 2
0.630 / 13 
Z1 = ( 2 2  / (13 - 1) = 0.0186
 0.630 / 13) + ( 0.488 / 7) 

2
 2
0.488 / 7 
Z2 =  2 2  / (7 - 1) = 0.0463
 ( 0.630 / 13) + ( 0.488 / 7) 

Por tanto,

1
grados de libertad = = 15.409
0.0186 + 0.0463

El valor de significación estadística que se ofrece en la siguiente columna (Sig.


bilateral) es la probabilidad de obtener un valor t igual o menor que -.09 (o mayor que
.09). Dado que esta probabilidad es muy alta (.932) no se rechaza la hipótesis nula y,
en consecuencia, se afirma que las diferencias entre ambas medias son no
significativas (o no fiables). También se puede afirmar que ambas muestras proceden
de una misma población. La probabilidad mencionada (.932) también puede
interpretarse como la probabilidad de equivocarnos si rechazáramos la hipótesis nula.
Es evidente que en este caso, dicha probabilidad es demasiado alta como para poder
asumir ese riesgo. En los libros de estadística es frecuente la utilización del término
"nivel de significación" para referirse a esta probabilidad.

7.1.2. Caso de varianzas iguales

Cuando las varianzas son iguales, SPSS calcula otro estadístico t que también permite la
comprobación de la misma hipótesis nula acerca de las diferencias entre las medias de
los dos grupos en item01. Este estadístico, a diferencia del anterior, supone que ambas
muestras proceden de poblaciones que tienen idéntica varianza. La definición es la
siguiente:

t = X1 - X2
2 2
S p / n1 + S p / n2

donde

107
2
( n1 - 1) S 21 + ( n2 - 1) S 22
S p=
n1 + n2 - 2

En este caso,

2
(12)(0.6302 )+ (6)(0. 4882 )
S p= = 0.344
13+7 - 2

2.6923 - 2.7143
t = = -.08
0.344 0.344
+
13 7

Los grados de libertad son n1 + n2 - 2, es decir, 13 + 7 - 2 = 18. La probabilidad asociada


(o nivel de significación) es .937. Como se requiere que el valor de esta probabilidad sea
igual o menor que .05, se rechaza la hipótesis nula y se concluye, igual que antes, que no
existen diferencias significativas entre las medias de las dos muestras.

En este ejemplo hubiéramos llegado a la misma conclusión eligiendo una t u otra. Sin
embargo, puede haber situaciones en que no sea así. Recuerde, por tanto, que si la
prueba de Levene ofrece una F que es significativa, debe elegir el valor y la probabilidad
asociada de la t que se encuentra en la línea correspondiente a varianzas distintas, y que
si la F proporcionada por la prueba de Levene es no significativa debe elegir la t que se
encuentra en la línea correspondiente a varianzas iguales.

La comparación que hicimos era entre dos grupos de naturaleza empírica (universitarios
vs. no universitarios). No obstante, es frecuente en la investigación diseñar o crear
grupos experimentalmente. En el caso más elemental, se asigna aleatoriamente la mitad
de los sujetos disponibles a una condición experimental y la otra mitad a una condición
control. Luego, se comparan las medias de ambos grupos en alguna variable de estudio.
A este diseño se le denomina de dos grupos aleatorios. El procedimiento que se seguiría
con SPSS para analizar los datos procedentes de este diseño es el mismo que el utilizado
en el ejemplo anterior. En SPSS se identifican ambos datos como procedentes de
muestras independientes. La diferencia entre uno y otro caso es que en nuestro ejemplo
no existe diseño experimental, mientras en el segundo si existe. El análisis de datos
disponible es, no obstante, el mismo.

7.2. Dos muestras relacionadas

Existen ocasiones en que el diseño de dos grupos se hace creando, primero, pares de
sujetos que sean muy iguales en la variable de estudio (variable dependiente). Luego, se
asigna un miembro de cada par al grupo experimental y el otro miembro del par al grupo
control. A este diseño se le denomina diseño de dos grupos apareados. En los
experimentos clásicos de dos grupos apareados se suelen utilizar gemelos. Sin embargo,
los pares pueden hacerse utilizando otras variables de apareamiento. Una variación de

108
este diseño muy utilizada en las ciencias del comportamiento consiste en someter a los
mismos sujetos a ambas condiciones (experimental y control). En este caso, el sujeto
hace de par de sí mismo. Este diseño que resulta tremendamente atractivo sólo es
aconsejable en aquellos casos en que no exista posibilidad de transferencia alguna de
una condición a otra.

Con los datos procedentes del estudio sociolingüístico no es posible ilustrar cómo se
realiza el análisis de datos para este diseño con SPSS. Por ello, desarrollamos un
ejemplo específico.

Suponga que estamos interesados en investigar la eficacia de un método de enseñanza.


Para ello, seleccionamos 2 sujetos con calificaciones iguales, otros 2 sujetos con
calificaciones iguales, y así hasta 7 pares. Luego, asignamos un miembro de cada par a
un grupo que trabajará con el nuevo método (condición experimental) y al otro miembro
de cada par al grupo que seguirá trabajando con el método tradicional (grupo control).
Imagine que las calificaciones obtenidas por los 7 pares de estudiantes fueron las
siguientes:

Condición experimental Condición control


7 5
4 2
9 7
2 3
6 5
8 6
7 4

Nosotros queremos probar la hipótesis nula de igualdad de medias. Para ello utilizamos
el estadístico t. Como el diseño es de grupos apareados los datos se analizan por pares y,
en consecuencia, el estadístico t tiene una nueva definición:

- X2
t = X1
SD / N

donde SD es la desviación típica de las diferencias entre los pares de datos, y N es el


número de pares.

La distribución del estadístico t, bajo el supuesto de distribución normal de las


diferencias, es t con N-1 grados de libertad.

A continuación se ofrecen los cálculos necesarios para el cálculo del estadístico t así
definido (muestras relacionadas):

109
Condición experimental Condición control _
2
D (D-D)
7 5 2 0.1837 _
4 2 2 0.1837 X1 = 43/7 = 6.1429
9 7 2 0.1837 _
2 3 -1 6.6121 X2 = 32/7 = 4.5714
6 5 1 0.3265
8 6 2 0.1837 _
7 4 3 2.0409 D = 11/7 = 1.5714

43 32 11 9.7143 S = 9.7143 / 6 = 1.272


D

En la Tabla anterior, X1 es la condición experimental, X2 es la condición control, y D es


la diferencia entre las calificaciones de cada par. En consecuencia, el valor de t se
obtiene así:
6.1429 - 4.5714
t = = 3.27
1.272 / 7

Vamos a resolver este problema utilizando SPSS. En primer lugar, con los datos
anteriores creamos un archivo de datos, como el siguiente, al que hemos denominado
apar.sav:

La variable var00001 contiene los datos correspondientes a los 7 sujetos del grupo
experimental, mientras que la variable var00002 contiene los datos de los 7 sujetos del
grupo control. Ahora veamos cómo llevaríamos a cabo el análisis utilizando la prueba t

110
para dos muestras relacionadas. Como en todos los análisis anteriores, seleccione la
opción Analizar en el menú principal. A continuación, seleccione la opción Comparar
medias, ya utilizada en el apartado anterior. Ahora, en el menú que se despliega a la
derecha, seleccione la opción Prueba T para muestras relacionadas. Aparecerá el
cuadro de diálogo de la prueba t para muestras relacionadas. Ahora debe seleccionar las
dos variables que contienen los datos de ambas muestras, var00001 y var00002 e
introducirlas para el análisis. El cuadro de diálogo tendrá este aspecto:

Pulse ahora el botón Aceptar. El visor de resultados le ofrecerá tres tablas. Éstas son las
dos primeras:

Estadísticos de muestras relacionadas

Desviación Error típ. de


Media N típ. la media
Par 1 VAR00001 6.1429 7 2.4103 .9110
VAR00002 4.5714 7 1.7182 .6494

Correlaciones de muestras relacionadas

N Correlación Sig.
Par 1 VAR00001 y VAR00002 7 .862 .013

Como ya hemos dicho, var00001 corresponde a la condición experimental, y var00002


corresponde a la condición de control. En la primera tabla puede ver que la media
aritmética de la condición experimental es 6.1429, y la media aritmética de la condición
control es 4.5714. El grupo experimental ha obtenido mejores resultados, en promedio,
que el grupo control. La segunda tabla nos muestra simplemente la correlación entre los
resultados obtenidos por el grupo experimental y el grupo control (.862). Los resultados
de la prueba t aparecen en la tercera tabla:

111
Prueba de muestras relacionadas

Diferencias relacionadas
95% Intervalo de
confianza para la
Desviación Error típ. de diferencia
Media típ. la media Inferior Superior t gl Sig. (bilateral)
Par 1 VAR00001 - VAR00002 1.5714 1.2724 .4809 .3946 2.7482 3.267 6 .017

Además de las medias de var00001 y var00002, para el cálculo de t se necesita conocer


la desviación típica de las diferencias, SD. Este índice, así como la media de las
diferencias, se ofrece en la columna etiquetada Diferencias relacionadas, y su valor es
de 1.2724. A la derecha, en esta misma tabla, se ofrece el valor de t, los grados de
libertad y el nivel de significación. El valor de t (3.267) se obtiene de la manera que
hemos indicado anteriormente. El número de grados de libertad es N-1. Aquí N es 7; de
ahí que los grados de libertad sean 6. El nivel de significación es .017. En consecuencia,
se rechaza la hipótesis nula y se afirma que existen diferencias significativas (fiables)
entre las medias de ambas muestras.

8. Introducción al Análisis de Varianza

Una limitación importante del estadístico t es que sólo permite la comparación entre dos
grupos. Si tuviéramos tres grupos, por ejemplo, tendríamos que realizar las
comparaciones por pares; esto es, comparar el grupo 1 con el 2, el 1 con el 3 y el 2 con
el 3. Este procedimiento, además de ser largo, tiene serios inconvenientes estadísticos.
Lo ideal sería disponer de un procedimiento estadístico que permitiese la comparación
simultánea de los tres grupos. Este procedimiento es el análisis de varianza. En realidad,
el análisis de varianza es un procedimiento general que permite la comparación entre
dos, tres o, incluso, más de tres grupos.

A pesar del nombre, que parece indicar otra cosa, el análisis de varianza, al igual que el
estadístico t, compara medias, y no varianzas. Lo que ocurre es que para realizar dicha
comparación precisa calcular ciertas "varianzas" (de ahí el nombre del procedimiento).
El estadístico t podría considerarse un caso particular del análisis de varianza en que
sólo se comparan dos medias.

Un nombre abreviado que se utiliza para referirse al análisis de varianza es el de


ANOVA (de ANalisis Of VAriance).

8.1. Análisis de varianza con un factor

En el caso más simple de análisis de varianza se dispone de dos variables. Los nombres
de estas variables son los mismos que los señalados en el análisis de regresión. A una
variable se le denomina dependiente, y a la otra independiente. La diferencia esencial
entre el análisis de regresión y el análisis de varianza está en la naturaleza de ambas
variables. La variable dependiente es cuantitativa en ambos análisis. Sin embargo, la
variable independiente, que es cuantitativa en el análisis de regresión, es considerada
como cualitativa en el análisis de varianza.

112
Otro nombre que se utiliza para referirse a la variable independiente es el de factor. Son
muchos los manuales de estadística que denominan análisis de varianza con un factor al
análisis de varianza con una sola variable independiente, análisis de varianza con dos
factores al análisis de varianza con dos variables independientes, y así sucesivamente.
Otro término que puede utilizarse para referirse a la variable independiente es el de vía.
Así, el análisis de varianza con un variable independiente podría denominarse análisis de
varianza de una-vía (one-way). De forma similar, el análisis de varianza con dos
variables independientes podría denominarse de dos-vías (two-ways), etc.

Los datos del estudio sociolingüístico no resultan muy apropiados para ilustrar el
funcionamiento del análisis de varianza. Por ello, vamos a crear nosotros una situación
experimental hipotética donde podría utilizarse el análisis de varianza como
procedimiento estadístico.

Imaginemos que deseamos conocer la eficacia de tres métodos de enseñanza (1, 2, y 3)


sobre el rendimiento escolar de los estudiantes de E.G.B. Para comprobarlo, tomamos
12 estudiantes de un curso de E.G.B. y asignamos aleatoriamente 4 estudiantes al
método de enseñanza 1, 4 estudiantes al método 2, y 4 al método 3. Al finalizar el curso,
registramos la calificación obtenida por cada uno de los 12 estudiantes.

Nótese que la variable independiente (factor, o vía) es el método de enseñanza. Se trata


de una variable cualitativa. Entre el método 1 y el 2, por ejemplo, no tenemos valores
intermedios. La variable dependiente es la calificación escolar de los estudiantes. Es una
variable cuantitativa. Entre dos valores enteros (p.e. el 5 y el 6) son posibles infinitos
valores intermedios.

A continuación se ofrecen los datos completos para los 12 sujetos:

Método Calificación
1 8
1 7
1 5
1 9
2 7
2 5
2 3
2 6
3 5
3 2
3 2
3 5

A nivel estadístico se desea comprobar la hipótesis nula de que las medias de las tres
poblaciones (método 1, método 2, método 3) en rendimiento escolar son iguales. Para
ello, utilizamos la información contenida en las tres muestras correspondientes. Nótese
que las medias de las muestras son las siguientes:

(a) Muestra 1
8 +7 + 5 + 9
X = = 7.25
4

113
(b) Muestra 2
7 + 5 + 3+ 6
X = = 5.25
4

(c) Muestra 3
5+ 2+ 2+ 5
X = = 3.5
4

Se observa que la media de la muestra 1 es mayor que la media de la muestra 2, y ésta


mayor que la media de la muestra 3. Esto nos permite concluir que, a nivel de muestras,
el método 1 ha producido mejores calificaciones académicas que el método 2, y éste
mejores calificaciones que el método 3. Pero esta no es la hipótesis que nosotros
queremos comprobar. Nuestra hipótesis tiene un carácter más general. Lo que queremos
es comprobar si los tres métodos producen (o no) iguales calificaciones académicas. Es
decir, no queremos limitar nuestra conclusión a las muestras de observaciones realizadas
sino a unas poblaciones hipotéticas de calificaciones académicas de donde podrían estar
extraídas dichas muestras. Precisamente, quien nos permite comprobar esta hipótesis de
carácter general es el análisis de varianza. Recuérdese también que la comprobación de
hipótesis es probabilística. Es decir, se acepta una conclusión con una determinada
probabilidad de error. Se impone la restricción de que esta probabilidad no ha de ser
mayor que .05. A esta probabilidad de error también se le denomina nivel de
significación.

Para llevar a cabo el análisis de varianza con estos datos, crearemos primero el archivo
de datos, al que vamos a denominar var.sav:

114
En la variable var00001 se encuentra la información sobre el método de enseñanza
seguido por cada uno de los doce estudiantes (métodos 1, 2 y 3). En la variable
var00002 se encuentran las calificaciones obtenidas por los doce alumnos. A
continuación, veamos cómo llevar a cabo el análisis de varianza. En la opción Analizar,
seleccione la opción Comparar medias y, en el menú que se despliega a la derecha,
seleccione la opción ANOVA de un factor. En el cuadro de diálogo del procedimiento
deberá especificar como variable dependiente (Dependientes) a la variable var00002, y
como factor (Factor), a la variable var00001. Una vez hecho esto, el cuadro de diálogo
tendrá este aspecto:

Para llevar a cabo el análisis, simplemente pulse el botón Aceptar. El visor de resultados
le mostrará la siguiente tabla:

ANOVA

VAR00002
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 28.167 2 14.083 4.783 .038
Intra-grupos 26.500 9 2.944
Total 54.667 11

En la cabecera del análisis aparece el nombre del procedimiento, ANOVA (en este caso,
de una vía). La información auténticamente relevante en orden a aceptar o rechazar la
hipótesis estadística planteada está en las dos últimas columnas de esta tabla. En la
penúltima columna está indicado el valor del estadístico F (4.783), el estadístico que se
calcula en el análisis de varianza, y en la última columna su probabilidad asociada o
nivel de significación (.038). Como esta probabilidad es menor que .05 se rechaza la
hipótesis nula y se afirma que las diferencias entre las medias son significativas (fiables).
Una manera más operativa de interpretar este resultado consiste en afirmar que los
distintos métodos de enseñanza producen calificaciones académicas distintas.

Habrá observado que esta salida se parece mucho a la ofrecida por el análisis de
regresión. Esto es así porque en el análisis de varianza, al igual que en el análisis de

115
regresión, la variabilidad de la variable dependiente (aquí var00002) se descompone en
dos partes aditivas:

1. aquella parte que explica la variable independiente (denominada en el listado Inter-


grupos);
2. aquella parte que no puede explicar la variable independiente (denominada en el
listado Intra-grupos).

La variabilidad de la variable dependiente se expresa como una Suma de Cuadrados. Se


observa en la columna correspondiente que esta Suma de Cuadrados es 54.667. De esta
Suma de Cuadrados total, la variable independiente (var00001) explica 28.167, y no
puede explicar 26.500.

Lo que hace el análisis de varianza es comparar estas dos fuentes de variabilidad. Pero
antes de compararlas las "corrige" dividiéndo cada una de ellas por sus grados de
libertad (gl). Al resultado se le denomina Media Cuadrática. En efecto, se observa que
14.083 es el cociente entre 28.167 y 2; mientras 2.944 es el cociente entre 26.500 y 9.
Los grados de libertad, en la primera Media Cuadrática, se obtienen restando 1 al
número de muestras (aquí 3). Los grados de libertad, en el segunda Media Cuadrática, se
obtienen restando el número de muestras (aquí 3) al número total de sujetos (aquí 12).
Finalmente, el estadístico F (4.783) es la razón entre la Media Cuadrática que explica la
variable independiente (14.083) y la Media Cuadrática que no explica la variable
independiente (2.944).

8.1.1. Comparaciones a posteriori

Si usted realizara en verdad una investigación como esta y llegara a la conclusión


señalada anteriormente es probable que estuviera satisfecho, pero no totalmente. Habrá
observado que el estadístico F produce una conclusión global para los tres métodos de
enseñanza, sin especificar algunos detalles especialmente importantes para la
investigación. Sin duda, a usted le gustaría poder ordenar los métodos de enseñanza,
desde el más efectivo al menos efectivo. Esta ordenación no es tan elemental como
pueda parecer. En realidad, es necesario realizar bastante trabajo estadístico adicional.
La obtención de dicha ordenación requiere la comparación de los métodos de enseñanza
de dos en dos. Para ello, podría pensarse nuevamente en el estadístico t, pero éste no es
aconsejable en este tipo de situaciones. En su lugar, es más conveniente utilizar
estadísticos especialmente diseñados para estos casos. En los manuales de estadística,
esta cuestión suele tratarse bajo el rótulo de “comparaciones a posteriori”.

SPSS ofrece 7 estadísticos distintos para la realización de comparaciones a posteriori, a


los que se puede acceder mediante el botón etiquetado Post Hoc del cuadro de diálogo
del procedimiento ANOVA de un factor. De entre estos estadísticos, probablemente los
más usuales sean los de Tukey y Scheffé. Vamos a realizar a continuación una
comparación a posteriori con los datos del ejemplo anterior utilizando la prueba de
Scheffé. Para ello, vuelva al cuadro de diálogo del procedimiento al igual que lo hizo en
el apartado anterior. Pulse ahora el botón etiquetado Post hoc y seleccione el el cuadro
de diálogo que aparece la opción Scheffé. El cuadro de diálogo quedará así:

116
Pulse ahora el botón Continuar y luego el botón Aceptar. Obtendrá una tabla de análisis
de varianza idéntica a la obtenida anteriormente, pero con esta información adicional:

Comparaciones múltiples

Variable dependiente: VAR00002


Scheffé
Intervalo de confianza al
95%
Diferencia de Límite
(I) VAR00001 (J) VAR00001 medias (I-J) Error típico Sig. Límite inferior superior
1.00 2.00 2.0000 1.2134 .305 -1.5402 5.5402
3.00 3.7500* 1.2134 .039 .2098 7.2902
2.00 1.00 -2.0000 1.2134 .305 -5.5402 1.5402
3.00 1.7500 1.2134 .392 -1.7902 5.2902
3.00 1.00 -3.7500* 1.2134 .039 -7.2902 -.2098
2.00 -1.7500 1.2134 .392 -5.2902 1.7902
*. La diferencia entre las medias es significativa al nivel .05.

Las primeras columnas indican los grupos i y j a comparar-. La diferencia entre las
medias de dos grupos i y j es significativa si:

1 1
J − I ≥ 1213
. ∗ RANGO∗ +
N (I ) N ( J)

Donde el valor del error típico (1.213) se obtiene hallando la raíz cuadrada del resultado
de dividir la media cuadrática de los errores entre 2. Esto es,

MC error 2.944
1213
. = =
2 2

Por su parte, el valor de RANGO se obtiene hallando el valor de F correspondiente a un


nivel de significación de .05, y con grados de libertad (k-1, N-k), donde k es el número
de grupos, y N es el número de sujetos. Así, el valor de F.05(k-1,N-k) = F.05(2,9) = 4.13.

117
Dado que el tamaño de los tres grupos es el mismo (4 sujetos), podemos calcular el valor
que se toma como referencia para ver la significación de las medias:

2
1213
. * 4.13 * = 354
.
4

Observamos ahora las diferencias entre las medias de los métodos dos a dos. La
diferencia entre las medias de los métodos 1 y 2 es 7.25-5.25 = 2, que es menor que
3.54. La diferencia entre las medias de los métodos 2 y 3 es 5.25-3.5 = 1.75, también
menor que 3.54. Sin embargo, la diferencia entre las medias de los métodos 1 y 3 es
7.25-3.5 = 3.75, que es mayor que 3.54. Por tanto, esta diferencia de medias sí es
significativa. Este es el resultado que se nos ofrece marcado con un asterisco en en la
columna etiquetada Diferencia de medias (I-J). El valor de la significación (.039)se
ofrece en la columna etiquetada Sig. En la última columna de la tabla se muestran los
intervalos confidenciales entre los que se encontrarán, a un nivel de confianza del 95%,
los valores de las diferencias entre las puntuaciones de los grupos i y j en la población.
Vemos que las diferencias entre los grupos 1 y 3 siempre serán del mismo signo
(positivas cuando restamos 1-3, y negativas cuando restamos 3-1). Esto nos permite
concluir que el método de enseñanza 1 produce una rendimiento académico
significativamente superior al método de enseñanza 3. Sin embargo, el método de
enseñanza 1 no produce una ejecución significativamente superior al 2, ni el método de
enseñanza 2 produce una ejecución significativamente superior al 3; en todos estos casos
las diferencias pueden ser tanto positivas como negativas. La última tabla del listado nos
muestra los resultados desde otro punto de vista. En este caso se trata de los dos
subconjuntos homogéneos encontrados, formados por los grupos 1 y 2, en un caso, y por
los grupos 2 y 3, en el otro. Dentro de cada uno de estos subconjuntos no existen
diferencias significativas entre grupos:

VAR00002
a
Scheffé
Subconjunto para alfa
= .05
VAR00001 N 1 2
3.00 4 3.5000
2.00 4 5.2500 5.2500
1.00 4 7.2500
Sig. .392 .305
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 4.000.

8.1.2. Supuestos del análisis de varianza

Para la correcta aplicación del análisis de varianza deben satisfacerse tres supuestos:

1. independencia de las observaciones;

118
2. distribución normal;
3. homogeneidad de las varianzas.

Desafortunadamente, dentro del procedimiento de análisis de varianza sólo nos es


posible comprobar el tercer supuesto (homogeneidad de las varianzas), pero no los
supuestos 1 y 2 (independencia de las observaciones y distribución normal). Para la
comprobación del supuesto de distribución normal, véase la prueba de Kolmogorov-
Smirnov, en el capítulo 10 (apartado 10.1).

Vamos a comprobar el supuesto de homogeneidad de varianzas para el análisis anterior.


Para ello, repita los mismos pasos que en el primer ejercicio y, una vez situado en el
cuadro de diálogo de ANOVA de un factor, pulse el botón Opciones. Aparecerá un
cuadro de diálogo en el que puede seleccionar la prueba de homogeneidad de varianzas.
Una vez seleccionada, el cuadro de diálogo tendrá este aspecto:

Pulse ahora el botón Continuar y, a continuación, el botón Aceptar. Obtendrá un nuevo


listado con la tabla del análisis de varianza que ya conoce, pero con esta nueva tabla:

Prueba de homogeneidad de varianzas

VAR00002
Estadístico
de Levene gl1 gl2 Sig.
.150 2 9 .863

El estadístico utilizado para comprobar la hipótesis de igualdad de varianzas es la prueba


de Levene, que ya tuvo ocasión de ver en el apartado 7.1.1. La interpretación de la
prueba es la misma que entonces; si el nivel de significación es superior a .05,
aceptamos la hipótesis nula que establece la igualdad de varianzas; si es inferior a .05,
las varianzas de los tres grupos no son homogéneas. Dado que, en nuestro caso, el valor
encontrado (.863) es claramente superior a .05, no se rechaza la hipótesis nula y se
afirma que las varianzas son homogéneas en las tres poblaciones.

Otra opción que puede resultar interesante en el análisis de varianza de un factor, y que
no se comenta aquí, es la posibilidad de realizar comparaciones a priori, pulsando el
botón Contrastes. También en este botón se encuentra la opción Polinómico, para el
análisis de tendencias.

119
8.2. Análisis de varianza con dos o más factores

En el análisis de varianza visto hasta ahora se dispone de una variable dependiente


cuantitativa y una variable independiente cualitativa. Sin embargo, existen situaciones
de investigación en que desearíamos conocer el efecto de dos variables independientes
(cualitativas) sobre una misma variable dependiente. Para ello, se podrían realizar dos
análisis de varianza con el procedimiento ONEWAY, uno para la primera variable
independiente y otro para la segunda. Esto que, en principio, es correcto tendría el
inconveniente de que si existe un efecto conjunto, combinado, de ambas variables
independientes sobre la variable dependiente nunca lo detectaríamos.

SPSS también permite el análisis de varianza para el caso de dos o, incluso, más
variables independientes. En el caso más simple en que se dispusiese de dos variables
independientes, el procedimiento ofrece:

1. el estadístico F para la primera variable independiente, con su probabilidad asociada


(o nivel de significación);
2. el estadístico F para la segunda variable independiente, con su probabilidad
asociada;
3. el estadístico F para la interacción de la primera variable independiente y la segunda,
con su probabilidad asociada.

El aspecto realmente novedoso de este tipo de análisis de varianza es el análisis de la


interacción de las dos variables independientes. Recuerde que si la probabilidad asociada
es igual o menor que .05, la interacción es significativa.

Para ilustrar cómo se puede utilizar el análisis de varianza con dos o más factores,
vamos a suponer una situación de investigación muy sencilla. Supongamos que estamos
interesados en averiguar el efecto de dos variables independientes (cualitativas) sobre
una variable dependiente (cuantitativa). Nos interesa conocer el efecto de cada una de
estas variables separadamente y, además, su efecto conjunto, el efecto de la interacción
de ambas. Supongamos, además, que la primera variable independiente tiene 3 valores, y
la segunda 4. Una palabra más apropiada aquí para referirse a los valores de una variable
independiente es niveles. La primera variable independiente tiene, pues, 3 niveles y la
segunda 4. Si combinamos todos los niveles de la primera y la segunda variable
obtendremos las 12 combinaciones siguientes:

120
1ª Variable Independiente 2ª Variable Independiente
1 1
1 2
1 3
1 4
2 1
2 2
2 3
2 4
3 1
3 2
3 3
3 4

En el caso más habitual lo que se hace es asignar aleatoriamente un número de sujetos


igual a cada una de estas combinaciones de las variables independientes, aplicar los
efectos de la combinación de las dos variables independientes y registrar, luego, la
variable dependiente.

Para hacer el ejemplo más comprensible, imagine que la primera variable independiente
es el método de enseñanza (método 1, método 2, y método 3) y la segunda variable
independiente el número de estudiantes por clase (15, 20, 25, y 30). Suponga, además,
que hemos elegido aleatoriamente 4 estudiantes para cada combinación de ambas
variables independientes. Disponemos, pues, de 48 estudiantes. Al finalizar el curso,
registramos la calificación académica de cada uno de ellos. A continuación se ofrece un
posible archivo de datos:

Sujeto Método Nº Califica- Sujeto Método Nº Califica-


estudiantes ción estudiantes ción
01 1 1 8 25 2 3 3
02 1 1 7 26 2 3 2
03 1 1 9 27 2 3 4
04 1 1 8 28 2 3 3
05 1 2 7 29 2 4 6
06 1 2 8 30 2 4 5
07 1 2 9 31 2 4 6
08 1 2 7 32 2 4 7
09 1 3 5 33 3 1 5
10 1 3 6 34 3 1 5
11 1 3 4 35 3 1 6
12 1 3 5 36 3 1 4
13 1 4 9 37 3 2 2
14 1 4 9 38 3 2 3
15 1 4 8 39 3 2 2
16 1 4 8 40 3 2 1
17 2 1 6 41 3 3 2
18 2 1 7 42 3 3 2
19 2 1 7 43 3 3 3
20 2 1 8 44 3 3 1
21 2 2 5 45 3 4 5
22 2 2 6 46 3 4 4
23 2 2 4 47 3 4 6
24 2 2 5 48 3 4 5

En este archivo de datos, la primera columna es el número del sujeto (desde 01 hasta
48), la segunda columna es la primera variable independiente (método de enseñanza,

121
con tres niveles), la tercera columna es la segunda variable independiente (número de
estudiantes por clase, con cuatro niveles), y la cuarta columna es la variable dependiente
(calificación académica de cada estudiante). Observe como cada combinación se repite
cuatro veces. Esto es así porque tenemos cuatro sujetos en cada una de ellas.

Cree ahora el archivo de datos correspondiente en SPSS, con el nombre var2.sav. La


disposición de los datos tendrá este aspecto:

La variable var00001 contiene la información referente al método de enseñanza


(método 1, 2 y 3); la variable var00002 contiene la información sobre el número de
estudiantes por clase (1=15, 2=20, 3=25, 4=30). Finalmente, la variable var00003
contiene las calificaciones académicas de los 48 estudiantes de la muestra. Veamos
ahora cómo ejecutaríamos el análisis de varianza.

En primer lugar, seleccione en el menú principal la opción Analizar. A continuación,


seleccione la opción Modelo lineal general. En el menú que se despliega a la derecha,
seleccione ahora la opción Univariante. En el cuadro de diálogo del procedimiento
introduzca como Dependiente la variable var00003 y como Factores fijos las variables
independientes var00001 y var00002. Una vez hecho esto, el cuadro de diálogo debe
tener un aspecto igual a éste:

122
Pulse ahora el botón Aceptar. El visor de resultados le mostrará la siguiente tabla:

Pruebas de los efectos inter-sujetos

Variable dependiente: VAR00003


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 217.229a 11 19.748 29.934 .000
Intersección 1376.021 1 1376.021 2085.758 .000
VAR00001 116.542 2 58.271 88.326 .000
VAR00002 87.729 3 29.243 44.326 .000
VAR00001 * VAR00002 12.958 6 2.160 3.274 .011
Error 23.750 36 .660
Total 1617.000 48
Total corregida 240.979 47
a. R cuadrado = .901 (R cuadrado corregida = .871)

Como indica el encabezado de la tabla, var00003 es aquí la variable dependiente.

Al igual que vimos en el análisis de regresión, la Variabilidad Total (aquí Total


corregida) de la variable dependiente (var00003) se puede descomponer en dos partes
aditivas:

1. aquella parte que explican las variables independientes (Modelo corrregido);


2. aquella parte que no pueden explicar las variables independientes (Error).

En efecto, se observa en la última fila de la Tabla anterior que la Suma de Cuadrados


Total de la variable dependiente es 240.979. De esta Suma de Cuadrados Total, las

123
variables independientes explican 217.229, y no explican 23.750. Recuerde que antes de
proceder a la comparación de estas dos Sumas de Cuadrados (Explicada y Residual) se
divide cada una de ellas por sus respectivos grados de libertad (gl). El resultado es la
Media Cuadrática. En el caso de la Media Cuadrática Explicada, 19.748 es el cociente
entre 217.229 y 11. Mientras la Media Cuadrática Residual es el cociente entre 23.750 y
36. Recuerde también que F es el cociente entre la Media Cuadrática Explicada y la
Media Cuadrática Residual. Esto es,

19.748
F = ≈ 29.934
.660

En la última columna, se observa que el nivel de significación para F (Sig) es menor que
.001. Por tanto, se rechaza la hipótesis nula y se concluye que el efecto de las variables
independientes es estadísticamente significativo.

La Variabilidad Explicada, cuya Suma de Cuadrados es 217.229, puede, a su vez,


descomponerse en otros dos componentes:

1. aquella parte que se debe a los Efectos Principales;


2. aquella parte que se debe a los efectos de la Interacción.

Los Efectos Principales son aquella parte de la Variabilidad Explicada que se debe a
cada variable independiente, considerada separadamente. La Suma de Cuadrados
Explicada por var00001 es 116.542 y la Suma de Cuadrados Explicada por var00002 es
87.729. Entre las dos variables independientes Explican 204.271. Cada una de estas
Sumas de Cuadrados se divide entre sus respectivos grados de libertad, y se obtiene una
Media Cuadrática. Luego, esta Media Cuadrática se divide siempre entre la Media
Cuadrática Residual (.660). La F resultante es significativa en todos los casos. Esto es,
existe un efecto significativo de var00001 sobre var00003 (F2,36 = 88.326, p< .01), y un
efecto significativo de var00002 sobre var00003 (F3,36 = 44.326, p< .001). Los
subíndices que acompañan a la razón F son los grados de libertad. El primer subíndice
representa los grados de libertad de la Media Cuadrática del numerador, y el segundo
subíndice los grados de libertad de la Media Cuadrática del denominador. Observe que
la Media Cuadrática del denominador siempre es la Residual. Por eso, los grados de
libertad son siempre 36. La p que acompaña a cada F es el nivel de significación.
Cuando el nivel de significación es .000 en el listado, no debe interpretarse como que el
nivel de significación es cero, sino como que el nivel de significación es menor que
.001. Nótese que el valor del nivel de significación tiene un máximo de tres decimales.
Si SPSS ofreciera más decimales, se observaría como el nivel de significación no puede
ser cero.

Habíamos señalado que de la Suma de Cuadrados Explicada (217.229), 204.271 se debe


a los Efectos Principales (116.542 a var00001 y 87.729 a var00002) y el resto (12.958)
a los Efectos de la Interacción de ambas variables independientes (var00001 y
var00002). Se observa en el listado como la información relativa a esta interacción se
denomina VAR00001 * VAR00002. Si en vez de dos variables independientes, hubiera
tres, aparecerían cuatro interacciones. Es decir, se ofrecería la interacción de la primera
variable independiente con la segunda, la interacción de la primera con la tercera, la
interacción de la segunda con la tercera, y la interacción de las tres. SPSS ofrecería 5

124
filas, una para cada una de estas combinaciones y otra para la suma de todas ellas. Como
en el caso de dos variables independientes sólo existe una combinación, la suma
(primera fila) coincide con la única combinación (segunda fila). Se observa que el efecto
de la Interacción es significativo (F6,36 = 3.274, p = .011).

9. Tablas de Contingencia

Imagine que está estudiando el hábito de fumar en una muestra de 30 sujetos. Imagine
también que inicialmente registra para cada sujeto la variable sexo, asignando un 1 a las
mujeres y un 0 a los hombres, y la variable fumar, asignando un 1 a los fumadores y un
0 a los no fumadores. Con estos primeros registros decide crear un archivo de datos en
SPSS. El nombre que le asigna al archivo es conting.sav. Estos son los datos:

Nº Sujeto sexo no fuma/fuma Nº Sujeto sexo no fuma/fuma


01 0 1 16 0 1
02 0 1 17 0 1
03 0 1 18 0 1
04 0 1 19 0 1
05 0 1 20 0 0
06 1 0 21 0 0
07 1 0 22 0 0
08 1 0 23 0 0
09 1 0 24 0 0
10 1 0 25 1 1
11 1 0 26 1 1
12 1 0 27 1 1
13 1 0 28 1 1
14 1 0 29 1 1
15 0 1 30 1 1

En este archivo la primera columna es el número del sujeto, la segunda columna es la


variable sexo y la tercera columna es la variable fumar. A modo de ejemplo, el sujeto 1
es hombre y fumador, y el sujeto 25 es mujer y fumadora.

Imagine que queremos saber cuántos de los 30 sujetos son hombres y cuántos mujeres.
Es decir, imagine que deseamos obtener una distribución de frecuencias para la variable
sexo. Si realizamos este análisis con SPSS obtendremos un listado que nos indica que el
número de mujeres es 15 y el de hombres también 15. De forma similar, podemos
obtener una distribución de frecuencias para la variable fumar. Si realiza este problema
encontrará que el número de fumadores es 16 y el de no fumadores 14.

Es probable que si usted estuviese en esta situación como investigador y hubiera


obtenido la distribución de frecuencias para cada variable separadamente pronto le
entrase la curiosidad por saber cuántas de las 15 mujeres son fumadoras y cuántas no, y
cuántos de los 15 hombres son fumadores y cuántos no. Es decir, es probable que usted
desease obtener una distribución de frecuencias conjunta para las variables sexo y fumar.
A esta distribución de frecuencias conjunta, a veces, se le denomina también Tabla de
contingencia.

125
Para ver cómo puede obtenerse una tabla de contingencia a partir de los datos anteriores,
cree el archivo conting.sav, que contiene la información sobre sexo y hábitos de fumar
de nuestros 30 sujetos. Una vez introducidos los datos, el archivo tendrá este aspecto:

La primera de las variables, var00001, contiene la información referente al sexo del


sujeto (0=hombre, 1=mujer). La segunda variable, var00002, contiene información
sobre los hábitos de fumar de cada sujeto (0=no fumador, 1=fumador). Para facilitar la
lectura de la tabla, sería conveniente introducir ahora etiquetas para ambas variables. La
etiqueta para var00001 sería “sexo”, y la etiqueta para var00002 sería “fumar”.
Asimismo, también sería conveniente introducir etiquetas para los valores de ambas
variables, de modo que, en var00001, las etiquetas “hombre” y “mujer” apareciesen
asociadas, respectivamente, a los valores 0 y 1. Del mismo modo, en var00002, las
etiquetas “no fuma” y “fuma” irían asociadas, respectivamente, a los valores 0 y 1. Si no
recuerda cómo etiquetar variables, consulte el apartado 3.3.

Una vez introducidos los datos y etiquetadas las variables, podemos proceder al análisis.
Para ello, seleccione en el menú principal la opción Analizar y, en el menú que se
despliega, la opción Estadísticos descriptivos. A continuación, en el menú que se
despliega a la derecha, seleccione la opción Tablas de contingencia. En el cuadro de
diálogo correspondiente al procedimiento, seleccione una variable para las Filas; por
ejemplo, var00001. Seleccione otra variable para las Columnas; por ejemplo, var00002.
El cuadro de diálogo quedará así:

126
Si ahora pulsa el botón Aceptar, obtendrá el siguiente listado:

Tabla de contingencia sexo * fumar

Recuento
fumar
no fumador fumador Total
sexo hombre 5 10 15
mujer 9 6 15
Total 14 16 30

La primera variable (var00001) se sitúa en las filas y la segunda (var00002) en las


columnas.. Se observa que la variable de las filas es la variable Sexo, y la variable de las
columnas es la variable Fumar. También se observa que 0 en var00001 es hombre y 1
es mujer. De forma similar, se observa que 0 en var00002 es no fumador y 1 es
fumador.

Si observamos los totales para las filas tenemos la misma información que nos ha
proporcionado la distribución de frecuencias para la variable de las filas (Sexo). Esto es,
se observa que hay 15 hombres y 15 mujeres. De forma similar, si observamos los
totales para las columnas tenemos la misma información que nos ha proporcionado la
distribución de frecuencias para la variable de las columnas (Fumar); esto es, se observa
que hay 14 no fumadores y 16 fumadores. Pero ahora, además, sabemos cuántos de los
15 hombres son no fumadores (5) cuántos son fumadores (10), y cuántas de las 15
mujeres son no fumadoras (9) y cuántas son fumadoras (6). Hay, por tanto, en la muestra
observada más hombres fumadores (10) que mujeres (6).

127
Llegado a este punto, podríamos admitir que esta muestra estuviese extraída
aleatoriamente de una población mayor de observaciones posibles. En dicho caso,
podríamos plantear una hipótesis a nivel de población (hipótesis nula) y utilizar, luego,
la información contenida en la muestra para comprobar dicha hipótesis. Típicamente, la
hipótesis nula que se establece en estas situaciones es la de la inexistencia de relación
alguna entre las variables que forman la Tabla de contingencia. Otra manera de expresar
esto mismo consiste en afirmar que ambas variables son independientes. Si la hipótesis
de independencia fuera cierta la Tabla de contingencia debería tener unas frecuencias
determinadas; éstas serían las frecuencias que se esperarían si no existiera relación
alguna entre sexo y fumar. Estas frecuencias esperadas se obtienen, para cada casilla,
multiplicando el total de la fila por el total de la columna, y dividiendo, luego el
resultado entre el número total de sujetos. En el caso de nuestra tabla, las frecuencias
esperadas serían las siguientes::

1. HOMBRE-NO FUMADOR: (15) (14)/30 = 7,


2. HOMBRE-FUMADOR: (15) (16)/30 = 8,
3. MUJER-NO FUMADORA: (15) (14)/30 = 7,
4. MUJER-FUMADORA: (15) (16)/30 = 8.

Podemos pedir a SPSS que nos proporcione en la tabla de contingencia los valores de
las frecuencias esperadas junto con los de las frecuencias observadas empíricamente.
Para obtener estos valores, siga los mismos pasos que en el apartado anterior y, una vez
situado en el cuadro de diálogo del procedimiento Tablas de contingencia, pulse el
botón etiquetado Casillas. Aparecerá un nuevo cuadro de diálogo donde puede solicitar
tanto las frecuencias empíricas u Observadas, que se proporcionan por defecto, como las
frecuencias teóricas o Esperadas. El cuadro de diálogo también ofrece opciones para ver
porcentajes por filas y columnas, que pueden resultar de interés para comprender mejor
el reparto de las frecuencias, pero no los vamos a tener en cuenta ahora. Si selecciona la
opción de mostrar las frecuencias esperadas, el cuadro de diálogo tendrá este aspecto:

Pulse ahora el botón Continuar, y luego el botón Aceptar. Obtendrá ahora esta nueva
tabla:

128
Tabla de contingencia sexo * fumar

fumar
no fumador fumador Total
sexo hombre Recuento 5 10 15
Frecuencia esperada 7.0 8.0 15.0
mujer Recuento 9 6 15
Frecuencia esperada 7.0 8.0 15.0
Total Recuento 14 16 30
Frecuencia esperada 14.0 16.0 30.0

Observe que en la tabla aparece, en cada celdilla, tanto la frecuencia observada (arriba)
como la frecuencia esperada (abajo). A partir de estas dos frecuencias se lleva a cabo la
comprobación de la hipótesis nula de independencia entre var00001 y var00002. La
lógica que se sigue para comprobar la hipótesis nula es muy sencilla. Si la distancia que
hay entre las frecuencias observadas (O) y las esperadas (E) es pequeña se acepta la
hipótesis nula, mientras que si esta distancia es grande se rechaza. Nótese que aceptar la
hipótesis nula implica aceptar la independencia, y rechazarla implica aceptar la
existencia de una relación fiable entre ambas variables. La distancia o discrepancia que
hay entre una frecuencia observada (O) y una frecuencia esperada (E) se mide de la
siguiente manera:

(O − E ) 2
E

Esta distancia se mide en cada casilla de la Tabla de contingencia. Luego, se suman


todas las distancias y al resultado se le denomina ji-cuadrado. La distribución teórica (o
probabilística) de ji-cuadrado es conocida para un número dado de grados de libertad.
Los grados de libertad aquí son (número de filas - 1) x (número de columnas - 1). Si el
valor de ji-cuadrado obtenido es mayor o igual que el valor probabilístico de ji-
cuadrado, para un nivel de significación de .05, se rechaza la hipótesis nula. En caso
contrario, se acepta.

Con nuestros datos, se obtiene el siguiente valor de ji-cuadrado:

(5 − 7 ) (10 − 8) (9 − 7) (6 − 8)
2 2 2 2
4 4 4 4
ji − cuadrado = + + + = + + + = 2.14286
7 8 7 8 7 8 7 8

Para poder valorar la magnitud de esta distancia (2.14286) tenemos que compararla con
el valor probabilístico de ji-cuadrado para el mismo número de grados de libertad que en
el ejemplo. Aquí el número de grados de libertad es

(filas - 1) x (columnas - 1) = (2-1) (2-1) = 1.

Si consultamos una Tabla de ji-cuadrado en una manual de estadística, para 1 grado de


libertad y un nivel de significación de .05, se podrá observar un valor de 3.84. Lo que
indica la Tabla es que la probabilidad de obtener un valor de ji-cuadrado mayor que 3.84
es .05. Como el valor obtenido de ji-cuadrado (2.14286) es menor que el de la Tabla

129
(3.84), la probabilidad de obtener un valor de ji-cuadrado mayor que 2.14286 será
todavía mayor que .05. Con esta información no debemos rechazar la hipótesis nula. La
distancia entre las frecuencias observadas (O) y las frecuencias esperadas (E) es
demasiado pequeña. Para ser considerada "grande" tendría que superar el valor 3.84.

Nótese que el recurso de la Tablas estadísticas nos ha permitido someter a comprobación


la hipótesis nula de una manera estática, para un nivel de significación dado. Una
manera más precisa de resolver el problema de decisión anterior sería indicando cuál es
la probabilidad de obtener un valor de ji-cuadrado mayor que 2.14286. Si resolviéramos
este problema con SPSS nos indicaría justamente el valor de ji-cuadrado y su
probabilidad asociada.

Habrá observado que en la anterior ejecución de SPSS, para la obtención de la Tabla de


contingencia, no se obtenía ni el valor de ji-cuadrado ni el de su probabilidad asociada.
Si quisiéramos obtener este valor , deberíamos utilizar el botón Estadísticos, que
aparece en el cuadro de diálogo del procedimiento Tablas de contingencia. Si repite el
procedimiento anterior y pulsa luego este botón, encontrará gran cantidad de estadísticos
opcionales para tablas de contingencia. De entre éstos, seleccione Chi-cuadrado. El
cuadro de diálogo tendrá este aspecto:

Pulse el botón Continuar y, a continuación, el botón Aceptar. Obtendrá una Tabla de


contingencia como la que fue ofrecida anteriormente y, además, obtendrá el valor de ji-
cuadrado en la forma siguiente:

130
Pruebas de chi-cuadrado

Sig. asintótica Sig. exacta Sig. exacta


Valor gl (bilateral) (bilateral) (unilateral)
Chi-cuadrado de Pearson 2.143b 1 .143
Corrección por continuidada 1.205 1 .272
Razón de verosimilitud 2.170 1 .141
Estadístico exacto de Fisher .272 .136
Asociación lineal por lineal 2.071 1 .150
N de casos válidos 30
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es
7.00.

La primera línea de la tabla muestra el valor de ji-cuadrado que hemos obtenido nosotros
anteriormente; esto es, 2.143. El número de grados de libertad (gl) es 1, tal como
habíamos señalado, y la probabilidad (Significance) de obtener un valor mayor que
2.143 es .143. Como esta probabilidad sobrepasa el límite de error establecido en
estadística (.05), no se rechaza la hipótesis nula y se concluye que la variable Sexo y la
variable Fumar son independientes. Recuerde que cuando hacíamos uso de las Tablas
estadísticas, ofrecidas en los manuales de estadística, la conclusión a la que llegábamos
era la misma (no rechazo de la hipótesis nula). Allí conocíamos el valor mínimo de ji-
cuadrado necesario para rechazar la hipótesis nula (3.84). Como no se alcanzaba este
valor, no se rechazaba. SPSS no proporciona el valor de ji-cuadrado necesario para
rechazar la hipótesis nula, sino la probabilidad exacta de equivocarnos rechazando la
hipótesis nula (.143). Como esta probabilidad sobrepasa el máximo error admisible
estadísticamente (.05), se llega a la misma conclusión: no se rechaza la hipótesis nula.

En la segunda línea de la tabla anterior, aparece un nuevo valor de ji-cuadrado


(1.20536), precedido de la leyenda Corrección por continuidad. Este valor de ji-
cuadrado es el que se obtiene una vez realizada la Corrección de Yates. Esta corrección
se aplica en los siguientes casos:

1. Cuando alguna de las frecuencias observadas (O) es menor que 5. En este ejemplo,
ninguna de las frecuencias observadas (O) es menor que 5. Por tanto, por esta razón
no se aplica la Corrección de Yates.
2. Cuando la Tabla de contingencia es 2 x 2, es decir, tiene 2 filas y 2 columnas. La
distancia ji-cuadrado se puede calcular para un número de filas (o columnas) mayor
que 2. El caso de 2 filas y 2 columnas es, por tanto, el más elemental posible. Pues
bien, en este caso, es cuando se puede “corregir” la distancia calculada mediante el
procedimiento sugerido por Yates, que consiste en restarle 0.5 a la diferencia entre O
y E, cuando esta diferencia sea positiva, y sumarle 0.5 cuando esta diferencia sea
negativa.

Si aplicamos la Corrección de Yates, en este ejemplo, obtendremos el siguiente valor de


ji-cuadrado.

131
(5 − 7 + 0.5) 2 (10 − 8 − 0.5) 2 ( 9 − 7 − 0.50) 2 ( 6 − 8 + 0.5) 2
ji − cuadrado = + + + =
7 8 7 8
( − 15
.)
2
(15
.)
2
(15
.)
2
( − 15
.)
2

= + + + = 1205
.
7 8 7 8

Justamente este es el valor de ji-cuadrado que proporciona SPSS en esta segunda línea.
Los grados de libertad se obtienen de la misma forma, por lo que su valor es igual a 1.
Como el valor obtenido de ji-cuadrado es ahora menor que antes, la probabilidad
asociada es mayor (.272). Si la probabilidad anterior era mayor que .05, esta lo es aún
más, por lo que la conclusión es la misma: aceptación de la hipótesis nula. Esto implica
la aceptación de la independencia entre ambas variables.

El listado proporciona también otros tres estadísticos basados en ji-cuadrado: la razón de


verosimilitud, el estadístico exacto de Fisher y el estadístico de asociación lineal de
Mantel-Haenszel. El primero de ellos está relacionado con la teoría de la máxima
verosimilitud y no será comentado aquí. El estadístico exacto de Fisher es de
aplicación recomendable en el caso de tablas de 2x2 con un tamaño de muestra
inferior a 20. En cuanto a la prueba Mantel-Haenszel, se utiliza en el caso de datos
ordinales y, por tanto, no es aplicable a la tabla de contingencia de nuestro ejemplo.

10. Introducción al Análisis Estadístico No-Paramétrico

La estadística no paramétrica es una rama moderna de la estadística que se ha


desarrollado para satisfacer alguno de los dos fines que se señalan a continuación:

1. Comprobar si la forma de la distribución de los datos se ajusta a una distribución de


probabilidad dada (p.e. distribución normal). Cuando se utiliza con este propósito un
procedimiento estadístico no paramétrico, se le suele denominar prueba de bondad
de ajuste.
2. Comparar dos o más grupos, sin necesidad de establecer supuestos tan fuertes como
los asumidos con el análisis de varianza (p.e. homogeneidad de varianzas) o con el
estadístico t (p.e. distribución normal). Estos supuestos son especialmente difíciles
de sostener en aquellos casos en que la variable dependiente está medida a nivel
ordinal, en la escala de Stevens.

SPSS ofrece múltiples procedimientos estadísticos no paramétricos. Aquí haremos


referencia únicamente a 5 de estos procedimientos. El primero de ellos (prueba de
Kolmogorov-Smirnov) puede utilizarse como prueba de bondad de ajuste. El segundo
(prueba U de Mann-Whitney) puede utilizarse para comparar la ejecución en dos
muestras independientes, al igual que el estadístico t, pero asumiendo supuestos mucho
más débiles. El tercero (prueba de T Wilcoxon) puede utilizarse con dos muestras
relacionadas, al igual que el estadístico t para muestras relacionadas, pero sin asumir el
supuesto de distribución normal de las diferencias. El cuarto (prueba de Kruskal-Wallis)
puede utilizarse en lugar del análisis de varianza de un factor, evitando sus supuestos. Y
el quinto (prueba de Friedman) es un procedimiento no paramétrico para dos o más
muestras relacionadas.

132
10.1. Prueba de bondad de ajuste de Kolmogorov-Smirnov

Tal como está implementada en SPSS, la prueba de bondad de ajuste de Kolmogorov-


Smirnov se puede utilizar para comprobar si una distribución de frecuencias se ajusta a
alguna de las tres siguientes distribuciones de probabilidad:

1. distribución normal;
2. distribución de Poisson;
3. distribución uniforme.

Por supuesto que de estas tres distribuciones, la que tiene mayor interés en análisis
estadístico es la normal. A continuación veremos cómo utilizar la prueba de
Kolmogorov-Smirnov para comprobar si la distribución de frecuencias de la variable
item12 del estudio sociolingüístico se ajusta a una distribución normal. Como en todos
los procedimientos estadísticos, seleccione primero la opción Analizar en el menú
principal. A continuación, seleccione la opción Pruebas no paramétricas. Finalmente,
en el menú que se despliega a la derecha, seleccione la opción K-S de 1 muestra.
Aparecerá el siguiente cuadro de diálogo:

Lo único que debe seleccionar en este cuadro de diálogo es la variable a la que se va a


aplicar la prueba de Kolmogorov-Smirnov; seleccione item12. Fíjese en que la
distribución normal es, por defecto, la distribución teórica de comparación utilizada por
la prueba, por lo que no será necesario hacer ninguna modificación. En cuanto al botón
Opciones, nos permite solicitar, adicionalmente a la prueba de contraste, estadísticos
descriptivos y/o cuartiles de la(s) variable(s) seleccionada(s) que, aunque útiles, no
seleccionaremos aquí. Para efectuar el análisis, simplemente pulse el botón Aceptar.
Obtendrá un listado como el siguiente:

133
Prueba de Kolmogorov-Smirnov para una muestra

el gallego
debe ser
la lengua
habitual de
Galicia
N 20
Parámetros normales a,b Media 3.25
Desviación típica
.91

Diferencias más Absoluta .295


extremas Positiva .205
Negativa -.295
Z de Kolmogorov-Smirnov 1.319
Sig. asintót. (bilateral) .062
a. La distribución de contraste es la Normal.
b. Se han calculado a partir de los datos.

En la columna de la derecha de la tabla vemos el valor de la media y la desviación típica


de item12, y el número de casos o sujetos (N). La información más útil se ofrece en las
dos últimas líneas de esta columna. Allí se observa un valor denominado Z de
Kolmogorov-Smirnov (1.319), y su probabilidad asociada (.062). Esta es la información
a valorar para la toma de decisión con respecto a la hipótesis nula. La hipótesis nula aquí
afirma que la distribución es normal. Como la probabilidad asociada sobrepasa el nivel
de significación máximo admisible (.05) no se rechaza la hipótesis nula y se afirma que
la distribución de item12 es normal.

El procedimiento de Kolmogorov-Smirnov compara la distribución de frecuencias


acumuladas de item12 con la distribución de probabilidades acumuladas (mejor
denominada función de distribución) de una variable aleatoria con función de densidad
normal N(3.25, .912). La distancia mayor que encuentra (en términos absolutos) es .295.
Si se multiplica esta distancia por la raíz cuadrada del número de casos (20), se obtiene
el valor de K-S Z (1.319). Esto es,

Z de Kolmogorov-Smirnov = 1.319 = 0.295 x 20 4 .

En realidad, existen Tablas estadísticas que nos indican que para poder rechazar la
hipótesis nula, la distancia máxima obtenida tendría que ser igual o mayor que
1.36/ 20 5 = 0.304. Como 0.295 es menor que 0.304 no rechazamos la hipótesis nula y
afirmamos que la distribución empírica de item12 se ajusta a una distribución normal
con media igual a 3.25 y varianza igual a 0.912.

10.2. Prueba U de Mann-Whitney para dos muestras independientes

La prueba U de Mann-Whitney se puede utilizar, al igual que la prueba t de Student en


su formulación más conocida, cuando se dispone de dos muestras independientes. En
contextos no experimentales, dos muestras se suelen considerar independientes por el

134
simple hecho de que los sujetos de una y otra muestra se diferencien en alguna
propiedad. Por ejemplo, si una muestra está compuesta por hombres y otra por mujeres
ambas muestras se consideran independientes. De forma similar, serían independientes
una muestra formada por jóvenes y otra formada por adultos. En contextos
experimentales, la independencia de las muestras se garantiza asignando aleatoriamente
los sujetos a las distintas condiciones experimentales. Por ejemplo, si disponemos de 40
sujetos y queremos crear dos muestras (o grupos) experimentales independientes A y B
lo mejor que podemos hacer es asignar aleatoriamente 20 sujetos al grupo experimental
A y 20 sujetos al grupo experimental B.

La prueba U de Mann-Whitney, como alternativa a la prueba t de Student, puede ser


muy útil en los siguientes casos:

1. cuando se violen los supuestos de distribución normal o de homogeneidad de


varianzas o de ambos;
2. cuando el nivel en que fue medida la variable dependiente es ordinal, en lugar de
intervalos o razón.

Imagine que queremos comparar la calidad académica de dos colegios A y B, registrando


el lugar que han ocupado sus estudiantes en el examen de selectividad para acceso a la
Universidad. Para ello, tomamos una muestra aleatoria de 10 estudiantes en cada colegio
y registramos el orden en que han quedado situados en el examen de selectividad. Con
fines de codificación, vamos a asignar un 1 a los alumnos del colegio A, y un 2 a los
alumnos del colegio B. Con los datos sobre colegio y orden en la selectividad para cada
uno de los 20 estudiantes, obtendríamos una tabla como la siguiente:

Colegio Orden Colegio Orden


1 30 2 161
1 72 2 204
1 109 2 403
1 145 2 559
1 158 2 670
1 176 2 720
1 224 2 747
1 230 2 912
1 490 2 950
1 656 2 991

La hipótesis nula que se somete a comprobación afirma que la distribución de la


población de donde fue extraída la muestra de observaciones A es idéntica a la
distribución de donde fue extraída la muestra de observaciones B. Es decir, que ambas
muestras fueron extraídas de la misma población. Para satisfacer este objetivo, se podría
utilizar la prueba U de Mann-Whitney. Para ello, y en primer lugar, deberíamos crear el
archivo de datos, al que llamaremos nopar.sav. El archivo de datos tendría este aspecto:

135
La variable var00001 contiene la información acerca del colegio al que pertenece cada
alumno (1=Colegio A; 2=Colegio B). Por su parte, la variable var00002 se refiere al
orden obtenido en la prueba de selectividad por cada estudiante. Para aplicar la prueba U
a estos datos, seleccione la opción Analizar del menú principal; a continuación, la
opción Pruebas no paramétricas; finalmente, en el menú que se despliega a la derecha,
seleccione la opción 2 muestras independientes. Aparecerá el cuadro de diálogo para
pruebas con dos muestras independientes. Observe que la prueba seleccionada por
defecto es la U de Mann-Whitney, por lo que no es necesario modificar esta selección.
Únicamente es preciso indicar cuál es la variable dependiente (Contrastar) y cuál es la
variable independiente o Variable de agrupación. Seleccione var00002 como variable
dependiente, y var00001 como variable independiente. El cuadro de diálogo quedará
así:

Antes de efectuar el análisis, es necesario especificar, al igual que ocurría con la prueba t
para muestras independientes, cuáles son los dos valores que identifican a los dos grupos
representados en var00001. Para especificar estos valores, pulse el botón Definir
grupos, e indique ambos valores (1 y 2). A continuación pulse el botón Aceptar. El visor
de resultados le proporcionará dos tablas. Ésta es la primera de ellas:

Rangos

Rango Suma de
VAR00001 N promedio rangos
VAR00002 1.00 10 6.70 67.00
2.00 10 14.30 143.00
Total 20

La primera tabla ofrece el rango promedio y la suma de rangos para cada uno de los
grupos. Se observa que cuando var00001=1, es decir, cuando se trata del Colegio A, el
rango medio es 6.70, y el número de casos (N) es 10. De igual forma, se observa que
cuando var00001=2, es decir, cuando se trata del Colegio B, el rango medio es 14.30, y
el número de casos también es 10. Para obtener estos rangos medios, primero, se han

136
mezclado los 20 sujetos y, luego, se ha asignado el rango 1 al sujeto mejor situado, el 2
al segundo mejor situado y así hasta el sujeto peor situado, al que se ha asignado el
rango 20. Para comprender este proceso, se ofrecen a continuación los lugares ocupados
por cada uno de los 20 sujetos en el examen de selectividad, el rango que les
corresponde, y el colegio al que pertenecen (A ó B):

Rango
Lugar selectividad Colegio A Colegio B
30 01
72 02
109 03
145 04
158 05
161 06
176 07
204 08
224 09
230 10
403 11
490 12
559 13
656 14
670 15
720 16
747 17
912 18
950 19
991 20
67 143

Ahora se observa fácilmente como la media de los rangos del Colegio A es 67/10 = 6.70,
y la media de los rangos del Colegio B es 143/10 = 14.30.

Veamos ahora la segunda tabla que nos muestra el visor de resultados para la prueba U
de Mann-Whitney:

Estadísticos de contrasteb

VAR00002
U de Mann-Whitney 12.000
W de Wilcoxon 67.000
Z -2.873
Sig. asintót. (bilateral) .004
Sig. exacta [2*(Sig. a
.003
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: VAR00001

U es el número de veces que los estudiantes del colegio B preceden a los estudiantes del
colegio A. Observe en el listado que U es 12. Para comprender de dónde se obtiene este
valor, fíjese en los siguientes aspectos:

137
1. El estudiante que ocupa el rango 07 es del Colegio A. A este estudiante solamente le
precede 1 estudiante del Colegio B. Anotemos un 1.
2. El estudiante que ocupa el rango 09 es del Colegio A. A este estudiante le preceden 2
estudiantes del Colegio B. Anotemos un 2.
3. El estudiante que ocupa el rango 10 es del Colegio A. A este estudiante le preceden 2
estudiantes del Colegio B. Anotemos un 2.
4. El estudiante que ocupa el rango 12 es del Colegio A. A este estudiante le preceden 3
estudiantes del Colegio B. Anotemos un 3.
5. El estudiante que ocupa el rango 14 es del Colegio A. A este estudiante le preceden 4
estudiantes del Colegio B. Anotemos un 4.

Si ahora sumamos todos los números anotados, tenemos:

1 + 2 + 2 + 3 + 4 = 12 (es decir, U).

W es la suma de los rangos de los estudiantes del Colegio A.

Finalmente,

U - n1 n2
Z = 2
( n1 )( n2 )( n1 + n2 + 1)
12

donde n1 y n2 son los tamaños del grupo A y B, respectivamente.

Por tanto,

10 x 10
12 - - 38
2
Z = = = - 2.873
(10)(10)(10 + 10 + 1) 175
12

La probabilidad asociada (o nivel de significación) para Z = -2.873 es .003. Esta


probabilidad aparece etiquetada en la tabla como Significación exacta. Como esta
probabilidad es menor que .05, rechazamos la hipótesis nula que establecía la igualdad
de las dos distribuciones y afirmamos su desigualdad.

En la penúltima fila de la Tabla se ofrece la significación asintótica (.004), que se utiliza


en caso de que haya empates en los rangos. En este ejemplo, no procede la consulta de
esta probabilidad porque no hay empates en los rangos.

10.3. Prueba T de Wilcoxon para dos muestras relacionadas

Recuerde que existe una versión de la prueba t de Student para comparar dos muestras
independientes y otra versión para comparar dos muestras relacionadas (ver Apartado
7.2).

138
En el epígrafe anterior se ofreció la prueba U de Mann-Whitney que podría utilizarse
como alternativa a la prueba t de Student para dos muestras independientes. Ahora se
ofrece aquí la prueba T de Wilcoxon que puede utilizarse como alternativa a la prueba t
de Student para dos muestras relacionadas.

La definición de muestras independientes se ofreció en el Apartado 7.1 y, nuevamente,


en el epígrafe anterior. Falta, ahora, recordar lo que se entiende por muestras
relacionadas. Dos muestras se consideran relacionadas si ambas están compuestas por
sujetos que comparten ciertas propiedades de interés científico. En el caso más
conocido, las muestras relacionadas se forman con gemelos, siguiendo el siguiente
procedimiento. Primero se seleccionan cuidadosamente diversos pares de gemelos
(pongamos 10 pares). Luego, se asigna un miembro de cada par de gemelos a un grupo
(A) y el otro miembro a otro grupo (B). A continuación, se aplica un tratamiento a un
grupo (por ejemplo: A) mientras se mantiene constante el otro (B). Finalizado el
tratamiento, se mide alguna propiedad (variable dependiente) en ambos grupos. Esta
propiedad, que era igual en ambos grupos antes del tratamiento, puede ser ahora
desigual. Si efectivamente lo es, se concluye que la desigualdad es debida al efecto del
tratamiento.

En algunas investigaciones de carácter social se han utilizado matrimonios para formar


grupos relacionados, en lugar de gemelos. Es evidente que el objetivo importante aquí es
conseguir dos grupos socialmente, en lugar de biológicamente, homogéneos.

Una estrategia también común para formar grupos relacionados consiste en medir alguna
propiedad (variable dependiente o variable estrechamente relacionada) en una muestra
amplia de sujetos. Luego, se forman pares de sujetos con puntuaciones iguales (o casi
iguales) en la propiedad medida. Los sujetos que no se consigan igualar se excluyen.
Llegado a este punto, se forman dos grupos siguiendo el mismo procedimiento señalado
para los gemelos o para los matrimonios.

Finalmente, en algunas disciplinas, especialmente en Psicología, se forman dos grupos


relacionados utilizando cada sujeto como par de sí mismo. Para entender este
procedimiento, imagine que disponemos de un grupo de 10 sujetos. Medimos en cada
sujeto alguna propiedad (variable dependiente). Luego, aplicamos un tratamiento y, a
continuación, volvemos a registrar la misma variable en los mismos 10 sujetos. En el
análisis estadístico cada sujeto actúa como par de sí mismo. A este procedimiento
también se le conoce con el nombre de "medidas repetidas", precisamente porque la
segunda medida es una repetición de la primera, desde el punto de vista del sujeto.

La prueba T de Wilcoxon podría utilizarse en cualquiera de estas situaciones para


comprobar la hipótesis nula de que las dos poblaciones, de donde son extraídas ambas
muestras, son idénticas. Para comprender el procedimiento propuesto por Wilcoxon,
imagine que es usted un preparador físico y que tiene a su cargo 7 atletas. Cuando usted
se hace cargo del trabajo, la clasificación nacional de estos 7 atletas es la siguiente:

139
Atleta Clasificación
1 8
2 16
3 20
4 24
5 25
6 30
7 32

Aceptemos ahora que después de una año de trabajo la clasificación de los 7 atletas es la
siguiente:

Atleta Clasificación
1 4
2 20
3 7
4 12
5 14
6 9
7 34

Nuestro interés ahora es comparar la clasificación de los atletas antes de hacerse usted
cargo del trabajo con la clasificación de los atletas después de un año de trabajo.
Observe que los sujetos son los mismos. Tenemos dos medidas (repetidas) para cada
sujeto. Por tanto, las muestras (clasificación antes, clasificación después) son
relacionadas. Observe también que la medida es ordinal (clasificaciones). La prueba t de
Student, para muestras relacionadas, sería apropiada para realizar la comparación entre
las dos muestras, de no ser por el nivel de medida tan bajo, en la escala de Stevens. Este
hecho nos lleva a utilizar una prueba no paramétrica. Por las características señaladas, la
prueba no paramétrica específica es la T de Wilcoxon.

La lógica seguida por Wilcoxon para realizar la comparación es muy sencilla. Primero
se comparan las clasificaciones de cada atleta antes y después, hallando la diferencia
entre ambas. Si la clasificación, para un atleta, es la misma antes que después, la
diferencia será cero. Si la clasificación es mejor después que antes, la diferencia será
negativa, mientras que si es peor será positiva. Cuando se tienen calculadas estas
diferencias, se ordenan asignándole el número 1 a la diferencia más pequeña, el 2 a la
siguiente más pequeña y así sucesivamente. Para hacer esta asignación se imponen dos
restricciones:

1. las diferencias iguales a cero se excluyen, y


2. las diferencias distintas de cero (positivas o negativas) se consideran todas como
positivas.

Típicamente, a los órdenes que se han asignado a estas diferencias se les denomina
rangos. Llegados a este punto, se clasifican los rangos en dos categorías: (1) los rangos
correspondientes a aquellas diferencias que, en principio, eran positivas, y (2) los rangos
correspondientes a aquellas diferencias que, en principio, eran negativas. Luego, se
suman los rangos en cada una de estas categorías y se elige aquella suma que sea menor.
Esta suma menor es el estadístico T de Wilcoxon.

140
Si es cierta la hipótesis nula, que establece la igualdad entre las poblaciones, la suma de
los rangos en ambas categorías debería ser igual. Formalmente, podríamos escribir

T1 = T2 = T

donde T1 es la suma de los rangos correspondientes a aquellas diferencias que, en


principio, eran positivas, y T2 es la suma de los rangos correspondientes a aquellas
diferencias que, en principio, eran negativas.

Una manera operativa de definir el valor de T, bajo hipótesis nula, en un problema


determinado es la siguiente:

N(N + 1)
T =
4

donde N es el número de pares de observaciones.

Para no confundir este valor teórico de T, que se produciría bajo la hipótesis nula de
igualdad de poblaciones, con el valor obtenido de T, se suele representar el valor de T
bajo hipótesis nula por T . Por tanto, podemos re-escribir

N(N + 1)
T =
4

Observe que si la distancia entre el valor obtenido de T y el valor T , bajo hipótesis nula,
es pequeña la evidencia en favor de la existencia de diferencias entre ambas poblaciones
es también pequeña, mientras que si la distancia es grande la evidencia en favor de la
existencia de diferencias será mayor.

A continuación se ofrecen los cálculos necesarios para la toma de decisiones en cuanto a


si existen diferencias en las clasificaciones obtenidas por los 7 atletas antes y después de
su trabajo como preparador físico:

Clasificación Clasificación Diferencia


antes después después-antes Rangos (-) Rangos (+)
8 4 -4 2.5
16 20 4 2.5
20 7 -13 6
24 12 -12 5
25 14 -11 4
30 9 -21 7
32 34 2 1
24.5 3.5

Se observa que el valor de T obtenido es 3.5. Recuerde que T es la suma de rangos


menor (categoría con diferencias que, en principio, eran positivas).

Bajo hipótesis nula T 6 sería igual a:

141
N(N + 1) 7(7 + 1)
T = = = 14
4 4

Dado que no hay ninguna diferencia entre rangos nula (igual a cero), también se cumple
que:

Suma de rangos positivos + Suma de rangos negativos 24.5+3.5


T = = = 14
2 2

Ahora sólo falta valorar si lo que se aparta 3.5 de 14 (esto es, 10.5 unidades) es lo
suficientemente importante como para poder rechazar la hipótesis nula de igualdad de
poblaciones. Nótese que la distancia que hay entre 3.5 y 14 es, en términos absolutos, la
misma que la que hay entre 24.5 y 14 (también 10.5). Es decir, que si en vez de coger la
suma de rangos menor (3.5), hubiéramos tomado la mayor (24.5), las conclusiones
debieran ser las mismas. Como siempre, para poder resolver esta cuestión se necesita
conocer la distribución de probabilidad del estadístico T, aspecto que fue investigado por
Wilcoxon. Conocida esta distribución, es posible calcular la probabilidad de obtener una
diferencia mayor que la obtenida. Si esta probabilidad (nivel de significación) es igual o
menor que .05 se rechaza la hipótesis nula. A continuación vamos a obtener la T de
Wilcoxon para los datos de los 7 atletas utilizando SPSS. En primer lugar, creamos el
archivo de datos, al que llamaremos nopar2.sav:

Para utilizar la prueba de Wilcoxon con estos datos, siga los mismos pasos que en los
procedimientos no-paramétricos anteriores: Seleccione la opción Analizar en el menú
principal; a continuación, seleccione la opción Pruebas no paramétricas. En el menú

142
que se despliega a la derecha, seleccione ahora la opción específica para este tipo de
datos: 2 muestras relacionadas. Aparecerá un cuadro de diálogo donde tiene que indicar
el/los par(es) de variables, a semejanza de lo que ocurría en el caso de la prueba t para
muestras relacionadas; en nuestro caso, seleccione el par de variables formado por
var00001 y var00002. La prueba de Wilcoxon es la que está seleccionada por defecto,
así que no es necesario hacer más modificaciones.. El cuadro de diálogo tendrá, pues,
este aspecto:

Pulse ahora el botón Aceptar. El visor de resultados le proporcionará dos tablas. Ésta es
la primera de ellas:

Rangos

Rango Suma de
N promedio rangos
VAR00002 - VAR00001 Rangos negativos 5a 4.90 24.50
Rangos positivos 2b 1.75 3.50
Empates 0c
Total 7
a. VAR00002 < VAR00001
b. VAR00002 > VAR00001
c. VAR00001 = VAR00002

Esta primera tabla se refiere a los resultados de las comparaciones entre las dos variables
de interés, var00001 y var00002. Recuerde que var00001 es la clasificación de los
atletas antes y var00002 la clasificación después; es decir, recuerde que tenemos dos
medidas (repetidas) de la misma variable. En las filas siguientes se ofrece el rango
medio de aquellos casos con rangos negativos (-). Los rangos negativos se producen
cuando var00002 (clasificación después) es menor que (<) var00001 (clasificación
antes). Tal como habíamos obtenido cuando realizamos el problema manualmente, en
esta situación se encuentran 5 atletas. El rango medio de estos atletas es 4.9. Este
número se obtiene realizando el siguiente cálculo:

143
Suma de rangos negativos 24.5
= = 4.9
Numero de rangos negativos 5

De forma similar, en el listado SPSS indica que el número de rangos positivos es 2. Los
rangos son positivos cuando var00002 es mayor que (>) var00001. La media de estos
dos rangos es 1.75. Este resultado se obtiene realizando el siguiente cálculo:

Suma de rangos positivos 3.5


= = 1.75
Nœmero de rangos positivos 2

La segunda de las tablas que nos ofrece el visor de resultados tiene este aspecto:

Estadísticos de contrasteb

VAR00002 -
VAR00001
Z -1.778a
Sig. asintót. (bilateral) .075
a. Basado en los rangos positivos.
b. Prueba de los rangos con signo de Wilcoxon

En esta tabla se ofrece el valor de un estadístico Z (-1.778) y su nivel de significación


(Sig. asintótica (bilateral) P = .075). Como el nivel de significación es superior a .05 no
se rechaza la hipótesis nula y se afirma que no existen diferencias significativas (fiables)
entre la clasificación de los atletas antes y después. Recuerde que lo que indica el nivel
de significación es que la probabilidad de obtener una diferencia mayor (en términos
absolutos) a la obtenida es .075. Esta probabilidad se considera demasiado grande.

El valor de Z se obtiene de la siguiente manera:

T -T
Z =
S

donde

(2N + 1) T
S =
6

Con estos datos,

T -T 3.5 - 14
Z = = = - 1.77
(2N + 1) T (2 x 7 + 1) (14)
6 6

144
10.4. Prueba de Kruskal-Wallis para k muestras independientes

La prueba de Kruskal-Wallis para k muestras independientes constituye una alternativa


estadística al análisis de varianza de un factor. Su uso es aconsejable cuando se viole
alguno de los supuestos del análisis de varianza (p.e. homogeneidad de varianzas,
distribución normal) o cuando la escala de medida de la variable dependiente sea
ordinal, en la escala de Stevens.

La definición de muestras independientes fue ofrecida en el Apartado 10.2 de este


mismo capítulo, dedicado a la prueba U de Mann-Whitney, y anteriormente en el
Apartado 7.1, dedicado a la prueba t de Student para muestras independientes.

La lógica de la prueba de Kruskal-Wallis es similar a la utilizada en la prueba U de


Mann-Whitney. La diferencia sustancial está en que la prueba de Kruskal-Wallis permite
la existencia de más de dos muestras independientes (p.e. 3, 4, etc.), mientras que la
prueba U de Mann-Whitney se limita al caso de dos muestras independientes. Si está
usted en un nivel inicial en estadística, nuestra recomendación es que antes de leer el
resto de este epígrafe lea el epígrafe 10.2 dedicado a la prueba U de Mann-Whitney.

Para resaltar la semejanza existente entre la prueba U de Mann-Whitney y la prueba de


Kruskal-Wallis vamos a utilizar el mismo ejemplo que hemos utilizado en la prueba U
de Mann-Whitney, con la simple añadidura de una muestra más. Recuerde que en aquel
ejemplo se deseaba comparar la calidad académica de dos colegios (A y B), registrando
el lugar que habían ocupado sus estudiantes en el examen de selectividad para acceso a
la Universidad. Para ello, se había tomado una muestra aleatoria de 10 sujetos en cada
colegio. Supongamos ahora que existía un tercer colegio (C) y que también aquí se ha
tomado una muestra aleatoria de 10 sujetos y registrado el orden en que han quedado
situados en el mismo examen de selectividad. Para facilitar la codificación, asignaremos
un 1 a los estudiantes del colegio A, un 2 a los estudiantes del colegio B, y un 3 a los
estudiantes del colegio C. A continuación se ofrecen los órdenes hipotéticos de los
estudiantes en los tres colegios:

145
Colegio Orden Colegio Orden Colegio Orden
1 30 2 161 3 610
1 72 2 204 3 840
1 109 2 403 3 995
1 145 2 559 3 759
1 158 2 670 3 908
1 176 2 720 3 745
1 224 2 747 3 1266
1 230 2 912 3 850
1 490 2 950 3 1115
1 656 2 991 3 875

Para realizar la comparación entre los órdenes obtenidos por los estudiantes de los tres
colegios, vamos a crear un nuevo archivo de datos, al que llamaremos nopar3.sav. El
archivo de datos, con el nuevo grupo de estudiantes añadido al final, tendría este
aspecto:

La variable var00001 contiene información acerca del colegio al que pertenece cada
sujeto (1=Colegio A; 2=Colegio B; 3=Colegio C). La variable var00002 contiene los
órdenes obtenidos por cada estudiante en la prueba de selectividad. Recuerde que, como
las muestras son independientes, cada grupo ocupa una fila distinta.

Veamos ahora cómo utilizaríamos la prueba de Kruskal-Wallis con los datos del archivo
nopar3.sav. Seleccione, en el menú principal, la opción Analizar. A continuación,
seleccione la opción Pruebas no paramétricas. Finalmente, en el menú que se despliega
a la derecha, seleccione la opción K muestras independientes. Aparecerá el cuadro de
diálogo correspondiente, donde tiene que indicar la(s) variable(s) dependiente(s)

146
(Contrastar variables) y la Variable de agrupación. Seleccione var00002 como variable
dependiente, y var00001 como variable independiente. Como prueba de contraste para k
muestras independientes ya está seleccionada la prueba de Kruskal-Wallis, por lo que no
es necesario hacer ningún cambio aquí. El cuadro de diálogo tendrá este aspecto:

Antes de efectuar el análisis, únicamente es necesario especificar el rango de


puntuaciones para var00001. Recuerde que este rango está entre 1 y 3. Pulse el botón
Definir rango e introduzca ambos valores en el cuadro de diálogo correspondiente. A
continuación, pulse el botón Continuar y luego el botón Aceptar. Al igual que en
análisis anteriores, el visor de resultados le ofrecerá dos tablas. Ésta es la primera de
ellas:

Rangos

Rango
VAR00001 N promedio
VAR00002 1.00 10 6.80
2.00 10 16.80
3.00 10 22.90
Total 30

La tabla le muestra los rangos promedio obtenidos por los sujetos de cada uno de los 3
grupos. Para comprender el modo de cálculo de estos rangos promedio, se ofrece a
continuación el procedimiento que sigue SPSS.

En primer lugar, se consideran los sujetos de las tres muestras (aquí colegios) en
conjunto, y se ordenan asignándole al que obtuvo el registro numérico más pequeño el
número 1, al que obtuvo el siguiente más pequeño el número 2, y así sucesivamente. En
el ejemplo, el sujeto que obtuvo el registro más bajo fue el estudiante 1 del Colegio A.
En consecuencia, se le asigna el número 1. El siguiente sujeto es el estudiante número 2
de este mismo colegio. Se le asigna el número 2. Se continúa así hasta completar todos
los sujetos. A este número así asignado a cada sujeto se le denomina específicamente
"rango". A continuación se ofrece la asignación completa de rangos y el colegio al que
pertenece cada estudiante.

147
Rango
Lugar selectividad Colegio A Colegio B Colegio C
30 01
72 02
109 03
145 04
158 05
161 06
176 07
204 08
224 09
230 10
403 11
490 12
559 13
610 14
656 15
670 16
720 17
745 18
747 19
759 20
840 21
850 22
875 23
908 24
912 25
950 26
991 27
995 28
1115 29
1266 30
68 168 229

Si se suman los rangos correspondientes a los estudiantes del Colegio A, se obtiene que
esta suma es 68. Si dividimos 68 entre 10 estudiantes que hay en el Colegio A, el rango
medio es 6.80. Este mismo cálculo realizado para el Colegio B produciría un rango
medio de 16.80, y para el Colegio C de 22.90. Precisamente esta es la información que
se ofrece en la columna etiquetada Rango promedio. También se especifica el número
de sujetos (N) correspondiente a cada nivel de la variable independiente var00001 (1, 2,
y 3). Ya es sabido que estos valores se corresponden con los colegios A, B y C. Veamos
ahora la segunda tabla de resultados:

Estadísticos de contrastea,b

VAR00002
Chi-cuadrado 17.050
gl 2
Sig. asintót. .000
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: VAR00001

148
La hipótesis nula establece que las distribuciones de las tres poblaciones, de donde son
extraídas las tres muestras, son idénticas. Kruskal y Wallis utilizan la información
contenida en las tres muestras para comprobar (es decir, rechazar o no) dicha hipótesis.

El proceso que siguen incluye el cálculo de un estadístico denominado H, que se define


como sigue:

12  k Ri 2 
H = ∑
N(N + 1)  i=1 ni 
- 3(N + 1)

donde N es el número total de sujetos, considerando todas las muestras conjuntamente


(aquí 30), ni es el número de sujetos en una muestra i (i = 1,2, ..., k) y Ri es la suma de
rangos en una muestra i.

Si sustituimos para H con los datos del ejemplo, se obtiene:

12  (68 ) (168 ) (229 ) 


2 2 2

H=  + +  - 3(31) = 17.050
30(31)  10 10 10 

Se sabe que cuando el tamaño de las muestras ni es igual o mayor que 5, el estadístico H
se puede interpretar como un estadístico ji-cuadrado, con k-1 grados de libertad. Esta es
la razón de que al estadístico H se le denomina Chi-cuadrado en la tabla. Al lado de este
valor se ofrece el nivel de significación, que es menor que .001. Como esta probabilidad
es menor que .05 se rechaza la hipótesis nula y se afirma que las distribuciones de las
tres poblaciones son distintas. A efectos interpretativos, esto es lo mismo que decir que
hay diferencias significativas (fiables) entre los rangos obtenidos por los estudiantes de
los 3 colegios.

10.5. Prueba de Friedman para k muestras relacionadas

El concepto de muestras relacionadas se ofreció en los Apartados 7.2 y 10.3, por lo que
no será repetido aquí. En el epígrafe 10.3 también se ofreció la prueba T de Wilcoxon
para comparar dos muestras relacionadas. Recuerde que esta prueba permite comprobar
la hipótesis nula de que dos muestras relacionadas proceden de una misma población (o
de dos poblaciones con igual distribución) sin necesidad de utilizar supuestos tan fuertes
como la prueba t de Student para dos muestras relacionadas (p.e. distribución normal de
las diferencias).

En este epígrafe se pretende ofrecer una prueba no paramétrica (i.e. que utiliza supuestos
relativamente débiles) ideada por Friedman, la cual puede utilizarse en el caso de más de
dos muestras relacionadas.

Para comprender la lógica de esta prueba imagine que le pide a 7 sujetos que le indiquen
su preferencia por tres coches A, B y C, en una escala de 1 a 50, donde 1 significa
máxima preferencia y 50 mínima preferencia. Las respuestas emitidas por los 7 sujetos
son las siguientes:

149
Sujeto Coche A Coche B Coche C
1 8 4 3
2 16 20 8
3 20 7 10
4 24 12 4
5 25 14 15
6 30 9 12
7 32 34 26

Para resolver este problema estadístico decidimos crear, en primer lugar, un archivo de
datos, al que llamaremos nopar4.sav. El archivo de datos tendrá este aspecto:

La variable var00001 contiene las puntuaciones de preferencia de los 7 sujetos para el


coche A; la variable var00002 contiene las puntuaciones de preferencia para el coche B;
finalmente, la variable var00003 contiene las mismas puntuaciones de preferencia para
el coche C. Una vez creado el archivo de datos, podemos llevar a cabo el análisis de los
mismos. Para ello, seleccione la opción Analizar del menú principal; a continuación,
seleccione la opción Pruebas no paramétricas y, en el menú que se despliega a la
derecha, seleccione la opción K muestras relacionadas. Entrará en el cuadro de diálogo
correspondiente, donde sólo tiene que especificar cuáles son las variables que contienen
los datos relacionados. Seleccione las variables var00001, var00002, y var00003. El
procedimiento de Friedman es el que está seleccionado por defecto, así que no es
necesario hacer especificaciones adicionales. El cuadro de diálogo quedará así:

150
El botón Estadísticos que aparece en el cuadro de diálogo contiene las mismas opciones
que el botón Opciones que aparece en todos los demás procedimientos estadísticos; es
decir, sirve únicamente para proporcionar estadísticos descriptivos y/o cuartiles de la(s)
variable(s) dependiente(s) implicada(s). Pulse ahora el botón Aceptar. Como en
procedimientos anteriores, el visor de resultados le mostrará dos tablas. La primera de
ellas contiene la siguiente información:

Rangos

Rango
promedio
VAR00001 2.71
VAR00002 1.86
VAR00003 1.43

La tabla muestra para cada variable (en realidad, para cada muestra) el valor del rango
promedio. El rango medio en la muestra 1 es 2.71, en la muestra 2 es 1.86, y en la
muestra 3 es 1.43. Este rango medio se obtuvo de la siguiente manera. Primero, para
cada sujeto, se asigna el rango 1 al coche más preferido, el rango 2, al segundo más
preferido, y el rango 3 al menos preferido. A continuación se ofrecen entre paréntesis
estos rangos para todos los sujetos:

Sujeto Coche A Rango A Coche B Rango B Coche C Rango C


1 8 (3) 4 (2) 3 (1)
2 16 (2) 20 (3) 8 (1)
3 20 (3) 7 (1) 10 (2)
4 24 (3) 12 (2) 4 (1)
5 25 (3) 14 (1) 15 (2)
6 30 (3) 9 (1) 12 (2)
7 32 (2) 34 (3) 26 (1)
(19) (13) (10)

El valor que se ofrece en la última fila, entre paréntesis, es la suma de los rangos para
cada muestra (coche). Si hallamos ahora la media de estos rangos obtenemos para la
muestra 1 (Coche A) un rango medio de 2.71, para la muestra 2 (Coche B) un rango
medio de 1.86, y para la muestra 3 (Coche C) un rango medio de 1.43.

151
La segunda tabla, que muestra el valor del estadístico de contraste, tiene este aspecto:

Estadísticos de contrastea
N 7
Chi-cuadrado 6.000
gl 2
Sig. asintót. .0498
a. Prueba de Friedman

El valor de ji-cuadrado se obtiene de la siguiente manera:

ji − cuadrado =
12
Nk ( k + 1) [ R ] − 3N (k + 1)
k

i =1
i
2

donde N es el número de filas en el archivo de datos, k es el número de muestras, y Ri es


la suma de los rangos en la muestra i.

En este caso,

ji − cuadrado =
12
(7)(3)(3 + 1)
[ (19) 2 + (13) 2 + (10) 2 ] − (3)(7)(3 + 1) = 90 − 84 = 6

El número de grados de libertad (gl) es k-1. Aquí k es 3; por tanto, los grados de libertad
son 2. Finalmente, la probabilidad asociada a este valor de ji-cuadrado es de .0498.
Como esta probabilidad es menor que .05 rechazamos la hipótesis nula y afirmamos que
las distribuciones de las tres poblaciones son distintas. Una manera más operativa de
decir esto consiste en afirmar que las preferencias por los tres coches son distintas.

Para entender por qué se denomina a la prueba de Friedman análisis de varianza de dos
factores, vamos a considerar el siguiente ejemplo. Imagine que desea investigar los
efectos de 4 métodos de enseñanza M1, M2, M3 y M4 sobre el rendimiento académico
de los estudiantes. Debido a las características de los métodos usted sospecha que,
además de los métodos, también la edad de los estudiantes puede crear diferencias en el
rendimiento académico. Para evitar la confusión del efecto de la edad con el efecto del
método selecciona 4 sujetos de la misma edad y asigna aleatoriamente un sujeto a cada
método. Además usted cree que algo similar puede pasar con la inteligencia de los
estudiantes. Para evitar la confusión del efecto de la inteligencia con el efecto del
método decide elegir otros 4 sujetos que tengan el mismo nivel de inteligencia y, luego,
asigna aleatoriamente un sujeto a cada método. Por último, usted también sospecha que
lo mismo que puede ocurrir con la edad y la inteligencia puede ocurrir con la motivación
escolar de los estudiantes. De formar similar a lo realizado anteriormente, comienza
eligiendo 4 sujetos con el mismo nivel de motivación escolar y asigna aleatoriamente un
sujeto a cada condición.

A los 4 sujetos seleccionados según el criterio de la edad podríamos denominarle grupo


G1. De forma similar, podríamos denominar grupo G2 a los 4 sujetos seleccionados

152
según el criterio de la inteligencia. Finalmente, podríamos denominar grupo G3 a los
sujetos seleccionados según el criterio de motivación escolar.

Siguiendo el procedimiento anterior, se puede observar que los 4 + 4 + 4 = 12 sujetos


pueden clasificarse utilizando dos criterios distintos:

1. el grupo al que pertenecen (G1, G2, G3), y


2. el método al que han sido asignados (M1, M2, M3, M4).

En la Tabla siguiente se ofrecen las calificaciones obtenidas por los 12 sujetos


clasificados según estos dos criterios (grupo y método):

M1 M2 M3 M4
G1 8 5 6 3
Grupo G2 9 4 7 2
G3 9 7 5 5

La hipótesis nula de que las 4 muestras (correspondientes a los 4 métodos de enseñanza)


son extraídas de una misma población puede someterse a prueba utilizando el
procedimiento no paramétrico de Friedman. Nótese que, a pesar de la existencia de dos
factores (uno el de las filas, y otro el de las columnas) sólo se somete a comprobación el
factor de las columnas. Se asume que los 3 niveles del factor de la filas (G1, G2 y G3)
son extraídos de la misma población y que, por tanto, no existen diferencias entre ellos.

Para utilizar el procedimiento de Friedman con estos datos, es necesario crear primero
un archivo de datos, al que vamos a llamar nopar5.sav. Los datos deben disponerse del
mismo modo que aparecen en la tabla. Cada uno de los tres grupos ocupará una fila,
mientras que cada uno de los cuatro métodos ocupará una variable. El archivo de datos
tendría este aspecto:

153
La variable var00001 contiene los resultados sobre rendimiento académico de los 3
estudiantes, pertenecientes a los grupos 1, 2 y 3 (G1, G2, y G3), que siguieron el método
de enseñanza 1 (M1). Del mismo modo, var00002 contiene los resultados de los tres
estudiantes, pertenecientes a los grupos 1, 2 y 3, que siguieron el método de enseñanza 2
(M2). Lo mismo se aplica a las variables var00003 y var00004.

Ahora puede efectuar el análisis de estos datos utilizando la prueba de Friedman. Para
ello, siga los mismos pasos que en el análisis anterior, seleccionando como variables
para el análisis, en este caso, a var00001, var00002, var00003, y var00004. El visor de
resultados le mostrará dos tablas. En la primera, como antes, aparecerán los rangos
promedio:

Rangos

Rango
promedio
VAR00001 4.00
VAR00002 2.33
VAR00003 2.50
VAR00004 1.17

La segunda tabla nos ofrece el valor del estadístico de contraste:

154
Estadísticos de contrastea
N 3
Chi-cuadrado 7.552
gl 3
Sig. asintót. .056
a. Prueba de Friedman

Como el nivel de significación, para un valor de ji-cuadrado igual a 7.552, con 3 grados
de libertad, es .056 no rechazamos la hipótesis nula y afirmamos que no existen
diferencias significativas (fiables) en el rendimiento académico producido por los cuatro
métodos de enseñanza.

155
CUARTA PARTE: GENERACIÓN DE GRÁFICOS CON SPSS
PARA WINDOWS

156
El programa SPSS para Windows no sólo permite analizar los datos, sino que también
dispone de opciones para la representación gráfica, tanto de los datos en sí como de los
resultados obtenidos en determinados análisis. La generación de gráficos es sencilla.
Asimismo, las posibilidades de edición de los mismos para efectuar modificaciones son
muy amplias.

Puede accederse a la utilidad de gráficos desde el menú principal y seleccionar el tipo de


gráfico deseado y las variables a incluir en el mismo. Los gráficos así creados son
almacenados en el visor de resultados. Una vez almacenado el gráfico en el visor de
resultados, es posible modificar su apariencia utilizando una ventana específica para
edición de gráficos. Los gráficos pueden almacenarse en disco como archivos
independientes o como parte del archivo de resultados. En el primer caso, SPSS permite
guardar el gráfico en diversos formatos, tanto de tipo vectorial (WMF, CGM, EPS,
PICT) como de mapa de bits (JPEG, BMP, TIFF). Los primeros resultan más adecuados
para la impresión, pues preservan la información contenida en el gráfico original. Los
segundos pueden resultar útiles para representar resultados en páginas web.

El proceso a seguir para todos los tipos de gráficos es siempre el mismo: una vez que se
tienen datos en la ventana "Datos nuevos", se selecciona el menú Gráficos. Dentro de
este menú aparecen todos los distintos tipos de gráficos disponibles, de los cuales
nosotros seleccionaremos uno. Una vez seleccionado el tipo de gráfico correspondiente,
aparecerán uno o varios cuadros de diálogo en los que deberemos especificar la variable
o variables implicadas y qué información numérica se mostrará (medias, porcentajes de
sujetos, sumas, etc.). El visor de resultados nos presentará el gráfico que hemos
solicitado. A continuación, podemos editarlo y hacer las modificaciones que creamos
convenientes (tamaño de los distintos elementos, añadir texto o diagramas, rotar, etc.).
Finalmente, una vez que el gráfico está a nuestro gusto, podemos almacenarlo en disco,
imprimirlo, etc. También es posible crear el gráfico paso a paso, de forma interactiva.

Los distintos tipos de gráficos que se hallan disponibles son:

• Barras: Muestran la distribución de los valores en una serie de categorías dadas (por
ejemplo, el número medio de respuestas acertadas en un test por parte de niños de
diferentes colegios).
• Líneas: Su principal finalidad es la de mostrar la evolución de los valores a lo largo
de un contínuo determinado (por ejemplo, la tasa de respuestas emitida por un
organismo a lo largo de diferentes ensayos).
• Áreas: Aunque existen distintos tipos de gráficos de áreas disponibles, por lo general
se trata simplemente de un gráfico de líneas en el que la zona que se encuentra bajo la
línea se halla coloreada. Permite hacerse una idea más cabal acerca de la magnitud de
los cambios.
• Sectores: Son los conocidos gráficos de tarta. En ellos se representa el reparto de un
determinado atributo entre distintas categorías (por ejemplo, la proporción de
hombres y mujeres contenidos en una muestra).
• Máximos y mínimos: Sirven para representar en un mismo gráfico los valores
obtenidos en un determinado atributo para varias entidades distintas a lo largo de un
contínuo determinado (por ejemplo, el número medio de verbalizaciones nuevas
emitido por tres grupos de niños sometidos a tres distintos programas de desarrollo

157
del vocabulario a lo largo de doce meses). La particularidad de este tipo de gráficos
es que para cada uno de los valores del contínuo sólo se representan los valores
mínimo y máximo de todas las entidades (en el caso del ejemplo, sólo se
representarían, para un mes determinado, dos de los tres grupos de tratamiento con
programas de desarrollo del lenguaje: aquel cuyo número medio de verbalizaciones
nuevas fuese más pequeño, y aquel con mayor número medio de verbalizaciones
nuevas).
• Pareto: Consiste en un gráfico de barras en el que las categorías han sido ordenadas
de mayor a menor, y que opcionalmente lleva incluida una línea que representa las
frecuencias acumuladas. Su finalidad es la de ver cual es la contribución relativa de
cada uno de los factores que pueden influir en un atributo determinado (por ejemplo,
porcentaje de respuestas acertadas por un sujeto en un test de capacidad que se
corresponde con cada uno de los distintos subtests de que se compone la prueba).
• Control: Los gráficos de control sirven para estudiar las fluctuaciones existentes en
una serie de valores, y ver si se deben al azar o a otro tipo de causas. Los resultados
se muestran en forma de gráfico de líneas, en el que se representan las fluctuaciones
de la variable, la media de todas los valores, y dos límites, superior e inferior, entre
los que deben encontrarse las fluctuaciones.
• Diagramas de caja: Se utilizan, al igual que los gráficos de barras de error, en el
análisis exploratorio de los datos. Los diagramas de caja muestran la distribución de
los valores de una variable en forma de una caja, que se halla dividida en dos por una
línea horizontal. Los bordes superior e inferior de la caja representan los percentiles
75 y 25, respectivamente, mientras que la línea horizontal que divide a la caja en dos
representa la mediana. Por la parte superior e inferior de la caja asoman dos
segmentos, que representan los valores máximos y mínimos que se encuentran dentro
de la distribución. Por encima y por debajo de estos segmentos se representan con
círculos los valores que se encuentran fuera de la distribución (outliers), y con
asteriscos aquellos que se encuentran muy alejados de la misma (valores extremos).
Los gráficos de caja son especialmente útiles para estudiar la distribución de los
valores de una variable en diferentes grupos.
• Barras de error: Nos permiten estudiar la dispersión de los valores de una variable en
la muestra de donde se extrajeron. Para representar la dispersión podemos utilizar un
intervalo confidencial determinado (por ejemplo, del 95%), o bien un intervalo de n
desviaciones típicas a ambos lados de la media, o bien un intervalo de n errores
típicos a ambos lados de la media.
• Dispersión: Sirven para mostrar la relación entre los valores de dos o más variables
cuando todas ellas están medidas, al menos, a nivel de intervalos. El cruce entre los
valores de ambas variables se muestra como una nube de puntos que refleja la forma
de la relación (por ejemplo, la relación entre el peso y la edad de los sujetos muestra
una forma curvilínea).
• Histograma: Nos permite observar, en forma de gráfico de barras, la distribución de
los valores de una variable numérica agrupados en una serie de intervalos.
Opcionalmente se puede superponer al histograma una curva normal con la misma
media y la misma varianza, lo que nos permitirá hacer comparaciones entre nuestra
distribución y la normal. Un tipo de histograma muy conocido es el que representa la
proporción de sujetos de una población dada que obtienen una determinada
puntuación de C.I.

158
• P-P y Q-Q: Ambos tipos de gráficos sirven para evaluar la normalidad de la
distribución de los valores de una variable determinada. En ambos casos se
contrastan, en forma de gráfico de dispersión, los valores observados (de la variable)
con los valores que serían de esperar si la distribución se ajustase a la curva normal.
Cuando se cumple el supuesto de normalidad, los valores del gráfico de dispersión
deberían agruparse en forma de línea recta. La diferencia entre Q-Q y P-P reside en
que en el primer caso se toman las distribuciones simples de probabilidad, mientras
que en el segundo se toman las distribuciones acumuladas de probabilidad.
• Secuencia: Los gráficos de secuencia se corresponden con el uso de datos ordenados
en series temporales y permiten ver el cambio en los valores de una variable
determinada a lo largo del tiempo.
• Curva COR: Las curvas COR permiten representar gráficamente el grado de acierto
obtenido al clasificar sujetos en una o más variables numéricas tomando como
criterio una variable nominal con dos categorías.
• Serie Temporal: Dentro de este apartado se encuentran distintas opciones para
analizar datos que se ajustan a series temporales. Entre las opciones disponibles
dentro de este menú se halla: (1) Autocorrelaciones, o correlaciones entre los valores
de una misma variable cuando éstos se han obtenido en diferentes momentos
temporales. (2) Correlaciones cruzadas, o correlaciones existentes entre los valores
de dos series temporales distintas. (3) análisis espectral, o análisis de la variación de
toda la serie temporal en componentes periódicos de distinta frecuencia.

Dentro de cada uno de los distintos tipos de gráficos existen también diferentes
opciones: gráficos conjuntos, gráficos mixtos, matrices de dispersión, distintos tipos de
gráficos de control, etc. Pero nuestra intención no es elaborar un índice exhaustivo de
los mismos, sino que el lector conozca las posibilidades que ofrece el programa a nivel
de representación gráfica de los resultados. Baste decir que el número de opciones de
que dispone SPSS es lo suficientemente amplio como para que sea posible llevar a cabo
las representaciones gráficas de datos más usuales.

11. Ejemplos de uso del Menú de Gráficos de SPSS

11.1. Generación de un gráfico de sectores

Veamos el uso de la utilidad de gráficos de SPSS para Windows a través de un ejemplo.


Tomemos los datos del cuestionario sobre el uso del gallego. Tenemos una muestra de
20 sujetos y queremos saber cuáles fueron sus respuestas a la pregunta "Entiendo el
gallego hablado", incluidas en la variable item01. Recuerde que había 3 respuestas
posibles a la pregunta: “nada”, “regular” y “bien”. Imagine que queremos saber qué
porcentaje de sujetos utilizaron cada respuesta. Una forma habitual de representar esta
información es representar en un gráfico de sectores las respuestas a esa pregunta. En la
tarta, cada sector representa una de las posibles respuestas, y el área de tarta ocupada por
ese sector representa la proporción de sujetos que utilizaron esa respuesta.

159
Para generar el gráfico, es necesario cargar primero el archivo de datos encuest.sav, que
contiene los datos de ese cuestionario. A continuación, seleccione la opción Gráficos.
De entre todas las opciones que aparecen, seleccione la opción Sectores. Aparecerá el
siguiente cuadro de diálogo:

En este cuadro de diálogo se nos pregunta qué tipo de datos van a aparecer en el gráfico:

• Resúmenes para grupos de casos: Se refiere a si cada uno de los sectores de la tarta
representa los datos de un grupo de sujetos.
• Resúmenes para distintas variables: En este caso, cada uno de los sectores representa
los resultados para una variable determinada como, por ejemplo, las sumas totales
para diferentes variables; en este caso, cada sector representará una variable.
• Valores individuales de los casos: Cada uno de los sectores representa a un sujeto de
la muestra.

En el ejemplo que estamos considerando, queremos saber cuáles han sido las respuestas
de los 10 sujetos a la pregunta de si entienden el gallego hablado. Dado que esta es la
opción que viene determinada por defecto por el programa (señalada por un punto
negro), sólo tenemos que pulsar el botón Definir. Una vez hecho esto, aparecerá un
segundo cuadro de diálogo:

160
En la zona izquierda del cuadro aparecen las variables del archivo de datos, que son las
20 preguntas del cuestionario. En la zona superior se nos pregunta qué representa cada
sector de la tarta: El número de sujetos que dan una respuesta determinada, el porcentaje
de sujetos que dan esa respuesta, el número acumulado de sujetos , el porcentaje
acumulado de sujetos , o bien otra función de resumen, tal como la media o la
desviación típica. En este último caso necesitamos una segunda variable de la que
extraer dicha función. De todas estas alternativas, nosotros queremos saber el porcentaje
de sujetos que dan una respuesta determinada, por lo que elegiremos la opción % de
casos.

Justo debajo del cuadro anterior aparece la leyenda Definir sectores por, con una casilla
debajo, en la que debemos introducir la variable de interés. En nuestro caso, nos
interesan las respuestas de los sujetos a la pregunta "Entiendo el gallego hablado", que
se corresponde con la variable item01. Seleccione, pues, item01 en el recuadro de la
izquierda e introdúzcala en esta casilla. En la parte inferior del cuadro de diálogo se
encuentra otro recuadro con la leyenda Plantilla. Aquí podemos indicar un archivo de
plantilla gráfica cuyas especificaciones queremos que se apliquen al nuestro. Esta opción
resulta de utilidad cuando generamos varios gráficos del mismo tipo y no queremos
perder el tiempo dándoles formato uno a uno. De este modo, podemos usar las
especificaciones de uno de ellos como plantilla para todos los demás. Los archivos de
plantillas gráficas pueden generarse en el editor de gráficos, que veremos un poco más
adelante. Por último, en la zona inferior derecha del cuadro de diálogo aparecen dos
botones, Títulos y Opciones. El primero nos permite colocar títulos, subtítulos y pies de
página al gráfico. El segundo sirve para seleccionar distintas opciones, que se refieren
fundamentalmente a los valores perdidos. Pulse ahora el botón etiquetado Títulos.
Aparecerá un cuadro de diálogo donde puede indicar el título del gráfico. Escriba en la
primera línea el texto de la pregunta 1: "Entiendo el gallego hablado". Pulse luego el
botón Continuar y, a continuación, el botón Aceptar. El visor de resultados le mostrará
el siguiente gráfico:

Entiendo el gallego hablado

nada

regular

bien

Pulse ahora dos veces sobre el gráfico de sectores. Se abrirá una nueva ventana, la del
editor de gráficos. En esta ventana usted puede modificar diversos atributos del gráfico.
Esta nueva ventana posee sus propias opciones de menú y su propia barra de botones

161
para edición de gráficos. La función de cada uno de estos nuevos botones, de izquierda a
derecha, es la siguiente:

Identificación de punto. En gráficos de dispersión y de cajas, este botón permite


identificar y etiquetar a los sujetos representados por un punto en el gráfico.

Trama. Sirve para cambiar la trama de relleno de una parte del gráfico. Por
ejemplo, los distintos sectores de un gráfico de sectores pueden resaltarse
utilizando distintas tramas para cada uno.

Color. Cambia el color del elemento seleccionado, ya sea gráfico o texto.

Marcadores. En gráficos de línea, dispersión, etc., donde se usan marcadores (p.


ej.: círculos o triángulos) para señalar los valores de los sujetos, este botón permite
cambiar el aspecto del marcador para un sujeto o una serie de sujetos dada..

Estilo de línea. En gráficos de líneas, este botón permite cambiar el estilo en que
se muestran las mismas (línea contínua, punteada, con guiones, etc.).

Estilo de barras. En gráficos de barras, este botón permite modificar la apariencia


de las mismas (plana, con sombra, con volumen, etc.).

Etiquetas de barras. En gráficos de barras, este botón permite mostrar, dentro de


cada barra, los valores correspondientes.

Estilo de interpolación. En gráficos de dispersión y líneas, permite especificar el


modo de interpolación, o unión entre puntos sucesivos (directa, en escalera, en
saltos, por curvas). Por defecto, en los gráficos de dispersión no hay interpolación,
mientras que en los de líneas ésta es directa (los puntos se unen con una línea recta).

Tipo de letra. Permite cambiar los atributos del texto seleccionado (tipo de letra,
tamaño y formato).

Rotación 3-D. En gráficos en tres dimensiones, permite rotar el gráfico para


facilitar la visualización de los datos.

Intercambiar ejes. En gráficos de líneas, áreas y barras, permite intercambiar el


eje de categorías (horizontal) y el de valores (vertical).

Separar sector. En gráficos de sectores, separa el sector seleccionado del resto,


con la finalidad de resaltarlo.

Línea quebrada para valores perdidos. En gráficos de líneas, permite especificar


si la línea se quiebra cuando no se dispone de datos, o si se une al siguiente dato.

Opciones de gráfico. Dependiendo del tipo de gráfico que estemos editando, nos
mostrará una serie de opciones que nos permiten modificarlo.

Modo espín para gráficos de dispersión 3-D. Nos permite acceder a un menú que

162
sirve para rotar el gráfico a nuestro gusto. Es un modo de rotación alternativo al
representado por el botón Rotación 3-D.

El menú de la ventana de gráficos también puede ser de utilidad para modificar otras
características del gráfico. La opción Galería nos permite seleccionar un tipo de gráfico
compatible con el ya seleccionado, de modo que los datos se representarán en este nuevo
tipo de gráfico. La opción Diseño nos permite modificar otras características, como ejes,
notas al pie, leyendas, etc. La opción Serie nos permite modificar el modo en que va a
presentarse cada serie de datos, en caso de que haya más de una. Finalmente, la opción
Formato sirve para realizar las mismas acciones que la barra de botones.

Veamos ahora cómo podemos aplicar las posibilidades del editor de gráficas a nuestro
gráfico de sectores. En primer lugar, queremos conocer el porcentaje de sujetos que han
dado las respuestas "nada", "regular" y "bien". Como el gráfico por defecto no nos
muestra los porcentajes, vamos a pedir ahora que esa información sea incluida en el
gráfico. Para ello, utilizaremos la opción Diseño del menú principal. En el menú que se
despliega a continuación aparecen varias alternativas, una de las cuales se denomina
Opciones. Si la seleccionamos, nos aparecerá el siguiente cuadro de diálogo:

En el cuadro de diálogo se muestran las diferentes opciones relacionadas, en nuestro


caso, con los gráficos de sectores. La primera opción establece desde qué posición
comenzarán a colocarse los sectores, que por defecto se encuentra en las 12 en punto. En
segundo lugar, se ofrece la posibilidad de agrupar juntos aquellos sectores que no
superen un porcentaje determinado sobre el total (por defecto se sitúa en el 5%).
Finalmente, dentro de un recuadro se ofrecen las posibilidades existentes para etiquetas.
Por defecto, el gráfico muestra sólo el texto correspondiente a cada etiqueta. Sin
embargo, también puede mostrar el número de sujetos que dan cada respuesta (Valores)
y/o el porcentaje correspondiente a esos sujetos (Porcentajes). Seleccione la opción
Porcentajes y pulse a continuación el botón Aceptar. El gráfico nos mostrará ahora,
junto a cada una de las posibles respuestas ("nada", "regular" y "bastante") el porcentaje
que representa cada una de estas respuestas sobre el total de los sujetos:
Entiendo el gallego hablado

nada

5.0%

regular

20.0%

bien

75.0% 163
A continuación, vamos a modificar el título del gráfico y las tres etiquetas de valores que
aparecen para cada uno de los sectores, y que se corresponden con las respuestas "nada",
"regular" y "bien". En primer lugar, seleccionamos una de estas etiquetas con el ratón; el
texto de las tres etiquetas quedará enmarcado con unos pequeños cuadros, lo que indica
que las modificaciones que hagamos se aplicarán únicamente a esa zona del gráfico. A
continuación, seleccionamos con el ratón el botón representado con la letra "T"
mayúscula, que nos permite cambiar el tipo y tamaño de letra. El uso de este botón
equivale a seleccionar la opción Texto del menú Formato. La ventana del editor de
gráficos tendrá ahora este aspecto:

En la cuadro de diálogo vemos que la tipografía seleccionada para las tres etiquetas es la
"Arial", con un tamaño de 8 puntos. Debajo del tipo y tamaño seleccionado aparecen
dos recuadros donde se muestran, respectivamente, otros tipos y tamaños de letra
disponibles. Vamos a modificar sólo el tamaño de la letra, eligiendo una ligeramente
mayor, de 12 puntos. Una vez hecho esto, pulse el botón Aplicar. A continuación
modificaremos el título del gráfico, "Entiendo el gallego hablado". En primer lugar,
seleccione el título del gráfico utilizando el botón izquierdo del ratón; ahora debe
aparecer enmarcado con una línea continua. En este caso cambiaremos tanto el tipo
como el tamaño. Seleccione el tipo de letra Times New Roman, y el tamaño de 18
puntos, y pulse a continuación el botón Aplicar; una vez hecho esto, pulse el botón
Cerrar, que cerrará el cuadro de diálogo para estilo de texto. Una vez modificadas las
etiquetas, podría interesarnos modificar ahora el tramado para cada uno de los sectores.
El tramado es una buena alternativa al color cuando uno desea imprimir un gráfico y
sólo dispone de una impresora en blanco y negro. Para modificar el tramado de los

164
distintos sectores, marcamos con el ratón uno ellos y pulsamos el botón que representa
un rectángulo sombreado, equivalente a la opción Trama de relleno del menú Formato.
Aparecerá un cuadro de diálogo con ocho tramas de relleno. Seleccione ahora el sector
correspondiente a la respuesta "nada" y elija la opción sin tramado (representada por un
cuadrado en blanco); a continuación, pulse el botón Aplicar. Seleccione a continuación
el sector correspondiente a la respuesta "regular" y elija uno de los dos tramados de
líneas oblícuas existentes y vuelva a pulsar el botón Aplicar. Finalmente, aplique un
tramado de líneas horizontales al sector correspondintes a la respuesta “bien”. Pulse a
continuación el botón Cerrar.

Vamos a efectuar ahora el último cambio en el gráfico. Deseamos resaltar el sector


correspondiente a la respuesta "nada", y que representa a aquellos sujetos que no
entienden el gallego hablado. Para ello, seleccionaremos dicho sector con el ratón y
luego pulsaremos el botón que representa un sector con una flecha apuntando hacia
afuera; esto es lo mismo que utilizar la opción Desgajar sector del menú Formato, y que
sirve para separar a uno de los sectores del resto. El gráfico definitivo quedará así:

Entiendo el gallego hablado


nada
5.0%

regular
20.0%

bien
75.0%

Una vez modificado de esta forma el gráfico, puede guardarlo de dos formas:

1. Exportándolo como gráfico individual en un formato gráfico determinado


(vectorial o de mapa de bits).
2. Guardándolo como parte del archivo de resultados (.SPO).

Para exportar el gráfico, seleccione la opción Archivo del menú del editor de gráficos.
A continuación, seleccione la opción Exportar gráfico. SPSS le pedirá un nombre de
archivo. Los distintos formatos de archivo gráfico se muestran en el recuadro
etiquetado Guardar como tipo. Cada formato es idóneo para unas aplicaciones
determinadas, por lo que debe seleccionar el que mejor se ajuste a sus fines (integrar
el gráfico en un informe, realizar una fotocomposición, crear diapositivas, etc.).

Si desea guardar el gráfico como parte del archivo de resultados, seleccione la opción
Archivo del menú del editor de gráficos y, a continuación, seleccione la opción
Cerrar. Se cerrará la ventana del editor de gráficos, pero el gráfico de sectores que ha

165
modificado permanece en el visor de resultados. Si ahora guarda el archivo de
resultados, el gráfico se almacenará como parte del mismo.

11.2. Generación de un gráfico de dispersión

Para el siguiente ejemplo utilizaremos los mismos datos que se emplearon para explicar
la covarianza, la correlación y la regresión (ver Apartado 6). Recuerde que estos datos
corresponden a los resultados obtenidos en dos pruebas, llamadas X e Y, por una muestra
de 5 sujetos:

Sujeto X Y
1 60 4
2 10 2
3 80 9
4 50 7
5 30 3

Cuando analizamos la correlación entre las variables (ver Apartado 6.2), nos
encontramos con un valor de rxy de, aproximadamente, 0.86. Lo que nos indica este
valor es que existe una relación lineal positiva e intensa entre X e Y, dado que 0.86 es
positivo y está próximo a 1. Pues bien, utilizando un gráfico de dispersión podremos
comprobar visualmente la intensidad de esa relación lineal.

Para ello, cree en primer lugar el archivo de datos, al que llamaremos regre.sav. Los
resultados en la prueba X se almacenarán en la variable var00001, y los resultados en la
prueba Y, en la variable var00002. A continuación, seleccione la opción Gráficos en el
menú principal y, en el menú que se despliega, la opción Dispersión. Aparecerá el
siguiente cuadro de diálogo:

Como puede observar, existen cuatro tipos distintos de gráficos de dispersión:

1. Simple. Es el gráfico de dispersión donde se representan los valores de una variable


(X) frente a los de otra variable (Y).
2. Superpuesto. En este caso se representan los valores de una variable (X) frente a los
de dos o más variables (Y, Z,...)
3. Matricial. Se representan todos los posibles cruces de valores para un grupo de dos o
más variables. Los gráficos se disponen formando una matriz o mosaico de gráficos
de dispersión, donde cada elemento de la matriz es el cruce de dos variables
determinadas.
4. 3-D. Se representa el cruce de valores de tres variables (X, Y, Z) simultáneamente.

166
En el caso de nuestros datos, el tipo adecuado es el simple, que es el que está
selecciondo por defecto. Pulse ahora el botón Definir. Aparecerá el cuadro de diálogo
correspondiente al gráfico de dispersión simple. Debe especificar, en primer lugar, cuál
es la variable cuyos valores se representarán en el eje X, y cuál la correspondiente al eje
Y. Seleccione, respectivamente, var00001 y var00002. El cuadro de diálogo presentará
este aspecto:

Además de las dos variables, X e Y, necesarias para el gráfico de dispersión, con la


opción Establecer marcas por, podemos utilizar una variable que nos permita identificar
distintos grupos dentro de los datos (p. ej.: hombres y mujeres). Finalmente, la opción
Etiquetar los casos mediante, nos permite etiquetar a los sujetos utilizando una variable
que contenga dichas etiquetas. El uso del recuadro Plantilla es el mismo que el que
comentamos para el ejemplo anterior. En la parte inferior del cuadro de diálogo
aparecen dos botones etiquetados Títulos y Opciones. El botón Opciones contiene
simplemente algunas opciones referentes a valores perdidos y al etiquetado de los
sujetos, por lo que no comentaremos su uso. Pulse el botón Títulos e introduzca como
título del gráfico, “Regresión de X sobre Y”. A continuación pulse el botón Continuar, y
luego el botón Aceptar. El gráfico de dispersión aparecerá en la ventana del visor de
resultados:

Regresión de X sobre Y
10

4
VAR00002

0
167
0 20 40 60 80 100

VAR00001
Podemos apreciar en el gráfico que la disposición de los puntos se aproxima con
bastante exactitud a la de una recta. Cuando efectuamos el análisis de regresión de X
sobre Y (ver Apartado 6.3), encontramos que la función lineal que más se ajustaba a la
relación existente entre ambas variables tenía la forma: Y’ = 0.7465 + 0.09247 X. Vamos
a modificar el gráfico para que, entre otras cosas, nos muestre la recta de regresión de X
sobre Y. Para ello, es necesario editar el gráfico. Pulse dos veces sobre el gráfico; esto le
llevará a la ventana del editor de gráficos. Seleccione ahora la opción Diseño y, en el
menú que se despliega, seleccione Opciones. Aparecerá el siguiente cuadro de diálogo:

Una de las opciones que aparecen en este nuevo cuadro de diálogo es la de Mostrar los
subgrupos; esta opción sólo se encuentra disponible si previamente hemos seleccionado
una variable con esta finalidad en la opción Establecer marcas por, en el cuadro de
diálogo anterior. Otra opción es la que nos permite etiquetar a los sujetos (Etiquetas de
caso), bien por su número de orden, bien por una variable identificadora, que debe ser
seleccionada en la opción Etiquetar los casos mediante, del cuadro de diálogo anterior.
Una tercera opción es la que nos permite Mostrar girasoles para el caso de puntuaciones
coincidentes; el girasol tendrá tantos pétalos como sujetos coincidan en una misma
puntuación. Por último, se muestran dos opciones para líneas en el gráfico. La primera
nos permite mostrar la línea que mejor se ajuste a las puntuaciones (Ajustar línea),
mientras que la segunda nos permite mostrar una línea horizontal de referencia (Línea
de referencia para la media en Y), correspondiente a la media de la variable Y. Para
obtener la recta de regresión de X sobre Y, seleccione la opción que nos permite mostrar
la línea de ajuste para el Total de los sujetos.

Una vez hecho esto, es necesario especificar el tipo de ajuste que se utilizará para
generar la línea correspondiente. Para especificar este aspecto disponemos de un botón
etiquetado Opciones de ajuste. Pulse este botón y aparecerá un nuevo cuadro de diálogo
con varias opciones. En primer lugar, tenemos distintos métodos de ajuste posibles para
nuestros datos. El método seleccionado por defecto es el de Regresión lineal, pero
también es posible utilizar Regresión cuadrática o Regresión cúbica, así como un
método de mínimos cuadrados ponderados (Minsce). Es posible también crear intervalos
confidenciales para los valores de la recta de regresión; estos intervalos se producen
debido a la existencia de error en las predicciones hechas por la recta. Como fuente de

168
los intervalos puede utilizarse la media de las predicciones (Media), o bien puede
establecerse un intervalo para cada dato (Individual). Finalmente, dos últimas opciones
se refieren a la inclusión o no de dos valores: el de la constante a en la recta, y el del
coeficiente de determinación en la representación gráfica. Dado que la constante a se
incluye por defecto en la ecuación, seleccione únicamente la última opción. El cuadro de
diálogo quedará así:

A continuación, pulse el botón Continuar, y luego el botón Aceptar. Obtendrá esta


nueva gráfica de dispersión:

Regresión de X sobre Y
10

4
VAR00002

0 R² = 0.7343
0 20 40 60 80 100

VAR00001

La nueva gráfica incluye la recta de regresión, y en la zona derecha de la misma se


muestra el valor del coeficiente de determinación (R2 = 0.7343). Veamos ahora cómo
efectuar modificaciones menores en el gráfico para mejorar la presentación. En primer
lugar, vamos a eliminar los rótulos identificadores de las variables var00001 y
var00002, y a sustituirlos por el nombre real de las mismas, X e Y. Vuelva a seleccionar
la opción Diseño del menú principal y, en el menú que se despliega a continuación, elija
la opción Ejes. Aparecerá un cuadro de selección de eje:

169
Seleccione el eje correspondiente a la variable X ya está seleccionado por defecto, así
que pulse directamente el botón Aceptar. Aparecerá un nuevo cuadro de diálogo con
todas las opciones que puede modificar en el eje X. Entre estas opciones se encuentran
las siguientes:

1. La posibilidad de Mostrar la línea del eje X. Esta posibilidad está activada por
defecto.
2. El título y la justificación (izquierda, derecha, centrada) del eje que, por defecto, está
etiquetado como var00001.
3. La Escala utilizada en el eje, que puede ser lineal o logarítmica.
4. El Rango de puntuaciones del eje. Fíjese que el rango original de puntuaciones va
desde 10 hasta 80, mientras que el rango visualilzado del eje va desde 0 hasta 100; el
rango del eje es determinado automáticamente por SPSS, pero puede modificarse.
5. Divisiones mayores y Divisiones menores en el eje. Por defecto, tanto las divisiones
mayores como menores van de 20 en 20 (puntuaciones de 0, 20, 40, 60, 80 y 100).
Cada división puede llevar Marcas señalizadoras y/o Cuadrícula que permitan
localizar mejor las puntuaciones.
6. La posibilidad de mostrar o no las etiquetas de los valores (0, 20, 40, 60, 80 y 100), y
de modificar éstas (Etiquetas).

De entre estas opciones, seleccione la correspondiente al título del eje, y sustituya la


etiqueta var00001 por el nombre de la variable, X. No es necesario hacer
modificaciones en el resto de las opciones. El cuadro de diálogo quedará con este
aspecto:

170
Pulse el botón Aceptar. Vuelva a seleccionar la opción Diseño y, dentro de ésta, la
opción Ejes. En el cuadro de diálogo seleccione ahora el eje Y. Repita la operación
anterior, colocando esta vez como título del eje la etiqueta Y. A continuación, pulse de
nuevo Aceptar. El gráfico presentará este aspecto:

Regresión de X sobre Y
10

0 R² = 0.7343
Y

0 20 40 60 80 100

Vamos ahora a modificar el tamaño tanto de las etiquetas de los ejes como el título del
gráfico. Usted ya vio en el Apartado anterior el modo en que puede hacerse esto.
Aplique un tipo de letra Arial de 12 puntos a las etiquetas de los ejes, y un tipo de letra
Times New Roman de 18 puntos al título del gráfico. A continuación, modificaremos
los marcadores del gráfico. Dado que sólo tenemos cinco puntuaciones, el gráfico
resultará más claro si utilizamos marcadores algo mayores para las puntuaciones; por
defecto, los marcadores son de tamaño Muy pequeño . Para modificar los marcadores,
seleccione una puntuación cualquiera del gráfico; todas ellas aparecerán seleccionadas.
Pulse ahora el botón que representa un asterisco, y aparecerá el cuadro de diálogo para

171
modificar los marcadores. Elija un tipo círculo negro como marcador, y un tamaño
Pequeño para el mismo. El cuadro tendrá este aspecto:

Pulse, sucesivamente, los botones Aplicar y Cerrar. Ahora los marcadores son más
visibles:

Regresión de X sobre Y
10

0 R² = 0.7343
Y

0 20 40 60 80 100

Ahora puede guardar el gráfico, bien exportándolo en un formato determinado, bien


como parte del archivo de resultados.

172
QUINTA PARTE: ESTADÍSTICA AVANZADA CON SPSS PARA
WINDOWS

173
12. Análisis de Varianza con Medidas Repetidas

Mª José Ferraces
Mª Soledad Rodríguez
Elena Andrade

Existen ocasiones en las que el investigador está interesado en comprobar la influencia


de una variable independiente con K niveles o valores sobre una variable dependiente,
pero en lugar de utilizar un grupo distinto de sujetos para cada uno de los K niveles de la
variable independiente, utiliza un solo grupo de sujetos a los que se va haciendo pasar
sucesivamente en el tiempo por todos y cada uno de los niveles de la variable
independiente. A este diseño se le denomina diseño Intra-grupo, o de medidas repetidas,
o también diseño intra-sujetos. El diseño de medidas repetidas más simple es aquel en el
que se obtienen 2 medidas de la variable dependiente (VD) para cada sujeto, con el fin
de comprobar la influencia de una variable independiente (VI) con dos niveles o valores.
Por ejemplo, pretendemos registrar el tiempo de reacción (VD) de un grupo de sujetos
antes (pretest) y después (posttest) de la administración de una inyección de cafeína (VI).
Este es un caso particular del diseño de grupos apareados (ver apartado 7.2) en el que el
sujeto se considera par de sí mismo. Para comprobar si existen diferencias significativas
entre las dos puntuaciones se utiliza el estadístico t para muestras relacionadas.

12.1.Analisis de varianza de un factor con medidas repetidas

Cuando un sujeto es medido en más de dos ocasiones o, dicho de otro modo, cuando
recibe más de dos niveles de la variable independiente en un orden sucesivo (por
ejemplo un pretest, al cabo de una semana un postest, y al cabo de un mes otro postest)
se está llevando a cabo un diseño de medidas repetidas.

Este tipo de diseño se caracteriza porque cada sujeto recibe todos los niveles de la
variable independiente o, lo que es lo mismo, cada sujeto es sometido a todas las
condiciones experimentales. Así, la ventaja fundamental de este diseño sobre los de
medidas independientes consiste en garantizar el control de las diferencias individuales,
dado que al actuar el sujeto como su propio control queda reducida la varianza de error
y, además, se necesitan menos sujetos para obtener la misma información. Dado que el
sujeto tiene más de dos medidas, se utilizará el análisis de varianza, en lugar de utilizar
el estadístico t, para analizar las diferencias entre dichas medidas.

Para conocer el procedimiento a seguir por este tipo de análisis vamos a partir de un
ejemplo propuesto por Winer (1971) que se describe a continuación:

Un investigador pretende evaluar el efecto de 4 drogas (variable independiente) sobre el


tiempo de reacción (variable dependiente) en una tarea determinada. Participaron en el
experimento 5 sujetos (n = 5) y todos fueron entrenados en este tipo de tareas antes de
realizar el experimento. Por otro lado, los 5 sujetos fueron seleccionados aleatoriamente
de la población de interés del investigador.

174
Los resultados obtenidos por el investigador fueron los siguientes:

Sujetos Droga 1 Droga 2 Droga 3 Droga 4


1 30 28 16 34
2 14 18 10 22
3 24 20 18 30
4 38 34 20 44
5 26 28 14 30

A nivel estadístico el investigador pretende comprobar la hipótesis nula de que el tiempo


de reacción no difiere significativamente en función del tipo de droga que se le
administre al sujeto.

El análisis de varianza para la comprobación de esta hipótesis mediante SPSS requiere,


como hemos visto en los casos anteriores, crear un archivo de datos. A este archivo de
datos le vamos a denominar repe1.sav. Una vez introducidos los datos, la ventana del
editor de datos de SPSS debe tener este aspecto:

Las cuatro variables del archivo de datos (de var00001 a var00004) contienen la medida
del tiempo de reacción de cada uno de los sujetos bajo cada una de las drogas (variable
independiente). Por su parte, cada fila contiene las puntuaciones de un sujeto en todas
las condiciones experimentales, o lo que es lo mismo, en cada tipo de droga.

En un experimento de medidas repetidas, como en la mayoría de las ocasiones, la


descripción de las variables constituye un primer paso en el análisis estadístico de los
datos. La media y la desviación típica son dos estadísticos muy apropiados para este fin.

175
Si solicita un análisis descriptivo (ver apartado 5.1.6) para las 4 variables del archivo de
datos obtendrá los siguientes resultados:

Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.


VAR00001 5 14.00 38.00 26.4000 8.7636
VAR00002 5 18.00 34.00 25.6000 6.5422
VAR00003 5 10.00 20.00 15.6000 3.8471
VAR00004 5 22.00 44.00 32.0000 8.0000
N válido (según lista) 5

Como puede ver, el tiempo de reacción medio más bajo (15,60) corresponde a la
administración de la droga 3 (var00003) y el más alto (32,00) para la droga 4
(var00004). Así pues, existen diferencias en el tiempo de reacción en función de la
droga administrada. Sin embargo, el análisis descriptivo de los datos no nos proporciona
indicios acerca de la significación estadística de estas diferencias; para conocer ésta
debemos efectuar un análisis de varianza.

Para llevar a cabo un análisis de varianza de medidas repetidas para las 4 condiciones
experimentales (4 drogas), seleccione en el menú la opción Analizar. A continuación,
seleccione la opción Modelo lineal general. Finalmente, seleccione la opción Medidas
repetidas. Aparecerá este cuadro de diálogo:

Por defecto, SPSS llamará factor1 al factor intra-sujetos o factor intragrupo, pero es
posible asignarle un nombre diferente. Dado que queremos ver el efecto de cuatro
drogas diferentes, llamaremos droga al factor intra-sujetos. A continuación se nos pide
el número de niveles de la variable independiente. El número de niveles es 4, uno por
cada tipo de droga que fue administrada a los sujetos. Introduzca, pues, un 4 en la
casilla. Una vez definido el factor, pulse el botón "Añadir" y, a continuación, pulse el
botón Definir. Aparecerá el siguiente cuadro de diálogo:

176
En la zona izquierda del cuadro de diálogo aparecen las cuatro variables de nuestro
archivo de datos, que debemos corresponder con cada una de las cuatro variables o
niveles del factor intra-sujetos droga. Seleccione, pues, todas las variables, e
introdúzcalas en la casilla correspondiente a Variables intra-sujetos pulsando el botón
con forma de flecha que apunta hacia esta casilla.

En la parte inferior del cuadro de diálogo aparecen una serie de botones que nos
permiten llevar a cabo especificaciones adicionales. Con las especificaciones que
efectuadas ya podríamos solucionar el ejemplo planteado, asumiendo las
especificaciones que el programa asume por defecto. Sin embargo, veamos antes las
especificaciones para el modelo de análisis de varianza de medidas repetidas. Para ello,
pulse el botón Modelo. Aparecerá este cuadro de diálogo:

177
SPSS lleva a cabo por defecto un modelo Factorial completo, que ofrece los efectos
principales de los factores Intra-sujetos (en nuestro caso, el factor droga) e Inter-sujetos
(que no existe en nuestro ejemplo), así como las interacciones entre los distintos
factores en el caso del análisis de varianza de dos o más factores. En el caso de un
factor, como el de nuestro ejemplo, el programa ofrece dos tablas de efectos: una que
contiene el efecto del factor intrasujetos y otra para el efecto intersujetos. Además, se
selecciona como prueba intrasujetos únicamente el valor de F, que se muestra por
defecto junto con las pruebas multivariadas, que no comentaremos aquí. Para salir de
este cuadro de diálogo sin efectuar ninguna modificación pulse el botón Cancelar.

Pulse ahora, en el cuadro de diálogo del análisis de medidas repetidas, el botón Aceptar.
El visor de resultados le mostrará varias tablas. De todas ellas vamos a detenernos sólo
en la que nos interesa, aquella que contiene las pruebas de efectos intra-sujetos:

Pruebas de efectos intra-sujetos.

Medida: MEASURE_1
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
DROGA Esfericidad asumida 698.200 3 232.733 24.759 .000
Greenhouse-Geisser 698.200 1.815 384.763 24.759 .001
Huynh-Feldt 698.200 3.000 232.733 24.759 .000
Límite-inferior 698.200 1.000 698.200 24.759 .008
Error(DROGA) Esfericidad asumida 112.800 12 9.400
Greenhouse-Geisser 112.800 7.258 15.540
Huynh-Feldt 112.800 12.000 9.400
Límite-inferior 112.800 4.000 28.200

Observemos los valores con esfericidad asumida. Se observa que el valor estadístico F
(cociente entre la Media cuadrática DROGA (232.733) y la Media cuadrática del error
(9.4)) tiene un valor de 24.759 con una probabilidad asociada menor que .001. Como

178
esta probabilidad es menor que .05 se puede rechazar la hipótesis nula y afirmar que
existen diferencias significativas entre los tiempos de reacción correspondientes a las
cuatro drogas. Así, se podría interpretar este resultado diciendo que el tiempo de
reacción de los sujetos varía en función del tipo de droga que consuman.

En caso de que nos interesase averiguar entre qué tipos de droga existen realmente
diferencias significativas, tendríamos que solicitar la comparación de los efectos
principales para cada tipo de droga. Sin embargo, esta explicación excede el objetivo
que nos hemos propuesto. Baste concluir que una revisión de las medias para cada tipo
de droga nos permite decir que el tiempo de reacción de este grupo de sujetos es
sensiblemente inferior bajo los efectos de la droga 3.

12.2. Análisis de varianza de dos factores con medidas repetidas

Como hemos visto, anteriormente, el diseño de medidas repetidas de un factor es un


caso particular del diseño en el que a un grupo de sujetos se le administran todos los
niveles de la variable independiente. Por tanto, cada sujeto participa en todas las
condiciones experimentales. Sin embargo, el investigador tiene la posibilidad de
planificar experimentos con dos o más factores en los que intervengan los mismos
sujetos (el mismo grupo de sujetos) de modo que, al igual que en el caso anterior, todos
los sujetos son sometidos a todas las combinaciones posibles de los niveles de todos los
factores. Pues bien, en este apartado vamos a tratar dos tipos de diseños factoriales de
medidas repetidas:

a) Diseño de dos factores con medidas repetidas en ambos.


b) Diseño de dos factores con medidas repetidas en uno de ellos.

Al igual que en el caso anterior, nos vamos a servir de un ejemplo para desarrollar el
procedimiento, llevando a cabo un análisis factorial de la varianza de medidas repetidas.
Se procederá, asimismo, tanto a interpretar los resultados como a indicar el
procedimiento de cálculo manual.

El ejemplo, tomado de San Martín y Pardo (1989) plantea lo siguiente:

En un estudio sobre memoria se registró el nº de errores de 6 sujetos bajo condiciones de


recuerdo (a1) y de reconocimiento (a2) y en distintos intervalos temporales: b1 (después
de una hora), b2 (después de un día) y b3 (después de una semana). Los resultados se
presentan en la tabla siguiente:

a1 a2
Sujetos b1 b2 b3 b1 b2 b3
1 4 5 7 1 2 4
2 6 8 10 3 6 6
3 1 6 5 3 5 4
4 2 10 12 1 4 7
5 5 10 10 5 6 5
6 1 7 8 2 8 7

179
Para llevar a cabo el análisis de varianza de estos datos mediante SPSS crearemos un
archivo de datos al que llamaremos repe2.sav. La ventana del editor tendrá este aspecto:

Para mayor claridad se ha puesto nombre a las seis variables del archivo de datos, de
forma que puedan ser identificadas más fácilmente en el diseño (si no recuerda cómo
cambiar el nombre a una variable, consulte el Apartado 3.2).

Al observar este archivo se puede ver que la disposición de los datos es la misma que en
el caso de medidas repetidas en un factor; es decir, cada fila contiene las puntuaciones
de un sujeto bajo todas las condiciones de tratamiento. En el ejemplo que nos ocupa los
6 sujetos reciben todas las combinaciones de los factores A y B (A con dos niveles y B
con tres).

La media y la desviación típica son dos estadísticos que pueden facilitarnos la


interpretación de los datos. Si solicita ambos para las 6 variables del archivo de datos
obtendrá los siguientes resultados:

180
Estadísticos descriptivos

N Mínimo Máximo Media Desv. típ.


A1B1 6 1.00 6.00 3.1667 2.1370
A1B2 6 5.00 10.00 7.6667 2.0656
A1B3 6 5.00 12.00 8.6667 2.5033
A2B1 6 1.00 5.00 2.5000 1.5166
A2B2 6 2.00 8.00 5.1667 2.0412
A2B3 6 4.00 7.00 5.5000 1.3784
N válido (según lista) 6

Los siguientes pasos para el análisis son básicamente los mismos que los efectuados en
el caso de un factor con medidas repetidas. Seleccionaremos la opción Analizar, dentro
de ésta la opción Modelo lineal general y, finalmente, la opción Medidas repetidas.
Aparecerá el cuadro de diálogo inicial del procedimiento, que nos permite definir un
nombre para cada uno de los factores intra-sujetos, así como el número de niveles de los
mismos.En este caso definimos primero al factor A (condiciones de reconocimiento o de
recuerdo). Como nombre del factor escriba facta. Indique a continuación el número de
niveles, que son 2. Una vez definido este factor pulse el botón Añadir y pasaremos a
definir el factor B (intervalo temporal : 1 hora - 1 día - 1 semana). Como nombre del
factor escriba factb e indique el número de niveles, que son 3. Pulse de nuevo el botón
Añadir. El cuadro de diálogo tendrá este aspecto:

A continuación, pulse el botón Definir para salir de este cuadro de diálogo. Aparecerá la
ventana del análisis de medidas repetidas propiamente dicho, que usted ya conoce.
Seleccione todas las variables del archivo de datos de la casilla situada en la zona
izquierda del cuadro de diálogo e introdúzcalas en el recuadro donde deben introducirse
las Variables intra-sujetos. El cuadro de diálogo debe tener ahora este aspecto:

181
Observe que el orden de las variables coincide con la combinación de niveles para los
factores A y B (1-1, 1-2, 1-3, 2-1, 2-2, 2-3). Esto facilita la especificación de qué variable
contiene qué combinación de efectos. De no encontrarse las variables ordenadas en el
archivo de datos, la operación anterior debe efectuarse con cuidado para no cometer
errores en la asignación de variables. Para llevar a cabo el análisis pulse ahora Aceptar.
Obtendrá de nuevo varias tablas, de las que vamos a comentar aquí únicamente la que
más nos interesa, que es la que contiene las pruebas de efectos intra-sujetos:

182
Pruebas de efectos intra-sujetos.

Medida: MEASURE_1
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
FACTA Esfericidad asumida 40.111 1 40.111 8.167 .035
Greenhouse-Geisser 40.111 1.000 40.111 8.167 .035
Huynh-Feldt 40.111 1.000 40.111 8.167 .035
Límite-inferior 40.111 1.000 40.111 8.167 .035
Error(FACTA) Esfericidad asumida 24.556 5 4.911
Greenhouse-Geisser 24.556 5.000 4.911
Huynh-Feldt 24.556 5.000 4.911
Límite-inferior 24.556 5.000 4.911
FACTB Esfericidad asumida 125.389 2 62.694 17.772 .001
Greenhouse-Geisser 125.389 1.589 78.920 17.772 .002
Huynh-Feldt 125.389 2.000 62.694 17.772 .001
Límite-inferior 125.389 1.000 125.389 17.772 .008
Error(FACTB) Esfericidad asumida 35.278 10 3.528
Greenhouse-Geisser 35.278 7.944 4.441
Huynh-Feldt 35.278 10.000 3.528
Límite-inferior 35.278 5.000 7.056
FACTA * FACTB Esfericidad asumida 10.056 2 5.028 5.419 .025
Greenhouse-Geisser 10.056 1.300 7.732 5.419 .050
Huynh-Feldt 10.056 1.569 6.411 5.419 .039
Límite-inferior 10.056 1.000 10.056 5.419 .067
Error(FACTA*FACTB) Esfericidad asumida 9.278 10 .928
Greenhouse-Geisser 9.278 6.502 1.427
Huynh-Feldt 9.278 7.843 1.183
Límite-inferior 9.278 5.000 1.856

De nuevo observemos los resultados para esfericidad asumida. Dado que se estudia el
efecto de dos factores se obtienen 3 valores de F (uno para cada factor y otro para la
interacción), significativos en todos los casos. Esto es, existe un efecto significativo del
factor A (F(1,5)=8.167; p<.035); un efecto significativo del factor B (F(2,10)=17.77,
p<.001) y, también resultó significativa la interacción AxB (F(2,10)= 5.419, p<.025).

En lo que se refiere a la interpretación de estos resultados para nuestros datos, el efecto


significativo del factor A indicaría que el número de errores es significativamente mayor
bajo condiciones de recuerdo (a1) que bajo condiciones de reconocimiento (a2).
Efectivamente, si observa las medias para las 6 variables, verá que la media de a1b1 es
mayor que la de a2b1, que la media de a1b2 es mayor que la de a2b2, y que la media de
a1b3 es mayor que la de a2b3. Por su parte, el efecto significativo del factor B indicaría
que el número de errores es significativamente mayor cuanto mayor es el intervalo
temporal transcurrido. Observe de nuevo las medias para las 6 variables. Tanto en el
caso de a1b1, a1b2 y a1b3 como en el caso de a2b1, a2b2 y a2b3, la media de errores
es mayor al cabo de una semana (b3) que al cabo de un día (b2), y es más pequeña al
cabo de una hora (b1). Finalmente, el efecto de interacción significativo indicaría que el
efecto del tiempo sobre el número de errores es más importante bajo condiciones de
reconocimiento que bajo condiciones de recuerdo o, dicho de otra manera, que la
diferencia entre ambas condiciones se hace más patente cuanto mayor es el intervalo
temporal transcurrido. Observe, en la tabla de medias para las 6 variables, que la
diferencia entre las medias de a1b1 y a2b1 es pequeña (3,17 - 2,50 = 0,67), mientras que
la diferencia entre las medias de a1b3 y a2b3 es mucho mayor (8,67 - 5,50 = 3,17).

183
13. Introducción al Análisis de Covarianza

Mª José Ferraces
Mª Soledad Rodríguez
Elena Andrade

Con el análisis de varianza de un factor se pretende investigar el efecto de una variable


independiente (cualitativa) sobre una variable dependiente (cuantitativa). Bajo la
perspectiva de este modelo de análisis estadístico, se supone que la variable dependiente
es función únicamente de la variable independiente. Es decir, no se contempla la
posibilidad de que existan interferencias de otras variables que también puedan, de
forma simultánea, tener influencia sobre la variable dependiente.

De forma más concreta, cuando en el apartado 8.1 de este libro se utilizaba el análisis de
varianza de un factor para investigar el efecto de tres métodos de enseñanza (variable
independiente), se simplificaba en exceso el análisis de relaciones, en el sentido de que
se asumía que el rendimiento académico dependía solamente del método de enseñanza.
En efecto, el método de enseñanza puede influir sobre el rendimiento académico, pero
también existen otras variables concomitantes que pueden asimismo producir
diferencias en el rendimiento académico entre unos estudiantes y otros, y que no fueron
contempladas. Ejemplos de estas variables podrían ser la inteligencia de los estudiantes,
la motivación para el estudio o la calidad del profesorado. A estas variables se las
denomina variables extrañas o, todavía más específicamente, covariables.

En el presente capítulo del libro se hace una introducción al análisis de varianza cuando
se desea investigar la influencia de una variable independiente sobre una variable
dependiente, reduciendo, anulando o eliminando el efecto de una covariable. Tal como
indica el título del capítulo, a este tipo particular de análisis de la varianza se le
denomina análisis de covarianza. A veces, abreviadamente, también se le denomina
ANCOVA (ANalysis of COVAriance). La covariable, al igual que la variable
dependiente, es de naturaleza cuantitativa.

13.1. Ancova con una covariable

A continuación se ofrece un pequeño ejemplo numérico, mediante el cual se pretende


ilustrar el análisis de covarianza en su versión más simple; esto es, cuando se introduce
en el análisis una sola covariable.

Supongamos que un investigador pretende estudiar la influencia de tres métodos de


enseñanza distintos sobre el rendimiento académico de los alumnos de primero de
B.U.P. en la asignatura de matemáticas. El investigador sospecha que el rendimiento
académico puede verse influido no sólo por el método de enseñanza utilizado, sino
también por la inteligencia de los estudiantes.

En el ejemplo, la variable independiente es el método de enseñanza, con tres niveles


(método 1, método 2 y método 3), la variable dependiente es el rendimiento académico

184
en la asignatura de matemáticas, y la covariable es la inteligencia de los alumnos. El
objetivo del investigador es estudiar la relación entre los tres métodos de enseñanza y el
rendimiento académico, apartando el posible efecto que sobre esta relación pudiese tener
la inteligencia.

Asumamos que procede de la siguiente manera para satisfacer este objetivo. Elige una
muestra de 15 sujetos. Luego asigna aleatoriamente 5 de estos sujetos a cada método de
enseñanza, con el que trabajan durante todo el curso. A final de curso, registra la
calificación obtenida por los alumnos en la mencionada materia y, además, les
administra un test de inteligencia, mediante el cual obtiene su cociente intelectual
(abreviadamente, C.I.).

A continuación se ofrecen los resultados supuestamente obtenidos por estos 15 sujetos


en ambas pruebas (matemáticas e inteligencia).

Método A C.I. Método B C.I. Método C C.I.


07 102 05 092 05 082
09 112 08 122 06 102
09 112 07 112 08 132
10 132 06 102 07 102
08 102 07 112 09 122

Para analizar estos datos mediante SPSS crearemos un archivo de datos, al que
llamaremos ancova.sav. Una vez introducidos los datos, la ventana del editor de SPSS
tendrá este aspecto:

185
El archivo de datos contiene tres variables. La primera de ellas, metodo, identifica el
método de enseñanza de las matemáticas (1, 2 ó 3) al que fue asignado cada uno de los
15 alumnos. La segunda variable, rendim, contiene las calificaciones obtenidas por los
alumnos en el examen final de matemáticas. Por último, la variable ci contiene los
valores del cociente intelectual obtenidos por los alumnos en la prueba de inteligencia.

La hipótesis que pretende comprobar el profesor es que el rendimiento de los estudiantes


no difiere en función del método de enseñanza que siguió. Pues bien, para comprobar
esta hipótesis mediante el análisis de covarianza en SPSS daremos los siguientes pasos:

Seleccione la opción Analizar. A continuación, seleccione la opción Modelo lineal


general y, dentro de ésta, la opción Univariante. Aparecerá el siguiente cuadro de
diálogo:

En la zona izquierda del cuadro de diálogo aparece las variables del archivo de datos. A
la derecha de esta lista hay una serie de casillas. Debe colocar cada variable en la casilla
correspondiente. Seleccione, en primer lugar, la variable rendim e introdúzcala en la
casilla etiquetada con la palabra Dependiente. A continuación, seleccione la variable
metodo e introdúzcala en la casilla etiquetada como Factores fijos. Finalmente,
seleccione la variable ci e introdúzcala en la casilla etiquetada con la palabra
Covariables. Ahora ya ha definido todas las variables del modelo.

A la hora de comparar los resultados obtenidos por los distintos métodos, es de gran
ayuda obtener las medias estimadas para cada grupo. Para obtener esta información,
pulse ahora el botón Opciones. En el cuadro de diálogo que aparece seleccione la
variable metodo e introdúzcala en la casilla etiquetada Mostrar las medias para. De este
modo, se mostrarán el el visor de resultados, para cada método de enseñanza, las medias

186
en la variable dependiente rendim. Una vez efectuado este cambio, el cuadro de diálogo
tendrá este aspecto:

Pulse ahora el botón Continuar y, a continuación, pulse el botón Aceptar. El visor de


resultados le mostrará la siguiente tabla:

Pruebas de los efectos inter-sujetos

Variable dependiente: RENDIM


Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
Modelo corregido 28.224a 3 9.408 30.656 .000
Intersección .414 1 .414 1.350 .270
CI 17.024 1 17.024 55.474 .000
METODO 7.545 2 3.773 12.293 .002
Error 3.376 11 .307
Total 853.000 15
Total corregida 31.600 14
a. R cuadrado = .893 (R cuadrado corregida = .864)

En la primera columna de la tabla se indican las fuentes de variación. De todas ellas, son
dos las que nos interesan especialmente.

1. En primer lugar, el efecto de la covariable ci sobre la variable dependiente arrojó un


valor F de 55.474, con una probabilidad asociada p<.001. Este resultado indica que

187
se realizó un control adecuado de la covariable, lo que permite separar la influencia
de la variable independiente de la influencia de la covariable.
2. En segundo lugar, el efecto de la variable independiente metodo sobre la variable
dependiente; es decir, sobre la calificación obtenida en el examen de matemáticas.
Como puede observarse en la tabla, el valor F obtenido fue estadísticamente
significativo (F= 12.29; p< .002). Este resultado nos indica que, una vez apartado el
efecto de la inteligencia, se encontró que los métodos de enseñanza producen por sí
solos diferencias en el rendimiento académico de los alumnos. Para saber entre qué
métodos existen diferencias significativas podría ahora aplicar una prueba de
comparaciones a posteriori como la ya vista en el apartado 8.1, dedicado al análisis
de varianza de un factor.

Finalmente, el listado nos ofrece también la tabla solicitada con las medias marginales
estimadas en la nota final (variable dependiente) para cada uno de los tres métodos de
enseñanza de las matemáticas (variable independiente). Estas medias estimadas han sido
también corregidas en cuanto al efecto de la covariable ci, con lo que se evita la
posibilidad de que nos lleven a confusión. Las notas medias obtenidas nos permiten
concluir que el mejor resultado (independientemente de su capacidad intelectual) lo
obtuvieron los alumnos del grupo que recibió el método de enseñanza número uno.

METODO

Variable dependiente: RENDIM


Intervalo de confianza al
95%.
Límite
METODO Media Error típ. Límite inferior superior
1.00 8.386a .249 7.837 8.935
2.00 6.707a .248 6.161 7.253
3.00 7.107a .248 6.561 7.653
a. Evaluado respecto a cómo aparecen las covariables en el
modelo: CI =109.3333.

188
14. ANÁLISIS FACTORIAL

Gloria Seoane
Mª Soledad Rodríguez

El análisis factorial es una técnica matemático-estadística que se utiliza para


determinar la estructura de las relaciones que se dan entre grupos de variables.

Esta técnica se encuadraría dentro del Análisis Multivariado y su objetivo consiste en


reducir un conjunto de variables originales a un conjunto menor de variables
abstractas, latentes (denominadas factores), para conseguir una mejor interpretación
de los datos.

En otros apartados de este libro se hizo referencia al interés que tiene el estudio de la
relación entre variables, ya que ello facilita uno de los objetivos prioritarios que tiene
la investigación científica: la predicción de fenómenos. En aquel momento se
desarrolló lo concerniente a correlación y regresión y ahora nos centraremos en el
análisis factorial, que puede considerarse como una extensión del análisis de
correlación visto hasta ahora.

Nunnally (1995, pág. 509) a este respecto, señala que tanto la correlación múltiple
como el análisis factorial relacionan una combinación lineal de variables con un
criterio. La diferencia es que en la regresión múltiple los predictores y el criterio son
entidades distintas, pero en el análisis factorial los predictores (factores) están
definidos al menos de modo parcial por los criterios (variables).

Aunque esta técnica fue desarrollada originariamente por psicólogos, posteriormente


fue estudiada por estadísticos y matemáticos, lo que contribuyó a que su uso se
extendiese a otras disciplinas.

Existen diferentes enfoques o modelos de análisis factorial, pudiendo ser utilizados


con fines puramente descriptivos (modelos exploratorios) o con fines explicativos
(modelos confirmatorios). Nosotros abordaremos, desde un punto de vista
estrictamente aplicado, el modelo exploratorio más usual.

Gorsuch (1988) establece los siguientes criterios para la selección de sujetos y


variables a utilizar en un análisis factorial:

1. Deben de usarse tamaños muestrales grandes para asegurarse de que los


agrupamientos no son efecto del error de muestreo.
2. También es importante la composición de la muestra. Si la muestra es más o menos
homogénea las magnitudes de las correlaciones se verán afectadas.
3. Cuantas más observaciones haya en relación con el número de variables mejor será.
4. Debe tenerse en cuenta que el procedimiento factorial elegido se adecue a la
naturaleza de las variables.

189
Para explicar la técnica, vamos un partir de un ejemplo en el que se miden 14 países
en un total de 7 variables socioeconómicas:

1. DEPO: Densidad de población.


2. EMAG: Porcentaje de personas empleadas en agricultura.
3. INNA: Ingresos nacionales per cápita.
4. INRC: Inversión de rendimiento de capital en maquinaria.
5. MOIN: Tasa de mortalidad infantil.
6. ENER: Consumo de energía por 100 habitantes.
7. APTV: Nº de aparatos de televisión por 100 habitantes.

Como ya hemos comentado anteriormente, el objetivo del análisis factorial será


reducir estas 7 variables socioeconómicas a un nº menor de variables abstractas, que
en lo sucesivo denominaremos factores. Idealmente, los factores deberán contener la
mayor proporción de varianza explicada por las variables observadas. Si bien es cierto
que al reducir el número de variables siempre disminuye la proporción de varianza
total explicada, la finalidad es encontrar aquella solución que explique la mayor
proporción de ésta.

Aunque la matriz central en el análisis factorial es la matriz de correlaciones (matriz


R), pudiendo ser ésta la matriz de entrada para ejecutar el análisis, partiremos como se
hace habitualmente de la denominada matriz de datos (matriz X) en la que las filas
describen a cada uno de los sujetos y las columnas a cada una de las variables. Los
sujetos podrán ser, o bien sujetos humanos, o bien cualquier clase de objetos o
entidades sobre los que se realizan mediciones. De igual forma, las variables podrán
referirse a cualquier atributo que sea cuantificable. En nuestro ejemplo los sujetos son
los países y las variables son características socioeconómicas de éstos; por tanto, la
matriz X es una matriz de orden 14x7. Cada elemento, Xij, de esta matriz será la
puntuación original de cada país (i) en las diferentes variables (j).

Para nuestro ejemplo, la matriz X que se utilizará como entrada al análisis factorial es
la siguiente:

PAÍSES DEPO EMAG INNA INRC MOIN ENER APTV


1.Australia 2 6 8,4 10,1 12 5,2 36
2. Francia 97 9 10,7 9,2 10 3,7 28
3. Alemania 247 6 12,4 9,1 15 4,6 33
4. Grecia 72 31 4,1 8,1 19 1,7 12
5. Islandia 2 13 11,0 6,6 11 5,8 25
6. Italia 189 15 5,7 7,9 15 2,5 22
7. Japón 311 11 8,7 10,9 8 3,3 24
8. Nueva Zelanda 12 10 6,8 8,0 14 3,4 26
9. Portugal 107 31 2,1 5,5 39 1,1 9
10. España 74 19 5,3 6,9 15 2,0 21
11. Suecia 18 6 12,8 7,2 7 6,3 37
12. Turquía 56 61 1,6 8,8 153 0,7 5
13. Reino Unido 229 3 7,2 9,3 13 3,9 39
14. Estados Unidos 24 4 10,6 7,3 13 8,7 62

190
14.1. Ejecución del Análisis Factorial

En primer lugar, debemos introducir los datos de la matriz X, mostrada en la tabla


anterior, en un archivo de datos de SPSS, al que llamaremos pais.sav. Una vez
introducidos los datos, la ventana del editor de datos deberá tener este aspecto:

La primera variable, etiquetada como paises, no forma parte propiamente de la matriz


X; simplemente nos informa del país al que pertenece cada fila de datos. Las 7
variables restantes contienen los indicadores socioeconómicos que ya hemos
comentado.

A partir de la matriz de entrada X, los pasos más importantes a seguir de cara a


conseguir la solución factorial son cuatro:

1. Obtención de R.
2. Extracción de factores.
3. Rotación de factores.
4. Obtención de Puntuaciones factoriales.

Estos serán, también, los distintos pasos que tendremos que ir seleccionando
consecutivamente para ejecutar el análisis factorial con SPSS. Para acceder al cuadro
de diálogo del procedimiento de análisis factorial seleccione, en el menú, la opción
Analizar; a continuación, seleccione la opción Reducción de datos y, finalmente,
seleccione la opción Análisis factorial. En el cuadro de diálogo que aparece a
continuación, seleccione las siete variables que contienen los indicadores

191
socioeconómicos e introdúzcalas, pulsando la tecla con forma de flecha, en la casilla
etiquetada Variables. El cuadro de diálogo tendrá este aspecto:

Veamos, en primer lugar, cómo debemos de proceder, a partir de este momento, para
ejecutar el análisis y, a continuación, haremos la interpretación de los resultados que
hemos obtenido.

Una vez introducidos los datos y seleccionadas las variables a analizar, la solución al
análisis factorial se obtiene siguiendo los cuatro pasos mencionados anteriormente.
Cada uno de estos pasos aparece recogido en la parte inferior de la ventana principal
mediante los botones etiquetados como Descriptivos, Extracción, Rotación y
Puntuaciones.

Aunque el programa tiene muchas opciones, nosotros seleccionaremos aquellas que


son imprescindibles para poder entender el objetivo que tiene el análisis factorial e
interpretar los resultados. Veamos la información que se ofrece bajo cada uno de estos
pasos, siguiendo nuestro ejemplo.

El primer paso del análisis factorial tiene como principal finalidad obtener la matriz de
correlaciones entre variables (matriz R). Para ello, pulse el botón Descriptivos.
Aparecerá el siguiente cuadro de diálogo:

192
Para obtener la matriz de correlaciones basta con seleccionar la opción Coeficientes en
el recuadro etiquetado como Matriz de correlaciones. Si además solicita los Niveles
de significación obtendrá la significación estadística de cada uno de los coeficientes
de correlación. Seleccione también la opción Descriptivos univariados en el recuadro
etiquetado como Estadísticos, con el fin de obtener la media y desviación típica de
cada una de las variables del análisis. Pulse seguidamente el botón Continuar.

Como ya señalamos anteriormente, el objetivo del análisis factorial es obtener


agrupaciones de variables en función, lógicamente, de la relación que se de entre ellas
en R. De este modo, la magnitud y significación de los coeficientes de correlación
obtenidos determinará las agrupaciones de las variables en el siguiente paso del
análisis: la extracción de factores.

Otro aspecto importante a señalar en R es lo que se denomina Varianza total (VT) de


la matriz, también conocida como huella de la matriz. La varianza total de R refleja la
cantidad de información que contiene la matriz y se obtiene mediante la suma de
cuadrados de los elementos de la diagonal principal. En nuestro ejemplo, la VT de R
coincide con el número de variables que tenemos en el análisis.

VT= 12 + 12 + 12 + 12 + 12 + 12 +12 = 7

El siguiente paso, la extracción de factores, tiene como objetivo agrupar las variables
originales en otras variables abstractas denominadas factores. Estas agrupaciones de
variables se hacen, tal como indicamos, a partir de las relaciones dadas en la matriz de
correlaciones.

Para ejecutar este paso, pulse ahora el botón etiquetado Extracción. Aparecerá el
siguiente cuadro de diálogo:

193
Hay distintos métodos de extracción, en este caso seguiremos el denominado
componentes principales, que es el más utilizado. Situándonos en la flecha que está a
la derecha del método especificado, podremos ver otros métodos de extracción
disponibles (mínimos cuadrados no ponderados, mínimos cuadrados generalizados,
máxima verosimilitud, ejes principales, alfa e imagen).

El método de componentes principales es un método iterativo que consiste en ir


conformando los factores (agrupaciones de variables) uno a uno, de forma que el
primer factor estará explicado fundamentalmente por aquel grupo de variables que
dada su relación, contienen mayor cantidad de la varianza total de R. Una vez extraído
este factor y partiendo de lo que se denomina primera matriz residual (matriz R que ya
no contiene toda su Varianza Total) extraemos el segundo factor, formado por la
segunda agrupación de variables, que aportará a la nueva matriz menor cantidad de
Varianza Total que el primero.

Este proceso se repetirá hasta "pasar" toda la información contenida en R (Varianza


Total) a la nueva matriz denominada Matriz Factorial (matriz A), que tendrá tantos
factores como variables tengamos en el análisis, en nuestro ejemplo 7. Como se
observa en la pantalla, el número máximo de iteraciones permitidas para alcanzar la
solución es igual a 25, aunque este número puede ser ampliado.

El análisis factorial es una técnica de reducción de datos. Por lo tanto, un criterio que
debe cumplir toda matriz factorial es la de parsimonia: concentrar y explicar el
máximo de información en el menor número de factores posible. De este modo la
matriz factorial tal cual se extrae tendrá unos factores, los primeros, que deben
contener la mayor parte de la información (de la Varianza Total de R) y que se
denominan factores significativos, y otro grupo de factores que contendrían el resto de
información, denominados factores no significativos.

¿Qué criterio podemos utilizar para considerar un factor como significativo?. Gorsuch
(1988) señala que no existe ningún criterio riguroso y preciso para la selección de
factores significativos. Tradicionalmente, el criterio más utilizado es el de Kaiser-
Guttman, que considera factores significativos aquellos que contengan, al menos, un
autovalor (λ) igual o mayor que 1. Este criterio es el que, por defecto, está

194
implementado en el programa que estamos utilizando. Para salir de este cuadro de
diálogo, pulse el botón Continuar.

Concluida la extracción de factores, el siguiente paso consiste en rotar la matriz


factorial (matriz A) obtenida en el paso anterior. Para acceder a la rotación de factores,
pulse ahora el botón etiquetado como Rotación. Aparecerá el siguiente cuadro de
diálogo:

La rotación de factores tiene como finalidad fundamental facilitar la interpretación de


los factores de la matriz factorial anterior. Solamente entrarán en este procedimiento
aquellos factores que, en A, hayamos tomado como significativos. Por tanto,
rotaremos los factores significativos de la matriz factorial A para que, en la medida de
lo posible, la información en ella contenida nos resulte más fácilmente interpretable.
A la matriz factorial rotada se la conoce como matriz F.

Al igual que hemos señalado que existen varios procedimientos de extracción de


factores, también hay diferentes métodos de Rotación que genéricamente se agrupan
en Ortogonales (Varimax) y Oblicuos (Oblimin directo). La diferencia fundamental
entre ambos es que los métodos de rotación ortogonal producen factores
independientes entre sí, mientras que los métodos oblicuos persiguen poner de
manifiesto la posible relación existente entre factores. Otra diferencia se refiere a la
posibilidad que ofrece la rotación oblicua para la ejecución de un análisis factorial de
2º orden. En este ejemplo, seguiremos el procedimiento de rotación ortogonal de uso
más frecuente, denominado varimax. Seleccione, pues, la opción Varimax.

En la rotación se pretende ajustar lo mejor posible los factores significativos de A a lo


que se denomina Principio de Estructura Simple de Thurstone. Este principio propone
lo siguiente:

1. Cada factor contendrá el menor número posible de cargas significativas.


2. La distribución de cargas altas y bajas en los factores será diferente.

Esto se traduce en maximizar las cargas que son significativas en los factores y
minimizar las cargas no significativas. Por maximizar y minimizar entenderemos
aproximarlas a 1 y a 0, respectivamente.

195
Realmente, los objetivos que pretende el análisis factorial estarían cumplidos en el
paso anterior (la rotación), es decir, cuando obtenemos la matriz factorial rotada
(matriz F), en la que aparecen claramente las agrupaciones de variables que se han
dado (factores) partiendo de nuestros datos originales (matriz X).

Efectivamente, si uno de los objetivos del análisis es explicar el máximo de


información en el menor nº de factores posibles, en nuestro ejemplo, en el que
habíamos partido de una matriz con 7 variables habremos llegado a una nueva matriz
en la que el orden se ha reducido a los factores significativos. Se ha cumplido, pues, la
característica de parsimonia.

Sin embargo, vamos a referirnos a continuación a otra matriz, denominada matriz de


puntuaciones factoriales que puede ayudarnos a profundizar en la interpretación,
ofreciéndonos además la posibilidad de dar un paso más en el análisis. Pulse ahora el
botón Continuar para salir del cuadro de diálogo de rotación. Seguidamente, pulse el
botón etiquetado como Puntuaciones. Aparecerá el siguiente cuadro de diálogo:

En la matriz de puntuaciones factoriales, guardadas como variables nuevas en nuestro


fichero de datos, se mostrarán las puntuaciones tipificadas que cada uno de los sujetos
(en nuestro caso, países) obtiene en cada uno de los factores significativos de la matriz
factorial anterior (matriz F). Para obtener la matriz de puntuaciones factoriales,
seleccione la opción Guardar como variables.

Explicaremos, a continuación , los resultados correspondientes a cada uno de estos


momentos y paralelamente haremos la interpretación de los mismos. Pulse ahora el
botón Continuar y, a seguidamente, pulse el botón Aceptar. El visor de resultados nos
mostrará una serie de tablas que pasamos a comentar.

14.2. Resultados e interpretación

14.2.1. Descriptivos

Lo primero que se ofrece en la ventana de resultados son los estadísticos descriptivos


media y Desviación típica para las 7 variables analizadas:

196
Estadísticos descriptivos

Desviación N del
Media típica análisis
DENSIDAD DE POBLACIÓN 102.86 101.33 14
% PERSONAS EMPLEADAS EN AGRICULTURA 16.07 15.73 14
INGRESOS NACIONALES PER CAPITA 7.671 3.619 14
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA 8.207 1.462 14
TASA DE MORTALIDAD INFANTIL 24.57 37.75 14
CONSUMO DE ENERGÍA POR 100 HABITANTES 3.779 2.211 14
APARATOS DE TV POR 100 HABITANTES 27.07 14.40 14

A continuación se muestra la matriz R de correlaciones y sus niveles de significación.


Si recordamos, estos resultados corresponden al primer paso en la ejecución del
análisis factorial:

Matriz de correlaciones

INVERSIÓN
DE
% PERSONAS RENDIMIENTO CONSUMO APARATOS
DENSIDAD EMPLEADAS INGRESOS DE CAPITAL TASA DE DE ENERGÍA DE TV POR
DE EN NACIONALES EN MORTALIDAD POR 100 100
POBLACIÓN AGRICULTURA PER CAPITA MAQUINARIA INFANTIL HABITANTES HABITANTES
Correlación DENSIDAD DE POBLACIÓN 1.000 -.150 .019 .490 -.131 -.255 -.069
% PERSONAS EMPLEADAS EN AGRICULTURA -.150 1.000 -.786 -.183 .890 -.715 -.783
INGRESOS NACIONALES PER CAPITA .019 -.786 1.000 .196 -.602 .830 .722
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .490 -.183 .196 1.000 .002 .009 .134
TASA DE MORTALIDAD INFANTIL -.131 .890 -.602 .002 1.000 -.494 -.526
CONSUMO DE ENERGÍA POR 100 HABITANTES -.255 -.715 .830 .009 -.494 1.000 .915
APARATOS DE TV POR 100 HABITANTES -.069 -.783 .722 .134 -.526 .915 1.000
Sig. (Unilateral) DENSIDAD DE POBLACIÓN .304 .474 .038 .327 .190 .407
% PERSONAS EMPLEADAS EN AGRICULTURA .304 .000 .266 .000 .002 .000
INGRESOS NACIONALES PER CAPITA .474 .000 .251 .011 .000 .002
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .038 .266 .251 .498 .488 .324
TASA DE MORTALIDAD INFANTIL .327 .000 .011 .498 .036 .027
CONSUMO DE ENERGÍA POR 100 HABITANTES .190 .002 .000 .488 .036 .000
APARATOS DE TV POR 100 HABITANTES .407 .000 .002 .324 .027 .000

La matriz de correlaciones (matriz R) es una matriz simétrica de orden 7, cuyos


elementos son coeficientes de correlación producto-momento de Pearson. Los
elementos de la diagonal principal son 1 (relaciones perfectas positivas) ya que
indican la relación de cada variable consigo misma. Los elementos restantes de la
matriz son coeficientes de correlación bivariados de cada variable con las demás
(podrán tomar valores entre ±1).

La matriz que viene a continuación muestra la probabilidad asociada a cada uno de los
coeficientes de la matriz R, es decir, el nivel de significación correspondiente a cada
uno de ellos.

¿Cómo se interpretan los elementos de estas matrices?. Tomemos como ejemplo el


elemento que, en la matriz R, ocupa la fila 3, columna 2. r32= -.786 indica que la
variable INNA (ingresos nacionales per capita) tiene una relación significativa
(p<.001) e inversa con la variable EMAG (% de personas empleadas en agricultura).
Es decir, en la medida en que un país tiene una mayor renta per capita tiende a tener
un porcentaje menor de personas empleadas en agricultura y viceversa, aquellos países
con menor renta per capita tenderán a tener mayor porcentaje de personas empleadas
en agricultura. Podemos, además, expresar esto mismo en términos de varianza,
transformando cada valor en un coeficiente de determinación. Para ello elevamos rij al
cuadrado. De modo que si r32= -.786, el coeficiente de determinación correspondiente
es d32= -.7862= .617. Dicho coeficiente indica la proporción de la varianza total de las
variables que es común a ambas, o lo que es igual, la proporción de varianza de una de

197
ellas que es explicada por la otra. De manera similar se interpretan los demás
elementos de esta matriz.

Pero, como ya hemos señalado, el objetivo del análisis factorial es obtener


agrupaciones de variables en función, lógicamente, de la relación que se dé entre ellas
en R.

Veamos, pues, qué más podemos concluir si atendemos a la matriz R en su conjunto.


Para ello nos centraremos únicamente en las correlaciones significativas.

Parecen formarse 2 agrupaciones de variables. Por un lado, EMAG, INNA, MOIN,


ENER, APTV y por otro, DEPO e INCR. ¿Cómo llegamos a esta conclusión?
Analizando las filas y/o columnas de las matrices de correlación y coeficientes de
significación.

Si atendemos a la primera columna correspondiente a la variable 1, DEPO, vemos que


con la única variable con la que tiene una relación significativa es con la variable 4,
INRC (r14= .490, p=.038). Pero además, la variable INRC (cuarta columna) tampoco
tiene una relación significativa con las demás variables, si exceptuamos la variable
DEPO. Por tanto, DEPO e INRC forman un grupo. El otro grupo lo componen las 5
variables restantes (EMAG, INNA, MOIN, ENER, APTV) que muestran relaciones
significativas entre sí, pero no con las variables DEPO e INRC.

Por ejemplo, en la fila 7 tenemos, en R y en la matriz de significación, la relación de la


variable APTV con las demás:

DEPO EMAG INNA INRC MOIN ENER


APTV -.069 -.783 .722 .134 -.526 .915
(.407) (.000) (.002) (.324) (.027) (.000)

De modo similar, si observamos las relaciones de las demás variables veremos que,
efectivamente, cada una de ellas (EMAG, INNA, MOIN, ENER) se relaciona
significativamente con las demás pero ninguna lo hace con las variables que
conforman el otro grupo: DEPO e INRC.

14.2.2. Extracción de factores

A partir de las relaciones observadas en la matriz de correlaciones, veamos ahora


cómo se agrupan las variables en factores. La siguiente tabla nos muestra los valores
de la comunalidad para cada variable:

198
Comunalidades

Inicial Extracción
DENSIDAD DE POBLACIÓN 1.000 .803
% PERSONAS EMPLEADAS EN AGRICULTURA 1.000 .910
INGRESOS NACIONALES PER CAPITA 1.000 .805
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA1.000 .665
TASA DE MORTALIDAD INFANTIL 1.000 .618
CONSUMO DE ENERGÍA POR 100 HABITANTES 1.000 .884
APARATOS DE TV POR 100 HABITANTES 1.000 .816
Método de extracción: Análisis de Componentes principales.

La comunalidad es la varianza común de cada variable a lo largo de los factores y se


obtiene mediante la suma de cuadrados de los elementos de las filas (variables) de la
matriz factorial. La columna etiquetada como Inicial contiene las comunalidades (h2)
para cada variable obtenida sobre la matriz A completa; es decir, con los siete factores
extraidos. La suma de estas comunalidades nos dará la varianza total de la matriz, que
es 7. Por su parte, la columna etiquetada como Extracción contiene las comunalidades
(h2), pero obtenidas, ahora, a partir de los factores de la matriz A que han resultado
significativos. La suma de estas comunalidades nos dará, por tanto, la varianza total de
la matriz A que se conserva una vez eliminados de la misma los factores no
significativos. La suma de estas comunalidades es:

.803 + .910 + .805 + .665 + . 618 + .884 + .816 = 5.501

Si dividimos esta suma entre la varianza total obtenida a partir de las comunalidades
iniciales (7), obtendremos la proporción de varianza total explicada por los factores
significativos, que en este caso es:

5,501
= 0,786
7

Es decir, los factores significativos explican el 78,6% de la varianza total (7).

La tabla que se muestra a continuación contiene la varianza explicada por cada factor,
también conocida como autovalor (λ) de cada factor:

Varianza total explicada

Sumas de las saturaciones al Suma de las saturaciones al


Autovalores iniciales cuadrado de la extracción cuadrado de la rotación
% de la % % de la % % de la %
Componente Total varianza acumulado Total varianza acumulado Total varianza acumulado
1 3.937 56.238 56.238 3.937 56.238 56.238 3.925 56.072 56.072
2 1.564 22.342 78.580 1.564 22.342 78.580 1.576 22.508 78.580
3 .810 11.571 90.151
4 .357 5.102 95.253
5 .270 3.861 99.114
6 .045 .644 99.759
7 .017 .241 100.000
Método de extracción: Análisis de Componentes principales.

199
La varianza explicada, o autovalor, de cada factor, se obtiene mediante la suma de
cuadrados de los elementos de las columnas (factores) de la matriz factorial A. Como
vemos en la columna etiquetada como Autovalores iniciales, la matriz factorial inicial
tiene tantos factores, o componentes, como variables (en nuestro ejemplo, 7). Por
tanto, la matriz factorial tendrá en las filas las variables originales (en nuestro
ejemplo, 7) y en las columnas los factores o componentes que, tal como hemos dicho,
son tantos como variables (7). La suma de estos autovalores, al igual que antes la
suma de las comunalidades, nos da la varianza total de la matriz A, que es 7. Por eso
el porcentaje de varianza explicado por los 7 factores es el 100%, como se aprecia en
la columna etiquetada como % acumulado.

Además, si recordamos el criterio que habíamos expuesto para la selección de factores


significativos, vemos que, efectivamente, sólo los 2 primeros factores contienen un
autovalor superior a 1 (3.937 y 1.564), explicando el 78,580% de la varianza total de
R (7), y además podemos comprobar, también, que los autovalores van en orden
decreciente, es decir, el porcentaje de varianza explicada por el primer factor (56.238)
es mayor que la explicada por el segundo (22.342), ésta es, a su vez, mayor que la
explicada por el tercero (11.571), etc. La razón de esto es que, tal como señalamos
anteriormente, el criterio seguido para la extracción de factores (componentes
principales) hace que el primer factor contenga la mayor parte posible de la Varianza
Total de R, el segundo factor contenga la mayor parte de la varianza de la primera
matriz residual de R, etc.

Vemos, pues, que solamente son dos los factores significativos (con λ ≥1) y que éstos
explican el 78,6% de la varianza total. Estos serán los factores que se mantendrán para
continuar el análisis, ya que el resto de la información (100-78,6=21,4%) contenida en
los cinco factores con λ<1, se considera no significativa.

La siguiente tabla contiene la matriz de componentes principales; es decir, la matriz


factorial una vez eliminados los cinco factores no significativos:

Matriz de componentesa

Componente
1 2
DENSIDAD DE POBLACIÓN .018 .896
% PERSONAS EMPLEADAS EN AGRICULTURA -.944 -.135
INGRESOS NACIONALES PER CAPITA .897 .018
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .165 .799
TASA DE MORTALIDAD INFANTIL -.781 -.084
CONSUMO DE ENERGÍA POR 100 HABITANTES .893 -.293
APARATOS DE TV POR 100 HABITANTES .897 -.106
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos

Vemos que, efectivamente, la matriz de componentes principales muestra solamente,


2 factores. La razón está en que toda matriz factorial debe concentrar y explicar el
máximo de información en el menor nº de factores posibles, en virtud del criterio de
parsimonia. Por eso la matriz factorial de la tabla anterior contiene en sus filas 7

200
variables, pero sus columnas son, solamente 2 que, como ya sabemos, son los factores
significativos.

Centrémonos en la interpretación de esta matriz. Sus elementos indican la relación


entre las variables y los factores. Se les denomina cargas o saturaciones factoriales e
indican, si los elevamos al cuadrado, la proporción de varianza que cada variable
aporta a dicho factor.

Interpretemos cada uno de los factores significativos de A.

Factor 1. En este factor, cuyo autovalor es 3,937 (el 56,238% de la VT=7) se nos
muestran como cargas factoriales significativas las correspondientes a las variables:

• EMAG -.944 (% de personas empleadas en agricultura).


• INNA .897 (ingresos nacionales per capita).
• MOIN -.781 (tasa de mortalidad infantil).
• ENER .893 (consumo de energía).
• APTV .897 (Nº de aparatos de TV).

Para determinar si una variable es significativa en un factor se tiene en cuenta el valor


absoluto de su carga factorial en el factor. El signo (±) modula la interpretación del
factor.

En este caso la interpretación del factor es la siguiente. En la medida en que un país


tenga mayores ingresos nacionales per capita, mayor consumo de energía y mayor
número de aparatos de TV tenderá a tener, menor % de personas empleadas en
agricultura y menor tasa de mortalidad infantil y viceversa, en la medida en que
INNA, ENER y APTV sean menores, tenderán a aumentar EMAG y MOIN.

Por el tipo de variables que conforman este factor, podríamos decir que indican el
nivel de desarrollo de un país.

Factor 2. En este factor, cuyo autovalor es 1.564 (el 22,342% de la VT=7) son
significativas las cargas correspondientes a las variables:

• DEPO .896 (Densidad de población).


• INRC .799 (Inversión de capital en maquinaria.).

Las dos variables significativas en el factor tienen cargas positivas; por tanto, a mayor
densidad de población en un país mayor es la inversión de capital en maquinaria, y
viceversa.

Esta estructura factorial que acabamos de describir para los factores significativos,
coincide con el pronóstico que ya habíamos hecho analizando el contenido de la
matriz de correlaciones.

201
¿Para qué entonces el análisis factorial si analizando correctamente la matriz R
obtenemos la misma información? Esto es verdad, pero no olvidemos que, en nuestro
ejemplo, la matriz R era de un orden muy pequeño, y su interpretación fue
relativamente fácil. Lo habitual es que nos encontremos con investigaciones en las que
existan 20, 30 o más variables. En estos casos, sin duda, el análisis factorial es la
técnica idónea para estructurar los datos de forma que su interpretación nos resulte
sensiblemente más sencilla.

14.2.3. Rotación de factores

Veamos ahora los resultados de la rotación, la matriz de componentes principales


rotada, o matriz factorial rotada, o simplemente matriz F. Se muestra en la siguiente
tabla:

Matriz de componentes rotadosa

Componente
1 2
DENSIDAD DE POBLACIÓN -.045 .895
% PERSONAS EMPLEADAS EN AGRICULTURA -.933 -.201
INGRESOS NACIONALES PER CAPITA .893 .081
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .108 .808
TASA DE MORTALIDAD INFANTIL -.774 -.138
CONSUMO DE ENERGÍA POR 100 HABITANTES .911 -.230
APARATOS DE TV POR 100 HABITANTES .902 -.04

Método de extracción: Análisis de componentes principales.


Método de rotación: Normalización Varimax con Kaiser.
a. La rotación ha convergido en 3 iteraciones.

Hemos dicho que el objetivo de la rotación es facilitar la interpretación de los factores


significativos de A. Para ello lo que se pretende es ajustar, lo mejor posible, los
factores significativos de A a lo que se denomina Principio de Estructura Simple de
Thurstone. Es decir, si la estructura factorial de A en los factores significativos era:

Factor 1 Factor2
DEPO .018 .896
EMAG -.944 -.135
INNA .897 .018
INRC .165 .799
MOIN -.781 -.084
ENER .893 -.293
APTV .897 -.106

Lo que se pretende con la rotación es que esa estructura se acerque lo más posible a

202
Factor 1 Factor2
DEPO 0 1
EMAG 1 0
INNA 1 0
INRC 0 1
MOIN 1 0
ENER 1 0
APTV 1 0

Es decir, maximizar las cargas que son significativas en los factores aproximándolas a
1 y minimizar las cargas no significativas aproximándolas a 0.

En la medida en que nos acerquemos a esta estructura idónea se cumplirá la


ortogonalidad (independencia o no correlación) entre factores, ya que cada uno de llos
será explicado por diferentes grupos de variables. En el caso del Factor 1, por las
variables EMAG, INNA, MOIN, ENER, APTV, y en el caso del Factor 2 por las
variables DEPO e INRC.

Si bien en muchos de los casos la rotación de factores consigue su finalidad, mejorar


la interpretabilidad, en otros, realmente, no existen demasiadas diferencias entre la
matriz factorial antes y después de la rotación. En nuestro ejemplo, vemos que
realmente el contenido de ambas es muy similar. Ello se debe a que dado el tipo de
relación que se establece entre las variables, éstas ya desde un principio (en el
momento de la extracción) se posicionan claramente en uno de los factores y en este
caso la rotación no añade prácticamente nada nuevo a la interpretación de los factores.

¿Qué semejanzas y diferencias podemos establecer entre la matriz factorial A


(solamente con factores significativos) y la matriz factorial rotada F?.

En primer lugar, la cantidad de información, es decir, el porcentaje de varianza total


de R que contienen ambas es exactamente la misma, si bien se distribuye de distinta
manera en los factores. Los elementos son en ambas coeficientes de correlación
variable-factor y se denominan de igual manera. La interpretación del análisis factorial
se realiza fundamentalmente sobre la matriz F ya que esta es la que tiene la
información mejor estructurada.

Hemos partido en nuestro ejemplo de una matriz X en la que teníamos las


puntuaciones originales de cada país en cada una de las 7 variables. A continuación,
dadas las relaciones que se establecen entre las variables (matriz R), se ha extraído la
matriz factorial en la que se han tomado como significativos los 2 primeros factores
(por tener autovalores > 1) y en la matriz de puntuaciones factoriales tenemos la
puntuación (típica) de cada país en cada uno de los factores significativos.

14.2.4. Puntuaciones factoriales

La matriz de puntuaciones factoriales no aparece en en el visor de resultados, sino que


las variables que contienen estas puntuaciones son añadidas al archivo de datos. Para

203
verlas no tiene más que cambiarse al editor de datos. La ventana tiene ahora este
aspecto:

Observe que aparecen dos nuevas variables, fac1_1 y fac1_2. Estas variables
contienen las puntuaciones factoriales estandarizadas (z) que solicitamos al llevar a
cabo el análisis. Tomemos ahora un elemento de la matriz de puntuaciones factoriales,
por ejemplo la puntuación que obtiene el país 12 (Turquía) en el factor 1.

Z12,1 = - 2.37737

Turquía tiene una puntuación factorial negativa y muy extrema en este factor. El factor
1 estaba explicado fundamentalmente por las variables:

EMAG -.933
INNA .893
MOIN -.774
ENER .911
APTV .902

Si observamos la matriz de datos originales (matriz X) vemos que, efectivamente, este


país es el que obtiene las puntuaciones más altas en las variables EMAG y MOIN, 61
y 153 respectivamente y las puntuaciones más bajas en las variables ENER, APTV e
INNA: .7, 5 y 1.6. Es decir, Turquía es un país con bajo consumo de energía, con un
bajo número de aparatos de televisión, con bajos ingresos nacionales per capita, pero
con un alto porcentaje de personas empleadas en agricultura y una alta tasa de
mortalidad infantil (país poco desarrollado).

204
BIBLIOGRAFÍA

Amón, J. (1986a). Estadística para psicólogos. I. Estadística descriptiva. Madrid:


Pirámide.
Amón, J. (1986b). Estadística para psicólogos. II. Probabilidad. Estadística inferencial.
Madrid: Pirámide.
Arnau, J. (1978). Psicología experimental. Un enfoque metodológico. México: Trillas.
Arnau, J. (1981). Diseños experimentales en psicología y educación (2 Vols.). México:
Trillas.
Bisquerra, R. (1987). Introducción a la estadística aplicada a la investigación educativa.
Un enfoque informático con los paquetes BMDP y SPSSX. Barcelona: PPU.
Botella, J., y Barriopedro, M.I. (1991). Problemas y ejercicios de psicoestadística.
Madrid: Pirámide.
Botella, J., León, O., y San Martín, R. (1993). Análisis de datos en psicología I. Madrid:
Pirámide.
Comrey, A.L. (1985). Manual de análisis factorial. Madrid: Cátedra.
Cuadras, C.M. (1984). Fundamentos de estadística. Aplicación a las ciencias humanas.
Barcelona: PPU.
Cureton, E.E.; d’Agostino, R.B. (1983). Factor Analysis: an applied approach. Hillsdale:
L.E.A.
Domènech, J.M. (1980). Bioestadística. Métodos estadísticos para investigadores.
Barcelona: Herder.
Domènech, J.M., Riba, M.D., Behar, J, Carasa, P., y Gotzens, C. (1982). Problemas de
estadística aplicada a la psicología. Barcelona: Herder.
Ferraces, M.J.; Rodríguez, M.S.; Andrade, E.M. (1995). Introducción a los diseños de
investigación: planificación, análisis estadísticos (SPSS para Windows) e
interpretación. Santiago: Tórculo.
Ferraces, M.J.; Andrade, E.M. (2000). Diseños de Investigación I: Libro de esquemas.
Santiago: Tórculo.
Ferrando Piera, P.J. (1993). Introducción al análisis factorial. Barcelona: PPU.
Gorsuch, R.L. (1988). Exploratory factor analysis. En Nesselroade y Cattell (Eds.),
Handbok of multivariate experimental psychology. New York: Plenum Press.
Harman, H. (1980). Análisis factorial moderno. Madrid: Saltés.
Hays, W.L. (1981). Statistics. Nueva York: Holt, Rinehart and Winston.
Kim, J.O.; Mueller, C.W. (1978). Factor analysis: statistical methods and practical
issues. Beverly Hills: Sage.
Kmenta, J. (1980). Elementos de econometría. Barcelona: Vicens-Vives.
Maciá, M.A., Garriga, A.J., Lubin, P., y Moreno, E. (1990). Psicología matemática II.
Libro de problemas. Madrid: UNED.
Martínez, M. R., Maciá, M.A., y Pérez, J.A. (1989). Psicología Matemática II. Madrid:
UNED.
Mc Donald, R.P. (1985). Factor analysis and related methods. Hillsdale: L.E.A.
Mulaik, S.A. (1972). The foundations of factor analysis. New York: McGraw-Hill.
Norusis, M.J. (1988). SPSS/PC+. Base Manual. Chicago, IL. SPSS Inc.
Nunnally, J.C.; Bernstein, I.J. (1995). Teoría psicométrica. México: McGraw-Hill.

205
Padilla, M., Merino, J.M., y Pardo, A. (1986). Psicología matemática I. Ejercicios
resueltos. Madrid. UNED.
Peña, D. (1986). Estadística. Modelos y métodos. 1. Fundamentos. Madrid: Alianza.
Riba, M.D. (1990). Modelo lineal de análisis de la variancia. Barcelona: Herder.
Ríos, S. (1967). Métodos estadísticos. Madrid: Ediciones del Castillo.
Sánchez Carrión, J.J. (1990). Análisis de datos con SPSS-PC+. Madrid: Alianza
Universidad.
San Martín, R., Espinosa, L., y Fernández, L. (1987a). Psicoestadística descriptiva.
Madrid: Pirámide.
San Martín, R., Espinosa, L., y Fernández, L. (1987b). Psicoestadística. Estimación y
contraste. Madrid: Pirámide.
San Martín, R., y Pardo, M. (1989). Psicoestadística. Contrastes paramétricos y no
paramétricos. Madrid: Pirámide.
Sierra Bravo, R. (1983). Técnicas de investigación social. Teoría y ejercicios. Madrid:
Paraninfo.
Seoane, J., Rechea, C., Diges, M., Martínez, M.R., y Maciá, M.A. (1979). Psicología
Matemática I. Madrid: UNED.
Tejedor, F.J. (1984). Análisis de varianza aplicado a la investigación en pedagogía y
psicología. Madrid: Anaya.
Winer, B.J. (1971). Statistical principles in experimental design. Nueva York: McGraw-
Hill.

206

View publication stats

También podría gustarte