Documentos de Académico
Documentos de Profesional
Documentos de Cultura
net/publication/284722577
CITATIONS READS
8 4,429
2 authors:
Some of the authors of this publication are also working on these related projects:
Deseño de medidas para mellora-las actitudes cara ó galego e incrementa-lo seu uso View project
All content following this page was uploaded by Eulogio Real Deus on 03 December 2015.
Constantino Arce
Eulogio Real
1
ÍNDICE
PRESENTACIÓN .......................................................................................................................4
2
10.4. Prueba de Kruskal-Wallis para k muestras independientes .....................................145
10.5. Prueba de Friedman para k muestras relacionadas .................................................149
BIBLIOGRAFÍA.......................................................................................................................205
3
PRESENTACIÓN
Cada día son más los profesionales que necesitan de la estadística. Para facilitar su
trabajo se ha desarrollado un importante número de programas de ordenador. Dado
que la estadística es, hoy en día, un campo de conocimiento muy amplio no basta con
un solo programa. Es necesario contar con un paquete de programas. Este libro trata
sobre uno de estos paquetes de programas, denominado Statistical Package for the
Social Science (abreviadamente, SPSS).
Hace algún tiempo, escribí un libro titulado Introducción al análisis estadístico con
SPSS/PC+ en la Editorial PPU. El objetivo era el mismo que busco ahora. Lo único
que cambia es la versión del SPSS que vamos a utilizar. El entorno Windows es un
sistema que permite al usuario la manipulación de programas sin escribir apenas nada.
Lo único que tiene que hacer el usuario es moverse de unos menús a otros donde se le
va ofreciendo una gran variedad de recursos informáticos para que elija los que le
interesan.
En el presente libro asumo que usted tiene acceso a un ordenador, con el sistema
SPSS instalado para alguna de las versiones de Windows. Con respecto al entorno
Windows no asumo ningún tipo de conocimiento. En consecuencia, le indicaré todos
los pasos detenidamente, sin omisiones, hasta que usted adquiera cierta experiencia.
Otra novedad importante en este libro, con respecto a la versión anterior está en que
he dado participación en el mismo a mis compañeros de Universidad y amigos, Gloria
Seoane, María José Ferraces, María Soledad Rodríguez, Eulogio Real y Elena
Andrade. Su participación ayudará, sin duda, a enriquecer la idea original del libro.
4
RELACIÓN DE AUTORES:
5
PRIMERA PARTE: COMENZANDO A TRABAJAR CON SPSS
PARA WINDOWS
6
1. Cómo entrar en SPSS para Windows
Al hacer doble clic sobre el icono aparecerá una ventana como la siguiente:
7
la opción Archivo contiene todas las acciones que pueden llevarse a cabo en el
manejo de archivos; la opción Transformar contiene todas las transformaciones
que el programa nos permite realizar con los datos, etc.
• Inmediatamente debajo de este menú aparece una barra con diferentes botones.
Cada uno de ellos sirve para realizar rápidamente algunas de las acciones más
habituales en el uso de SPSS: Abrir un archivo, imprimir, etc. Al situar el puntero
del ratón sobre uno de estos botones aparecerá un mensaje que nos indicará la
finalidad del mismo. Estas acciones también pueden llevarse a efecto utilizando las
opciones del menú; los botones sirven simplemente para efectuarlas de forma más
rápida.
• Ocupando el espacio interno de la ventana del editor de datos de SPSS se
encuentran las celdillas de datos, que se encuentran organizadas en filas y
columnas. Las filas se hallan numeradas consecutivamente, mientras que las
columnas aparecen etiquetadas todas ellas con la palabra "var" (variable). Cada
celdilla contendrá un único dato. Cada columna de datos contendrá datos de una
misma variable, mientras que cada fila de datos contendrá datos de una misma
fuente.
• Debajo de las celdillas de datos vemos dos solapas llamadas Vista de datos y Vista
de variables. La primera de ellas nos muestra precisamente las celdillas de datos.
• Finalmente, en la parte inferior de la ventana, aparece un mensaje que nos indica
que el procesador de SPSS está preparado. En esta zona inferior es donde aparecen
los mensajes que SPSS nos puede mostrar para informarnos de los procesos que se
están llevando a cabo durante la sesión de trabajo.
Como yo no conozco su investigación, ni tengo acceso a sus datos, lo que voy hacer es
simular que realizo una investigación y que obtengo un conjunto de datos, que aunque
no son iguales a los suyos, sí se van a parecer en la forma.
8
1
Encuesta sociolingüística
Hombre Mujer
17.- Sexo 1 2 18.- Edad ....... años
20.- Profesión
1
Encuesta original de Bieito Silva, profesor del ICE de la Universidad de Santiago de Compostela.
9
Cuestionario correspondiente al sujeto 1
Hombre Mujer
17.- Sexo 1 2 18.- Edad ....... años
20.- Profesión
Para grabar estos datos no tenemos que movernos de la pantalla donde estábamos
situados. En efecto, nos encontramos ya en el editor de datos que es, como ya se ha
comentado, la ventana en la que se guardan los datos que van a ser analizados. Fíjese
de nuevo en la rejilla que constituye la parte interna de la ventana. La rejilla que usted
está viendo es, en realidad, una pequeña porción de una hoja gigantesca, con miles de
filas y miles de columnas. Si desea comprobarlo, haga clic con el botón izquierdo del
ratón, una sola vez, sobre la flecha abajo en forma de triángulo invertido, que está
situada en la parte inferior derecha de la ventana del editor de datos. Observará que ha
avanzado una línea hacia abajo. Si hace clic otra vez, avanzará otra línea más, y así
sucesivamente. Existen miles de líneas. Si desea explorar este aspecto por sí mismo,
asegúrese de que está situado sobre la flecha abajo, haga clic y no suelte el dedo.
Observará como van pasando filas y más filas. Fíjese en el pequeño cuadrado situado
dentro de la barra vertical que limita, en su parte inferior, la flecha abajo que usted
está pulsando. Este cuadrado es el indicador de desplazamiento, y sirve para saber
cuántas filas hemos bajado en el archivo de datos. A medida que vamos bajando filas,
el indicador de desplazamiento se va aproximando a la parte inferior de la barra
vertical.
Cuando lo estime oportuno, vuelva a las primeras líneas del editor de datos. Para
hacer esto de forma rápida, coloque el puntero sobre el indicador de desplazamiento y
haga clic con el botón izquierdo del ratón. Sin soltar el botón, arrastre el indicador
10
hasta la parte superior de la barra vertical, y luego suéltelo. Se encontrará ahora en la
primera línea.
Con las columnas sucede lo mismo. Aunque en la pantalla sólo se ofrecen unas
cuantas existen, en realidad, miles de columnas. Con la flecha derecha, que está
situada en la parte inferior derecha de la ventana podría moverse usted a través de las
columnas. No obstante, en este caso, no lo intente porque las columnas no están
numeradas y, aunque se mueva a la derecha, no podrá apreciarlo. Fíjese que también
existe un indicador de desplazamiento en la barra horizontal situada en la parte
inferior de la ventana del editor de datos. Este otro indicador de desplazamiento le
sirve para saber cuántas columnas se ha movido hacia la derecha.
Lo que queremos indicar al sistema marcando esta casilla es que éste es el lugar en el
que deseamos introducir el primer dato. Hemos elegido la fila 1 porque se trata del
primer sujeto, y hemos elegido la columna 1 porque se trata del primer registro de este
sujeto.
Si busca ahora la respuesta del primer sujeto al primer ítem del cuestionario,
observará que se trata de un 3. Para introducir los datos abandonamos
momentáneamente el ratón y cogemos el teclado del ordenador. Pulsamos la tecla
correspondiente al número 3 y cuando lo hayamos hecho pulsamos la tecla que tiene
la flecha mirando hacia la derecha [→]. Si lo hace así, en un instante podrá observar
como ha aparecido escrito el número 3 (con dos decimales) en la casilla deseada.
Justo encima de esta casilla, también podrá observar como el sistema le ha concedido
un nombre a esta respuesta. Le ha denominado var00001, que se puede interpretar
como "variable 1".
Ahora que ya ha registrado la primera respuesta del sujeto 1, fíjese como la casilla que
está ahora bordeada es la casilla correspondiente a la columna 2. El sistema está
esperando que introduzca la segunda respuesta emitida por este sujeto. Si vuelve otra
vez al cuestionario, podrá observar como esta respuesta es nuevamente un 3. Escriba
11
el número 3 y pulse la tecla con la flecha que mira hacia la derecha [→].
Inmediatamente aparecerá el número 3 (con dos decimales) escrito en la posición
deseada. Observe también como encima de esta casilla aparece ahora la etiqueta
var00002, que puede interpretarse como variable 2. Continúe introduciendo así los
datos correspondiente al sujeto 1. Proceda despacio. Espere siempre a que el número
que introduzca aparezca en la casilla correspondiente, antes de introducir un nuevo
número. Cuando llegue al ítem 18 del cuestionario, fíjese en que debe escribir dos
números en lugar de uno solo, antes de pulsar la tecla con la flecha que mira hacia la
derecha. Cuando llegue al ítem 20, asegúrese, aunque sea el último, de que también
pulsa la tecla que mira hacia la derecha. En ese momento habrá acabado de introducir
la información relativa al sujeto 1.
Antes de continuar, repase todos los datos y asegúrese de que no existe ningún error.
Para ello vaya a la columna 1. Para hacer esto rápidamente, de un solo "golpe", pulse
Ctrl+[←] (Pulse la tecla Ctrl y, sin soltarla, pulse la tecla flecha a la izquierda [←]).
Repase ahora los datos. El primer número debe ser un 3, el segundo un 3, el tercero...
Si observa algún error, sitúese en la casilla que contenga dicho error. Utilice para ello
las flechas del teclado, la que mira hacia la izquierda o la que mira hacia la derecha,
según proceda. Una vez situado en la casilla que contiene el error, escriba el número
correcto y pulse la tecla con la flecha que mira hacia la derecha. Verá como aparece
ahora el número deseado en la casilla correspondiente.
12
Preste atención al recuadro situado a la derecha del rótulo Nombre de archivo. Dentro
del mismo hay una barra vertical que parpadea ligeramente. Esta barra es el "cursor",
que le indica que puede escribir en ese recuadro el nombre del archivo. El nombre de
un archivo consta de dos partes separadas por un punto (.). La primera parte puede ser
un nombre cualquiera, a elección del usuario. El nombre que vamos a elegir aquí será
encuest. La segunda parte del nombre, a la que se denomina extensión, tiene que ser
necesariamente .sav, y no es necesario especificarla, puesto que SPSS la adjudica por
defecto (puede verlo en el recuadro inferior, donde figura la leyenda Guardar como
tipo). Por tanto, el nombre completo del archivo de datos una vez almacenado será
encuest.sav. Escriba encuest en el recuadro donde debe especificarse el nombre de
archivo. Cuando lo haya hecho, coja nuevamente el ratón, mueva el puntero a la parte
derecha de la pantalla, colóquese sobre el botón Guardar y haga clic.
Volverá aparecer la pantalla con la rejilla. Sus datos, a diferencia de la vez anterior,
están ahora grabados en un archivo denominado encuest.sav. Puede apreciarlo porque
en la cabecera de la ventana, en lugar del rótulo "Sin título" aparece el nombre del
archivo: "encuest".
Este podría ser un buen momento para finalizar la primera sesión de trabajo con el
sistema SPSS para Windows.
Para salir, sitúe el puntero del ratón sobre la opción Archivo, y haga clic. Se abrirá un
menú ya conocido para usted. Elija la última opción del menú, denominada Salir, y
vuelva a hacer clic. Ya ha salido usted de SPSS para Windows. Existen otras formas
de salir de un programa en Windows, pero le aconsejo que no las utilice. Aunque no
suelen dar problemas, están pensadas más bien para cerrar sin más una pequeña
aplicación sin menús o una ventana, que para salir de un programa complejo como
SPSS.
13
2.5. Cómo entrar en un archivo de datos ya existente
Supongamos que ahora, en su segunda sesión de trabajo, lo que desea es grabar los
datos de los restantes 19 sujetos. Recuerde que el número de sujetos era 20. Hasta
ahora sólo hemos grabado los datos del primer sujeto en el archivo encuest.sav.
Vamos a entrar ahora en este mismo archivo y grabar los datos correspondientes a los
otros 19 sujetos. Suponga que estos son los datos.
Para entrar en SPSS para Windows siga los pasos indicados en el apartado 1.
Observará que aparece un cuadro de diálogo muy similar al que vio en la sesión
anterior. Lo que se ofrece en este recuadro es un listado, ordenado alfabéticamente, de
todos los archivos de datos de que dispone usted en el directorio de trabajo. Entre
ellos se encuentra encuest.sav. Sitúese sobre él y haga clic. Se resaltará el nombre el
archivo y, además, verá como aparece escrito el nombre de este archivo en el recuadro
situado a la izquierda del rótulo Nombre de archivo. Lo que usted le ha indicado al
programa es que desea trabajar con este archivo. A continuación, coloque el puntero
del ratón sobre el botón Abrir y haga clic. Inmediatamente aparecerán los datos
introducidos en la sesión anterior.
Para continuar grabando datos, sitúe el puntero del ratón en la fila 2, columna
var00001, y haga clic. Observará como esta casilla aparece ahora con los bordes
sombreados.
14
Tal como habíamos indicado en la primera sesión, la fila 2 está reservada para el
segundo sujeto. En la columna var00001 escribiremos la primera respuesta de este
sujeto, en la columna var00002 escribiremos la segunda respuesta, y así
sucesivamente hasta la columna var00020, donde escribiremos la respuesta dada por
este sujeto al último ítem del cuestionario.
Seguramente habrá podido apreciar que el tiempo que tarda ahora el ordenador en
situar las respuestas en la casilla correspondiente es menor que el que le llevaba
cuando se trataba del primer sujeto. La razón es que ahora las variables ya están
creadas. En el primer sujeto todas las columnas se denominaban var, y el programa
necesitaba un cierto tiempo para asignarle, por defecto, un nombre a cada columna
(variable).
El botón Insertar caso le permite insertar los datos de un sujeto entre dos filas
del archivo de datos.
El botón Inservar variable le permite insertar una nueva variable entre otras dos
cualesquiera.
A la izquierda de cada una de las filas de la rejilla aparece un botón gris con un
número entero escrito en él. Este botón es el que ayuda a identificar la fila (sujeto). La
primera fila está identificada con el número 1, la fila 2 con el número 2, y así
sucesivamente. Vamos ahora a hacer una prueba borrando los datos que usted acaba
15
de introducir para el segundo sujeto. Si no le apetece volver a escribir de nuevo los
datos, no se preocupe; luego le mostraré cómo puede recuperarlos otra vez.
Dado que lo que desea es borrar la fila 2, primero tiene que seleccionarla. Para ello,
sitúese sobre el botón gris con el número 2, que identifica esta fila y, a continuación,
haga clic. Observe que ahora el botón aparece "hundido", y la casilla inmediatamente
a su derecha, marcada. El resto de las casillas de la misma fila aparecen ahora en
vídeo inverso (caracteres blancos sobre fondo negro). Aunque usted sólo puede ver las
primeras columnas, en realidad, las restantes (hasta la 20) también han sido
seleccionadas. Si desea comprobarlo usted mismo puede desplazarse hacia la derecha
utilizando el indicador de desplazamiento horizontal que se encuentra en la parte
interior de la ventana de datos. No utilice las flechas del teclado para desplazarse;
anularía la selección que acaba de hacer. Cuando haya hecho esta comprobación,
vuelva a la posición inicial; es decir, a la primera columna de esta fila. Sitúe ahora el
puntero del ratón sobre la opción Edición, y haga clic. Del menú que se despliega
ahora elija la opción Eliminar y haga clic. Observará ahora como la información
contenida en la fila 2 ha desaparecido. También puede realizar esta acción utilizando
la tecla Supr (borrar) de su teclado.
Si no desea volver a introducir los datos, no tiene por qué hacerlo. Dentro del mismo
menú anterior existe otra opción que le permite anular su última acción. Vuelva a
situarse sobre la opción Edición, y seleccione ahora la opción Deshacer. Observará
como todos los datos de la fila 2 han sido recuperados.
Al introducir los datos puede ocurrir que, accidentalmente, se cree una variable más
de las deseadas. Es posible que también esto le haya pasado a usted, y que de ese
modo haya creado la variable var00021, que no necesita. Si ese es el caso y desea
borrarla, haga lo siguiente.
1. Sitúe el puntero del ratón sobre el botón gris con el rótulo var00021, y haga clic.
Observará como la casilla inmediatamente inferior aparece ahora marcada, y las
que se encuentran bajo ella se muestran en vídeo inverso. Dado que sólo tiene dos
filas, sólo podrá ver en vídeo inverso la casilla de la fila 2. Si hubiese más filas
también aparecerían de ese modo.
2. Sitúe el puntero del ratón sobre la opción Edición y haga clic.
3. Elija la opción Eliminar, y haga clic de nuevo. Observará como la columna
var00021 ha desaparecido.
Ahora ya sabe que puede moverse arriba y abajo del archivo de datos utilizando el
indicador de desplazamiento vertical de la parte derecha de la ventana, y puede
16
moverse a izquierda y derecha utilizando el indicador de desplazamiento horizontal de
la parte inferior de la ventana. También ha visto que puede ir rápidamente a la primera
columna del archivo de datos utilizando la combinación de teclas Ctrl+[←]. Pero
existen más combinaciones de teclas que le permiten moverse con rapidez y facilidad,
no sólo en la ventana de datos, sino también en cualquier otra ventana de SPSS. Las
combinaciones más útiles son las siguientes:
Tecla(s) Función
Recuerde que las combinaciones del tipo Ctrl+... significan que pulse la tecla Ctrl y,
sin soltarla, pulse a continuación la otra tecla. Otras herramientas para desplazarse por
el archivo de datos son éstas:
Para grabar el archivo simplemente tenemos que proceder del mismo modo que se
describe en el apartado 2.3, con la única diferencia de que nuestro archivo de datos
ahora ya tiene nombre, por lo que SPSS no nos pedirá ninguno. Una vez grabados los
datos podemos salir de SPSS tal y como se describe en el apartado 2.4.
17
2.8. Manejo del Archivo de Resultados
Puede abrir el archivo encuest.sav utilizando los menús, o el botón con el dibujo de
una carpeta abierta que se encuentra en la barra de botones. Este procedimiento ya lo
ha visto en el apartado 2.5. Cuando aparezca el cuadro de diálogo, seleccione el
archivo encuest.sav de la lista que aparece en el recuadro de mayor tamaño, y pulse el
botón Abrir.
Si todo ha ido bien, en la ventana de datos aparecerán ahora los datos de los 20 sujetos
que contestaron la encuesta sociolingüística. Vamos, a continuación, a pedirle a SPSS
que nos proporcione una distribución de frecuencias para los 20 ítems del
cuestionario.
Una distribución de frecuencias es una Tabla de datos con dos columnas principales.
Una primera columna con todos los valores observados para una variable. Y una
segunda columna con el número de casos (frecuencias) que ha obtenido cada uno de
dichos valores. Verá que resulta realmente sencillo hacer esto en SPSS. Coloque el
puntero del ratón sobre la opción Analizar. En el menú que se despliega a
continuación, elija la opción Estadísticos descriptivos. Finalmente, del menú que se
desplegará a la derecha, elija la opción Frecuencias. Aparecerá el siguiente cuadro de
diálogo:
Observe el cuadro de diálogo. En la zona izquierda aparece un recuadro con todas las
variables que contiene el archivo de datos, ordenadas desde var00001 hasta
var00020. A su derecha aparece un botón con una flecha que apunta hacia la derecha,
donde se encuentra otro recuadro, que lleva el encabezado Variables. En este último
recuadro es en el que debe usted colocar aquellas variables que van a entrar en el
análisis. Puesto que queremos obtener la distribución de frecuencias para las 20
variables, debemos seleccionar todas ellas en el recuadro de la izquierda y moverlas al
18
recuadro vacío de la derecha. Para ello, coloque el puntero del ratón sobre la primera
de las variables, var00001, que aparece en vídeo inverso. Pulse el botón izquierdo del
ratón y no lo suelte. A continuación, vaya bajando despacio el puntero hasta el borde
inferior del recuadro. Observará que, a medida que mueve el puntero hacia abajo, van
quedando marcadas las variables de la lista. Cuando llegue a la parte inferior del
recuadro, donde se halla var00011, la lista continuará descendiendo hasta que llegue a
la última variable, var00020. Ahora todas las variables están seleccionadas y aparecen
en vídeo inverso. Suelte el botón izquierdo, y no lo pulse de nuevo; desharía la
selección anterior. Para introducir las variables en el recuadro de la derecha,
simplemente tiene que pulsar el botón con la flecha que apunta a ese recuadro. Ahora
todas las variables han pasado al recuadro de la derecha, lo que significa que todas
ellas entrarán en el análisis. Pulse ahora el botón Aceptar para realizar el análisis de
frecuencias.
Una vez que comienza el análisis, SPSS crea una nueva ventana donde se almacenan
los resultados. La ventana tiene este aspecto:
19
de datos, aparecen ahora las opciones Insertar y Formato, que son específicas del
visor de resultados.
• Inmediatamente debajo del menú aparece una barra con botones. Aunque algunos
de ellos son iguales a los de la ventana del editor de datos, la mayoría son
diferentes y específicos de esta nueva ventana.
• Ocupando el espacio interno del visor de resultados, vemos dos zonas
diferenciadas a la izquierda y la derecha. La zona de la izquierda nos permite
"navegar" por los resultados obtenidos, desde el título del análisis y los estadísticos
generales para los 20 análisis de frecuencias hasta cada una de las 20 tablas de
frecuencias obtenidas para las variables incluidas en el análisis. La zona de la
derecha nos muestra el resultado concreto que hayamos elegido en la zona de la
izquierda. También es posible desplazarse directamente por los resultados
utilizando la barra de desplazamiento vertical de la zona de la derecha.
• Finalmente, en la zona inferior de la ventana aparece de nuevo el mensaje que nos
indica que el procesador de SPSS está preparado.
El manejo del visor de resultados es muy sencillo una vez que se comprende su
funcionamiento. Para familiarizarse con el mismo, pruebe a seleccionar, en la zona
izquierda del visor, la tabla de frecuencias para la variable var00019. En la zona
derecha aparecerá una tabla como la siguiente:
VAR00019
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 2.00 4 20.0 20.0 20.0
3.00 9 45.0 45.0 65.0
4.00 7 35.0 35.0 100.0
Total 20 100.0 100.0
20
Del mismo modo que ha examinado las tablas de frecuencias para la variable
var00019 puede examinar también cualquier otro resultado incluido dentro del visor.
Existen una serie de botones que le facilitan el trabajo de moverse por el visor.
Veamos su función:
Los botones Mostar y Ocultar sirven para mostrar u ocultar partes del
listado de resultados.
21
Como ve, este cuadro de diálogo es casi idéntico al que aparecía cuando grabó usted
el archivo de datos. Fíjese en el recuadro situado a la derecha del rótulo Nombre de
archivo. Aparece ya escrito un nombre para el archivo: Resultados1.spo. Este es el
nombre que SPSS asignará, por defecto, al archivo de resultados, pero puede
reemplazarse por otro más adecuado. Pulse la tecla Supr del teclado de su ordenador;
esto borrará el nombre asignado por defecto al archivo de resultados. Escriba ahora
encuest en el recuadro vacío. Ahora el archivo se guardará con el nombre encuest.spo
(recuerde que la extensión, .spo, es asignada automáticamente por SPSS). Pulse ahora
el botón Guardar.
También puede hacer esto utilizando la barra de botones; para ello, pulse el
botón que tiene un icono con el dibujo de una impresora.
22
En ambos casos aparecerá el cuadro de diálogo de la impresora:
A continuación pulse el botón Aceptar. Espere unos instantes y obtendrá una copia del
listado en su impresora. Puede utilizar este listado para comprobar que no ha
cometido errores al introducir los datos. Compruebe que no ha omitido datos en
ninguna variable (esto es, que el número total de sujetos en todos los análisis es de
20), y que no existen valores fuera de rango (por ejemplo, en var00001, que no hay
valores distintos de 1, 2 y 3).
23
Una vez que hemos realizado el análisis de los datos en que estábamos interesados
(obtener una distribución de frecuencias para cada variable) y hemos obtenido una
copia impresa de los mismos podemos dar por finalizada la sesión. Seleccione la
opción Archivo y, dentro del menú, seleccione la opción Salir. Se cerrarán ambas
ventanas: la del editor de datos y la del visor de resultados. En la próxima sesión
veremos cómo preparar los datos y darles formato para facilitar tanto la introducción
de los mismos como la lectura de listados.
24
SEGUNDA PARTE: FORMATO DE LOS DATOS Y
TRANSFORMACIONES
25
Ahora que ya sabe introducir la matriz de datos y obtener los resultados de un análisis,
vamos a ver cómo puede mejorar el modo de presentación de los datos y cómo
efectuar transformaciones adicionales sobre los datos originales.
26
Ahora cada una de las variables ocupa una fila del editor de datos. La información
sobre las variables aparece organizada en columnas. Veamos lo que indica cada una
de ellas:
Vamos a modificar las opciones que aparecen para var00001, de modo que al final
hayamos dado formato a la misma. Concretamente, asignaremos un nombre a la
27
variable, cambiaremos el tipo de datos, e introduciremos una etiqueta para la variable
y para sus valores.
En la columna Tipo podemos ver que SPSS asume que los datos en item01 son de
tipo numérico. Esto es así de hecho, de modo que no es necesario que cambiemos el
tipo de la variable. Revisemos, no obstante, las opciones disponibles:
Queremos modificar item01 de forma que sólo admita números de un dígito y sin
decimales. Recuerde que en item01 se utilizaban valores de un solo dígito y sin
decimales, puesto que las opciones de respuesta a la pregunta “Entiendo el gallego
hablado” eran tres valores enteros de un dígito (1=Nada; 2=Regular; 3=Bien). Para
llevar a cabo estas modificaciones, seleccione la casilla correspondiente a esta
variable en la columna Decimales y reemplace el valor 2 por un cero; puede hacer el
cambio tecleando directamente un cero, o seleccionándolo de una lista de valores. A
continuación, en la casilla correspondiente de la columna Anchura, reemplace el valor
8 por un 1.
28
tres puntos suspensivos que nos permite modificar el tipo, así como también el
número de dígitos y de decimales.
Veamos ahora una opción más avanzada para dar formato a sus datos: el etiquetado.
Una etiqueta no es más que un trozo de texto que va asociado a una variable o a un
valor. Este trozo de texto sustituye luego a la variable o valor originales en los
listados, de modo que sean más legibles. La mejor forma para ver la utilidad de las
etiquetas es un ejemplo práctico. Lo que vamos a hacer es etiquetar tanto la variable
item01 como los tres valores de respuesta posibles (1, 2 y 3).
Este cuadro de diálogo le permite asociar una etiqueta a cada valor de item01. En el
recuadro con la leyenda Valor debe indicar uno de los posibles valores de la variable,
y en el recuadro situado debajo, que lleva la leyenda Etiqueta de valor, debe escribir la
etiqueta correspondiente al valor. Para asociar el valor con su etiqueta debe pulsar el
botón Añadir. Ahora introduzca como valor el 1, y como etiqueta la palabra “nada”
(no incluya las comillas). Pulse Añadir. Aparecerá la equivalencia:
1= “nada”
2= “regular”
29
Pulse ahora el botón Aceptar. Las etiquetas pasarán a incorporarse a la variable.
El segundo botón, que tiene un icono en forma de etiqueta, sirve para ver las
etiquetas de los valores, en lugar de los propios valores, cuando se encuentra en
el modo Vista de datos. Si selecciona la pestaña Vista de datos y pulsa este botón, en
lugar de unos, doses y treses, en la variable item01 verá las etiquetas
correspondientes: nada, regular, bien. En las otras variables continuará viendo
números, puesto que no tienen etiquetas de valores asignadas. Vuelva a pulsar el
botón; la ventana de datos volverá a contener sólo cifras. El uso de este botón no
afecta para nada al contenido de los datos, que continúan siendo números, aunque
veamos etiquetas.
30
A modo de ejercicio, lo que le propongo ahora es que ponga etiquetas a todas las
variables del archivo de datos. Aunque esto pueda parecer una tarea tediosa, es de
gran ayuda para interpretar luego los listados proporcionados por el programa. Existe,
además, una forma de aligerar el trabajo. Fíjese que muchas variables usan el mismo
número de dígitos y decimales, e incluso las mismas etiquetas de valores. Es posible
copiar estas especificaciones de una variable a otra sin tener que escribirlas de nuevo.
Veamos cómo con un ejemplo.
Ahora únicamente deberá cambiar los nombres de las variables var00002, var00003 y
var00004 por los de item02, item03 e item04, e introducir sus etiquetas en la
columna Etiqueta. Estas características, especialmente el nombre, son específicas de
cada variable, por lo que deben introducirse individualmente.
Una vez hecho el cambio, ya está usted en condiciones de dar formato a todas las
variables de encuest.sav de forma rápida y cómoda. Un último aviso: no se olvide de
que la variable var00018, que contiene los datos sobre edad de los sujetos, constituye
un caso especial. En efecto, al igual que las demás variables, es de tipo numérico sin
decimales, pero no de un dígito, sino de dos (o incluso de tres, en el caso de que
tuviésemos sujetos centenarios). Además, esta variable no es susceptible de recibir
31
etiquetas de valores; no tendría sentido adjudicar una etiqueta a cada una de las
posibles edades.
Si ha llevado a cabo todos los cambios y todavía se siente con fuerzas, puede
comprobar ahora la utilidad de todo este trabajo. Vuelva a realizar el mismo análisis
de frecuencias que efectuó en el apartado 2.9 y observe, por ejemplo, el aspecto de la
tabla de frecuencias para la variable item19 (antes var00019) que ahora se le ofrece
en el visor de resultados. Es ligeramente diferente, ¿verdad? Ahora tiene este aspecto:
estudios
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos primarios 4 20.0 20.0 20.0
medios 9 45.0 45.0 65.0
superiores 7 35.0 35.0 100.0
Total 20 100.0 100.0
Fíjese que en la nueva tabla, en lugar del nombre de la variable (ahora item01)
aparece la etiqueta correspondiente: “estudios”. Del mismo modo, al lado de los tres
posibles valores de respuesta (1, 2, y 3) aparecen sus etiquetas (“primarios”, “medios”,
y “superiores”). Esto hace que la tabla sea mucho más inteligible, de modo que no sea
necesario consultar un ejemplar del cuestionario para saber de qué variable se trata y
qué significa cada valor de respuesta.
Antes de dar por terminada esta larga sesión, le recomiendo que guarde los resultados
en un archivo. Utilice los menús o el icono con el botón que representa un diskette. En
el cuadro de diálogo, que es semejante al que ya vio en el apartado 2.9, dele al nuevo
archivo el nombre encuest. Aparecerá un mensaje de SPSS advirtiéndole de que el
archivo ya existe y si quiere sobreescribirlo. Esto se debe a que le ha dado el mismo
nombre que al archivo de resultados que guardamos en aquella sesión. Recuerde que
el archivo encuest.spo antiguo contiene los mismos resultados que el actual. Sin
embargo, el nuevo listado contiene las etiquetas y es, por tanto, más completo que el
anterior. Acepte sobreescribir el archivo.
32
4.1. Cómo recodificar las variables
A veces puede ocurrir que, habiendo creado un archivo de datos, nos interese cambiar
la codificación de alguna de las variables. Para verlo claramente basta con un ejemplo.
Considere la variable item18 (antes var00018), que contiene los datos sobre la edad
de los sujetos. Si estuviésemos interesados en estudiar las diferencias entre jóvenes y
adultos, o entre adultos de distintas edades, sería complicado hacerlo con los datos
originales. Lo que tendríamos que hacer es crear distintos grupos en función de la
edad. Una posible agrupación podría ser la siguiente:
Para ello tendríamos que recodificar item18 de forma que asignaríamos a todos los
sujetos comprendidos entre
16 y 25 años, el número 1,
26 y 35 años, el número 2,
36 y 50 años, el número 3,
51 y 65 años, el número 4.
Llevar a cabo esta recodificación es realmente sencillo en SPSS. Incluso hay dos
formas distintas de hacerla. En la primera forma, la variable original se conserva y se
crea una nueva con los valores recodificados. En la segunda forma, la variable original
misma es recodificada. Mi consejo es que haga las recodificaciones siempre de la
primera forma; de este modo, no perderá nunca datos originales. De todos modos,
veremos ambos procedimientos.
33
Al igual que en otros cuadros de diálogo de SPSS, a la izquierda se le ofrece una lista
de las variables existentes en el archivo de datos. Seleccione item18 (“Edad”) y luego
pulse el botón con forma de flecha que se encuentra a la derecha de la lista. De este
modo, item18 figurará en el recuadro siguiente como variable de entrada. A la derecha
tiene usted dos recuadros para introducir la variable de resultado, esto es, la variable
donde se almacenarán los datos sobre edad de los sujetos una vez recodificados. En el
primer recuadro debe escribir el nombre de la nueva variable (p. ej.: edad2) y en el
segundo puede asignarle una etiqueta (p. ej.: “nueva edad”). A continuación, pulse el
botón Cambiar; de este modo, edad2 pasará a ser la variable de salida.
34
A la izquierda del recuadro aparecen las opciones a aplicar a los valores antiguos. A la
derecha, se encuentran las opciones a aplicar al nuevo valor. Para cada recodificación
que se haga hay que especificar ambas opciones.Veamos primero las opciones para
valores antiguos:
Por último, y en la parte inferior derecha del cuadro de diálogo, aparecen dos opciones
a utilizar cuando recodificamos una variable cuyos datos son cadenas de caracteres en
una variable numérica, o viceversa. Este tipo de situaciones no se da habitualmente en
las recodificaciones y no se da, de hecho, con nuestros datos, por lo que no
comentaremos estas opciones.
35
Valores antiguos (variable item18) se convierten en... Valores nuevos (variable edad2)
hasta 25 años → 1
desde 26 hasta 35 años → 2
desde 36 hasta 50 años → 3
desde 51 años en adelante → 4
Procederemos a crear estos cuatro grupos de edad en edad2 siguiendo este mismo
orden. Para crear el primer grupo, debemos seleccionar, en el recuadro destinado al
valor antiguo un rango de edades que vaya desde el sujeto más joven hasta los sujetos
de 25 años. Seleccione, por tanto, el rango que lleva escrito debajo la leyenda Del
menor hasta. Aparecerá marcado con un punto negro. Ahora haga clic sobre el
recuadro situado a la derecha de la leyenda y teclee el número que marca el límite
superior del rango (25). Acto seguido, en el recuadro destinado al valor nuevo teclee
el valor correspondiente (1) en la variable edad2. Luego pulse el botón que lleva la
etiqueta Añadir. En el recuadro situado a la derecha del botón, y en el que figura la
leyenda Antiguo→ Nuevo aparecerá la siguiente expresión:
Lowest thru 25 → 1
Lo que significa esta expresión es que los valores de item18 que vayan desde el más
pequeño hasta 25 (lowest thru 25) se convertirán todos ellos en el valor 1 en edad2.
Pasemos al segundo grupo, que incluye a los sujetos de edades comprendidas entre 26
y 35 años. En el recuadro destinado al valor antiguo, seleccione el rango de edades
que contiene dos recuadros separados por la leyenda hasta. En el primer recuadro
escriba el límite inferior del rango (26), y en el segundo recuadro, el límite superior
(35). A continuación, en el recuadro destinado al valor nuevo, teclee el valor
correspondiente (2) en edad2. Pulse ahora el botón etiquetado Añadir. Aparece una
nueva expresión:
26 thru 35 → 2
Esta expresión nos viene a indicar que los valores de item18 que vayan desde 26 hasta
35 se convertirán todos ellos en el valor 2 en edad2.
El tercer grupo incluye a los sujetos entre 36 y 50 años. Seleccione este rango en el
recuadro destinado al valor antiguo del mismo modo que lo hizo para el segundo
grupo. En el recuadro correspondiente al valor nuevo, escriba un 3. Pulse otra vez el
botón Añadir. Ya tiene la tercera expresión:
36 thru 50 → 3
Y vamos a finalizar con el cuarto grupo. Éste incluye a los sujetos de 51 años o más.
Por tanto, en el recuadro destinado al valor antiguo seleccione el rango que lleva
escrita la leyenda hasta el mayor. En el recuadro situado a la izquierda de la leyenda
teclee el límite inferior del rango (51). En el recuadro correspondiente al valor nuevo,
escriba un 4. Pulse una vez más el botón Añadir. Y esta es la cuarta expresión:
51 thru highest → 4
36
Una vez creados los cuatro grupos de edad, el cuadro de diálogo debe tener este
aspecto:
1. “hasta 25 años”.
2. “de 26 a 35 años”.
3. “de 36 a 50 años”.
4. “más de 50 años”.
Veamos ahora cómo haríamos esta misma recodificación sin utilizar una variable
nueva. Recuerde que la recodificación en la misma variable elimina totalmente la
información contenida originalmente en la misma. Por tanto, si alguna vez efectúa una
recodificación en sus datos, le aconsejamos que lo haga siempre en otra variable
distinta de la original.
37
Este cuadro de diálogo es más sencillo que el que vimos en el apartado 4.1.1. Usted
simplemente tiene que especificar la variable o variables a recodificar (en este caso
item18). Una vez hecho esto, puede usar los botones Si y Valores antiguos y nuevos
que ya conoce. El cuadro de diálogo que aparece es muy similar al que ya vio en el
apartado 4.1.1:
Una vez que hemos creado un archivo de datos, nos puede interesar realizar
transformaciones para algunas variables. Por ejemplo, en algunos análisis estadísticos se
transforman las variables en logaritmos para garantizar el cumplimiento de ciertos
supuestos. En otros casos, nos puede interesar sumar dos (o más) variables, así como
38
también muchas otras transformaciones. SPSS para Windows permite gran variedad de
transformaciones. La principal distinción entre los distintos tipos de transformaciones
posibles es la que se hace entre transformaciones incondicionales y transformaciones
condicionales. En el caso de las transformaciones incondicionales, se crea una nueva
variable a partir de otra u otras variables. En las transformaciones condicionales, cada
transformación tiene lugar sólo si se cumplen determinadas condiciones. A
continuación, vamos a ver ejemplos de ambos tipos de transformaciones.
39
El cuadro de diálogo contiene todas las opciones para realizar gran cantidad de
transformaciones sobre una o más variables y almacenar el resultado en otra variable.
Esa nueva variable, o variable destino, debe especificarse en el recuadro etiquetado
Variable de destino. Puesto que nuestra variable será el logaritmo neperiano de item01,
escribiremos en el recuadro lnitem01. Una vez puesto el nombre a la variable destino,
puede pulsar el botón etiquetado Tipo y etiqueta para especificar el tipo y la etiqueta de
esta nueva variable. El tipo que viene asignado por defecto es numérico, por tanto, no es
necesario modificarlo. Como etiqueta de la variable, puede escribir “logaritmo
neperiano de item01”.
40
Funciones Significado
SQRT Raíz cuadrada
LN Logaritmo neperiano (base e =
LG10 2.718281)
RND Logaritmo decimal (base 10)
ABS Redondear
SIN Valor absoluto
COS Seno
Coseno
LN(?)
Con el signo de interrogación (?) en vídeo inverso. Este signo nos indica que falta por
indicar a quién se le aplicará el logaritmo neperiano que va a almacenarse en lnitem01.
Ahora seleccione, en el recuadro de la izquierda, que contiene la lista de variables, la
variable item01. A continuación pulse el botón que representa una flecha apuntando
hacia el lado derecho y que se halla a la derecha de este recuadro. La expresión quedará
así:
LN(item01)
Pulse ahora el botón Aceptar. SPSS creará la variable lnitem01. Observe que usted ya
puede saber cuáles van a ser los valores de lnitem01, después de la transformación.
Dado que los valores de item01 eran el 1 (que significaba “nada”) el 2 (que significaba
“regular”) y el 3 (que significaba “bien”), lnitem01 aparecerán, en lugar de 1, 2 y 3, sus
logaritmos neperianos que son, respectivamente:
1 0.0000000,
2 0.6931471,
3 1.0986123.
41
logaritmo neperiano de item01
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos .00 1 5.0 5.0 5.0
.69 4 20.0 20.0 25.0
1.10 15 75.0 75.0 100.0
Total 20 100.0 100.0
Con frecuencia ocurre que se desean hacer transformaciones de las variables existentes
en el archivo de datos que no se corresponden con ninguna de las funciones
incorporadas en el sistema. Por ejemplo, nos podría interesar crear una nueva variable
(item21) que fuera la suma de las variables item01 e item02; es decir,
item21=item01+item02
42
Pulse ahora el botón Aceptar. Se creará una nueva variable, item21, al final del archivo
de datos. Los valores de esta nueva variable oscilarán entre un valor mínimo de 2 (en el
caso de que tanto item01 como item02 valgan 1) a un máximo de 6 (en el caso de que
tanto item01 como item02 valgan 3). Esta nueva variable indicaría, por tanto, en una
escala de 2 a 6, el grado de conocimiento de los sujetos, tanto del gallego hablado como
del gallego escrito, que son los ítems correspondientes a item01 e item02.
Tal como se podrá imaginar, habrá situaciones en que a usted como usuario le interese
realizar transformaciones donde tenga que utilizar varios operadores. Por ejemplo, si
deseáramos crear una nueva variable (p. ej.: item22) que fuera la media aritmética de
item01 e item02, tendríamos que utilizar dos operadores en la transformación, el
operador de la suma (+) y el operador de la división (/). Además, los operadores pueden
combinarse con las funciones incorporadas. Por ello, es necesario tener en cuenta cuál es
la preferencia que el sistema tiene incorporada para estas operaciones. A continuación se
ofrecen estas preferencias:
Se observa en esta tabla que las funciones tienen preferencia 1; por tanto, serán las
primeras que se realicen. A continuación vendría la exponenciación (preferencia 2). En
tercer lugar está la división y la multiplicación (preferencia 3). Cuando tengamos una
transformación con una división y una multiplicación, el sistema realizará en primer
lugar la operación situada a la izquierda y, luego, la situada a la derecha. Algo similar
ocurre con la preferencia de la resta y la suma. Si se desea "romper" este orden de
preferencias deben usarse paréntesis. Por ejemplo, si deseásemos realizar antes una
suma que una multiplicación, debemos escribir la operación de sumar entre paréntesis y
ésta se realizará antes que la multiplicación.
43
Para comprender esto último, considérese la transformación consistente en crear una
variable (p. ej.: item22) tal que sea la media (aritmética) de item01 e item02. Para hallar
la media aritmética debemos sumar item01 e item02 y dividir, luego, entre 2. Si ésta
transformación la expresamos así:
item22=item01+item02/2
item22=(item01+item02)/2
Vamos ahora a ver el uso que podemos hacer del botón Si, que nos permite realizar
transformaciones condicionales. A efectos prácticos, la utilidad de este botón está en que
permite realizar transformaciones para subgrupos de sujetos. Recuerde que hasta ahora
hemos utilizado la opción Calcular de forma incondicional. Una vez que se define la
transformación se realiza para todos los sujetos. Para comprender mejor la función de Si
suponga que estamos interesados en crear una nueva variable (item23) en la que
deseásemos incluir los cuatro subgrupos de sujetos siguientes:
1. Hombres jóvenes,
2. Hombres adultos,
3. Mujeres jóvenes,
4. Mujeres adultas.
Supongamos que la edad que establece el límite entre lo que sería un sujeto joven y un
sujeto adulto son 25 años. De este modo, los cuatro subgrupos de sujetos que deseamos
crear deberían tener estas características:
Veamos cómo crearíamos item23 de modo que obtuviésemos esta clasificación de los
sujetos. En primer lugar, seleccione la opción Transformar y, en el menú que se
despliega a continuación, elija la opción Calcular. Aparecerá el cuadro de diálogo que
44
ya conoce bien. Borre las especificaciones correspondientes tanto a Variable de destino
como a Expresión numérica, puesto que vamos a hacer algo distinto. La variable destino
será ahora item23. Escriba este nombre en Variable de destino. Si lo desea, puede dar
una etiqueta a la variable pulsando el botón etiquetado Tipo y etiqueta. Como etiqueta
podría incluir el texto: “subgrupos por edad y sexo”. Ahora, en el recuadro Expresión
numérica escriba un 1, el primer valor que adoptará item23. Pulse ahora el botón Si.
Aparecerá el siguiente cuadro de diálogo:
Observe que este nuevo cuadro de diálogo tiene mucho en común con el cuadro de
diálogo correspondiente a Calcular. Aparecen: a la izquierda una lista ordenada de las
variables en nuestro archivo de datos; en el centro, la misma consola de cálculo; a la
derecha, la misma lista de funciones. En la parte superior aparecen dos alternativas:
1. Valor 1 en item17.
2. Valor menor o igual a 25 en item18.
item17 = 1
45
en la lista de variable y vuelva a pulsar el botón con la flecha apuntando hacia la
derecha. Finalmente, en la consola de cálculo, pulse en este orden, los botones que
representan el signo menor o igual (<=) y los números dos y cinco (25). En este
momento el cuadro de diálogo tendrá este aspecto:
Deténgase ahora. Fíjese que la expresión contiene el operador lógico AND (&), que no
había utilizado hasta ahora. Veamos la función de los tres operadores lógicos de que
disponemos en SPSS:
• Operador AND (&). Significa “y”. Sirve para enlazar condiciones que deben
cumplirse simultáneamente (p. ej.: ser hombre y menor de 26 años).
• Operador OR (). Significa “o”. Sirve para enlazar condiciones, de las cuales al
menos una debe cumplirse (p. ej.: tener estudios medios o superiores).
• Operador NOT (~). Significa “no”. Sirve para negar condiciones. Es cierto cuando no
se cumple la condición (p. ej.: no ser funcionario).
Continuemos ahora con la creación de item23. Para que la primera condición surta
efecto, pulse el botón Continuar. El cuadro de diálogo de Calcular tendrá ahora este
aspecto:
46
Ahora ya tenemos la expresión completa. Podemos leerla de la siguiente forma: item23
(Variable de destino) vale 1 (Expresión numérica) siempre que (Si) item17 valga 1 y
además item18 sea menor o igual a 25. Pulse ahora el botón Aceptar. SPSS creará la
variable item23. Si observa la variable en la ventana de datos, descubrirá que no
contiene ningún dato. Esto se debe a que no existe ningún hombre joven en nuestra
muestra. No importa; pasemos a la segunda condición.
La condición asociada con el valor 2 en item23 era que el sujeto fuese hombre y la edad
fuese mayor de 25 años. Por tanto, lo único que usted tiene que cambiar en la condición
es el signo “menor o igual” (<=) y reemplazarlo por el signo “mayor que” (>). Pulse
luego el botón Continuar. El cuadro de diálogo de Calcular deberá tener este aspecto:
47
Del mismo modo que hicimos con la expresión anterior, podemos leer la
correspondiente al valor 2 de la siguiente forma: item23 (Variable de destino) vale 2
(Expresión numérica) siempre que (Si) item17 valga 1 y además item18 sea mayor que
25. Pulse ahora el botón Aceptar. Aparece un aviso del programa:
Este aviso nos indica que va a modificarse item23. Si pulsa el botón Aceptar, la
condición especificada se llevará a efecto; si pulsa el botón Cancelar, no se hará
efectiva. La razón de este aviso es que sea usted consciente de que va a modificar de
alguna forma item23, y es un aviso especialmente oportuno en el caso de que esté
especificando condiciones que se solapen unas con otras. Por ejemplo, si la primera
condición fue que item23 vale 1 si los sujetos son hombres y de 25 años o menos, los
sujetos que cumplan ambas condiciones recibirán un 1. Pero si la segunda condición
fuese que item23 vale 2 si los sujetos son hombres y mayores de 23 años, habrá un
grupo de hombres menores de 25 años (aquellos que tengan más de 23 años) que verán
cambiado el 1 que les fue asignado inicialmente en item23 por un 2, que les viene
asignado por la nueva condición. Por esto es muy importante, a la hora de especificar
condiciones, el que éstas sean mutuamente excluyentes (es decir, que un mismo sujeto
no se pueda ver afectado por dos o más de ellas) y que sean exhaustivas (es decir, que no
haya ningún sujeto al que no le afecte ninguna condición). En este caso, las condiciones
especificadas son mutuamente excluyentes y también exhaustivas, por lo que puede
pulsar el botón Aceptar. Fíjese que ahora aparece una puntuación con el valor 2 en
item23. Corresponde al único hombre de la muestra, que tiene 38 años.
48
Ahora ya puede especificar usted sin ayuda las condiciones correspondientes a los
valores 3 y 4 en item23. No obstante, por si tuviese alguna dificultad, le recuerdo la
forma que deben tener las dos condiciones restantes:
Fíjese en que la opción por defecto es que todos los sujetos están seleccionados. No
obstante, hay una serie de alternativas presentes. Veámoslas una por una:
49
• Todos los casos. Se tiene en cuenta a la muestra completa de sujetos.
• Si se satisface la condición. Se seleccionarán aquellos sujetos que cumplan una
determinada condición. Para especificar la condición, se utiliza el botón Si.
• Muestra aleatoria de casos. Se selecciona una muestra aleatoria de casos extraida a
partir de la muestra de datos original. Esta muestra puede ser un porcentaje de la
muestra total (p. ej.: el 20%) o un número fijo determinado por el usuario (p. ej.: 4
sujetos).
• Basándose en el rango del tiempo o de los casos. El usuario especifica un rango
determinado de sujetos indicando donde empieza y dónde termina (p. ej.: del sujeto
nº 10 al sujeto nº 13).
• Usar variable de filtro. Se utilizará una variable binaria (con unos o ceros como
únicos valores) para indicar qué sujetos serán seleccionados (los que tengan unos) y
qué sujetos no serán seleccionados (los que tengan ceros). La variable debe
introducirse en el recuadro situado debajo de la leyenda.
Por último, en la parte inferior, existen dos alternativas aplicables a los sujetos que no
han sido seleccionados. Éstos pueden ser simplemente filtrados, lo que significa que
pueden volver a ser utilizados deshaciendo la selección efectuada; de forma alternativa,
los sujetos no seleccionados pueden ser eliminados permanentemente del archivo de
datos.
En el caso que nos ocupa deseamos seleccionar a aquellos sujetos que cumplen una
determinada condición (ser mujeres y estudiantes); por tanto, debemos seleccionar la
alternativa que selecciona sólo a aquellos sujetos que satisfacen una condición. A
continuación, pulse el botón Si.
Dado que los sujetos son seleccionados en función de que cumplan o no una condición,
el cuadro de diálogo para selección de casos es muy parecido al que vimos para las
transformaciones condicionales: disponemos igualmente de una lista de variables, de
una consola de cálculo, y de una lista de funciones aplicables. Vamos ahora a especificar
la condición, que podría resumirse del siguiente modo:
Usted ya sabe lo que significa la expresión anterior: los sujetos deben ser mujeres
(item17=2) y además (&) deben ser estudiantes (item20=1). Introduzca esta expresión
del modo que ya conoce. El cuadro de diálogo debe quedar de este modo:
50
Pulse ahora el botón Continuar. A continuación, pulse el botón Aceptar en el cuadro de
diálogo de selección de casos. Ocurrirán varias cosas interesnates en su ventanta de
datos: Desplácese hacia la derecha en la lista de variables y se encontrará algo parecido a
esto:
Observe, en primer lugar, que, salvo para los sujetos 4, 9 y 11, el botón que contiene el
número de orden de los sujetos aparece tachado. Cuando el botón correspondiente a un
sujeto aparece tachado, esto significa que ese sujeto no ha sido seleccionado ¿Qué
ocurre, pues, con los sujetos 4, 9 y 11? Estos sujetos son mujeres estudiantes (vea las
columnas correspondientes: item17 e item20) y, por tanto, sí están seleccionados. Si
51
solicita ahora un análisis de frecuencias, observará que la muestra que aparece en los
listados consta ahora de sólo 3 sujetos, los sujetos 9 y 11, en lugar de los 20 sujetos que
existen realmente en el archivo de datos. Fíjese ahora en la última variable, que tiene el
extraño nombre de filter_$. Usted no ha creado esta variable; la ha creado SPSS
despues de que usted efectuó una selección dentro de la muestra de sujetos. La función
de la variable filter_$ es la de contener la información sobre qué sujetos están
seleccionados y qué sujetos no lo están. A los primeros se les asigna un 1 en filter_$ y a
los segundos, se les asigna un 0. Todos los sujetos, menos el nº 4, el nº 9 y el nº 11,
tienen un 0 en la casilla correspondiente de filter_$. Los sujetos 4, 9 y 11, por su parte,
tienen un 1 en su casilla.
¿Qué ocurre si ahora quiere volver a utilizar la muestra completa de 20 sujetos? No hay
ningún problema. Simplemente vuelva a seleccionar la opción Datos y, a continuación,
la opción Seleccionar casos. Ahora seleccione la opción Todos los casos que aparece en
primer lugar en el cuadro de diálogo. La variable filter_$, aunque continúa presente,
dejará de estar en efecto, y todos los sujetos volverán a ser seleccionados. Si más
adelante vuelve a efectuar alguna selección, el resultado volverá a almacenarse en
filter_$.
Pruebe ahora usted solo a hacer alguna selección de sujetos basado en un criterio
distinto al condicional como, por ejemplo, un porcentaje de sujetos extraidos
aleatoriamente de la muesra de 20 original, o seleccionar un rango de casos
determinado. Observe los cambios que se operan en la ventana de datos. Finalmente,
vuelva a dejar el archivo de datos de modo que puedan volverse a utilizar todos los
sujetos.
4.4. Cómo clasificar a los sujetos por orden en una o más variables
El lugar que ocupan los sujetos en el archivo de datos viene determinado, por defecto,
por el orden en que fueron introducidos en el mismo. No obstante, en ocasiones es
posible que usted desee ordenar a los sujetos en base a algún otro criterio (edad, sexo,
etc.). En SPSS es posible ordenar los sujetos, en orden ascendente o descendente, en
base a los valores obtenidos en una o más variables. Si utilizamos una sola variable, los
sujetos serán ordenados en función de los valores numéricos o alfanuméricos obtenidos
en la misma. si utilizamos dos o más variables, aquellos sujetos que obtengan la misma
puntuación en la primera variable de ordenación serán ordenados, a su vez, en función
de los valores obtenidos en la segunda variable de ordenación. Si persistiesen los
empates, éstos serían ordenados en función de una tercera variable de ordenación, y así
sucesivamente.
52
Imagine que está usted interesado en ordenar a nuestros 20 sujetos en función de su
respuesta a item01, su capacidad para entender el gallego hablado. Seleccione la opción
Datos y, a continuación, la opción Ordenar casos. SPSS le mostrará el siguiente cuadro
de diálogo:
A la izquierda se muestra una lista de las variables que puede usted utilizar para realizar
la ordenación. Si eligiese varias, la primera de las elegidas sería utilizada por el
programa como primera variable de ordenación, la segunda como segunda variable de
ordenación, etcétera. Seleccione item01. Más abajo aparece un recuadro donde puede
usted seleccionar el tipo de ordenación: ascendente (de 0 a 9 y de A a Z) o descendente
(de Z a A y de 9 a 0). El modo ascendente es el que está seleccionado por defecto. Pulse
ahora el botón Aceptar y eche una ojeada al archivo de datos. Ahora los sujetos con
puntuación de 1 (“nada”) en item01 aparecen en primer lugar, seguidos de los sujetos
con puntuación 2 (“regular”) y puntuación 3 (“bien”).
53
TERCERA PARTE: ANÁLISIS ESTADÍSTICO CON SPSS PARA
WINDOWS
54
5. Descripción de Variables (Frecuencias y Descriptivos)
Uno de los objetivos más básicos del análisis estadístico es la descripción de variables.
En la mayoría de las ocasiones la descripción de las variables es una primera fase en el
análisis estadístico de los datos; pero pueden existir situaciones en que la descripción de
variables sea el único objetivo del análisis estadístico. Para la descripción de variables
suele utilizarse alguno de los siguientes recursos estadísticos:
1. Distribución de frecuencias;
2. Representación gráfica;
3. Definición de índices de valor central, variabilidad, asimetría y curtosis.
Si usted ha pasado por las secciones anteriores de este libro ya conoce el procedimiento
básico para obtener una distribución de frecuencias (ver Apartado 2.8). No obstante,
SPSS dispone de muchas opciones dentro de este procedimiento. Comience la sesión
abriendo el archivo encuest.sav. A continuación, seleccione la opción Analizar. En el
menú que se despliega debajo, seleccione la opción Estadísticos descriptivos y,
finalmente, en el menú que se despliega a la derecha, seleccione la opción Frecuencias.
Para el análisis, seleccione la variable item01. El cuadro de diálogo tendrá ahora este
aspecto:
55
5.1.1. Representación gráfica
Para el análisis de frecuencias, SPSS posee dos tipos de gráficos: los gráficos de barras y
los histogramas. Estos gráficos proporcionan información similar a la distribución de
frecuencias, pero de forma más intuitiva. En el caso del gráfico de barras, que se aplica a
variables de tipo categórico, se utilizan dos ejes ortogonales. En el eje de abscisas
(horizontal) se representan los valores de la variable X, y en el eje de ordenadas
(vertical) se representan las frecuencias. La mayoría de las variables del archivo
encuest.sav son de tipo categórico; su representación gráfica debería hacerse, por tanto,
mediante un gráfico de barras.
El caso del histograma es muy semejante al del gráfico de barras, pero se aplica cuando
la variable representada en el eje X es contínua, es decir, tiene un gran número de valores
diferentes. En lugar de representar todos estos valores en el eje de abscisas, se crean
intervalos de valores, donde todos los intervalos tienen el mismo tamaño (abarcan un
rango de valores igual de grande). En el eje de ordenadas se representa el número de
casos que caen dentro de cada intervalo. El uso del histograma sería necesario, por
ejemplo, para representar gráficamente la variable item18, dado que el número de
edades diferentes puede ser muy grande. Al crear un histograma, SPSS calcula
automáticamente tanto el número como la amplitud de los intervalos que debe
representar en el gráfico.
Ahora pruebe usted a obtener un gráfico para la variable item01. Pulse el botón
etiquetado Gráficos. Aparecerá este cuadro de diálogo:
56
además de la tabla de distribución de frecuencias que ya conoce, el siguiente gráfico de
barras:
14
12
10
4
Frecuencia
0
nada regular bien
Para los siguientes ejercicios no va a necesitar ningún tipo de gráfico. Vuelva al cuadro
de diálogo de Frecuencias y, en el mismo, vuelva a pulsar el botón Gráficos. En el
recuadro Tipo de gráfico seleccione la opción Ninguno. Pulse ahora el botón Continuar.
Esto evitará que aparezcan gráficos en los análisis de frecuencias que haga a
continuación. Ahora que está en el cuadro de diálogo de Frecuencias, pulse el botón
Estadísticos. Aparecerá el siguiente cuadro de diálogo:
57
Como las opciones para estadísticos son bastante amplias, las iremos viendo una por
una: Tendencia central, Dispersión, Distribución, y Valores percentiles.
Estadísticos
La moda es el valor de la variable que tiene la frecuencia más alta. Para saber cuál es la
moda basta con observar en la distribución de frecuencias cuál es el valor más frecuente.
En el caso de item01, observábamos que el valor 1 tenía 1 frecuencia, el valor 2 tenía 4
frecuencias, y el valor 3 tenía 15 frecuencias. Por tanto, la moda será 3. Éste es el valor
que aparece en su listado.
58
La mediana es un valor de la variable (observado o no) tal que deja la mitad de las
observaciones (datos) por encima y la otra mitad por debajo. Para el cálculo de la
mediana hay que considerar dos casos:
8, 3, 5, 6, 3.
3, 3, 5, 6, 8.
Se observa que el valor 5 deja la mitad de las observaciones (3,3) por debajo y la otra
mitad (6,8) por arriba. Por tanto la mediana es 5.
8, 3, 5, 6, 3, 2.
2, 4, 4, 5, 6, 8.
La observación que ocupa el número de orden 6/2 (es decir, el tercer lugar) es el 4. La
observación que ocupa el número de orden (6/2) + 1 (es decir, el cuarto lugar) es el 5. El
punto medio entre 4 y 5 es 4.5. Por tanto la mediana es 4.5.
En el caso de nuestro listado, observará que la mediana para item01 es 3. Para ver cómo
se obtiene este resultado, recuerde que item01 tenía 3 posibles valores (1, 2, 3), y que las
frecuencias de estos valores eran 1, 4 y 15, respectivamente. He aquí las 20
observaciones ordenadas:
1 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3.
59
N aquí es par (20). La observación que ocupa el lugar N/2 (es decir, el décimo lugar) es
un 3, y la observación que ocupa el lugar (N/2)+1 (es decir, el undécimo lugar) también
es un 3. El punto medio entre 3 y 3 es 3. De ahí que la mediana sea 3.
∑X
i=1
i
X =
N
donde Xi es una observación (dato o medida). En adelante, por simplicidad, una
observación la representamos simplemente por X, prescindiendo del subíndice i. En
consecuencia, tampoco ofreceremos los límites de la suma (Σ) que siempre son 1, en el
límite inferior, y N en el límite superior.
Para comprender por qué la media aritmética es el valor central por excelencia,
considérense las 4 observaciones siguientes:
1, 2, 4, 5.
La media aritmética es
1+ 2 + 4 + 5
X = = 3
4
La desviación (distancia o diferencia) existente entre cada una de las observaciones (1,
2, 4, 5) con respecto a 3 es, en conjunto, la menor posible. No existiría otro valor
numérico que hiciera más pequeñas estas desviaciones. Si medimos una a una estas
desviaciones obtenemos:
1 - 3 = -2
2 - 3 = -1
4-3= 1
5-3= 2
A modo de contraste, imagine que tomáramos como valor representativo del conjunto de
observaciones el 4. En este caso tendríamos:
60
1 - 4 = -3
2 - 4 = -2
4-4= 0
5-4= 1
Se observa que la suma de las desviaciones negativas (-5) es mayor que la suma de las
desviaciones positivas (1), lo que produce que 4 no minimice las desviaciones.
Volviendo a nuestro listado, podrá observar que la media aritmética para item01 es 2.7.
Supongamos que 3 sujetos (N=3) obtienen las tres puntuaciones siguientes en una
prueba:
7, 8, 9.
Asumamos ahora que otros 3 sujetos (N=3) obtienen estas puntuaciones en la misma
prueba:
1, 8, 15.
conjunto A conjunto B
Mínimo 7 1
Máximo 9 15
Rango 2 14
Todos estos índices reflejan el hecho empírico de que B es más variable que A. Pero, a
pesar de que estos índices son útiles para medir la variabilidad de las observaciones
correspondientes a una variable, existen otros índices de variabilidad con propiedades
estadísticas más deseables. Estos índices son la varianza y la desviación típica.
61
Desde el punto de vista de estos índices, la variabilidad se mide utilizando como punto
de referencia la media aritmética. Cuanto más se desvíen las observaciones de la media
aritmética mayor será la variabilidad, y cuanto menos se desvíen menor. La manera más
simple de operativizar esta definición parece que podría obtenerse en los dos pasos
siguientes:
Esto en A sería:
7-8 = -1
8-8 = 0
9-8 = 1
1-8 = -7
8-8 = 0
15-8 = 7
-1+ 0 + 1
= 0
3
-7 + 0 +7
= 0
3
Una manera de evitar el problema de los signos hubiera sido elevar las desviaciones al
cuadrado, y hallar luego la media de tales desviaciones elevadas al cuadrado. Este índice
es, precisamente, la varianza (Sx2).
62
La varianza para el conjunto B sería:
2 ∑(X - X )2
S = x
N
Al elevar las desviaciones al cuadrado se evita el problema de los signos, lo cual es muy
útil para el objetivo que se busca aquí. No obstante, la elevación al cuadrado produce
una "distorsión" notable de las desviaciones que provoca, a su vez, problemas de
interpretación. A modo de ejemplo, en el conjunto de observaciones B, la observación
más baja era el 1, y la más alta era el 15. La varianza, no obstante, era 32.67, que se sale
fuera del rango de las observaciones obtenidas. Un procedimiento muy práctico, que
permite recuperar la escala original de las observaciones, consiste en hallar la raíz
cuadrada de la varianza. A este índice se le denomina desviación típica, y se representa
por Sx. Formalmente,
Sx = S 2x
Sx = 0.67 1 = 0.82.
Sx = 32.67 2 = 5.72.
2 ∑(X - X )2
Sx =
N -1
63
Nótese que procediendo así lo que se hace es "exagerar" un poco el valor de la varianza.
En efecto, en el conjunto A la varianza, así definida, sería:
Para entender por qué SPSS ofrece esta definición modificada de la varianza, permítame
proponerle un ejemplo. Imagine que una empresa con 10.000 empleados le encarga a
usted un sondeo de opinión sobre el nivel de satisfacción laboral de sus empleados. Por
razones económicas y de tiempo, le piden que el estudio no lo haga con los 10.000
empleados sino con una muestra aleatoria de tan sólo 800 empleados. Su objetivo es
conocer la satisfacción laboral de los 800 empleados y extrapolar, luego, este
conocimiento a los 10.000 empleados de la empresa. Entre los indicadores de la
satisfacción laboral usted elige la media aritmética y la varianza. Pues bien, se sabe que
la mejor estimación de la media aritmética de los 10.000 empleados sería la media
aritmética de los 800 empleados; sin embargo, esto no es verdad para la varianza. La
mejor estimación de la varianza de los 10.000 empleados no sería la varianza de los 800,
sino la varianza de los 800 empleados ligeramente aumentada. Precisamente, para
producir este aumento se divide la suma de cuadrados del numerador de la definición de
varianza entre N-1. SPSS supone, por tanto, que el interés del usuario es la inferencia, la
extrapolación de las conclusiones obtenidas en una muestra a una población de donde es
extraída dicha muestra. A veces, para distinguir la varianza con N en el denominador de
la varianza con N-1 en el denominador se le denomina, a la primera, varianza y, a la
segunda, cuasi-varianza. No obstante, esta distinción no se hace en SPSS, y la única
varianza que se ofrece es la cuasi-varianza.
Todos los índices de variabilidad a los que nos hemos referido hasta ahora (mínimo,
máximo, rango, varianza, desviación típica) pueden obtenerse en SPSS. En el caso de
item01, por ejemplo, para obtener estos índices se puede proceder de la siguiente
manera:
64
último. Pulse Continuar y, en el cuadro de diálogo de Frecuencias, pulse Aceptar.
Obtendrá esta tabla con los estadísticos de dispersión:
Estadísticos
Además de los índices que hemos visto, en los libros de estadística se suele hacer
referencia a otros índices de variabilidad, tales como el coeficiente de variación y la
amplitud semi-intercuartil.
0.571
C.V. = x 100 = 21.15
2.7
Otro índice de variabilidad que se recoge en los libros de estadística es la amplitud semi-
intercuartil. Con este índice se mide la variabilidad sin utilizar la media aritmética. La
amplitud semi-intercuartril (Q) se define así:
65
Q3 - Q1
Q =
2
5.1.4.1. Asimetría
Imagine que realiza una prueba a 15 sujetos y obtiene los siguientes resultados:
Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 5 12 2
5 4 13 2
6 4 14 1
7 4 15 3
8 3
66
0
1.0 2.0 3.0 4.0 5.0
Se observa que la distribución es simétrica. Se puede identificar un valor valor central
(el 3) que es el que tiene la frecuencia más alta. Luego, también se observa que la
distribución de los valores que quedan por debajo de este valor central es igual a la
distribución de los valores que quedan por encima.
N ∑(X - X )3
g1 =
(N - 1)(N - 2) S 3x
_
3
Sujeto X (X-X )
1 3 0
2 5 8
3 2 -1
4 5 8
5 4 1
6 4 1
7 4 1
8 3 0
9 1 -8
10 3 0
11 3 0
12 2 -1
13 2 -1
14 1 -8
15 3 0
0
Como el resultado de esta suma es cero, el numerador será cero. En consecuencia, sea
cual sea el denominador, g1 será cero.
67
Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 5 12 5
5 4 13 2
6 4 14 4
7 4 15 3
8 3
0
1.0 2.0 3.0 4.0 5.0
Para los datos del ejemplo, la media es ahora 3.40 y la desviación típica (con el
denominador N-1) es 1.183. Si calculamos la suma de los cubos de las desviaciones,
obtenemos:
_
3
Sujeto X (X-X )
1 3 -0.064
2 5 4.096
3 2 -2.744
4 5 4.096
5 4 0.216
6 4 0.216
7 4 0.216
8 3 -0.064
9 1 -13.824
10 3 -0.064
11 3 -0.064
12 5 4.096
13 2 -2.744
14 4 0.216
15 3 0.064
-6.480
68
Por tanto, sustituyendo en la definición de g1, obtenemos:
Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 1 12 2
5 4 13 2
6 2 14 1
7 4 15 3
8 3
0
1.0 2.0 3.0 4.0 5.0
69
_
3
Sujeto X (X-X )
1 3 -0.064
2 5 13.824
3 2 -0.216
4 1 -4.096
5 4 2.744
6 2 -0.216
7 4 2.744
8 3 0.064
9 1 -4.096
10 3 0.064
11 3 0.064
12 2 -0.216
13 2 -0.216
14 1 -4.096
15 3 0.064
6.416
5.1.4.2. Curtosis
Sujeto X Sujeto X
1 3 9 1
2 5 10 3
3 2 11 3
4 5 12 2
5 4 13 2
6 4 14 1
7 4 15 3
8 3
70
[(N)(N + 1) ∑(X - X )4 ] - [(3) ∑(X - X )2 ∑(X - X )2 (N - 1)]
g2 =
(N - 1)(N - 2)(N - 3) S 4x
Este índice está ideado de tal manera que si el resultado es cero, el apuntamiento de la
distribición es intermedio (distribución mesocúrtica), si el resultado es mayor que cero el
apuntamiento es superior (distribución leptocúrtica), y si el resultado es menor que cero
el apuntamiento es inferior (distribución platicúrtica).
_ _
2 4
Sujeto X (X-X ) (X-X )
1 3 0 0
2 5 4 16
3 2 1 1
4 5 4 16
5 4 1 1
6 4 1 1
7 4 1 1
8 3 0 0
9 1 4 16
10 3 0 0
11 3 0 0
12 2 1 1
13 2 1 1
14 1 4 16
15 3 0 0
22 70
[(15)(16)(70)] - [(3)(22)(22)(14)]
g2 = = -0.654
(14)(13)(12)(2.4694)
Lo que indica g2 es que la distribución es platicúrtica, esto es, más aplastada que la
distribución normal.
71
5.1.5. Selección de índices descriptivos y escala de medida
Por ejemplo, si nuestro objetivo fuese describir la distribución de la variable item01 del
estudio sociolingüítico, y asumimos que está medida a nivel de intervalos, quedaría
adecuadamente descrita si señalamos que el valor observado más bajo era el 1, el más
alto el 3, la media aritmética 2.7, y la desviación típica 0.57.
72
a la derecha, seleccione la opción Descriptivos. Aparecerá el siguiente cuadro de
diálogo:
73
Por ejemplo, imagine que se ha presentado a una prueba para acceder a un determinado
puesto de trabajo. Cuando termina la prueba le indican que usted ha obtenido una
puntuación global de 35. En principio, usted no dispone de criterios para juzgar si dicha
puntuación es buena, mala o regular. Lo que la hace buena, mala o regular es la
ejecución de los demás solicitantes.
frecuencia acumulada
percentil = x 100
numero de observaciones
74
5.2.2. Puntuaciones típicas
X-X
Z =
Sx
La interpretación de una puntuación típica igual a 0 es muy cómoda. Sin embargo, para
poder interpretar otros valores de Z necesitamos cierta información adicional. En la
transformación Z, definida anteriormente, se observa que en el denominador está la
desviación típica Sx. Esta desviación típica tiene un papel muy importante, a efectos de
interpretación, porque hace las veces de unidad de medida. Lo que esto significa es que
puede interpretarse la puntuación típica Z como el número de desviaciones típicas Sx que
la observación X se aparta de la media. Por ejemplo, si en la mencionada prueba usted
obtiene una puntuación típica igual a -2, esto significaría que usted está 2 desviaciones
típicas Sx por debajo de la media. De forma similar, si usted obtiene una puntuación
típica igual a 3, esto significa que usted está 3 desviaciones típicas Sx por encima de la
media.
Ahora bien, imagine que a usted le indican que está 3 desviaciones típicas por encima de
la media (Z=3), usted querrá saber si esto es mucho o poco. Para ello es necesario
conocer la distribución de Z. La distribución (teórica o probabilística) de Z es conocida.
Tiene media 0 y varianza 1. A continuación se ofrecen los porcentajes acumulados para
algunos valores de Z:
75
Valor de Z Porcentaje acumulado
-3 0.14%
-2 2.28%
-1 15.87%
0 50.00%
1 84.13%
2 97.72%
3 99.86%
Pulse el botón Aceptar. En el visor de resultados aparecerá una tabla con los estadísticos
descriptivos por defecto para item01 (nº de sujetos, mínimo, máximo, media y
desviación típica). Vaya ahora al editor de datos y sitúese en la última variable del
archivo de datos; verá que aparece una nueva variable llamada zitem01. Los valores de
esta variable son las puntuaciones Z correspondientes a los valores 1, 2 y 3 de la variable
original. De este modo, el 1 se convierte en la puntuación Z: -2.97598; el 2 se convierte
en la puntuación Z: -1.22540; finalmente, el 3 se convierte en la puntuación Z: 0.52517.
Observe que las puntuaciones Z correspondientes a los valores 1 y 2 son negativas, ya
que 1 y 2 se encuentran por debajo de la media de item01 (2.70), mientras que la
puntuación Z correspondiente al valor 3, que se encuentra por encima de la media, es
positiva.
76
Hasta ahora hemos visto dos procedimientos, el análisis de frecuencias y el análisis
desciptivo, orientados a la descripción de variables tomadas aisladamente, una a una. No
hay duda de que la descripción de las variables, una a una, puede tener interés en la
investigación; sin embargo, se suele estar más interesado en conocer la relación
existente entre distintas variables. Téngase en cuenta que uno de los objetivos
prioritarios de la investigación científica es la predicción, el pronóstico o anticipación de
los fenómenos. Para que la predicción sea posible es necesario el estudio previo de la
relación existente entre distintas variables.
SPSS ofrece dos procedimientos para el análisis estadístico de las relaciones entre
variables: el análisis de correlaciones y el análisis de regresión.
6.1. La covarianza
La covarianza es un índice para la medida de la relación entre dos variables, que ofrece
información sobre los dos siguientes aspectos:
∑ xy
cov (X,Y) =
N
Por las mismas razones que hemos indicado cuando hemos definido la varianza, en
SPSS la covarianza se define de manera ligeramente distinta. El numerador es el mismo,
pero el denominador es N-1, en lugar de N. Esto es,
∑ xy
cov (X,Y) =
N -1
x= X−X
y = Y −Y
77
A estos valores así transformados se les suele denominar puntuaciones diferenciales.
Observe cómo las puntuaciones diferenciales, en realidad, son el numerador de la
transformación para las puntuaciones típicas (o puntuaciones Z).
Para que pueda observar, de forma más concreta, cómo se define la covarianza,
permítame ofrecerle un ejemplo empírico. Suponga que 5 sujetos (N=5) han realizado
dos pruebas. A una le denominamos X y a la otra Y. Estamos interesados en saber si
existe relación entre la ejecución de los sujetos en la primera prueba (X) y la segunda
(Y). Para ello, decidimos calcular la covarianza. A continuación,se ofrecen los datos y
algunos cálculos necesarios para obtener este índice:
X Y x y xy
60 4 14 -1 -14 _
10 2 -36 -3 108 X = 46
80 9 34 4 136 _
50 7 4 2 8 Y= 5
30 3 -16 -2 32
230 25 270
∑ xy 270
cov (X,Y) = = = 67.5
N -1 4
a) cov (X,Y) = 0 significa que no existe relación (lineal) entre las variables X e Y;
b) cov (X,Y) > 0 significa que existe una relación positiva (o directa) entre X e Y;
c) cov (X,Y) < 0 significa que existe una relación negativa (o inversa) entre X e Y.
En el ejemplo la covarianza es 67.5. Esto significa que existe una relación (lineal)
positiva entre las variables X e Y.
La covarianza tiene un gran interés estadístico. Sin embargo, a nivel interpretativo tiene
una limitación importante. La covarianza no indica la intensidad de la relación (o
asociación) existente entre las variables X e Y. En el ejemplo anterior la covarianza era
67.5. Concluíamos que la relación era positiva. Pero no podíamos decir nada sobre la
intensidad de la relación; es decir, si era mucha, regular o poca. Esto se explica porque la
covarianza es función de cómo se haya medido X y de cómo se haya medido Y. Suponga
que X se ha medido en una escala de 0 a 100. Pues bien, si en vez de medirla en una
escala de 0 a 100 la hubiéramos medido en una escala de 0 a 10, el valor de la
covarianza hubiera cambiado mucho. Sin embargo, la relación entre X e Y, si existe,
78
debe seguir siendo la misma. Para hacer esta idea más comprensible, suponga que X son
las notas en la Universidad e Y son las horas de estudio. Suponga que se sabe que existe
una relación positiva, a más horas de estudio mejores notas. Si esto es verdad, la relación
debe ser la misma si el rendimiento se mide en una escala e 0 a 10 que si se mide en una
escala de 0 a 100. Pues bien, la covarianza sería positiva en ambos casos, pero su valor
sería distinto.
Lo ideal sería disponer de un índice cuyo valor fuera independiente de cómo se midió X
y de cómo se midió Y; es decir, que permaneciera invariable ante cualquier
transformación de la unidad de medida de X o de la unidad de medida de Y (o de la
unidad de medida de ambas). Este índice lo ideó Pearson y se le conoce actualmente por
su nombre: coeficiente de correlación de Pearson. A veces se le denomina también
coeficiente de correlación producto-momento de Pearson.
La idea de Pearson consistió en transformar tanto los valores de X como los valores de Y
en puntuaciones típicas, es decir, reducir ambas variables a la misma escala, la escala de
puntuaciones típicas. Luego, se procede de la misma manera, es decir, se halla la media
de la suma de productos cruzados. Formalmente, el coeficiente de correlación de
Pearson, al que denominaremos rxy, se define de la siguiente manera:
∑ Zx Zy
r xy =
N
∑ Zx Zy
r xy =
N -1
X Y ZX ZY ZxZy
60 4 0.5182 -0.3430 -0.1777 _
10 2 -1.3324 -1.0290 1.3710 X = 46, Sx = 27.0185
80 9 1.2584 1.3720 1.7265 _
50 7 0.1480 0.6860 0.1015 Y = 5, Sy = 2.9155
30 3 -0.5922 -0.6860 0.4063
3.4276
∑ Zx Z y 3.4276
r xy = = = 0.8569
N -1 4
79
cov(X,Y)
r xy =
Sx S y
cov(X,Y) 67.5
r xy = = = 0.8569
Sx S y (27.0185)(2.9155)
Para la interpretación de este resultado (0.8569) debemos tener en cuenta que rxy oscila
entre los valores -1 y 1, donde 1 indica la existencia de una relación (lineal) positiva
perfecta entre X e Y, y -1 indica la existencia de una relación (lineal) negativa perfecta
entre X e Y. Otro criterio que ayuda a interpretar rxy es el significado del valor 0. Al igual
que ocurría con la covarianza, un valor de rxy igual a 0 indica que no existe relación
(lineal) entre X e Y. Por tanto, para interpretar rxy debemos observar, primero, si éste es
positivo, negativo o igual a cero. Un valor positivo indica relación (lineal) positiva, un
valor negativo indica relación (lineal) negativa y un valor igual a 0 indica que no existe
relación (lineal) entre X e Y.
Una apreciación interesante que cabe hacer aquí es que el signo de rxy no es un indicador
de la intensidad de la relación. Por tanto, si tuviéramos un valor de rxy igual a 0.50 y otro
valor de rxy igual a -0.90 no podríamos concluir que la primera relación (0.50) es más
intensa que la segunda (-0.90). Al contrario la segunda relación (-0.90) es mucho más
intensa que la primera (0.50) porque -0.90 está mucho más próximo a -1 (relación
perfecta) que 0.50 a 1 (relación perfecta). Recuerde que el signo sólo sirve para
representar la dirección de la relación (positiva o negativa). En efecto, en un caso la
relación es positiva (0.50) y en otro negativa (-0.90).
A pesar de tener unos límites (-1 y 1) y un punto central (el cero), con un significado
inequívoco, la interpretación del coeficiente de correlación de Pearson puede portar
cierta subjetividad. La manera más objetiva de interpretar rxy se consigue elevándolo al
cuadrado. El cuadrado del coeficiente de correlación de Pearson tiene, incluso, un
nombre propio: coeficiente de determinación. El coeficiente de determinación ofrece la
ventaja de que indica la cantidad de varianza común a X y a Y, expresada dicha cantidad
en tantos por uno. Si eleváramos el coeficiente de correlación que obtuvimos en el
ejemplo (rxy = 0.8569) al cuadrado obtendríamos un valor de 0.7343, que es la
proporción de varianza común o compartida por X e Y. A veces se establece una
dirección en la relación y se le denomina proporción de varianza de Y determinada por X
(de ahí el nombre de coeficiente de determinación).
80
Ahora se puede ver más fácilmente por qué la intensidad de la relación es independiente
del signo. El en caso de rxy = 0.50 la proporción de varianza de Y determinada por X es
0.25, mientras en el caso de rxy = -0.90 esta proporción es 0.81. Obviamente es mucho
mayor el grado de asociación, de comunalidad o solapamiento entre las variables X e Y
en este segundo caso que en el primero.
81
En el recuadro Estadísticos se nos muestran como estadísticos opcionales las medias y
desviaciones típicas de item01 e item02, y también los productos cruzados de las
puntuaciones diferenciales (o de desviación) y las covarianzas. Seleccione esta última
opción y pulse el botón Continuar. A continuación, en el cuadro de diálogo de
Correlaciones bivariadas, pulse el botón Aceptar. Obtendrá una tabla como esta:
Correlaciones
entiendo entiendo
el gallego el gallego
hablado escrito
entiendo el Correlación de Pearson 1.000 .926**
gallego hablado Sig. (bilateral) . .000
Suma de cuadrados y
6.200 5.900
productos cruzados
Covarianza .326 .311
N 20 20
entiendo el Correlación de Pearson .926** 1.000
gallego escrito Sig. (bilateral) .000 .
Suma de cuadrados y
5.900 6.550
productos cruzados
Covarianza .311 .345
N 20 20
**. La correlación es significativa al nivel 0,01 (bilateral).
82
representa la primera variable (item01) y la segunda fila la segunda variable (item02).
De igual forma, las columnas también son variables. La columna 1 es la variable 1
(item01) y la columna 2 es la variable 2 (item02). En el caso del coeficiente de
correlación, esta es la forma de la matriz que usted ha visto en la tabla ofrecida por el
visor de resultados:
item01 item02
item01 r11 r12
item02 r
21 r22
Formalmente, un elemento se representa por una letra minúscula (aquí la r de rxy) y dos
subíndices. El primer subíndice se refiere a la fila. Observe como en los dos elementos
de la fila 1 el primer subíndice es un 1. De forma similar, observe como el primer
subíndice de los elementos de la segunda fila es un 2. El segundo subíndice se refiere a
la columna. Observe como el segundo subíndice de la columna 1 es un 1 y el segundo
subíndice de la columna 2 es un 2.
La matriz que usted ha obtenido tiene cuatro elementos. El elemento r11 es la correlación
de Pearson entre item01 e item01, es decir, la correlación de item01 consigo misma.
Evidentemente, esta correlación tiene que ser perfecta positiva. Por eso, el valor
numérico que se observa en dicha posición en el listado de SPSS es un 1. El elemento
r12 es la correlación entre la item01 e item02 (.926). El elemento r21 es la correlación de
Pearson entre item02 e item01. Obviamente, esta correlación tiene que ser idéntica a la
correlación entre item01 e item02. Por eso el coeficiente de correlación es también .926.
Finalmente, el elemento r22 es la correlación entre item02 e item02. Por eso, el resultado
es 1.
Dado que las filas son variables y las columnas son esas mismas variables, la matriz de
correlaciones siempre será cuadrada (número de filas = número de columnas). Una
matriz cuadrada se puede descomponer en tres partes: (a) la diagonal principal; (b) el
triángulo superior; y (c) el triángulo inferior.
La diagonal principal está formada por aquellos elementos en que el primer subíndice y
el segundo son iguales. Los elementos de la diagonal principal de la matriz anterior son
r11, r22 y r33. Ya habíamos señalado que una característica distintiva de la matriz de
83
correlaciones es que los elementos de la diagonal principal son siempre iguales a 1.
Usted podrá observar en su tabla que, en efecto, estos tres elementos son iguales a 1.
El triángulo superior está formado por todos los elementos situados por encima de la
diagonal principal. En la matriz anterior el triángulo superior está formado por los
elementos r12 (.926), r13 (.536) y r23 (.541).
El triángulo inferior está formado por todos los elementos situados por debajo de la
diagonal principal. En la matriz anterior el triángulo inferior está formado por los
elementos r21 (.926), r31 (.536) y r32 (.541).
Es comprensible que sea así porque el número que le hemos concedido a las variables es
arbitrario.
Dentro del análisis de regresión se pueden distinguir dos tipos: (1) regresión lineal; (2)
regresión no-lineal. Aquí sólo será considerado el primero de estos análisis.
El análisis de regresión lineal, como su propio nombre sugiere, asume que Y es función
lineal de X. La función lineal tiene la siguiente forma:
Y = a + bX
84
donde a y b son dos constantes.
Dado que la relación entre X e Y es, con frecuencia, no-exacta, en el análisis de regresión
se añade a la ecuación lineal un término de error. Formalmente, pues, la ecuación de
regresión se puede definir así:
Y = a + bX + e
donde e es el error que se cometería si utilizáramos esta ecuación para predecir valores
en Y a partir de valores conocidos en X.
Y´ = a + bX
Error = Y - Y´
∑ xy
b =
∑ x2
a = Y − bX
∑ x y 270
b = = = 0.09247
∑ x 2 2920
85
a = Y − bX = 5 − (0.09247)(46) = 0.74638
Y´ = 0.74638 + 0.09247 X.
La ecuación de regresión nos permitió realizar una predicción de 7.22 para este nuevo
sujeto. Así se podría utilizar la misma ecuación de regresión para realizar predicciones
para otros muchos sujetos.
Ahora bien, una vez hecha esta predicción nos podrían preguntar por el grado de
"fiabilidad" de la misma. Para contestar a esta pregunta deberíamos disponer de índices
que reflejaran la precisión de la ecuación de regresión.
Para comprender cómo se obtiene una medida global del error, recuerde que el error se
definía así:
Error = Y - Y´
En principio podría pensarse que una medida global del error se obtendría hallando la
media de los errores. Esto es,
86
∑(Y - Y ′ )
N
Esto sería correcto de no ser porque se sabe que la suma de los errores (el numerador)
siempre es igual a 0. Para comprobarlo numéricamente se ofrecen, a continuación, estos
valores para el mismo ejemplo numérico tratado anteriormente:
Y Y’ Y-Y’
4 6.29 -2.29
2 1.67 0.33
9 8.14 0.86
7 5.37 1.63
3 3.53 -0.53
0.00
Observe como la suma de los errores cometidos con la ecuación de regresión, Σ(Y-Y´),
es igual a 0. Este hecho no sólo sería cierto para estos datos, sino para cualquier par de
valores (X,Y).
Para evitar este problema de la no aditividad de los errores, lo que se hace es elevarlos al
cuadrado y hallar, luego, la media de dichos cuadrados. Formalmente,
∑(Y - Y ′ )2
N
Observe que este índice es una medida global de la magnitud del error que se comete
utilizando una ecuación de regresión dada. Cuanto mayor sea este índice, mayor es el
error. Observe también que este índice es un tipo de varianza. Precisamente, por esta
razón, se le denomina varianza de los errores o también varianza residual. El término
"residuo" se utiliza en este contexto en el sentido de "error".
Dado que para el cálculo de la varianza residual se han elevado los errores al cuadrado,
su interpretación es difícil. Por esta razón, es muy útil hallar la raíz cuadrada de la
varianza residual. Este índice es una desviación típica que, en este contexto, se
denomina error típico. Formalmente, el error típico se define así:
∑ (Y - Y ′ )2
N
0 ≤ Error típico ≤ Sy
Para una correcta interpretación del error típico debemos conocer, por tanto, la
desviación típica de la variable dependiente Y. En nuestro caso, Sy = 2.9155. A
continuación se ofrecen los cálculos necesarios para la obtención del error típico en el
ejemplo:
87
2
Y Y’ Y-Y’ (Y-Y’)
4 6.29 -2.29 5.2441
2 1.67 0.33 0.1089
9 8.14 0.86 0.7396
7 5.37 1.63 2.6569
3 3.53 -0.53 0.2809
9.0304
9.0304
Error típico = = 1.81 = 1.34
5
Nótese que un error típico de 1.34 indica que el error que se comete pronosticando una
puntuación de 7.22, para un hipotético sujeto que hubiese obtenido una puntuación en X
igual a 70, no es alto. Si el error fuese alto este índice debería estar próximo a 2.9155.
En este caso, 1.34 se aleja bastante de 2.9155.
cov(Y,Y ′ )
r yy ′ =
SySy′
Es importante señalar que, a diferencia de rxy, ryy´ no asume valores negativos, oscila
entre 0 y 1. Un valor de ryy´ negativo significaría que cuando Y es un valor alto, la
predicción Y´ es un valor bajo, y viceversa. Obviamente, esto no tendría sentido en este
contexto.
Y Y’ y y’ yy’
4 6.29 -1 1.29 -1.29 _
2 1.67 -3 -3.33 9.99 Y = 5, Sy = 2.9155
9 8.14 4 3.14 12.56 _
7 5.37 2 0.37 0.74 Y’ = 5, Sy’ = 2.4955
3 3.53 -2 -1.47 2.94
24.94
24.94
cov(Y,Y ′ ) = = 6.235
4
Por tanto,
88
6.235
r yy ′ = = 0.8569
(2.9155)(2.4955)
Si procedemos de la misma manera que hicimos con rxy y elevamos ryy´ al cuadrado
obtenemos la proporción de variabilidad de Y que es explicada por sus predicciones (Y´)
o, lo que es lo mismo, la proporción de variabilidad de Y que es explicada por la
ecuación de regresión. Para el ejemplo, tenemos
Observe que una proporción de variabilidad explicada igual a 0.7343 indica la existencia
de una alta fiabilidad en las predicciones que se realicen con la ecuación de regresión. El
valor máximo de esta proporción sería 1, y el mínimo 0. Una proporción de 0.7343 está
bastante cerca de 1.
donde
∑ (Y − Y )
2
Variabilidad de Y =
∑ (Y '−Y )
2
Variabilidad Regresión =
_ _
2 2 2
Y Y’ (Y-Y) (Y’-Y) (Y-Y’)
4 6.29478 1 1.68 5.27 _
2 1.67128 9 11.08 0.11 Y=5
9 8.14418 16 9.88 0.73 _
7 5.37008 4 0.14 2.65 Y’ = 5
3 3.52068 4 2.19 0.27
34 24.97 9.03
89
Tal como habíamos señalado, se puede observar que la Variabilidad de Y (aquí 34) es
igual a la suma de la Variabilidad explicada por la ecuación de regresión (Variabilidad
Regresión, aquí 24.97) y la Variabilidad no explicada por la ecuación de regresión
(Variabilidad Residual, aquí 9.03).
90
de introducción de las variables independientes en la ecuación de regresión. El método
por defecto es el denominado Introducir, que introduce directamente item01 como
variable independiente. El recuadro etiquetado Variable de selección nos permite utilizar
una variable para seleccionar un subconjunto de sujetos de la muestra total (p. ej.: los
hombres, las amas de casa, etc.). El botón Regla nos permite seleccionar el valor de la
variable de selección que define al subconjunto en cuestión. El recuadro etiquetado
Etiquetas de caso nos permite utilizar una variable que contenga etiquetas para cada
sujeto, y puede ser de interés a la hora de llevar a cabo análisis más finos de la relación
entre las variables, pero no nos interesa ahora. Por último, en la base del cuadro de
diálogo aparecen distintos botones que nos permiten obtener más información del
análisis; Sin embargo, tampoco vamos a utilizarlos ahora. Pulse directamente el botón
Aceptar. El visor de resultados le mostrará una serie de tablas. La primera de ellas tiene
este aspecto:
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Método
1 entiendo el
gallego a . Introducir
hablado
a. Todas las variables solicitadas introducidas
b. Variable dependiente: soy capaz de hablar en gallego
Recuerde que estamos intentando resolver un problema de regresión lineal con dos
variables X e Y. Una de estas variables (Y) se asume que es función lineal de la otra (X).
A la variable Y se le denomina dependiente y a X independiente. En este ejemplo la
variable dependiente es item03 y la variable independiente es item01. La siguiente tabla,
de mayor interés para nosotros, contiene el resumen del modelo:
p(1 - R cuadrado)
R cuadrado corregida = R cuadrado -
N - p -1
91
R cuadrado corregida es, en realidad, una infraestimación de R cuadrado. Su valor, es
por tanto, ligeramente inferior al de R cuadrado. En este caso,
1(1 - .287 )
R cuadrado corregida = .287 - = .247
20 - 1 - 1
Según esta definición, para el cálculo del error típico necesitamos conocer la desviación
típica de la variable dependiente (aquí la desviación típica de item03). La desviación
típica de item03 puede obtenerse utilizando el botón Estadísticos, situado en la parte
inferior del cuadro de diálogo del análisis de regresión. Al pulsar ese botón aparece este
nuevo cuadro de diálogo:
92
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 2.453 1 2.453 7.243 .015a
Residual 6.097 18 .339
Total 8.550 19
a. Variables predictoras: (Constante), entiendo el gallego hablado
b. Variable dependiente: soy capaz de hablar en gallego
Observe las dos primeras filas de esta Tabla. En ellas están representadas las dos partes
en que descomponíamos la Variabilidad de la variable dependiente (aquí item03). Estas
partes eran la Variabilidad explicada por la ecuación de regresión (Regresión) y la
Variabilidad no explicada por la ecuación de regresión (Residual). Recuerde que la
Variabilidad se definía como una Suma de Cuadrados. Por eso, en la columna 2 se
ofrecen las Sumas de Cuadrados para el componente explicado por la ecuación de
regresión (2.453) y para el componente no explicado por la ecuación de regresión
(6.097). Conocidos estos dos componentes, tenemos información para obtener la Suma
de Cuadrados de item03. Esto es,
0.45 = 0.67.
93
Los grados de libertad están indicados en la primera columna de la Tabla de Análisis de
varianza mediante las letras gl. Se observa que la Suma de Cuadrados explicada por la
ecuación de regresión solamente tiene 1 grado de libertad. Los grados de libertad para
esta fuente de Variabilidad son iguales al número de variables independientes existentes
en la ecuación de regresión. Aquí sólo teníamos una variable independiente (item01). En
cuanto a la Suma de Cuadrados no explicada por la ecuación de regresión, se observa
que los grados de libertad son 18. Estos grados de libertad se obtienen así:
En este caso,
gl = 20 - 1 - 1 = 18.
MC Regresión 2.453
F = = = 7.24
MC Residual .339
Veamos ahora la última tabla que nos ofrece el análisis de regresión efectuado, que
contiene los coeficientes de la ecuación de regresión. La tabla tiene este aspecto:
94
Coeficientesa
Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) .452 .644 .701 .492
entiendo el
.629 .234 .536 2.691 .015
gallego hablado
a. Variable dependiente: soy capaz de hablar en gallego
95
• límite inferior = .629 - .49 = .14;
• límite superior = .629 + .49 = 1.12.
Dado que el cero no se encuentra entre los límites del intervalo, concluimos que el valor
de b (.629) es fiable o estadísticamente significativo.
0.57
BETA = 0.629 x = .535
0.67
Solamente nos quedan por comentar las dos últimas columnas de la tabla anterior. El
procedimiento que se ofrece en estas columnas es, en realidad, una forma alternativa de
evaluar la fiabilidad de la constante b. En este caso, se compara b con su error típico. El
valor t se obtiene así:
constante b 0.629
t = = = 2.69
error tÍpico de b 0.234
96
lineal de dos o más variables independientes. La forma de la ecuación de regresión para
el caso de dos variables independientes es la siguiente:
Y´ = a + b1X1 + b2X2.
Nótese que los valores de Y, X1 y X2 son conocidos para un problema dado, y los valores
de a, b1 y b2 desconocidos. Las constantes a, b1 y b2 se pueden calcular por el mismo
procedimiento de mínimos cuadrados utilizado en la regresión con una variable
independiente. Recuerde que este procedimiento garantiza la búsqueda de valores para
las constantes que producen los errores más pequeños posibles.
Vamos a llevar a cabo un análisis de regresión múltiple utilizando las variables item01,
item03 e item11. El procedimiento es el mismo que en el análisis anterior, pero en este
caso item11 irá en la casilla etiquetada Dependiente, mientras que item01 e item03 irán
en la casilla etiquetada Independientes. Esto es, item11 es ahora la variable dependiente,
e item01 e item03 son las variables independientes. Como método de construcción de la
ecuación, mantendremos el método Introducir, aunque existe un procedimiento más
adecuado para el caso de la regresión múltiple. Este procedimiento, que veremos más
adelante, solamente incluye en la ecuación de regresión aquellas variables
independientes que tienen una relación estadísticamente significativa con la variable
dependiente. Si realiza este problema, el visor de resultados le mostrará estas dos tablas:
97
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 6.512 2 3.256 5.514 .014a
Residual 10.038 17 .590
Total 16.550 19
a. Variables predictoras: (Constante), soy capaz de hablar en gallego, entiendo el
gallego hablado
b. Variable dependiente: el gallego es útil en el mundo de hoy
Coeficientesa
Coeficient
es
Coeficientes no estandari
estandarizados zados
Modelo B Error típ. Beta t Sig.
1 (Constante) 1.093 .862 1.267 .222
entiendo el
-6.75E-02 .365 -.041 -.185 .856
gallego hablado
soy capaz de
.902 .311 .648 2.899 .010
hablar en gallego
a. Variable dependiente: el gallego es útil en el mundo de hoy
98
La ventaja que tiene la tipificación es que permite la comparación entre los coeficientes
de regresión parcial.
item11´ = b item03.
99
El siguiente botón, etiquetado Guardar, muestra este cuadro de diálogo:
Esta opción resulta útil principalmente para salvar los valores de la variable dependiente
predichos por la ecuación de regresión (Valores pronosticados) como una nueva
variable en el archivo de datos. Estos valores pueden salvarse tanto en la misma escala
de medida que la variable dependiente (No tipificados) como en puntuaciones típicas
(Tipificados). Las variables así generadas serán etiquetadas por SPSS con los caracteres
pre_ (predicha), seguidos del número de orden de creación de la variable (pre_1, pre_2,
etc.) en el caso de valores no estandarizados., mientras que si están en forma de
100
puntuaciones típicas, las etiquetas de las variables empezarán por los caracteres zpr_, (z
predicha), seguidos del número de orden (zpr_1, zpr_2, etc.)
El último botón, etiquetado Opciones, nos permite modificar los valores de F, o las
probabilidades asociadas, para que una variable independiente determinada pueda ser
incluida (Entrada) o excluida (Salida) del análisis. La utilidad de esta opción reside en
que podemos emplear criterios más restrictivos para introducir una nueva variable
dependiente en la ecuación de regresión, o criterios más laxos para eliminarla, de los
utilizados por SPSS. Otra opción presente en este cuadro de diálogo consiste en forzar
una recta de regresión que pase por el origen de coordenadas o, lo que es lo mismo,
forzar una ecuación de regresión en la que no haya constante a. La opción por defecto es
que se incluye el valor de a en la ecuación de regresión (Incluir constante en la
ecuación).
101
de los adultos, las de los universitarios con las de los que tienen estudios inferiores. Es
evidente que, en nuestro archivo, disponemos de una pequeña muestra de hombres y de
una pequeña muestra de mujeres, de una pequeña muestra de jóvenes y una pequeña
muestra de adultos, de una pequeña muestra con estudios universitarios y una pequeña
muestra con estudios inferiores. Sin embargo, la comparación estadística se realiza para
hipotéticas poblaciones mayores de observaciones posibles, y no para las muestras.
Para hacer posible esta comparación, se establece una hipótesis estadística a nivel de
población. En el caso más habitual, esta hipótesis establece que ambas muestras
proceden de una misma población, de modo que la diferencia observada entre ambas
medias se debe al azar y, en consecuencia, no es fiable. A esta hipótesis estadística se le
denomina hipótesis nula. El objetivo se convierte en comprobar esta hipótesis. Para ello,
se utiliza la información observada en las muestras, fundamentalmente sus medias y sus
varianzas. Toda la cuestión radica en decidir si la diferencia observada entre las medias
de las dos muestras es lo suficientemente grande como para poder descartar el azar como
explicación. Como siempre, la valoración de la diferencia entre las medias se hará en
términos probabilísticos. Afortunadamente, la distribución de la diferencia de medias de
muestras es conocida. Si se satisfacen ciertos supuestos, se trata de una distribución t de
Student con n1 + n2 - 2 grados de libertad, donde n1 y n2 son los tamaños de la muestra 1
y 2, respectivamente. Por tanto, lo que se hace es calcular la probabilidad de obtener una
diferencia de medias mayor (en términos absolutos) que la obtenida. Si esa probabilidad
es igual o menor que 0.05 (es decir, pequeña) se rechaza la hipótesis nula. En caso
contrario, no se rechaza. Rechazar la hipótesis equivale a afirmar que la diferencia
observada entre las medias de las dos muestras es "grande" y, en consecuencia,
significativa (fiable). Otra manera de expresar esto mismo consiste en afirmar que las
dos muestras proceden de dos poblaciones con medias distintas. No rechazar la hipótesis
nula equivale a afirmar que la diferencia entre las medias de las dos muestras es
"pequeña" y, en consecuencia, no significativa (no fiable). También se puede afirmar
que ambas muestras proceden de una misma población.
Para llevar a cabo este primer paso, utilizaremos el procedimiento Recodificar, que
usted ya conoce; si no recuerda su uso, vuelva al apartado 4.1.1. En el menú principal,
seleccione la opción Transformar y, en el menú que se despliega, la opción Recodificar.
De las dos opciones de recodificación, seleccione ahora En distintas variables.
Aparecerá el cuadro de diálogo de Recodificar. Como variable de entrada, seleccione
item19. Como variable de salida, cree una nueva variable, a la que llamaremos estudios.
102
Como etiqueta de la nueva variable puede utilizar la siguiente: “no
superiores/superiores”. A continuación, pulse el botón Valores antiguos y nuevos. Para
los valores 1,2 y 3 de item19, seleccione el valor 1 en la variable estudios. Para el valor
4 de item19, seleccione el valor 2 en la variable estudios. El cuadro de diálogo tendrá
este aspecto cuando termine:
103
Observe los dos interrogantes que aparecen a la derecha de la variable estudios. Nos
indican que SPSS no conoce los dos valores que esta variable puede tomar. Para
definirlos, pulse el botón Definir grupos. Aparecerá un pequeño cuadro de diálogo
donde debe introducir ambos valores: 1 para los sujetos con estudios no superiores, y 2
para los sujetos con estudios superiores. Introduzca ahora ambos valores. El cuadro de
diálogo debe quedar así:
Estadísticos de grupo
104
Desviacion Tipica
Error Tipico =
Raiz cuadrada tamaño muestra
Por tanto,
(a) en el grupo 1,
0.630
Error típico = = .17.
13
(b) en el grupo 2,
0.488
Error típico = = .18
7
En principio, se observa que la media de los sujetos con estudios superiores (2.71) es
superior a la media de los sujetos sin estudios superiores (2.69). Por tanto, a nivel
muestral, ambas medias son distintas. Esto es innegable. Pero, la cuestión no es si ambas
medias son distintas a nivel muestral, sino si son distintas a nivel poblacional. Dicho
más concretamente, la cuestión es si la diferencia que hay entre 2.71 y 2.69 es "pequeña"
y se puede explicar por simple azar o la diferencia es "grande" y se debe a factores
sistemáticos o no-aleatorios. La respuesta a esta cuestión nos la da el estadístico t que se
muestra en la siguiente tabla:
Prueba de Levene
para la igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo de
confianza para la
Diferencia Error típ. de diferencia
F Sig. t gl Sig. (bilateral) de medias la diferencia Inferior Superior
entiendo el Se han asumido
.164 .690 -.080 18 .937 -2.20E-02 .28 -.60 .56
gallego hablado varianzas iguales
No se han asumido
-.086 15.409 .932 -2.20E-02 .25 -.56 .52
varianzas iguales
Antes de examinar el valor del estadístico t, es necesario saber si las varianzas de las
poblaciones son o no iguales. Dependiendo de que se de una u otra circunstancia, varía
el modo en que debe calcularse el valor de t. Para solucionar este problema, SPSS
somete a comprobación la hipótesis nula de igualdad de varianzas. Esta comprobación
se realiza mediante la prueba de Levene, que calcula un estadístico F a partir de una
transformación de los datos originales en item01. En concreto, para cada sujeto se
calcula el valor absoluto de la diferencia entre la puntuación obtenida en item01 y la
media en item01 para el grupo al que pertenece ese sujeto (en nuestro caso, sin estudios
superiores o con estudios superiores). Por ejemplo, un sujeto que hubiese obtenido una
puntuación de 2 en item01 y perteneciese al grupo sin estudios superiores, obtendría esta
puntuación transformada: |2 - 2.69| = 0.69. Por su parte, un sujeto que hubiese obtenido
una puntuación de 1 en item01 y perteneciese al grupo con estudios superiores,
obtendría la siguiente puntuación transformada: |1 - 2.71| = 1.71.
105
Una vez transformados los datos, se efectúa un análisis de varianza de de un factor (ver
apartado 8.1) a partir de esos datos transformados. El análisis de varianza será el que es
el que nos proporcione el valor final de F. Se observa en el listado que el valor de F es
.164 y su probabilidad asociada (nivel de significación) es .690. Como el nivel de
significación es mayor que .05 no se rechaza la hipótesis nula y se afirma que las
varianzas de ambas poblaciones son iguales.
Ahora debemos saber qué valor de t es el correcto para nuestros datos. Observe las
columnas encabezadas con el rótulo Prueba T para la igualdad de medias. La primera
columna nos indica el valor de t calculado: para el caso de que se asuman varianzas
iguales o para el caso de que se asuman varianzas distintas. En nuestro caso, y dado el
resultado de la prueba de Levene, el valor de t correcto es el que corresponde al primer
caso, el de varianzas iguales. No obstante, veamos cómo se obtiene t en ambos casos.
X1 - X 2
t = 2 2
S1 + S 2
n1 n2
2.6923-2.7143
t = = - 0.86
(0.630 2 / 13)+ (0.488 2 / 7)
En la columna siguiente aparecen los grados de libertad (gl), que son de 15.409. Éstos se
obtienen de la siguiente manera:
1
grados de libertad =
Z1 + Z 2
donde
106
2
2
s1 / n1
Z1 = 2 2 / ( n1 - 1)
s1 / n1 + s2 / n2
2
2
s2 / n 2
Z2 = 2 2 / ( n2 - 1)
s1 / n1 + s2 / n2
En este caso,
2
2
0.630 / 13
Z1 = ( 2 2 / (13 - 1) = 0.0186
0.630 / 13) + ( 0.488 / 7)
2
2
0.488 / 7
Z2 = 2 2 / (7 - 1) = 0.0463
( 0.630 / 13) + ( 0.488 / 7)
Por tanto,
1
grados de libertad = = 15.409
0.0186 + 0.0463
Cuando las varianzas son iguales, SPSS calcula otro estadístico t que también permite la
comprobación de la misma hipótesis nula acerca de las diferencias entre las medias de
los dos grupos en item01. Este estadístico, a diferencia del anterior, supone que ambas
muestras proceden de poblaciones que tienen idéntica varianza. La definición es la
siguiente:
t = X1 - X2
2 2
S p / n1 + S p / n2
donde
107
2
( n1 - 1) S 21 + ( n2 - 1) S 22
S p=
n1 + n2 - 2
En este caso,
2
(12)(0.6302 )+ (6)(0. 4882 )
S p= = 0.344
13+7 - 2
2.6923 - 2.7143
t = = -.08
0.344 0.344
+
13 7
En este ejemplo hubiéramos llegado a la misma conclusión eligiendo una t u otra. Sin
embargo, puede haber situaciones en que no sea así. Recuerde, por tanto, que si la
prueba de Levene ofrece una F que es significativa, debe elegir el valor y la probabilidad
asociada de la t que se encuentra en la línea correspondiente a varianzas distintas, y que
si la F proporcionada por la prueba de Levene es no significativa debe elegir la t que se
encuentra en la línea correspondiente a varianzas iguales.
La comparación que hicimos era entre dos grupos de naturaleza empírica (universitarios
vs. no universitarios). No obstante, es frecuente en la investigación diseñar o crear
grupos experimentalmente. En el caso más elemental, se asigna aleatoriamente la mitad
de los sujetos disponibles a una condición experimental y la otra mitad a una condición
control. Luego, se comparan las medias de ambos grupos en alguna variable de estudio.
A este diseño se le denomina de dos grupos aleatorios. El procedimiento que se seguiría
con SPSS para analizar los datos procedentes de este diseño es el mismo que el utilizado
en el ejemplo anterior. En SPSS se identifican ambos datos como procedentes de
muestras independientes. La diferencia entre uno y otro caso es que en nuestro ejemplo
no existe diseño experimental, mientras en el segundo si existe. El análisis de datos
disponible es, no obstante, el mismo.
Existen ocasiones en que el diseño de dos grupos se hace creando, primero, pares de
sujetos que sean muy iguales en la variable de estudio (variable dependiente). Luego, se
asigna un miembro de cada par al grupo experimental y el otro miembro del par al grupo
control. A este diseño se le denomina diseño de dos grupos apareados. En los
experimentos clásicos de dos grupos apareados se suelen utilizar gemelos. Sin embargo,
los pares pueden hacerse utilizando otras variables de apareamiento. Una variación de
108
este diseño muy utilizada en las ciencias del comportamiento consiste en someter a los
mismos sujetos a ambas condiciones (experimental y control). En este caso, el sujeto
hace de par de sí mismo. Este diseño que resulta tremendamente atractivo sólo es
aconsejable en aquellos casos en que no exista posibilidad de transferencia alguna de
una condición a otra.
Con los datos procedentes del estudio sociolingüístico no es posible ilustrar cómo se
realiza el análisis de datos para este diseño con SPSS. Por ello, desarrollamos un
ejemplo específico.
Nosotros queremos probar la hipótesis nula de igualdad de medias. Para ello utilizamos
el estadístico t. Como el diseño es de grupos apareados los datos se analizan por pares y,
en consecuencia, el estadístico t tiene una nueva definición:
- X2
t = X1
SD / N
A continuación se ofrecen los cálculos necesarios para el cálculo del estadístico t así
definido (muestras relacionadas):
109
Condición experimental Condición control _
2
D (D-D)
7 5 2 0.1837 _
4 2 2 0.1837 X1 = 43/7 = 6.1429
9 7 2 0.1837 _
2 3 -1 6.6121 X2 = 32/7 = 4.5714
6 5 1 0.3265
8 6 2 0.1837 _
7 4 3 2.0409 D = 11/7 = 1.5714
Vamos a resolver este problema utilizando SPSS. En primer lugar, con los datos
anteriores creamos un archivo de datos, como el siguiente, al que hemos denominado
apar.sav:
La variable var00001 contiene los datos correspondientes a los 7 sujetos del grupo
experimental, mientras que la variable var00002 contiene los datos de los 7 sujetos del
grupo control. Ahora veamos cómo llevaríamos a cabo el análisis utilizando la prueba t
110
para dos muestras relacionadas. Como en todos los análisis anteriores, seleccione la
opción Analizar en el menú principal. A continuación, seleccione la opción Comparar
medias, ya utilizada en el apartado anterior. Ahora, en el menú que se despliega a la
derecha, seleccione la opción Prueba T para muestras relacionadas. Aparecerá el
cuadro de diálogo de la prueba t para muestras relacionadas. Ahora debe seleccionar las
dos variables que contienen los datos de ambas muestras, var00001 y var00002 e
introducirlas para el análisis. El cuadro de diálogo tendrá este aspecto:
Pulse ahora el botón Aceptar. El visor de resultados le ofrecerá tres tablas. Éstas son las
dos primeras:
N Correlación Sig.
Par 1 VAR00001 y VAR00002 7 .862 .013
111
Prueba de muestras relacionadas
Diferencias relacionadas
95% Intervalo de
confianza para la
Desviación Error típ. de diferencia
Media típ. la media Inferior Superior t gl Sig. (bilateral)
Par 1 VAR00001 - VAR00002 1.5714 1.2724 .4809 .3946 2.7482 3.267 6 .017
Una limitación importante del estadístico t es que sólo permite la comparación entre dos
grupos. Si tuviéramos tres grupos, por ejemplo, tendríamos que realizar las
comparaciones por pares; esto es, comparar el grupo 1 con el 2, el 1 con el 3 y el 2 con
el 3. Este procedimiento, además de ser largo, tiene serios inconvenientes estadísticos.
Lo ideal sería disponer de un procedimiento estadístico que permitiese la comparación
simultánea de los tres grupos. Este procedimiento es el análisis de varianza. En realidad,
el análisis de varianza es un procedimiento general que permite la comparación entre
dos, tres o, incluso, más de tres grupos.
A pesar del nombre, que parece indicar otra cosa, el análisis de varianza, al igual que el
estadístico t, compara medias, y no varianzas. Lo que ocurre es que para realizar dicha
comparación precisa calcular ciertas "varianzas" (de ahí el nombre del procedimiento).
El estadístico t podría considerarse un caso particular del análisis de varianza en que
sólo se comparan dos medias.
En el caso más simple de análisis de varianza se dispone de dos variables. Los nombres
de estas variables son los mismos que los señalados en el análisis de regresión. A una
variable se le denomina dependiente, y a la otra independiente. La diferencia esencial
entre el análisis de regresión y el análisis de varianza está en la naturaleza de ambas
variables. La variable dependiente es cuantitativa en ambos análisis. Sin embargo, la
variable independiente, que es cuantitativa en el análisis de regresión, es considerada
como cualitativa en el análisis de varianza.
112
Otro nombre que se utiliza para referirse a la variable independiente es el de factor. Son
muchos los manuales de estadística que denominan análisis de varianza con un factor al
análisis de varianza con una sola variable independiente, análisis de varianza con dos
factores al análisis de varianza con dos variables independientes, y así sucesivamente.
Otro término que puede utilizarse para referirse a la variable independiente es el de vía.
Así, el análisis de varianza con un variable independiente podría denominarse análisis de
varianza de una-vía (one-way). De forma similar, el análisis de varianza con dos
variables independientes podría denominarse de dos-vías (two-ways), etc.
Los datos del estudio sociolingüístico no resultan muy apropiados para ilustrar el
funcionamiento del análisis de varianza. Por ello, vamos a crear nosotros una situación
experimental hipotética donde podría utilizarse el análisis de varianza como
procedimiento estadístico.
Método Calificación
1 8
1 7
1 5
1 9
2 7
2 5
2 3
2 6
3 5
3 2
3 2
3 5
A nivel estadístico se desea comprobar la hipótesis nula de que las medias de las tres
poblaciones (método 1, método 2, método 3) en rendimiento escolar son iguales. Para
ello, utilizamos la información contenida en las tres muestras correspondientes. Nótese
que las medias de las muestras son las siguientes:
(a) Muestra 1
8 +7 + 5 + 9
X = = 7.25
4
113
(b) Muestra 2
7 + 5 + 3+ 6
X = = 5.25
4
(c) Muestra 3
5+ 2+ 2+ 5
X = = 3.5
4
Para llevar a cabo el análisis de varianza con estos datos, crearemos primero el archivo
de datos, al que vamos a denominar var.sav:
114
En la variable var00001 se encuentra la información sobre el método de enseñanza
seguido por cada uno de los doce estudiantes (métodos 1, 2 y 3). En la variable
var00002 se encuentran las calificaciones obtenidas por los doce alumnos. A
continuación, veamos cómo llevar a cabo el análisis de varianza. En la opción Analizar,
seleccione la opción Comparar medias y, en el menú que se despliega a la derecha,
seleccione la opción ANOVA de un factor. En el cuadro de diálogo del procedimiento
deberá especificar como variable dependiente (Dependientes) a la variable var00002, y
como factor (Factor), a la variable var00001. Una vez hecho esto, el cuadro de diálogo
tendrá este aspecto:
Para llevar a cabo el análisis, simplemente pulse el botón Aceptar. El visor de resultados
le mostrará la siguiente tabla:
ANOVA
VAR00002
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 28.167 2 14.083 4.783 .038
Intra-grupos 26.500 9 2.944
Total 54.667 11
En la cabecera del análisis aparece el nombre del procedimiento, ANOVA (en este caso,
de una vía). La información auténticamente relevante en orden a aceptar o rechazar la
hipótesis estadística planteada está en las dos últimas columnas de esta tabla. En la
penúltima columna está indicado el valor del estadístico F (4.783), el estadístico que se
calcula en el análisis de varianza, y en la última columna su probabilidad asociada o
nivel de significación (.038). Como esta probabilidad es menor que .05 se rechaza la
hipótesis nula y se afirma que las diferencias entre las medias son significativas (fiables).
Una manera más operativa de interpretar este resultado consiste en afirmar que los
distintos métodos de enseñanza producen calificaciones académicas distintas.
Habrá observado que esta salida se parece mucho a la ofrecida por el análisis de
regresión. Esto es así porque en el análisis de varianza, al igual que en el análisis de
115
regresión, la variabilidad de la variable dependiente (aquí var00002) se descompone en
dos partes aditivas:
Lo que hace el análisis de varianza es comparar estas dos fuentes de variabilidad. Pero
antes de compararlas las "corrige" dividiéndo cada una de ellas por sus grados de
libertad (gl). Al resultado se le denomina Media Cuadrática. En efecto, se observa que
14.083 es el cociente entre 28.167 y 2; mientras 2.944 es el cociente entre 26.500 y 9.
Los grados de libertad, en la primera Media Cuadrática, se obtienen restando 1 al
número de muestras (aquí 3). Los grados de libertad, en el segunda Media Cuadrática, se
obtienen restando el número de muestras (aquí 3) al número total de sujetos (aquí 12).
Finalmente, el estadístico F (4.783) es la razón entre la Media Cuadrática que explica la
variable independiente (14.083) y la Media Cuadrática que no explica la variable
independiente (2.944).
116
Pulse ahora el botón Continuar y luego el botón Aceptar. Obtendrá una tabla de análisis
de varianza idéntica a la obtenida anteriormente, pero con esta información adicional:
Comparaciones múltiples
Las primeras columnas indican los grupos i y j a comparar-. La diferencia entre las
medias de dos grupos i y j es significativa si:
1 1
J − I ≥ 1213
. ∗ RANGO∗ +
N (I ) N ( J)
Donde el valor del error típico (1.213) se obtiene hallando la raíz cuadrada del resultado
de dividir la media cuadrática de los errores entre 2. Esto es,
MC error 2.944
1213
. = =
2 2
117
Dado que el tamaño de los tres grupos es el mismo (4 sujetos), podemos calcular el valor
que se toma como referencia para ver la significación de las medias:
2
1213
. * 4.13 * = 354
.
4
Observamos ahora las diferencias entre las medias de los métodos dos a dos. La
diferencia entre las medias de los métodos 1 y 2 es 7.25-5.25 = 2, que es menor que
3.54. La diferencia entre las medias de los métodos 2 y 3 es 5.25-3.5 = 1.75, también
menor que 3.54. Sin embargo, la diferencia entre las medias de los métodos 1 y 3 es
7.25-3.5 = 3.75, que es mayor que 3.54. Por tanto, esta diferencia de medias sí es
significativa. Este es el resultado que se nos ofrece marcado con un asterisco en en la
columna etiquetada Diferencia de medias (I-J). El valor de la significación (.039)se
ofrece en la columna etiquetada Sig. En la última columna de la tabla se muestran los
intervalos confidenciales entre los que se encontrarán, a un nivel de confianza del 95%,
los valores de las diferencias entre las puntuaciones de los grupos i y j en la población.
Vemos que las diferencias entre los grupos 1 y 3 siempre serán del mismo signo
(positivas cuando restamos 1-3, y negativas cuando restamos 3-1). Esto nos permite
concluir que el método de enseñanza 1 produce una rendimiento académico
significativamente superior al método de enseñanza 3. Sin embargo, el método de
enseñanza 1 no produce una ejecución significativamente superior al 2, ni el método de
enseñanza 2 produce una ejecución significativamente superior al 3; en todos estos casos
las diferencias pueden ser tanto positivas como negativas. La última tabla del listado nos
muestra los resultados desde otro punto de vista. En este caso se trata de los dos
subconjuntos homogéneos encontrados, formados por los grupos 1 y 2, en un caso, y por
los grupos 2 y 3, en el otro. Dentro de cada uno de estos subconjuntos no existen
diferencias significativas entre grupos:
VAR00002
a
Scheffé
Subconjunto para alfa
= .05
VAR00001 N 1 2
3.00 4 3.5000
2.00 4 5.2500 5.2500
1.00 4 7.2500
Sig. .392 .305
Se muestran las medias para los grupos en los subconjuntos
homogéneos.
a. Usa el tamaño muestral de la media armónica = 4.000.
Para la correcta aplicación del análisis de varianza deben satisfacerse tres supuestos:
118
2. distribución normal;
3. homogeneidad de las varianzas.
VAR00002
Estadístico
de Levene gl1 gl2 Sig.
.150 2 9 .863
Otra opción que puede resultar interesante en el análisis de varianza de un factor, y que
no se comenta aquí, es la posibilidad de realizar comparaciones a priori, pulsando el
botón Contrastes. También en este botón se encuentra la opción Polinómico, para el
análisis de tendencias.
119
8.2. Análisis de varianza con dos o más factores
SPSS también permite el análisis de varianza para el caso de dos o, incluso, más
variables independientes. En el caso más simple en que se dispusiese de dos variables
independientes, el procedimiento ofrece:
Para ilustrar cómo se puede utilizar el análisis de varianza con dos o más factores,
vamos a suponer una situación de investigación muy sencilla. Supongamos que estamos
interesados en averiguar el efecto de dos variables independientes (cualitativas) sobre
una variable dependiente (cuantitativa). Nos interesa conocer el efecto de cada una de
estas variables separadamente y, además, su efecto conjunto, el efecto de la interacción
de ambas. Supongamos, además, que la primera variable independiente tiene 3 valores, y
la segunda 4. Una palabra más apropiada aquí para referirse a los valores de una variable
independiente es niveles. La primera variable independiente tiene, pues, 3 niveles y la
segunda 4. Si combinamos todos los niveles de la primera y la segunda variable
obtendremos las 12 combinaciones siguientes:
120
1ª Variable Independiente 2ª Variable Independiente
1 1
1 2
1 3
1 4
2 1
2 2
2 3
2 4
3 1
3 2
3 3
3 4
Para hacer el ejemplo más comprensible, imagine que la primera variable independiente
es el método de enseñanza (método 1, método 2, y método 3) y la segunda variable
independiente el número de estudiantes por clase (15, 20, 25, y 30). Suponga, además,
que hemos elegido aleatoriamente 4 estudiantes para cada combinación de ambas
variables independientes. Disponemos, pues, de 48 estudiantes. Al finalizar el curso,
registramos la calificación académica de cada uno de ellos. A continuación se ofrece un
posible archivo de datos:
En este archivo de datos, la primera columna es el número del sujeto (desde 01 hasta
48), la segunda columna es la primera variable independiente (método de enseñanza,
121
con tres niveles), la tercera columna es la segunda variable independiente (número de
estudiantes por clase, con cuatro niveles), y la cuarta columna es la variable dependiente
(calificación académica de cada estudiante). Observe como cada combinación se repite
cuatro veces. Esto es así porque tenemos cuatro sujetos en cada una de ellas.
122
Pulse ahora el botón Aceptar. El visor de resultados le mostrará la siguiente tabla:
123
variables independientes explican 217.229, y no explican 23.750. Recuerde que antes de
proceder a la comparación de estas dos Sumas de Cuadrados (Explicada y Residual) se
divide cada una de ellas por sus respectivos grados de libertad (gl). El resultado es la
Media Cuadrática. En el caso de la Media Cuadrática Explicada, 19.748 es el cociente
entre 217.229 y 11. Mientras la Media Cuadrática Residual es el cociente entre 23.750 y
36. Recuerde también que F es el cociente entre la Media Cuadrática Explicada y la
Media Cuadrática Residual. Esto es,
19.748
F = ≈ 29.934
.660
En la última columna, se observa que el nivel de significación para F (Sig) es menor que
.001. Por tanto, se rechaza la hipótesis nula y se concluye que el efecto de las variables
independientes es estadísticamente significativo.
Los Efectos Principales son aquella parte de la Variabilidad Explicada que se debe a
cada variable independiente, considerada separadamente. La Suma de Cuadrados
Explicada por var00001 es 116.542 y la Suma de Cuadrados Explicada por var00002 es
87.729. Entre las dos variables independientes Explican 204.271. Cada una de estas
Sumas de Cuadrados se divide entre sus respectivos grados de libertad, y se obtiene una
Media Cuadrática. Luego, esta Media Cuadrática se divide siempre entre la Media
Cuadrática Residual (.660). La F resultante es significativa en todos los casos. Esto es,
existe un efecto significativo de var00001 sobre var00003 (F2,36 = 88.326, p< .01), y un
efecto significativo de var00002 sobre var00003 (F3,36 = 44.326, p< .001). Los
subíndices que acompañan a la razón F son los grados de libertad. El primer subíndice
representa los grados de libertad de la Media Cuadrática del numerador, y el segundo
subíndice los grados de libertad de la Media Cuadrática del denominador. Observe que
la Media Cuadrática del denominador siempre es la Residual. Por eso, los grados de
libertad son siempre 36. La p que acompaña a cada F es el nivel de significación.
Cuando el nivel de significación es .000 en el listado, no debe interpretarse como que el
nivel de significación es cero, sino como que el nivel de significación es menor que
.001. Nótese que el valor del nivel de significación tiene un máximo de tres decimales.
Si SPSS ofreciera más decimales, se observaría como el nivel de significación no puede
ser cero.
124
filas, una para cada una de estas combinaciones y otra para la suma de todas ellas. Como
en el caso de dos variables independientes sólo existe una combinación, la suma
(primera fila) coincide con la única combinación (segunda fila). Se observa que el efecto
de la Interacción es significativo (F6,36 = 3.274, p = .011).
9. Tablas de Contingencia
Imagine que está estudiando el hábito de fumar en una muestra de 30 sujetos. Imagine
también que inicialmente registra para cada sujeto la variable sexo, asignando un 1 a las
mujeres y un 0 a los hombres, y la variable fumar, asignando un 1 a los fumadores y un
0 a los no fumadores. Con estos primeros registros decide crear un archivo de datos en
SPSS. El nombre que le asigna al archivo es conting.sav. Estos son los datos:
Imagine que queremos saber cuántos de los 30 sujetos son hombres y cuántos mujeres.
Es decir, imagine que deseamos obtener una distribución de frecuencias para la variable
sexo. Si realizamos este análisis con SPSS obtendremos un listado que nos indica que el
número de mujeres es 15 y el de hombres también 15. De forma similar, podemos
obtener una distribución de frecuencias para la variable fumar. Si realiza este problema
encontrará que el número de fumadores es 16 y el de no fumadores 14.
125
Para ver cómo puede obtenerse una tabla de contingencia a partir de los datos anteriores,
cree el archivo conting.sav, que contiene la información sobre sexo y hábitos de fumar
de nuestros 30 sujetos. Una vez introducidos los datos, el archivo tendrá este aspecto:
Una vez introducidos los datos y etiquetadas las variables, podemos proceder al análisis.
Para ello, seleccione en el menú principal la opción Analizar y, en el menú que se
despliega, la opción Estadísticos descriptivos. A continuación, en el menú que se
despliega a la derecha, seleccione la opción Tablas de contingencia. En el cuadro de
diálogo correspondiente al procedimiento, seleccione una variable para las Filas; por
ejemplo, var00001. Seleccione otra variable para las Columnas; por ejemplo, var00002.
El cuadro de diálogo quedará así:
126
Si ahora pulsa el botón Aceptar, obtendrá el siguiente listado:
Recuento
fumar
no fumador fumador Total
sexo hombre 5 10 15
mujer 9 6 15
Total 14 16 30
Si observamos los totales para las filas tenemos la misma información que nos ha
proporcionado la distribución de frecuencias para la variable de las filas (Sexo). Esto es,
se observa que hay 15 hombres y 15 mujeres. De forma similar, si observamos los
totales para las columnas tenemos la misma información que nos ha proporcionado la
distribución de frecuencias para la variable de las columnas (Fumar); esto es, se observa
que hay 14 no fumadores y 16 fumadores. Pero ahora, además, sabemos cuántos de los
15 hombres son no fumadores (5) cuántos son fumadores (10), y cuántas de las 15
mujeres son no fumadoras (9) y cuántas son fumadoras (6). Hay, por tanto, en la muestra
observada más hombres fumadores (10) que mujeres (6).
127
Llegado a este punto, podríamos admitir que esta muestra estuviese extraída
aleatoriamente de una población mayor de observaciones posibles. En dicho caso,
podríamos plantear una hipótesis a nivel de población (hipótesis nula) y utilizar, luego,
la información contenida en la muestra para comprobar dicha hipótesis. Típicamente, la
hipótesis nula que se establece en estas situaciones es la de la inexistencia de relación
alguna entre las variables que forman la Tabla de contingencia. Otra manera de expresar
esto mismo consiste en afirmar que ambas variables son independientes. Si la hipótesis
de independencia fuera cierta la Tabla de contingencia debería tener unas frecuencias
determinadas; éstas serían las frecuencias que se esperarían si no existiera relación
alguna entre sexo y fumar. Estas frecuencias esperadas se obtienen, para cada casilla,
multiplicando el total de la fila por el total de la columna, y dividiendo, luego el
resultado entre el número total de sujetos. En el caso de nuestra tabla, las frecuencias
esperadas serían las siguientes::
Podemos pedir a SPSS que nos proporcione en la tabla de contingencia los valores de
las frecuencias esperadas junto con los de las frecuencias observadas empíricamente.
Para obtener estos valores, siga los mismos pasos que en el apartado anterior y, una vez
situado en el cuadro de diálogo del procedimiento Tablas de contingencia, pulse el
botón etiquetado Casillas. Aparecerá un nuevo cuadro de diálogo donde puede solicitar
tanto las frecuencias empíricas u Observadas, que se proporcionan por defecto, como las
frecuencias teóricas o Esperadas. El cuadro de diálogo también ofrece opciones para ver
porcentajes por filas y columnas, que pueden resultar de interés para comprender mejor
el reparto de las frecuencias, pero no los vamos a tener en cuenta ahora. Si selecciona la
opción de mostrar las frecuencias esperadas, el cuadro de diálogo tendrá este aspecto:
Pulse ahora el botón Continuar, y luego el botón Aceptar. Obtendrá ahora esta nueva
tabla:
128
Tabla de contingencia sexo * fumar
fumar
no fumador fumador Total
sexo hombre Recuento 5 10 15
Frecuencia esperada 7.0 8.0 15.0
mujer Recuento 9 6 15
Frecuencia esperada 7.0 8.0 15.0
Total Recuento 14 16 30
Frecuencia esperada 14.0 16.0 30.0
Observe que en la tabla aparece, en cada celdilla, tanto la frecuencia observada (arriba)
como la frecuencia esperada (abajo). A partir de estas dos frecuencias se lleva a cabo la
comprobación de la hipótesis nula de independencia entre var00001 y var00002. La
lógica que se sigue para comprobar la hipótesis nula es muy sencilla. Si la distancia que
hay entre las frecuencias observadas (O) y las esperadas (E) es pequeña se acepta la
hipótesis nula, mientras que si esta distancia es grande se rechaza. Nótese que aceptar la
hipótesis nula implica aceptar la independencia, y rechazarla implica aceptar la
existencia de una relación fiable entre ambas variables. La distancia o discrepancia que
hay entre una frecuencia observada (O) y una frecuencia esperada (E) se mide de la
siguiente manera:
(O − E ) 2
E
(5 − 7 ) (10 − 8) (9 − 7) (6 − 8)
2 2 2 2
4 4 4 4
ji − cuadrado = + + + = + + + = 2.14286
7 8 7 8 7 8 7 8
Para poder valorar la magnitud de esta distancia (2.14286) tenemos que compararla con
el valor probabilístico de ji-cuadrado para el mismo número de grados de libertad que en
el ejemplo. Aquí el número de grados de libertad es
129
(3.84), la probabilidad de obtener un valor de ji-cuadrado mayor que 2.14286 será
todavía mayor que .05. Con esta información no debemos rechazar la hipótesis nula. La
distancia entre las frecuencias observadas (O) y las frecuencias esperadas (E) es
demasiado pequeña. Para ser considerada "grande" tendría que superar el valor 3.84.
130
Pruebas de chi-cuadrado
La primera línea de la tabla muestra el valor de ji-cuadrado que hemos obtenido nosotros
anteriormente; esto es, 2.143. El número de grados de libertad (gl) es 1, tal como
habíamos señalado, y la probabilidad (Significance) de obtener un valor mayor que
2.143 es .143. Como esta probabilidad sobrepasa el límite de error establecido en
estadística (.05), no se rechaza la hipótesis nula y se concluye que la variable Sexo y la
variable Fumar son independientes. Recuerde que cuando hacíamos uso de las Tablas
estadísticas, ofrecidas en los manuales de estadística, la conclusión a la que llegábamos
era la misma (no rechazo de la hipótesis nula). Allí conocíamos el valor mínimo de ji-
cuadrado necesario para rechazar la hipótesis nula (3.84). Como no se alcanzaba este
valor, no se rechazaba. SPSS no proporciona el valor de ji-cuadrado necesario para
rechazar la hipótesis nula, sino la probabilidad exacta de equivocarnos rechazando la
hipótesis nula (.143). Como esta probabilidad sobrepasa el máximo error admisible
estadísticamente (.05), se llega a la misma conclusión: no se rechaza la hipótesis nula.
1. Cuando alguna de las frecuencias observadas (O) es menor que 5. En este ejemplo,
ninguna de las frecuencias observadas (O) es menor que 5. Por tanto, por esta razón
no se aplica la Corrección de Yates.
2. Cuando la Tabla de contingencia es 2 x 2, es decir, tiene 2 filas y 2 columnas. La
distancia ji-cuadrado se puede calcular para un número de filas (o columnas) mayor
que 2. El caso de 2 filas y 2 columnas es, por tanto, el más elemental posible. Pues
bien, en este caso, es cuando se puede “corregir” la distancia calculada mediante el
procedimiento sugerido por Yates, que consiste en restarle 0.5 a la diferencia entre O
y E, cuando esta diferencia sea positiva, y sumarle 0.5 cuando esta diferencia sea
negativa.
131
(5 − 7 + 0.5) 2 (10 − 8 − 0.5) 2 ( 9 − 7 − 0.50) 2 ( 6 − 8 + 0.5) 2
ji − cuadrado = + + + =
7 8 7 8
( − 15
.)
2
(15
.)
2
(15
.)
2
( − 15
.)
2
= + + + = 1205
.
7 8 7 8
Justamente este es el valor de ji-cuadrado que proporciona SPSS en esta segunda línea.
Los grados de libertad se obtienen de la misma forma, por lo que su valor es igual a 1.
Como el valor obtenido de ji-cuadrado es ahora menor que antes, la probabilidad
asociada es mayor (.272). Si la probabilidad anterior era mayor que .05, esta lo es aún
más, por lo que la conclusión es la misma: aceptación de la hipótesis nula. Esto implica
la aceptación de la independencia entre ambas variables.
132
10.1. Prueba de bondad de ajuste de Kolmogorov-Smirnov
1. distribución normal;
2. distribución de Poisson;
3. distribución uniforme.
Por supuesto que de estas tres distribuciones, la que tiene mayor interés en análisis
estadístico es la normal. A continuación veremos cómo utilizar la prueba de
Kolmogorov-Smirnov para comprobar si la distribución de frecuencias de la variable
item12 del estudio sociolingüístico se ajusta a una distribución normal. Como en todos
los procedimientos estadísticos, seleccione primero la opción Analizar en el menú
principal. A continuación, seleccione la opción Pruebas no paramétricas. Finalmente,
en el menú que se despliega a la derecha, seleccione la opción K-S de 1 muestra.
Aparecerá el siguiente cuadro de diálogo:
133
Prueba de Kolmogorov-Smirnov para una muestra
el gallego
debe ser
la lengua
habitual de
Galicia
N 20
Parámetros normales a,b Media 3.25
Desviación típica
.91
En realidad, existen Tablas estadísticas que nos indican que para poder rechazar la
hipótesis nula, la distancia máxima obtenida tendría que ser igual o mayor que
1.36/ 20 5 = 0.304. Como 0.295 es menor que 0.304 no rechazamos la hipótesis nula y
afirmamos que la distribución empírica de item12 se ajusta a una distribución normal
con media igual a 3.25 y varianza igual a 0.912.
134
simple hecho de que los sujetos de una y otra muestra se diferencien en alguna
propiedad. Por ejemplo, si una muestra está compuesta por hombres y otra por mujeres
ambas muestras se consideran independientes. De forma similar, serían independientes
una muestra formada por jóvenes y otra formada por adultos. En contextos
experimentales, la independencia de las muestras se garantiza asignando aleatoriamente
los sujetos a las distintas condiciones experimentales. Por ejemplo, si disponemos de 40
sujetos y queremos crear dos muestras (o grupos) experimentales independientes A y B
lo mejor que podemos hacer es asignar aleatoriamente 20 sujetos al grupo experimental
A y 20 sujetos al grupo experimental B.
135
La variable var00001 contiene la información acerca del colegio al que pertenece cada
alumno (1=Colegio A; 2=Colegio B). Por su parte, la variable var00002 se refiere al
orden obtenido en la prueba de selectividad por cada estudiante. Para aplicar la prueba U
a estos datos, seleccione la opción Analizar del menú principal; a continuación, la
opción Pruebas no paramétricas; finalmente, en el menú que se despliega a la derecha,
seleccione la opción 2 muestras independientes. Aparecerá el cuadro de diálogo para
pruebas con dos muestras independientes. Observe que la prueba seleccionada por
defecto es la U de Mann-Whitney, por lo que no es necesario modificar esta selección.
Únicamente es preciso indicar cuál es la variable dependiente (Contrastar) y cuál es la
variable independiente o Variable de agrupación. Seleccione var00002 como variable
dependiente, y var00001 como variable independiente. El cuadro de diálogo quedará
así:
Antes de efectuar el análisis, es necesario especificar, al igual que ocurría con la prueba t
para muestras independientes, cuáles son los dos valores que identifican a los dos grupos
representados en var00001. Para especificar estos valores, pulse el botón Definir
grupos, e indique ambos valores (1 y 2). A continuación pulse el botón Aceptar. El visor
de resultados le proporcionará dos tablas. Ésta es la primera de ellas:
Rangos
Rango Suma de
VAR00001 N promedio rangos
VAR00002 1.00 10 6.70 67.00
2.00 10 14.30 143.00
Total 20
La primera tabla ofrece el rango promedio y la suma de rangos para cada uno de los
grupos. Se observa que cuando var00001=1, es decir, cuando se trata del Colegio A, el
rango medio es 6.70, y el número de casos (N) es 10. De igual forma, se observa que
cuando var00001=2, es decir, cuando se trata del Colegio B, el rango medio es 14.30, y
el número de casos también es 10. Para obtener estos rangos medios, primero, se han
136
mezclado los 20 sujetos y, luego, se ha asignado el rango 1 al sujeto mejor situado, el 2
al segundo mejor situado y así hasta el sujeto peor situado, al que se ha asignado el
rango 20. Para comprender este proceso, se ofrecen a continuación los lugares ocupados
por cada uno de los 20 sujetos en el examen de selectividad, el rango que les
corresponde, y el colegio al que pertenecen (A ó B):
Rango
Lugar selectividad Colegio A Colegio B
30 01
72 02
109 03
145 04
158 05
161 06
176 07
204 08
224 09
230 10
403 11
490 12
559 13
656 14
670 15
720 16
747 17
912 18
950 19
991 20
67 143
Ahora se observa fácilmente como la media de los rangos del Colegio A es 67/10 = 6.70,
y la media de los rangos del Colegio B es 143/10 = 14.30.
Veamos ahora la segunda tabla que nos muestra el visor de resultados para la prueba U
de Mann-Whitney:
Estadísticos de contrasteb
VAR00002
U de Mann-Whitney 12.000
W de Wilcoxon 67.000
Z -2.873
Sig. asintót. (bilateral) .004
Sig. exacta [2*(Sig. a
.003
unilateral)]
a. No corregidos para los empates.
b. Variable de agrupación: VAR00001
U es el número de veces que los estudiantes del colegio B preceden a los estudiantes del
colegio A. Observe en el listado que U es 12. Para comprender de dónde se obtiene este
valor, fíjese en los siguientes aspectos:
137
1. El estudiante que ocupa el rango 07 es del Colegio A. A este estudiante solamente le
precede 1 estudiante del Colegio B. Anotemos un 1.
2. El estudiante que ocupa el rango 09 es del Colegio A. A este estudiante le preceden 2
estudiantes del Colegio B. Anotemos un 2.
3. El estudiante que ocupa el rango 10 es del Colegio A. A este estudiante le preceden 2
estudiantes del Colegio B. Anotemos un 2.
4. El estudiante que ocupa el rango 12 es del Colegio A. A este estudiante le preceden 3
estudiantes del Colegio B. Anotemos un 3.
5. El estudiante que ocupa el rango 14 es del Colegio A. A este estudiante le preceden 4
estudiantes del Colegio B. Anotemos un 4.
Finalmente,
U - n1 n2
Z = 2
( n1 )( n2 )( n1 + n2 + 1)
12
Por tanto,
10 x 10
12 - - 38
2
Z = = = - 2.873
(10)(10)(10 + 10 + 1) 175
12
Recuerde que existe una versión de la prueba t de Student para comparar dos muestras
independientes y otra versión para comparar dos muestras relacionadas (ver Apartado
7.2).
138
En el epígrafe anterior se ofreció la prueba U de Mann-Whitney que podría utilizarse
como alternativa a la prueba t de Student para dos muestras independientes. Ahora se
ofrece aquí la prueba T de Wilcoxon que puede utilizarse como alternativa a la prueba t
de Student para dos muestras relacionadas.
Una estrategia también común para formar grupos relacionados consiste en medir alguna
propiedad (variable dependiente o variable estrechamente relacionada) en una muestra
amplia de sujetos. Luego, se forman pares de sujetos con puntuaciones iguales (o casi
iguales) en la propiedad medida. Los sujetos que no se consigan igualar se excluyen.
Llegado a este punto, se forman dos grupos siguiendo el mismo procedimiento señalado
para los gemelos o para los matrimonios.
139
Atleta Clasificación
1 8
2 16
3 20
4 24
5 25
6 30
7 32
Aceptemos ahora que después de una año de trabajo la clasificación de los 7 atletas es la
siguiente:
Atleta Clasificación
1 4
2 20
3 7
4 12
5 14
6 9
7 34
Nuestro interés ahora es comparar la clasificación de los atletas antes de hacerse usted
cargo del trabajo con la clasificación de los atletas después de un año de trabajo.
Observe que los sujetos son los mismos. Tenemos dos medidas (repetidas) para cada
sujeto. Por tanto, las muestras (clasificación antes, clasificación después) son
relacionadas. Observe también que la medida es ordinal (clasificaciones). La prueba t de
Student, para muestras relacionadas, sería apropiada para realizar la comparación entre
las dos muestras, de no ser por el nivel de medida tan bajo, en la escala de Stevens. Este
hecho nos lleva a utilizar una prueba no paramétrica. Por las características señaladas, la
prueba no paramétrica específica es la T de Wilcoxon.
La lógica seguida por Wilcoxon para realizar la comparación es muy sencilla. Primero
se comparan las clasificaciones de cada atleta antes y después, hallando la diferencia
entre ambas. Si la clasificación, para un atleta, es la misma antes que después, la
diferencia será cero. Si la clasificación es mejor después que antes, la diferencia será
negativa, mientras que si es peor será positiva. Cuando se tienen calculadas estas
diferencias, se ordenan asignándole el número 1 a la diferencia más pequeña, el 2 a la
siguiente más pequeña y así sucesivamente. Para hacer esta asignación se imponen dos
restricciones:
Típicamente, a los órdenes que se han asignado a estas diferencias se les denomina
rangos. Llegados a este punto, se clasifican los rangos en dos categorías: (1) los rangos
correspondientes a aquellas diferencias que, en principio, eran positivas, y (2) los rangos
correspondientes a aquellas diferencias que, en principio, eran negativas. Luego, se
suman los rangos en cada una de estas categorías y se elige aquella suma que sea menor.
Esta suma menor es el estadístico T de Wilcoxon.
140
Si es cierta la hipótesis nula, que establece la igualdad entre las poblaciones, la suma de
los rangos en ambas categorías debería ser igual. Formalmente, podríamos escribir
T1 = T2 = T
N(N + 1)
T =
4
Para no confundir este valor teórico de T, que se produciría bajo la hipótesis nula de
igualdad de poblaciones, con el valor obtenido de T, se suele representar el valor de T
bajo hipótesis nula por T . Por tanto, podemos re-escribir
N(N + 1)
T =
4
Observe que si la distancia entre el valor obtenido de T y el valor T , bajo hipótesis nula,
es pequeña la evidencia en favor de la existencia de diferencias entre ambas poblaciones
es también pequeña, mientras que si la distancia es grande la evidencia en favor de la
existencia de diferencias será mayor.
141
N(N + 1) 7(7 + 1)
T = = = 14
4 4
Dado que no hay ninguna diferencia entre rangos nula (igual a cero), también se cumple
que:
Ahora sólo falta valorar si lo que se aparta 3.5 de 14 (esto es, 10.5 unidades) es lo
suficientemente importante como para poder rechazar la hipótesis nula de igualdad de
poblaciones. Nótese que la distancia que hay entre 3.5 y 14 es, en términos absolutos, la
misma que la que hay entre 24.5 y 14 (también 10.5). Es decir, que si en vez de coger la
suma de rangos menor (3.5), hubiéramos tomado la mayor (24.5), las conclusiones
debieran ser las mismas. Como siempre, para poder resolver esta cuestión se necesita
conocer la distribución de probabilidad del estadístico T, aspecto que fue investigado por
Wilcoxon. Conocida esta distribución, es posible calcular la probabilidad de obtener una
diferencia mayor que la obtenida. Si esta probabilidad (nivel de significación) es igual o
menor que .05 se rechaza la hipótesis nula. A continuación vamos a obtener la T de
Wilcoxon para los datos de los 7 atletas utilizando SPSS. En primer lugar, creamos el
archivo de datos, al que llamaremos nopar2.sav:
Para utilizar la prueba de Wilcoxon con estos datos, siga los mismos pasos que en los
procedimientos no-paramétricos anteriores: Seleccione la opción Analizar en el menú
principal; a continuación, seleccione la opción Pruebas no paramétricas. En el menú
142
que se despliega a la derecha, seleccione ahora la opción específica para este tipo de
datos: 2 muestras relacionadas. Aparecerá un cuadro de diálogo donde tiene que indicar
el/los par(es) de variables, a semejanza de lo que ocurría en el caso de la prueba t para
muestras relacionadas; en nuestro caso, seleccione el par de variables formado por
var00001 y var00002. La prueba de Wilcoxon es la que está seleccionada por defecto,
así que no es necesario hacer más modificaciones.. El cuadro de diálogo tendrá, pues,
este aspecto:
Pulse ahora el botón Aceptar. El visor de resultados le proporcionará dos tablas. Ésta es
la primera de ellas:
Rangos
Rango Suma de
N promedio rangos
VAR00002 - VAR00001 Rangos negativos 5a 4.90 24.50
Rangos positivos 2b 1.75 3.50
Empates 0c
Total 7
a. VAR00002 < VAR00001
b. VAR00002 > VAR00001
c. VAR00001 = VAR00002
Esta primera tabla se refiere a los resultados de las comparaciones entre las dos variables
de interés, var00001 y var00002. Recuerde que var00001 es la clasificación de los
atletas antes y var00002 la clasificación después; es decir, recuerde que tenemos dos
medidas (repetidas) de la misma variable. En las filas siguientes se ofrece el rango
medio de aquellos casos con rangos negativos (-). Los rangos negativos se producen
cuando var00002 (clasificación después) es menor que (<) var00001 (clasificación
antes). Tal como habíamos obtenido cuando realizamos el problema manualmente, en
esta situación se encuentran 5 atletas. El rango medio de estos atletas es 4.9. Este
número se obtiene realizando el siguiente cálculo:
143
Suma de rangos negativos 24.5
= = 4.9
Numero de rangos negativos 5
De forma similar, en el listado SPSS indica que el número de rangos positivos es 2. Los
rangos son positivos cuando var00002 es mayor que (>) var00001. La media de estos
dos rangos es 1.75. Este resultado se obtiene realizando el siguiente cálculo:
La segunda de las tablas que nos ofrece el visor de resultados tiene este aspecto:
Estadísticos de contrasteb
VAR00002 -
VAR00001
Z -1.778a
Sig. asintót. (bilateral) .075
a. Basado en los rangos positivos.
b. Prueba de los rangos con signo de Wilcoxon
T -T
Z =
S
donde
(2N + 1) T
S =
6
T -T 3.5 - 14
Z = = = - 1.77
(2N + 1) T (2 x 7 + 1) (14)
6 6
144
10.4. Prueba de Kruskal-Wallis para k muestras independientes
145
Colegio Orden Colegio Orden Colegio Orden
1 30 2 161 3 610
1 72 2 204 3 840
1 109 2 403 3 995
1 145 2 559 3 759
1 158 2 670 3 908
1 176 2 720 3 745
1 224 2 747 3 1266
1 230 2 912 3 850
1 490 2 950 3 1115
1 656 2 991 3 875
Para realizar la comparación entre los órdenes obtenidos por los estudiantes de los tres
colegios, vamos a crear un nuevo archivo de datos, al que llamaremos nopar3.sav. El
archivo de datos, con el nuevo grupo de estudiantes añadido al final, tendría este
aspecto:
La variable var00001 contiene información acerca del colegio al que pertenece cada
sujeto (1=Colegio A; 2=Colegio B; 3=Colegio C). La variable var00002 contiene los
órdenes obtenidos por cada estudiante en la prueba de selectividad. Recuerde que, como
las muestras son independientes, cada grupo ocupa una fila distinta.
Veamos ahora cómo utilizaríamos la prueba de Kruskal-Wallis con los datos del archivo
nopar3.sav. Seleccione, en el menú principal, la opción Analizar. A continuación,
seleccione la opción Pruebas no paramétricas. Finalmente, en el menú que se despliega
a la derecha, seleccione la opción K muestras independientes. Aparecerá el cuadro de
diálogo correspondiente, donde tiene que indicar la(s) variable(s) dependiente(s)
146
(Contrastar variables) y la Variable de agrupación. Seleccione var00002 como variable
dependiente, y var00001 como variable independiente. Como prueba de contraste para k
muestras independientes ya está seleccionada la prueba de Kruskal-Wallis, por lo que no
es necesario hacer ningún cambio aquí. El cuadro de diálogo tendrá este aspecto:
Rangos
Rango
VAR00001 N promedio
VAR00002 1.00 10 6.80
2.00 10 16.80
3.00 10 22.90
Total 30
La tabla le muestra los rangos promedio obtenidos por los sujetos de cada uno de los 3
grupos. Para comprender el modo de cálculo de estos rangos promedio, se ofrece a
continuación el procedimiento que sigue SPSS.
En primer lugar, se consideran los sujetos de las tres muestras (aquí colegios) en
conjunto, y se ordenan asignándole al que obtuvo el registro numérico más pequeño el
número 1, al que obtuvo el siguiente más pequeño el número 2, y así sucesivamente. En
el ejemplo, el sujeto que obtuvo el registro más bajo fue el estudiante 1 del Colegio A.
En consecuencia, se le asigna el número 1. El siguiente sujeto es el estudiante número 2
de este mismo colegio. Se le asigna el número 2. Se continúa así hasta completar todos
los sujetos. A este número así asignado a cada sujeto se le denomina específicamente
"rango". A continuación se ofrece la asignación completa de rangos y el colegio al que
pertenece cada estudiante.
147
Rango
Lugar selectividad Colegio A Colegio B Colegio C
30 01
72 02
109 03
145 04
158 05
161 06
176 07
204 08
224 09
230 10
403 11
490 12
559 13
610 14
656 15
670 16
720 17
745 18
747 19
759 20
840 21
850 22
875 23
908 24
912 25
950 26
991 27
995 28
1115 29
1266 30
68 168 229
Si se suman los rangos correspondientes a los estudiantes del Colegio A, se obtiene que
esta suma es 68. Si dividimos 68 entre 10 estudiantes que hay en el Colegio A, el rango
medio es 6.80. Este mismo cálculo realizado para el Colegio B produciría un rango
medio de 16.80, y para el Colegio C de 22.90. Precisamente esta es la información que
se ofrece en la columna etiquetada Rango promedio. También se especifica el número
de sujetos (N) correspondiente a cada nivel de la variable independiente var00001 (1, 2,
y 3). Ya es sabido que estos valores se corresponden con los colegios A, B y C. Veamos
ahora la segunda tabla de resultados:
Estadísticos de contrastea,b
VAR00002
Chi-cuadrado 17.050
gl 2
Sig. asintót. .000
a. Prueba de Kruskal-Wallis
b. Variable de agrupación: VAR00001
148
La hipótesis nula establece que las distribuciones de las tres poblaciones, de donde son
extraídas las tres muestras, son idénticas. Kruskal y Wallis utilizan la información
contenida en las tres muestras para comprobar (es decir, rechazar o no) dicha hipótesis.
12 k Ri 2
H = ∑
N(N + 1) i=1 ni
- 3(N + 1)
H= + + - 3(31) = 17.050
30(31) 10 10 10
Se sabe que cuando el tamaño de las muestras ni es igual o mayor que 5, el estadístico H
se puede interpretar como un estadístico ji-cuadrado, con k-1 grados de libertad. Esta es
la razón de que al estadístico H se le denomina Chi-cuadrado en la tabla. Al lado de este
valor se ofrece el nivel de significación, que es menor que .001. Como esta probabilidad
es menor que .05 se rechaza la hipótesis nula y se afirma que las distribuciones de las
tres poblaciones son distintas. A efectos interpretativos, esto es lo mismo que decir que
hay diferencias significativas (fiables) entre los rangos obtenidos por los estudiantes de
los 3 colegios.
El concepto de muestras relacionadas se ofreció en los Apartados 7.2 y 10.3, por lo que
no será repetido aquí. En el epígrafe 10.3 también se ofreció la prueba T de Wilcoxon
para comparar dos muestras relacionadas. Recuerde que esta prueba permite comprobar
la hipótesis nula de que dos muestras relacionadas proceden de una misma población (o
de dos poblaciones con igual distribución) sin necesidad de utilizar supuestos tan fuertes
como la prueba t de Student para dos muestras relacionadas (p.e. distribución normal de
las diferencias).
En este epígrafe se pretende ofrecer una prueba no paramétrica (i.e. que utiliza supuestos
relativamente débiles) ideada por Friedman, la cual puede utilizarse en el caso de más de
dos muestras relacionadas.
Para comprender la lógica de esta prueba imagine que le pide a 7 sujetos que le indiquen
su preferencia por tres coches A, B y C, en una escala de 1 a 50, donde 1 significa
máxima preferencia y 50 mínima preferencia. Las respuestas emitidas por los 7 sujetos
son las siguientes:
149
Sujeto Coche A Coche B Coche C
1 8 4 3
2 16 20 8
3 20 7 10
4 24 12 4
5 25 14 15
6 30 9 12
7 32 34 26
Para resolver este problema estadístico decidimos crear, en primer lugar, un archivo de
datos, al que llamaremos nopar4.sav. El archivo de datos tendrá este aspecto:
150
El botón Estadísticos que aparece en el cuadro de diálogo contiene las mismas opciones
que el botón Opciones que aparece en todos los demás procedimientos estadísticos; es
decir, sirve únicamente para proporcionar estadísticos descriptivos y/o cuartiles de la(s)
variable(s) dependiente(s) implicada(s). Pulse ahora el botón Aceptar. Como en
procedimientos anteriores, el visor de resultados le mostrará dos tablas. La primera de
ellas contiene la siguiente información:
Rangos
Rango
promedio
VAR00001 2.71
VAR00002 1.86
VAR00003 1.43
La tabla muestra para cada variable (en realidad, para cada muestra) el valor del rango
promedio. El rango medio en la muestra 1 es 2.71, en la muestra 2 es 1.86, y en la
muestra 3 es 1.43. Este rango medio se obtuvo de la siguiente manera. Primero, para
cada sujeto, se asigna el rango 1 al coche más preferido, el rango 2, al segundo más
preferido, y el rango 3 al menos preferido. A continuación se ofrecen entre paréntesis
estos rangos para todos los sujetos:
El valor que se ofrece en la última fila, entre paréntesis, es la suma de los rangos para
cada muestra (coche). Si hallamos ahora la media de estos rangos obtenemos para la
muestra 1 (Coche A) un rango medio de 2.71, para la muestra 2 (Coche B) un rango
medio de 1.86, y para la muestra 3 (Coche C) un rango medio de 1.43.
151
La segunda tabla, que muestra el valor del estadístico de contraste, tiene este aspecto:
Estadísticos de contrastea
N 7
Chi-cuadrado 6.000
gl 2
Sig. asintót. .0498
a. Prueba de Friedman
ji − cuadrado =
12
Nk ( k + 1) [ R ] − 3N (k + 1)
k
∑
i =1
i
2
En este caso,
ji − cuadrado =
12
(7)(3)(3 + 1)
[ (19) 2 + (13) 2 + (10) 2 ] − (3)(7)(3 + 1) = 90 − 84 = 6
El número de grados de libertad (gl) es k-1. Aquí k es 3; por tanto, los grados de libertad
son 2. Finalmente, la probabilidad asociada a este valor de ji-cuadrado es de .0498.
Como esta probabilidad es menor que .05 rechazamos la hipótesis nula y afirmamos que
las distribuciones de las tres poblaciones son distintas. Una manera más operativa de
decir esto consiste en afirmar que las preferencias por los tres coches son distintas.
Para entender por qué se denomina a la prueba de Friedman análisis de varianza de dos
factores, vamos a considerar el siguiente ejemplo. Imagine que desea investigar los
efectos de 4 métodos de enseñanza M1, M2, M3 y M4 sobre el rendimiento académico
de los estudiantes. Debido a las características de los métodos usted sospecha que,
además de los métodos, también la edad de los estudiantes puede crear diferencias en el
rendimiento académico. Para evitar la confusión del efecto de la edad con el efecto del
método selecciona 4 sujetos de la misma edad y asigna aleatoriamente un sujeto a cada
método. Además usted cree que algo similar puede pasar con la inteligencia de los
estudiantes. Para evitar la confusión del efecto de la inteligencia con el efecto del
método decide elegir otros 4 sujetos que tengan el mismo nivel de inteligencia y, luego,
asigna aleatoriamente un sujeto a cada método. Por último, usted también sospecha que
lo mismo que puede ocurrir con la edad y la inteligencia puede ocurrir con la motivación
escolar de los estudiantes. De formar similar a lo realizado anteriormente, comienza
eligiendo 4 sujetos con el mismo nivel de motivación escolar y asigna aleatoriamente un
sujeto a cada condición.
152
según el criterio de la inteligencia. Finalmente, podríamos denominar grupo G3 a los
sujetos seleccionados según el criterio de motivación escolar.
M1 M2 M3 M4
G1 8 5 6 3
Grupo G2 9 4 7 2
G3 9 7 5 5
Para utilizar el procedimiento de Friedman con estos datos, es necesario crear primero
un archivo de datos, al que vamos a llamar nopar5.sav. Los datos deben disponerse del
mismo modo que aparecen en la tabla. Cada uno de los tres grupos ocupará una fila,
mientras que cada uno de los cuatro métodos ocupará una variable. El archivo de datos
tendría este aspecto:
153
La variable var00001 contiene los resultados sobre rendimiento académico de los 3
estudiantes, pertenecientes a los grupos 1, 2 y 3 (G1, G2, y G3), que siguieron el método
de enseñanza 1 (M1). Del mismo modo, var00002 contiene los resultados de los tres
estudiantes, pertenecientes a los grupos 1, 2 y 3, que siguieron el método de enseñanza 2
(M2). Lo mismo se aplica a las variables var00003 y var00004.
Ahora puede efectuar el análisis de estos datos utilizando la prueba de Friedman. Para
ello, siga los mismos pasos que en el análisis anterior, seleccionando como variables
para el análisis, en este caso, a var00001, var00002, var00003, y var00004. El visor de
resultados le mostrará dos tablas. En la primera, como antes, aparecerán los rangos
promedio:
Rangos
Rango
promedio
VAR00001 4.00
VAR00002 2.33
VAR00003 2.50
VAR00004 1.17
154
Estadísticos de contrastea
N 3
Chi-cuadrado 7.552
gl 3
Sig. asintót. .056
a. Prueba de Friedman
Como el nivel de significación, para un valor de ji-cuadrado igual a 7.552, con 3 grados
de libertad, es .056 no rechazamos la hipótesis nula y afirmamos que no existen
diferencias significativas (fiables) en el rendimiento académico producido por los cuatro
métodos de enseñanza.
155
CUARTA PARTE: GENERACIÓN DE GRÁFICOS CON SPSS
PARA WINDOWS
156
El programa SPSS para Windows no sólo permite analizar los datos, sino que también
dispone de opciones para la representación gráfica, tanto de los datos en sí como de los
resultados obtenidos en determinados análisis. La generación de gráficos es sencilla.
Asimismo, las posibilidades de edición de los mismos para efectuar modificaciones son
muy amplias.
El proceso a seguir para todos los tipos de gráficos es siempre el mismo: una vez que se
tienen datos en la ventana "Datos nuevos", se selecciona el menú Gráficos. Dentro de
este menú aparecen todos los distintos tipos de gráficos disponibles, de los cuales
nosotros seleccionaremos uno. Una vez seleccionado el tipo de gráfico correspondiente,
aparecerán uno o varios cuadros de diálogo en los que deberemos especificar la variable
o variables implicadas y qué información numérica se mostrará (medias, porcentajes de
sujetos, sumas, etc.). El visor de resultados nos presentará el gráfico que hemos
solicitado. A continuación, podemos editarlo y hacer las modificaciones que creamos
convenientes (tamaño de los distintos elementos, añadir texto o diagramas, rotar, etc.).
Finalmente, una vez que el gráfico está a nuestro gusto, podemos almacenarlo en disco,
imprimirlo, etc. También es posible crear el gráfico paso a paso, de forma interactiva.
• Barras: Muestran la distribución de los valores en una serie de categorías dadas (por
ejemplo, el número medio de respuestas acertadas en un test por parte de niños de
diferentes colegios).
• Líneas: Su principal finalidad es la de mostrar la evolución de los valores a lo largo
de un contínuo determinado (por ejemplo, la tasa de respuestas emitida por un
organismo a lo largo de diferentes ensayos).
• Áreas: Aunque existen distintos tipos de gráficos de áreas disponibles, por lo general
se trata simplemente de un gráfico de líneas en el que la zona que se encuentra bajo la
línea se halla coloreada. Permite hacerse una idea más cabal acerca de la magnitud de
los cambios.
• Sectores: Son los conocidos gráficos de tarta. En ellos se representa el reparto de un
determinado atributo entre distintas categorías (por ejemplo, la proporción de
hombres y mujeres contenidos en una muestra).
• Máximos y mínimos: Sirven para representar en un mismo gráfico los valores
obtenidos en un determinado atributo para varias entidades distintas a lo largo de un
contínuo determinado (por ejemplo, el número medio de verbalizaciones nuevas
emitido por tres grupos de niños sometidos a tres distintos programas de desarrollo
157
del vocabulario a lo largo de doce meses). La particularidad de este tipo de gráficos
es que para cada uno de los valores del contínuo sólo se representan los valores
mínimo y máximo de todas las entidades (en el caso del ejemplo, sólo se
representarían, para un mes determinado, dos de los tres grupos de tratamiento con
programas de desarrollo del lenguaje: aquel cuyo número medio de verbalizaciones
nuevas fuese más pequeño, y aquel con mayor número medio de verbalizaciones
nuevas).
• Pareto: Consiste en un gráfico de barras en el que las categorías han sido ordenadas
de mayor a menor, y que opcionalmente lleva incluida una línea que representa las
frecuencias acumuladas. Su finalidad es la de ver cual es la contribución relativa de
cada uno de los factores que pueden influir en un atributo determinado (por ejemplo,
porcentaje de respuestas acertadas por un sujeto en un test de capacidad que se
corresponde con cada uno de los distintos subtests de que se compone la prueba).
• Control: Los gráficos de control sirven para estudiar las fluctuaciones existentes en
una serie de valores, y ver si se deben al azar o a otro tipo de causas. Los resultados
se muestran en forma de gráfico de líneas, en el que se representan las fluctuaciones
de la variable, la media de todas los valores, y dos límites, superior e inferior, entre
los que deben encontrarse las fluctuaciones.
• Diagramas de caja: Se utilizan, al igual que los gráficos de barras de error, en el
análisis exploratorio de los datos. Los diagramas de caja muestran la distribución de
los valores de una variable en forma de una caja, que se halla dividida en dos por una
línea horizontal. Los bordes superior e inferior de la caja representan los percentiles
75 y 25, respectivamente, mientras que la línea horizontal que divide a la caja en dos
representa la mediana. Por la parte superior e inferior de la caja asoman dos
segmentos, que representan los valores máximos y mínimos que se encuentran dentro
de la distribución. Por encima y por debajo de estos segmentos se representan con
círculos los valores que se encuentran fuera de la distribución (outliers), y con
asteriscos aquellos que se encuentran muy alejados de la misma (valores extremos).
Los gráficos de caja son especialmente útiles para estudiar la distribución de los
valores de una variable en diferentes grupos.
• Barras de error: Nos permiten estudiar la dispersión de los valores de una variable en
la muestra de donde se extrajeron. Para representar la dispersión podemos utilizar un
intervalo confidencial determinado (por ejemplo, del 95%), o bien un intervalo de n
desviaciones típicas a ambos lados de la media, o bien un intervalo de n errores
típicos a ambos lados de la media.
• Dispersión: Sirven para mostrar la relación entre los valores de dos o más variables
cuando todas ellas están medidas, al menos, a nivel de intervalos. El cruce entre los
valores de ambas variables se muestra como una nube de puntos que refleja la forma
de la relación (por ejemplo, la relación entre el peso y la edad de los sujetos muestra
una forma curvilínea).
• Histograma: Nos permite observar, en forma de gráfico de barras, la distribución de
los valores de una variable numérica agrupados en una serie de intervalos.
Opcionalmente se puede superponer al histograma una curva normal con la misma
media y la misma varianza, lo que nos permitirá hacer comparaciones entre nuestra
distribución y la normal. Un tipo de histograma muy conocido es el que representa la
proporción de sujetos de una población dada que obtienen una determinada
puntuación de C.I.
158
• P-P y Q-Q: Ambos tipos de gráficos sirven para evaluar la normalidad de la
distribución de los valores de una variable determinada. En ambos casos se
contrastan, en forma de gráfico de dispersión, los valores observados (de la variable)
con los valores que serían de esperar si la distribución se ajustase a la curva normal.
Cuando se cumple el supuesto de normalidad, los valores del gráfico de dispersión
deberían agruparse en forma de línea recta. La diferencia entre Q-Q y P-P reside en
que en el primer caso se toman las distribuciones simples de probabilidad, mientras
que en el segundo se toman las distribuciones acumuladas de probabilidad.
• Secuencia: Los gráficos de secuencia se corresponden con el uso de datos ordenados
en series temporales y permiten ver el cambio en los valores de una variable
determinada a lo largo del tiempo.
• Curva COR: Las curvas COR permiten representar gráficamente el grado de acierto
obtenido al clasificar sujetos en una o más variables numéricas tomando como
criterio una variable nominal con dos categorías.
• Serie Temporal: Dentro de este apartado se encuentran distintas opciones para
analizar datos que se ajustan a series temporales. Entre las opciones disponibles
dentro de este menú se halla: (1) Autocorrelaciones, o correlaciones entre los valores
de una misma variable cuando éstos se han obtenido en diferentes momentos
temporales. (2) Correlaciones cruzadas, o correlaciones existentes entre los valores
de dos series temporales distintas. (3) análisis espectral, o análisis de la variación de
toda la serie temporal en componentes periódicos de distinta frecuencia.
Dentro de cada uno de los distintos tipos de gráficos existen también diferentes
opciones: gráficos conjuntos, gráficos mixtos, matrices de dispersión, distintos tipos de
gráficos de control, etc. Pero nuestra intención no es elaborar un índice exhaustivo de
los mismos, sino que el lector conozca las posibilidades que ofrece el programa a nivel
de representación gráfica de los resultados. Baste decir que el número de opciones de
que dispone SPSS es lo suficientemente amplio como para que sea posible llevar a cabo
las representaciones gráficas de datos más usuales.
159
Para generar el gráfico, es necesario cargar primero el archivo de datos encuest.sav, que
contiene los datos de ese cuestionario. A continuación, seleccione la opción Gráficos.
De entre todas las opciones que aparecen, seleccione la opción Sectores. Aparecerá el
siguiente cuadro de diálogo:
En este cuadro de diálogo se nos pregunta qué tipo de datos van a aparecer en el gráfico:
• Resúmenes para grupos de casos: Se refiere a si cada uno de los sectores de la tarta
representa los datos de un grupo de sujetos.
• Resúmenes para distintas variables: En este caso, cada uno de los sectores representa
los resultados para una variable determinada como, por ejemplo, las sumas totales
para diferentes variables; en este caso, cada sector representará una variable.
• Valores individuales de los casos: Cada uno de los sectores representa a un sujeto de
la muestra.
En el ejemplo que estamos considerando, queremos saber cuáles han sido las respuestas
de los 10 sujetos a la pregunta de si entienden el gallego hablado. Dado que esta es la
opción que viene determinada por defecto por el programa (señalada por un punto
negro), sólo tenemos que pulsar el botón Definir. Una vez hecho esto, aparecerá un
segundo cuadro de diálogo:
160
En la zona izquierda del cuadro aparecen las variables del archivo de datos, que son las
20 preguntas del cuestionario. En la zona superior se nos pregunta qué representa cada
sector de la tarta: El número de sujetos que dan una respuesta determinada, el porcentaje
de sujetos que dan esa respuesta, el número acumulado de sujetos , el porcentaje
acumulado de sujetos , o bien otra función de resumen, tal como la media o la
desviación típica. En este último caso necesitamos una segunda variable de la que
extraer dicha función. De todas estas alternativas, nosotros queremos saber el porcentaje
de sujetos que dan una respuesta determinada, por lo que elegiremos la opción % de
casos.
Justo debajo del cuadro anterior aparece la leyenda Definir sectores por, con una casilla
debajo, en la que debemos introducir la variable de interés. En nuestro caso, nos
interesan las respuestas de los sujetos a la pregunta "Entiendo el gallego hablado", que
se corresponde con la variable item01. Seleccione, pues, item01 en el recuadro de la
izquierda e introdúzcala en esta casilla. En la parte inferior del cuadro de diálogo se
encuentra otro recuadro con la leyenda Plantilla. Aquí podemos indicar un archivo de
plantilla gráfica cuyas especificaciones queremos que se apliquen al nuestro. Esta opción
resulta de utilidad cuando generamos varios gráficos del mismo tipo y no queremos
perder el tiempo dándoles formato uno a uno. De este modo, podemos usar las
especificaciones de uno de ellos como plantilla para todos los demás. Los archivos de
plantillas gráficas pueden generarse en el editor de gráficos, que veremos un poco más
adelante. Por último, en la zona inferior derecha del cuadro de diálogo aparecen dos
botones, Títulos y Opciones. El primero nos permite colocar títulos, subtítulos y pies de
página al gráfico. El segundo sirve para seleccionar distintas opciones, que se refieren
fundamentalmente a los valores perdidos. Pulse ahora el botón etiquetado Títulos.
Aparecerá un cuadro de diálogo donde puede indicar el título del gráfico. Escriba en la
primera línea el texto de la pregunta 1: "Entiendo el gallego hablado". Pulse luego el
botón Continuar y, a continuación, el botón Aceptar. El visor de resultados le mostrará
el siguiente gráfico:
nada
regular
bien
Pulse ahora dos veces sobre el gráfico de sectores. Se abrirá una nueva ventana, la del
editor de gráficos. En esta ventana usted puede modificar diversos atributos del gráfico.
Esta nueva ventana posee sus propias opciones de menú y su propia barra de botones
161
para edición de gráficos. La función de cada uno de estos nuevos botones, de izquierda a
derecha, es la siguiente:
Trama. Sirve para cambiar la trama de relleno de una parte del gráfico. Por
ejemplo, los distintos sectores de un gráfico de sectores pueden resaltarse
utilizando distintas tramas para cada uno.
Estilo de línea. En gráficos de líneas, este botón permite cambiar el estilo en que
se muestran las mismas (línea contínua, punteada, con guiones, etc.).
Tipo de letra. Permite cambiar los atributos del texto seleccionado (tipo de letra,
tamaño y formato).
Opciones de gráfico. Dependiendo del tipo de gráfico que estemos editando, nos
mostrará una serie de opciones que nos permiten modificarlo.
Modo espín para gráficos de dispersión 3-D. Nos permite acceder a un menú que
162
sirve para rotar el gráfico a nuestro gusto. Es un modo de rotación alternativo al
representado por el botón Rotación 3-D.
El menú de la ventana de gráficos también puede ser de utilidad para modificar otras
características del gráfico. La opción Galería nos permite seleccionar un tipo de gráfico
compatible con el ya seleccionado, de modo que los datos se representarán en este nuevo
tipo de gráfico. La opción Diseño nos permite modificar otras características, como ejes,
notas al pie, leyendas, etc. La opción Serie nos permite modificar el modo en que va a
presentarse cada serie de datos, en caso de que haya más de una. Finalmente, la opción
Formato sirve para realizar las mismas acciones que la barra de botones.
Veamos ahora cómo podemos aplicar las posibilidades del editor de gráficas a nuestro
gráfico de sectores. En primer lugar, queremos conocer el porcentaje de sujetos que han
dado las respuestas "nada", "regular" y "bien". Como el gráfico por defecto no nos
muestra los porcentajes, vamos a pedir ahora que esa información sea incluida en el
gráfico. Para ello, utilizaremos la opción Diseño del menú principal. En el menú que se
despliega a continuación aparecen varias alternativas, una de las cuales se denomina
Opciones. Si la seleccionamos, nos aparecerá el siguiente cuadro de diálogo:
nada
5.0%
regular
20.0%
bien
75.0% 163
A continuación, vamos a modificar el título del gráfico y las tres etiquetas de valores que
aparecen para cada uno de los sectores, y que se corresponden con las respuestas "nada",
"regular" y "bien". En primer lugar, seleccionamos una de estas etiquetas con el ratón; el
texto de las tres etiquetas quedará enmarcado con unos pequeños cuadros, lo que indica
que las modificaciones que hagamos se aplicarán únicamente a esa zona del gráfico. A
continuación, seleccionamos con el ratón el botón representado con la letra "T"
mayúscula, que nos permite cambiar el tipo y tamaño de letra. El uso de este botón
equivale a seleccionar la opción Texto del menú Formato. La ventana del editor de
gráficos tendrá ahora este aspecto:
En la cuadro de diálogo vemos que la tipografía seleccionada para las tres etiquetas es la
"Arial", con un tamaño de 8 puntos. Debajo del tipo y tamaño seleccionado aparecen
dos recuadros donde se muestran, respectivamente, otros tipos y tamaños de letra
disponibles. Vamos a modificar sólo el tamaño de la letra, eligiendo una ligeramente
mayor, de 12 puntos. Una vez hecho esto, pulse el botón Aplicar. A continuación
modificaremos el título del gráfico, "Entiendo el gallego hablado". En primer lugar,
seleccione el título del gráfico utilizando el botón izquierdo del ratón; ahora debe
aparecer enmarcado con una línea continua. En este caso cambiaremos tanto el tipo
como el tamaño. Seleccione el tipo de letra Times New Roman, y el tamaño de 18
puntos, y pulse a continuación el botón Aplicar; una vez hecho esto, pulse el botón
Cerrar, que cerrará el cuadro de diálogo para estilo de texto. Una vez modificadas las
etiquetas, podría interesarnos modificar ahora el tramado para cada uno de los sectores.
El tramado es una buena alternativa al color cuando uno desea imprimir un gráfico y
sólo dispone de una impresora en blanco y negro. Para modificar el tramado de los
164
distintos sectores, marcamos con el ratón uno ellos y pulsamos el botón que representa
un rectángulo sombreado, equivalente a la opción Trama de relleno del menú Formato.
Aparecerá un cuadro de diálogo con ocho tramas de relleno. Seleccione ahora el sector
correspondiente a la respuesta "nada" y elija la opción sin tramado (representada por un
cuadrado en blanco); a continuación, pulse el botón Aplicar. Seleccione a continuación
el sector correspondiente a la respuesta "regular" y elija uno de los dos tramados de
líneas oblícuas existentes y vuelva a pulsar el botón Aplicar. Finalmente, aplique un
tramado de líneas horizontales al sector correspondintes a la respuesta “bien”. Pulse a
continuación el botón Cerrar.
regular
20.0%
bien
75.0%
Una vez modificado de esta forma el gráfico, puede guardarlo de dos formas:
Para exportar el gráfico, seleccione la opción Archivo del menú del editor de gráficos.
A continuación, seleccione la opción Exportar gráfico. SPSS le pedirá un nombre de
archivo. Los distintos formatos de archivo gráfico se muestran en el recuadro
etiquetado Guardar como tipo. Cada formato es idóneo para unas aplicaciones
determinadas, por lo que debe seleccionar el que mejor se ajuste a sus fines (integrar
el gráfico en un informe, realizar una fotocomposición, crear diapositivas, etc.).
Si desea guardar el gráfico como parte del archivo de resultados, seleccione la opción
Archivo del menú del editor de gráficos y, a continuación, seleccione la opción
Cerrar. Se cerrará la ventana del editor de gráficos, pero el gráfico de sectores que ha
165
modificado permanece en el visor de resultados. Si ahora guarda el archivo de
resultados, el gráfico se almacenará como parte del mismo.
Para el siguiente ejemplo utilizaremos los mismos datos que se emplearon para explicar
la covarianza, la correlación y la regresión (ver Apartado 6). Recuerde que estos datos
corresponden a los resultados obtenidos en dos pruebas, llamadas X e Y, por una muestra
de 5 sujetos:
Sujeto X Y
1 60 4
2 10 2
3 80 9
4 50 7
5 30 3
Cuando analizamos la correlación entre las variables (ver Apartado 6.2), nos
encontramos con un valor de rxy de, aproximadamente, 0.86. Lo que nos indica este
valor es que existe una relación lineal positiva e intensa entre X e Y, dado que 0.86 es
positivo y está próximo a 1. Pues bien, utilizando un gráfico de dispersión podremos
comprobar visualmente la intensidad de esa relación lineal.
Para ello, cree en primer lugar el archivo de datos, al que llamaremos regre.sav. Los
resultados en la prueba X se almacenarán en la variable var00001, y los resultados en la
prueba Y, en la variable var00002. A continuación, seleccione la opción Gráficos en el
menú principal y, en el menú que se despliega, la opción Dispersión. Aparecerá el
siguiente cuadro de diálogo:
166
En el caso de nuestros datos, el tipo adecuado es el simple, que es el que está
selecciondo por defecto. Pulse ahora el botón Definir. Aparecerá el cuadro de diálogo
correspondiente al gráfico de dispersión simple. Debe especificar, en primer lugar, cuál
es la variable cuyos valores se representarán en el eje X, y cuál la correspondiente al eje
Y. Seleccione, respectivamente, var00001 y var00002. El cuadro de diálogo presentará
este aspecto:
Regresión de X sobre Y
10
4
VAR00002
0
167
0 20 40 60 80 100
VAR00001
Podemos apreciar en el gráfico que la disposición de los puntos se aproxima con
bastante exactitud a la de una recta. Cuando efectuamos el análisis de regresión de X
sobre Y (ver Apartado 6.3), encontramos que la función lineal que más se ajustaba a la
relación existente entre ambas variables tenía la forma: Y’ = 0.7465 + 0.09247 X. Vamos
a modificar el gráfico para que, entre otras cosas, nos muestre la recta de regresión de X
sobre Y. Para ello, es necesario editar el gráfico. Pulse dos veces sobre el gráfico; esto le
llevará a la ventana del editor de gráficos. Seleccione ahora la opción Diseño y, en el
menú que se despliega, seleccione Opciones. Aparecerá el siguiente cuadro de diálogo:
Una de las opciones que aparecen en este nuevo cuadro de diálogo es la de Mostrar los
subgrupos; esta opción sólo se encuentra disponible si previamente hemos seleccionado
una variable con esta finalidad en la opción Establecer marcas por, en el cuadro de
diálogo anterior. Otra opción es la que nos permite etiquetar a los sujetos (Etiquetas de
caso), bien por su número de orden, bien por una variable identificadora, que debe ser
seleccionada en la opción Etiquetar los casos mediante, del cuadro de diálogo anterior.
Una tercera opción es la que nos permite Mostrar girasoles para el caso de puntuaciones
coincidentes; el girasol tendrá tantos pétalos como sujetos coincidan en una misma
puntuación. Por último, se muestran dos opciones para líneas en el gráfico. La primera
nos permite mostrar la línea que mejor se ajuste a las puntuaciones (Ajustar línea),
mientras que la segunda nos permite mostrar una línea horizontal de referencia (Línea
de referencia para la media en Y), correspondiente a la media de la variable Y. Para
obtener la recta de regresión de X sobre Y, seleccione la opción que nos permite mostrar
la línea de ajuste para el Total de los sujetos.
Una vez hecho esto, es necesario especificar el tipo de ajuste que se utilizará para
generar la línea correspondiente. Para especificar este aspecto disponemos de un botón
etiquetado Opciones de ajuste. Pulse este botón y aparecerá un nuevo cuadro de diálogo
con varias opciones. En primer lugar, tenemos distintos métodos de ajuste posibles para
nuestros datos. El método seleccionado por defecto es el de Regresión lineal, pero
también es posible utilizar Regresión cuadrática o Regresión cúbica, así como un
método de mínimos cuadrados ponderados (Minsce). Es posible también crear intervalos
confidenciales para los valores de la recta de regresión; estos intervalos se producen
debido a la existencia de error en las predicciones hechas por la recta. Como fuente de
168
los intervalos puede utilizarse la media de las predicciones (Media), o bien puede
establecerse un intervalo para cada dato (Individual). Finalmente, dos últimas opciones
se refieren a la inclusión o no de dos valores: el de la constante a en la recta, y el del
coeficiente de determinación en la representación gráfica. Dado que la constante a se
incluye por defecto en la ecuación, seleccione únicamente la última opción. El cuadro de
diálogo quedará así:
Regresión de X sobre Y
10
4
VAR00002
0 R² = 0.7343
0 20 40 60 80 100
VAR00001
169
Seleccione el eje correspondiente a la variable X ya está seleccionado por defecto, así
que pulse directamente el botón Aceptar. Aparecerá un nuevo cuadro de diálogo con
todas las opciones que puede modificar en el eje X. Entre estas opciones se encuentran
las siguientes:
1. La posibilidad de Mostrar la línea del eje X. Esta posibilidad está activada por
defecto.
2. El título y la justificación (izquierda, derecha, centrada) del eje que, por defecto, está
etiquetado como var00001.
3. La Escala utilizada en el eje, que puede ser lineal o logarítmica.
4. El Rango de puntuaciones del eje. Fíjese que el rango original de puntuaciones va
desde 10 hasta 80, mientras que el rango visualilzado del eje va desde 0 hasta 100; el
rango del eje es determinado automáticamente por SPSS, pero puede modificarse.
5. Divisiones mayores y Divisiones menores en el eje. Por defecto, tanto las divisiones
mayores como menores van de 20 en 20 (puntuaciones de 0, 20, 40, 60, 80 y 100).
Cada división puede llevar Marcas señalizadoras y/o Cuadrícula que permitan
localizar mejor las puntuaciones.
6. La posibilidad de mostrar o no las etiquetas de los valores (0, 20, 40, 60, 80 y 100), y
de modificar éstas (Etiquetas).
170
Pulse el botón Aceptar. Vuelva a seleccionar la opción Diseño y, dentro de ésta, la
opción Ejes. En el cuadro de diálogo seleccione ahora el eje Y. Repita la operación
anterior, colocando esta vez como título del eje la etiqueta Y. A continuación, pulse de
nuevo Aceptar. El gráfico presentará este aspecto:
Regresión de X sobre Y
10
0 R² = 0.7343
Y
0 20 40 60 80 100
Vamos ahora a modificar el tamaño tanto de las etiquetas de los ejes como el título del
gráfico. Usted ya vio en el Apartado anterior el modo en que puede hacerse esto.
Aplique un tipo de letra Arial de 12 puntos a las etiquetas de los ejes, y un tipo de letra
Times New Roman de 18 puntos al título del gráfico. A continuación, modificaremos
los marcadores del gráfico. Dado que sólo tenemos cinco puntuaciones, el gráfico
resultará más claro si utilizamos marcadores algo mayores para las puntuaciones; por
defecto, los marcadores son de tamaño Muy pequeño . Para modificar los marcadores,
seleccione una puntuación cualquiera del gráfico; todas ellas aparecerán seleccionadas.
Pulse ahora el botón que representa un asterisco, y aparecerá el cuadro de diálogo para
171
modificar los marcadores. Elija un tipo círculo negro como marcador, y un tamaño
Pequeño para el mismo. El cuadro tendrá este aspecto:
Pulse, sucesivamente, los botones Aplicar y Cerrar. Ahora los marcadores son más
visibles:
Regresión de X sobre Y
10
0 R² = 0.7343
Y
0 20 40 60 80 100
172
QUINTA PARTE: ESTADÍSTICA AVANZADA CON SPSS PARA
WINDOWS
173
12. Análisis de Varianza con Medidas Repetidas
Mª José Ferraces
Mª Soledad Rodríguez
Elena Andrade
Cuando un sujeto es medido en más de dos ocasiones o, dicho de otro modo, cuando
recibe más de dos niveles de la variable independiente en un orden sucesivo (por
ejemplo un pretest, al cabo de una semana un postest, y al cabo de un mes otro postest)
se está llevando a cabo un diseño de medidas repetidas.
Este tipo de diseño se caracteriza porque cada sujeto recibe todos los niveles de la
variable independiente o, lo que es lo mismo, cada sujeto es sometido a todas las
condiciones experimentales. Así, la ventaja fundamental de este diseño sobre los de
medidas independientes consiste en garantizar el control de las diferencias individuales,
dado que al actuar el sujeto como su propio control queda reducida la varianza de error
y, además, se necesitan menos sujetos para obtener la misma información. Dado que el
sujeto tiene más de dos medidas, se utilizará el análisis de varianza, en lugar de utilizar
el estadístico t, para analizar las diferencias entre dichas medidas.
Para conocer el procedimiento a seguir por este tipo de análisis vamos a partir de un
ejemplo propuesto por Winer (1971) que se describe a continuación:
174
Los resultados obtenidos por el investigador fueron los siguientes:
Las cuatro variables del archivo de datos (de var00001 a var00004) contienen la medida
del tiempo de reacción de cada uno de los sujetos bajo cada una de las drogas (variable
independiente). Por su parte, cada fila contiene las puntuaciones de un sujeto en todas
las condiciones experimentales, o lo que es lo mismo, en cada tipo de droga.
175
Si solicita un análisis descriptivo (ver apartado 5.1.6) para las 4 variables del archivo de
datos obtendrá los siguientes resultados:
Estadísticos descriptivos
Como puede ver, el tiempo de reacción medio más bajo (15,60) corresponde a la
administración de la droga 3 (var00003) y el más alto (32,00) para la droga 4
(var00004). Así pues, existen diferencias en el tiempo de reacción en función de la
droga administrada. Sin embargo, el análisis descriptivo de los datos no nos proporciona
indicios acerca de la significación estadística de estas diferencias; para conocer ésta
debemos efectuar un análisis de varianza.
Para llevar a cabo un análisis de varianza de medidas repetidas para las 4 condiciones
experimentales (4 drogas), seleccione en el menú la opción Analizar. A continuación,
seleccione la opción Modelo lineal general. Finalmente, seleccione la opción Medidas
repetidas. Aparecerá este cuadro de diálogo:
Por defecto, SPSS llamará factor1 al factor intra-sujetos o factor intragrupo, pero es
posible asignarle un nombre diferente. Dado que queremos ver el efecto de cuatro
drogas diferentes, llamaremos droga al factor intra-sujetos. A continuación se nos pide
el número de niveles de la variable independiente. El número de niveles es 4, uno por
cada tipo de droga que fue administrada a los sujetos. Introduzca, pues, un 4 en la
casilla. Una vez definido el factor, pulse el botón "Añadir" y, a continuación, pulse el
botón Definir. Aparecerá el siguiente cuadro de diálogo:
176
En la zona izquierda del cuadro de diálogo aparecen las cuatro variables de nuestro
archivo de datos, que debemos corresponder con cada una de las cuatro variables o
niveles del factor intra-sujetos droga. Seleccione, pues, todas las variables, e
introdúzcalas en la casilla correspondiente a Variables intra-sujetos pulsando el botón
con forma de flecha que apunta hacia esta casilla.
En la parte inferior del cuadro de diálogo aparecen una serie de botones que nos
permiten llevar a cabo especificaciones adicionales. Con las especificaciones que
efectuadas ya podríamos solucionar el ejemplo planteado, asumiendo las
especificaciones que el programa asume por defecto. Sin embargo, veamos antes las
especificaciones para el modelo de análisis de varianza de medidas repetidas. Para ello,
pulse el botón Modelo. Aparecerá este cuadro de diálogo:
177
SPSS lleva a cabo por defecto un modelo Factorial completo, que ofrece los efectos
principales de los factores Intra-sujetos (en nuestro caso, el factor droga) e Inter-sujetos
(que no existe en nuestro ejemplo), así como las interacciones entre los distintos
factores en el caso del análisis de varianza de dos o más factores. En el caso de un
factor, como el de nuestro ejemplo, el programa ofrece dos tablas de efectos: una que
contiene el efecto del factor intrasujetos y otra para el efecto intersujetos. Además, se
selecciona como prueba intrasujetos únicamente el valor de F, que se muestra por
defecto junto con las pruebas multivariadas, que no comentaremos aquí. Para salir de
este cuadro de diálogo sin efectuar ninguna modificación pulse el botón Cancelar.
Pulse ahora, en el cuadro de diálogo del análisis de medidas repetidas, el botón Aceptar.
El visor de resultados le mostrará varias tablas. De todas ellas vamos a detenernos sólo
en la que nos interesa, aquella que contiene las pruebas de efectos intra-sujetos:
Medida: MEASURE_1
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
DROGA Esfericidad asumida 698.200 3 232.733 24.759 .000
Greenhouse-Geisser 698.200 1.815 384.763 24.759 .001
Huynh-Feldt 698.200 3.000 232.733 24.759 .000
Límite-inferior 698.200 1.000 698.200 24.759 .008
Error(DROGA) Esfericidad asumida 112.800 12 9.400
Greenhouse-Geisser 112.800 7.258 15.540
Huynh-Feldt 112.800 12.000 9.400
Límite-inferior 112.800 4.000 28.200
Observemos los valores con esfericidad asumida. Se observa que el valor estadístico F
(cociente entre la Media cuadrática DROGA (232.733) y la Media cuadrática del error
(9.4)) tiene un valor de 24.759 con una probabilidad asociada menor que .001. Como
178
esta probabilidad es menor que .05 se puede rechazar la hipótesis nula y afirmar que
existen diferencias significativas entre los tiempos de reacción correspondientes a las
cuatro drogas. Así, se podría interpretar este resultado diciendo que el tiempo de
reacción de los sujetos varía en función del tipo de droga que consuman.
En caso de que nos interesase averiguar entre qué tipos de droga existen realmente
diferencias significativas, tendríamos que solicitar la comparación de los efectos
principales para cada tipo de droga. Sin embargo, esta explicación excede el objetivo
que nos hemos propuesto. Baste concluir que una revisión de las medias para cada tipo
de droga nos permite decir que el tiempo de reacción de este grupo de sujetos es
sensiblemente inferior bajo los efectos de la droga 3.
Al igual que en el caso anterior, nos vamos a servir de un ejemplo para desarrollar el
procedimiento, llevando a cabo un análisis factorial de la varianza de medidas repetidas.
Se procederá, asimismo, tanto a interpretar los resultados como a indicar el
procedimiento de cálculo manual.
a1 a2
Sujetos b1 b2 b3 b1 b2 b3
1 4 5 7 1 2 4
2 6 8 10 3 6 6
3 1 6 5 3 5 4
4 2 10 12 1 4 7
5 5 10 10 5 6 5
6 1 7 8 2 8 7
179
Para llevar a cabo el análisis de varianza de estos datos mediante SPSS crearemos un
archivo de datos al que llamaremos repe2.sav. La ventana del editor tendrá este aspecto:
Para mayor claridad se ha puesto nombre a las seis variables del archivo de datos, de
forma que puedan ser identificadas más fácilmente en el diseño (si no recuerda cómo
cambiar el nombre a una variable, consulte el Apartado 3.2).
Al observar este archivo se puede ver que la disposición de los datos es la misma que en
el caso de medidas repetidas en un factor; es decir, cada fila contiene las puntuaciones
de un sujeto bajo todas las condiciones de tratamiento. En el ejemplo que nos ocupa los
6 sujetos reciben todas las combinaciones de los factores A y B (A con dos niveles y B
con tres).
180
Estadísticos descriptivos
Los siguientes pasos para el análisis son básicamente los mismos que los efectuados en
el caso de un factor con medidas repetidas. Seleccionaremos la opción Analizar, dentro
de ésta la opción Modelo lineal general y, finalmente, la opción Medidas repetidas.
Aparecerá el cuadro de diálogo inicial del procedimiento, que nos permite definir un
nombre para cada uno de los factores intra-sujetos, así como el número de niveles de los
mismos.En este caso definimos primero al factor A (condiciones de reconocimiento o de
recuerdo). Como nombre del factor escriba facta. Indique a continuación el número de
niveles, que son 2. Una vez definido este factor pulse el botón Añadir y pasaremos a
definir el factor B (intervalo temporal : 1 hora - 1 día - 1 semana). Como nombre del
factor escriba factb e indique el número de niveles, que son 3. Pulse de nuevo el botón
Añadir. El cuadro de diálogo tendrá este aspecto:
A continuación, pulse el botón Definir para salir de este cuadro de diálogo. Aparecerá la
ventana del análisis de medidas repetidas propiamente dicho, que usted ya conoce.
Seleccione todas las variables del archivo de datos de la casilla situada en la zona
izquierda del cuadro de diálogo e introdúzcalas en el recuadro donde deben introducirse
las Variables intra-sujetos. El cuadro de diálogo debe tener ahora este aspecto:
181
Observe que el orden de las variables coincide con la combinación de niveles para los
factores A y B (1-1, 1-2, 1-3, 2-1, 2-2, 2-3). Esto facilita la especificación de qué variable
contiene qué combinación de efectos. De no encontrarse las variables ordenadas en el
archivo de datos, la operación anterior debe efectuarse con cuidado para no cometer
errores en la asignación de variables. Para llevar a cabo el análisis pulse ahora Aceptar.
Obtendrá de nuevo varias tablas, de las que vamos a comentar aquí únicamente la que
más nos interesa, que es la que contiene las pruebas de efectos intra-sujetos:
182
Pruebas de efectos intra-sujetos.
Medida: MEASURE_1
Suma de
cuadrados Media
Fuente tipo III gl cuadrática F Significación
FACTA Esfericidad asumida 40.111 1 40.111 8.167 .035
Greenhouse-Geisser 40.111 1.000 40.111 8.167 .035
Huynh-Feldt 40.111 1.000 40.111 8.167 .035
Límite-inferior 40.111 1.000 40.111 8.167 .035
Error(FACTA) Esfericidad asumida 24.556 5 4.911
Greenhouse-Geisser 24.556 5.000 4.911
Huynh-Feldt 24.556 5.000 4.911
Límite-inferior 24.556 5.000 4.911
FACTB Esfericidad asumida 125.389 2 62.694 17.772 .001
Greenhouse-Geisser 125.389 1.589 78.920 17.772 .002
Huynh-Feldt 125.389 2.000 62.694 17.772 .001
Límite-inferior 125.389 1.000 125.389 17.772 .008
Error(FACTB) Esfericidad asumida 35.278 10 3.528
Greenhouse-Geisser 35.278 7.944 4.441
Huynh-Feldt 35.278 10.000 3.528
Límite-inferior 35.278 5.000 7.056
FACTA * FACTB Esfericidad asumida 10.056 2 5.028 5.419 .025
Greenhouse-Geisser 10.056 1.300 7.732 5.419 .050
Huynh-Feldt 10.056 1.569 6.411 5.419 .039
Límite-inferior 10.056 1.000 10.056 5.419 .067
Error(FACTA*FACTB) Esfericidad asumida 9.278 10 .928
Greenhouse-Geisser 9.278 6.502 1.427
Huynh-Feldt 9.278 7.843 1.183
Límite-inferior 9.278 5.000 1.856
De nuevo observemos los resultados para esfericidad asumida. Dado que se estudia el
efecto de dos factores se obtienen 3 valores de F (uno para cada factor y otro para la
interacción), significativos en todos los casos. Esto es, existe un efecto significativo del
factor A (F(1,5)=8.167; p<.035); un efecto significativo del factor B (F(2,10)=17.77,
p<.001) y, también resultó significativa la interacción AxB (F(2,10)= 5.419, p<.025).
183
13. Introducción al Análisis de Covarianza
Mª José Ferraces
Mª Soledad Rodríguez
Elena Andrade
De forma más concreta, cuando en el apartado 8.1 de este libro se utilizaba el análisis de
varianza de un factor para investigar el efecto de tres métodos de enseñanza (variable
independiente), se simplificaba en exceso el análisis de relaciones, en el sentido de que
se asumía que el rendimiento académico dependía solamente del método de enseñanza.
En efecto, el método de enseñanza puede influir sobre el rendimiento académico, pero
también existen otras variables concomitantes que pueden asimismo producir
diferencias en el rendimiento académico entre unos estudiantes y otros, y que no fueron
contempladas. Ejemplos de estas variables podrían ser la inteligencia de los estudiantes,
la motivación para el estudio o la calidad del profesorado. A estas variables se las
denomina variables extrañas o, todavía más específicamente, covariables.
En el presente capítulo del libro se hace una introducción al análisis de varianza cuando
se desea investigar la influencia de una variable independiente sobre una variable
dependiente, reduciendo, anulando o eliminando el efecto de una covariable. Tal como
indica el título del capítulo, a este tipo particular de análisis de la varianza se le
denomina análisis de covarianza. A veces, abreviadamente, también se le denomina
ANCOVA (ANalysis of COVAriance). La covariable, al igual que la variable
dependiente, es de naturaleza cuantitativa.
184
en la asignatura de matemáticas, y la covariable es la inteligencia de los alumnos. El
objetivo del investigador es estudiar la relación entre los tres métodos de enseñanza y el
rendimiento académico, apartando el posible efecto que sobre esta relación pudiese tener
la inteligencia.
Asumamos que procede de la siguiente manera para satisfacer este objetivo. Elige una
muestra de 15 sujetos. Luego asigna aleatoriamente 5 de estos sujetos a cada método de
enseñanza, con el que trabajan durante todo el curso. A final de curso, registra la
calificación obtenida por los alumnos en la mencionada materia y, además, les
administra un test de inteligencia, mediante el cual obtiene su cociente intelectual
(abreviadamente, C.I.).
Para analizar estos datos mediante SPSS crearemos un archivo de datos, al que
llamaremos ancova.sav. Una vez introducidos los datos, la ventana del editor de SPSS
tendrá este aspecto:
185
El archivo de datos contiene tres variables. La primera de ellas, metodo, identifica el
método de enseñanza de las matemáticas (1, 2 ó 3) al que fue asignado cada uno de los
15 alumnos. La segunda variable, rendim, contiene las calificaciones obtenidas por los
alumnos en el examen final de matemáticas. Por último, la variable ci contiene los
valores del cociente intelectual obtenidos por los alumnos en la prueba de inteligencia.
En la zona izquierda del cuadro de diálogo aparece las variables del archivo de datos. A
la derecha de esta lista hay una serie de casillas. Debe colocar cada variable en la casilla
correspondiente. Seleccione, en primer lugar, la variable rendim e introdúzcala en la
casilla etiquetada con la palabra Dependiente. A continuación, seleccione la variable
metodo e introdúzcala en la casilla etiquetada como Factores fijos. Finalmente,
seleccione la variable ci e introdúzcala en la casilla etiquetada con la palabra
Covariables. Ahora ya ha definido todas las variables del modelo.
A la hora de comparar los resultados obtenidos por los distintos métodos, es de gran
ayuda obtener las medias estimadas para cada grupo. Para obtener esta información,
pulse ahora el botón Opciones. En el cuadro de diálogo que aparece seleccione la
variable metodo e introdúzcala en la casilla etiquetada Mostrar las medias para. De este
modo, se mostrarán el el visor de resultados, para cada método de enseñanza, las medias
186
en la variable dependiente rendim. Una vez efectuado este cambio, el cuadro de diálogo
tendrá este aspecto:
En la primera columna de la tabla se indican las fuentes de variación. De todas ellas, son
dos las que nos interesan especialmente.
187
se realizó un control adecuado de la covariable, lo que permite separar la influencia
de la variable independiente de la influencia de la covariable.
2. En segundo lugar, el efecto de la variable independiente metodo sobre la variable
dependiente; es decir, sobre la calificación obtenida en el examen de matemáticas.
Como puede observarse en la tabla, el valor F obtenido fue estadísticamente
significativo (F= 12.29; p< .002). Este resultado nos indica que, una vez apartado el
efecto de la inteligencia, se encontró que los métodos de enseñanza producen por sí
solos diferencias en el rendimiento académico de los alumnos. Para saber entre qué
métodos existen diferencias significativas podría ahora aplicar una prueba de
comparaciones a posteriori como la ya vista en el apartado 8.1, dedicado al análisis
de varianza de un factor.
Finalmente, el listado nos ofrece también la tabla solicitada con las medias marginales
estimadas en la nota final (variable dependiente) para cada uno de los tres métodos de
enseñanza de las matemáticas (variable independiente). Estas medias estimadas han sido
también corregidas en cuanto al efecto de la covariable ci, con lo que se evita la
posibilidad de que nos lleven a confusión. Las notas medias obtenidas nos permiten
concluir que el mejor resultado (independientemente de su capacidad intelectual) lo
obtuvieron los alumnos del grupo que recibió el método de enseñanza número uno.
METODO
188
14. ANÁLISIS FACTORIAL
Gloria Seoane
Mª Soledad Rodríguez
En otros apartados de este libro se hizo referencia al interés que tiene el estudio de la
relación entre variables, ya que ello facilita uno de los objetivos prioritarios que tiene
la investigación científica: la predicción de fenómenos. En aquel momento se
desarrolló lo concerniente a correlación y regresión y ahora nos centraremos en el
análisis factorial, que puede considerarse como una extensión del análisis de
correlación visto hasta ahora.
Nunnally (1995, pág. 509) a este respecto, señala que tanto la correlación múltiple
como el análisis factorial relacionan una combinación lineal de variables con un
criterio. La diferencia es que en la regresión múltiple los predictores y el criterio son
entidades distintas, pero en el análisis factorial los predictores (factores) están
definidos al menos de modo parcial por los criterios (variables).
189
Para explicar la técnica, vamos un partir de un ejemplo en el que se miden 14 países
en un total de 7 variables socioeconómicas:
Para nuestro ejemplo, la matriz X que se utilizará como entrada al análisis factorial es
la siguiente:
190
14.1. Ejecución del Análisis Factorial
1. Obtención de R.
2. Extracción de factores.
3. Rotación de factores.
4. Obtención de Puntuaciones factoriales.
Estos serán, también, los distintos pasos que tendremos que ir seleccionando
consecutivamente para ejecutar el análisis factorial con SPSS. Para acceder al cuadro
de diálogo del procedimiento de análisis factorial seleccione, en el menú, la opción
Analizar; a continuación, seleccione la opción Reducción de datos y, finalmente,
seleccione la opción Análisis factorial. En el cuadro de diálogo que aparece a
continuación, seleccione las siete variables que contienen los indicadores
191
socioeconómicos e introdúzcalas, pulsando la tecla con forma de flecha, en la casilla
etiquetada Variables. El cuadro de diálogo tendrá este aspecto:
Veamos, en primer lugar, cómo debemos de proceder, a partir de este momento, para
ejecutar el análisis y, a continuación, haremos la interpretación de los resultados que
hemos obtenido.
Una vez introducidos los datos y seleccionadas las variables a analizar, la solución al
análisis factorial se obtiene siguiendo los cuatro pasos mencionados anteriormente.
Cada uno de estos pasos aparece recogido en la parte inferior de la ventana principal
mediante los botones etiquetados como Descriptivos, Extracción, Rotación y
Puntuaciones.
El primer paso del análisis factorial tiene como principal finalidad obtener la matriz de
correlaciones entre variables (matriz R). Para ello, pulse el botón Descriptivos.
Aparecerá el siguiente cuadro de diálogo:
192
Para obtener la matriz de correlaciones basta con seleccionar la opción Coeficientes en
el recuadro etiquetado como Matriz de correlaciones. Si además solicita los Niveles
de significación obtendrá la significación estadística de cada uno de los coeficientes
de correlación. Seleccione también la opción Descriptivos univariados en el recuadro
etiquetado como Estadísticos, con el fin de obtener la media y desviación típica de
cada una de las variables del análisis. Pulse seguidamente el botón Continuar.
VT= 12 + 12 + 12 + 12 + 12 + 12 +12 = 7
El siguiente paso, la extracción de factores, tiene como objetivo agrupar las variables
originales en otras variables abstractas denominadas factores. Estas agrupaciones de
variables se hacen, tal como indicamos, a partir de las relaciones dadas en la matriz de
correlaciones.
Para ejecutar este paso, pulse ahora el botón etiquetado Extracción. Aparecerá el
siguiente cuadro de diálogo:
193
Hay distintos métodos de extracción, en este caso seguiremos el denominado
componentes principales, que es el más utilizado. Situándonos en la flecha que está a
la derecha del método especificado, podremos ver otros métodos de extracción
disponibles (mínimos cuadrados no ponderados, mínimos cuadrados generalizados,
máxima verosimilitud, ejes principales, alfa e imagen).
El análisis factorial es una técnica de reducción de datos. Por lo tanto, un criterio que
debe cumplir toda matriz factorial es la de parsimonia: concentrar y explicar el
máximo de información en el menor número de factores posible. De este modo la
matriz factorial tal cual se extrae tendrá unos factores, los primeros, que deben
contener la mayor parte de la información (de la Varianza Total de R) y que se
denominan factores significativos, y otro grupo de factores que contendrían el resto de
información, denominados factores no significativos.
¿Qué criterio podemos utilizar para considerar un factor como significativo?. Gorsuch
(1988) señala que no existe ningún criterio riguroso y preciso para la selección de
factores significativos. Tradicionalmente, el criterio más utilizado es el de Kaiser-
Guttman, que considera factores significativos aquellos que contengan, al menos, un
autovalor (λ) igual o mayor que 1. Este criterio es el que, por defecto, está
194
implementado en el programa que estamos utilizando. Para salir de este cuadro de
diálogo, pulse el botón Continuar.
Esto se traduce en maximizar las cargas que son significativas en los factores y
minimizar las cargas no significativas. Por maximizar y minimizar entenderemos
aproximarlas a 1 y a 0, respectivamente.
195
Realmente, los objetivos que pretende el análisis factorial estarían cumplidos en el
paso anterior (la rotación), es decir, cuando obtenemos la matriz factorial rotada
(matriz F), en la que aparecen claramente las agrupaciones de variables que se han
dado (factores) partiendo de nuestros datos originales (matriz X).
14.2.1. Descriptivos
196
Estadísticos descriptivos
Desviación N del
Media típica análisis
DENSIDAD DE POBLACIÓN 102.86 101.33 14
% PERSONAS EMPLEADAS EN AGRICULTURA 16.07 15.73 14
INGRESOS NACIONALES PER CAPITA 7.671 3.619 14
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA 8.207 1.462 14
TASA DE MORTALIDAD INFANTIL 24.57 37.75 14
CONSUMO DE ENERGÍA POR 100 HABITANTES 3.779 2.211 14
APARATOS DE TV POR 100 HABITANTES 27.07 14.40 14
Matriz de correlaciones
INVERSIÓN
DE
% PERSONAS RENDIMIENTO CONSUMO APARATOS
DENSIDAD EMPLEADAS INGRESOS DE CAPITAL TASA DE DE ENERGÍA DE TV POR
DE EN NACIONALES EN MORTALIDAD POR 100 100
POBLACIÓN AGRICULTURA PER CAPITA MAQUINARIA INFANTIL HABITANTES HABITANTES
Correlación DENSIDAD DE POBLACIÓN 1.000 -.150 .019 .490 -.131 -.255 -.069
% PERSONAS EMPLEADAS EN AGRICULTURA -.150 1.000 -.786 -.183 .890 -.715 -.783
INGRESOS NACIONALES PER CAPITA .019 -.786 1.000 .196 -.602 .830 .722
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .490 -.183 .196 1.000 .002 .009 .134
TASA DE MORTALIDAD INFANTIL -.131 .890 -.602 .002 1.000 -.494 -.526
CONSUMO DE ENERGÍA POR 100 HABITANTES -.255 -.715 .830 .009 -.494 1.000 .915
APARATOS DE TV POR 100 HABITANTES -.069 -.783 .722 .134 -.526 .915 1.000
Sig. (Unilateral) DENSIDAD DE POBLACIÓN .304 .474 .038 .327 .190 .407
% PERSONAS EMPLEADAS EN AGRICULTURA .304 .000 .266 .000 .002 .000
INGRESOS NACIONALES PER CAPITA .474 .000 .251 .011 .000 .002
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .038 .266 .251 .498 .488 .324
TASA DE MORTALIDAD INFANTIL .327 .000 .011 .498 .036 .027
CONSUMO DE ENERGÍA POR 100 HABITANTES .190 .002 .000 .488 .036 .000
APARATOS DE TV POR 100 HABITANTES .407 .000 .002 .324 .027 .000
La matriz que viene a continuación muestra la probabilidad asociada a cada uno de los
coeficientes de la matriz R, es decir, el nivel de significación correspondiente a cada
uno de ellos.
197
ellas que es explicada por la otra. De manera similar se interpretan los demás
elementos de esta matriz.
De modo similar, si observamos las relaciones de las demás variables veremos que,
efectivamente, cada una de ellas (EMAG, INNA, MOIN, ENER) se relaciona
significativamente con las demás pero ninguna lo hace con las variables que
conforman el otro grupo: DEPO e INRC.
198
Comunalidades
Inicial Extracción
DENSIDAD DE POBLACIÓN 1.000 .803
% PERSONAS EMPLEADAS EN AGRICULTURA 1.000 .910
INGRESOS NACIONALES PER CAPITA 1.000 .805
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA1.000 .665
TASA DE MORTALIDAD INFANTIL 1.000 .618
CONSUMO DE ENERGÍA POR 100 HABITANTES 1.000 .884
APARATOS DE TV POR 100 HABITANTES 1.000 .816
Método de extracción: Análisis de Componentes principales.
Si dividimos esta suma entre la varianza total obtenida a partir de las comunalidades
iniciales (7), obtendremos la proporción de varianza total explicada por los factores
significativos, que en este caso es:
5,501
= 0,786
7
La tabla que se muestra a continuación contiene la varianza explicada por cada factor,
también conocida como autovalor (λ) de cada factor:
199
La varianza explicada, o autovalor, de cada factor, se obtiene mediante la suma de
cuadrados de los elementos de las columnas (factores) de la matriz factorial A. Como
vemos en la columna etiquetada como Autovalores iniciales, la matriz factorial inicial
tiene tantos factores, o componentes, como variables (en nuestro ejemplo, 7). Por
tanto, la matriz factorial tendrá en las filas las variables originales (en nuestro
ejemplo, 7) y en las columnas los factores o componentes que, tal como hemos dicho,
son tantos como variables (7). La suma de estos autovalores, al igual que antes la
suma de las comunalidades, nos da la varianza total de la matriz A, que es 7. Por eso
el porcentaje de varianza explicado por los 7 factores es el 100%, como se aprecia en
la columna etiquetada como % acumulado.
Vemos, pues, que solamente son dos los factores significativos (con λ ≥1) y que éstos
explican el 78,6% de la varianza total. Estos serán los factores que se mantendrán para
continuar el análisis, ya que el resto de la información (100-78,6=21,4%) contenida en
los cinco factores con λ<1, se considera no significativa.
Matriz de componentesa
Componente
1 2
DENSIDAD DE POBLACIÓN .018 .896
% PERSONAS EMPLEADAS EN AGRICULTURA -.944 -.135
INGRESOS NACIONALES PER CAPITA .897 .018
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .165 .799
TASA DE MORTALIDAD INFANTIL -.781 -.084
CONSUMO DE ENERGÍA POR 100 HABITANTES .893 -.293
APARATOS DE TV POR 100 HABITANTES .897 -.106
Método de extracción: Análisis de componentes principales.
a. 2 componentes extraídos
200
variables, pero sus columnas son, solamente 2 que, como ya sabemos, son los factores
significativos.
Factor 1. En este factor, cuyo autovalor es 3,937 (el 56,238% de la VT=7) se nos
muestran como cargas factoriales significativas las correspondientes a las variables:
Por el tipo de variables que conforman este factor, podríamos decir que indican el
nivel de desarrollo de un país.
Factor 2. En este factor, cuyo autovalor es 1.564 (el 22,342% de la VT=7) son
significativas las cargas correspondientes a las variables:
Las dos variables significativas en el factor tienen cargas positivas; por tanto, a mayor
densidad de población en un país mayor es la inversión de capital en maquinaria, y
viceversa.
Esta estructura factorial que acabamos de describir para los factores significativos,
coincide con el pronóstico que ya habíamos hecho analizando el contenido de la
matriz de correlaciones.
201
¿Para qué entonces el análisis factorial si analizando correctamente la matriz R
obtenemos la misma información? Esto es verdad, pero no olvidemos que, en nuestro
ejemplo, la matriz R era de un orden muy pequeño, y su interpretación fue
relativamente fácil. Lo habitual es que nos encontremos con investigaciones en las que
existan 20, 30 o más variables. En estos casos, sin duda, el análisis factorial es la
técnica idónea para estructurar los datos de forma que su interpretación nos resulte
sensiblemente más sencilla.
Componente
1 2
DENSIDAD DE POBLACIÓN -.045 .895
% PERSONAS EMPLEADAS EN AGRICULTURA -.933 -.201
INGRESOS NACIONALES PER CAPITA .893 .081
INVERSIÓN DE RENDIMIENTO DE CAPITAL EN MAQUINARIA .108 .808
TASA DE MORTALIDAD INFANTIL -.774 -.138
CONSUMO DE ENERGÍA POR 100 HABITANTES .911 -.230
APARATOS DE TV POR 100 HABITANTES .902 -.04
Factor 1 Factor2
DEPO .018 .896
EMAG -.944 -.135
INNA .897 .018
INRC .165 .799
MOIN -.781 -.084
ENER .893 -.293
APTV .897 -.106
Lo que se pretende con la rotación es que esa estructura se acerque lo más posible a
202
Factor 1 Factor2
DEPO 0 1
EMAG 1 0
INNA 1 0
INRC 0 1
MOIN 1 0
ENER 1 0
APTV 1 0
Es decir, maximizar las cargas que son significativas en los factores aproximándolas a
1 y minimizar las cargas no significativas aproximándolas a 0.
203
verlas no tiene más que cambiarse al editor de datos. La ventana tiene ahora este
aspecto:
Observe que aparecen dos nuevas variables, fac1_1 y fac1_2. Estas variables
contienen las puntuaciones factoriales estandarizadas (z) que solicitamos al llevar a
cabo el análisis. Tomemos ahora un elemento de la matriz de puntuaciones factoriales,
por ejemplo la puntuación que obtiene el país 12 (Turquía) en el factor 1.
Z12,1 = - 2.37737
Turquía tiene una puntuación factorial negativa y muy extrema en este factor. El factor
1 estaba explicado fundamentalmente por las variables:
EMAG -.933
INNA .893
MOIN -.774
ENER .911
APTV .902
204
BIBLIOGRAFÍA
205
Padilla, M., Merino, J.M., y Pardo, A. (1986). Psicología matemática I. Ejercicios
resueltos. Madrid. UNED.
Peña, D. (1986). Estadística. Modelos y métodos. 1. Fundamentos. Madrid: Alianza.
Riba, M.D. (1990). Modelo lineal de análisis de la variancia. Barcelona: Herder.
Ríos, S. (1967). Métodos estadísticos. Madrid: Ediciones del Castillo.
Sánchez Carrión, J.J. (1990). Análisis de datos con SPSS-PC+. Madrid: Alianza
Universidad.
San Martín, R., Espinosa, L., y Fernández, L. (1987a). Psicoestadística descriptiva.
Madrid: Pirámide.
San Martín, R., Espinosa, L., y Fernández, L. (1987b). Psicoestadística. Estimación y
contraste. Madrid: Pirámide.
San Martín, R., y Pardo, M. (1989). Psicoestadística. Contrastes paramétricos y no
paramétricos. Madrid: Pirámide.
Sierra Bravo, R. (1983). Técnicas de investigación social. Teoría y ejercicios. Madrid:
Paraninfo.
Seoane, J., Rechea, C., Diges, M., Martínez, M.R., y Maciá, M.A. (1979). Psicología
Matemática I. Madrid: UNED.
Tejedor, F.J. (1984). Análisis de varianza aplicado a la investigación en pedagogía y
psicología. Madrid: Anaya.
Winer, B.J. (1971). Statistical principles in experimental design. Nueva York: McGraw-
Hill.
206