Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Para aprender a introducir los datos, crearemos un pequeño fichero con los datos obtenidos a
partir de las respuestas a una encuesta en la que al menos hay 4 preguntas. Edad, Sexo,
Estudios y Salario. Tu puedes poner más.
Introduciremos al menos 5 variables, la primera nos servirá de control y será ncuest (número
de cuestionario) y las siguientes serán las preguntas de la encuesta: Edad, Sexo, Estudios y
Salario.etc.
Primero definiremos estas variables y después introduciremos las respuestas de unas cuantas
encuestas ficticias o reales.
Haciendo doble clic en el icono del SPSS entraremos en el programa y si nos ofrece varias
opciones elegiremos la opción INTRODUCIR DATOS y luego aceptar. También es posible que
directamente aparezcan las filas y columnas de una especie de hoja de cálculo donde
introduciremos los datos. En la parte inferior hay dos pestañas: vista de variables y vista de
datos. Elegiremos vista de variables y nos situaremos en el rectángulo de la primera fila que
está bajo “NOMBRE” e introduciremos en él el nombre de la primera variable ncuest .
Luego siguiendo en la misma fila, bajo TIPO elegiremos el tipo de esta variable. Para ver los
tipos posibles se pulsa en el cuadradito con puntos suspensivos. Para esta variable podemos
elegir numérica con anchura 3 y con ningún decimal y pulsamos el botón aceptar. Debajo de
etiqueta pondremos “Número de cuestionario”, las otra casillas se pueden quedar en blanco.
En la fila segunda bajo NOMBRE pondremos el nombre de la segunda variable Edad , tipo
numérico, anchura 3, decimales ninguno, en valores dejamos ninguno y en perdidos
pondremos 999 (para los que no contesten a esta pregunta), en medida pondremos escala
1
En el MENU superior a la derecha pulsamos en Archivo, se despliega un menú y pulsamos en
GUARDAR COMO. Lo guardaremos en el disquete A, con el nombre que queramos, se sugiere,
trabajo1.
Para empezar a ver resultados: elegir Analizar (menú superior) elegir Estadísticos descriptivos,
frecuencias. Señalar las variables que nos interesa estudiar y pasarlas al rectángulo de la
derecha.
Trabajo con un fichero de datos ya creado.
Copiar en el disquete A:, el fichero de datos (ejemplo1) que está en la carpeta Benita (dentro de
la carpeta prácticas).
Entrar en SPSS de la forma habitual y estando en el editor de datos, elegir en el menú superior
: ARCHIVO -> ABRIR -> DATOS
Y abrir el fichero de datos que acabamos de copiar en nuestro disquete, A:ejemplo1
Pulsando en la pestaña inferior VISTA DE VARIABLES podemos ver las 18 variables que están
definidas en este fichero de datos y si pulsamos en la pestaña VISTA DE DATOS veremos las
filas y columnas que contienen los datos.
2
Los resultados de 18 estudiantes en un test sobre hábitos de estudio han sido los siguientes:
154, 109, 138, 115, 154 , 140, 154, 178, 101, 103, 126, 127, 137, 165, 165, 129, 200, 148.
calcula la media, la moda, la mediana. Haz el gráfico de cajas.
Regresión lineal
Hacer las siguientes ejercicios, primero "a mano" y luego usando el SPSS.
El número de horas de estudio de una asignatura y la calificación obtenida en el examen
correspondiente fue para siete personas, la siguiente:
Horas 5 8 10 12 15 17 18
Calificación 3 6 5 6 9 7 9
Dibuja la nube de puntos y traza, aproximadamente, la recta de regresión asociada.
La tabla siguiente muestra para los años que se indican, la natalidad por cada 1000
habitantes de una ciudad española.
Años 1986 1987 1988 1989 1990 1991
Natalidad 21 21 20 18 16 15
Los años se pueden poner como 1,2,3,4,5,6(para hacerlo a mano simplifica cálculos)
Calcula: el coeficiente de correlación y la ecuación de la recta de regresión
Dibuja la nube de puntos
En la siguiente tabla aparece la evolución del récord del mundo de salto de longitud
masculina, en metros
Años 1901 1921 1925 1931 1935 1961 1962 1968 1991
Marca 7,61 7,69 7,89 8,13 8,28 8,31 8,35 8,90 8,95
Los años para hacerlo a mano se pueden poner: 1, 21,25,31,61,62,68 y 91
a) representa la nube de puntos asociada a estos datos
b) Calcula: el coeficiente de correlación y la ecuación de la recta de regresión
3
Llevaremos la variable HORAS al eje X (variable independiente), y la variable
CALIFICA al eje Y(variable dependiente), pulsando ACEPTAR se obtendrá la nube de
puntos.
Si se quiere cambiar la escala de los ejes X –Y, se llevará el cursor sobre el gráfico y se
pulsará el botón derecho del ratón. Se nos abrirá un pequeño menú del que eligiremos la
opción Objeto gráfico del SPSS -> abrir. EN el menú superior abrir Diseño -> ejes.
Para cambiar la escala del eje X, señalar escala eje X y aceptar. Cambiar a los valores que
deseemos y hacer lo mismo con el eje Y.
Para estudiar simultáneamente dos variables así como la relación entre las mismas es adecuado usar
las tablas de contingencia.
Una cuestión importante es llegar a conocer si las dos variables estudiadas son o no estadísticamente
independientes entre sí o si por el contrario existe entre ellas alguna asociación. (Hipótesis nula: las
variables son independientes).
Trabajaremos con el fichero ejemplo1, que ya debe estar en nuestro disquete. Elegiremos :
Habrá que elegir una variable para las filas de la tabla y otra para las columnas. Es conveniente que
sean variables ordinales o nominales.
Los tres botones de la parte inferior:
ESTADÍSTICOS: permite elegir los estadísticos a calcular.(La explicación de cada estadístico se obtiene
llevando el cursor sobre el nombre de estadístico y pulsando sobre el botón derecho del ratón)
CASILLAS: permite indicar el contenido de cada celda.
FORMATO: permite elegir el orden de las filas (ascendente o descendente)
estadístico se basa en la comparación entre las frecuencias observadas (las que se obtienen del
4
recuento de los datos del estudio) y las frecuencias esperadas (las que se deberían obtener si las
variables no estuvieran asociadas). La salida que se obtiene al pedir una chi cuadrado muestra el valor
del estadístico, los grados de libertad de la tabla (gl) , el nivel de significación (Sig. Asintótica) que
equivale a la probabilidad de equivocarnos al rechazar la hipótesis nula que afirma que las variables son
independientes.
Conviene que antes de realizar el test fijemos el nivel de confianza que estimamos necesario para que
los resultados sean aceptables, por ejemplo:O,05 ó 0,01. Estos valores no se introducen en el SPSS,
sirven para comparar con la significación que calcula el SPSS a partir de nuestros datos. Si el nivel
prefijado es 0,05 y la significación que obtiene el SPSS es menor que 0,05 habrá que rechazar la
Hipótesis nula (la que afirma que las variables son independientes)
Significación < 0,05 rechazamos H0 y concluiremos que las variables son dependientes entre sí
Significación > 0,05 aceptamos H0 y concluiremos que las variables son independientes entre sí
Con χ podemos conocer si dos variables están asociadas estadísticamente o no. Pero si el resultado
2
Para variables medidas en escala nominal:PHI es el coeficiente adecuado para tablas 2x2. V de
Cramer Es adecuado para tablas de dimensiones mayores, el coeficiente de contingencia: tiene la
pega de que no llega a valer 1
Los coeficientes anteriores son medidas simétricas de la fuerza de la asociación y se interpretan
como el coeficiente de correlación de Pearson R
La R de Pearson se usa para variables continuas (de intervalo) toma valores en el intervalo [-1,1]
Además R2 mide la capacidad de la variable independiente para predecir la dependiente (cociente entre
la varianza explicada y la varianza total)
La RHO de Sperman solo debe aplicarse cuando las dos variables a comparar son ordinales y pueden
tomar muchos valores diferentes, mientras que las Tau-b, Tau-c y Gamma son mas adecuadas para
variables con pocas categorías. Estas variables son dependientes del tamaño de la tabla, por lo que no
sirven para comparar tablas de distintas dimensiones.
La d de Sommer es una medida de asociación asimétrica que indica la proporción en que se reduce el
error al pronosticar una variable en función de la otra.
Hay pues dos tipos de medidas de asociación : las simétricas y las asimétricas. Las simétricas se
interpretan como índices del grado de asociación entre dos variables, pero sin supeditar la una a la otra,
mientras que las asimétricas dan una medida del grado en que se reduce el error cuando se predice una
variable a partir de la otra. En este caso el/a investigador/a definirá previamente cual es la variable
independiente (predictora) y cual es la variable dependiente (criterio)
RECODIFICACIÓN DE VARIABLES
Toda variable de intervalo se puede recodificar para ser transformada en variable ordinal.
Para trabajar con tablas de contingencia, a veces es interesante que los valores de las variables se
agrupen en pocas categorías. Para que un test de χ sea válido no debería haber celdas vacías y no
2
más del 20% de las celdas deben tener una frecuencia menor o inferior a 5. Este problema se puede
resolver disminuyendo el número de categorías en los resultados de las variables o aumentando el
tamaño de la muestra.
Vamos a ver cómo se recodifica una variable.
Veamos el caso concreto de la variable PAGA. Ya hemos podido comprobar que las pagas de las
personas de nuestra encuesta varían entre 6 y 30. Vamos a definir una nueva variable PAGA2 en la que
5
los resultados solamente sean 1, 2 o 3 (poco, regular y mucho). Haremos que los que tiene una paga
entre 6 y 14 en PAGA2 tengan un 1 y le pondremos una etiqueta de “poco”, los que tengan una paga
entre 15 y 23 en PAGA2 tengan asignado un 2 y le pondremos una etiqueta de “regular” y los que tiene
una PAGA 24 a 30, en PAGA2, les asignaremos un 3 y una etiqueta de “mucho”.
Los pasos a realizar son:
Con el fichero de datos cargado elegiremos en el menú superior la opción
Número de hermanos: podemos hacer 3 grupos : pocos para 1 y 2, regular para 3 y 4, y muchos para
5,6 o 6.
En edad también 3 grupos el primero de 12 a 14, el segundo de 15 a 17 y el tercero de 18 a 20
Rendimiento escolar: recodificar a suspenso, aprobado, notable y sobresaliente.
Verbal hacer otra 3 categorías (18-26)(27-35)(36-45)
Libros ( de 2 a 6, de 7 a 12 y de 13 a 24)
Buscar los valores máximos y mínimos de CINE , TEATRO , CONCIERT Y tv y recodificarlas a 2 o tres
categorías. Dejar NIVSOC en solo 3 categorías: bajo, medio y alto.
Después de las recodificaciones anteriores buscar entre todas las variables disponibles parejas de
variables que resulten ser independientes, o dependientes entre sí y anotar cuales son. En las
dependientes estudiar adecuadamente la fuerza de la asociación .
Comparación de Medias
Este análisis tiene como objetivo comparar si la media es significativamente diferente en diversas
variables o en distintos subgrupos de la misma variable .
Para realizar estos análisis se elige: Analizar -> comparar medias y las posibles opciones son: Medias,
Pruebas T para una muestra, Pruebas T para muestras independientes, pruebas T para muestras
relacionadas y Anova de un factor.
La primera opción (Medias) nos permite una variable dependiente (por ejemplo paga semanal) y una
variable dependiente que haga subgrupos en la población total, por ejemplo Nivel socioeconómico. Y da
la media y la desviación típica de las variables elegidas, en los subgrupos creados por el Nivel
socioeconómico y en la población completa. Así pues el procedimiento Medias calcula medias de
6
subgrupo y estadísticos univariados relacionados para variables dependientes dentro de las categorías
de una o más variables independientes.
La segunda , El procedimiento Prueba T para una muestra contrasta si la media de una sola variable
difiere de una constante especificada por el investigador. Recordar que la decisión de aceptar la
Hipótesis nula (No hay diferencias significativas) se toma en función del número que aparece en la
casilla que da la significación. Si el número de esa casilla es menor que el nivel mínimo aceptable
prefijado (por ejemplo: 0,05 o 0,01)se rechaza la H0 y en caso contrario de acepta. También nos da
este procedimiento un intervalo de confianza para la diferencia entre la media y el valor elegido por
nosotros.
El procedimiento Prueba T para muestras independientes compara las medias de dos grupos de
casos. Para esta prueba, idealmente los sujetos deben asignarse aleatoriamente a dos grupos, de forma
que cualquier diferencia en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros
factores. Este caso no ocurre si se comparan los ingresos medios para hombres y mujeres. El sexo de
una persona no se asigna aleatoriamente. En estas situaciones, debe asegurarse de que las diferencias
en otros factores no enmascaren o resalten una diferencia significativa entre las medias. Las diferencias
de ingresos medios pueden estar sometidas a la influencia de factores como los estudios y no solamente
el sexo. Lo que decide si hay que considerar igual varianza lo da el número que aparece bajo Sig
(detrás de F). Lo que decide si los subgrupos tienen media significativamente distinta es el número que
aparece bajo Sig. Bilateral. La interpretación de estos números es la ya explicada previamente.
El procedimiento Prueba T para muestras relacionadas compara las medias de dos variables de un
solo grupo. Calcula las diferencias entre los valores de las dos variables de cada caso y contrasta si la
media difiere de 0. Es lógico elegir variables cuya media sea similar, en caso contrario carece de sentido
realizar esta prueba.
El procedimiento ANOVA de un factor genera un análisis de varianza de un factor para una variable
dependiente cuantitativa respecto a una única variable de factor (la variable independiente). El análisis
de varianza se utiliza para contrastar la hipótesis de que varias medias son iguales. Esta técnica es una
extensión de la prueba t para dos muestras, la diferencia es que ahora los grupos pueden ser mas de
dos. Pero la variable que hace los grupos (el factor) debe estar definida al menos como ordinal.
Frecuentemente los ficheros que se emplean para investigaciones sociológicas tienen su origen
en encuestas con muchas preguntas, de las que se obtienen muchas variables (no todas
interesantes para una investigación concreta). También a veces la muestra es muy grande.
Vamos a ver como reducir el número de variables y de casos con objeto de que aligerar los
cálculos al SPSS.
Dado el tamaño de este fichero ( aproximadamente 100 variables y 2500 casos) y teniendo en
cuenta que estamos trabajando en red, no hay que ponerse nervioso si alguna vez el ordenador
se queda "colgado".
Para obtener información de las variables que contiene el fichero en UTILIDADES (menú
superior) elegir variables o Información de archivo.
7
Definir conjuntos: permite seleccionar las variables que se van a usar en el estudio
En primer lugar hay que dar nombre al conjunto y después llevar del rectángulo de la izquierda
al de la derecha que está bajo el título Variables del conjunto, las variables que nos interesen.
Pulsar añadir conjunto y cerrar.
La opción usar conjunto nos permite usar los conjuntos definidos previamente. Para ello hay
que llevar el conjunto de interés al rectángulo conjuntos en uso. Si dejamos en el rectángulo
conjuntos en uso Allvariables, se usarán todas las variables y no será efectiva la selección
efectuada en los conjuntos definidos previamente.
Llevar las variables de las que queremos conocer el intervalo de confianza al rectángulo
"Dependientes" (por ejemplo "simpatía norte- africanos")
En estadísticos señalar descriptivos y el nivel de confianza se puede dejar al 95% o cambiarlo.
Si se desea tener un intervalo de confianza para los hombres y otro para las mujeres habrá que
llevar la variable sexo al rectángulo "Factores"
De las variables anteriores a la vista de los resultados que obtendremos es necesario eliminar
una de ellas.
8
Extraer autovalores mayores que 1
Mostrar solución factorial sin rotar y gráfico de sedimentación.