Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Prólogo
SPSS (Statistical Product and Service Solutions) para Windows es un programa de ordenador que se utiliza
para realizar una gran variedad de análisis estadísticos, desde los más sencillos a los más extensos, SPSS
ofrece un sistema eficiente y fácil de usar para organizar y analizar datos, es por tal motivo uno de los
programas estadísticos más utilizados tanto en el mundo académico como en el de los negocios en todo el
mundo.
La versión del programa SPSS que se describe es la que se usa en ordenadores en el entorno Windows. El
manual se ha realizado en base a la versión 12.0 del programa SPSS para Windows, el cual puede ser
instalado en las versiones Windows 95, Windows 98, Windows 2000, Windows NT y Windows XP, para la
versión de Windows Vista deberás contar con la versión más reciente de SPSS que durante la realización de
este manual la última versión es la 15.0.
El propósito del manual y del curso es doble: enseñar el manejo del SPSS para Windows y exponer los
conceptos estadísticos necesarios para entender los resultados que produce el programa, el nivel del curso es
básico-intermedio. Con respecto al programa el enfoque del curso es simplificar su uso explicando los
elementos más importantes y esenciales tanto en relación con los cuadros de diálogo como con las
sentencias; y con respecto a la estadística es, también, explicar de la manera más sencilla los principales
conceptos estadísticos.
Por otro lado se supondrá que el alumno tiene los conocimientos necesarios para trabajar en el entorno
Windows, es decir, deberá saber trabajar con archivos y carpetas, y trabajar con los diferentes dispositivos
de almacenamiento, por lo que en este manual se omitirá explicar la manera en que se guardaran los
diferentes elementos de los que SPSS hace uso.
1 INTRODUCCIÓN A SPSS
SPSS organiza sus datos y resultados en varias ventanas de trabajo o de lectura, de las cuales las dos
principales que encontramos cuando accedemos al programa son: la ventana de editor de datos y la venta de
visor de resultados, y cada una de ellas se identifica en la barra de título con un botón.
La ventana del editor de datos es la principal de SPSS, pues será en donde se introducirán los datos que
queramos estudiar, esta ventana al ser guardada automáticamente se le asignara la extensión (*.sav) donde
el asterisco determina el nombre que el usuario decida agregar. El visor de resultados se generara
automáticamente cuando se decida realizar algún análisis con los datos existentes en la ventana de editor de
datos, esta nueva ventana al ser guardada automáticamente se le asignara la extensión (*.spo).
SPSS hace uso de otras cuatro ventanas, el editor de sintaxis, el editor de gráficas, el visor borrador y el
editor de autoprocesos, de las cuales no profundizaremos. Con SPSS puedes trabajar de dos maneras, con
cuadros de diálogo o con comandos. Los comandos son una alternativa a los cuadros de diálogo. El editor de
sintaxis se emplea para procesar los comandos. El editor de gráficas le sirve para cambiar el aspecto de las
gráficas. El visor borrador es una manera alternativa de ver los resultados. El editor de autoprocesos le
permite automatizar los resultados del visor SPSS.
SPSS para Windows y como todas las ventanas de cualquier programa que trabajan bajo el entorno Windows
tienen, aunque con diferentes herramientas el mismo tipo de barras de trabajo y por ende el mismo nombre:
barra de título, que es la que nos servirá para identificar el nombre que nosotros le asignemos a esa ventana
y contendrá algunos botones de control (minimizar, restaurar, maximizar y cerrar); barra de menús, que es
en donde encontraremos una serie de botones de menú de los cuales se encontrarán todas las herramientas
de las que SPSS hace uso (archivo, edición, ver, datos, etc.); barra de herramientas, que es en donde
encontraremos algunas herramientas de las que SPSS hace uso frecuentemente; barra de pestañas, en la
cual están contenidas dos pestañas, visor de datos y el visor de variables y; la barra de estado, la cual
principalmente nos dará información de cuando un análisis este en proceso y en su caso informara del
termino de este.
…continua
1
2
3
1
4 5
1: Barra de título.
2: Barra de menús.
3: Barra de herramientas.
4: Barra de fichas.
5: Barra de estado.
Al iniciar una sesión con el SPSS nos encontramos con una ventana de aspecto similar al de una hoja de
cálculo (ver figura): el Editor de datos. El Editor de datos es la ventana principal del SPSS, pero no la única.
En los próximos capítulos iremos explicando con detalle algunas de las diferentes ventanas de SPSS, pero
antes, en este capítulo, debemos hacernos una idea general del conjunto de las mismas. Conocer las
distintas ventanas del SPSS es, probablemente, la mejor manera de aproximarnos por primera vez al
programa y obtener una idea global sobre la estructura del mismo.
1 Tipos de ventana
Existen ocho tipos de ventanas SPSS, aunque no todas ellas poseen la misma importancia desde el punto de
vista de su utilidad para el usuario. Las dos ventanas principales (imprescindibles para trabajar con el SPSS)
son:
El Editor de datos. Contiene el archivo de datos sobre el que se basa la mayor parte de las
acciones que es posible llevar a cabo con el SPSS. El Editor de datos se abre automáticamente
(vació, sin datos; ver figura) cuando se entra en el SPSS. La ventana del Editor de datos puede
mostrar dos contenidos diferentes: los datos propiamente dichos y las variables del archivo …
c o n t i n u a acompañadas del conjunto de características que las definen. Es posible abrir más de un
Editor de datos y, por lo tanto, trabajar con varios archivos de datos simultáneamente; no obstante,
los datos que interese analizar juntos deberán estar en el mismo archivo.
Los resultados del Visor adoptan tres formatos distintos: tablas, gráficos y texto. El SPSS dispone de un
editor (y, por tanto, una ventana distinta) para cada uno de estos tres formatos básicos:
El Editor de tablas. Ofrece múltiples posibilidades de edición de los resultados presentados
en formato de tabla pivotante (un tipo particular de formato que estudiaremos mas
adelante).
El Editor de gráficos. Permite modificar los colores, los tipos de letra, las etiquetas, la
posición de los ejes y muchos otros detalles de los gráficos del Visor.
El Editor de texto. Permite modificar los diferentes atributos (tipo, tamaño, color, etc., de
las fuentes) de los resultados tipo texto: títulos, subtítulos, y notas.
Restablecer: Cuando se usa por segunda vez un cuadro de diálogo, éste conserva las definiciones de la
primera vez, si se pulsa este botón se eliminan esas definiciones.
Se puede elegir
cada una de ellas
Sólo se puede
elegir una de las
cuatro
posibilidades
1: En este apartado del cuadro de diálogo se encontraran el nombre de cada una de las variables con
las que cuenta tu plantilla, por lo tanto serán con las que podrás trabajar, notaras que del lado
izquierdo del nombre de la variable hay un símbolo, entonces la variable que contenga este símbolo
será aquella que hace uso de valores numéricos, por ende se trata de una variable numérica; la
variable que este precedida por este símbolo será aquella que hace uso de valores alfanuméricos,
por ende se trata de una variable alfanumérica.
2: En este apartado del cuadro de diálogo encontraremos un botón que dependiendo de la acción que
la variable y presionando el botón; cuando el botón se encuentre de esta manera querrá decir
que agregamos una variable al apartado 3, por ende podemos regresarla al apartado 1,
seleccionando la variable y presionando el botón.
3 En este apartado, se encontraran aquellas variables de las que con anterioridad agregamos con los
botones del apartado 2, entonces única y exclusivamente serán analizadas aquellas variables que
estén agregadas en este apartado.
2 LOS DATOS
Antes de iniciar una sesión de análisis de datos, éstos deben ser introducidos en el programa. Existen
muchas formas distintas de administrar datos al programa. Desde la introducción directa por el teclado, la
lectura de un archivo, la importación de datos de otras aplicaciones, el cortado y pegado desde otra tabla de
datos, hasta una potente herramienta de consultas a otras bases de datos (MSAccess, Excel, Dbase, etc) a
través del servidor ODBC de Windows. Antes de continuar profundizando en los entresijos del programa, se
presentan dos conceptos clave que aparecerán recurrentemente durante el resto del documento y conviene
detenerse en su clarificación: variables y casos.
Todo conjunto de datos puede ser visto como una matriz. Las filas se corresponden con los distintos sujetos
o unidades de investigación, sobre los que se han realizado las distintas observaciones. Éstas últimas se
corresponden con las columnas. Los sujetos (filas) suelen denominarse casos y las observaciones (columnas)
suelen denominarse variables. A modo de ejemplo, se emplea una investigación en la que se analiza la
relación entre ciertas variables demográficas, como el género, la edad, el estado civil, la ciudad de
procedencia, y otras variables como número de individuo encuestado e ingreso mensual.
1) Nombre de la variable.
2) Número de caso, que corresponderá a cada uno de los datos de las columnas variables.
Las variables cuantitativas no reciben valores arbitrarios porque son autoexplicativos, es decir si un caso
tiene 33 en la variable EDAD es que tiene 33 años. Las variables cuantitativas se dividen en:
2) Intervalo: Además de ser valores distintos y que se pueden ordenar existe una unidad común.
A continuación describiremos cada uno de los diferentes atributos que podemos agregar a cada una de las
variables con las cuales trabajaremos en SPSS.
1) Columna “Nombre”: En esta columna agregaremos el nombre de las variables, el nombre de una
variable puede tener hasta 64 letras como máximo, debe empezar por una letra, puede contener
cualquier letra o número y no debe contener ningún carácter especial como guión, la coma o el
signo de interrogación; si puede contener acentos, guión bajo, el punto, el signo de $ o el signo @.
No puede haber dos variables con el mismo nombre. Entonces, nombres válidos, por ejemplo, son:
VAR000001, VAR8, PESO, PRECIO_2, C@123, MONEDA$. Ahora, cuando se omite agregar nombre
2) Columna “Tipo”: Cuando es nombrada una variable, observaras que SPSS automáticamente la
define como una variable Numérica. Si deseas modificar el tipo de variable, pulsa sobre este botón
3) Columna “Anchura”: Esta columna determina el ancho de números con respecto a una variable
Numérica, y SPSS automáticamente a una variable Numérica le asigna un ancho de 8 dígitos.
Puedes modificar la anchura desde la propia Vista de variables desde este botón que aparecerá
5) Columna “Etiqueta”: Esta columna es una de las más importantes, pues en ella podrás escribir una
pequeña descripción de la variable que muchas de las veces el propio nombre de la variable no
describirá, esta descripción es empleada en el visor cuando se use esa variable.
6) Columna “Valores”: Cuando los datos de una variable no son autoexplicativos es necesario hacer
uso de la columna “Valores”, en la cual podremos definir los valores que tendrán hombres y
mujeres. Para definir los valores de la variable GENERO sitúese en la columna “Valores” y pulse en
el botón . Aparece el cuadro de diálogo Etiquetas de valor donde en la casilla Valor, deberas
teclear el número, y en la casilla Etiqueta de valor Teclear la etiqueta y después pulsar el botón
Añadir. Y así para cada uno de los valores que se quieran etiquetar. Finalmente pulsar el botón
aceptar.
7) Columna “Perdidos”: En algunas investigaciones no se obtienen todos los datos para cada caso. En
este caso se suele pedir un valor, que indica esa circunstancia, en las posiciones que ocuparían los
valores de la variable cuyos datos faltan. Es muy usual codificar de una manera las respuestas “no
sabe” o “no contesta”. Esto se maneja con la columna “Perdidos” de Vista de variables.
8) Columna “Columnas”: Nos servirá para controlar la anchura de la columna de esa variable en la
vista de datos. No confundas anchura de la columna y la anchura de la variable pues son cosas muy
diferentes.
9) Columna “Alineación”: En esta columna podremos determinar la alineación de los datos que
nuestro visor de datos contenga, pues los podremos alinear del lado derecho que es la forma
predeterminada, o si los queremos centrados o alineados a la izquierda, y bastara situarnos en la
10) Columna “Medida”: Esta columna servirá para determinar que tipo de valores es el que
contendrá esa variable, es decir si será escalar, ordinal o nominal (ver variables cualitativas y
cuantitativas), podrás elegir un tipo de valor situándote en la columna “Medida” y pulsar en el
botón .
4 INTRODUCCIÓN DE DATOS
Una vez definidos los atributos de cada una de las variables que contendrá tu plantilla se pasa a introducir
los datos. Entonces pulsa en la pestaña Vista de datos, y tomando como ejemplo la figura 4, donde se hace
uso de un archivo llamado Encuesta.sav define las variables ID, EDAD, INGRESO, EDO_CIVIL, GENERO y
CIUDAD, una vez echo esto teclea el número y pulsa la tecla Enter, el número aparecerá en la casilla y
resaltada la casilla inferior. Además del ratón, se pueden emplear las teclas de dirección y para
moverse por la cuadricula.
5 EDICIÓN DE DATOS
Veamos ahora las principales características del editor de datos (vista de datos). Aunque lo que sigue está
pensado para aplicarse en la vista de datos la mayoría de las funciones también son operativas en la vista de
variables. Muchas de las funciones que se nombraran en este capitulo se harán de la misma forma que en
una hoja de cálculo de Excel, entonces en estos casos solo veras del lado derecho la leyenda “como en
Excel”.
Para moverse emplear las flechas de movimiento. La tecla TAB cambia a la casilla contigua. Además,
para ir a la primera columna pulsar CTRL + . Para ir a la ultima columna CTRL. + . Para ir al
principio (primera columna, primera línea), pulsar CTRL. + INICIO. Para ir al final (última columna,
última línea) pulsar CTRL. + FIN.
Para ir a un caso concreto elegir del menú Datos Ir a caso o pulsar el icono .
Para corregir un dato completamente, igual que en Excel.
Para corregir un dato parcialmente, igual que en Excel.
Para seleccionar.
o Una celdilla, igual que en Excel.
o Un caso (fila), hacer clic sobre la casilla del número del caso.
o Una variable (columna), hacer clic sobre la casilla del nombre de la variable.
o Un rectángulo de datos (rango), igual que en Excel.
Para buscar un dato de alguna variable, hay que situarse en la columna de la variable y elegir
Edición Buscar, o teclear Ctrl + F, o bien emplear el icono.
A continuación se nombraran todas las funciones típicas de cualquier editor que en SPSS podrás hacer uso, y
que en este curso se dará por hecho que las puedes manejar sin ningún problema, por ende solo serán
mencionadas, y son:
Copiar una celda.
Mover una celda.
Copiar una celda a varias filas y/o columnas.
Copiar todos los datos de un caso a otro caso.
Copiar los datos de un caso a un caso nuevo.
Mover un caso a otro sitio.
Copiar una variable sobre otra.
Copiar una variable a otro sitio.
Mover una variable a otro sitio.
Copiar un rango de celdas.
Borrar.
Borrarlo todo.
Deshacer.
6 LEER DATOS
Comúnmente trabajaremos sobre archivos de datos que fueron guardados con anterioridad y para elegirlos
en SPSS como en cualquier otro tipo de programas que trabajan bajo el entorno Windows se harán de la
siguiente manera, elegir Archivo Abrir Datos, o usar el icono de abrir en la barra de herramientas. Al
realizar esto se abrirá un cuadro de diálogo con todos los archivos guardados, de donde deberás elegir el
archivo con el cual trabajaras, una vez seleccionado presiona el botón Abrir para visualizar los datos en
SPSS, recuerda que los archivos en SPSS son guardados con la extensión SAV, y podrías pensar que por tal
efecto sólo podrás trabajar en SPSS con archivos que contengan la extensión SAV, pero no es así, en SPSS
puedes utilizar archivos con diferentes tipos de extensión.
SPSS puede leer archivos editados por cualquier otro programa de uso estadístico o de base de datos, por
nombrar algunos son: Excel (uno de los más comunes), Access, Visual FoxPro, entre otros.
Al capturar los datos en el programa Word los datos de cada sujeto (caso) tienen que estar en una sola línea
(si el tamaño de la página no lo permite, se puede emplear un tamaño de página personalizada con páginas
más anchas o bien definir la posición de los tabuladores de forma que éstos estén más próximos entre sí).
Los datos de cada sujeto se introducen separándolos con tabulaciones, es decir, se inserta un dato, se pulsa
el tabulador, se inserta otro dato, se pulsa el tabulador, y así sucesivamente. Un dato perdido se inserta con
dos tabuladores. Para decimales hay que emplear el punto.
Una vez capturados todos los datos en Word y situados en este programa:
2) Copiar lo seleccionado Edición Copiar o combinación de teclas Ctrl. + C y se copiaran todos los
datos en el portapapeles.
3) Una vez copiados los datos deberás abrir el programa SPSS, o cambiarse a él si ya esta abierto.
Los datos en el Bloc de notas fueron capturados de la misma forma en la que fueron capturados los datos en
Word.
Al abrir datos con una extensión TXT o DAT desde SPSS aparecerán una serie de cuadros de diálogo en los
que deberás elegir ciertas opciones, en este caso solo describiré aquellos pasos que nos servirán para utilizar
el archivo Ejemplo.txt previamente creado y guardado:
2) En el cuadro de diálogo Abrir archivo selecciona el archivo Ejemplo, no será necesario que
determines el tipo de extensión, pues automáticamente SPSS sobre entiende eso, una vez
seleccionado pulsa sobre el botón Abrir.
4) En el cuadro de diálogo paso 2 de 6, de forma automática están seleccionados los comandos que
nos dicen que nuestros datos están delimitados por tabulaciones o una coma, en este caso nuestros
datos están delimitados por tabulaciones, deberemos seleccionar esa opción. En el segundo
apartado del mismo cuadro de diálogo nos preguntan si nuestro archivo contiene encabezados que
son los nombres de las variables, en este caso nuestros datos no contienen encabezados, entonces
seleccionamos la opción no, en caso contrario seleccionar si, una vez hecho esto presiona sobre el
botón Siguiente.
5) En el cuadro de diálogo paso 3 de 6, el primer apartado nos pregunta que a partir de que línea
inician los datos, en nuestro archivo Ejemplo inician desde la línea 1, deberemos elegir el número 1,
6) En el cuadro de diálogo paso 4 de 6 es solo para confirmar que cada uno de los datos esta
separado con tabulaciones, presiona en el botón Siguiente.
7) En el cuadro de diálogo paso 5 de 6, deberás agregar los nombres de cada una de las variables de
las que harás uso en tu archivo, como recordaras en el paso 2 de 6 le dijimos a nuestro cuadro de
diálogo que nuestros datos no contenían encabezados, por lo tanto en este cuadro de diálogo SPSS
nos permitirá nombrar las variables, para agregar un nombre deberás seleccionar cada una de las
variables y nombrarlas, una vez nombradas todas tus variables presiona el botón Siguiente.
8) En el cuadro de diálogo paso 6 de 6 ya solo deberás presionar el botón Finalizar, para visualizar los
datos en el Editor de datos de SPSS.
La preparación del archivo de datos incluye desde la simple detección y corrección de los posibles errores
cometidos al introducir datos, hasta sofisticadas transformaciones (necesarias a veces para llegar a obtener
las variables que realmente interesan), pasando por la remodificación de los códigos utilizados para los
valores de una o más variables, o la creación de nuevas variables a partir de otras ya existentes.
El menú Transformar de la barra de menús principal incluye una serie de opciones que permiten efectuar
diferentes tipos de transformaciones, desde las más simples a las más complejas.
1
Para ver todas sus posibilidades elija del menú ? → Temas, en la solapa
Búsqueda, escriba Compute, pulse Enter y haga doble clic sobre el tema Compute
Command Systax.
ALTURA: 1.50, 1.82, 1.70, 1.40, 1.20, 1.65, 1.00, 1.70, 1.50.
Creación condicional
Se muestra a continuación el cuadro central con indicación del significado de algunas de sus teclas. Si se
pulsa el botón derecho del ratón sobre un botón o sobre una función, ofrece información acerca de él.
AND
D OR
NOT
En el cuadro de diálogo Calcular variable, escribe la palabra índice en la casilla Variable de destino que será
el nombre de la nueva variable. En la casilla Expresión numérica se construye la operación que definirá la
nueva variable. Veamos como se realiza la definición de la variable empleando los elementos del cuadro de
diálogo. Para utilizar (elegir) un elemento hacer clic sobre él.
3) Elegir el signo ( ).
6) Elegir el número 2.
Se puede añadir una etiqueta a la variable creada con el botón Tipo y etiqueta.
80 kilos o más para la variable PESO, tenemos que hacer uso del botón de condición que es el que nos
facilitara la creación condicional de variables.
Elija el botón en el cuadro de diálogo que surge al elegir Transformar → Calcular. Crea nuevas
variables o da nuevos valores a variables existentes si una determinada expresión lógica es cierta. Si no se
cumple la condición, no se realizará ninguna operación y el caso tendrá un valor perdido si la variable es
nueva, o el valor original si la variable ya existía.
En este ejemplo se quiere hallar la variable índice que tiene la fórmula (peso/altura²) pero sólo para aquellos
casos que pesan más de 80 kilos. El proceso es:
6) Escribir en la casilla la expresión peso >= 80 directamente o ayudándose de los botones del cuadro
diálogo.
Si la variable índice es nueva, la expresión sólo se calculará para aquellos casos con peso de 80 a más kilos.
En los restantes casos tendrán valor perdido. Si la variable índice ya existía, se calculará la expresión para
los casos con 80 o más kilos; para el resto la variable índice tendrá el valor que tenia antes de hacer la
transformación.
La opción Recodificar del menú Transformar permite cambiar los valores de una variable. La recodificación
resulta especialmente útil para agrupar en un único valor diferentes valores de una variable, y para
transformar variables con formato de cadena en variables con formato numérico.
Existen dos posibilidades: En distintas variables recodifica la variable y crea una variable nueva con esta
remodificación; y la opción En las mismas variables recodifica la variable, es decir, los datos originales de
la variable se sustituyen por los nuevos2.
2
Al sustituir valores existentes de una variable por valores recodificados, estos
desaparecerán definitivamente de la base de datos, por lo cual no podrán ser
utilizados nuevamente en futuros análisis, a menos que se haga un respaldo del
archivo original.
CONTINENTE: 1, 2, 3, 4, 5.
Una vez definido el nuevo nombre se hace clic en el botón Valores antiguos y nuevos para acceder al cuadro
de diálogo de la figura siguiente.
2) Del cuadro de diálogo selecciona y transfiere la variable (recuerda el tema 1.2) que desees
recodificar.
4) Una vez escrito el nuevo nombre presiona el botón Agregar nuevo nombre.
5) Si lo deseas podrás determinar el sentido de la nueva recodificación, es decir podrás recodificar los
valores de la variable de forma ascendente o descendente.
En la figura siguiente veremos los valores de la variable VAR01 autorecodificados de forma ascendente y
descendente respectivamente en las nuevas variables NVAR01 y NNVAR01.
10 CATEGORIZADOR VISUAL
Esta herramienta nos permitirá recodificar una variable continua en valores cualitativos o categóricos 3 de
forma gráfica, es decir, podremos visualizar la distribución de los datos antes de realizar la recodificación y
que admite varias posibilidades más. Como ejemplo se va a recodificar la variable S3_Edad del archivo
Banco, y deberá quedar de la siguiente manera:
N_Edad 1 2 3 4
3
Los valores categóricos también serán denominados valores cualitativos (ver
tema 2.1.1)
Como veras en este cuadro de diálogo existe una tabla de dos columnas encabezadas con la palabra Valor y
Etiqueta. En la columna Valores deberás agregar los puntos de corte: 30, 40, 50 y SUPERIOR. Se escribe el
nombre de la nueva variable en Variable categorizada, si lo deseas en la columna Etiqueta puedes agregar
las etiquetas de los valores, finalmente pulsa el botón aceptar.
Una vez presionado el botón aceptar, visualizaras a la nueva variable recodificada por este método al final de
tu plantilla de datos llamada S3_Nedad.
Hay dos formas de asignar rangos a los valores de una variable, esta la podrás determinar en el cuadro de
diálogo Rango de casos y se encuentra en el apartado Rango Asignado 1 a... 1) valor más pequeño, es
decir el número 1 será asignado al valor más pequeño de la variable, el 2 para el siguiente, y así
sucesivamente; 2) valor más grande, es decir el número 1 será asignado al valor más grande de la variable,
el 2 al siguiente más grande, y así sucesivamente.
Pero, que pasa con los valores de una variable que se repiten. Por defecto SPSS asigna la media de los
rangos a cada uno de los casos. Si pulsas en el botón Empates podrás seleccionar otras posibilidades de
asignar rangos. Se puede asignar el rango menor a todos los valores iguales o el rango mayor. La última
posibilidad es que haya tantos rangos como valores distintos en la variable y esto se logra marcando al lado
de Rangos secuenciales para valores únicos.
4) Veras que existe la opción de agregar una etiqueta a la nueva variable, esto lo podrás hacer en la
casilla Etiqueta del destino.
SPSS determina dos tipos de valores perdidos, los primeros son determinados por el sistema que son
aquellos que en casos de variables se omitió la inserción de datos, en pocas palabras los valores perdidos
determinados por el sistema son celdas que no contienen valores y son determinados automáticamente; los
segundos son aquellos generados por el usuario atribuyendo de forma manual a casos de variables un valor
determinado. Para que SPSS determine cual o cuales son los valores que reconocerá como perdidos por el
usuario es necesario tratarlos con atributos (ver tema 2.1.2) a partir de la Vista de variables.
En la Vista de variables en la columna “Perdidos” pulsa sobre este botón . Aparecerá el cuadro de
diálogo Valores perdidos.
En este cuadro de diálogo por defecto solo se reconocerán valores perdidos por ausencia de datos en
celdas que serán los determinados por el sistema, pero como te habrás dado cuenta existen dos
alternativas más que serán las que le permitan al usuario determinar valores existentes en las
variables como valores perdidos.
2) Si seleccionamos Rango de valores perdidos podremos determinar todo un rango de valores sin
restricción y además opcionalmente podemos agregar un valor que no este contenido dentro del
rango definido.
Cuando llevamos acabo cualquier análisis de una o más variables que contengan valores perdidos, estos no
se incluyen en dichos análisis y solo se nos comunicara que existe un número determinado de valores
perdidos.
En el capítulo anterior al realizar una transformación en una variable, esa transformación la podíamos
visualizar en el Editor de datos sobre la misma variable o en una variable nueva, esto no sucederá en la
mayoría de los temas de este capítulo; por ejemplo, en el momento en el que hagamos uso de la
herramienta “Separación de casos” no veremos ninguna diferencia en el Editor de datos, ni tampoco
visualizaremos una variable nueva, en este caso la utilidad de esta herramienta solo la visualizaremos
generalmente en el momento en el que realicemos un análisis estadístico, pues veremos que ese análisis se
realizo de forma grupal y será visualizado en la ventana de resultados.
Para esta demostración haremos uso del archivo Banco.sav. Por ejemplo, si deseamos hallar la frecuencia de
la variable S7_Cd (ciudades) separada por hombres y mujeres deberás elegir Datos Segmentar archivo,
o también puedes hacer clic sobre el siguiente icono . En el cuadro de diálogo marca el botón de
selección al lado de “Comparar los grupos”, selecciona la variable a separar y transfiérela en este caso la
variable será S6_Gen, y finalmente presiona el botón Aceptar. En apariencia no podremos determinar si a
sucedido algo, pero si observas en la última casilla de la barra de estado podrás darte cuenta que hay algo
nuevo, una palabra que nos dirá de que manera se encuentra nuestro archivo, y veremos la palabra
“Segmentado”. Después elige Analizar Estadísticos descriptivos Frecuencias, selecciona la
variable S7_Cd y transfiérela y presiona el botón Aceptar. En el visor de resultados visualizaras la frecuencia
de cada una de las ciudades pero separadas por hombres y mujeres.
grupos”, ambas agruparan la variable seleccionada, y también se realizará el análisis por separado para
hombres y mujeres, la diferencia radica en el visor de resultados, pues mientras que seleccionemos
“Comparar los grupos”, los resultados del análisis lo visualizaremos en una sola tabla, si seleccionamos
“Organizar los resultados por grupos”, los resultados se presentaran de una forma menos integrada en el
visor de resultados, es decir los resultados los visualizaremos en tablas separadas.
En el momento en el que se decida separar un archivo cada vez que deseemos realizar un análisis con
cualquiera de las demás variables , este se realizara por separado para hombres y mujeres. En caso de que
ya no deseemos que los análisis se realicen por separado deberemos deshacer la agrupación, y esto se logra
accediendo al cuadro de diálogo “Segmentar archivo” y marcar el botón de selección de la frase “Analizar
todos los casos, no crear los grupos”, y hacer clic sobre el botón Aceptar. Y veremos que la frase
“Segmentar” de la barra de estado desaparece.
Pues bueno, esta herramienta nos ayudara a determinar que parte de los sujetos de las variables serán
analizados, al contrario que en Excel, los datos filtrados en SPSS los seguiremos visualizando en el Editor de
datos, con la diferencia de que los datos que no serán usados en los análisis estarán con una diagonal en la
parte que nos muestra el numero de casos de cada una de las variables.
Para realizar el filtrado de una parte de los sujetos hay que elegir el botón de menú Datos Seleccionar
casos o también puedes hacer clic sobre el siguiente icono . En el siguiente cuadro de diálogo deberás
elegir la opción que satisfaga la manera en la que desees realizar tu análisis.
1) “Todos los casos”: Esta frase esta seleccionada por defecto, pues cada vez que nosotros
realizamos un análisis de cualquier índole lo hacemos con todos los datos sin restricción alguna, en
el momento que seleccionemos cualquier otra opción de este cuadro de diálogo, ya no estaremos
trabajando con todos los datos, por ende en el momento en el que no necesitemos más el filtrado y
deseemos seguir trabajando con todos los datos deberemos abrir de nueva cuenta el cuadro de
diálogo “Seleccionar casos” y activar el botón de selección de la frase “Todos los casos”.
2) “Si se satisface la condición”: Para activar esta forma de filtrado deberás pulsar sobre el botón
“Si...”. Y accederás aun nuevo cuadro de diálogo, en el cual tendrás las herramientas para decidir
que datos serán filtrados dependiendo de si cumplen o no una condición que tu estarás
determinando.
3) “Muestra aleatoria de casos”: En esta forma de filtrar, como su nombre lo indica podremos
determinar de manera aleatoria un determinado porcentaje de datos para su análisis o seleccionar
una muestra de sujetos de los primeros n casos.
4) “Basándose en el rango del tiempo o de los casos”: Esta forma de filtrar casos, funciona por
rangos, por ejemplo podemos solo seleccionar del sujeto 20 al 54.
Para finalizar con el tema de filtrado debo darte algunas recomendaciones, en el momento en el que decidas
hacer uso de esta herramienta, deberás tomar tus precauciones, como te habrás dado cuenta cada vez que
activabas el cuadro de diálogo “Seleccionar casos” por defecto la frase “Filtrado” estaba seleccionada, que
quiere decir esto , bueno, cada vez que realizas un filtrado con esta opción activada, tienes la oportunidad de
deshacer ese filtrado y trabajar de nuevo con todos los datos originales de tu archivo, si por algún motivo
seleccionas la frase “Eliminados” y realizas un filtrado, los datos que serán ignorados para los análisis se
eliminaran definitivamente del archivo original, por lo que no tendrás la oportunidad de revertir el filtrado en
determinado momento en el que necesites trabajar con todos los datos del archivo, para evitar esto te
recomiendo guardar el archivo filtrado con un nombre diferente.
Caras 1 2 3 4 5 6
# de veces 2 3 5 3 2 5
Si deseas interpretar esta tabla, seguramente estarás pensando que la cara del dado con el valor 1 se repitió
2 veces, que la cara del dado con el valor 2 se repitió 3 veces y así hasta llegar a la cara del dado con el
numero 6 que se repitió 5 veces, lo que acabamos de realizar con esta interpretación fue haber ponderado la
variable “Caras” a partir de la variable “# de veces”, por lo tanto la variable que usamos para ponderar otra
variable fue la variable “# de veces”. Veamos como lo podemos hacer en SPSS.
Para realizar la ponderación en SPSS deberás elegir de la barra de menús Datos Ponderar casos, o
también puedes hacer clic sobre el siguiente icono . En el siguiente cuadro de diálogo deberás seleccionar
la opción “Ponderar casos por” y seleccionar la variable que ponderara a las demás, que en este caso la
variable será “Veces” y transferirla, finalmente presionar el botón Aceptar. Posteriormente puedes realizar
algún análisis, por ejemplo visualizar la frecuencia de la variable “Caras”, que será en este momento en el
que veras la utilidad de ponderar casos.
Al utilizar la herramienta de ponderación, esta permanecerá cada vez que realices algún tipo de análisis,
podrás revertir el uso de ponderación, si activas de nuevo el cuadro de diálogo Ponderar casos y
seleccionar la opción No ponderar casos y presionar el botón Aceptar.
5 ESTADÍSTICA. INTRODUCCIÓN
La Estadística puede dar respuesta a muchas de las necesidades que la sociedad actual nos plantea. Su tarea
fundamental es la reducción de datos, con el objetivo de representar la realidad y transformarla, predecir su
futuro o simplemente conocerla.
Hasta ahora solo hemos manipulado los datos, ya sea en transformaciones para obtener nuevos o sustituirlos
por otros y también hemos aprendido a reagrupar esos datos para futuros análisis. A partir de este capítulo
conoceremos herramientas que nos ayudarán a obtener resultados estadísticos para futuras interpretaciones.
Para ello se supondrá que el estudiante de SPSS ya comprende los conceptos básicos estadísticos, puesto
que es esencial para el mejor manejo de nuestro programa y la mejor comprensión de los temas
subsecuentes.
Empezaremos diciendo que la estadística tiene como finalidad estudiar detalladamente las características de
un conjunto de datos, este conjunto de datos puede ser toda una población o una parte de esta a la que
comúnmente se le llama muestra poblacional. Este estudio se realiza a través de las variables (cuantitativas
o cualitativas), que son cantidades que pueden tomar distintos valores de un momento a otro o de un objeto
a otro, y son propiedades de los casos que pueden tomar distintos valores, por ejemplo si tuviésemos una
población determinada y el objeto de estudio es el género, entonces el género es una variable porque puede
tomar distintos valores: hombre o mujer.
Ahora bien, pasando al uso de nuestro programa SPSS, este nos ayudara precisamente a estudiar las
características de nuestros diferentes datos, como pueden ser la frecuencia, la tendencia, la dispersión y la
distribución de los datos.
A lo largo de los próximos temas, aprenderemos a utilizar las herramientas que nos ayudaran a generar la
estadística más básica hasta la que no lo es tanto. Aprenderemos a generar desde una simple tabla de
frecuencias hasta el poder generar relaciones complejas entre más de una variable. Y no solo obtendremos
resultados, si no que en los ejemplos que se vean en este manual se intentara dar una interpretación para el
buen entendimiento de los resultados.
También aconsejaremos al estudiante de SPSS a decidir que tipos de herramientas y estadísticos se podrán
usar para determinados tipos de datos, esto con la finalidad de obtener las mejores interpretaciones.
Empecemos pues, a introducirnos al mundo del análisis estadístico que nos ofrece el programa de SPSS.
6 ESTADÍSTICA DESCRIPTIVA
La estadística se divide en otras ramas, una de esas ramas es la estadística descriptiva que se dedica a
analizar y representar los datos de la forma más básica pero es fundamental en todo estudio.
La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población,
altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer
conclusiones sobre el comportamiento de estas variables.
La estadística descriptiva nos servirá para estudiar algunas de las característica de las variables, de las
cuales estudiaremos las siguientes:
1) La distribución de frecuencias.
Cuando se describe una variable se trata de reducir un conjunto de números a unos índices numéricos que
representen adecuadamente a ese conjunto de números. Los índices suponen una descripción reduccionista
porque reducen un conjunto de números a unos pocos, que nos ayudarán a medir las principales
características de las variables en estudio.
En SPSS la forma de activar la herramienta que nos permitirá estudiar la frecuencia es de la siguiente
manera, elige de la barra de menús Analizar Estadísticos descriptivos Frecuencias, y en el cuadro
de diálogo que aparece selecciona y transfiera la o las variables que desees analizar, después presiona el
botón Aceptar.
Como recordaras en el tema 2.1.1 hicimos alusión a diferentes tipos de variables, las nominales, ordinales y
de intervalo, entonces para cada uno de estos tipos de variables veremos que tipo de descripción podemos
realizar para cada una de estas variables, para su mejor comprensión y estudio.
Empezaremos por describir a la variable región, entonces elige Analizar Estadísticos descriptivos
frecuencias, y selecciona la variable región y transfiérela.
Si en este momento decides presionar el botón Aceptar del cuadro de diálogo Frecuencias se generara un
visor de resultados, en donde apreciaremos la frecuencia de cada uno de los valores que componen la
variable ciudad, pero no es lo único que necesitamos, aun hace falta el gráfico y el estadístico descriptivo,
para generarlos presiona el botón Gráficos del cuadro de diálogo y en el nuevo cuadro de diálogo selecciona
la opción Gráficos de barras, al activar este tipo de gráfico se activaran dos alternativas más y es respecto
al modo en el que desees visualizar los datos, si por frecuencias o porcentajes y haz clic en el botón
Continuar.
Una vez presionado el botón Aceptar del cuadro de diálogo Frecuencias, inmediatamente saldrá de la nada
una nueva ventana, a esta nueva ventana le llamaremos Visor de resultados, que como su nombre lo dice
es donde podremos visualizar todos aquellos análisis que realicemos con nuestros datos, en este caso
visualizaremos la tabla de frecuencias, el estadístico descriptivo y el gráfico que solicitamos.
CIUDAD
Cumulative
Frequency Percent Valid Percent Percent
Valid México D.F 24 82.8 82.8 82.8
Guadalajara 2 6.9 6.9 89.7
Monterrey 2 6.9 6.9 96.6
999 1 3.4 3.4 100.0
Total 29 100.0 100.0
Como podrás ver, la tabla que nos arroja los resultados de la frecuencia de los casos de la variable ciudad
esta dividida en 4 columnas, y a continuación veremos que significan cada una de estas columnas:
En la columna Frecuencia, vemos el número de casos que se repiten de un valor, y vemos que el
valor que más se repite es el que corresponde a México D. F. Y nos dice que de los 29 encuestados
24 son de esta ciudad, y así para cada uno de los valores.
La columna Porcentaje nos sirve para visualizar el porcentaje que corresponde a la repetición de un
valor del total, es decir, decimos que del 100% de los encuestados solo el 6.9% correspondían a la
ciudad de Monterrey.
Con respecto al gráfico que solicitamos a SPSS, que en este caso fue un gráfico de barras, como
seguramente ya lo sabes cada barra nos describe cada una de las frecuencias de los casos de una variable.
Si deseas cambiar el aspecto de la gráfica o añadir elementos, habrá que editarla. Para editar una gráfica da
doble clic continuo sobre ella.
Empezaremos por describir la variable estatus, entonces elige Analizar Estadísticos descriptivos
frecuencias, y selecciona la variable estatus y transfiérela, pero ahora en el cuadro de diálogo Frecuencias:
Estadísticos seleccionaras la Mediana, el Rango, el máximo y el Mínimo. Y en el cuadro de diálogo Gráficos
selecciona Gráfico de Pie (sectores).
Al presionar el botón Aceptar del cuadro de diálogo, en el visor de resultados en primer lugar encontramos la
tabla en la que se muestran los estadísticos solicitados. Después sigue la tabla con la distribución de
frecuencias. Y en último lugar la gráfica de pie.
N Valid 28
Missing 1
Median 1.0000
Range 2.00
Minimum 1.00
Maximum 3.00
Cumulative
Frequency Percent Valid Percent Percent
Valid Bajo 23 79.3 82.1 82.1
Medio 2 6.9 7.1 89.3
Alto 3 10.3 10.7 100.0
Total 28 96.6 100.0
Missing System 1 3.4
Total 29 100.0
A lto
Me d io
Ba
j o
Es
t atus
“SPSS”
Por defecto este tipo de gráfico se le asigna un color determinado por sector, pero tu como usuario puedes
reeditar los gráficos, dando doble clic continuo sobre el gráfico, y en el editor de gráficos podrás cambiar el
tipo de color, y puedes agregar leyendas en cada sector como en el ejemplo mostrado.
Ahora en el cuadro de diálogo principal presiona el botón Estadísticos, en donde en el cuadro deberpás
seleccionar los estadísticos necesarios; selecciona la media, la Desviación Típica o estándar, el rango, el
mínimo y máximo, la asimetría y la curtosis. Presiona el botón Continuar y depuse el botón aceptar.
En la siguiente tabla se muestran los estadísticos que solicitamos a SPSS calculara de la variable.
Estadísticos Edad
N Válidos 28
Perdidos 1
Media 47.89
Desv. típ. 8.094
Asimetría -.094
Error típ. de asimetría .441
Curtosis -.924
Error típ. de curtosis .858
Mínimo 32
Máximo 60
Histograma
10
8
F re c u e n c ia
Mean = 47.89
Std. Dev. = 8.094
0 N = 28
30 35 40 45 50 55 60
S3_Edad
El coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona
central de la distribución, en nuestro ejemplo la curtosis tiene un valor de –0.924, es decir que se presenta
un reducido grado de concentración alrededor de los valores centrales de la variable, en este caso se trata de
una distribución platicúrtica.
La manera en la que puedes hacer uso de la herramienta que te permite describir variables por grupo es
presionando de la barra de menús el botón Analizar Comparar medias Medias, en el cuadro de
diálogo principal selecciona y transfiere la variable edad (cuantitativa) al apartado “Dependientes”, después
deberás seleccionar y transferir la variable Edo_Civil (cualitativa) al apartado “Independientes” y
finalmente presiona el botón Aceptar.
Informe
Edad
Para poder hacer uso de los estadísticos que no están por defecto, selecciona y transfiere a “Estadísticos de
casilla” los estadísticos que desees hallar para cada grupo, también podrás obtener un análisis de varianza
de una vía y una prueba de linealidad para la primera variable de la ventana “ Independientes”. Una vez
seleccionados los estadísticos deseados presiona el botón Continuar y después el botón Aceptar.
Informe Edad
En esta nueva tabla podremos ver a mejor detalle los estadísticos por subgrupo, por ejemplo, podemos decir
que de los encuestados 16 son hombres que se encuentran casados o viven en unión libre con una edad
media de 49,69 años y una desviación típica de 8.130.
2) En el siguiente cuadro de diálogo activa la casilla “Otra función de resumen”, después selecciona
y transfiere la variable edad al apartado Variable, selecciona y transfiere la variable Edo_Civil al
apartado Eje de categorías, por último selecciona y transfiere la variable género al apartado
Definir grupos por y finalmente presiona el botón Aceptar.
Género
60
Masculino
Femenino
50
40
Media Edad
30
49.69 51
48.5
47
43.5
20
34
10
0
Casado o Unión libre Soltero Divorciado o
Separado
Edo_Civil
La gráfica muestra la media de las edades respecto a la variable genero agrupados por el estado civil, la
media se obtuvo por defecto, pero podemos seleccionar otro tipo de estadístico si así lo deseamos y esto lo
hacemos en el segundo cuadro de diálogo presionando el botón “Cambiar resumen” y podremos
seleccionar el estadístico deseado. El gráfico fue personalizado.
Los estadísticos que visualizaras en el visor de resultados por defecto son la media, desviación típica, mínimo
y máximo. Al presionar el botón “Opciones” podrás seleccionar algunos estadísticos más.
En el cuadro de diálogo “Descriptivos” tienes la opción de crear una nueva variable en el visor de datos que
te mostrara las puntuaciones típicas de cada una de los valores correspondientes a la variable en uso, solo
deberás seleccionar “Guardar valores tipificados como variables” y al presionar el botón Aceptar,
además de que tendrás los resultados estadísticos en el visor de resultados en la Vista de datos se creara
una nueva variable con los valores tipificados.
En el cuadro de diálogo principal tienes la oportunidad de decidir si deseas visualizar o el gráfico o solo los
estadísticos, o ambos a la vez si lo deseas, por defecto obtendrás los estadísticos y el gráfico de cajas, pero
si presionas el botón “Gráficos” puedes desactivar el grafico de caja o activar el grafico histograma y
visualizar ambos. Respecto a los estadísticos, pulsando el botón “Estadísticos” podrás agregar Los “Valores
atípicos” y los “Percentiles”. Pulsa el botón Continuar y por último el botón Aceptar.
Una vez presionado el botón Aceptar en el visor de resultados visualizaremos los estadísticos por subgrupos
y los gráficos de tallo y hojas y el gráfico de cajas también por grupos, en este caso la edad en función del
estado civil.
En el ejemplo, el primer tallo que es el intervalo 3 (que va de 30 a 39) hay dos sujetos (Frecuencia) y al
observar las hojas se ven los valores 7 y 9, es decir, que hay 2 sujetos en el intervalo uno con la edad 37 y
otro con la edad 39. En el intervalo 4 (que va de 40 a 49) hay 8 sujetos y las edades son: 40, 40, 43, 44,
47, 47, 48 y 49. Y así para cada tallo y hoja. También este gráfico nos mostrara la existencia de valores
extremos.
60
Caso extremo
14
55
Percentil 75
50
Mediana
Edad
45
Percentil 25
40
35
30
S6_Gen
60
Masculino
Femenino
55
50
Edad
45
40
35
30
Finalmente visualizaremos el gráfico dividido en dos grupos, uno para hombres y otro para mujeres en el
visor de resultados, y junto con el gráfico visualizaremos una tabla con el resumen del procesamiento de los
casos.
Por ejemplo, tomando una pequeña muestra de 10 individuos de nuestro archivo Banco.sav donde se les
pide contesten si o no a quienes tengan negocio propio (d1) y si o no quienes tienen cuenta bancaria en el
extranjero (d2) estas serán las preguntas dicotómicas, y solo abra una pregunta categórica pidiendo que de
10 bancos solo seleccionen a los 5 que tengan más confianza.
Género Estado d1 d2 b1 b2 b3 b4 b5
2) Las variables d1 y d2 son dicotómicas por lo que en el apartado Valor contado4. deberemos
escribir el 1
3) En el apartado Nombre deberemos escribir el nombre de la nueva variable que agrupara a las dos
variables d1 y d2.
4
En el apartado valor contado agregamos el número 1, porque es el va lor a l que
le corresponde la respuesta si, esto quiere decir que cuando realicemos cual quier
análisis, por ejemplo frecuencias solo serán contabilizadas las respue stas a las
que corresponda el si, si deseas contabilizar las respuestas a las que
corresponda el no, deberás crear una nueva variable con d1 y d2, pero con valor
contado 2 que corresponde a no.
2) Las variables b1, b2, b3, b4 y b5 son respuestas que corresponden a una sola pregunta y son
categóricas, por lo que deberás seleccionar la opción Categorías5 y escribir en la casilla Rango un
1 y en la casilla hasta un 10.
3) En el apartado Nombre deberemos escribir el nombre de la nueva variable que agrupara a las
variables b1, b2, b3, b4 y b5.
4) Presiona el botón Añadir, y la nueva variable preg_mul que agrupa a b1, b2, b3, b4 y b5 se
agregara al apartado Conjuntos de respuestas múltiples, junto con preg_di.
5
En el apartado Categorías determinamos un rango de 1 hasta 10, que
corresponde a las 10 posibles opciones de las cuales solo 5 podrán ser
seleccionadas.
En el cuadro de diálogo como notaras solo podremos visualizar aquellas variables que fueron definidas con
anterioridad, en este caso solo se encuentran las variables $preg_di que corresponde a las variables
dicotómicas y $preg_mul que corresponde a las variables múltiples. Puedes seleccionar una o ambas y
depuse transferirlas al apartado Tablas para y por último presiona el botón Aceptar.
Una vez presionado el botón Aceptar, visualizaremos los resultados de la distribución de frecuencias en
En la variable $pret_di hay 6 personas que responden sí a la primera opción y 2 personas que responden sí
a la segunda opción. Hay 8 respuestas afirmativas en total. La columna porcentaje de respuestas (Pct of
Responses) se calcula sobre el total de respuestas, es decir las 6 personas suponen el 75% (6/8*100) de las
respuestas. La columna porcentaje de casos (Pct of Cases) se calcula sobre el total de casos válidos (7), es
decir las 6 respuestas afirmativas a la primera opción son el 85.7% (6/7*100) con respecto a los sujetos
validos.
$Preg_mu $Preg_mul
Respecto al análisis de la variable múltiple $preg_mul, vemos que hay 5 personas que eligen la opción 2, 4
personas que eligieron la opción 3 y así para cada dato. Hay 50 elecciones en total. La columna porcentaje
de respuesta (Pct of Responses) se calcula sobre el total de elecciones, es decir las 5 personas suponen el
10% (5/50*100) de las respuestas. La columna porcentaje de casos (Pct of Cases) se calcula sobre el total
de casos válidos (10), es decir las 5 personas que eligen la opción 2 suponen el 50% (5/10*100) con
respecto a los casos válidos.
7) Presiona el botón Definir rangos, en Mínimo escribe el 1 y en máximo escribe el 2, estos valores
numéricos corresponden a hombre con el 1 y a mujer con el 2. Presiona el botón Continuar.
8) Selecciona y transfiere la variable $pret_di al apartado Filas. Si lo deseas puedes agregar una
variable más al apartado Capas, para poder visualizar la tabla en subgrupos.
9) Al presionar el botón Opciones podrás elegir de que manera deseas que se visualicen los
porcentajes si por fila, columna o por totales. Finalmente presiona el botón aceptar.
genero
Count Hombre Mujer
Row pct Row
Total
1 2
$preg_di
d1 5 1 6
¿Negocio propio? 83.3 16.7 85.7
d2 0 2 2
¿Banco en el extranj .0 100.0 28.6
Column 5 2 7
Total 71.4 28.6 100.0
7 ESTADÍSTICA INFERENCIAL
23 Introducción a la estadística inferencial
La estadística Inferencial, es el proceso por el cual se deducen (infieren) propiedades o características de una
población a partir de una muestra significativa. Uno de los aspectos principales de la inferencia es la
estimación de parámetros estadísticos. Por ejemplo, para averiguar la media, µ, de las edades de todos los
individuos de una encuesta, se extrae una muestra y se obtiene su media, µ1. La media de la muestra
(media muestral), µ1, es un estimador de la media poblacional, µ. Si el proceso de muestreo está bien
realizado (es decir, la muestra tiene el tamaño adecuado y ha sido seleccionada aleatoriamente), entonces el
valor de µ, desconocido o no, puede ser inferido a partir de µ1.
La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de confianza. Por
ejemplo, si en una muestra de n = 500 individuos se obtiene una edad media µ1 = 38 años, se puede llegar
a una conclusión del siguiente tipo: la edad media, µ, de todos los individuos de la encuesta está
comprendida entre 37 años y 39 años, y esta afirmación se realiza con un nivel de confianza de un 90%.
(Esto quiere decir que se acertará en el 90% de los estudios realizados en las mismas condiciones que éste y
en el 10% restante se cometerá error.)
Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de la muestra, o bien disminuir la
precisión de la estimación dando un tramo más amplio que el formado por el de extremos 37 y 39.
Recíprocamente, si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo,
entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor.
Finalmente, si se quiere mejorar tanto la precisión como el nivel de confianza, hay que tomar una muestra
suficientemente grande.
¿La innovación curricular introducida en una escuela produce significativamente mejores resultados de
aprendizaje con la metodología tradicional?
¿Cuál es la efectividad alcanzada por una compañía de prevención del SIDA en la ciudad de México?
Responder a estas interrogantes implica en cada una de ellas establecer y juzgar una diferencia.
Encontrar el valor crítico de t o región de rechazo de t (para ello se recurre a la tabla de valores críticos)
teniendo en cuenta el nivel de significancia, por ejemplo 5%, 10%. El valor crítico se confronta con el valor
calculado.
La hipótesis nula (Ho) que señala la igualdad de los dos grupos. Es decir la no existencia de diferencia
estadística significativa.
La hipótesis alternativa (Ha) que señala la existencia de una diferencia estadísticamente significativa al
comparar los grupos.
La teoría estadística, se establece que si el valor observado es mayor que el valor crítico, entonces se
rechaza la hipótesis nula y se acepta la hipótesis alternativa.
En los capítulos siguientes de este tema, además de que veremos la forma en la que SPSS realiza la
inferencia estadística, en el tema relacionado con Prueba T para una muestra realizaremos un pequeño
ejemplo digamos a mano para ver la forma en la que deberemos decidir en que momento aceptaremos o
rechazaremos la hipótesis nula.
25 Comparación de medias
En SPSS encontraremos la herramienta Comparar medias el cual contiene varios de los procedimientos
estadísticos diseñados para efectuar pruebas de hipótesis sobre medias: la prueba T y el análisis de varianza
de un factor.
En este capítulo veremos los cuatro procedimientos en SPSS: Prueba – T para una muestra, Prueba – T para
muestras independientes, Prueba – T para muestras relacionadas y análisis de varianza de una vía.
Muestra:
38 37 50 38 50 60 47 49 45 46 39 57 51 37
43 40 47 31 36 39 50 47 50 42 60 41 38 37
32 37
A modo de ejemplo, y para fines didácticos realizaremos los cálculos de manera convencional, es decir, a
mano. Lo primero que deberemos hacer, es determinar nuestra prueba de hipótesis, es decir determinar
nuestra hipótesis nula y nuestra hipótesis alternativa.
Lo que deseamos con este contraste es determinar si nuestra media muestral es significativamente igual a
nuestra muestra poblacional o que nuestra media muestral es significativamente diferente a la media
poblacional. La prueba quedará planteada de la siguiente forma:
Haciendo uso del estadístico T = (X - µo)/(S/n), que sigue una distribución t de student con (n–1) grados
de libertad. Y con la región crítica o región de rechazo queda entonces R = {| (X - µo)/(S/n) | > t(n-
1,/2)}.
Entonces el valor de la media de nuestra muestra es X = 43.80, la desviación estándar de nuestra muestra
es S = 7.636 y el tamaño de nuestra muestra es n = 30. Sustituyendo y resolviendo tenemos que T =
-0.3299.
Por otro lado deberemos determinar el valor en tablas de t(29,0.025) = 1.699. Por lo tanto la región de
rechazo queda como sigue: R = -1.699 < -0.3299 < 1.699. Por lo tanto se acepta la hipótesis nula.
Y aunque podamos pensar que ciertamente el verdadero valor de nuestra media poblacional no es 44.26, no
hay una evidencia suficiente para rechazar esta hipótesis al nivel de confianza del 95%.
1) Una vez determinada la muestra, elegir de la barra de menús Analizar Comparar medias
Prueba T para una muestra.
Al presionar el botón Aceptar se obtienen las dos siguientes tablas en el visor de resultados.
De estas dos tablas de la que podremos determinar si se acepta o se rechaza la hipótesis nula será la tabla
Prueba para una muestra. Vemos que el valor de t que nos ofrece la tabla es justamente el mismo que
nosotros calculamos mediante la fórmula del estadístico t, que es –0.330, comparándolo con la región de
rechazo vemos que se cumple lo anterior calculado, es decir R = -1.699 < -0.330 < 1.699. Por lo que No se
rechazara la hipótesis nula.
También podemos llegar a la misma conclusión con la probabilidad que nos presenta el apartado Bilateral,
es decir, que si el resultado es significativo (p <= 0.05), se dice que la muestra no representa a la población.
En nuestro caso como la t(29) = -0.330 tiene probabilidad <= 0.744 (es decir, mayor que 0.05), se concluye
que la muestra (de media 43.80) sí pertenece a la población de media 44.26.
La otra alternativa que SPSS nos brinda para la toma de decisiones es el intervalo de confianza. Si el
intervalo de confianza no incluye el valor cero, la muestra no pertenecerá a la población de media dada. Si el
intervalo de confianza incluye el valor cero, la muestra si será representativa de la población de media dada.
En el caso presente el intervalo de (-3.31 a 2.39) incluye el cero.
Entonces, de acuerdo a lo antes visto llegamos a la conclusión de que la hipótesis nula es aceptada, pues se
determina que la muestra tomada aleatoriamente es representativa de la poblacional.
En el siguiente ejemplo deseamos saber si de una población el grupo femenino y el grupo masculino pudieran
o no representarnos a dicha población para futuros análisis con respecto a la edad, es decir que podríamos
tomar la muestra correspondiente a mujeres o la muestra correspondiente a hombres y que cualquiera de
esas dos muestras sería representativa de toda nuestra población, donde la población incluye hombres y
mujeres, con una confiabilidad del 95%.
7) Del cuadro de diálogo selecciona y transfiere la variable edad al apartado Contrastar variables.
8) Ahora deberás seleccionar y transferir la variable que contiene los grupos, en este caso la variable
genero al apartado Variable de agrupación.
9) Presiona el botón Definir grupos, y en el apartado Grupo 1 escribe el 1, que corresponde a los
hombres, y en el apartado Grupo 2 escribe el 2, que corresponde a las mujeres. Después presiona
el botón continuar.
10) Si lo deseas puedes presionar el botón opciones, donde podrás modificar el porcentaje de
Al presionar el botón Aceptar, los resultados serán ofrecidos en dos tablas, en el visor de resultados, de las
cuales solo la segunda tabla será de nuestro interés.
Estadísticos de grupo
La prueba de muestras independientes tiene fórmulas distintas en función de que las varianzas de los grupos
sean o no iguales. Por lo que en primer lugar se ofrece el contraste de Fisher (F) sobre homogeneidad o
igualdad de varianzas. El resultado de este contraste es el que nos permite decidir si podemos o no suponer
que las varianzas poblacionales son iguales: si la probabilidad asociada al estadístico de Fisher es mayor que
0.05, podremos suponer que las varianzas poblacionales son iguales; si la probabilidad asociada al
estadístico de Fisher es menor que 0.05, rechazaremos la hipótesis de igualdad de varianzas y supondremos
que son distintas.
Empleando la prueba de Fisher F = 0.233 con p <= 0.630, como la probabilidad es mayor que 0.05 se
asume que las varianzas son iguales. Por lo tanto, la prueba t adecuada hay que mirarla en la columna Se
han asumido varianzas iguales. En el caso de que p <= 0.05 en la prueba de Fisher habría que mirar en
la columna No se han asumido varianzas iguales.
Vemos que el valor del estadístico t es de t = 2.678 con una probabilidad bilateral de 0.008. Lo cual
expresaremos de la siguiente forma: t(274) = 2.678 p <= 0.008. Se compara esta probabilidad con la usual
del 5% y si es menor quiere decir que existe diferencia significativa entre las medias. Aquí 0.008 < 0.05 y
por lo tanto existe diferencia entre las medias. Esto nos dice que la media de edad entre la muestra de
hombres y la muestra de mujeres es significativamente diferente, por ende no tendríamos la certeza de que
cualquiera de las dos muestras podría representarnos a la población total.
La prueba de hipótesis se plantea de la siguiente forma: deseamos comprobar que la media de dos muestras
son significativamente iguales o que son significativamente diferentes, es decir que µ1 = µ2 o µ1 µ2. Y la
prueba de hipótesis puede ser planteada de las siguientes dos formas:
m = n1 + n2 - 2
Hora disponemos de una población de diferencias con media μD, obtenida al restar las puntuaciones del
mismo grupo de casos en dos variables diferentes o en la misma variable medida en dos momentos
diferentes (de ahí que hablemos de muestras relacionadas). Desde el punto de vista estadístico, este
contraste es idéntico al presentado en el apartado Prueba T para una muestra. La única diferencia existente
entre ambos contrastes es que allí teníamos una muestra de puntuaciones obtenida al medir una sola
variable y ahora tenemos dos muestras relacionadas que convertimos en una sola muestra de diferencias
restando las puntuaciones de cada par.
En el siguiente ejemplo deseamos saber si dos métodos de enseñanza tienen el mismo grado de efectividad
en una misma población, es decir, que las medias de efectividad de cada uno de los métodos de enseñanza
tiendan o no a ser iguales con una confiabilidad del 90%.
Método1 32 23 34 29 41 43 43 41 27 30 26 29
Método2 51 45 53 52 59 68 56 59 50 52 50 55
6
Las muestras emparejadas son aquellas en las que las muestras están relacionadas. Por ejemplo, sexo, edad, coeficiente
intelectual, etc.
CEDETEC, ÁREA DE CURSOS
68
“SPSS”
2) Del cuadro de diálogo selecciona la variable método1 y automáticamente aparecerá en la parte
inferior, en la parte Selecciones actuales, como Variable 1. Realiza lo mismo con la variable
método2 y esta aparecerá como variable 2.
4) Para modificar el porcentaje de confianza deberás presionar el botón Opciones, después presiona el
botón Continuar y finalmente el botón aceptar.
Si hubiese otras variables con las cuales quisiéramos realizar el contraste de medias relacionadas,
deberemos realizar los pasos anteriores descritos.
Al presionar el botón Aceptar del cuadro de diálogo principal, el visor de resultados nos mostrara tres tablas.
En esta tabla visualizaremos algunos estadísticos básicos para los dos tipos de métodos, como la media,
desviación estándar y el error estándar de la media.
Como resultado de la comparación de las medias con respecto a dos métodos diferentes de enseñanza para
una población, haciendo uso del intervalo de confianza, llegamos a la conclusión de que existe una diferencia
significativa de las medias entre ambos métodos, por lo que se deberá elegir aquel método del cual su media
sea superior al otro método. Y llegamos a esta conclusión pues vemos que el cero no esta incluido en el
intervalo (-22.91442,-19.08558).
La región de rechazo es
Cuando en el análisis de varianza se halla una diferencia significativa entre las medias de varios grupos
quiere decir que hay diferencia entre al menos dos de las medias, pero no se indica entre que medias hay
diferencias. Para ello es necesario realizar un análisis posterior, el cual comprueba la diferencia entre los
pares de medias en el contexto de la muestra total.
Al igual que en los métodos anteriores de comparación de medias, en el análisis de varianza también
podemos plantear nuestra hipótesis, en donde lo que queremos corroborar o rechazar es si las medias de los
En el siguiente ejemplo deseamos comprobar si el uso de 5 telares diferentes fabrican telas con la misma
resistencia, con el análisis de varianza deseamos saber si existe algún telar que fabrique telas con menor
resistencia a la de los demás.
Telares Resistencia
1 51 49 50 49 51 50
2 56 60 56 56 57
3 48 50 53 44 45
4 47 48 49 44
5 43 43 46 47 45 46
Una vez capturados los datos en SPSS deberás elegir Analizar Comparar medias ANOVA de un
factor, en el cuadro de diálogo selecciona y transfiere la variable Resistencia al apartado Dependientes,
después selecciona y transfiere la variable Telares al apartado Factor. Finalmente presiona el botón Aceptar.
ANOVA
Resistencia
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 439.885 4 109.971 23.565 .000
Intra-grupos 98.000 21 4.667
Total 537.885 25
En la tabla de análisis de varianza (ANOVA) lo primero es observar el valor F que es el cociente de los valores
de la media cuadrática, tenemos que F(4, 21) = 23.565 y que p <= 0.000, vemos que esta probabilidad es
menor al nivel de significancia es decir 0.000 <= 0.05, llegamos a la conclusión de que hay diferencia
significativa entre las medias de los cinco telares, y por lo tanto se rechaza la hipótesis nula de igualdad de
medias entre los cinco grupos.
Para saber que media difiere de qué otra debemos utilizar un tipo particular de contrastes denominados
comparaciones múltiples post hoc o comparaciones a posteriori.
La manera en que podemos realizar un contraste Post hoc, es: del cuadro de diálogo principal ANOVA de un
factor, deberás presionar el botón Post hoc y seleccionar del apartado Asumiendo varianzas iguales la
prueba de Tukey, y del apartado No asumiendo varianzas iguales seleccionar la prueba de Games-
Howell, después presiona el botón Continuar y luego el botón Aceptar.
En las tabla Comparaciones múltiples visualizaremos todas las combinaciones posibles de las medias de
resistencia por pares de los telares, también visualizaremos las diferencias de las medias de cada dos grupos
y el nivel de significación. Esta tabla nos marca con un asterisco las parejas que son distintas.
25.4.2 Gráfico
El análisis de varianza también nos ofrece la posibilidad de visualizar un gráfico de líneas que nos representa
la media de cada uno de los grupos de estudio, en este caso pudiéramos visualizar la media de la resistencia
de cada uno de los telares.
Para poder activar la generación del gráfico, del cuadro de diálogo principal, deberás presionar el botón
opciones, del cuadro de diálogo Opciones seleccionar Gráfico de las medias, después presionar el botón
Continuar y finalmente el botón Aceptar.
57.5
55
Media de Resistencia
52.5
50
47.5
45
8 TABLAS DE CONTINGENCIA
En estadística las tablas de contingencia son tablas de doble entrada en las que cada entrada representa un
criterio de clasificación y se emplean para registrar y analizar la relación entre dos o más variables,
habitualmente de naturaleza cualitativa que son aquéllas que permiten clasificar o identificar la clase, nivel o
categoría de un individuo de una población, respecto de un carácter, característica o cualidad.
Las tablas de contingencia son utilizadas para hallar distribuciones de frecuencias para poder calcular desde
simples porcentajes hasta para obtener un complejo análisis de independencia haciendo uso de los diferentes
estadísticos que el programa nos ofrece.
TABLA DE CONTINGENCIA DE R X S
B1 B2 ...... Bs
Totales
A1 x11 x12 ...... x1s
n1+
A2 x21 x22 ...... x2s
n2+
..... ... ... ...... ...
Ar xr1 xr2 ...... xrs
nr+
26 El caso simple
Veamos primero un ejemplo sencillo en el que solo calcularemos porcentajes, tenemos que en un taller se
sabe que por término medio acuden: por la mañana 3 automóviles con problemas eléctricos, 8 con
problemas mecánicos y 3 con problemas de chapa, y por la tarde 2 con problemas eléctricos, 3 con
problemas mecánicos y 1 con problemas de chapa.
Para poder resolver los tres puntos anteriores, debemos elegir Analizar Estadísticos descriptivos
Tablas de contingencia.
Del cuadro de diálogo principal selecciona y transfiere la variable momento al apartado Filas, y en el
apartado Columnas transfiere la variable problema y finalmente presionar el botón Aceptar.
Una vez presionado el botón Aceptar del cuadro de diálogo principal, únicamente visualizaremos en el visor
de resultados una tabla de doble entrada de 2x3 en la que se nos mostrara las frecuencias de los datos entre
las variables momento y problema.
Recuento
Problema
eléctricos mecánicos chapa Total
Momento mañana 3 8 3 14
tarde 2 3 1 6
Total 5 11 4 20
Estos resultado no nos son suficientes puesto que en los puntos del ejemplo se nos pide obtener una serie de
porcentajes, para ello en el cuadro de diálogo principal debimos presionar sobre el botón Casillas, y del
cuadro de diálogo del apartado Porcentajes activar la casilla Total, después presionar el botón Continuar y
finalmente el botón Aceptar.
Problema
eléctricos mecánicos chapa Total
Momento mañana Recuento 3 8 3 14
% del total 15.0% 40.0% 15.0% 70.0%
tarde Recuento 2 3 1 6
% del total 10.0% 15.0% 5.0% 30.0%
Total Recuento 5 11 4 20
% del total 25.0% 55.0% 20.0% 100.0%
En esta nueva tabla además de las frecuencias de los datos, también se obtienen una serie de porcentajes,
todos ellos respecto al total de casos, en este ejemplo el número valido total es de 20.
Las respuestas a las cuestiones planteadas basta leerlas en las tabla. Así, se obtiene:
3) La probabilidad buscada es: P(acuda por la mañana/tiene problemas eléctricos) = 3/5 = 0.6
27 Gráfico
Si lo deseamos, también podemos generar un gráfico de barras respecto a los datos que conformarán la
tabla de contingencia, para esto, en el cuadro de diálogo principal deberemos activar la casilla con la frase
Mostrar los gráficos de barras agrupadas y presionar el botón Aceptar.
Gráfico de barras
Problema
8
electricos
mecanicos
chapa
6
R e c u e n to
0
mañana tarde
Momento
28 El caso complejo
En el caso anterior solo generamos una tabla bidimensional, es decir solo hicimos uso de dos variables, en
SPSS no es limitante el uso de tablas bidimensionales, también podríamos utilizar tres o mas criterios, lo que
nos llevaría a obtener tablas tridimensionales, cuatridimensionales, etc.
SPSS nos permite general tablas de contingencia con cualquier número de dimensiones. No obstante, los
estadísticos que incluye sólo son útiles para analizar tablas bidimensionales. El análisis de tablas de
contingencia con más de dos criterios de clasificación se aborda en otros procedimientos de SPSS (por
ejemplo, en el procedimiento de Modelos Loglineales no visto en este curso).
SPSS permite obtener tablas de contingencia de dos dimensiones. Pero, además, incluye la posibilidad de
añadir terceras variables (variables de segmentación) para definir subgrupos o capas y obtener así tablas
multidimensionales. También incluye varios estadísticos y medidas de asociación que proporcionan la
información necesaria para estudiar las posibles pautas de asociación existentes entre las variables que
conforman una tabla de contingencia bidimensional.
Si los datos son compatibles con la hipótesis de independencia, la probabilidad asociada al estadístico ² será
alta (mayor de 0.05). Si esa probabilidad es muy pequeña (menor de 0.05), consideraremos que los datos
son incompatibles con la hipótesis de independencia y concluiremos que las variables estudiadas están
relacionadas.
En el siguiente ejemplo veremos como obtener e interpretar el estadístico ² en una tabla de contingencia
bidimensional, donde compararemos y determinaremos si estan o no relacionadas la variable Genero con la
variable Estado civil.
Del cuadro de diálogo principal presiona el botón Estadísticos, y del subcuadro de diálogo activa la
casilla Chi-cuadrado. Después presiona el botón Continuar y finalmente Aceptar.
Pruebas de chi-cuadrado
Sig. asintótica
Valor gl (bilateral)
Chi-cuadrado de Pearson 29.486(a) 3 .000
Razón de verosimilitud 27.962 3 .000
Asociación lineal por lineal 19.656 1 .000
N de casos válidos
298
a 2 casillas (25.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mínima esperada es 1.54.
Vemos que el estadístico Chi-cuadrado toma un valor de 29.486, el cual, en la distribución ² con 2 grados
de libertad, tiene una probabilidad (Significancia asintotica = 0.000), es decir 0.000<= 0.05. Puesto que esta
probabilidad es muy pequeña, decidimos rechazar la hipótesis de independencia y concluir que las variables
Género y Estado civil están relacionadas.
Dentro del análisis de correlación bivariada tenemos una serie de coeficientes que nos ayudan a medir el
grado de relación existente entre dos o más variables cuantitativas, SPSS nos permite hacer uso del
coeficiente de correlación de Pearson (uno de los más famosos), el coeficiente de correlación de Spearman
y el coeficiente de correlación de Kendall, estos dos últimos para el análisis de variables ordinales.
El análisis de correlación parcial nos ayudara a eliminar el efecto de terceras variables en el análisis de
correlación de Pearson cuando se trata de realizar el análisis entre dos variables.
29 Correlación Bivariada
SPSS nos permite hacer uso de tres coeficientes de correlación, los cuales nos ayudaran a medir el grado de
relación existente entre dos o más variables: Pearson, Spearman y Tau-b de Kendall.
Los coeficientes de correlación, cualquiera, mide el grado de relación existente, ahora bien, este grado de
relación solo nos mostrara que tan fuerte están vinculadas dos o más variables entre si, el grado de relación
no mide dependencia entre las variables, es decir, la correlación no indica nada respecto a las razones que
pudieran explicar la existencia de esta relación. Sólo indica que dos o más variables varían en forma
conjunta: la correlación en sí misma sólo sirve como índice del grado de relación.
Los tres coeficientes de correlación de los que podemos hacer uso en SPSS tienen un rango de medida de
entre menos uno a uno positivo, incluido el cero.
Cuando el valor numérico que nos muestra el coeficiente de correlación es negativo, decimos que existe una
relación negativa, es decir que mientras que el valor de una variable aumenta, el valor de la otra variable
disminuye; cuando el valor numérico que nos muestra el coeficiente de correlación es positivo, decimos que
existe una relación positiva, es decir que cuando el valor de una variable aumenta, el valor de la otra
variable también aumenta; y que cuando el valor numérico de nos muestra el coeficiente de correlación es
cero, esto nos dice que no existe relación entre los valores de variables diferentes, por lo que se tendría que
estudiar su relación por otros medios.
10.00 10.00
8.00 8.00
6.00 6.00
Z
Y
4.00 4.00
2.00 2.00
0.00 0.00
0.00 2.00 4.00 6.00 8.00 10.00 0.00 2.00 4.00 6.00 8.00 10.00
X X
6.00 10.00
5.00
8.00
4.00
6.00
W
3.00
Y
4.00
2.00
2.00
1.00
0.00 0.00
0.00 2.00 4.00 6.00 8.00 10.00 0.00 1.00 2.00 3.00 4.00 5.00 6.00
X V
En las figuras anteriores podemos observar por medio de gráficos llamados Gráficos de dispersión la
relación que existe entre dos variables diferentes, si calculáramos el coeficiente de correlación de la figura a
y la figura b, los coeficientes obtenidos serian perfectos, es decir, que para la figura a el coeficiente de
correlación sería de 1, esto quiere decir que cuando el valor de una variable aumenta, el valor de la otra
variable también aumenta en la misma proporción; y el coeficiente de correlación de la figura b sería de –1,
esto quiere decir que mientras los valores de una variable aumentan, los valores de la otra variable
disminuyen en la misma proporción; y en la figura c y d el coeficiente de relación sería de cero, pues no
vemos ese crecimiento o decrecimiento de ninguna variable con respecto a la otra.
Si lo deseas puedes elegir el tipo de coeficiente de correlación que desees, el coeficiente de Pearson es el que
esta por defecto, pero si lo refieres puedes hacer uso de los coeficientes de Spearman y kendall que surten
mejor efecto en variables que sean ordinales.
30 Correlación Parcial
El hacer uso de la correlación parcial nos permite estudiar la relación lineal existente entre dos variables
controlando el posible efecto de una o más variables extrañas. El coeficiente de correlación parcial es una
técnica de control estadístico que expresa el grado de relación lineal existente entre dos variables tras
eliminar de ambas el efecto atribuible a terceras variables.
Para poder hacer uso de la correlación parcial en SPSS, deberás elegir de la barra de menús Analizar
Correlaciones Parciales, en el apartado Variables transfiere las variables que desees correlacionar y en
el apartado Controlando para agrega la variable de la cual deseas quitar los efectos en las variables
anteriores, y finalmente presiona el botón Aceptar.
31 Gráfico de dispersión
Este tipo de gráfico resulta bastante útil cuando deseamos ver de manera preliminar el tipo de relación
existente entre dos o más variables, pues este gráfico nos muestra una nube de puntos consistente en un
aglomerado de puntos en el que cada uno representa las puntuaciones obtenidas en las dos variables por
cada caso.
Como ejemplo, haremos uso de los siguientes valores y determinaremos el tipo de relación existente entre
las variables.
Si lo deseas puedes agregar una variable en el apartado Establecer marcas por, esta variable generara
marcas en el gráfico de dispersión, por ejemplo si agregaras la variable sexo, los puntos del gráfico se verian
diferenciados por una marca diferente para hombres y mujeres.
7.50
5.00
2.50
0.00
Y
-2.50
-5.00
-7.50
7.50
5.00
2.50
0.00
Y
-2.50
-5.00
R Sq Linear = 0.856
-7.50
10 REGRESIÓN
En múltiples ocasiones nos encontramos con situaciones en las que se requiere analizar la relación entre dos
variables cuantitativas o más. Los dos objetivos fundamentales de este análisis serán, por un lado,
determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, si los
valores de una de las variables tienden a aumentar o disminuir al aumentar los valores de la otra); y por
otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.
Por último cabe mencionar que cualquier modelo de regresión se basa en una serie de supuestos, como son:
linealidad, independencia, normalidad, homocedasticidad y no-colinealidad.
Ŷ = 0 + 1X
donde los coeficientes 0 y 1 son parámetros que definen la posición e inclinación de la recta. (Nótese que
hemos usado el símbolo especial Ŷ para representar el valor de Y calculado por la recta. Como veremos, el
valor real de Y rara vez coincide exactamente con el valor calculado, por lo que es importante hacer esta
distinción.)
El parámetro 0, conocido como la “ordenada en el origen,” nos indica cuánto es Y cuando X = 0. El
parámetro 1, conocido como la “pendiente,” nos indica cuánto aumenta Y por cada aumento de una unidad
en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de
observaciones sobre las variables Y y X. En el análisis de regresión, estas estimaciones se obtienen
comúnmente por medio del método de mínimos cuadrados.
De la barra de menús elige Analizar Regresión Lineal, en el cuadro de diálogo principal selecciona y
transfiere la variable Y al apartado Dependiente Y la variable X transfiérela al apartado Independientes Y
presiona el botón Aceptar.
La tabla pivote Resumen del modelo nos muestra una correlación bastante alta con R = 0.925 que nos
indica una fuerte relación positiva entre las variables X e Y. El valor de R² = 0.856 nos indica que el 85.6%
de la varianza de la variable Y está predicha por la variable X
ANOVA(b)
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 143.675 1 143.675 35.794 .001(a)
Residual 24.084 6 4.014
Total 167.759 7
a Variables predictoras: (Constante), X
b Variable dependiente: Y
La tabla pivote ANOVA muestra el contraste para comprobar si la relación global es significativa o no. El
estadístico F nos permite contrastar la hipótesis nula de que el valor poblacional de R es igual a cero, lo cual,
en el modelo de regresión simple, equivale a contrastar la hipótesis de que la pendiente de la recta de
regresión vale cero, y la prueba se plantea como sigue:
Ho: 1 = 0 vs Ha: 1 0
En nuestro ejemplo como F(1, 7) = 35.794 y que p <= 0.001, vemos que esta probabilidad es menor al nivel
de significancia es decir 0.001 < 0.05, llegamos a la conclusión de que existe una relación significativa entre
la variable X y la variable Y. Es decir se rechaza la hipótesis nula de que la pendiente de la recta de la
regresión vale cero.
Coeficientes(a)
Coeficientes
Coeficientes no estandarizado
estandarizados s
La tabla pivote Coeficientes, encontraremos los valores de los coeficientes de la recta de regresión. En la
columna Coeficientes no estandarizados se encuentran los coeficientes de regresión parcial que definiran la
ecuación de regresión en puntuaciones directas.
El valor que le corresponde al coeficiente 0 que es la constante de nuestra ecuación predictora es 1.163. Y
el valor que le corresponderá al coeficiente 1 que es la pendiente de nuestra ecuación predictora es 3.234.
Esto quiere decir que por cada unidad que se aumenta en la variable X, la variable Y aumenta 3,234
unidades. Según esto, la ecuación de regresión queda de la siguiente manera:
Ŷ = 1.163 + 3.234X
Esto quiere decir que a cada valor de X le corresponde un pronostico en Y basado en un incremento
constante de 1.163 más 3.234 veces el valor de X.
El tratar de mostrar gráficamente la relación presente entre una variable dependiente con más de una
variable independiente resulta muy poco intuitiva, por el hecho de que si tuviésemos n variables
independientes tendríamos que mostrar un gráfico con n+1 dimensiones, por lo que resultaría muy
complicado, por tal motivo nos limitaremos a partir del modelo de regresión lineal:
De acuerdo con la ecuación anterior, la variable dependiente Ŷ se interpreta como una combinación lineal de
un conjunto de n variables independientes Xn, cada una de las cuales va acompañada de un coeficiente n
que indica el peso relativo de esa variable en la ecuación. También esta ecuación incluye un coeficiente 0
que corresponde a un valor constante.
Al igual que en el análisis de regresión lineal simple, en este modelo también deberemos hallar con la ayuda
de SPSS los valores numéricos de los coeficientes n para poder predecir el valor de la variable dependiente.
La manera en que lo haremos con SPSS es idéntica a la que realizamos en el análisis de regresión lineal
simple, de igual forma se interpretaran los resultados de las diferentes tablas pivote que nos arroje el
análisis de regresión múltiple. Sólo mencionare el modo de ingresar a la herramienta que SPSS nos da para
este tipo de análisis.
34 Estimaciones Curvilineas
Para poder determinar que tipo de estimación deberemos realizar con que tipos de datos, es muy
aconsejable realizar antes de cualquier análisis un gráfico de dispersión, pues el será el que nos muestre de
forma visual el tipo de relación que pudieran existir entre nuestras variables de estudio.
Algunas de las estimaciones más comunes aparte de la regresión lineal simple y múltiple, tenemos la
estimación exponencial, cúbica, cuadrática, logarítmica, entre otras. En este capítulo ejemplificaremos
algunas de ellas. Y haremos uso de los siguientes datos.
X 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Y 33 27 22 22 19 18 19 16 12 14 14.5 13.5 11 12.5 12.25 13 12
Al final deberás de tener la habilidad de determinar que tipo de estimación resulta mejor para el análisis de
los datos anteriores
Independent: X
35.00 Observada
Exponencial
30.00
25.00
20.00
15.00
10.00
Independent: X
35.00 Observada
Logarítmico
30.00
25.00
20.00
15.00
10.00
Independent: X
35.00 Observada
Cuadrático
30.00
25.00
20.00
15.00
10.00
Independent: X
35.00 Observada
Cúbico
30.00
25.00
20.00
15.00
10.00