Está en la página 1de 114

ESTADÍSTICA APLICADA

CON SPSS

Alfonso García Pérez
María Yolanda Cabrero Ortega

2

ESTADÍSTICA APLICADA CON SPPS

Copyright © 2011 Alfonso García Pérez
María Yolanda Cabrero Ortega
``No está permitida la reproducción total o parcial de este
libro, ni su tratamiento informático, ni la transmisión de
ninguna forma o por cualquier medio, ya sea electrónico,
mecánico, por fotocopia, por registro u otros medios, sin el
permiso previo y por escrito de los titulares del Copyright.
El contenido de este libro está registrado por el autor en el
Registro de la Propiedad Intelectual y protegido por la Ley,
que establece penas de prisión además de las correspondientes
indemnizaciones para quien lo plagiara"

Edita: Universidad Nacional de Educación a Distancia

ALFONSO GARCÍA PÉREZ y
MARÍA YOLANDA CABRERO ORTEGA

3

Contenido

Prólogo………………………………………………………. 5
Capítulo 1: Introducción al SPSS ……………………… 7
Capítulo 2: Estadística Descriptiva ……………………. 11
Capítulo 3: Intervalos y Contrastes básicos .………… 17
Capítulo 4: Análisis de la Varianza ……..………........... 19
Capítulo 5: Regresión Lineal y Correlación ..………… 31
Capítulo 6: Tablas de Contingencia …………............... 37
Capítulo 7: Análisis de Componentes Principales ….. 47
Capítulo 8: Análisis de Correspondencias …..……….. 51
Capítulo 9: Análisis de Discriminante …………............ 57
Capítulo 10: Análisis de Conglomerados………..…….. 63
Capítulo 11: Análisis de Series Temporales….…......... 71
Capítulo 12: Regresión Logística ……..…………….......79
Capítulo 13: Regresión Poisson …....….…………......... 85
Capítulo 14: Anál. Supervivencia sin covariables ……93
Capítulo 15: Anál. Supervivencia con covariables ….103

4 ESTADÍSTICA APLICADA CON SPPS .

uned. No obstante.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 5 Prólogo El presente texto es dedicado al estudio de Paquete estadístico SPSS para el curso Técnicas Actuales de Estadística Aplicada. los comentarios resultan redundantes ante la sencillez de manejo de este software. es decir. las ventanas. y el número del ejemplo correspondiente. ya adelantamos que no es exhaustivo en cuanto al análisis de todos los Métodos a los que dicho paquete se puede aplicar. ya que la mejor manera de aprenderlo es utilizarlo y. Dado que los ejemplos que analizaremos en este texto son los de los libros Estadística Aplicada: Conceptos Básicos. utilizando el zoom de su pdf. Métodos Avanzados de Estadística Aplicada. Alfonso García Pérez María Yolanda Cabrero Ortega agar-per@ccia. TA y TAEA. en la mayoría de las ocasiones. Por último. no repetiremos aquí los enunciados de dichos ejemplos. Técnicas Avanzadas y Técnicas Actuales de Estadística Aplicada. le recordamos que puede ver más grandes la reproducciones de la pantalla. respectivamente. indicándolos con las abreviaturas CB.es .

6 ESTADÍSTICA APLICADA CON SPPS .

1.2. Para ir viendo cómo funciona el editor de datos. permite comenzar a utilizarlo casi sin conocimientos previos del paquete. la mejor manera de aprende a manejar SPSS es utilizarlo. elegiremos la opción Introducir datos. si queremos ir tecleando los datos. El editor de datos Lo primero que analizaremos es cómo introducir los datos de nuestro problema.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 7 Capítulo 1 Introducción al SPSS 1. este texto será simple y breve ya que. su Sexo y según si era o no Fumador. a continuación el editor de datos en blanco en el que debemos introducir los datos observados en el primer individuo de la primera variable en la primera fila de la primera columna. definiendo las variables a analizar con posterioridad.1. vamos a considerar un ejemplo Ejemplo 1. sin duda. Su exitosa presentación de “Métodos Estadísticos a ejecutar” en forma de persianas. Por esta razón. obteniéndose los siguientes datos: . Introducción Una de las características más destacadas de SPSS (en especial con respecto a R o SAS) es que no es necesario conocer un lenguaje de programación para utilizarlo (aunque lo tiene).1. en el que. Al abrir el paquete SPSS nos aparece un cuadro como el de la Figura 1.1 _____________________________________________ Se eligió al azar una muestra de 56 individuos de una población a los que se clasificó según su Edad. apareciendo.

Así. con tres valores. dos valores. 2 para los individuos entre 20 y 50 años y 3 para los individuos mayores de 50 años. 0 para los individuos que no fuman y 1 para los que sí fuman. 0 para los hombres y 1 para las mujeres. . Nosotros. con dos valores. de momento. Para la variable Sexo. Para ello. lo más simple es ir introduciendo los datos y más tarde. es decir. 1 para los individuos menores de 20 años. las variables deben ser categóricas. la variable Fumador. finalmente. modificar.2. Figura 1. si es necesario. utilizaremos datos de tipo numérico. Y. sus propiedades. los datos de los individuos de la tabla anterior serán los de la Figura 1.1 Para el ejemplo en cuestión. deben definir categorías en las que clasificar los datos.8 ESTADÍSTICA APLICADA CON SPPS Menores de 20 años Hombre Mujer Sí fuma 11 3 No fuma 1 7 Entre 20 y 50 años Hombre Mujer Sí fuma 1 4 No fuma 2 5 Mayores de 50 años Hombre Mujer Sí fuma 13 1 No fuma 2 6 En determinados modelos. incluiremos (por este orden) datos de las tres variables: la variable Edad.

3 En la barra de arriba (en Archivo) deberemos salvar nuestro fichero de datos. Pinchando el 1.2 Con objeto de introducir el nombre de las variables.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 9 Figura 1. Si nuestros datos están ya en un archivo. debemos incluirlos en el Editor de datos con la opción: Archivo → Abrir → Datos (Figura 1.4) . apareciendo un panel como el de la Figura 1.3. Volveremos al editor de datos pinchando en la pestaña inferior. podremos teclear el nombre de las tres variables así como sus principales características. pincharemos con el Ratón la pestaña de abajo Vista de variables. Vista de datos. Figura 1.

10 ESTADÍSTICA APLICADA CON SPPS Figura 1.4 .

Una de las ventajas de SPSS es que. Distribuciones de Frecuencias.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 11 Capítulo 2 Estadística Descriptiva 2. Ejemplo 2.1 .1-CB ___________________________________________ Después de introducir los datos. ejecutamos la secuencia Analizar → Estadísticos Descriptivos → Frecuencias Figura 2. Representaciones Gráficas. de una vez. Medidas de Posición y Dispersión El estudio de las técnicas estudiadas aquí.1. puede seguirse en el Capítulo 2 del texto CB. obtenemos la mayoría de los resultados en los que estamos interesados.

2 Ahora.12 ESTADÍSTICA APLICADA CON SPPS apareciéndonos una ventana de diálogo como la de la Figura 2. nivel. completamos lo estadísticos que queremos calcule en el botón Estadísticos. en este caso. .4.3 cerrando la ventana con el botón Continuar. Lo mismo hacemos con el botón Gráficos. hemos elegido las opciones que aparecen en la Figura 2.2 Figura 2. con el que. que en nuestro caso hemos elegido según la Figura 2. pasamos la variable en estudio.3 Figura 2. al cuadro de la derecha.

queremos señalar que. se ha ido traduciendo al lenguaje SPSS dentro de lo que aparece en el botón Pegar. pero queremos que el lector tenga presente siempre la existencia subyacente de estos programas. presionando el botón Aceptar.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 13 Figura 2. como precisamente éstas son la ventaja de SPSS. modificar y ejecutar en lugar de utilizar las persianas que aparecen arriba del Editor de Datos. Ésta es la denominada Sintaxis SPSS o Lenguaje de Programación SPSS. que si lo presionamos aparecerá. O bien mediante los menús o bien con la sintaxis. FREQUENCIES VARIABLES=nivel /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER= ANALYSIS . en este ejemplo.4 Ya podemos ejecutar nuestras elecciones efectuadas con las anteriores ventanas de diálogo. No obstante. todo lo que hemos ido seleccionando. que podemos salvar. no utilizaremos la sintaxis de este paquete sino dichas persianas. No obstante. guardar. para este ejemplo obtendríamos los siguientes resultados: .

20 1 2.2 11. 1.9 2.8 12.9 2.8 9. de asimetría .10 1 2.80 Máximo 16.9 2.9 2.7 12.9 8.80 1 2.0 11.10 2 5.9 8.9 2.9 44.90 1 2.9 67.5 10. típ.87459 Varianza 3.514 Asimetría .9 23.9 2.9 2.00 1 2.70 Mínimo 7.50 1 2.9 2.80 1 2.6 12.50 1 2.9 5.4500 Moda 12.9 38.9 32.9 2.9 55.4500 75 12.9 14.60 1 2.403 Curtosis .9 5.9 35.50 Desv.9 2.20 1 2.3529 Mediana 11.9 2.80 1 2.9 20.876 Error típ.5 .1 11.5 10.7 9.9 2.9 2.9 11.3 10.30 1 2.30 2 5.9 58.10 1 2.40 1 2.9 2.6 9.9 26.9 29.9 17.6 9.9 2.788 Rango 8.9 2.30 1 2.536 Error típ.9 8.9 61.9 2.8 9.50 Percentiles 25 10.60 1 2.ESTADÍSTICA APLICADA CON SPPS 14 Estadísticos nivel N Válidos 34 Perdidos 0 Media 11.60 1 2.90 1 2.9 11.9 52.4000 nivel Frecuencia Válidos Porcentaje Porcentaje válido Porcentaje acumulado 7.9 50.9 2.8 11.20 1 2.9 73.9 2.9 2.9 2.0500 50 11.1 11.9 5.30 1 2.4 10.9 11. de curtosis .9 2.9 47.9 64.4 10.70 1 2.

9 94. Con la secuencia Gráficos → Histograma podemos volver a obtener el histograma anterior. permite obtener gráficos de ata calidad sin tener que realizar análisis estadístico alguno.50 1 2.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 15 12.00 16.90 1 2.3529 Desviación típica =1.0 Total 34 100.2 14.50 3 8.9 2.8 8.00 12.9 5. . etc.00 14.9 79.70 1 2.4 12.9 2.40 2 5.9 2.1 15.9 97.00 10.1 16.00 1 2. pero lo que queremos señalar es que la persiana de Gráficos. 87459 N =34 0 8.00 18.9 100.00 nivel El histograma final se puede editar y cambiar los colores.8 88.9 2.0 Histograma 8 Frecuencia 6 4 2 Media =11.2 12.0 100.9 91. el título.

16 ESTADÍSTICA APLICADA CON SPPS Figura 2.5 .

1. lo ejecutaremos a continuación con uno basado en la t de Student. Dado que se consideran 35 observaciones.2-CB ___________________________________________ Después de introducir los datos. Intervalos y tests t-Student SPSS calcula.1 . básicamente. intervalos y tests de la t de Student.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 17 Capítulo 3 Intervalos y Contrastes básicos 3. las diferencias apenas si existe entre ambas metodologías. Ejemplo 6. ejecutamos la secuencia Analizar → Comparar medias → Prueba T para una muestra Figura 3. Aunque en CB resolvimos este ejemplo con un intervalo basado en la normal.

57496 Superior .ESTADÍSTICA APLICADA CON SPPS 18 A continuación aparece (Figura 3. .753000 Inferior .2) el siguiente cuadro de diálogo en donde hemos trasladado la variable en estudio al cuadro de la derecha. Figura 3.087606 Prueba para una muestra Valor de prueba = 0 95% Intervalo de confianza para la diferencia Actividad t 8. El 0 de la ventana Valor de Prueba es la hipótesis nula a contrastar.75300 .93104 Al final del segundo cuadro vemos el intervalo de confianza de confianza 0’95.595 gl 34 Sig.518283 Error típ.000 Diferencia de medias . (bilateral) . de la media . Media 35 . Con el botón Opciones podemos solicitar el intervalo de confianza para el coeficiente de confianza deseado.2 El resultado obtenido es el siguiente: Estadísticos para una muestra N Actividad Desviación típ.

2 .2 del texto CB. puede estudiar en la Sección 8. Ejemplo 8.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 19 Capítulo 4 Análisis de la Varianza 4.1-CB ___________________________________________ Después de introducir los datos.1) Gráficos → Diagramas de Cajas Figura 4. Un Factor: Diseño Completamente Aleatorizado El estudio del test analizado aquí. primero vamos a visualizar los datos dibujando un Diagrama de Cajas mediante la secuencia (Figura 4.1 con lo que se abre la ventana de diálogo de la Figura 4.1.

haciéndolo según la Figura 4. .20 ESTADÍSTICA APLICADA CON SPPS Figura 4.2 en la que seleccionamos definir.3 Ahora. con el botón Aceptar obtenemos los siguientes resultados.3 Figura 4.

00 1 2 3 dieta en donde destaca el último gráfico.0% 5 100.0% 5 100. en donde se puede apreciar que puede aceptarse una dispersión parecida en los tres “tratamientos” del factor dieta. el Diagrama de Cajas buscado.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 21 dieta Resumen del procesamiento de los casos Casos Válidos dieta 1 peso N Perdidos Porcentaje N Total Porcentaje N Porcentaje 5 100.00 33.00 30.0% 5 100.0% 0 . .0% 3 5 100.0% 2 5 100.0% 0 .0% peso peso 36.0% 0 .

4 La ventana de diálogo que aparece a continuación se completa como se indica Figura 4.4) Analizar → Modelo lineal general → Univariante por ser este análisis el más simple de Modelo Lineal General Figura 4.5 .22 ESTADÍSTICA APLICADA CON SPPS El Análisis de la Varianza para un factor puede hacerse ahora con la secuencia Analizar → Comparar medias → ANOVA de un factor pero preferimos seguir la secuencia (Figura 4.

ALFONSO GARCÍA PÉREZ y
MARÍA YOLANDA CABRERO ORTEGA

23

en la Figura 4.5. Con el botón Aceptar obtendríamos ahora los siguientes
resultados
Factores inter-sujetos

N
dieta

1

5

2

5

3

5

Pruebas de los efectos inter-sujetos
Variable dependiente: peso

Fuente
Modelo corregido

Suma de
cuadrados
tipo III

Media
cuadrática

gl

F

Significación

20,133(a)

2

10,067

1,144

,351

16800,267

1

16800,267

1909,121

,000

20,133

2

10,067

1,144

,351

Error

105,600

12

8,800

Total

16926,000

15

Intersección
dieta

Total corregida

125,733
14
a R cuadrado = ,160 (R cuadrado corregida = ,020)

de donde destaca el último cuadro que es la tabla de Análisis de la Varianza
Ejemplo 8.2-CB ___________________________________________
Después de introducir los datos y de ver con un diagrama de cajas que puede
admitirse la hipótesis de homocedasticidad, correríamos un Análisis de la
Varianza como antes, obteniendo la tabla final
Pruebas de los efectos inter-sujetos
Variable dependiente: insulina

Fuente
Modelo corregido

Suma de
cuadrados
tipo III
154,920(a)

Intersección

957,071

estimula

4

Media
cuadrática
38,730

F
29,755

Significación
,000

1

957,071

735,281

,000

29,755

,000

gl

154,920

4

38,730

Error

45,557

35

1,302

Total

1157,548

40

Total corregida

200,477
39
a R cuadrado = ,773 (R cuadrado corregida = ,747)

ESTADÍSTICA APLICADA CON SPPS

24

que indica rechazar la hipótesis nula de igualdad de los efectos medios de los
cinco estimulantes. Para ejecutar test de comparaciones múltiples elegimos el
botón Post hoc y completamos el cuadro de diálogo con varios de estos tests,
una vez trasladada la variable en estudio al cuadro de la derecha (Figura 4.6)

Figura 4.6
Los resultados así obtenidos (además de la tabla ANOVA anterior) aparecen a
continuación,

Pruebas post hoc
estimula
Comparaciones múltiples
Variable dependiente: insulina
Intervalo de confianza al
95%.

DHS de Tukey

(I) estimula
1

2

3

Diferencia
entre medias
(I-J)
-,0263
-2,2800(*)

Error típ.
,57045
,57045

Significación
1,000
,003

Límite inferior
-1,6663
-3,9201

Límite
superior
1,6138
-,6399

4

-4,3900(*)

,57045

,000

-6,0301

-2,7499

5

-4,4363(*)

,57045

,000

-6,0763

-2,7962

1

,0263

,57045

1,000

-1,6138

1,6663

3
4
5

-2,2538(*)
-4,3638(*)
-4,4100(*)

,57045
,57045
,57045

,003
,000
,000

-3,8938
-6,0038
-6,0501

-,6137
-2,7237
-2,7699

1

2,2800(*)

,57045

,003

,6399

3,9201

2

2,2538(*)

,57045

,003

,6137

3,8938

4

-2,1100(*)

,57045

,006

-3,7501

-,4699

(J) estimula
2
3

ALFONSO GARCÍA PÉREZ y
MARÍA YOLANDA CABRERO ORTEGA

5
4

5

Scheffe

1

2

3

4

5

25

1
2

-2,1563(*)
4,3900(*)
4,3638(*)

,57045
,57045
,57045

3

2,1100(*)

,57045

5

-,0463

,57045

1

4,4363(*)

,57045

2
3
4

4,4100(*)
2,1563(*)
,0463

2
3
4
5

,005
,000
,000

-3,7963
2,7499
2,7237

-,5162
6,0301
6,0038

,006

,4699

3,7501

1,000

-1,6863

1,5938

,000

2,7962

6,0763

,57045
,57045
,57045

,000
,005
1,000

2,7699
,5162
-1,5938

6,0501
3,7963
1,6863

-,0263

,57045

1,000

-1,8805

1,8280

-2,2800(*)

,57045

,009

-4,1342

-,4258

-4,3900(*)

,57045

,000

-6,2442

-2,5358

1
3
4

-4,4363(*)
,0263
-2,2538(*)
-4,3638(*)

,57045
,57045
,57045
,57045

,000
1,000
,010
,000

-6,2905
-1,8280
-4,1080
-6,2180

-2,5820
1,8805
-,3995
-2,5095

5

-4,4100(*)

,57045

,000

-6,2642

-2,5558

1

2,2800(*)

,57045

,009

,4258

4,1342

2

2,2538(*)

,57045

,010

,3995

4,1080

4
5
1

-2,1100(*)
-2,1563(*)
4,3900(*)

,57045
,57045
,57045

,018
,015
,000

-3,9642
-4,0105
2,5358

-,2558
-,3020
6,2442

2

4,3638(*)

,57045

,000

2,5095

6,2180

3

2,1100(*)

,57045

,018

,2558

3,9642

5

-,0463

,57045

1,000

-1,9005

1,8080

1
2
3

4,4363(*)
4,4100(*)
2,1563(*)

,57045
,57045
,57045

,000
,000
,015

2,5820
2,5558
,3020

6,2905
6,2642
4,0105

4

,0463

,57045

1,000

-1,8080

1,9005

Basado en las medias observadas.
* La diferencia de medias es significativa al nivel ,05.

Subconjuntos homogéneos
insulina
Subconjunto
estimula
1
DHS de
Tukey(a,b)

N
8

1
2,6650

2

8

2,6913

3

8

4

8

5

8

Significación

Scheffe(a,b)

3

4,9450
7,0550
7,1013
1,000

1

8

2,6650

2

8

2,6913

3

8

4

8

5

8

Significación

2

1,000

1,000

4,9450
7,0550
7,1013
1,000

1,000

Se muestran las medias para los grupos en subconjuntos homogéneos.

1,000

obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia (Figura 4.05.8 .2.26 ESTADÍSTICA APLICADA CON SPPS Basado en la suma de cuadrados tipo III El término error es la Media cuadrática (Error) = 1. observándose en la última tabla los mismos grupos de tratamientos homogénenos obtenidos en el texto CB. Un Factor: Diseño por Bloques Aleatorizados El estudio del test analizado aquí.3-CB ___________________________________________ Después de introducir los datos. 4. a Usa el tamaño muestral de la media armónica = 8.000 b Alfa = .3 del texto CB.7 para completar luego el cuadro de diálogo como se indica en la Figura 4.7) Analizar → Modelo lineal general → Univariante Figura 4.302. puede estudiar en la Sección 8. Ejemplo 8.

000(a) 5 33. ya que en el diseño por bloques no consideramos la posibilidad de interacción entre las variables.333 3.258 . Factores inter-sujetos N Vitamina Raza 1 4 2 4 3 4 1 3 2 3 3 3 4 3 Pruebas de los efectos inter-sujetos Variable dependiente: Peso Fuente Modelo corregido Suma de cuadrados tipo III Media cuadrática gl F Significación 165.103 94696.778 Total 94926.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 27 Figura 4.333 8786.333 3 26.081 Raza 80.928 .8 Ahora con el botón Modelo elegimos la opción Personalizado y.000 Vitamina 84.333 1 94696. pasando las variables a la ventana de la derecha.667 2 42.667 6 10.158 Error 64.000 3. la opción de Efectos principales.062 .000 12 Intersección .485 .778 2. Con los botones Continuar y Aceptar obtenemos los siguientes resultados.

ahora lo requerimos completo.5 del texto CB. Ejemplo 8.28 ESTADÍSTICA APLICADA CON SPPS Total corregida 229. por lo que no hace falta modificar el modelo. puede estudiar en la Sección 8.667 11 a R cuadrado = .5-CB ___________________________________________ Después de introducir los datos.9 Hay muchas semejanzas con el caso anterior del diseño por bloques pero ahora sí se admite la interacción entre variables. obtenemos los siguientes resultados.3.718 (R cuadrado corregida = . presionando ya el botón Aceptar. Dos Factores: Diseño Completamente Aleatorizado El estudio del test analizado aquí. Por eso. en donde la última tabla es la misma de ANOVA obtenida en CB . 4.9 Figura 4.484) en donde la última tabla es la de Análisis de la Varianza obtenida en CB. obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia Analizar → Modelo lineal general → Univariante y completando después la ventana de diálogo como se indica en la Figura 4.

000 93633.652 .000 48 11254.333 1 93633.292 Total 104888.911) .303 .667 47 Intersección Estación * Fármaco Total corregida a R cuadrado = .470 44.000 Fármaco 6017.333 4397.652 .691 .000 Estación 4132.389 64.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 29 Factores inter-sujetos N Estación Fármaco 1 12 2 12 3 12 4 12 1 16 2 16 3 16 Pruebas de los efectos inter-sujetos Variable dependiente: Alergia Fuente Modelo corregido Suma de cuadrados tipo III Media cuadrática gl F Significación 10488.932 (R cuadrado corregida = .781 .500 36 21.167 2 3008.472 2.583 141.031 Error 766.000 338.167 3 1377.167(a) 11 953.833 6 56.

30 ESTADÍSTICA APLICADA CON SPPS .

3 del texto CB. Regresión Lineal Simple El estudio del test analizado aquí.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 31 Capítulo 5 Regresión Lineal y Correlación 5. hay dos aspectos de interés: la representación gráfica de los datos y el Análisis de la Regresión Ejemplo 9. Como allí destacábamos.1 . puede estudiar en las Secciones 9.1.2 y 9.1-CB ___________________________________________ Después de introducir los datos. primero vamos a visualizar los datos dibujando un Diagrama de Dispersión mediante la secuencia (Figura 5.1) Gráficos → Interactivos → Diagrama de dispersión Figura 5.

00 40.00 30.00 20.ESTADÍSTICA APLICADA CON SPPS 32 La cantidad de oxígeno se pasa a la dependiente y la profundidad a la independiente. Regresión lineal   6.00 50. hemos seleccionado el Método Hacia atrás. A demás de indicar cuál es la variable independiente y dependiente.00 70.2. en donde. mediante la tabla de Análisis de la Varianza para la Regresión Lineal. si puede admitirse la hipótesis nula de que la variable independiente no es significativa a la hora de predecir a la variable dependiente.80  0. ya vienen dadas por defecto. Para ello ejecutamos la secuencia Analizar → Regresión → Lineal completando la ventana de diálogo que aparece como se indica en la Figura 5.00  1cont_oxi = 8.00 2.63 + -0.00   cont_oxi  4.00 60.00 profund La segunda cuestión importante es contrastar. .11 * profund R-cuadrado = 0. El resto de las opciones. como la de que nos dé los estimadores o el nivel de significación del test de la F de Snedecor de la tabla de Análisis de la Varianza para la Regresión Lineal. obteniéndose el siguiente gráfico en donde puede verse también la correlación entre ambas variables.

481 1 29. 20. a Todas las variables solicitadas introducidas b Variable dependiente: cont_oxi Resumen del modelo Modelo 1 R R cuadrado R cuadrado corregida . de la estimación 1. profund .896(a) . en donde de nuevo destaca la penúltima tabla ANOVA y las estimaciones de los coeficientes de regresión de la última tabla.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 33 Figura 5.322 .2 Los resultados así obtenidos son los siguientes. Regresión Variables introducidas/eliminadas(b) Modelo 1 Variables introducidas profund(a) Variables eliminadas Método Introducir .253 5 1.451 36.006(a) . profund F Sig.20444 ANOVA(b) Modelo 1 Suma de cuadrados Regresión Residual Total Media cuadrática gl 29.481 7.763 Error típ.803 a Variables predictoras: (Constante).734 6 a Variables predictoras: (Constante).

010 . puede estudiar en las Secciones 10.024 Beta -.3 del texto CB.2 y 10.3 Las tres últimas tablas que así se obtienen.1-CB __________________________________________ Después de introducir los datos. .000 -4.108 .896 t Sig.631 1.ESTADÍSTICA APLICADA CON SPPS 34 b Variable dependiente: cont_oxi Coeficientes(a) Coeficientes estandarizado s Coeficientes no estandarizados Modelo 1 B Error típ. Regresión Lineal Múltiple El estudio del test analizado aquí. con la diferencia de que debemos incluir más de una variable independiente.006 a Variable dependiente: cont_oxi 5. (Constante) 8.2. Las opciones a ejecutar son las mismas que en la sección anterior. Ejemplo 10.077 profund -.508 .3 Figura 5. 8. ejecutamos Regresión → Lineal completando el cuadro de diálogo como se indica en la Figura 5.

000(b) a Variables predictoras: (Constante).373 .561 13 33. X2.373 1 2502.006(a) .086 Error típ.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 35 ANOVA(c) Modelo 1 2 Media cuadrática 1251.057 2.613 .452 8.983 . . X2 b Variable dependiente: Y Correlación parcial .659 .007 (Constante) 1.922 .840 .195 440.739 . X1 b Variables predictoras: (Constante).712 Total 2942.983 X2 1.916 3.123 . X2 c Variable dependiente: Y Coeficientes(a) Coeficientes estandarizado s Coeficientes no estandarizados Modelo 1 2 B 2.889 2942.154 indican considerar a X2 como única covariable independiente significativa y concluir con la recta ajustada Y = 1’977 + 1’057 X2 .057 4.006 .373 440. .326 .081 Sig.762 X1 .219 .390 gl F 34.543 12 36.050 .000(a) 73.977 1. 6.022 .593 . .022 a Variables predictoras en el modelo: (Constante).006 Tolerancia .933 14 Regresión 2502.933 14 Regresión Residual 2 Residual Total Suma de cuadrados 2502.309 Sig.000 (Constante) X2 a Variable dependiente: Y Beta t Variables excluidas(b) Estadísticos de colinealidad Modelo 2 Beta dentro X1 t Sig.

36 ESTADÍSTICA APLICADA CON SPPS .

Ejemplo 12. Contraste de homogeneidad de varias muestras El estudio del test analizado aquí. puede estudiar en la Sección 12.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 37 Capítulo 6 Tablas de Contingencia 6.3 del texto CB.1 .1.8-CB __________________________________________ Después de introducir los datos. ejecutamos la secuencia (Figura 6.1) Datos → Ponderar casos Figura 6.

4) . que es el utilizado en CB (Figura 6. ponderamos los datos con la variable frecu (Figura 6. Además.2 Ahora ya podemos realizar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6. le pedimos el Chi-cuadrado de Pearson.3) Analizar → Estadísticos descriptivos → Tablas de contingencia Figura 6.38 ESTADÍSTICA APLICADA CON SPPS y. con el botón Estadísticos. en el cuadro de diálogo resultante.2) Figura 6.3 Ahora debemos completar el cuadro de diálogo que se abre. teniendo en cuenta cuál variable forma las filas y cuál las columnas.

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 39 Figura 6.5) Figura 6.5 Los resultados así obtenidos son los siguientes: . (Figura 6.4 Por último. en el botón Casillas le podemos pedir no sólo las frecuencias observadas sino las esperadas de cada casilla.

0 252.042(a) 1.0% Tabla de contingencia Comunidad * Fumador Fumador 1 Comunidad 1 Recuento Frecuencia esperada 2 Recuento Frecuencia esperada 3 Recuento Frecuencia esperada Total Recuento Frecuencia esperada 13 2 87 Total 100 16.0 Pruebas de chi-cuadrado Valor Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos 1. El análisis con SPSS es idéntico al de la sección anterior. asintótica (bilateral) gl 2 2 1 .6) . 0’594.ESTADÍSTICA APLICADA CON SPPS 40 Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N Comunidad * Fumador 300 Perdidos Porcentaje 100.0 100.00.586 .0 84. destacando la última tabla en la que aparece el valor del estadístico chicuadrado de Pearson.0%) tienen una frecuencia esperada inferior a 5.4 del texto CB.2. 6.9-CB __________________________________________ Después de introducir los datos. La frecuencia mínima esperada es 16.069 . puede estudiar en la Sección 12. los mismos valores que en CB.0 48 252 300 48.594 .0 100.0 100.336 300 a 0 casillas (.0 84.0 84. Ejemplo 12.0 17 83 100 16.927 Sig.0 300.0 18 82 100 16.0% N 300 Porcentaje 100. ejecutamos la secuencia (Figura 6. 1’042 y el p-valor del test. Contraste de independencia de caracteres El estudio del test analizado aquí.0% N 0 Total Porcentaje .

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 41 Datos → Ponderar casos Figura 6.7) Analizar → Estadísticos descriptivos → Tablas de contingencia Figura 6.6 ponderándolos en este caso con la variable frecuen. Ahora ya podemos ejecutar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.7 .

6 53.0 Recuento Frecuencia esperada Total 1.824 1 . 0’016.0% Tabla de contingencia deterior * depresio depresio .4 47.013 .016 Corrección por continuidad(a) 4. los mismos que los obtenidos en CB.015 Estadístico exacto de Fisher Asociación lineal por lineal N de casos válidos Sig. asintótica (bilateral) gl 5. exacta (bilateral) . Los resultados así obtenidos son los siguientes: Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N deterior * depresio 100 Perdidos Porcentaje 100.00 Recuento Frecuencia esperada 1.0%) tienen una frecuencia esperada inferior a 5. como antes.975 1 . los botones Estadísticos y Celdas. observando en la última tabla los valores del estadístico de Pearson.2 del texto CB.57.00 deterior .00 Recuento Frecuencia esperada Total 31 53 16. b 0 casillas (. Contraste de bondad del ajuste El estudio del test analizado aquí.00 22 31 69 100 31. 6.0% N 100 Porcentaje 100.3.0% N 0 Total Porcentaje . exacta (unilateral) .0 69.4 36.028 Razón de verosimilitudes 5. . puede estudiar en la Sección 12.823(b) 1 .018 5. La frecuencia mínima esperada es 14.764 1 Sig.0 9 38 47 14.016 100 a Calculado sólo para una tabla de 2x2.0 Pruebas de chi-cuadrado Valor Chi-cuadrado de Pearson Sig.ESTADÍSTICA APLICADA CON SPPS 42 sin olvidar completar.6 32. 5’823 y el p-valor del test asociado.0 100.

8 y ponderamos los datos de la variable CLASES con la variable FRECU.4-CB __________________________________________ Primero incorporamos los datos como aparece en la Figura 6.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 43 Ejemplo 12. Ahora ejecutamos la secuencia Analizar -> Pruebas no paramétricas -> chi-cuadrado apareciendo el cuadro de diálogo de la Figura 6.8 Figura 6.9 que completamos según se indica en ella. .

8 Total 556 Estadísticos de contraste CLASES Chi-cuadrado Gl Sig.ESTADÍSTICA APLICADA CON SPPS 44 Figura 6.925 .3 -3.9 Presionado el botón Aceptar se obtiene el valor del estadístico de Pearson. asintót.8 2. Prueba de chi-cuadrado Frecuencias CLASES N observado N esperado Residual 1 315 312.8 -2.3 3. .3 4 32 34. 0’47 como en el texto CB.470 a 3 .8 3 101 104.3 2 108 104.

0 casillas (.925 a. asintót. . La frecuencia de casilla esperada mínima es 34.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA Estadísticos de contraste CLASES Chi-cuadrado Gl Sig.470 a 3 .0%) tienen frecuencias esperadas menores que 5.8. 45 .

46 ESTADÍSTICA APLICADA CON SPPS .

Una vez seleccionadas éstas. incluyéndolas en el cuadro de la derecha con la flecha. .2). SPSS se ejecuta con el botón Aceptar que aparece en dicha Figura 7. Figura 7.1 Una vez incluidas todas las variables a utilizar en el Análisis. Análisis de Componentes Principales El Análisis de Componentes Principales se obtiene ejecutando la secuencia: Analizar → Reducción de datos → Análisis Factorial (Figura 2. es importante comprobar que en Extracción se utilice la opción Componentes Principales y Gráfico de sedimentación (Figura 7.1.1).2.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 47 Capítulo 7 Análisis de Componentes Principales 7.

ESTADÍSTICA APLICADA CON SPPS 48 Ejemplo 2. se obtienen los siguientes resultados. en [3] aparecen las Componentes Principales.000 . Figura 7.973 X2 1.2 A.000 .969 . En [1] y [2] puede verse la variación explicada por cada componente principal. con la misma interpretación.000 .945 X6 1.000 .000 .747 X3 1.817 X4 1. factorial Comunalidades Inicial Extracción X1 1.862 X5 1.1 del texto Técnicas Avanzadas.000 .781 X8 1. por supuesto.597 X7 1. Por último. A continuación aparece lo que SPSS denomina Gráfico de sedimentación y que en TA denominamos Gráfico de desmoronamiento.000 . con coeficientes algo distintos de los que obteníamos en TA pero.000 .1-TA ___________________________________________ Si ejecutamos la secuencia anterior con los datos del Ejemplo 2.

852 1. Varianza total explicada Sumas de las saturaciones al cuadrado de la extracción Autovalores iniciales Total 2.377 6 .757 4 1.0 2.591 95.0 1 2 3 4 5 6 Número de componente 7 8 .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 49 Método de extracción: Análisis de Componentes principales.0 0.000 Método de extracción: Análisis de Componentes principales.637 5 .112 13.045 .686 % de la varianza 33.275 56.436 Componente 1 8 .5 1.577 % acumulado 33.852 3 1.905 70.467 99.686 % de la varianza 33.577 2 1.030 12.577 % acumulado 33.881 83.277 3.367 4.905 70.881 83.030 12.577 Total 2.275 56.564 100.619 7.637 1.112 13.862 23.5 0.5 Autovalor 2.0 1.757 1.740 91.968 7 .862 23. [1] [2] Gráfico de sedimentación 3.

7.872 -.704 . Este Programa SPSS ejecuta lo mismo que el botón Aceptar de dicha Figura 7. pudiendo unirse varios Programas en una sola Sintaxis. Este lenguaje SPSS se llama Sintaxis SPSS.326 .392 .2. de manera que una forma de ejecutar SPSS reiteradamente sin tener que ir completando las diversas ventanas de diálogo de las persianas SPSS.078 X6 .803 . Si lo hubiéramos seleccionado. obtendríamos el Programa FACTOR /VARIABLES X1 X2 X3 X4 X5 X6 X7 X8 /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7 X8 /PRINT INITIAL EXTRACTION /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .273 .629 -. SPSS puede ser utilizado a través de un lenguaje de programación como lo era SAS o BMDP.118 X4 . a 4 componentes extraídos [3] Los resultados obtenidos al ejecutar SPSS son ficheros que pueden ser salvados y reutilizados.093 -.113 .719 .070 X2 -.332 X3 -. esta Sintaxis puede modificarse adecuándola precisamente a aquello en lo que estamos interesados. Sintaxis de SPSS Aunque la forma habitual de utilizar SPPS (al menos en una primera aproximación al paquete) es mediante las persianas de la barra de comandos superior.753 .363 .764 -.026 X8 -.064 .255 . .2.279 X5 . modificado y reutilizado.149 X7 -. Si observamos de nuevo la Figura 7.450 .470 -.176 .159 -. Además.2 y puede ser salvado. es utilizar directamente Sintaxis SPSS.445 -.445 . vemos un botón denominado Pegar.443 .891 Método de extracción: Análisis de componentes principales.140 .222 -.ESTADÍSTICA APLICADA CON SPPS 50 Matriz de componentes(a) Componente 1 2 3 4 X1 .

2 de dicho texto. Explicaremos su ejecución siguiendo el ejemplo 3.1 . por otro lado. éstas tienen un marcado acento de “etiqueta”.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 51 Capítulo 8 Análisis de Correspondencias 8. Ejemplo 3. no vamos a introducir los. Además.1. como los datos se refieren a tablas de frecuencia. Figura 8. Análisis de Correspondencias La explicación detallada de este tipo de análisis aparece en el capítulo 3 del texto TA. para este ejemplo. 6851 datos uno a uno. SPSS requiere que los “valores” de las dos variables sean de tipo numérico pero.2-TA ___________________________________________ La primera observación que debemos hacer es sobre el manejo de los datos.

3).3 .2 Ahora ya tenemos preparados los datos para realizar un Análisis de Correspondencias. De ahí que el Editor de datos para este ejemplo sea el de la Figura 8. dando nombres a los valores de las variables. Para ello ejecutaremos la secuencia: Analizar → Reducción de datos → Análisis de correspondencias (Figura 8.52 ESTADÍSTICA APLICADA CON SPPS Lo haremos mediante una variable de frecuencia a la que hemos denominado Pondera. Figura 8.2. Figura 8.1. Pero observemos cómo hemos trabajado la opción de la pestaña Vista de variables en la Figura 8.

en donde se ve que la solución que buscamos es de dos dimensiones y que utilizamos una distancia chi-cuadrado. y que con el botón Modelo obtenemos el cuadro de diálogo de la derecha.4 Con estas opciones obtenemos los siguientes resultados. como se indica en el panel de la izquierda.4. Resaltamos que debemos codificar las variables que forman la tabla.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 53 En el análisis hemos utilizado las opciones que aparecen en la Figura 8. Figura 8. Correspondencias Tabla de correspondencias Bebe Madre jnf jf mnf mf Margen activo pm pv Gcm 24 gcv 4012 Margen activo 4401 50 315 9 40 6 459 514 41 147 14 1594 1796 4 11 1 124 140 104 513 45 6189 6851 [1] .

001 .997 .015 .418 .015 1.075 gcm .443 -.360 .253 .000 3 .003 .000 1.013 .262 mf .511 .063 .054 .347 .106 .003 .001 .908 2 .000 1.465 -.055 -.556 .599 .736 .960 .001 .400 .000 .004 .105 .050 .109 .986 .066 .012 .903 gcv Total activo 1.ESTADÍSTICA APLICADA CON SPPS 54 Resumen Proporción de inercia Confianza para el Valor Corre Dimensión 1 Valor propio Inercia Chi-cuadrado Sig.024(a) Desviación típica Acumulada .126 .562 pv .000 1.088 .000 .003 1.899 1.908 .001 .000 .003 1.008 .020 Total activo Inercia 1 2 De la dimensión a la inercia del 1 2 -.642 -.877 .000 1.084 .313 -.000 a Normalización Simétrica Examen de los puntos columna(a) Puntuación en la dimensión Contribución De los puntos a la inercia de la dimensión Bebe pm Masa 1 2 .016 .441 .075 mnf .000 1.009 . Explicada .995 .054 .000 .165 jf .000 .000 Total .994 .087 .000 .005 1.000 a 9 grados de libertad [2] Examen de los puntos de fila(a) Puntuación en la dimensión Contribución De los puntos a la inercia de la dimensión Madre jnf Masa 1 2 .983 .265 -.016 .000 .190 .000 .000 a Normalización Simétrica Inercia 1 2 De la dimensión a la inercia del 1 2 -.003 19.873 .015 .002 .007 .081 .004 .840 .

6 Dimensión 1 [3] En [1] puede comprobarse que la tabla de doble entrada ha sido bien creada.5 gcm Bebe Madre Dimensión 2 1. .5 jf jnf gcv 0.2 1. A continuación aparecen las coordenadas suministradas pos SPSS (algo distintas que las obtenidas con el software del curso) y.8 1.0 pv mnf mf pm -0.0 0.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 55 Puntos de columna y de fila Simétrica Normalización 1.0 0.2 0.4 1.2 0. el gráfico.0 1.5 -0. ampliamente comentado en TA.6 0. La inercia acumulada puede verse en [2] . por último. en [3] . principal objetivo del Análisis.4 0.

56 ESTADÍSTICA APLICADA CON SPPS .

1: Analizar → Clasificar → Discriminante . Análisis Discriminante El Tratamiento Informático de Análisis Discriminante que ejecuta SPSS es algo distinto que el estudiado en el capítulo 6 de TA.1-TA ___________________________________________ Después de introducir los datos ejecutamos la secuencia que aparece en la Figura 9.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 57 Capítulo 9 Análisis Discriminante 9.1. Figura 9.1 Ejemplo 6.

3 Con esta selección obtendríamos los siguientes resultados. en donde se ha incluido la variable X6 en Variable de agrupación por ser ésta la que determina los dos grupos que componen los datos. Figura 9.2. se debe seleccionar esta opción en el botón Estadísticos (Figura 9. . X1.58 ESTADÍSTICA APLICADA CON SPPS Apareciendo el cuadro de diálogo que aparece en la Figura 9. Si se quiere obtener la Función Discriminante lineal de Fisher.3).2 Las otras variables.X5 se incluyen en la ventana Independientes. Figura 9. ….

0 Total N válido (según lista) No ponderados Ponderados x1 17 17.000 x3 32 32.000 x1 32 32.000 x1 15 15.000 x4 32 32.000 x2 32 32.0 0 .000 x2 17 17.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 59 Discriminante Resumen del procesamiento para el análisis de casos Casos no ponderados Válidos Excluidos N Códigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos. el código de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales Estadísticos de grupo x6 1.000 x4 15 15.000 x5 17 17.000 x5 32 32.000 x3 15 15.0 .0 0 .0 0 .000 x5 15 15.000 x4 17 17.000 x3 17 17.0 2.000 x2 15 15.0 32 100.0 0 .000 32 Porcentaje 100.

627 Matriz de estructura Función 1 x4 .048 Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. Lambda de Wilks Contraste de las funciones 1 Lambda de Wilks .694 a Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.759 x5 . Funciones en los centroides de los grupos Función x6 1.578 x3 .017 x4 .877 2.405 x5 .518 Chi-cuadrado 18.0 .0 1 -.0 100.083 gl 5 Sig.578 x3 -.246 x2 -.ESTADÍSTICA APLICADA CON SPPS 60 Análisis 1 Resumen de las funciones canónicas discriminantes Autovalores Función 1 Autovalor % de varianza Correlación canónica % acumulado .367 x2 -.003 Coeficientes estandarizados de las funciones discriminantes canónicas Función 1 x1 .930(a) 100. .0 .994 Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos .830 x1 .

361 2.558 x2 2.952 x5 (Constante) . 2.747 x4 .361-2. .747=0’005.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 61 Estadísticos de clasificación Coeficientes de la función de clasificación x6 1.419 Funciones discriminantes lineales de Fisher [1] Al final de dichos resultados.0 2.468 1.205=0’156.372 -514.775-0.956 -545.775 .195-0. aparecen los coeficientes cuya diferencia son los obtenidos en TA: 1.468-1.558 = -0’09. en [1] .372=-0’177. 0.205 x3 2. 2.195 .752-2. 0.752 2.952=-0’177.0 x1 1.

62 ESTADÍSTICA APLICADA CON SPPS .

También podemos obtener el dendograma. 10. Introducción Como sabemos. así como utilizar las diversas distancias allí estudiadas. dos métodos de Análisis Cluster: uno es el Análisis Jerárquico y otro el Algoritmo k-medias. Agrupamiento promedio. Analizaremos estos dos métodos en dos secciones separadas. básicamente.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 63 Capítulo 10 Análisis de Conglomerados 10. Agrupamiento centroide.1. Agrupamiento completo. Figura 10. existen.2.1 . y el Método de Ward. Análisis Jerárquico Con SPSS es posible realizar los cinco métodos de agrupamiento estudiados en TA: Agrupamiento simple.

3 .2.2 Para formar los clusters utilizando un Agrupamiento centroide.1.3. Figura 10. en donde hemos incluido las dos variables en análisis.64 ESTADÍSTICA APLICADA CON SPPS Ejemplo 5.6-TA ___________________________________________ Después de introducir los datos como aparece en la Figura 10. Figura 10. seleccionamos en el botón Método las tres opciones que aparecen en la Figura 10. También aparecen allí los cuatro botones en donde tendremos que seleccionar nuestras opciones. ejecutamos la secuencia que también aparece en dicha Figura: Analizar → Clasificar → Conglomerados jerárquicos apareciendo un cuadro de diálogo como el de la Figura 10.

556 3 1 0 [1] [3] .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 65 Agrupación de centroides. Como en situaciones anteriores. obtenemos los resultados que vienen a continuación.0 5 100. MEDIAN o WARD. pinchando en el botón Aceptar.0 a distancia euclídea usada b Vinculación de centroides Total Porcentaje 0 N Porcentaje . como siempre.b) Casos Válidos N Perdidos Porcentaje N 5 100. Distancia Euclídea y que no estandarice los datos con la opción de Ninguno.701 2 0 4 4 1 4 62.180 0 0 3 3 1 2 10.770 0 0 4 2 1 3 11. puesto que las opciones que vienen por defecto son adecuadas. no es necesario pinchar en el botón Estadísticos ni en Guardar. Resumen del procesamiento de los casos(a.0 Vinculación de centroides Historial de conglomeración Etapa en la que el conglomerado aparece por primera vez Conglomerado que se combina Etapa 1 Conglomer ado 1 Conglomer ado 2 Coeficientes Conglomer ado 1 Conglomer ado 2 Próxima etapa 4 5 10. Conglomerados jerárquicos Advertencia La medida euclídea al cuadrado debería emplearse cuando se solicite el método de conglomeración CENTROID. Después de nuestras selecciones. salimos de las ventanas con Continuar. Para este ejemplo. En el botón Gráficos es necesario indicarle que nos ejecute el Dendograma.

al cluster en el que está el elemento 1. uniéndose finalmente el cluster donde está el elemento 4 (primer cluster formado) al cluster donde está el elemento 1. El Dendograma que aparece en [2] . 10. Algoritmo k-medias El proceso para realizar el algoritmo k-medias es similar al realizado para ejecutar el análisis jerárquico. en la Etapa 3. Lo que ocurre es que las distancias a las que se van uniendo son muy inferiores a la de aglomeración final. como en la Etapa 1. se unen los elementos 1 y 3. en [1] . Esta vez (Figura 10. mejor dicho. se unen los elementos 4 y 5. Etapa 2.ESTADÍSTICA APLICADA CON SPPS 66 Diagrama de témpanos vertical Caso Número de conglomerados 1 5 4 X X X 2 X X 3 X X 4 X X 2 X 3 1 X X X X X X X X X X X X X X X X X X X X Dendrograma * * * * * * H I E R A R C H I C A L * * * * * C L U S T E R A N A L Y S I S * Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E Label Num 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ 4  5   1   3  2  En ellos se observa.3.4) deberemos ejecutar la secuencia Analizar → Clasificar → Conglomerados de K medias . como puede verse en [3] . corresponde a esa aglomeración y en él parece que se unen aal principio los elementos casi a la vez. En el paso segundo. Luego. en la tabla Historial de conglomeración. se une el elemento 2 al elemento 1.

4 Ejemplo 5.6-TA ___________________________________________ Después de introducir los datos y ejecutar la secuencia anterior.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 67 Figura 10. incluimos las dos variables en análisis (Figura 10.5 .5) Figura 10.

7 Figura 10.6) Figura 10.7 .6 Con el botón Opciones seleccionamos las marcadas en la Figura 10.68 ESTADÍSTICA APLICADA CON SPPS Con el botón Guardar seleccionamos las dos opciones que permite (Figura 10.

Número de casos en cada conglomerado .002 Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados.000.000 . lógicamente. Análisis de conglomerados de K medias Centros iniciales de los conglomerados Conglomerado talla 1 189. Aceptar.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 69 Pulsando los botones Continuar y. Los niveles críticos no son corregidos.00 173.00 sueldo 100.000 a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningún cambio o éste es pequeño.00 sueldo 105.385 8.333 55. La distancia mínima entre los centros iniciales es de 82.333 1 1 Error Media cuadrática 19. por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros de los conglomerados son iguales.860 .333 2 .00 2 170.058 3 100.00 175. los cuales.00 180.800 5603. obtenemos los resultados que aparecen a continuación. finalmente. Centros de los conglomerados finales Conglomerado 1 2 talla 187. son los mismos que los comentados en TA.225.33 ANOVA talla sueldo Conglomerado Media cuadrática gl 172.556 gl 3 F 8.00 Historial de iteraciones(a) Cambio en los centros de los conglomerados Iteración 1 1 2 5. El cambio máximo de coordenadas absolutas para cualquier centro es de .938 Sig. . La iteración actual es 2.

ESTADÍSTICA APLICADA CON SPPS 70 Conglomerad o Válidos Perdidos 1 2.000 2 3.000 .000 .000 5.

Identificación del modelo Los gráficos necesarios para identificar el modelo se obtienen ejecutando la secuencia Gráficos → Serie temporal → Autocorrelación Ejemplo 13. 11.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 71 Capítulo 11 Análisis de Series Temporales 11.1) Figura 11.1. Introducción El Análisis de Series Temporales se estudia en el Capítulo 13 de TA y en el 7 de TAEA.1-TA __________________________________________ Ejecutando la secuencia anterior (Figura 11.2.1 .

* .756 .120 .145 .154 .129 22.4 del texto TA. .639 . *** .104 .016 15 .097 .016 Plot Symbols: Total cases: .119 27. . . -1 -.914 . *****.004 9 -. ** . *** .5 -.25 .000 4 -.673 .423 .351 .005 10 -.000 6 -.374 .000 2 . como allí dijimos. con la excepción del primer valor que.150 .087 . *** .****** . ** .119 .002 8 -.138 18.723 .663 .004 .124 . **** . .132 22. * . Err.856 .137 19.140 16.049 .136 .ESTADÍSTICA APLICADA CON SPPS 72 Obtenemos los siguientes resultados en donde se observa que los dos últimos gráficos se corresponden exactamente con las Figuras 13.576 .127 23.134 22.021 . .001 7 -. *** . Lag Corr. es siempre igual a 1 y que aquí desaparece.007 12 . * . . .2 y 13.635 . Computable first lags: 47 . *** . . ** .75 -.124 25.151 . *** .Stand.115 30.012 14 .000 3 -. Autocorrelations * 48 ** Box- Two Standard Error Limits .005 11 -. .126 25. .  1 .000 5 -.121 27.117 28.020 . .5 .75 1 Ljung Prob. funciones ACF y PACF respectivamente.131 22.010 13 .698 .722 . Autocorrelaciones simples MODEL: MOD_2. .135 21. Autocorrelations: niveles Auto.25 0 . . .964 .122 26. * .182 .018 16 . .175 .

144 .223 . .144 . . 16 . * . .227 . *****. * .Stand. 7 8 9 10 11 -.144 . Err.144 . .104 .003 . . 6 .144 .5 . ** . Computable first lags: 47 . * Plot Symbols: Total cases: Autocorrelations * 48 . .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA Partial Autocorrelations: Lag 73 niveles Pr-Aut. Corr.144 . .576 . * .144 .012 -. Two Standard Error Limits .144 . . * * ** . 12 13 14 .188 . 2 -. **** .25 0 .022 -. 5 -.076 . * .230 .25 . ** ** .5 -.144 . **** 3 -. .144 . .103 .144 .032 .****** 1 .***** 4 .144 .144 . . -1 -.75 -.144 .093 .066 .144 .068 .144 .044 . 15 .75 1  *****.

0 -0.ESTADÍSTICA APLICADA CON SPPS 74 niveles Coeficiente 1.5 -1.0 Límite superior de confianza Límite inferior de confianza ACF 0.5 0.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 No de retardos .

así como los valores del modelo ARIMA a ajustar . Estimación de parámetros La estimación de los parámetros del modelo ARIMA(p.3.1 del texto.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 75 niveles Coeficiente 1.5 0.1-TA(continuación) ________________________________ Ejecutando la secuencia anterior a los datos del Ejemplo 13. como se indica en la Figura 11.3 en donde incluimos la variable en estudio como variable Dependiente según se indica en la Figura 11.2 aparece la ventana de diálogo de la Figura 11.q) seleccionado en la sección anterior se lleva a cabo con la secuencia Analizar → Series temporales → ARIMA Ejemplo 13.0 Límite superior de confianza Límite inferior de confianza ACF parcial 0.d.5 -1.0 -0.0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 No de retardos 11.3.

En concreto.2 Figura 11.3 Antes de preceder a ejecutar el Análisis. de manera que sólo nos dé las estimaciones finales. es conveniente modificar un tanto las Opciones. eligiendo las que aparecen en la Figura 11. . en lo que se refiere al número de iteraciones (aumentándolo). a los niveles de tolerancia (disminuyéndolos) y a la eliminación de los cálculos intermedios.4.76 ESTADÍSTICA APLICADA CON SPPS Figura 11.

Arima MODEL: MOD_1 Split group number: 1 Series length: 48 No missing data. en donde pueden verse.211065 [2] [3] . pulsando los botones Continuar y luego Aceptar. las mismas que en TA pero con el signo cambiado la del coeficiente de la Media Móvil.4 Con estas selecciones. en [3] . Conclusion of estimation phase. Melard's algorithm will be used for estimation. en [1] .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 77 Figura 11.0001 percent. FINAL PARAMETERS: Number of residuals Standard error Log likelihood AIC SBC 48 .798731 63. los valores de las estimaciones obtenidas. el de la cantidad de información de Akaike.597462 69. En [2] aparece el valor del logaritmo de la verosimilitud alcanzada y. se obtuvieron los siguientes resultados.45291761 -28. Estimation terminated at iteration number 68 because: Sum of squares decreased by less than .

ESTADÍSTICA APLICADA CON SPPS

78

Analysis of Variance:

Residuals

DF

Adj. Sum of Squares

Residual Variance

45

9,3163187

,20513437

Variables in the Model:

AR1
MA1
CONSTANT

B

SEB

T-RATIO

APPROX. PROB.

,4478397
-,2041347
2,4100066

,22299179
,24527657
,13973742

2,008324
-,832263
17,246680

,05063335
,40965538
,00000000

[1]
The following new variables are being created:
Name
FIT_1
ERR_1
LCL_1
UCL_1
SEP_1

Label
Fit for niveles from ARIMA, MOD_1 CON
Error for niveles from ARIMA, MOD_1 CON
95% LCL for niveles from ARIMA, MOD_1 CON
95% UCL for niveles from ARIMA, MOD_1 CON
SE of fit for niveles from ARIMA, MOD_1 CON

ALFONSO GARCÍA PÉREZ y
MARÍA YOLANDA CABRERO ORTEGA

79

Capítulo 12

Regresión Logística

12.1. Regresión Logística
Este Método Estadístico se estudia en el Capítulo 9 del texto TA y en el 6 de
TAEA. Su tratamiento con SPSS se basa en ejecutar la secuencia
Analizar → Regresión → Logística binaria
Ejemplo 9.1-TA ___________________________________________
Después de introducir los datos, ejecutamos la secuencia anterior, como
puede verse en la Figura 12.1

Figura 12.1

ESTADÍSTICA APLICADA CON SPPS

80

Entonces se abre una ventana de diálogo como la de la Figura 12.2 en
donde deberemos incluir la variable dependiente (necesariamente dicotómica)
en la ventana Dependiente; el resto de las covariables en Covariables,
marcando las que sean cualitativas con el botón Categórica.

Figura 12.2
Al correr ahora el programa, presionando el botón Aceptar, se obtienen los
siguientes resultados

Regresión logística
Resumen del procesamiento de los casos
Casos no ponderados(a)
Casos seleccionados

N
Incluidos en el análisis
Casos perdidos
Total

Casos no seleccionados
Total

50

Porcentaje
100,0

0

,0

50

100,0

0

,0

50

100,0

a Si está activada la ponderación, consulte la tabla de clasificación para ver el número total de casos.

Codificación de la variable dependiente
Valor original
,00
1,00

Valor interno
0
1

000 .570 1 .000 .00 Paso 0 infarto Porcentaje correcto 1.230 1 .000 .T.936 gl 1 Sig.000 1.941 Variables que no están en la ecuación Paso 0 Variables 3 Sig.000 1.235 presion(1) 3.00 26 .957 Bloque 1: Método = Por pasos hacia atrás (Wald) gl .000 . b El valor de corte es .000 2.000 1.632 7.00 19 .410 1 .00 0 33 100.000 .00 10 .00 (3) .059 .000 1. .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 81 [1] Codificaciones de variables categóricas Codificación de parámetros activi presion angina Frecuencia 9 (1) 1.00 24 1.000 Bloque 0: Bloque inicial Tabla de clasificación(a.00 43 .299 .286 Activi Edad Estadísticos globales Puntuación 2.0 a En el modelo se incluye una constante.500 Variables en la ecuación B Paso 0 Constante E.000 .000 .026 Exp(B) 1.00 12 .369 angina(1) 1.00 7 1.b) Observado Pronosticado infarto .450 activi(3) .000 1.0 Porcentaje global 66. .000 (2) .00 .00 0 17 .132 activi(2) .395 6 .273 1 . .806 1 .000 3.0 1.663 Wald 4.398 activi(1) 2.566 1 .

00 10 23 69.7 .441 6 .0 Porcentaje global Paso 4 infarto Porcentaje global a El valor de corte es .662(a) R cuadrado de Cox y Snell .912 1 .0 66.167 Bloque 3.0 .563 2 .155 R cuadrado de Nagelkerke .097 a La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de .9 Porcentaje global Paso 3 infarto 72.099 Modelo 6. Resumen de los modelos -2 log de la verosimilitud 55.056 a Un valor de chi-cuadrado negativo indica que ha disminuido el valor de chi-cuadrado con respecto al paso anterior.001.00 12 5 70.056 Modelo 3.650 1 .270 3 .163 3 58.00 1 32 97.00 0 17 .538 Bloque 6. Tabla de clasificación(a) Observado Pronosticado infarto .400 Bloque 5.118 .563 2 .6 1. b La estimación ha finalizado en el número de iteración 4 porque las estimaciones de los parámetros han cambiado en menos de .0 .0 .270 3 .208 -2.00 4 29 87.441 6 .4 1.208 Bloque 8.105 .146 Paso 1 4 60.ESTADÍSTICA APLICADA CON SPPS 82 Pruebas omnibus sobre los coeficientes del modelo Chi-cuadrado Paso 1 Paso 2(a) Paso 3(a) Paso 4(a) gl Sig.707 1 .834(a) .062 Modelo 5.441 6 .00 5 12 29.00 .0 Porcentaje global Paso 2 infarto 74.208 Modelo 8.001.453(b) .00 Paso 1 infarto Porcentaje correcto 1.00 7 10 41.500 70.062 Paso Paso -1.541(a) .2 1.099 Paso -.650 1 .171 3 . Paso 8.215 2 57.0 1.00 0 33 100.070 .

696 activi(3) .695 1.177 1 . presion.T.753 .534 Estadísticos globales Paso 4(c) Sig.328 .099 1 .674 activi(3) .408 2.092 2.174 1 .840 1 .048 3.148 1 .429 4.178 .421 .181 .007 e Paso presion(1 1.171 1 .204 1.281 activi(2) .595 activi(1) 1.978 1 .141 activi(2) .638 3.962 2. activi(1) activi(3) Paso 3(b) gl Activi Variables angina(1) Edad Estadísticos globales a Variable(s) eliminada(s) en el paso 2: activi.651 3.633 1.924 1.462 1 .107 5 .279 .919 .703 2.808 .153 1 .026 1.964 1 .017 1.253 . activi Constant e angina(1) presion(1 ) edad Constant e angina(1) 1.406 .187 activi(2) .017 activi(3) .039 .154 1.063 activi(1) angina(1) Paso 2(a) E.054 3.534 Variables Activi 1. angina.773 -.401 2.706 1 .474 Edad .154 e a Variable(s) introducida(s) en el paso 1: activi.500 1 .175 5.221 1.699 ) Constant -. Variables que no están en la ecuación Puntuación Paso 2(a) Variables 2.167 presion(1 ) edad Paso 3(a) Wald 2.192 .009 1 . .691 1 .625 1 .281 1 .064 3.111 1.559 Exp(B) -1.877 1 .894 3 .534 2. edad.223 .174 1 .083 2.816 4 .429 1.567 3 .038 .249 -.036 .596 4.744 1 .257 1 .218 4.127 1.323 .427 1.916 1 .631 1 .423 1. .154 .248 1 .295 activi(2) .520 presion(1 1.423 4(a) ) Constant .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 83 Variables en la ecuación B Paso 1(a) gl 3 Sig.134 8.036 .088 .163 1 .971 1.187 3 .120 1.349 8.987 1.497 Estadísticos globales 2.671 3.512 1 .931 .260 1.030 .094 3.589 Activi 1.812 1 .036 .000 1 .393 .187 3 .699 1 .667 activi(1) 1.

la cual aparentemente lleva a ajustes de modelos distintos a los obtenidos con BMDP ó SAS. c Variable(s) eliminada(s) en el paso 4: angina. Volviendo a correr el programa ahora sólo con Presión obtendríamos el modelo final que se ajusta. es decir.ESTADÍSTICA APLICADA CON SPPS 84 b Variable(s) eliminada(s) en el paso 3: edad. [2] Es muy interesante la codificación que realiza SPSS. . Presión. log (p/(1-p)) = 0’154 + 1’181 Presión en donde apuntamos de nuevo la diferencia de codificaciones en las variables para explicar la aparente diferencia con los resultados de otros paquetes estadísticos. que indica cuál será el modelo finalmente ajustado. la cual hemos marcado más arriba con [1]. En la última tabla hemos marcado con [2] el lugar en el que podemos observar que la única covariable de las 4 con lo que nos quedamos será la que no aparece allí.

1 . Su ejecución con SPSS consiste en la secuencia Analizar → Loglineal → General Ejemplo 10. Regresión Poisson El estudio de este tipo de modelos puede seguirse en el Capítulo 10 del texto TA y en el 6 de TAEA.1.1-TA __________________________________________ Después de introducir los datos y ejecutar la secuencia anterior. Figura 13. Figura 13.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 85 Capítulo 13 Regresión Poisson 13.1.

2 A continuación.2) la variable dependiente (es decir. . en el botón Modelo. Figura 13.3 . Figura 13. Edad y Sexo.3). elegimos la opción Personalizado y completamos la ventana de la derecha desplazando las dos covariables como Efectos principales (Figura 13. la Tasa) en la ventana Estructura de las casillas y las covariables cualitativas.86 ESTADÍSTICA APLICADA CON SPPS En la ventana que se abra después de hacer dicha selección deberemos incluir (Figura 13. en Factores.

obtenemos los resultados que aparecen a continuación.4.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 87 Después de aceptar esas selecciones con el botón Continuar.4 Una vez aceptadas éstas con el botón Continuar y ejecutando todas las selecciones con el botón Aceptar de la ventana de diálogo principal. Loglineal general Información sobre los datos N Casos Válidos 6 Perdidos 0 Casillas Válidos ponderados Casillas definidas Categorías Ceros estructurales Ceros de muestreo edad 6 6 0 0 3 sexo 2 Información sobre la convergencia(a. volvemos a la ventana de diálogo anterior.00100 . en donde elegimos las Opciones que aparecen en la Figura 13.b) Número máximo de iteraciones Tolerancia de convergencia 20 . Figura 13.

3% Residual .00] [sexo = . .b.789 [edad = 3.135 [edad = 1.1% -.00] -.066 . Límite superior Límite inferior 2.015 -.000 -.630 1.814 3.998 2 .038 1.041 1.9% -.038 -. .b) Razón de verosimilitudes Valor .015 16.7% 1.024 Residuo corregido .7% .4% .00 1 a Modelo: Poisson b Diseño: Constante + edad + sexo Estimaciones de los parámetros(b.024 Residuo tipificado .540 .985 16.036 . Contrastes de bondad de ajuste(a.023 -. .ESTADÍSTICA APLICADA CON SPPS 88 Máxima diferencia absoluta final .7% .014 -. .00] 0(a) .962 16.976 % 16.00 1 16.00] 0(a) .c) Intervalo de confianza al 95% Parámetro Constante Estimación Error típico Z Sig.00 3.171 . [sexo = .00013(c) Máxima diferencia relativa final .00 1 16.004 gl 2 Sig.024 .171 1.c) Constante [edad = 1.015 .00 1 16.7% 1.038 17.00078 Número de iteraciones 3 a Modelo: Poisson b Diseño: Constante + edad + sexo c La iteración ha convergido ya que el máximo de cambios absolutos de las estimaciones de los parámetros es inferior al criterio de convergencia especificado.131 1.039 .014 1.066 -.00 1 16.7% Recuento .328 .00 2.00] Desviación .572 [sexo = 1. [1] [2] a Este parámetro se ha definido como cero ya que es redundante.864 -2. .972 -1.998 [3] a Modelo: Poisson b Diseño: Constante + edad + sexo Residuos y recuentos de casillas(a.00] -.015 16.015 .946 4.025 -.024 -. . . .024 17.004 Chi-cuadrado de Pearson .000 -.037 -. . b Modelo: Poisson c Diseño: Constante + edad + sexo Correlaciones de las estimaciones de los parámetros(a.029 .00] [edad = 2.0% .00 Recuento 1 % 16.00 Esperado sexo .025 .002 .3% -.039 .632 [edad = 2.00] -.288 1.817 -.122 .041 -.743 -2.023 .7% 1.038 .328 1.b) Observado edad 1.

500 1 -..667 Constante [edad = 2.662 [edad = 1.604 -.00] -.495 Covarianzas de las estimaciones de los parámetros(a..604 .500 1.018 .b... Frecuencias .003 [edad = 2.329 .000 -.491 .00] -..004 a Modelo: Poisson b Diseño: Constante + edad + sexo c Los parámetros redundantes no se muestran.00] -.616 1 .00] -. Modelo de Poisson Frecuencias .022 -..00] -.501 [edad = 1. Frecuencias . -.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA Constante [edad = 1.022 1 [sexo = .c) Constante .00] -.616 -.500 ..00] [edad = 2..329 a Modelo: Poisson b Diseño: Constante + edad + sexo c Los parámetros redundantes no se muestran.501 1.00] 1 89 -.495 .003 -.00] -. Residuos corregidos Frecuencias .500 .000 .004 -. Residuos corregidos .018 [sexo = .491 [sexo = .

0 -0.ESTADÍSTICA APLICADA CON SPPS 90 Gráfico Q-Q normal de residuos corregidos 1.075 -0.075 Residuos corregidos En la mencionada salida se observa. marcado con [1] .0'171 * 1 .0 -0. la codificación que da SPSS a los parámetros del modelo.0'328 [Edad=1] -0'171 [Edad=2] -0'029 [Sexo=0] Esto hace que para un Hombre ([Sexo=0]) de 50 a 70 años ([Edad=2]) se obtenga una predicción en su tasa de supervivencia igual a log Tasa} = 2'540 .025 0.050 0.050 -0.2 0.5 -0.1 -0.5 0.025 0.2 -0.000 0.0'328 * 0 . .5 Valor normal esperado 1.000 0. En [2] aparecen las estimaciones obtenidas. haciendo iguales a cero [Edad=3] y [Sexo=1] ya que de las covariables cualitativas hay que construir el Modelo con tantas variables indicadoras como clases tengan las covariables cualitativas menos una.025 0.5 -1.0'029 * 1 = 2'34.0 0.075 -0.3 -0.025 0.050 -0.075 Residuos corregidos Gráfico Q-Q normal de residuos corregidos 0.3 Desviación de normal 0.0 -1.050 0.1 0. las cuales proporcionan el Modelo log Tasa = 2'540 .

la razón es que SPSS ajusta un modelo de la forma ∑ β Xi en donde la variable dependiente que supuestamente sigue la distribución de Poisson (habitualmente una tasa de fallo) es de la forma r = exp{.∑ β Xi } Por tanto.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 91 Observemos que en TA obtuvimos. en este caso igual a -2'34. . deberemos cambiar el signo de la tasas ajustadas con SPSS. en esta misma situación. prácticamente el mismo valor pero con signo menos. quedando. en [3]. Por último. observamos el contraste del modelo ajustado que claramente puede admitirse. como en TA.

92 ESTADÍSTICA APLICADA CON SPPS .

1 ó 2. primero debemos incluir los datos en el Editor de Datos de la forma habitual Ejemplo 2. Figura 14.1 .sav) Primero incorporamos los datos utilizando tres variables: los Días.1.1. 2 para los individuos no censurados y el 1 para los censurados. Cuadernos de Estadística Aplicad: Área de la Salud (ratas. como puede apreciarse en la Figura 14. que es la variable en observación.1. Introducción Para realizar cualquier análisis.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 93 Capítulo 14 Análisis de Supervivencia sin covariables 14. y el Estatus. el Grupo. de valores.

que no son más que las distribuciones de frecuencias de las observaciones. Tablas de Mortalidad Para obtener las Tablas de Mortalidad.ESTADÍSTICA APLICADA CON SPPS 94 14.3 . 400.2. que hemos completado incluyendo en Hora.3.2 con lo que nos aparecerá el cuadro de diálogo de la Figura 14.2) Analizar → Supervivencia → Tablas de mortalidad Figura 14. En Intervalos de Tiempo elegimos el extremo superior. ejecutamos la secuencia (Figura 14. y pedimos que los intervalos tengan amplitud 5 Figura 14. la variable en observación Días.

00 .4 Finalmente.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 95 En Estado le indicamos cuál es la variable que nos indica si el datos es censurado o no y le señalamos el valor de las que queremos obtener las distribuciones de frecuencias.4 para obtener todas las gráficas y el test de comparación de ambas poblaciones Figura 14.000 0 Proporci sobre . con el botón Aceptar. obtenemos los siguientes resultados Variable de supervivencia: Tiempos Tabla de mortalidad Momento de inicio del Controles de primer orden intervalo Grupo 0 1 Número que Número que Número Número de entra en el sale en el expuesto a eventos Proporción que intervalo intervalo riesgo terminales termina 19 0 19. En el botón Opciones elegimos las dadas por la Figura 14.

000 0 . 1 217.00 120 21 0 21.000 4 .00 0 21 0 21.00 120 19 0 19.000 1 .500 6 .000 1 .35 210 11 1 10.00 60 21 0 21.00 90 19 0 19.05 150 18 0 18.00 90 21 0 21.159 2 231.000 0 .000 0 .67 300 2 0 2.000 2 .947 Control de primer orden: Grupo .000 1 .000 1 1.000 0 .000 0 .06 180 17 0 17.25 270 6 0 6.500 2 .50 330 1 1 .00 300 1 0 1.11 210 15 0 15.05 150 20 0 20.47 240 8 0 8.500 0 .000 2 .00 30 21 0 21.000 1 .000 7 .00 60 19 0 19.57 240 4 1 3.000 0 .ESTADÍSTICA APLICADA CON SPPS 96 2 30 19 0 19.00 Mediana del tiempo de supervivencia Controles de primer orden Grupo Tiempo med.000 0 .10 180 18 1 17.57 270 1 0 1.000 6 .500 2 .000 0 .

ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 97 .

98 ESTADÍSTICA APLICADA CON SPPS .

6. 1 . en el que hemos . 14.3. Si queremos determinar estos estimadores en las poblaciones en las que se han dividido las observaciones y. Las comparaciones son exactas.571 Sig. Estimador de Kaplan-Meier y Comparación de Curvas de Supervivencia El otro método utilizado para estimar la distribución de la variable Tiempo de Fallo es el estimador de Kaplan-Meier.5 con lo que aparece el cuadro de diálogo de la Figura 14. además. comparar éstas.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 99 Comparaciones para la variable de control: Grupo Comparaciones globales a Estadístico de Wilcoxon (Gehan) gl 2.109 a. ejecutamos la secuencia (Figura 1.5) Analizar → Supervivencia → Kaplan-Meier Figura 14.

en el botón Opciones.8). Con el botón Comparar Factores indicamos los estadísticos a utilizar en la comparación de los dos grupos. . hemos incorporado la variable que forma los grupos a comparar.6 incorporado en la ventana Horas la variable en observación Días.7 Después de elegir el botón Continuar. le marcamos sólo la opción de los Gráficos de Supervivencia (Figura 14. la variable Estatus. Hemos elegido los tres posibles (Figura 14. Figura 14. en la ventana Factor.7). en la ventana Estado hemos incluido la variable que nos indica si el dato es censurado o no. es decir. Finalmente. indicando que es 2 el valor de ésta que nos proporciona los Datos no censurados.100 ESTADÍSTICA APLICADA CON SPPS Figura 14.

obtenemos los siguientes resultados: Resumen del procesamiento de los casos Censurado Grupo Nº total Nº de eventos Nº Porcentaje 1 19 17 2 10.651 1 .084 Prueba de igualdad de distribuciones de supervivencia para diferentes niveles de Grupo.103 Tarone-Ware 2.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 101 Figura 14.977 1 . Aceptar.0% Comparaciones globales Chi-cuadrado Gl Sig. presionando los botones Continuar. Log Rank (Mantel-Cox) 3. .5% Global 40 36 4 10.077 Breslow (Generalized Wilcoxon) 2.5% 2 21 19 2 9.123 1 .8 Ahora.

indicando una aceptación de la igualdad de ambas poblaciones.102 ESTADÍSTICA APLICADA CON SPPS en donde se observa primero un resumen de los datos. Finalmente aparece el gráfico de las dos curvas de supervivencia de Kaplan-Meier. a continuación los tres tests de comparación de las dos poblaciones. siendo los dos primeros tests los considerados en el texto de teoría. .

Figura 15. primero debemos incluir los datos en el Editor de Datos de la forma habitual. Introducción Para realizar cualquier análisis.1.sav) Primero incorporamos los datos como puede apreciarse en la Figura 15.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 103 Capítulo 15 Análisis de Supervivencia con covariables 15.2.1 . Cuadernos de Estadística Aplicad: Área de la Salud (globulos.1. Ejemplo 2.

2 Figura 15.2 Completamos en cuadro de diálogo como se indica en la Figura 15.3 .3 Figura 15.ESTADÍSTICA APLICADA CON SPPS 104 Si queremos realizar una Regresión de Cox ejecutaremos la secuencia Analizar -> Supervivencia -> Regresión de Cox Como puede verse en la Figura 15.

0% Casos censurados antes del evento 0 .015 [Conjunto_de_datos1] G:\charlas\globulos. de filas del archivo de trabajo Tratamiento de los datos perdidos Definición de perdidos 33 Los valores perdidos definidos por el usuario se consideran perdidos.10) ITERATE(20). Sintaxis COXREG Tiempos /STATUS=estatus(2) /STRATA=Poblacion /METHOD=BSTEP(WALD) globulos /CRITERIA=PIN(.0% Casos con tiempo negativo 0 .05) POUT(.0% 0 . Regresión de Cox Notas Resultados creados 27-abr-2011 20:21:47 Comentarios Entrada Datos G:\charlas\globulos.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 105 Si alguna de las covariables fuera categórica habría que indicárselo.sav Conjunto de datos activo Conjunto_de_datos1 Filtro <ninguno> Peso <ninguno> Segmentar archivo <ninguno> Núm. Recursos Tiempo de procesador 00 00:00:00.0% 33 100.sav Resumen del proceso de casos N Casos disponibles en el análisis Eventoa 33 100. Presionando el botón Aceptar se obtendrían los siguientes resultados.0% 33 100.0% Censurado Total Casos excluidos Porcentaje más temprano en un estrato Total Total .016 Tiempo transcurrido 00 00:00:00.0% Casos con valores perdidos 0 .0% 0 .

1 Chi-cuadrado .338 gl Cambio desde el paso anterior Sig.705 Bloque 1: Método = Por pasos hacia atrás (Wald) Pruebas omnibus sobre los coeficientes del modeloc -2 log de la Paso verosimilitud a 127.0% 33 100.0% Total 33 0 .0% Casos con valores perdidos 0 . La variable de estratos es: Poblacion Bloque 0: Bloque inicial Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 129.146 .593 b 129. Chi-cuadrado 2.0% 2 16 0 .0% 33 100.0% Casos con tiempo negativo 0 .0% Casos censurados antes del evento 0 .112 2. Variable dependiente: Tiempos Estado del estratoa Estrato Evento Censurado Porcentaje censurado 1 17 0 .0% 0 .000 .0% 0 .112 1 .0% a.146 2.705 1 2 Global (puntuación) Chi-cuadrado 2.0% Censurado Total Casos excluidos Porcentaje más temprano en un estrato Total Total a.ESTADÍSTICA APLICADA CON SPPS 106 Resumen del proceso de casos N Eventoa Casos disponibles en el análisis 33 100.112 1 .126 gl Cambio desd Sig.

338 c Cambio desde el paso anterior Sig. No obstante.338 con 1 gl Sig.126 gl Cambio desd Sig.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 107 Pruebas omnibus sobre los coeficientes del modelo Global (puntuación) -2 log de la Paso verosimilitud 1a 127. presionando el botón Aceptar .005 gl 2. Variable eliminada en el paso número 2: globulos c. Chi-cuadrado 2. Bloque inicial número 1. 0’126.275 Sig. al ser el p-valor del test. 1 Exp(B) .165 Destacamos el contraste sobre la significación de la covariable glóbulos que indica que no es significativa para explicar a la variable tiempo de fallo.008 Wald .126 a. 1 Chi-cuadrado . = . Variables introducidas en el paso número 1: globulos b.146 2.000 a. 1 . si consideramos la variable log(glóbulos) veamos lo que pasa.112 2.132 1.112 1 .126 Medias de las covariables Media globulos 29. Chi-cuadrado residual = 2.008 Variables que no están en la ecuacióna Puntuación Paso 2 globulos 2.705 2 Chi-cuadrado gl 2.4. Primero la creamos con la secuencia Transformar -> Calcular variable como indicamos en la Figura 15.112 1 .593 b 129.146 .338 gl Sig. Método = Por pasos hacia atrás (Wald) Variables en la ecuación B Paso 1 globulos ET .

4 con lo que la matriz de datos es la de la Figura 15. . Primero completamos el cuadro de diálogo.5 Figura 15.108 ESTADÍSTICA APLICADA CON SPPS Figura 15.6. Figura 15.5 Ahora repetimos el proceso anterior analizando si la nueva variable es significativa para explicar la variable Tiempos.

Sintaxis COXREG Tiempos /STATUS=estatus(2) /STRATA=Poblacion /METHOD=BSTEP(WALD) logglo /CRITERIA=PIN(.sav Conjunto de datos activo Conjunto_de_datos1 Filtro <ninguno> Peso <ninguno> Segmentar archivo <ninguno> Núm.6 obteniendo ahora los siguientes resultados.014 .016 Tiempo transcurrido 00 00:00:00. Regresión de Cox Notas Resultados creados 27-abr-2011 20:32:32 Comentarios Entrada Datos G:\charlas\globulos.05) POUT(. de filas del archivo de trabajo Tratamiento de los datos perdidos Definición de perdidos 33 Los valores perdidos definidos por el usuario se consideran perdidos.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 109 Figura 15. en donde se aprecia en el último test que sí es significativa esta nueva covariable. Recursos Tiempo de procesador 00 00:00:00.10) ITERATE(20).

403 Global (puntuación) Chi-cuadrado Gl 7.0% Casos con tiempo negativo 0 .0% Total 33 0 .0% 33 100.0% 0 .ESTADÍSTICA APLICADA CON SPPS 110 [Conjunto_de_datos1] G:\charlas\globulos. 1 Chi-cuadrado .sav Resumen del proceso de casos N a Casos disponibles en el análisis Evento 33 100.302 gl Cambio desd Sig.0% 33 100.0% a.424 Cambio desde el paso anterior Sig.302 . Variable dependiente: Tiempos Estado del estratoa Estrato Evento Censurado Porcentaje censurado 1 17 0 . Método = Por pasos hacia atrás (Wald) Variables en la ecuación Chi-cuadrado .0% Casos con valores perdidos 0 . La variable de estratos es: Poblacion Bloque 0: Bloque inicial Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 129.006 7. Bloque inicial número 1.0% 2 16 0 .705 Bloque 1: Método = Por pasos hacia atrás (Wald) Pruebas omnibus sobre los coeficientes del modelob -2 log de la Paso a 1 verosimilitud 122.0% 0 .0% Casos censurados antes del evento 0 . Variables introducidas en el paso número 1: logglo b. 1 a.007 7.0% Censurado Total Casos excluidos Porcentaje más temprano en un estrato Total Total a.

sav Conjunto de datos activo Conjunto_de_datos1 Filtro <ninguno> . 1 Exp(B) .056 Sig.ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA B Paso 1 logglo 111 ET .7 obteniendo los siguientes resultados. podríamos utilizar esta variable como covariable y analizar si es significativa cumplimentando el cuadro de diálogo como se indica en la Figura 15.616 Si queremos analizar si hay diferencias entre las dos poblaciones.378 Wald .142 gl 7.7 Figura 15.008 1.459 Medias de las covariables Media logglo 2. Regresión de Cox Notas Resultados creados 27-abr-2011 20:58:25 Comentarios Entrada Datos G:\charlas\globulos.

994 Bloque 1: Método = Por pasos hacia atrás (Wald) . Variable de categoría: Poblacion Bloque 0: Bloque inicial Pruebas omnibus sobre los coeficientes del modelo -2 log de la verosimilitud 171.05) POUT(.ESTADÍSTICA APLICADA CON SPPS 112 Peso <ninguno> Segmentar archivo <ninguno> Núm. Sintaxis COXREG Tiempos /STATUS=estatus(2) /CONTRAST (Poblacion)=Indicator /METHOD=BSTEP(WALD) Poblacion logglo /CRITERIA=PIN(.sav Resumen del proceso de casos N Casos disponibles en el análisis a Evento 33 100.0% Casos con tiempo negativo 0 .0% 33 100.10) ITERATE(20). Codificación de parámetros de indicador b.0% Censurado Total Casos excluidos Porcentaje más temprano en un estrato Total Total a.0% 0 . Variable dependiente: Tiempos Codificaciones de variables categóricasb Frecuencia Poblaciona (1) 1 17 1 2 16 0 a.0% 0 .015 Tiempo transcurrido 00 00:00:00.0% 33 100.016 [Conjunto_de_datos1] G:\charlas\globulos.0% Casos censurados antes del evento 0 . Recursos Tiempo de procesador 00 00:00:00. de filas del archivo de trabajo Tratamiento de los datos perdidos Definición de perdidos 33 Los valores perdidos definidos por el usuario se consideran perdidos.0% Casos con valores perdidos 0 .

434 Medias de las covariables Media Poblacion Logglo .ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 113 Pruebas omnibus sobre los coeficientes del modelo Global (puntuación) -2 log de la Paso verosimilitud a 1 Chi-cuadrado 157.363 Gl 15.775 1 .360 .018 .631 Cambio desd Sig.361 .8. Método = Por pasos hacia atrás (Wald) Variables en la ecuación B Paso 1 Poblacion logglo ET Wald gl Sig. 2 Chi-cuadrado .136 7. Exp(B) -1.325 b Cambio desde el paso anterior Sig.423 5. Bloque inicial número 1.068 1 .000 gl 14.008 1.616 Los p-valores 0’016 y 0’008 indican que la población sí es significativa (hay diferencias) y que log(globulos) también influye.001 a.631 .515 2. 2 Chi-cuadrado .016 . en donde le pedimos la representación de las dos curvas de supervivencia de ambas poblaciones. Variables introducidas en el paso número 1: Poblacion logglo b. 14. Si elegimos la opción del botón de gráficos del cuadro de diálogo de la Figura 15.

8 vemos gráficamente la diferencia significativa en la Figura 15.9 Figura 15.114 ESTADÍSTICA APLICADA CON SPPS Figura 15.9 .