Está en la página 1de 10

Anlisis de datos con SPSS M.

Dolores Paz Caballero

PRCTICAS RESUELTAS

Prctica 8.1

Para analizar qu variables pueden predecir la enfermedad de Alzheimer, se ha


utilizado una muestra aleatoria de 50 sujetos con edades comprendidas entre 65 y
75 aos (23 de ellos con Alzheimer diagnosticado) y se han obtenido datos de las
siguientes variables:

- Sexo (1: varn, 2: mujer)


- Nivel socio-econmico (1: bajo, 2: medio, 3: alto)
- Antecedentes familiares (0: no, 1: s)
- Nivel de estudios (1: bajo, 2: medio, 3: medio-alto, 4: superior)

Los datos estn en el archivo log1.sav

SOLUCIN:

Puesto que se trata de predecir una variable (presencia: 1 o ausencia: 0 de la


enfermedad de Alzheimer) a partir de una serie de variables, la tcnica estadstica
a utilizar es la regresin mltiple. Teniendo en cuenta que el criterio o variable
dependiente es una variable dicotmica, el modelo de regresin adecuado es el de
la Regresin logstica binaria.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Seleccionamos un procedimiento de seleccin de variables, por ejemplo, "Adelante


condicional" y recodificamos las variables categricas con ms de dos categoras:
nivel socio-econmico y nivel de estudios.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

RESULTADOS

De la ventana de resultados del SPSS se han seleccionado slo las tablas de


inters.

Alzheimer

Porcentaje Porcentaje
Frecuencia Porcentaje vlido acumulado
Vlidos no 27 54,0 54,0 54,0
s 23 46,0 46,0 100,0
Total 50 100,0 100,0

Tabla de clasificacina,b

Pronosticado

Alzheimer Porcentaje
Observado no s correcto
Paso 0 Alzheimer no 27 0 100,0
s 23 0 ,0
Porcentaje global 54,0
a. En el modelo se incluye una constante.
b. El valor de corte es ,500

Como puede observarse, si clasificamos a los sujetos al azar el porcentaje de


clasificaciones correctas sera el 54%.
Puesto que el 46% de los sujetos de la muestra padece la enfermedad y el 54% no,
a cualquier sujeto de la poblacin a la que nuestra muestra representa le
asignaramos una probabilidad de 0.46 de padecer Alzheimer y de 0.54 de no
padecerlo. Si tuviramos que clasificarlo en el grupo de los Alzheimer o de los
sanos le asignaramos a este ltimo grupo, puesto que tiene una probabilidad mayor
de pertenecer a l. Ahora bien, nos confundiramos en un 46% de los casos.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Variables que no estn en la ecuacin

Puntuacin gl Sig.
Paso Variables SEXO 2,630 1 ,105
0 NSECON 13,768 2 ,001
NSECON(1) 12,884 1 ,000
NSECON(2) ,725 1 ,395
ANTECE 13,360 1 ,000
ESTUDIOS 15,275 3 ,002
ESTUDIOS(1) 10,546 1 ,001
ESTUDIOS(2) ,152 1 ,697
ESTUDIOS(3) 3,224 1 ,073
Estadsticos globales 27,869 7 ,000

En la tabla anterior podemos ver qu variables son las que estn relacionadas con la
presencia de la enfermedad.
- Vemos que no hay relacin estadsticamente significativa con el sexo (p=.105)
- Respecto al nivel socio-econmico, hay diferencias en la proporcin de pacientes
con Alzheimer entre el nivel bajo y el alto, pero no entre el medio y el alto. Vase
cmo p<0.001 para NSE(1) y p=.395 para NSE(2) y recurdese que la variable
NSE1 tiene dos niveles: bajo y alto, mientras que los niveles de NSE2 son medio y
alto.
- Existe relacin entre tener antecedentes familiares con Alzheimer y desarrollar
la enfermedad (p<0.001).
- Por ltimo, respecto al nivel de estudios, las diferencias son significativas para
Estudios(1). Es decir, existen diferencias en la proporcin de pacientes slo entre
nivel bajo y nivel superior (p=0.001).

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Variables en la ecuacin

B E.T. Wald gl Sig. Exp(B)


Paso
a
ANTECE 2,294 ,663 11,968 1 ,001 9,917
1 Constante -1,253 ,463 7,324 1 ,007 ,286
Paso
b
ANTECE 2,120 ,774 7,499 1 ,006 8,330
2 ESTUDIOS 4,029 3 ,258
ESTUDIOS(1) 10,655 37,782 ,080 1 ,778 42396,262
ESTUDIOS(2) 9,389 37,778 ,062 1 ,804 11956,008
ESTUDIOS(3) 8,543 37,779 ,051 1 ,821 5132,266
Constante -10,291 37,777 ,074 1 ,785 ,000
Paso
c
NSECON ,100 2 ,951
3 NSECON(1) 19,990 97,103 ,042 1 ,837 4,8E+08
NSECON(2) -,279 1,170 ,057 1 ,812 ,757
ANTECE 1,196 1,034 1,338 1 ,247 3,308
ESTUDIOS 1,829 3 ,609
ESTUDIOS(1) 12,465 107,872 ,013 1 ,908 259231,5
ESTUDIOS(2) 10,960 107,869 ,010 1 ,919 57505,382
ESTUDIOS(3) ,871 123,971 ,000 1 ,994 2,389
Constante
-11,568 107,870 ,012 1 ,915 ,000

Paso
c
NSECON ,098 2 ,952
4 NSECON(1) 20,802 97,354 ,046 1 ,831 1,1E+09
NSECON(2) ,230 1,000 ,053 1 ,818 1,259
ESTUDIOS 2,233 3 ,525
ESTUDIOS(1) 12,539 110,363 ,013 1 ,910 278993,8
ESTUDIOS(2) 10,971 110,361 ,010 1 ,921 58175,254
ESTUDIOS(3) ,589 126,366 ,000 1 ,996 1,801
Constante -11,358 110,362 ,011 1 ,918 ,000
a. Variable(s) introducida(s) en el paso 1: ANTECE.
b. Variable(s) introducida(s) en el paso 2: ESTUDIOS.
c. Variable(s) introducida(s) en el paso 3: NSECON.

En esta tabla vemos qu variables son las que han entrado en la ecuacin de
regresin y en qu orden lo han hecho:

- En el primer paso se incluye en la ecuacin la variable "Antecedentes familiares".


- A continuacin se incluye la variable Nivel de estudios".
- En el paso 3 entre la variable "Nivel socio-econmico".
- En el paso 4 la variable "Antecedentes familiares" es exluida de la ecuacin. Esta
variable, pues, es una variable redundante: una vez que se han considerado las
otras dos: nivel socio-econmico y nivel de estudios, no mejora significativamente
la prediccin de la enfermedad de Alzheimer al ser considerada en la ecuacin.
POR TANTO, las variables que predicen la enfermedad son el nivel socio-econmico
y el nivel de estudios.
Veamos en la tabla siguiente, cul es el porcentaje de casos que podemos clasificar
o predecir correctamente con estas variables.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Tabla de clasificacina

Pronosticado

Alzheimer Porcentaje
Observado no s correcto
Paso 1 Alzheimer no 21 6 77,8
s 6 17 73,9
Porcentaje global 76,0
Paso 2 Alzheimer no 22 5 81,5
s 4 19 82,6
Porcentaje global 82,0
Paso 3 Alzheimer no 23 4 85,2
s 3 20 87,0
Porcentaje global 86,0
Paso 4 Alzheimer no 25 2 92,6
s 6 17 73,9
Porcentaje global 84,0
a. El valor de corte es ,500

Como podemos observar, en el paso 4, es decir, con las variables "nivel de estudios"
y "nivel socio-econmico" podemos clasificar correctamente el 84% de los casos
frente al 54% que podamos clasificar al azar. Podemos, entonces, asignar a
cualquier persona una probabilidad de 0.46 de que entre los 65 y 75 padezca
Alzheimer, y, en consecuencia, asignarla al grupo de los sujetos sanos. Ahora bien,
si nosotros tenemos en cuenta el nivel de estudios y el nivel socio-econmico de la
persona, utilizamos la ecuacin de regresin logstica para predecirle una
probabilidad de tener la enfermedad y decidimos en funcin de que esa
probabilidad pronosticada sea mayor o menos que 0.50, acertaramos en un 84% de
los casos (mejoraramos las predicciones en un 30% sobre el azar).

Por ejemplo, tenemos una mujer de 50 aos, con un nivel socioeconmico medio y un
nivel de estudios tambin medio. En principio, la probabilidad de que padezca
Alzheimer entre los 65 y 75 aos sera 0.46. As pues, es ms probable que no lo
padezca.
Vemos qu ocurre si tenemos en cuenta los resultados de nuestro estudio. En el
ltimo paso de la tabla "Variables en la ecuacin" tenemos los pesos b de las
variables, as que los utilizamos para elaborar la ecuacin de regresin logstica:

- Frmula de la funcin logstica:

P(Y=1) = 1/ 1+e -(b0 + b1X1 + b2X2+..bkXk)


- Valores de los pesos:
b0 NSECON(1) NSECON(2) ESTUDIOS(1) ESTUDIOS(2) ESTUDIOS(3)
constante
-11.358 20.802 0.23 12.539 10.971 0.589

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Valores del sujeto (mujer, nivel socio-econmico bajo y nivel de estudios medio)
Sexo= 2
NSECON(1)= 1
NSECON(2)= 0
ESTUDIOS(1)= 0 P(Y=1) = 1/ 1+e -(-11.358 + 20.802 + 10.971)= 1
ESTUDIOS(2)= 1
ESTUDIOS(3)= 0

As pues, con una probabilidad tan alta (mxima) de padecer Alzheimer, la


asignaramos al grupo de pacientes.

El SPSS nos da la opcin de guardar para cada sujeto de la muestra la probabilidad


que le predice de puntuar 1 en el criterio y el grupo al que se le asigna.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Como vemos, las puntuaciones del sujeto 44 coinciden con las consideradas en el
ejemplo.

Prctica 8.2

En esta prctica vamos a centrarnos en la importancia de los distintos tipos de


error.
Consideremos los datos del ejemplo anterior (log1.sav): Tenemos una muestra de
50 sujetos entre 65 y 75 aos (23 enfermos de Alzheimer y 27 sanos), de los que
hemos obtenido informacin en las siguientes variables:

- Sexo (1: varn, 2: mujer)


- Nivel socio-econmico (1: bajo, 2: medio, 3: alto)
- Antecedentes familiares (0: no, 1: s)
- Nivel de estudios (1: bajo, 2: medio, 3: medio-alto, 4: superior)

Aplicado el anlisis de regresin logstica (con el mtodo de seleccin de variables


"Adelante condicional") se obtienen los siguientes resultados:

9 Las variables que predicen la ocurrencia de Alzheimer son el nivel socio-


econmico y el nivel de estudios.
9 Con estas variables podemos clasificar correctamente el 84% de los casos.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Tabla de clasificacina

Pronosticado

Alzheimer Porcentaje
Observado no s correcto
Paso 4 Alzheimer no 25 2 92,6
s 6 17 73,9
84,0
a. El valor de corte es ,500

Como podemos observar en la tabla de clasificacin, de los 27 sujetos sanos, 25


son correctamente clasificados y hay 2 falsos positivos (se les pronostica
incorrectamente la enfermedad). Por otra parte, de los 23 pacientes, 17 son
correctamente clasificados y 6 seran catalogados incorrectamente como sanos
(falsos negativos). Del 16% de errores que cometemos, un 4% son falsos positivos y
un 12% falsos negativos.
Vamos a suponer que esta clasificacin la hacemos para ver qu sujetos vamos a
incluir en un programa de prevencin de la enfermedad. En este caso, el meter en
el programa a un sujeto que no tiene riesgo de padecer Alzheimer no tiene
excesiva importancia (supone solo una prdida econmica). Ms peligroso es dejar
fuera del programa a un futuro paciente. As pues, lo que nos interesara sera
cometer el mnimo nmero de falsos negativos. Cmo lo hacemos?

Antes hemos comentado que el criterio que utiliza el SPSS para asignar cada
sujeto a uno de los grupos es el siguiente:

- Si la probabilidad que le asigna el modelo de obtener 1 en el criterio es


0.50 o mayor se le asigna al grupo 1.
- Si dicha probabilidad es menor que 0.5 se le asigna al grupo 0.

Ahora bien, nosotros podemos cambiar ese punto de corte. Si queremos minimizar
los falsos positivos debemos subirlo. Por el contrario, si lo que nos interesa, como
en este caso, es minimizar los falsos negativos, tendremos que ponerlo por debajo
de 0.5. Veamos qu pasa en el ejemplo anterior si ponemos el punto de corte en
0.45.

Prcticas tema 8
Anlisis de datos con SPSS M. Dolores Paz Caballero

Tabla de clasificacina

Pronosticado

Alzheimer Porcentaje
Observado no s correcto
Alzheimer no 22 5 81,5
s 3 20 87,0
84,0
a. El valor de corte es ,450

Como podemos observar, aunque seguimos cometiendo el 16% de errores, ahora el


porcentaje de falsos negativos (no se les predice Alzheimer cuando padecen la
enfermedad) es 3/50 x 100, es decir, el 6%.

Prcticas tema 8

También podría gustarte