Documentos de Académico
Documentos de Profesional
Documentos de Cultura
534-Texto Del Artículo-1766-1-10-20111026 PDF
534-Texto Del Artículo-1766-1-10-20111026 PDF
Psicológica y Educativa
Evaluar, 6 (2006), 52 – 67
ISSN 1667-4545
ARTICULO METODOLÓGICO
Fundamentos del Análisis de Regresión Logística en la Investigación Psicológica
Ana María Alderete1*
* Universidad Nacional de Córdoba
Resumen. En este artículo se presenta el modelo de regresión logística, apropiado para predecir una
variable categórica dicotómica. Esta situación es muy común en la investigación psicológica y en
otras disciplinas de las ciencias sociales. Este modelo tiene ventajas sobre el análisis discriminante al
no requerir supuestos como el de normalidad o de homocedasticidad, que en muchos casos son
difíciles de cumplir. Por otro lado, la regresión logística tiene semejanzas con la regresión múltiple:
cuenta con contrastes estadísticos, puede incorporar efectos no lineales y permite realizar diversos
diagnósticos. En la actualidad este método es ampliamente utilizado tanto en estudios
observacionales como de encuesta y experimentales. Se presentan de manera sencilla los
fundamentos lógicos y estadísticos del método, ilustrándose con un ejemplo los procedimientos de
cálculo e interpretación de los resultados.
Palabras clave: regresión logística - análisis multivariado - datos categóricos
1. Introducción
1
Por favor dirigir la correspondencia relacionada con este artículo a:
Ana María Alderete
Lic. en Psicología – Profesora Titular de la Cátedra de Metodología de Investigación,
Facultad de Psicología, UNC
Dirección : Manuel Carlés 3688 CP 5008, Córdoba, Argentina
Teléfono: (351) 4767924
E-mail: aldereteanam@yahoo.com.ar
52
Ana María Alderete / Evaluar, 6 (2006), 52 – 67 53
Tabla 1.
Evaluación de los niños según estado nutricional y pauta de crianza (N = 400)
Estado Nutricional
Pauta de Crianza Total
Malnutrido Eutrófico
79 121 200
Indiferente
(.395) (.605) (1.00)
45 155 200
Democrático
(.225) (.775) (1.00)
Total 106 194 400
RPC > 1 quiere decir que la probabilidad de observar un mal nutrido es mayor en el primer
grupo (pauta paterna negligente) que en el segundo. Un inconveniente es que la RPC no es
aditivamente simétrica. Una mayor presencia de mal nutridos para el primer grupo que para
el segundo producirá valores de RPC que varían entre 1 y + ∞ mientras que una mayor
presencia de mal nutridos en el segundo grupo que en el primero producirá valores de RPC
que varían entre 0 y 1, por lo que los rangos no son comparables. Como la RPC es
multiplicativamente simétrica, se utiliza el logaritmo natural de la RPC que es una cantidad
que varía -∞ y + ∞, siendo 0 donde el efecto es nulo. En nuestro ejemplo el log (2.24) = .806
Grafico 2.
Relación pobremente ajustada
Hosmer y Lebeshow (1989) han desarrollado una prueba de la bondad del ajuste en
relación a la clasificación. El procedimiento consiste en dividir los casos en
aproximadamente 10 clases y comparar para cada clase las frecuencias de los casos
observados con los casos predichos, utilizando para ello Chi cuadrado. Este procedimiento
proporciona una medida global de la capacidad predictiva del modelo que no se basa en el
valor de verosimilitud sino en la predicción real de la variable dependiente. Una restricción
en su uso es que se necesita contar con una muestra grande que asegure por lo menos cinco
observaciones en cada grupo. Por otro lado Chi cuadrado es sensible al tamaño muestral y se
puede encontrar significación estadística en diferencias pequeñas al aumentar el tamaño de la
muestra. Algunos autores como Hair y Anderson (1999) recomiendan utilizar varios
procedimientos para evaluar la bondad del ajuste del modelo.
Para evaluar el ajuste global se han construido medidas similares al coeficiente de
determinación (Hair y colaboradores, 1999; Ato y López, 1996), en donde se define al
coeficiente de determinación de la siguiente manera:
− 2 LL ( nulo ) − 2 LL ( modelo)
R2L=
- 2LL(nulo)
Donde: -2LL (nulo): es 2 veces el logaritmo de la verosimilitud del modelo nulo o
inicial y –2LL (modelo): es 2 veces el logaritmo de la verosimilitud del modelo a evaluar. El
valor de –2LL (nulo) es equivalente a la Suma de los Cuadrados Total en la regresión lineal y el
valor de –2LL (modelo) es equivalente a la Suma de los Cuadrados Residual. Este coeficiente es
una medida aproximada de la eficacia predictiva del modelo. Como un coeficiente de
determinación, cuando la explicación de la varianza de la variable dependiente por el
predictor es nula el R2L = 0 y cuando es perfecta R2L = 1. Sin embargo, hay que ser
cuidadosos en la interpretación porque la variación en el coeficiente de la regresión logística
es diferente. Ato y López (1996) señalan que el ajuste lineal suele producir un coeficiente de
determinación mayor, por lo cual el coeficiente R2L subestima la proporción de varianza
explicada por el modelo de regresión logística. En paquetes estadísticos como el SPSS se
presentan dos modificaciones de este coeficiente. Uno de ellos es el estadístico Coeficiente
R2L de Cox y Snell que se computa de la siguiente manera:
2/ N
2 − 2 LL ( nulo )
R L = 1−
− 2 LL ( modelo)
Ana María Alderete / Evaluar, 6 (2006), 52 – 67 59
Donde: -2LL (nulo) es la desviancia del modelo nulo solo o con una constante, sin
incorporar las variables predictoras, –2LL (modelo) es la desviancia del modelo con las variables
predictoras y N es el tamaño de la muestra. Como el valor máximo de esta medida no alcanza
1, Nagelkerke propuso una modificación que incrementa el coeficiente de Cox y Snell para
obtener un valor máximo de 1.
Coeficiente R 2L de Nagelkerke
2/ N
− 2 LL ( nulo)
1−
R 2L = - 2LL(modelo)
1 − (2 LL ( (modelo) )
2/ N
Tabla 2.
Tabla de clasificación de los casos observados
Tabla de clasificacióna,b
Casos Pronosticados
Tipo de Trastorno Porcentaje
Correcto
Casos Observados Autismo Disfasia
Paso 0 Tipo de Trastorno Autismo 105 0 100,0
Disfasia 95 0 ,0
Porcentaje Global 52,5
a. Se incluye constante en el modelo
b. El valor del punto de corte es: 0,50
Tabla 4.
Pruebas ómnibus sobre los coeficientes del Modelo
Chi-square df Sig.
Paso 1 Paso 216,912 1 ,000
Bloque 216,912 1 ,000
Modelo 216,912 1 ,000
Paso 2 Paso 8,924 1 ,003
Bloque 225,836 2 ,000
Modelo 225,836 2 ,000
Paso 3 Paso 5,043 1 ,025
Bloque 230,879 3 ,000
Modelo 230,879 3 ,000
Obsérvese que hay una disminución del –2LL, en relación al primer paso, el -2LL
menor corresponde al tercer modelo. Recuérdese que cuando menor es -2 LL, mayor es la
verosimilitud y mejor el ajuste del modelo. Los coeficientes de determinación R2L son altos y
aumentan en el segundo y tercer modelo. El coeficiente de Nagelkerke del último modelo es
.914, teniendo en cuenta que el valor máximo es 1 podemos decir que es un coeficiente alto,
que un importante porcentaje de la varianza es explicada por las variables predictoras
introducidas en el modelo. El programa proporciona también los resultados de la prueba de
Hosmer y Lemeshow para cada modelo, basado en la comparación entre los casos observados
y los casos pronosticados.
Tabla 6.
Prueba de Hosmer y Lemeshow
Tabla 7.
Tabla de Clasificación
Classification Tablea
Casos pronosticados
Tipo de Trastorno Porcentaje
Correcto
Casos Observados Autismo Disfasia
Paso 1 Tipo de Trastorno Autismo 105 0 100,0
Disfasia 11 84 88,4
Porcentaje Global 94,5
Paso 2 Tipo de Trastorno Autismo 94 11 89,5
Disfasia 3 92 96,8
Porcentaje Global 93,0
Paso 3 Tipo de Trastorno Autismo 98 7 93,3
Disfasia 4 91 95,8
Porcentaje Global 94,5
a. Valor del punto de corte 0,50
6. Discusión
Referencias
Ato García, M. Y López García, J. J. (1996). Análisis estadístico para datos categóricos.
Madrid. Editorial Síntesis.
Cortada de Cohan, N. (2004). Teoría de Respuesta al Ítem. Evaluar, 4, 95-110.
Ferreres Traver, D; Hidalgo Aliste, A. M. y Muñiz, J. (2000). Detección del Funcionamiento
Ana María Alderete / Evaluar, 6 (2006), 52 – 67 67