Está en la página 1de 37

REGRESIN LOGSTICA

MULTINOMIAL
Dr. Carlos Alfonso Risco Dvila
Profesor Asociado a DE. del D.A.E.
crisco@unitru.edu.pe
I. INTRODUCCIN
Supongamos que una corporacin grande realiza un
estudio para escoger un plan de salud para sus
funcionarios y partir de tres opciones ofrecidas por la
empresa prestadora de servicios. De esta forma, la
variable en anlisis es El tipo de plan de salud
escogido, que posee naturaleza nominal y sus tres
niveles son denotados por A, B y C. Las variables
independientes utilizadas para escoger el plan de salud
son: la edad del funcionario, el tamao de su familia
y el sueldo mensual. El objetivo de este estudio es
modelar las opciones del plan de salud como una
funcin de las variables involucradas y presentar los
resultados en trminos de proporciones de escoger los
diferentes planes.
I. INTRODUCCIN
I. INTRODUCCIN
La Regresin Logstica Multinomial modela una relacin
entre variables predictoras y una variable de respuesta
categrica. Por ejemplo, una variable categrica con
tres o ms modalidades sin ordenamiento natural de los
niveles; como sabor (amargo, dulce y cido), color
(rojo, azul, negro), materia de estudio (matemticas,
ciencias, artes). A diferencia de la regresin lineal, que
predice los valores reales de la variable de respuesta,
la regresin logstica modela la probabilidad asociada
con cada nivel de la variable de respuesta, al encontrar
una relacin lineal entre variables predictoras y una
funcin de enlace de estas probabilidades; en este
caso particular la funcin es el logit.
II. FORMULACIN Y ESTIMACIN
Cuando se estudia los modelos de regresin logstica
binaria se utiliza una variable aleatoria binaria, o sea,
que poda asumir por ejemplo, apenas los valores 0 y 1.
As el modelo era parametrizado en trminos del logit
de Y= 1 versus Y= 0.
Si consideramos una coleccin de r+1 variables
independientes denotadas por X= (X
0
, X
1
,., X
r
), donde
x=(x
0
, x
1
,, x
r
) con x
0
=1 y una v.a. Y de naturaleza
nominal que puede asumir los niveles 0,1,, q.
Un abordaje anlogo a la regresin logstica binaria es
describir el logit comparndose Y= k con Y= 0 para
k{1, , q}. El valor 0 entonces es denominado
categora de referencia.
Si denotamos las funciones logit como:

=
(=
(= 0
=
0

0
+
1

1
+ +

, para k{1, , q}. (1)


donde

=
0
,

y
0
= 1.
II. FORMULACIN Y ESTIMACIN
Si asuminos n observaciones independientes de Y,
denotadas por y
1
,, y
n
, asociadas a los valores de
x
i
=(x
i0
,, x
ir
), para i{1,,n}, el logit, dado en (1), se
presenta como

1

1

=
0

10
+
1

11
+ +

1
+
1

2

2

=
0

20
+
1

21
+ +

2
+
2

=
0

0
+
1

1
++

, (2)
donde
0
= 1, para i{1,,n} y los errores,
i
siguen
las siguientes suposiciones, para todo i {1,,n}
II. FORMULACIN Y ESTIMACIN
Definicin 1. Las variables aleatorias Y
1
,, Y
n
satisfacen un modelo logstico multinomial si una
muestra de tamao uno de cada Y
i
se puede expresar
como

= 0.

= 0, .

=
exp(

)
1+exp(

)
, (3)
II. FORMULACIN Y ESTIMACIN
Donde g
ki
est obtenida por la expresin (1), para la cual
x
ij
es variable conocida y
kj
es parmetro desconocido,
los errores
i
poseen las suposiciones dadas en (2) y

() representa P(Y
i
=k/x), con i{1,,n}, j{0,,r} y
k{0,,q}.
Proposicin 1: Una expresin general para las
probabilidades condicionales en un modelo con q+1
categoras es dada por
= =
[g
k
()]

k=0
q
[g
k
()]
,
II. FORMULACIN Y ESTIMACIN
Si k=0, 1, 2.
= 1 =
[g
1
()]
1+exp g
1
+exp g
2

,
II. FORMULACIN Y ESTIMACIN
= 2 =
[g
2
()]
1+exp g
1
+exp g
2

,
= 0 =
1
1+exp g
1
+exp g
2

Proposicin 2: La variable aleatoria tiene distribucin
multinomial con media cero y varianza Var(Y/x
i
).
Proposicin 3: La funcin de verosimilitud L() para
una muestra de n observaciones independientes est
dada por
=
=1

)
0
(


0
)
1
(

(4)
donde

= (

),

= (
0,

), y i{1,,n}.
donde g
k
() est dada por la expresin (1), para
k{1,,q} y g
0
= 0.
II. FORMULACIN Y ESTIMACIN
Teorema 1: Si asumimos el contexto de la definicin 1.
Sea el vector de parmetros relacionados con las
probabilidades P (Y
i
=k/x
i
), para i{1,,n} y k{0,,q}.
Entonces el estimador de , por el mtodo de mxima
verosimilitud denotado por

, es la solucin de las
ecuaciones
) (

=
=1

(5)
Para k{1,,q}, j{0,,r} y

), con

= 1
para cualquier i.
II. FORMULACIN Y ESTIMACIN
El estimador de mxima verosimilitud,

, es obtenido
igualando cada ecuacin a cero y resolviendo el sistema
para . La solucin requiere alguna tcnica de clculo
iterativo, como el mtodo de NewtonRaphson, de la
misma forma que fue necesario para el clculo del
estimador en los modelos con variable dependiente
binaria.
II. FORMULACIN Y ESTIMACIN
III. CONTRASTES SOBRE LOS PARAMETROS
DEL MODELO
3.1 PRUEBA PARA LA SIGNIFICANCIA GLOBAL.
Para probar la significancia de los q(r+1) coeficientes en
el modelo presentado por la definicin 1, la prueba de la
razn de verosimilitud est basado en la estadstica G,
que tiene distribucin Chi Cuadrado con q(r+1)-r grados
de libertad.
= 2
sin
con
(6)
0:
11
=
12
=
21
=
22
=

= =

= 0
III. CONTRASTES SOBRE LOS PARAMETROS
DEL MODELO
3.2 PRUEBA PARA LA SIGNIFICANCIA INDIVIDUAL.
Para probar la significancia individual de los coeficientes
de regresin en el modelo presentado por la definicin
1, se usa el estadstico que tiene distribucin Chi-
Cuadrado asinttica con un grado de libertad.
0:

= 0, k=1,2, , q y j=1,2, ,r
1:

0,
=

2

2
(

)
(7)
3.3 CONTRASTES DE LA RAZN DE
VEROSIMILITUD.
Este contraste, indican que si el valor-p asociado a
cada variable predictora es menor al asumido,
= 0,05, se considera que la variable en estudio
contribuye a la formacin del modelo estimado.
III. CONTRASTES SOBRE LOS PARAMETROS
DEL MODELO
IV. BONDAD DE AJUSTE DEL MODELO
4.1 CONTRASTES DE BONDAD DE AJUSTE.
Determina si un modelo estadstico se ajusta a sus
datos, al analizar la diferencia entre sus valores
observados y sus valores esperados en el modelo.
Las pruebas de bondad de ajuste utilizan las hiptesis
siguientes:
H
0
: El modelo describe adecuadamente sus datos
H
1
: El modelo no describe adecuadamente sus datos
SPSS y Minitab muestran las pruebas de bondad de
ajuste de Pearson y de Desviacin.
4.2 CALIDAD DEL AJUSTE.
IV. BONDAD DE AJUSTE DEL MODELO
En los modelos de regresin logstica binaria, la calidad
del ajuste se mide mediante coeficientes de
determinacin conocidos como Pseudo-R2, para la
regresin logstica multinomial tambin se utilizan estos
coeficientes. De entre todos los que existen, los ms
usados son el de Mc-Fadden, el de Cox-Snell y el de
Nagelkerke.
4.2.1 Coeficiente pseudo-R2 de Mc-Fadden.
IV. BONDAD DE AJUSTE DEL MODELO
Si tenemos =2ln (), identificamos por 0 el valor
inicial de esta funcin, es decir el mnimo bajo el
modelo nulo dado slo por un trmino constante y por
el mnimo de bajo el modelo ajustado con todos los
parmetros, obtenemos la siguiente expresin del
pseudo-R2 de Mc-Fadden:
4.2.2 Coeficiente pseudo-R2 de Cox-Snell.
IV. BONDAD DE AJUSTE DEL MODELO
En este caso se utiliza directamente la funcin de
verosimilitud V, y no la funcin auxiliar . Por lo que si
denotamos por V0=exp(-0/2) el mximo de verosimilitud
bajo el modelo nulo dado slo por un trmino constante y
por Vf=exp(-/2) el mximo de verosimilitud bajo el
modelo ajustado con todos los parmetros, definimos el
coeficiente pseudo-R2 de Cox-Snell como:
4.2.3 Coeficiente pseudo-R2 de Nagelkerke.
IV. BONDAD DE AJUSTE DEL MODELO
Viene dado por la siguiente expresin:
en este caso, su rango de valores es 0

2
1, por lo que
puede interpretarse del mismo modo que el coeficiente de
determinacin de la regresin lineal clsica, aunque es ms
difcil que alcance valores cercanos a 1.
4.3 TABLAS DE CLASIFICACIN.
Estas tablas registran los estimadores correctos e
incorrectos. Las columnas representan los valores
pronosticados de la variable dependiente y las lneas
suministran los valores observados. En un modelo
perfecto, todos los casos estaran en la diagonal
principal y el porcentaje de aciertos sera de 100%.
IV. BONDAD DE AJUSTE DEL MODELO
V. APLICACIN PRCTICA CON SPSS 21
Como ejemplo se considera el archivo coches.sav que
contiene datos de una muestra de automviles y se
desea predecir su origen geogrfico (EE.UU., Europa o
Japn) disponiendo de datos sobre su potencia, peso y
aceleracin.
Para realizar un anlisis de regresin logstica
multimonial, elija en los mens: Analizar _ Regresin_
Logstica multinomial (Figura1) y seleccione las
variables y especificaciones para el anlisis (Figura 2).
Figura1 Figura 2
Figura 3
Figura 4
El botn Estadsticos permite elegir
distintos estadsticos de la
regresin logstica multinomial
(Figura 3).
El botn Guardar permite exportar
informacin del modelo al archivo
especificado (Figura 4).
En todas las figuras el botn Restablecer permite
establecer todas las opciones por defecto del sistema y
elimina del cuadro de dilogo todas las asignaciones
hechas con las variables. Una vez elegidas las
especificaciones, se pulsa el botn Aceptar en la Figura
2 para obtener los resultados del anlisis segn se
muestra en las tablas siguientes.
TABLA N 01: Prueba de la significancia global del modelo
TABLA N 02: Bondad del ajuste
TABLA N 03: Pseudos R2
TABLA N 04: Contrastes de la razn de verosimilitud
TABLA N 05: Estimacin de parmetros
APLICACIN PRCTICA
TABLA N 06: TABLA DE CLASIFICACIN
La tabla de clasificacin muestra que el poder de
clasificacin del modelo logit multinomial es bueno, ya
que se ha clasificado de modo correcto un 70% de las
observaciones conocidas, esperando que ese poder
clasificativo se proyecte a estimaciones futuras realizadas
con el modelo.
En la Tabla N 06, de clasificacin, los pronsticos para el
origen EE.UU. tiene 224 aciertos que equivale a un
acierto parcial de 88,5%, Europa tiene 13 aciertos con
13,7% y Japn con 50 ciertos que equivale a un
porcentaje correcto de 62,5%. Totalizando en general un
acierto de 70%.
En las estimaciones anteriores la categora de referencia
es Japn. Para tomar como categora de referencia
EE.UU. (valor 1 de la variable origen), rellenamos la
pantalla de entrada del procedimiento como se indica en
la Figura 05 (obsrvese la cumplimentacin del botn
Categora de referencia) y al pulsar Aceptar, se obtienen
las estimaciones de la tabla 07. Para tomar como
categora de referencia Europa (valor 2 de la variable
origen), rellenamos la pantalla de entrada del
procedimiento como se indica en la figura 06 y al pulsar
Aceptar, se obtienen las estimaciones de la tabla 08.
Figura 05
Tabla N 07
Figura 06
Tabla N 08
Las ecuaciones del mejor Logit estimado es la Tabla N 05 :
Por lo tanto, para hallar la probabilidad de que un
automvil proceda de EE.UU., dados sus valores de su
potencia, peso y aceleracin, se determina reemplazando
sus valores en la ecuacin que a continuacin se
presenta.
(. . ) =
) (6,176 0,035 + 0,014 0,097
) 1 + 6,176 0,035 + 0,014 0,097 + (3,805 0,035 + 0,008 + 0,036
REFERENCIAS BIBLIOGRFICAS
Agresti, A. (2007). An Introduction to Categorical Data Analysis.
Second Edition Florida: John Wiley & Sons, Inc.
Hosmer, D. y Lemeshow, S. (2000). Applied Logistic Regression.
Second Edition. New York: John Wiley & Sons, Inc.
Prez, C. (2005). Mtodos estadsticos Avanzados con SPSS.
Espaa: THOMSON.
Uriel, E. y Alds, J. (2005). Anlisis Multivariante Aplicado. Espaa:
THOMSON.
Quintn, M.; Cabero, M. y De Paz, Y. (2008). Tratamiento Estadstico
de datos con SPSS. Mxico: THOMSON.