Está en la página 1de 4

ANALISIS DE REGRESION LOGISTICA MULTIPLE

INTRODUCCIN
En muchas ocasiones estaremos interesados en predecir los valores
de una variable dicotmica binaria, es decir, una variable que slo
puede tomar dos valores, los valores son complementarios y dichos
valores no son comparables, como sucede en regresin lineal.
Ejemplos de variable dependiente dicotmica pueden ser: sano o
enfermo, paga o no paga, , etc.
El modelo de regresin logstica se utiliza cuando estamos
interesados en pronosticar la probabilidad de que ocurra o no un
suceso determinado. Por ejemplo, a la vista de un conjunto de
pruebas mdicas, que una persona tenga una determinada
enfermedad, o bien que un cliente devuelva un crdito bancario.
A diferencia del anlisis discriminante que requiere la normalidad
multivariante de los datos, el anlisis de regresin logstica slo
precisa del principio de monotona, es decir, si el suceso A es que una
determinada persona padezca de artrosis y X representa la edad,
deber de ocurrir:

A diferencia del anlisis discriminante, podremos estudiar el impacto


que tiene cada una de las variables explicativas en la probabilidad de
que ocurra el suceso en estudio. El anlisis de regresin logstica es
una herramienta muy flexible en cuanto a la naturaleza de las
variables explicativas, pues stas pueden ser de escala y categricas.
REGRESION LOGISTICA MULTINOMIAL
En estadstica, la regresin logstica multinomial generaliza el mtodo
de regresin logstica para problemas multiclase, es decir, con ms de
dos posibles resultados discretos. Es decir, se trata de un modelo que
se utiliza para predecir las probabilidades de los diferentes resultados
posibles de una distribucin categrica como variable dependiente,
dado un conjunto de variables independientes (que pueden ser de
valor real, valor binario, categrico-valorado, etc.)
La regresin logstica multinomial se conoce por una variedad de
otros nombres, incluyendo regresin multiclase LR, la regresin
multinomial, Logit multinomial.
La regresin logstica multinomial se utiliza cuando la variable
dependiente en cuestin es nominal (equivalente categrica, lo que
significa que puede incluirse en una de un conjunto de categoras que
se excluyen) y para los cuales hay ms de dos categoras.

Qu tan importante ser un estudiante de universidad, teniendo


en cuenta sus calificaciones, sus gustos y disgustos, etc?

Qu tipo de sangre tiene una persona, teniendo en cuenta los


resultados de varias pruebas de diagnstico?

Qu candidato tendr el voto de una persona, teniendo en cuenta


determinadas caractersticas demogrficas?

La regresin logit es una solucin particular al problema de


clasificacin que asume que una combinacin lineal de las
caractersticas observadas y algunos parmetros especficos del
problema pueden ser utilizadas para determinar la probabilidad de
cada resultado, en particular de la variable dependiente.

FORMULACION:

Se denota como G el nmero de categoras de la variable Y y {p1g,


p2g, . . . , pig } las probabilidades de distintas respuestas que
satisfacen
pig = 1.
i

Se parte de n observaciones independientes que se localizan en las G


categoras. La distribucin de probabilidad del nmero de
observaciones de las G categoras sigue una distribucin multinomial.
Esta modeliza la probabilidad de cada una de las posibles maneras en
que n observaciones pueden repartirse entre las G categoras.
Al ser la escala de medida nominal, el orden entre las categoras es
irrelevante. Se toma una categora como respuesta base, por ejemplo
la ltima categora (G), y se define un modelo logit con respecto a
ella:

p ig
Log ( p Ig ) = og + ig*xi

Donde i = 1, . . . , I 1.

0g es la constante del modelo o trmino independiente.


i el nmero de covariables.
ig los coeficientes de las covariables.
xi las covariables que forman parte del modelo.

El modelo tiene I 1 ecuaciones con sus propios parmetros, y los


efectos varan con respecto a la categora que se ha tomado como
base.

Cuando I = 2, el modelo equivale a una nica ecuacin log (p1g/p2g)


= logit (p1) y se obtiene el modelo de regresin logstica estndar.

El modelo logit puede generalizarse para ms de dos poblaciones, es


decir, para variables respuesta cualitativas con ms de dos niveles
posibles. Supongamos G poblaciones, entonces, llamando p ig a la
probabilidad de que la observacin i pertenezca a la clase g, podemos
escribir:

Y:

Con lo que automticamente garantizamos que pig = 1. Diremos


g =1

que las probabilidades pig satisfacen una distribucin logstica


multivariante. La comparacin entre dos categoras se hace de la
forma habitual:

Esta ecuacin indica que las probabilidades relativas entre dos


alternativas no dependen del resto.

ESTIMACIN Y SIGNIFICACIN DE LOS COEFICIENTES DEL


MODELO

Sea una muestra aleatoria de n observaciones independientes de pares (xi,


yi ) para i=1,2,...,n. El objetivo es estimar el vector de parmetros = 01,
11, 21, , p1, 02, 12, , pg por el mtodo de Mxima Verosimilitud.
Las ecuaciones a resolver se obtienen derivando la funcin de verosimilitud
respecto a cada uno de los parmetros del modelo e igualando a cero. Las
soluciones de estas ecuaciones son los estimadores mximo verosmiles de
cada uno de los componentes del vector de parmetros. Asimismo, de
acuerdo al mtodo de estimacin por mxima verosimilitud, los estimadores
de las varianzas y covarianzas se obtienen a partir de las derivadas
parciales segundas de la funcin de verosimilitud. Para comprobar la
significacin estadstica de cada uno de los coeficientes de regresin en el
modelo se puede utilizar, entre otros, el test de Wald y el test de razn de
verosimilitudes.

INTERPRETACIN DE LOS COEFICIENTES ESTIMADOS

También podría gustarte