P. 1
REGRESION LOGISTICA MULTIPLE

REGRESION LOGISTICA MULTIPLE

|Views: 144|Likes:
Publicado porlalocerda

More info:

Published by: lalocerda on Mar 07, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

03/07/2011

pdf

text

original

REGRESION LOGISTICA MULTIPLE (RLogM) La RLog usa los mismos símbolos que la RLS, Y observada y Y estimada.

X j y bj, representan cada una de las VI y sus coeficientes ponderados en un modelo linear algebraico: G = b0 + b1x1 + b2x2 + … + bpxp. En RLog, sin embargo, la variable blanco es la ocurrencia de un evento binario, y el valor de cada Ŷi es la probabilidad estimada de ese evento para la persona “i”. Conceptos, símbolos y transformaciones Definición de momios Si P es la probabilidad de ocurrencia un evento, la probabilidad de NO ocurrencia es Q = 1 – p. Y así, la razón P/Q son los momios. Si Ŷi es la probabilidad estimada para una ocurrencia binaria, su momio será Ŷi / (1 - Ŷi) Para facilitar los cálculos matemáticos, se prefiere trabajar con el logaritmo natural de los momios, ln (P/Q), que convierte números decimales a enteros, por tanto  ln [Ŷi / (1 - Ŷi)]  La razón para usar el ln es que el modelo linear algebraico general G es usado para ajustar el logaritmo o ln [Ŷi / (1 - Ŷi)] = G, que trasformado es Ŷi / (1 - Ŷi) = ℮G, y de aquí o Ŷi = ℮G / 1 + ℮G, lo que es llamado transformación logística de G, donde si se factoriza ℮G: Ŷi = 1 / (1 + ℮-G)  Así, si esta siendo estimado por una sola variable X, para que G = a + bX, la transformación logística es o Ŷi = 1 / 1 + ℮-(a + bX) El principal trabajo estadístico de la RL es encontrar el coeficiente más adecuado para b0 , b1 , … , bp cuando datos apropiados son analizados para N miembros de un grupo. Los coeficientes se evalúan entonces, y el modelo se ajusta para indicar le impacto de las variables individuales. La transformación logística, origina una curva de valores de G con forma sigmoidea que se aplana en los extremos. Lo que la hace atractiva al usar datos multivariables es que los limites alto y bajo de la curva, a cada lado del G = 0, representan el riesgo de que un evento binario (p ej. muerte o enfermedad) ocurra: protección (valores negativos) y riesgo (valores positivos). Esto nos lleva al hecho de que los límites algebraicos en RL son 0 y 1, así cuando G = 0, ℮-G = 1; y 1 / (1 + ℮-G) = 0.5. Formato básico de la RLog Dado que la VD se presenta como un evento binario 1 o 0, los momios de la probabilidad estimada, como ya se mencionó, son Ŷi / (1 - Ŷi), y posteriormente el modelo se trasforma al ln de los momios. El proceso, sin embargo, usa el modelo linear general G  ln [Ŷi / (1 - Ŷi)] = G = b0 + b1x1 + b2x2 + … + bkxk La transformación logística, además elimina el problema de la regresión linear que asume que la VD tiene una distribución gaussiana. Por todo lo mencionado, la el modelo de RLog es el proceso analítico más popular en epidemiología actual, habiéndose eliminado el problemas de los cálculos matemáticos complejos con el uso de programas de computadora.

En paquetes computacionales. y por tanto también L. Se obtienen las discrepancias cuadradas. Y = 0 para muerte. 2. Distancia absoluta. Rara vez usado. al final. y Y = 1 para muerte Los resultados. pero complementarios A. y Y = 1 para SV b. pero el valor estimado de Y (Ŷi) será una probabilidad entre 0 y 1. que serán examinados durante el diagnóstico de regresión. Ŷi. indicaría la probabilidad combinada (likelihood) de encontrar que los estimados. donde la forma de la curva pierde significado. Dependiendo de lo que se pretende estimar con el modelo. indica que el ajuste es malo. 3. Índices de discrepancia total Las discrepancias individuales. la congruencia individual será 1.Ŷi│. y no de una distancia dimensional. ya que lo que ofrece son límites que permiten que los coeficientes puedan ser interpretados como razones de momios (odds ratios). Mortalidad. Una vez ajustado el modelo. Si se aplican a eventos binarios.  Así. Índices de discrepancia individual Dado que el valor de un evento binario Yi. que se multiplica para formar las probabilidades (likelihood). ausente/presente. Distancia cuadrada. el modelo se ajusta y los coeficientes bj son determinados por expresar las discrepancias como congruencias. Y = 0 para SV.El modelo de RLog también utiliza aplicaciones multivariables. . serán similares. fueron correctos. La forma matemática para expresar la discrepancia probabilística es congruencia  1 -│Yi . el producto del conjunto de congruencias.│Yi . B. representan lo más cercano de una probabilidad.Ŷi son consideradas residuales. las cuales son entonces multiplicadas para formar las probabilidades (likelihoods). Es la distancia para los valore absolutos Si al sumar las discrepancias se obtienen valores altos. la RLogM es de gran utilidad cuando la VD es un simple evento binario: si/no.Ŷi)2. vivo/muerto. enfermo/sano. Expresiones alternativas de discrepancia Todas utilizan la misma formula matemática Yi . no será del mismo tipo que con las variables dimensionales.Ŷi 1. (Yi . será el valor que le demos a los datos: a. sobrevida o mortalidad. que se define como la probabilidad conjunta de ocurrencia para los datos observados bajo el modelo indicado. L = Π (1 . expresadas como congruencias. en números absolutos para que la probabilidad sea positiva  Los valores más altos de congruencia ocurren cuando el valor estimado se acerca más al actual.  Donde L es likelihood y Π multiplicatoria (como Σ es sumatoria)  Para un conjunto perfecto de estimaciones. las diferencias Yi . Cada Ŷ tiene una congruencia individual.Ŷi│). y se usa para un cálculo rápido de un modelo de chi cuadrada. Usa el principio de los cuadrados mínimos de regresión linear. Por tanto. la discrepancia entre el valor actual de Y y el estimado. será 1 o 0 (dependiendo si ocurre o no). Calculo de residuales. Sobrevida.

por lo que RL2 es raramente usada. lo que permite usar LLR como la contraparte directa. y es llamada RL2  RL2 = 1 – [(– ln LR)/( -ln L0)]  Y de la misma forma. en 2 grupos LR y LLR. Esto es debido a la propiedad que tiene la LLR de que 2 veces su valor (2 LLR) tiene una distribución de chi cuadrada que puede ser usada directamente para pruebas de significancia.  Índice Akaike . se realiza una conversión logarítmica. la proporción de la probabilidad explicada para cualquier modelo puede calcularse  RL2 = LLR / -ln L0 En RLog. mediante fórmulas complejas obtener los coeficientes α y β. La probabilidad explicada. igual que en linear. obteniéndoselas probabilidades de cada uno de los 4 eventos.│Yi . en regresión linear. La mejoría de L0 al ajustarla a LR puede expresarse como la razón de verosimilitud (RV) LR / L0. donde a mayor valor de LLR. en RLog. que posteriormente se convertirá a su log neg: -ln LR. “bondad de ajuste” y precisión en la clasificación. Un vez obtenida la – ln LR. dado que el producto de una serie grande probabilidades será un número decimal (<1) muy pequeño y difícil de manejar. Usos de la RV Así como en el modelo algebraico de regresión linear simple. la inclusión de más variables suele mejorar le ajuste del modelo. y en regresión múltiple D0 = DM + DP. Al usar la LLR en un modelo. se obtiene la L residual (LR).  Donde a menor probabilidad. que son complementarios 2 de ellos. se puede dividir en 2 partes:  -ln L0 = LLR – ln LR 1. Ajuste cuantitativo del modelo El ajuste del modelo puede se revaluado por sus éxitos cuantitativos y estocásticos. como en regresión linear (R2). por lo que se han desarrollado diferentes índices de penalización que permiten comparar los modelos con diferente número de variables y proveer una expresión “estandarizada” para el éxito de cualquier modelo logístico. de DM.Por las mismas razones mencionadas. -ln L0. injustamente se compararán con la probabilidad explicada RL2. los primeros son evaluados con “índices de probabilidad explicada”. y se elevan a la frecuencia de ocurrencia. es posible. Aplicación en RLog. la varianza de grupo es dividida en 2 partes: Syy = SM + SR. recordando. si dos modelos tienen diferente número de variables. y su log nat será log RV  LLR = ln (LR / L0) = ln LR – ln L0. mayor logaritmo Principios y aplicaciones de la L Cuando se aplica a tablas de 2 x 2. Por tanto la RV (LLR) muestra el efecto del modelo en dividir la probabilidad básica L0. mayor éxito. es la proporción de la varianza explicada por el modelo. 1. Por lo tanto. la meta es alcanzar el mejor ajuste al maximizar el valor de LR. 2. 3.Ŷi│). la RV original. LLR como prueba estocástica (aleatoria). LLR como índice de éxito. resultando entonces  ln L = Σ ln (1 .

Muchas veces se presenta como índice de validación del modelo. que después se convertirá a valor de P y se podrá usar como índice cuantitativo descriptivo del ajuste. Los valores de Y observados y estimados por el modelo pueden ser ordenados dentro de patrones “observados-menos-esperados” por medio de l aprueba de bondad de ajuste de chi cuadrada. porque únicamente ofrece un chequeo interno de los datos analizados. El índice se construye como una razón. Bondad de ajuste. Se interpreta como si fuera análogo al ABC en una prueba diagnóstica . un índice de concordancia “C” puede aplicarse a los resultados de la RLog. Esta limitado solo a los pares no similares de Yi. lo que no informa la precisión relativa de los estimados para los pares similares. y después se cuantifican los pares discordantes y concordantes. Para esto se parean todas las observaciones Yi. Se generará un valor calculado llamado X2H-L (Hosmer-Lemeshow). mejor el ajuste. lo cual es incorrecto. usando como denominador el total de pares no similares y como numerador los concordantes. 3. 2. El índice tiene 3 desventajas: 1. donde a menor valor de X2H-L. Indices de concordancia Usando técnicas de remuestreo. Una validación requiere examinación externa en un diferente grupo de datos.  Índice Schwartz Índice penalizado RH2 para la probabilidad explicada 2.

L2 barra. 1 y 2  L = b1X1 + b2X2 + b3X3 + …  Se establece un valor límite L0. la RLog tiene la ventaja de evitar la necesidad de una distribución Gaussiana multivariada. Expresión de probabilidades como momios (odds) 3. y por lo cual subsistió a pesar de un análisis matemático complicado. Teorema de Bayes para probabilidad condicional 2.  Se aplicaron los principios del análisis de varianza. ya que trabaja con valores binarios 1/0 que no siguen esta distribución. Esto aplica perfectamente en las pruebas sobre marcadores diagnósticos donde los resultados son binarios (positivo o negativo) y se estima por tanto S y E.  La desventaja es requiere que se asuma que las VI tienen una distribución Gaussiana multivariada y valores similares para varianzas individuales. los valores medios de cada grupo serían L1 y L2 barra. Por el contrario al AFD. y por lo tanto no se requiere que la VD dependiente siga una distribución Gaussiana.ANTECEDENTES MATEMÁTICOS DE LA RLogM La ecuación de RLog se deriva de la relación entre una variable dependiente (VD) binaria Y con una única variable independiente (VI) X. y su promedio corresponde a L0. Se trata por tanto de una relación entre la probabilidad de no ocurrencia sobre la de ocurrencia. 1. es que debido a que no produce una probabilidad estimada.además de que unifica 3 ideas matemáticas básicas dentro de sus estrategias estadísticas. entre las medias de los 2 grupos. se uso el AFD para 2 grupos en lugar de la RL  Introducido por Fisher en 1936  Estrategia para discriminar o separar 2 grupos. esto es: P(no ocurrencia D) / P (D). .L2 barra era mayor. Así se escogen los valores de los coeficientes bj para maximizar la distancia de la FD L1 barra . no es necesario ajustar los resultados a un rango entre 1 y 0. o En este caso el gran promedio de L barra = (n1 L1 barra + n2 L2 barra) / (n1 + n2)  Una ventaja del AFD. y después cada miembro se clasifica dentro de un grupo: L1 si Li < L0. Así. los momios en contra de la ocurrencia de dicho evento son (1-p)/p. donde los grupos serían mejor separados si los coeficientes bj para L se escogían para maximizar la relación B/W para la suma de cuadrados de ambas varianzas de grupo encontrándose esta cuando L1 barra . Momios para una probabilidad Si p es la probabilidad (prevalencia) de que ocurra un evento D. Supuesto estadístico de que lo datos siguen una distribución Gaussiana. Papel del análisis de función discriminante (AFD) Por muchos años. o L2 si Li > L0.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->