REGRESION LOGISTICA MULTIPLE (RLogM) La RLog usa los mismos símbolos que la RLS, Y observada y Y estimada.

X j y bj, representan cada una de las VI y sus coeficientes ponderados en un modelo linear algebraico: G = b0 + b1x1 + b2x2 + … + bpxp. En RLog, sin embargo, la variable blanco es la ocurrencia de un evento binario, y el valor de cada Ŷi es la probabilidad estimada de ese evento para la persona “i”. Conceptos, símbolos y transformaciones Definición de momios Si P es la probabilidad de ocurrencia un evento, la probabilidad de NO ocurrencia es Q = 1 – p. Y así, la razón P/Q son los momios. Si Ŷi es la probabilidad estimada para una ocurrencia binaria, su momio será Ŷi / (1 - Ŷi) Para facilitar los cálculos matemáticos, se prefiere trabajar con el logaritmo natural de los momios, ln (P/Q), que convierte números decimales a enteros, por tanto  ln [Ŷi / (1 - Ŷi)]  La razón para usar el ln es que el modelo linear algebraico general G es usado para ajustar el logaritmo o ln [Ŷi / (1 - Ŷi)] = G, que trasformado es Ŷi / (1 - Ŷi) = ℮G, y de aquí o Ŷi = ℮G / 1 + ℮G, lo que es llamado transformación logística de G, donde si se factoriza ℮G: Ŷi = 1 / (1 + ℮-G)  Así, si esta siendo estimado por una sola variable X, para que G = a + bX, la transformación logística es o Ŷi = 1 / 1 + ℮-(a + bX) El principal trabajo estadístico de la RL es encontrar el coeficiente más adecuado para b0 , b1 , … , bp cuando datos apropiados son analizados para N miembros de un grupo. Los coeficientes se evalúan entonces, y el modelo se ajusta para indicar le impacto de las variables individuales. La transformación logística, origina una curva de valores de G con forma sigmoidea que se aplana en los extremos. Lo que la hace atractiva al usar datos multivariables es que los limites alto y bajo de la curva, a cada lado del G = 0, representan el riesgo de que un evento binario (p ej. muerte o enfermedad) ocurra: protección (valores negativos) y riesgo (valores positivos). Esto nos lleva al hecho de que los límites algebraicos en RL son 0 y 1, así cuando G = 0, ℮-G = 1; y 1 / (1 + ℮-G) = 0.5. Formato básico de la RLog Dado que la VD se presenta como un evento binario 1 o 0, los momios de la probabilidad estimada, como ya se mencionó, son Ŷi / (1 - Ŷi), y posteriormente el modelo se trasforma al ln de los momios. El proceso, sin embargo, usa el modelo linear general G  ln [Ŷi / (1 - Ŷi)] = G = b0 + b1x1 + b2x2 + … + bkxk La transformación logística, además elimina el problema de la regresión linear que asume que la VD tiene una distribución gaussiana. Por todo lo mencionado, la el modelo de RLog es el proceso analítico más popular en epidemiología actual, habiéndose eliminado el problemas de los cálculos matemáticos complejos con el uso de programas de computadora.

Una vez ajustado el modelo.Ŷi│. las diferencias Yi . será 1 o 0 (dependiendo si ocurre o no). no será del mismo tipo que con las variables dimensionales. En paquetes computacionales. fueron correctos. Expresiones alternativas de discrepancia Todas utilizan la misma formula matemática Yi . el modelo se ajusta y los coeficientes bj son determinados por expresar las discrepancias como congruencias. Índices de discrepancia individual Dado que el valor de un evento binario Yi. . indica que el ajuste es malo. expresadas como congruencias.Ŷi│). ya que lo que ofrece son límites que permiten que los coeficientes puedan ser interpretados como razones de momios (odds ratios). la congruencia individual será 1. Ŷi. Sobrevida. será el valor que le demos a los datos: a. Calculo de residuales. pero el valor estimado de Y (Ŷi) será una probabilidad entre 0 y 1. la RLogM es de gran utilidad cuando la VD es un simple evento binario: si/no.Ŷi son consideradas residuales. La forma matemática para expresar la discrepancia probabilística es congruencia  1 -│Yi . vivo/muerto. Y = 0 para muerte. las cuales son entonces multiplicadas para formar las probabilidades (likelihoods). que se multiplica para formar las probabilidades (likelihood). donde la forma de la curva pierde significado. Distancia cuadrada. representan lo más cercano de una probabilidad. y Y = 1 para muerte Los resultados. y se usa para un cálculo rápido de un modelo de chi cuadrada. Dependiendo de lo que se pretende estimar con el modelo. Y = 0 para SV. Rara vez usado. el producto del conjunto de congruencias. Es la distancia para los valore absolutos Si al sumar las discrepancias se obtienen valores altos. pero complementarios A. Usa el principio de los cuadrados mínimos de regresión linear. Mortalidad. y por tanto también L. sobrevida o mortalidad. que se define como la probabilidad conjunta de ocurrencia para los datos observados bajo el modelo indicado. enfermo/sano.El modelo de RLog también utiliza aplicaciones multivariables. 2. Por tanto. 3. Si se aplican a eventos binarios.  Donde L es likelihood y Π multiplicatoria (como Σ es sumatoria)  Para un conjunto perfecto de estimaciones. (Yi . en números absolutos para que la probabilidad sea positiva  Los valores más altos de congruencia ocurren cuando el valor estimado se acerca más al actual. al final.Ŷi 1. serán similares. la discrepancia entre el valor actual de Y y el estimado.Ŷi)2. que serán examinados durante el diagnóstico de regresión. Índices de discrepancia total Las discrepancias individuales. Se obtienen las discrepancias cuadradas. ausente/presente. B. y no de una distancia dimensional. y Y = 1 para SV b.  Así. Cada Ŷ tiene una congruencia individual. indicaría la probabilidad combinada (likelihood) de encontrar que los estimados. L = Π (1 . Distancia absoluta.│Yi .

y es llamada RL2  RL2 = 1 – [(– ln LR)/( -ln L0)]  Y de la misma forma. se puede dividir en 2 partes:  -ln L0 = LLR – ln LR 1. la proporción de la probabilidad explicada para cualquier modelo puede calcularse  RL2 = LLR / -ln L0 En RLog. 1. recordando. dado que el producto de una serie grande probabilidades será un número decimal (<1) muy pequeño y difícil de manejar. LLR como prueba estocástica (aleatoria). por lo que se han desarrollado diferentes índices de penalización que permiten comparar los modelos con diferente número de variables y proveer una expresión “estandarizada” para el éxito de cualquier modelo logístico. en RLog.  Índice Akaike . mayor logaritmo Principios y aplicaciones de la L Cuando se aplica a tablas de 2 x 2. en regresión linear. que posteriormente se convertirá a su log neg: -ln LR. Por lo tanto. que son complementarios 2 de ellos. injustamente se compararán con la probabilidad explicada RL2. se realiza una conversión logarítmica. la varianza de grupo es dividida en 2 partes: Syy = SM + SR. mediante fórmulas complejas obtener los coeficientes α y β.│Yi . los primeros son evaluados con “índices de probabilidad explicada”. La probabilidad explicada. 2.Por las mismas razones mencionadas. donde a mayor valor de LLR. es posible. obteniéndoselas probabilidades de cada uno de los 4 eventos.Ŷi│). la meta es alcanzar el mejor ajuste al maximizar el valor de LR. -ln L0. Usos de la RV Así como en el modelo algebraico de regresión linear simple. Esto es debido a la propiedad que tiene la LLR de que 2 veces su valor (2 LLR) tiene una distribución de chi cuadrada que puede ser usada directamente para pruebas de significancia. y su log nat será log RV  LLR = ln (LR / L0) = ln LR – ln L0. y en regresión múltiple D0 = DM + DP. si dos modelos tienen diferente número de variables. Ajuste cuantitativo del modelo El ajuste del modelo puede se revaluado por sus éxitos cuantitativos y estocásticos. Un vez obtenida la – ln LR. LLR como índice de éxito. resultando entonces  ln L = Σ ln (1 . en 2 grupos LR y LLR. 3. lo que permite usar LLR como la contraparte directa. y se elevan a la frecuencia de ocurrencia. “bondad de ajuste” y precisión en la clasificación.  Donde a menor probabilidad. La mejoría de L0 al ajustarla a LR puede expresarse como la razón de verosimilitud (RV) LR / L0. la RV original. por lo que RL2 es raramente usada. se obtiene la L residual (LR). la inclusión de más variables suele mejorar le ajuste del modelo. Por tanto la RV (LLR) muestra el efecto del modelo en dividir la probabilidad básica L0. Al usar la LLR en un modelo. es la proporción de la varianza explicada por el modelo. de DM. igual que en linear. como en regresión linear (R2). Aplicación en RLog. mayor éxito.

  Índice Schwartz Índice penalizado RH2 para la probabilidad explicada 2. mejor el ajuste. Se interpreta como si fuera análogo al ABC en una prueba diagnóstica . un índice de concordancia “C” puede aplicarse a los resultados de la RLog. Muchas veces se presenta como índice de validación del modelo. lo cual es incorrecto. donde a menor valor de X2H-L. Una validación requiere examinación externa en un diferente grupo de datos. Bondad de ajuste. 2. porque únicamente ofrece un chequeo interno de los datos analizados. El índice se construye como una razón. usando como denominador el total de pares no similares y como numerador los concordantes. 3. Esta limitado solo a los pares no similares de Yi. Para esto se parean todas las observaciones Yi. y después se cuantifican los pares discordantes y concordantes. lo que no informa la precisión relativa de los estimados para los pares similares. Indices de concordancia Usando técnicas de remuestreo. El índice tiene 3 desventajas: 1. que después se convertirá a valor de P y se podrá usar como índice cuantitativo descriptivo del ajuste. Se generará un valor calculado llamado X2H-L (Hosmer-Lemeshow). Los valores de Y observados y estimados por el modelo pueden ser ordenados dentro de patrones “observados-menos-esperados” por medio de l aprueba de bondad de ajuste de chi cuadrada.

ANTECEDENTES MATEMÁTICOS DE LA RLogM La ecuación de RLog se deriva de la relación entre una variable dependiente (VD) binaria Y con una única variable independiente (VI) X. los valores medios de cada grupo serían L1 y L2 barra. Papel del análisis de función discriminante (AFD) Por muchos años. y por lo cual subsistió a pesar de un análisis matemático complicado. . Expresión de probabilidades como momios (odds) 3.además de que unifica 3 ideas matemáticas básicas dentro de sus estrategias estadísticas. los momios en contra de la ocurrencia de dicho evento son (1-p)/p. Teorema de Bayes para probabilidad condicional 2. donde los grupos serían mejor separados si los coeficientes bj para L se escogían para maximizar la relación B/W para la suma de cuadrados de ambas varianzas de grupo encontrándose esta cuando L1 barra . Así se escogen los valores de los coeficientes bj para maximizar la distancia de la FD L1 barra .L2 barra era mayor. Momios para una probabilidad Si p es la probabilidad (prevalencia) de que ocurra un evento D. y por lo tanto no se requiere que la VD dependiente siga una distribución Gaussiana. es que debido a que no produce una probabilidad estimada. Esto aplica perfectamente en las pruebas sobre marcadores diagnósticos donde los resultados son binarios (positivo o negativo) y se estima por tanto S y E. o L2 si Li > L0. Por el contrario al AFD. 1 y 2  L = b1X1 + b2X2 + b3X3 + …  Se establece un valor límite L0. esto es: P(no ocurrencia D) / P (D). 1.  Se aplicaron los principios del análisis de varianza.  La desventaja es requiere que se asuma que las VI tienen una distribución Gaussiana multivariada y valores similares para varianzas individuales. y su promedio corresponde a L0.L2 barra. la RLog tiene la ventaja de evitar la necesidad de una distribución Gaussiana multivariada. o En este caso el gran promedio de L barra = (n1 L1 barra + n2 L2 barra) / (n1 + n2)  Una ventaja del AFD. no es necesario ajustar los resultados a un rango entre 1 y 0. entre las medias de los 2 grupos. se uso el AFD para 2 grupos en lugar de la RL  Introducido por Fisher en 1936  Estrategia para discriminar o separar 2 grupos. y después cada miembro se clasifica dentro de un grupo: L1 si Li < L0. Se trata por tanto de una relación entre la probabilidad de no ocurrencia sobre la de ocurrencia. Supuesto estadístico de que lo datos siguen una distribución Gaussiana. ya que trabaja con valores binarios 1/0 que no siguen esta distribución. Así.

Sign up to vote on this title
UsefulNot useful