REGRESION LOGISTICA MULTIPLE (RLogM) La RLog usa los mismos símbolos que la RLS, Y observada y Y estimada.

X j y bj, representan cada una de las VI y sus coeficientes ponderados en un modelo linear algebraico: G = b0 + b1x1 + b2x2 + … + bpxp. En RLog, sin embargo, la variable blanco es la ocurrencia de un evento binario, y el valor de cada Ŷi es la probabilidad estimada de ese evento para la persona “i”. Conceptos, símbolos y transformaciones Definición de momios Si P es la probabilidad de ocurrencia un evento, la probabilidad de NO ocurrencia es Q = 1 – p. Y así, la razón P/Q son los momios. Si Ŷi es la probabilidad estimada para una ocurrencia binaria, su momio será Ŷi / (1 - Ŷi) Para facilitar los cálculos matemáticos, se prefiere trabajar con el logaritmo natural de los momios, ln (P/Q), que convierte números decimales a enteros, por tanto  ln [Ŷi / (1 - Ŷi)]  La razón para usar el ln es que el modelo linear algebraico general G es usado para ajustar el logaritmo o ln [Ŷi / (1 - Ŷi)] = G, que trasformado es Ŷi / (1 - Ŷi) = ℮G, y de aquí o Ŷi = ℮G / 1 + ℮G, lo que es llamado transformación logística de G, donde si se factoriza ℮G: Ŷi = 1 / (1 + ℮-G)  Así, si esta siendo estimado por una sola variable X, para que G = a + bX, la transformación logística es o Ŷi = 1 / 1 + ℮-(a + bX) El principal trabajo estadístico de la RL es encontrar el coeficiente más adecuado para b0 , b1 , … , bp cuando datos apropiados son analizados para N miembros de un grupo. Los coeficientes se evalúan entonces, y el modelo se ajusta para indicar le impacto de las variables individuales. La transformación logística, origina una curva de valores de G con forma sigmoidea que se aplana en los extremos. Lo que la hace atractiva al usar datos multivariables es que los limites alto y bajo de la curva, a cada lado del G = 0, representan el riesgo de que un evento binario (p ej. muerte o enfermedad) ocurra: protección (valores negativos) y riesgo (valores positivos). Esto nos lleva al hecho de que los límites algebraicos en RL son 0 y 1, así cuando G = 0, ℮-G = 1; y 1 / (1 + ℮-G) = 0.5. Formato básico de la RLog Dado que la VD se presenta como un evento binario 1 o 0, los momios de la probabilidad estimada, como ya se mencionó, son Ŷi / (1 - Ŷi), y posteriormente el modelo se trasforma al ln de los momios. El proceso, sin embargo, usa el modelo linear general G  ln [Ŷi / (1 - Ŷi)] = G = b0 + b1x1 + b2x2 + … + bkxk La transformación logística, además elimina el problema de la regresión linear que asume que la VD tiene una distribución gaussiana. Por todo lo mencionado, la el modelo de RLog es el proceso analítico más popular en epidemiología actual, habiéndose eliminado el problemas de los cálculos matemáticos complejos con el uso de programas de computadora.

y se usa para un cálculo rápido de un modelo de chi cuadrada. y no de una distancia dimensional. en números absolutos para que la probabilidad sea positiva  Los valores más altos de congruencia ocurren cuando el valor estimado se acerca más al actual. Por tanto. el producto del conjunto de congruencias. indicaría la probabilidad combinada (likelihood) de encontrar que los estimados. y Y = 1 para SV b. Distancia cuadrada. no será del mismo tipo que con las variables dimensionales. Rara vez usado. expresadas como congruencias. representan lo más cercano de una probabilidad. Y = 0 para SV. Índices de discrepancia individual Dado que el valor de un evento binario Yi. Y = 0 para muerte. . L = Π (1 . Dependiendo de lo que se pretende estimar con el modelo.  Así. 2. y Y = 1 para muerte Los resultados. enfermo/sano.Ŷi│). Índices de discrepancia total Las discrepancias individuales. Cada Ŷ tiene una congruencia individual. sobrevida o mortalidad. que se multiplica para formar las probabilidades (likelihood).Ŷi│.Ŷi son consideradas residuales. 3. serán similares. Ŷi. Expresiones alternativas de discrepancia Todas utilizan la misma formula matemática Yi . pero complementarios A.El modelo de RLog también utiliza aplicaciones multivariables. la discrepancia entre el valor actual de Y y el estimado. ya que lo que ofrece son límites que permiten que los coeficientes puedan ser interpretados como razones de momios (odds ratios). será el valor que le demos a los datos: a. Si se aplican a eventos binarios. vivo/muerto. fueron correctos. la RLogM es de gran utilidad cuando la VD es un simple evento binario: si/no. Una vez ajustado el modelo. y por tanto también L. Sobrevida. Distancia absoluta. que serán examinados durante el diagnóstico de regresión. indica que el ajuste es malo. que se define como la probabilidad conjunta de ocurrencia para los datos observados bajo el modelo indicado. (Yi . el modelo se ajusta y los coeficientes bj son determinados por expresar las discrepancias como congruencias. las cuales son entonces multiplicadas para formar las probabilidades (likelihoods). será 1 o 0 (dependiendo si ocurre o no). Se obtienen las discrepancias cuadradas. las diferencias Yi . pero el valor estimado de Y (Ŷi) será una probabilidad entre 0 y 1. La forma matemática para expresar la discrepancia probabilística es congruencia  1 -│Yi .Ŷi)2. al final. Es la distancia para los valore absolutos Si al sumar las discrepancias se obtienen valores altos. Calculo de residuales. la congruencia individual será 1.│Yi . donde la forma de la curva pierde significado.  Donde L es likelihood y Π multiplicatoria (como Σ es sumatoria)  Para un conjunto perfecto de estimaciones. B. Usa el principio de los cuadrados mínimos de regresión linear. Mortalidad. ausente/presente.Ŷi 1. En paquetes computacionales.

LLR como índice de éxito. la meta es alcanzar el mejor ajuste al maximizar el valor de LR. “bondad de ajuste” y precisión en la clasificación. igual que en linear. y es llamada RL2  RL2 = 1 – [(– ln LR)/( -ln L0)]  Y de la misma forma. que son complementarios 2 de ellos.Ŷi│). se puede dividir en 2 partes:  -ln L0 = LLR – ln LR 1. Por tanto la RV (LLR) muestra el efecto del modelo en dividir la probabilidad básica L0. mediante fórmulas complejas obtener los coeficientes α y β. mayor éxito. en RLog. se obtiene la L residual (LR). los primeros son evaluados con “índices de probabilidad explicada”. recordando. resultando entonces  ln L = Σ ln (1 . La mejoría de L0 al ajustarla a LR puede expresarse como la razón de verosimilitud (RV) LR / L0. LLR como prueba estocástica (aleatoria). y en regresión múltiple D0 = DM + DP. mayor logaritmo Principios y aplicaciones de la L Cuando se aplica a tablas de 2 x 2. Al usar la LLR en un modelo. Aplicación en RLog. obteniéndoselas probabilidades de cada uno de los 4 eventos. se realiza una conversión logarítmica. como en regresión linear (R2). injustamente se compararán con la probabilidad explicada RL2. Un vez obtenida la – ln LR.  Donde a menor probabilidad. La probabilidad explicada. Esto es debido a la propiedad que tiene la LLR de que 2 veces su valor (2 LLR) tiene una distribución de chi cuadrada que puede ser usada directamente para pruebas de significancia. si dos modelos tienen diferente número de variables.  Índice Akaike . la RV original. lo que permite usar LLR como la contraparte directa.Por las mismas razones mencionadas. es posible. y su log nat será log RV  LLR = ln (LR / L0) = ln LR – ln L0. -ln L0. por lo que RL2 es raramente usada. por lo que se han desarrollado diferentes índices de penalización que permiten comparar los modelos con diferente número de variables y proveer una expresión “estandarizada” para el éxito de cualquier modelo logístico. y se elevan a la frecuencia de ocurrencia. donde a mayor valor de LLR. en regresión linear.│Yi . la proporción de la probabilidad explicada para cualquier modelo puede calcularse  RL2 = LLR / -ln L0 En RLog. en 2 grupos LR y LLR. la varianza de grupo es dividida en 2 partes: Syy = SM + SR. de DM. es la proporción de la varianza explicada por el modelo. dado que el producto de una serie grande probabilidades será un número decimal (<1) muy pequeño y difícil de manejar. 2. Ajuste cuantitativo del modelo El ajuste del modelo puede se revaluado por sus éxitos cuantitativos y estocásticos. Usos de la RV Así como en el modelo algebraico de regresión linear simple. que posteriormente se convertirá a su log neg: -ln LR. 3. la inclusión de más variables suele mejorar le ajuste del modelo. 1. Por lo tanto.

Bondad de ajuste. Indices de concordancia Usando técnicas de remuestreo. Se interpreta como si fuera análogo al ABC en una prueba diagnóstica . donde a menor valor de X2H-L. un índice de concordancia “C” puede aplicarse a los resultados de la RLog. Se generará un valor calculado llamado X2H-L (Hosmer-Lemeshow). El índice tiene 3 desventajas: 1. Esta limitado solo a los pares no similares de Yi. Para esto se parean todas las observaciones Yi. porque únicamente ofrece un chequeo interno de los datos analizados. Los valores de Y observados y estimados por el modelo pueden ser ordenados dentro de patrones “observados-menos-esperados” por medio de l aprueba de bondad de ajuste de chi cuadrada. 2. lo que no informa la precisión relativa de los estimados para los pares similares. Una validación requiere examinación externa en un diferente grupo de datos. y después se cuantifican los pares discordantes y concordantes. usando como denominador el total de pares no similares y como numerador los concordantes. Muchas veces se presenta como índice de validación del modelo.  Índice Schwartz Índice penalizado RH2 para la probabilidad explicada 2. 3. mejor el ajuste. lo cual es incorrecto. que después se convertirá a valor de P y se podrá usar como índice cuantitativo descriptivo del ajuste. El índice se construye como una razón.

y por lo tanto no se requiere que la VD dependiente siga una distribución Gaussiana. Se trata por tanto de una relación entre la probabilidad de no ocurrencia sobre la de ocurrencia. Así. donde los grupos serían mejor separados si los coeficientes bj para L se escogían para maximizar la relación B/W para la suma de cuadrados de ambas varianzas de grupo encontrándose esta cuando L1 barra . entre las medias de los 2 grupos.L2 barra. la RLog tiene la ventaja de evitar la necesidad de una distribución Gaussiana multivariada. 1. . 1 y 2  L = b1X1 + b2X2 + b3X3 + …  Se establece un valor límite L0. Momios para una probabilidad Si p es la probabilidad (prevalencia) de que ocurra un evento D. Papel del análisis de función discriminante (AFD) Por muchos años. Expresión de probabilidades como momios (odds) 3. los momios en contra de la ocurrencia de dicho evento son (1-p)/p. esto es: P(no ocurrencia D) / P (D). Por el contrario al AFD.L2 barra era mayor. es que debido a que no produce una probabilidad estimada. y su promedio corresponde a L0. no es necesario ajustar los resultados a un rango entre 1 y 0. o L2 si Li > L0. Teorema de Bayes para probabilidad condicional 2. ya que trabaja con valores binarios 1/0 que no siguen esta distribución. Así se escogen los valores de los coeficientes bj para maximizar la distancia de la FD L1 barra .ANTECEDENTES MATEMÁTICOS DE LA RLogM La ecuación de RLog se deriva de la relación entre una variable dependiente (VD) binaria Y con una única variable independiente (VI) X.  La desventaja es requiere que se asuma que las VI tienen una distribución Gaussiana multivariada y valores similares para varianzas individuales. Supuesto estadístico de que lo datos siguen una distribución Gaussiana.además de que unifica 3 ideas matemáticas básicas dentro de sus estrategias estadísticas. o En este caso el gran promedio de L barra = (n1 L1 barra + n2 L2 barra) / (n1 + n2)  Una ventaja del AFD. y por lo cual subsistió a pesar de un análisis matemático complicado. se uso el AFD para 2 grupos en lugar de la RL  Introducido por Fisher en 1936  Estrategia para discriminar o separar 2 grupos. y después cada miembro se clasifica dentro de un grupo: L1 si Li < L0. Esto aplica perfectamente en las pruebas sobre marcadores diagnósticos donde los resultados son binarios (positivo o negativo) y se estima por tanto S y E.  Se aplicaron los principios del análisis de varianza. los valores medios de cada grupo serían L1 y L2 barra.

Sign up to vote on this title
UsefulNot useful