Está en la página 1de 22

Curso de Estadstica Avanzada

Dra. Gema Vega (Mayo 2008)

Curso de Estadstica Avanzada

Gema Vega

Anlisis Estratificado
El anlisis estratificado es un tipo de anlisis estadstico que estudia la posible asociacin entre dos variables categricas a travs de una tabla de contingencia 2x2; pero diferenciando sub-muestras de pacientes segn presenten distintas categoras en otra tercera variable. El objetivo de este anlisis es comprobar si la relacin entre las dos variables se ve modificada por los distintos valores o estratos que puede tomar otra tercera variable. En nuestro caso, querramos estudiar la relacin entre cada uno de los posibles factores de riesgo y la variable resultado (mortalidad o morbilidad), y comprobar, si esta asociacin est influida por el hecho de que los pacientes presenten o no, otro factor de riesgo. Para explicar este tipo de anlisis vamos a considerar la relacin entre la variable dependiente enfermedad (si/no) y la variable independiente X1 (si/no). La relacin entre estas dos variables la expresaremos a travs de una tabla de contingencia de 2x2 como la siguiente: ENFERMEDAD X1 = SI X1= NO a c NO ENFERMEDAD b d a+ b c+ d

Al tratarse de dos variables categricas, la relacin entre ellas, la analizamos, como ya hemos comentado anteriormente, con el test de 2 de Pearson. Una vez que hemos comprobado que existe relacin, podemos obtener el valor del Riesgo Relativo (RR), que medir la fuerza de esta asociacin, segn la frmula: RR= a/(a+b)/c/(c+d) Si en esta relacin, pensamos que otra variable X2 (si/no) pueda estar modificando el efecto, tendremos que realizar un anlisis estratificado segn los dos estratos de esta variable X2 (X2=Si y, X2=No), quedando entonces las siguientes tablas de 2x2:

Para el estrato del valor X2 = SI ENFERMEDAD X1 = SI X1 = NO a' c' NO ENFERMEDAD b' d' a' + b' c'+ d'

-2-

Curso de Estadstica Avanzada

Gema Vega

Para el estrato del valor X2 = NO ENFERMEDAD X1 = SI X1 = NO a'' c'' NO ENFERMEDAD b'' d'' a''+ b'' c''+ d''

Para cada una de estas tablas se realiza un anlisis 2 de Pearson que nos informar sobre la existencia de asociacin entre la variable X1 y la variable enfermedad; mientras que para ambas en conjunto, se realiza un test de homogeneidad de los estratos que se llama test de 2 de Mantel-Haenszel. Este test nos informar si la relacin entre ambos estratos es homognea o no, teniendo en cuenta que la hiptesis nula (H0) de este test es que los estratos son homogneos. Por lo tanto, existen dos posibilidades, que los estratos sean homogneos o, que no lo sean. Si no son homogneos, significa que la relacin entre enfermedad y la variable X1 es diferente segn el estrato que se considere en la variable X2. En esta condicin, se dice que existe interaccin entre la variable X1 y X2; por lo que la asociacin entre las variables de estudio X1 y ENFERMEDAD se evaluar en funcin de las categoras de la variable X2. Mientras que si los estratos son homogneos, para comprobar si la variable X2 ejerce algn efecto en la relacin de estudio, tenemos que revisar el resultado obtenido con el test de 2 de Pearson en cada estrato y compararlo con el obtenido antes de la estratificacin. Si ambos son iguales, se considera que la variable X2 no ejerce ningn efecto confusor en la relacin entre la variable enfermedad y la variable X1. Si por el contrario, ambos son diferentes, quiere decir, que la variable X2 si ejerce un efecto confusor en esa relacin, definiendo a este tipo de variables, como variables confusoras. Estas variables cumplen la condicin de que estn relacionadas con la variable dependiente y con la variable independiente; pero no representan ningn paso intermedio entre ellas. Es posible que esta relacin entre enfermedad y la variable X1 no slo est influida por el efecto de la variable X2 sino que su vez, puede estar influida por el de otra variable y, ste a su vez por el de otra y as sucesivamente por todas las variables que suponemos que pueden estar influyendo o modificando la posible asociacin de las dos primeras, que son las que realmente queremos estudiar. Limitaciones del Anlisis Estratificado Segn el esquema de anlisis por estratos, se van aumentando rpidamente la cantidad de tablas de contingencia al ir estratificando por sucesivas variables, lo que conlleva varias desventajas. - Una de ellas y, posiblemente una de las limitaciones ms importantes de este tipo de anlisis, es que el nmero de pacientes representados en cada celda de la tabla de 2x2 es progresivamente menor al ir aumentando el nmero de estratos.

-3-

Curso de Estadstica Avanzada

Gema Vega

Esto conllevar que sea progresivamente ms difcil encontrar una relacin estadsticamente significativa entre ambas variables. - En aquellos casos en los que se estudian un nmero elevado de factores, la estratificacin ser progresiva frente a diferentes variables al intentar analizar el efecto real entre el factor de estudio y la variable de desenlace, sin la influencia de ninguna variable. Con esta estratificacin progresiva, obtendremos subgrupos muy seleccionados de pacientes, dificultando la interpretabilidad de los resultados obtenidos. - Este tipo de anlisis slo se puede realizar con variables categricas; por lo que en aquellos casos en que la variable independiente sea cuantitativa, habr que transformarla previamente en categrica, con la posibilidad de perder informacin. Esta desventaja es an mayor en aquellos casos en los que existe una relacin dosis dependiente entre el factor de riesgo (variable continua) y la variable dependiente.

Anlisis Multivariado
Cuando se quiere valorar el efecto de un nmero extenso de factores de riesgo sobre una variable dependiente, es necesario emplear tcnicas estadsticas que sean capaces de valorar el efecto individual de cada factor de riesgo sobre la variable de resultado, quitando o apartando el efecto de confusin de las dems variables; pero, sin que presenten las desventajas del anlisis estratificado. Estas tcnicas son los anlisis multivariados a travs de los modelos de regresin, los cuales, mediante aproximaciones a funciones matemticas, son capaces de deducir el comportamiento de una variable (variable dependiente) a partir de la existencia de otras (variables independientes). Estos modelos de regresin se han venido utilizando cada vez con ms frecuencia, tanto en la investigacin mdica, como en la epidemiolgica. La utilizacin de uno u otro tipo de anlisis de regresin depende de las caractersticas de las variables que se estn analizando. Es decir, si las variables dependientes e independientes son continuas o categricas y, dentro de stas si tienen dos o ms categoras (dicotmica o policotmica). En los casos en que la variable dependiente es dicotmica se distinguen dos situaciones: Presencia de la enfermedad o evento que designaremos con el valor 1, y Ausencia de enfermedad o del evento de estudio y que designaremos con el valor 0. Consideraremos que la probabilidad de que aparezca la enfermedad es p y la probabilidad de que no aparezca el 1-p. En este caso concreto en el que la variable dependiente es dicotmica se puede utilizar tanto el modelo de Regresin de Cox, como el modelo de Regresin Logstica. La regresin de modelos proporcionales de Cox se utiliza cuando la variable dicotmica que queremos estudiar (aparicin de un evento), depende del tiempo. Es decir, que es importante para el estudio no slo el que los pacientes presenten el evento, sino en qu momento del estudio aparece dicho evento.

-4-

Curso de Estadstica Avanzada

Gema Vega

En nuestro mbito, este tipo de anlisis es frecuentemente utilizado cuando se estn estudiando factores pronsticos. Son por ejemplo el caso de la supervivencia (valorada a travs de la aparicin de la muerte) o de aparicin de las recidivas tumorales despus de un determinado tratamiento o, en los casos en que se estudia la aparicin o positivizacin de un determinado valor de laboratorio despus de una determinada intervencin, etc. Por otro parte, el anlisis de Regresin Logstica se utiliza para la explicacin o prediccin de eventos que aparecen a lo largo del perodo de estudio, en donde no se evala el momento en que aparece. Tambin es el caso de la mortalidad tras la realizacin de determinada intervencin, considerando solo la posibilidad de que aparezca o no durante el perodo de estudio, sin tener en cuenta cundo ocurri. Ventajas y Limitaciones del Anlisis Multivariado Las principales ventajas del uso de estos modelos de regresin en comparacin con el anlisis estratificado es que se necesita un menor tamao muestral y, que no es necesario el que todas las variables independientes sean categricas. Es decir, estos modelos permiten analizar como factores predictivos, tanto a variables categricas como a variables continuas. Las desventajas de la utilizacin de modelos de regresin se ponen sobretodo de manifiesto cuando se utilizan imprudentemente. Actualmente es fcil encontrar programas informticos que ofrecen al usuario la posibilidad de realizar anlisis de regresin automticamente, con la simple entrada de la base de datos y el apretar un botn, sin ningn tipo de rigor cientfico. Aunque nunca es aconsejable la realizacin de un anlisis estadstico sin un objetivo previo, un diseo del estudio adecuado y una orientacin aproximada de las posibles asociaciones entre las variables de estudio; en el caso del anlisis estratificado, es posible que aunque esto no se haya cumplido adecuadamente, se pueda dar una estimacin pronstica sin haber tenido ninguna consideracin matemtica especial previa al anlisis. Pero en el caso de los anlisis de regresin, es necesario comprobar el cumplimiento de una serie de asunciones con anterioridad a la realizacin del anlisis, para que las estimaciones obtenidas sean apropiadas. La mayora de los modelos de regresin presentan al menos tres tipos de asunciones sobre las propiedades de las variables del modelo, que son: la linearidad, la aditividad y la propiedad distributiva. Afortunadamente, la Regresin de Cox y la Regresin Logstica no asumen fuertemente la propiedad distributiva de las variables; pero s las dos primeras. La asuncin de linearidad, que solamente se aplicara en aquellas variables independientes continuas que fueran incluidas en el modelo, significa que cada cambio continuo de la variable predictora conlleva un cambio en la variable dependiente y que este cambio es lineal. En el caso de la Regresin Logstica, significara que si trazamos un grfico donde representamos en un eje el logit de la probabilidad de que ocurra el evento (ver ms adelante) para cada valor de la variable continua, y en el otro eje, cada uno de los valores de dicha variable continua, ambos se relacionaran por una lnea recta.

-5-

Curso de Estadstica Avanzada

Gema Vega

Por otro lado, la asuncin de aditividad implica que los factores predictivos del modelo estn relacionados con la variable dependiente en un sentido aditivo. Es decir, que cada factor de riesgo que se incluya en el modelo aporta su efecto sobre la variable resultado, sumando su efecto al de los dems factores de riesgo. Mientras que si tuviera otro efecto, por ejemplo multiplicativo, querra decir que el efecto de cada factor se multiplicara al efecto de los dems factores. Es por esto, por lo que se asume que la mejor prediccin del modelo no vendr explicada por la unin o interaccin entre distintas variables, sino por la mayor cantidad de variables que presente el modelo. Es decir, que se asume que es ms fcil que aparezca el evento cuanto ms factores de riesgo tengan los sujetos. En otro tipo de modelos de regresin, adems de stas, existen otras asunciones que hay que contemplar. En el caso de la regresin linear mltiple, que se utiliza cuando la variable dependiente es continua, se debe de comprobar o asumir que dicha variable dependiente sigue una distribucin normal de Gauss. En el anlisis discriminante se asume que todas las variables continuas incluidas en el modelo conjuntamente se distribuyen segn una distribucin normal multivariante. No obstante, los modelos de regresin ms comnmente utilizados para el anlisis pronstico no mantienen estas asunciones tan estrictas. As, la Regresin Logstica binaria o dicotmica, no mantiene una asuncin distributiva y la regresin de modelos proporcionales de Cox asume que la distribucin de las variables en el tiempo tiene la misma forma en los distintos pacientes, sin que se asuma una forma especfica para esta distribucin. Cuando no se contemplan estos tres tipos de asunciones, los modelos de regresin pueden no ajustarse en su poder discriminante, ni en las inferencias sobre los distintos factores de riesgo. En el caso de la propiedad de linearidad, es necesario comprobar que se cumple esta condicin por cada una de las variables continuas, con anterioridad a su inclusin en el anlisis. Pues a veces, es necesario hacer alguna transformacin de estas variables continuas (en el inverso, en el logaritmo o en la raz cuadrada), para poder conseguir la linearidad con el logit de la variable de estudio. Por el contrario, la comprobacin de la propiedad de aditividad, se realiza con posterioridad a la obtencin del modelo, la cual se puede probar introduciendo en el modelo distintas interacciones entre los factores, siempre que estas interacciones tuvieran una explicacin clnica o biolgica. Si alguna de estas fuera significativa, entonces el modelo no asumira que el efecto de una variable es el mismo para todos los valores de otras variables.

-6-

Curso de Estadstica Avanzada

Gema Vega

Anlisis de Regresin Logstica


En un anlisis multivariado de Regresin Logstica la variable dependiente es dicotmica y no depende del tiempo. Concepto Matemtico El anlisis de Regresin Logstica se basa en intentar explicar una funcin matemtica sigmoidea (distribucin logstica), cuya variable slo puede tomar los valores comprendidos entre 0 y 1, a travs de una expresin matemtica que contempla la existencia de un nmero de variables independientes o explicativas, y que, se representa matemticamente segn la frmula: f(p)= 1/ 1+ e En donde, f(p)es la distribucin logstica, la cual recuerda a la distribucin de probabilidad condicionada, y proporciona valores continuos de p, comprendidos entre el valor 0 y 1, para cualquier valor de , a pesar de que pueda tomar valores entre - y + p es la variable probabilidad de que ocurra el evento, que va a variar entre 0 (no evento) y 1 (evento) e es el valor del nmero e es una expresin matemtica del sumatorio de los productos de cada una de las variables independientes (Xi) por un coeficiente (i), ms una constante (0). Se calcula segn la frmula: = 0 + 1* X1 + 2* X2 + 3* X3 ++ i* Xi En donde, 0 i representan a los coeficientes y, X0 Xi representan a las variables independientes o explicativas del modelo El modelo matemtico asigna un valor a los distintos coeficientes i con el fin de ajustar la funcin de probabilidad de presentar el evento, al valor real que presenta la variable resultado en la muestra de estudio. Las variables (Xi) permanecern en el modelo cuando se demuestre que el coeficiente i es distinto de cero. Por tanto, en este tipo de anlisis la hiptesis nula (H0) que hay que rechazar es que i = 0. Puesto que, si los coeficientes i fueran iguales a 0, tambin sera cero, y al elevar el nmero e a 0, nos dara la unidad. En este caso, el valor de la funcin de probabilidad sera f(p)= . Esto quiere decir, que a pesar de la existencia o no de las variables Xi, existira la misma probabilidad de presentar el evento que, de no presentarlo (p =0,5). Por lo tanto, en este supuesto el evento no dependera de la existencia de las variables independientes Xi. Obtencin de los coeficientes i El procedimiento matemtico a travs del cual se obtienen los distintos valores de los coeficientes i es complejo. La estimacin de dichos coeficientes se realiza a travs de mtodos de resolucin iterativos, siendo necesario el uso de programas estadsticos
-

-7-

Curso de Estadstica Avanzada

Gema Vega

automticos. Se realizan mltiples iteraciones con el fin de encontrar el mejor ajuste de la funcin de probabilidad a la nube de puntos que representaran los datos de la muestra de estudio. El ajuste se comprobara a travs de test estadsticos de mxima verosimilitud. Para ello se realizaran mltiples iteraciones hasta llegar a obtener aquellos coeficientes i que maximicen la probabilidad de obtener los valores de la variable dependiente (aparicin del evento) que hemos encontrado en la muestra. Adems de los distintos coeficientes de cada variable, en la frmula matemtica tambin existe otro coeficiente independiente (0). Este coeficiente es una constante y vendra a representar a aquella cantidad de la nube de puntos que no se puede explicar a travs de las variables del modelo. Esta constante debe estar presente en cualquier modelo predictivo de Regresin Logstica. Variables independientes en el Anlisis de Regresin Logstica Una vez que ya se ha encontrado la mejor estrategia estadstica para hacer el anlisis, el siguiente problema que hay que resolver es el de cuantas variables independientes hay que introducir en el modelo, cuales, y cmo se van introduciendo. Segn Harrel y col. y otros autores, en el modelo se deben introducir todas aquellas variables que en anlisis bivariado hayan demostrado estar relacionadas de manera estadsticamente significativa con la variable resultado y tambin a aquellas asociaciones estadsticas que, aunque no hubieran alcanzado la significacin estadstica, tuvieran un valor de p<0,10, , incluso, menor de 0,20. No obstante, adems de introducir aquellos factores de riesgo que cumplan estos criterios estadsticos, tambin es necesario introducir aquellas caractersticas de los pacientes que desde el punto de vista epidemiolgico pueden influir o estar relacionados con la variable de resultado aunque no hayamos podido demostrarlo estadsticamente.

A) Mtodos de Introduccin de variables independientes


Con respecto a cmo se van introduciendo las variables independientes (Xi) en el modelo multivariado de Regresin Logstica, hay distintos mtodos, siendo los mtodos paso a paso (stepwise) los que estn ms ampliamente recomendados en los estudios predictivos. Estos mtodos consisten en ir calculando los valores de los coeficientes i, segn se van cambiando una a una las variables Xi, en cada paso del anlisis y, al mismo tiempo, cuantificar estadsticamente los cambios que se producen en el ajuste del modelo, como consecuencia de los cambios en las variables y en sus coeficientes. Estos cambios de las variables del modelo paso a paso, y la evaluacin del ajuste que sta conlleva, se puede realizar de dos formas: - Una de ellas es el mtodo forward o hacia delante, en el que primero se introduce la constante y luego, se van aadiendo de una en una, las diferentes variables independientes, del total de las variables que hemos escogido para el anlisis multivariado por cumplir las condiciones que explicamos anteriormente. El criterio de seleccin de la variable independiente en cada paso, depende del cambio global que produzca en el ajuste del modelo, la introduccin de cada una de esas variables. Este cambio se mide, en funcin de que la introduccin de una variable represente un cambio significativo en el ajuste, con respecto al anterior modelo sin esa variable. La inclusin siempre se realizar

-8-

Curso de Estadstica Avanzada

Gema Vega

por orden decreciente de significacin estadstica, hasta que ninguna de las variables restantes aporte cambios estadsticamente significativos al modelo. - El otro mtodo es el backward o hacia detrs, en el que a diferencia del anterior, en un primer lugar se introducen todas las variables en el modelo, para posteriormente, ir eliminando en cada paso la variable que menos contribuye al ajuste del mismo, al comprobar que su permanencia en el modelo no aporta ninguna diferencia estadsticamente significativa, con respecto al modelo sin dicha variable. En ambos mtodos, cada vez que se va incluyendo o excluyendo una variable, se van modificando los distintos coeficientes de las dems variables que permanecen, hasta conseguir aquellos, con los que se ajusta mejor el modelo a los datos de la muestra o a la nube de puntos.

B) Limitaciones del mtodo stepwise (Paso a Paso)


La seleccin de las variables paso a paso hacia delante o hacia atrs que se utiliza en los distintos tipos de regresin, puede variar el resultado de las variables implicadas en el modelo definitivo. Esta variacin ser tanto mayor, cuanto menor sea el tamao de la muestra. Por esto se considera que la seleccin paso a paso puede no ser vlida, cuando el nmero de variables independientes introducidas en el anlisis, es superior a una dcima parte de los eventos ocurridos en la variable dependiente. Harrel y col. demostraron que el poder discriminante de los modelos iba empeorando a medida que disminua el nmero de eventos de la variable de estudio, si mantenamos el mismo nmero de variables independientes. Es por esto, por lo que no se debe de utilizar la seleccin de los pacientes paso a paso, a no ser que el nmero de eventos sea al menos 10 veces mayor que el nmero de variables introducidas en el anlisis de regresin. Este problema an es mayor cuando se considera la posibilidad de que exista interaccin entre las variables independientes. Estos mismos autores sugieren que en aquellos casos en los que no se pueda obtener suficiente muestra como para cumplir esta proporcin entre el nmero de eventos y el nmero de variables independientes, sera necesario realizar con anterioridad a la Regresin Logstica, un anlisis de reduccin de datos, como es por ejemplo el anlisis de componentes principales. Con estos anlisis previos confirman que se consigue un mejor poder discriminante, en comparacin con los modelos obtenidos a partir de las variables originales y el mismo tamao muestral. En contraposicin a esta mejora en el poder discriminante, existen otras desventajas asociadas a la utilizacin de los modelos obtenidos de esta manera. Una de ellas es, que la mayora de las veces estos modelos son difciles de interpretar al no poder dar una interpretacin clnica o biolgica a cada uno de los factores implicados en el modelo. Y otra, es que todas las variables originales reciben un peso en cada uno de los factores; por lo que es difcil saber la contribucin real y de forma independiente, de cada una de las variables originales, con respecto a la variable resultado. Ambas desventajas conllevan, el que esta tcnica no se utilice en aquellos estudios, en los que se quiere crear un modelo que sea fcilmente aplicable en clnica, y comprensible por la mayora de los profesionales implicados.

-9-

Curso de Estadstica Avanzada

Gema Vega

C) Validacin del modelo en los mtodos Paso a Paso


Al utilizar estos mtodos paso a paso, es necesario analizar la validez del modelo en cada etapa del proceso, comprobando el efecto significativo o no, de la inclusin de una variable nueva o la exclusin de la peor variable de las ya existentes. Para ello, recordaremos que, como hemos comentado anteriormente, los coeficientes i se obtienen por el procedimiento de mxima verosimilitud y que adems, la ecuacin de ajuste matemticamente perfecto (modelo saturado), es aquella con tantos coeficientes i como individuos conformen la muestra. En los mtodos paso a paso, se trata de comparar cada modelo con este modelo perfecto o saturado, realizndose esta comparacin a travs del logaritmo de la funcin de mxima verosimilitud, cuya frmula matemtica es: D = -2Log(verosimilitud del modelo estudiado / verosimilitud del modelo saturado) El resultado D es la devianza, que representa de alguna manera a aquella informacin de la nube de puntos que no es explicada por el modelo. A partir de sta se puede obtener un valor G segn la frmula: G = D(modelo con la variable) D(modelo sin la variable) = = - 2Log (verosimilitud del modelo con variable / verosimilitud del modelo sin variable) Bajo la hiptesis nula (H0) de que el coeficiente de la nueva variable es igual a cero, G sigue una distribucin de 2 con un grado de libertad en aquellos casos en los que la nueva variable sea dicotmica o continua. Valores de G superiores a la 2 de la tabla de Pearson para un grado de libertad permiten rechazar la H0 y la variable por tanto debe permanecer en el modelo. En los casos en que esa nueva variable tuviera varias categoras, los grados de libertad seran el nmero de categoras menos uno, es decir, el nmero de variables dummy creadas para introducir esa variable en el modelo (ver ms adelante). Otro mtodo para estudiar la permanencia o exclusin de una variable en el modelo es calcular el ndice de Wald, el cual se obtiene segn la frmula: W = coeficiente de la variable / error estndar del coeficiente Este ndice sigue una distribucin normal de Gauss. Por lo que, aquellas variables que tengan un ndice de Wald >1,96 deben ser conservadas en el modelo, al contribuir significativamente (p<0,05) y de manera independiente, a la probabilidad final de aparicin del evento.

Codificacin de las variables en el Anlisis de Regresin Logstica Para poder realizar correctamente el anlisis de Regresin Logstica con el programa estadstico SPSS, es necesario utilizar un tipo concreto de codificacin de las distintas variables, el cual comentaremos a continuacin. La variable dependiente se codificar como 0, cuando no ocurra el evento y, como 1 cuando si ocurra. As tambin se codificarn todas las variables independientes dicotmicas.

- 10 -

Curso de Estadstica Avanzada

Gema Vega

En aquellos casos en que las variables categricas tengan ms de 2 categoras, ser necesario hacer una transformacin previa para convertirlas en dicotmicas. Esta transformacin consiste en crear nuevas variables dicotmicas ficticias (dummy), pero manteniendo la misma informacin que en la variable original. Para la creacin de las variables ficticias a partir de la variable original, sta primero se codificar en valores numricos crecientes, considerando como primer valor posible el 0 (0,1,2,). Posteriormente, se crearn tantas variables ficticias dicotmicas como nmero de categoras menos 1 exista en la variable original. A estas variables ficticias dicotmicas se les dar el valor 1 0, dependiendo de si el paciente presenta o no, determinada categora en la variable original. De tal manera, que aquellos enfermos que en la variable original presenten el valor de la categora inferior (0), tendrn el valor 0 en todas las variables ficticias creadas. Los que presenten el valor 1 en la variable original, obtendrn el valor 1 en la primera variable dummy, y el valor 0 en el resto de las variables dummy. Los pacientes que tengan la categora con valor 2 en la variable original, obtendrn el valor 0 en la primera variable dummy, el valor 1 en la segunda variable dummy y el valor 0 en las dems. Y as, sucesivamente. De esta forma, un paciente que presente cualquier categora superior a la categora de referencia, slo tendr el valor 1 en una nica variable dummy, que ser precisamente la que representa a su categora. Aunque posteriormente comentaremos cmo se manejarn este tipo de variables en el modelo definitivo, hay que saber que en estos casos, la fuerza de la asociacin entre la variable original y la variable resultado se medir a travs del riesgo que supone estar en una categora (pertenecer a una variable ficticia) frente a estar en otra categora, la cual se toma como referencia. Para ello es necesario, que previamente al anlisis se identifique la categora de referencia. Habitualmente, en aquellos casos en que las categoras sean exposiciones graduales a un factor de riesgo, se utiliza como categora de referencia, la categora inferior o superior. Por el contrario, en aquellos casos en que las categoras no representan niveles de exposicin, se debe de explicar claramente cual es la categora de referencia. En la actualidad, los programas estadsticos realizan la transformacin en variables ficticias de forma automtica; aunque es necesario darles la informacin oportuna sobre, de qu variable categrica se trata y, cual se va a considerar la categora de referencia. Es importante resaltar que, es posible encontrar una relacin significativa entre la variable resultado y alguna de las variables ficticias o categoras, sin que exista frente a todas ellas. En estos casos es necesario mantener todas las variables ficticias en el modelo. Esto es as, porque realmente las variables dummy representan diferentes categoras de un mismo factor de riesgo y, el hecho de que en el modelo vengan representadas por distintas variables, es simplemente una transformacin matemtica necesaria para poder llevar a cabo este tipo de anlisis. En el caso de que las variables sean continuas, stas se introducirn tal y como estn en la base de datos o una vez que hayan sido transformadas, para cumplir la asuncin de linealidad.

- 11 -

Curso de Estadstica Avanzada

Gema Vega

Significado de los coeficientes i Una vez que ya hemos comentado qu variables se deben de introducir en el modelo, cmo se introducen stas en el anlisis para obtener el modelo definitivo, y como se deben de codificar; vamos a referirnos a cmo se deben de interpretar los resultados obtenidos una vez realizado el anlisis. Primero analizaremos el significado de los coeficientes i. Para ello, es necesario volver a recordar los conceptos epidemiolgicos de cmo se obtienen el riesgo relativo y la odds ratio. El Riesgo Relativo (RR) representa el riesgo de padecer la enfermedad entre aquellos pacientes que presentan el factor de riesgo, frente a los que no lo presentan, y se obtiene al dividir la incidencia de aparicin del evento en los pacientes que presentaban el factor de riesgo, entre la incidencia de aparicin del evento en los pacientes que no presentaban el factor de riesgo. La Odds Ratio (OR) mide la relacin entre la aparicin del evento y la no aparicin del evento, en los pacientes que tienen el factor de riesgo, frente a los que no tienen el factor de riesgo. Se refiere a cuantas veces es ms frecuente que ocurra el evento frente a que no ocurra, en los pacientes que tiene el factor de riesgo, frente a los que no lo presentan. Tanto la OR como el RR, se utilizan cmo medida de la fuerza de la asociacin entre las dos variables de estudio (una variable independiente y otra variable dependiente). Pero existe una diferencia en el concepto de ambos. Como el RR se obtiene a partir de incidencias, slo se puede utilizar en aquellos estudios que sean prospectivos; mientras que la OR se utilizar en los estudios retrospectivos, pues en stos, no se puede obtener la incidencia de aparicin del evento, y s la proporcin de eventos y no eventos, entre los que presentan el factor de riesgo y los que no lo presentan. No obstante, en aquellos casos en que la aparicin del evento es poco frecuente en la poblacin de donde se obtuvo la muestra (incidencia <10%), se puede asumir, y matemticamente demostrar, que la OR es una buena aproximacin del RR.

A) Clculo de la OR en Regresin Logstica


En el anlisis de Regresin Logstica, la fuerza de la asociacin entre las variables independientes y la variable resultado, se estima a partir del coeficiente i. Para entender cmo se realiza esta estimacin tenemos que volver a la frmula inicial del modelo logstico: f(p)= 1/ 1+ e p / 1- p = e En donde,
-

Que matemticamente es lo mismo que,

= 0 + 1* X1 + 2* X2 + 3* X3 ++ i* Xi.

p es la probabilidad de que aparezca el evento y, 1- p la probabilidad de que no aparezca el evento.

- 12 -

Curso de Estadstica Avanzada

Gema Vega

Si consideramos que el modelo slo tuviera una variable, la frmula quedara p/ 1- p = e


0 + 1* X1

Es decir, que si el paciente tuviera el factor de riesgo (X1=1), la probabilidad de que ocurriera el evento frente a que no ocurriera sera p/ 1- p = e
0 + 1

lo que se denomina la odds con el factor de riesgo. Mientras que, si el paciente no presentara el factor de riesgo (X1=0), la expresin quedara p/ 1- p = e
0

Esto se denomina la odds sin el factor de riesgo Como hemos recordado anteriormente, la OR se obtiene al dividir la odds de presentar un evento frente a no presentarlo en los pacientes que tienen el factor de riesgo; entre la odds de presentar el evento frente a no presentarlo, en los que no tienen el factor de riesgo. Es decir, la odds con factor entre la odds sin factor OR OR
X1 X1

=e =e

0 + 1 1

/e

Y, esto es igual a:

Si calculamos el logaritmo neperiano de OR Ln OR X1= Ln (p/ 1- p) = 1

X1,

nos dar el valor de 1

A esta expresin del Ln(p/1-p) se le denomina transformacin Logit de p, que este caso particular sera el Logit para el factor X1, pero que se puede generalizar para aquellos modelos en los que hay ms de una variable Ln(p/ 1- p) = 0 + 1* X1 + 2* X2 + 3* X3 ++ i* Xi En estos casos en los que en el modelo existe ms de una variable (Xi), matemticamente se podra demostrar que, cada coeficiente i representa el logaritmo neperiano de la OR para cada factor Xi, siempre que los dems factores permanecieran constantes. Segn la argumentacin anterior, una vez que obtengamos el modelo logstico definitivo, la OR para cada factor la calcularemos con la simple operacin matemtica de elevar el nmero e a cada coeficiente . Esta OR representa la fuerza de la asociacin entre cada factor y la variable dependiente, de manera independiente de los dems factores de riesgo. Es decir, la OR debida exclusivamente a la presencia de ese factor una vez eliminado el efecto de los dems factores estudiados. Por tanto, en las variables categricas dicotmicas, la OR as obtenida expresar el riesgo de que se produzca el evento asociado a presentar dicho factor.

- 13 -

Curso de Estadstica Avanzada

Gema Vega

En el caso de variables categricas con ms de dos categoras, hay que tener en cuenta que estas variables estn representadas en el modelo por las variables ficticias o variables dummy. En estos casos, la OR obtenida a partir del coeficiente, representara la OR de esa categora (la de la variable dummy), frente a la categora de referencia. En el caso de las variables cuantitativas, el logaritmo neperiano del coeficiente de esa variable expresara la OR por cada unidad de aumento en dicha variable, lo que a veces no tiene ninguna relevancia clnica. Esto podra ser el caso de la variable Edad (medida en aos), o de la Presin Arterial (medida en mmHg), en donde cambios en una unidad de medida no tienen una traduccin clnica o epidemiolgica de importancia y, donde adems, los mismos aumentos, tampoco tienen el mismo significado en los distintos valores que tome la variable. Por ejemplo, en las variables anteriormente mencionadas, podra ser el caso del aumento de un ao de edad entre 20 y 21 aos entre 74 y 75 aos y, en el caso de la Presin Arterial, los cambios de 1 mmHg entre 70 y 71 mmHg entre 95 y 96 mmHg de Presin Arterial diastlica. En estos casos de variables cuantitativas se puede establecer un nivel de cambio de valor de la variable, que sea relevante clnicamente. En los casos anteriores podra ser 10 aos 10 mmHg. Una vez que se ha fijado un nivel de cambio relevante (c), la OR la calcularemos al elevar el nmero e, al producto de multiplicar el coeficiente por la constante c (e c*).

B) Estimacin poblacional de las OR obtenidos por Regresin Logstica


Una vez que se han obtenido los OR a partir de los coeficientes i, es necesario estimar estos parmetros a travs de los intervalos de confianza del 95%. Los lmites de stos, se calcularn a partir del error estndar de cada uno de ellos (S1), segn la frmula: e(1 1,96* S1) Para las variables continuas, estimaremos la OR del intervalo de cambio de la variable que se haya considerado (c), calculando los lmites del intervalo de confianza del 95% a partir de la frmula: e
c* 1,96* c* S

C) Clculo de los RR a travs de Regresin Logstica


En los casos de estudios prospectivos, la fuerza de la asociacin entre las distintas variables independientes y la dependiente, se debe de medir con el riesgo relativo y no con la odds ratio. Aunque la OR es una buena estimacin del RR cuando la incidencia de aparicin del evento es baja, es ms conveniente calcular el RR para cada variable. Este clculo se realiza a partir del modelo; pero no, a travs de la transformacin del coeficiente , sino a travs del valor de p. Segn la definicin del RR, ste se obtiene a partir de dividir la incidencia de aparicin del evento en los enfermos expuestos al factor de riesgo, entre la incidencia de aparicin del evento en los no expuestos. Con el clculo matemtico de la ecuacin obtenida en el modelo de Regresin Logstica, no obtenemos una probabilidad de aparicin del evento distinta para cada uno de los pacientes que estamos estudiando; sino que lo que obtenemos es la probabilidad para grupos de pacientes que presenten unas determinadas variables o caractersticas. Es decir, que todos aquellos pacientes que tomen los mismos valores en las variables que incluye el modelo, tendrn la misma probabilidad de aparicin del evento. Por lo tanto,

- 14 -

Curso de Estadstica Avanzada

Gema Vega

obtendremos valores de probabilidad de presentar el evento, que definen a grupos de pacientes con unas caractersticas determinadas (Perfiles o Patrones de Variables). Segn esto, podramos obtener esa probabilidad para aquellos enfermos que, presentando todas las caractersticas idnticas, slo se diferencian en la presencia o ausencia de una de ellas. Y, a partir de aqu obtendremos el RR para ese factor, que es en el que se diferencian. Pondremos como ejemplo un modelo en el que existen tres factores de riesgo, X1, X2 y X3, cuya ecuacin de Regresin Logstica vendr definida por p = 1/ 1+ e
(0 + 1* X1 + 2* X2 + 3* X3)

Queremos calcular el RR para la variable X1 y para ello debemos calcular la incidencia de aparicin del evento cuando los pacientes tienen el factor X1 y, la incidencia de aparicin del evento cuando no tienen ese factor. Es decir el valor de p cuando el factor X1=1 y el valor de p cuando el factor X1=0, siempre que las variables X2 y X3 se mantengan constantes. Estas variables pueden tomar tanto el valor 0 como el valor 1. Para nuestro ejemplo consideraremos que toman siempre el valor 1. Segn las condiciones anteriores, para aquellos pacientes que tengan las caractersticas de X1=1, X2 =1 y X3=1, el valor de p ser P
X1=1, X2=1,X3=1

= 1/ 1+ e

(0 + 1 + 2 + 3)

Y, para aquellos pacientes que tambin tengan las caractersticas X2=1 y X3=1, pero la variable X1=0; el valor de p ser p
X1=0, X2=1,X3=1

= 1/ 1+ e

(0 + 2 + 3)

Una vez obtenidos estos dos valores de p, el RR de esta variable X1, lo obtendremos de dividir p(X1=1,X2=1,X3=1) entre p (X1=0,X2=1,X3=1). Que representara a la probabilidad de que ocurra el evento cuando se tiene el factor de riesgo X1, frente a la probabilidad de que ocurra el evento cuando no se tiene ese factor de riesgo X1. Es decir, RRX1 = p(X1=1,X2=1,X3=1) / p(X1=0,X2=1,X3=1)

D) Estimacin de los RR obtenidos por Regresin Logstica


En estos casos, tambin ser necesario calcular los intervalos de confianza para los RR; pero tampoco ser a travs de los coeficientes i, sino a travs de los valores de probabilidad obtenidos a partir de la frmula del modelo definitivo, cuando dichos factores toman el valor mximo o mnimo segn el coeficiente i y su error estndar S1, para un nivel de seguridad del 95% (i 1,96*S1). Para un modelo con una sola variable X1, los lmites del intervalo (IC95%) se obtendrn de la siguiente manera: - El lmite superior del intervalo de confianza ser el valor del RR obtenido

- 15 -

Curso de Estadstica Avanzada

Gema Vega

al dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1, tomando como coeficiente de dicha variable a 1+1,96*S1 en la frmula del modelo; p X1=1 = 1/ 1+ e
((0 + (1+ 1,96*S1) X1))

entre la probabilidad de que ocurra el evento sin tener ese factor X1 p X1=0 = 1/ 1+ e
(0)

- Del mismo modo se calcular el lmite inferior del intervalo de confianza, que ser el valor del RR obtenido a partir de dividir la probabilidad de que ocurra el evento teniendo el factor de riesgo X1, tomando como coeficiente de dicha variable a 11,96*S1 en la frmula del modelo; pX1=1 = 1/ 1+ e
((0 + (1 - 1,96*S1) X1))

entre la probabilidad de que ocurra el evento sin tener ese factor X1 pX1=0 = 1/ 1+ e
(0)

Configuracin final del modelo Una vez que hemos obtenido el modelo, la configuracin final del mismo, no se debe de basar exclusivamente en estimaciones estadsticas. Es necesario que el investigador compruebe la relevancia del modelo, e incluso, que lo modifique, al incluir alguna variable que tenga inters desde el punto de vista clnico o epidemiolgico; aunque no se haya conseguido demostrar que tenga una significacin estadstica. Adems de estas consideraciones clnicas y/o epidemiolgicas, tambin es importante contemplar que el modelo definitivo debe de cumplir algunas condiciones matemticas que comentamos a continuacin: - En el caso de que necesitemos utilizar la transformacin de variables categricas en variables ficticias (dummy), puede ocurrir que encontremos significacin estadstica slo entre la variable dependiente y alguna de las variables ficticias. A pesar de ello, es necesario mantener todas ellas en el modelo, pues representan al mismo factor de riesgo (variable categrica policotmica). - Hay que descartar la existencia de interaccin entre las variables independientes. Para ello hay que introducir en el anlisis estadstico a la interaccin de dos variables como una nueva variable (variable interaccin), y comprobar si el ajuste del modelo mejora o no. Es posible, que en el nuevo modelo la variable interaccin sea significativa, pero que al mismo tiempo, desaparezca la significacin estadstica de los coeficientes de las variables de la interaccin por separado. En estos casos, hay que considerar la posibilidad de que este ltimo modelo sea mejor o no. En el caso de que s lo sea, se crear un nuevo modelo donde adems de la variable interaccin, se mantendrn las dos variables independientes. Esta propiedad es la que hace que el modelo sea parsimonioso, pues mantiene todos los niveles

- 16 -

Curso de Estadstica Avanzada

Gema Vega

jerrquicos de las variables que estn en el mismo. Por el contrario, en los casos en que el modelo con la interaccin sea igual que el modelo con las dos variables por separado, se elegir este ltimo modelo, para mantener la asuncin de aditividad. Se estudiaran slo aquellas interacciones entre los factores, que puedan tener una explicacin biolgica o fisiopatolgica.

Bondad de Ajuste del Modelo de Regresin Logstica Una vez que hemos obtenido la configuracin final del modelo, nos debemos preguntar cul puede ser el mejor modelo. Para ello hay que tener en cuenta que el mejor modelo ser aquel que mejor se ajuste a los datos reales obtenidos en la muestra del estudio o muestra de aprendizaje. El ajuste del modelo final se estudia por la bondad de ajuste. Para ello es necesario que se conozcan el nmero de perfiles o distintos patrones de variables que tenemos en la muestra. Es decir, las distintas posibilidades de combinacin de las variables que se encuentran en el modelo y que pueden aparecer por la presencia o ausencia de cada una de ellas. Estas configurarn los distintos perfiles de pacientes de los que disponemos en la muestra y de los que podemos obtener el valor de probabilidad de que ocurra el evento. Cuando las variables independientes son categricas, el nmero de perfiles es ms pequeo que el nmero de enfermos incluidos en la muestra de estudio. Mientras que, cuando existen variables continuas en el modelo, es poco probable que muchos pacientes presenten los mismos valores en estas variables; por lo que habr mayor nmero de perfiles, e incluso, es posible que haya tantos perfiles como individuos en la muestra. El ajuste del modelo logstico se mide a travs del desajuste entre, la respuesta observada y la respuesta predicha por el modelo, calculando el valor residual entre ambas. Este valor en Regresin Logstica se denomina residual de Pearson (). Como estas diferencias pueden ser de diferentes signos (positivas o negativas), la cuantificacin del desajuste se hace a travs de la suma de los cuadrados de todos los residuales, lo que se denomina la 2 residual de Pearson, que sigue una distribucin de 2 (con grados de libertad: nmero de perfiles menos, '1 ms el valor de p). Este valor se puede comparar con el mximo valor que el azar explique, segn la tabla de Pearson, para los distintos grados de libertad, y as obtener una medida del ajuste o desajuste del modelo. Pero esta aproximacin es incorrecta para aquellos modelos en los que se introducen factores cuantitativos, por tener mayor nmero de perfiles. En estos casos se debe de utilizar el test de Hosmer-Lemeshow, por el cual, se agrupan el elevado nmero de perfiles, en un nmero menor. Esta reduccin se realiza segn criterios estadsticos.

- 17 -

Curso de Estadstica Avanzada

Gema Vega

Capacidad Predictiva del Modelo de Regresin Logstica Cuando ya hemos obtenido el modelo matemtico definitivo, la estimacin de la probabilidad de aparicin del evento en un futuro nuevo paciente se puede obtener por un simple clculo matemtico; pero necesitamos estar seguros de cual es la capacidad predictiva del mismo. Las herramientas con las que contamos para estudiar la seguridad predictiva de los modelos son fundamentalmente dos, la fiabilidad y el poder discriminante. La fiabilidad se refiere a la concordancia entre la prediccin y la realidad. Es decir, el porcentaje de enfermos que estn bien clasificados. El poder discriminante, es aquella propiedad, por la cual, el modelo es capaz de discernir entre los enfermos que van a presentar el evento de estudio, frente a aquellos que no lo presentarn. La fiabilidad es una propiedad muy importante de los mtodos y es necesario validarla. Pero sta es difcil de cuantificar, pues existen muchas maneras de subdividir a los pacientes en distintos grupos con similar porcentaje de bien clasificados. Por ejemplo, en el caso de nuestro estudio particular con una mortalidad estimada del 8%, podemos encontrar dos modelos con una fiabilidad del 90% y no predecir la mortalidad de la misma manera. El que un modelo tenga una fiabilidad del 90% significa que clasifica bien al 90% de los enfermos; pero esta fiabilidad se puede obtener a expensas de haber clasificado bien a casi todos los enfermos que sobrevivieron y no haber clasificado correctamente a ninguno de los que fallecieron. O, por el contrario, se puede obtener al clasificar correctamente a todos los enfermos que fallecieron y, un poco peor a aquellos que sobrevivieron. Como es lgico, ambos modelos son totalmente diferentes en su poder de clasificacin entre vivos y muertos aunque la fiabilidad sea la misma. A diferencia de la fiabilidad, el poder discriminante de un modelo es ms fcil de medir a travs del ndice de discriminacin predictiva del modelo, llamado Indice c (por la palabra concordancia). Este ndice es la probabilidad de que, dada una pareja de pacientes elegida al azar, el valor predicho y el observado, concuerden. Por ejemplo, si el paciente ha tenido un resultado favorable, la prediccin de ese mismo paciente, tambin deber ser un resultado favorable. En los modelos de Regresin Logstica en los que la variable dependiente es dicotmica, este Indice c es idntico al rea bajo la curva ROC (Receiver Operating Characteristic). Cuando el ndice c toma el valor 0,5 el mtodo no tiene ningn poder discriminante; mientras que cuando toma el valor 1, el mtodo puede establecer una lnea de separacin entre la aparicin del evento, de acuerdo con la severidad de la variable de estudio, que en este caso sera el modelo. Para poder entender el concepto de este ndice, repasaremos el significado de algunos conceptos epidemiolgicos y de lo que representa la curva ROC. Representaremos nuevamente la tabla de contingencia de 2x2, pero plantendonos que lo que estamos

- 18 -

Curso de Estadstica Avanzada

Gema Vega

relacionando es, por un lado, el valor observado y por otro, el valor predicho. Esto sera semejante a las tablas de contingencia que representamos, cuando estamos haciendo un anlisis de la eficacia de una prueba diagnstica, en la deteccin de un evento o de una enfermedad (Por ejemplo, el valor de las enzimas CPK y CPK_MB a partir del cual se considera que ha ocurrido un infarto agudo de miocardio). En nuestro caso, en vez de una prueba diagnstica, sera la prediccin de aparicin del evento en la muestra de validacin, a travs del clculo de la probabilidad obtenida por el modelo y, la existencia o no del evento en esa misma muestra.

REALIDAD Enfermedad PREDICCIN Enfermedad No Enfermedad a c a+ c No Enfermedad b d b+ d a+ b c+ d

A partir de esta tabla podremos definir distintos conceptos que sirven para valorar la eficacia de una prueba y que en nuestro estudio evaluara la capacidad predictiva del modelo. La sensibilidad (Sb) del modelo vendra representada por aquel porcentaje de pacientes que, habiendo presentado el evento (enfermedad), hayan sido clasificados por el modelo como enfermedad. Indicara lo bueno que es el modelo para identificar a los pacientes que van a sufrir el evento. La expresin matemtica a partir de la tabla anterior sera Sb = a / a + c La Especificidad (Es) del modelo sera aquella proporcin de pacientes que, no habiendo presentado el evento (no enfermedad), son clasificados por el modelo como no enfermedad. Indicara, hasta qu punto el modelo es bueno para identificar a los individuos que no van a sufrir el evento. Matemticamente se expresara Es = d / b + d El valor predictivo de un resultado positivo (VPP), es el que viene determinado por aquellos pacientes que, habiendo sido clasificados como enfermedad, realmente la hubieran presentado. Es decir, VPP = a / a + b El valor predictivo de un resultado negativo (VPN), es el que viene determinado por aquellos pacientes que, habiendo sido clasificados como no enfermedad realmente no la hubieran presentado. Es decir, VPN = d / c + d

- 19 -

Curso de Estadstica Avanzada

Gema Vega

En todos los modelos predictivos de Regresin Logstica obtendremos unos valores continuos de la probabilidad de aparicin del evento segn los pacientes presenten o no las caractersticas de las variables contenidas en el modelo. A partir de estos porcentajes tenemos que escoger un valor que clasifique a los enfermos como enfermedad o no enfermedad. La eleccin de este punto de corte de probabilidad es arbitrario, pero siempre va a ir acompaado de un valor de sensibilidad y de especificidad, que variarn de manera inversa segn el valor de probabilidad que escojamos. Es decir, que si elegimos un nivel de corte con alta sensibilidad, esto ser a expensas de disminuir en especificidad. Por lo tanto el propio investigador es el que debe de sopesar la importancia relativa de la sensibilidad y de la especificidad para definir el punto de corte segn las implicaciones que conlleven de los errores de mala clasificacin. As, si se deben evitar los individuos que sean clasificados falsamente como enfermedad, el punto de corte debe de situarse donde la especificidad sea mxima. Mientras que, si lo importante fuera evitar clasificar como no enfermedad a aquellos pacientes que si van a fallecer, habra que tomar un punto de corte donde la sensibilidad fuera alta. Otra forma de definir el punto de corte es utilizando la curva ROC. Esta curva es la expresin grfica del cambio entre especificidad y sensibilidad segn los distintos puntos de corte. Para representarla, primero se eligen distintos puntos de corte, y despus se obtienen para cada nivel de corte, el valor de la sensibilidad y la especificidad asociado, a travs de una tabla 2x2 como la anterior. Posteriormente, se realiza una representacin grfica entre la sensibilidad y el recproco de la especificidad (1-Especificidad), denominando a este ltimo tasa de falsos positivos. Entre ambos se representa una curva (Figura.1), denominada curva ROC. Los valores de los ejes variarn entre 0 y 1 entre 0 y 100, segn consideremos tanto por 1 o en tanto por ciento.

Sensibilidad

1 - Especificidad
Figura 1. Curva ROC

- 20 -

Curso de Estadstica Avanzada

Gema Vega

La forma de la curva se podra dividir en tres partes. - La parte inicial de la curva vendra representada por una recta con una gran pendiente (1), en la cual la sensibilidad aumenta mucho, sin que apenas vare la tasa de falsos positivos. - La porcin intermedia que vendra representado por un segmento curvilneo (2) con ms o menos pendiente, donde crecen tanto la sensibilidad como los falsos positivos. - Para terminar en otro segmento recto casi sin pendiente (3), donde apenas aumenta la sensibilidad; mientras que si van aumentando los falsos positivos. El modelo ideal sera aquel que tuviera 100% de sensibilidad y 100% de especificidad, situndose en el margen superior izquierdo de la grfica. Y el peor modelo, sera aquel que viniera representado por una lnea diagonal desde el margen inferior izquierdo hasta el margen superior derecho. En este ltimo caso, cada incremento en la sensibilidad, vendra asociado a un incremento de igual magnitud en la proporcin de falsos positivos. Es obvio, que la mayora de los modelos se encuentran entre estos dos extremos, y que aquellos modelos que tengan una buena prediccin, obtendrn una curva que se alejar de la diagonal para aproximarse hacia el vrtice superior izquierdo. Esta curva nos sirve para objetivar como varan conjuntamente la sensibilidad y la especificidad y comprobar la exactitud del pronstico en distintos puntos de corte. Por lo general, el mejor punto de corte se sita en la zona donde tuerce la curva. Una vez obtenido el mejor punto de corte que se considere segn los objetivos del estudio, podremos clasificar a los pacientes. De tal manera que aquellos que tengan un valor de probabilidad de aparicin del evento (obtenido a travs del modelo matemtico) superior al punto de corte, sern clasificados con el valor 1. Y los que tengan un valor de probabilidad inferior al punto de corte que hemos determinado, sern clasificados como 0.

Creacin de la Escala Clnica de Riesgo A travs del anlisis multivariado de Regresin Logstica obtenemos aquellos factores que de forma independiente contribuyen a un mal pronstico postoperatorio de los pacientes sometidos a ciruga cardiaca con circulacin extracorprea (muerte o aparicin de complicaciones). Adems, con este anlisis tambin desarrollamos un modelo matemtico mediante el cual podemos calcular el riesgo relativo (RR) para cada factor de riesgo con su estimacin poblacional a travs del intervalo de confianza y, el valor de probabilidad de aparicin de cada uno de los dos eventos de estudio (mortalidad y morbilidad) para cada paciente individual, segn presente o no dichos factores de riesgo. La utilizacin de este modelo, conlleva la realizacin de operaciones matemticas segn la frmula de la funcin logstica que comentamos anteriormente: f(p)=1/1+e(0+1X1+2*X2+3*X3++i*Xi), siendo p: la probabilidad de aparicin del evento; Xi: los factores de riesgo independientes y i los coeficientes de dichos factores.

- 21 -

Curso de Estadstica Avanzada

Gema Vega

La necesidad de realizar estos clculos para la obtencin del valor de probabilidad de forma predictiva supone una gran limitacin para que sea fcilmente utilizada por un clnico. Por este motivo, es conveniente la creacin de escalas clnicas que puedan sustituir al modelo matemtico original. Se crear una escala clnica de riesgo para cada una de las variables de estudio que son objeto de esta tesis. Cada una de ellas estar compuesta por los factores independientes de riesgo de aparicin de dicho evento de estudio, a los cuales les asignaremos un valor. Este valor ser similar o aproximado al valor del RR obtenido por el anlisis multivariado para dicho factor, teniendo en cuenta el intervalo de confianza. El valor total que tendr cada paciente, ser la suma de los valores de aquellos factores de riesgo que presente dicho paciente. Posteriormente y segn los resultados obtenidos en la muestra de pacientes que denominamos de aprendizaje, se asignar la probabilidad de aparicin del evento con su intervalo de confianza, para cada uno de los posibles valores de la escala. En aquellos valores de la escala en los que los intervalos de confianza de la probabilidad de aparicin del evento se solapen, se agruparn para formar categoras de riesgo. De esta manera, dividiremos los posibles valores de la escala en categoras progresivas de riesgo a las que les ser asignada una probabilidad de aparicin del evento. Estas escalas con sus categoras de riesgo y la probabilidad de aparicin del evento asignada a cada una de ellas, sern las que posteriormente se validarn en la muestra de validacin.

- 22 -

También podría gustarte