Está en la página 1de 17

TEMA-3.

pdf

ApuntesA02

Evaluación de Procesos Psicológicos

3º Grado en Psicología

Facultad de Psicología
Universidad Complutense de Madrid

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 3. REGRESIÓN LOGÍSTICA BINARIA
Es un caso particular porque aquí el criterio es dicotómico, es decir, SI o NO de cada persona (los que
se han rehabilitado y los que no, los que van a ir a votar y los que no). En definitiva, lo que quiero
pronosticar es lo que van a hacer x cosa y los que no.
El modelo lo construyo para hacer pronósticos y para clasificar a la gente en los que SI o NO.
Necesariamente el criterio (VD) es dicotómico, sin embargo, las variables predictoras (VI) que en este
contexto se denominan covariables pueden ser de distinta naturaleza; pueden ser variables
categóricas, incluso, que sean dicotómicas o pueden ser variables cuantitativas.

Regresión logística binaria simple: solo tiene 1 covariable y va a ser dicotómica

DEFINICIÓN Y UTILIDAD
Generamos unos coeficientes (pesos) que me van a indicar:
- La contribución de cada covariable al modelo y con el signo, tambien la dirección.
- Permiten pronosticar probabilidades
Utilidad: trabajar con respuestas dicotomicas

LA FUNCIÓN LOGÍSTICA

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
 Este es el aspecto clásico de una función logística. Sus valores están comprendidos entre 0 y 1.

Vamos a sustituir en la función un valor X y vamos a tener un resultado entre 0 o 1. Eso se va a


interpretar como la probabilidad Y=1 (si se va a rehabilitar, si va a ir a votar SI).
Y  0= los que NO / 1= los que SÍ.
Si mi resultado sale un valor de 0,98, mi pronostico va a ser 1.
El punto de corte por defecto viene en 0,5 porque para que sea SI debe ser 1. Es el punto por el cual
decido si la persona es SI o NO.
Establezco el punto de corte dependiendo de las implicaciones sociales que tenga lo que estoy
estudiando.
Si tengo 2 variables, por cada caso tengo 2 valores (datos). Cada punto en el diagrama de dispersión es
un caso.
 Tiene más sentido utilizar una función logística que una función lineal.

A = nula la discriminación B = es lo que vemos normalmente C = máxima discriminación


El diseño de las curvas logísticas va a depender de dónde sitúes los sujetos.
Para hacer la inferencia de la probabilidad de que SI (Y=1), necesito que mi muestra sea
representativa. Debe estar demostrada.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Evaluación de Procesos Psico...
Banco de apuntes de la
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Aquí se ve la representación de una covariable cuantitativa que podría ser la Edad, vamos a ver si se
rehabilita o no.
Ejem 1: si una persona tiene 22 años el resultado de mi función va a salir 0,1 y lo voy a interpretar
como la probabilidad de que esa persona se rehabilite y mi pronóstico va a ser que esa persona de 22
años no se rehabilita y vamos a hacer lo mismo con otras personas de 22 años porque solo se
introduce una covariable. A mismos valores de X misma clasificación.  hemos acertado porque el
sujeto se encuentra en los que no se rehabilitan (0) en el gráfico.
Ejem 2: si una persona tiene 43 años el resultado de mi función va a salir 0,7 lo voy a interpretar como
la probabilidad de que esa persona se rehabilite y mi pronóstico va a ser que esa persona de 43 años si
se rehabilita, por lo tanto, voy a interpretar que todas las personas de 43 años se rehabilitan, pero en
realidad mi sujeto está abajo en la gráfica y por ello no se rehabilita, entonces hemos fallado.
 Va a depender del criterio donde los sitúes.
Los puntos en un diagrama de dispersión aparecen unos puntos. Ese punto esta reflejando un valor
bivariado de cada caso (de cada caso tienes 2 valores, para una variable y para la otra, para X y para Y).
Los puntos son valores empíricos siempre, sobre esos puntos representamos modelos teóricos: curvas,
rectas, etc.
Como en este caso una de mis variable es SI o NO, nos sale este aspecto de la variable de dispersión
porque la Y es dicotómica.
Si por ejem: mi covariable tiene 4 niveles como predictor económico, voy a tener 4 probabilidades para
cada nivel.
Entonces, si mi covariable tiene solo 2 niveles (ir a terapia o no) es el predictor de recuperarse de un
diagnostico o no. Mi covariable tiene 2 niveles: asistir o no. Por lo tanto, puedo calcular 2
probabilidades, una para los que van y otra para los que no van.

INTERPRETACIÓN DE LAS VENTAJAS


ODDS O VENTAJA
Es la probabilidad de SI partido del complementario (que es el NO). En función del grupo voy a
calcular una Odds o ventaja distinta.
Voy a calcular una Odds o ventaja para cada probabilidad o condición que tenga la covariable.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Ejem:

P(y=1/x=0)  es la probabilidad de recuperarse para los que no van a terapia


P(y=1/x=1)  es la probabilidad de recuperarse para los que van a terapia

O(y=1/x=0)  ventaja de recuperarse para los que no van a terapia

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
O(y=1/x=1)  ventaja de recuperarse para los que van a terapia
Y=1  probabilidad de recuperarse (VD)
X=1  ir a terapia (VI)

Es valor que me dé la Odds es igual a .


Logit de la función logística: es el neperiano de la ventaja. Es esa función lineal. Es el exponente de la
función.
 No hay que confundir nunca una probabilidad con una ventaja, aunque en realidad van en la
misma línea no es lo mismo.
Ejem:
Tenemos 2 probabilidades calculadas porque yo tengo una función logística sea de la forma que sea,
no sé esos coeficientes de mi ejemplo.
P(y=1/x=0) = 0,4  es la probabilidad de recuperarse para los que no van a terapia
P(y=1/x=1) = 0,8  es la probabilidad de recuperarse para los que van a terapia

0,4
O(y=1/x=0) = = 0,67  ventaja de recuperarse para los que no van a terapia
0,6

0,8
O(y=1/x=1) = = 4  ventaja de recuperarse para los que van a terapia
0,2

Cuando una ventaja es superior a 1 es porque el numerador es mayor al denominador. Asi que digo
que la probabilidad de recuperarse si has ido a terapia es mayor que la de no recuperarse yendo a
terapia.
La probabilidad de recuperarse es mayor que la probabilidad de no hacerlo. En este caso serían 4 veces
más.
 Interpretación: Si una Odds es superior a 1. Es 4 veces mayor la probabilidad de recuperarse
que la de no hacerlo cuando has ido a terapia.
Si la Odds es un valor comprendido entre 0 y 1 donde el denominador es mayor que el numerador
puedo concluir, incluso sin conocer las probabilidades concretas para cada grupo, que la probabilidad
de no recuperarse es mayor que la de hacerlo cuando no vas a terapia.
0,6
 = 1,5 veces mayor es la probabilidad de no recuperarse que la de hacerlo cuando el paciente
0,4
no va a terapia  esto es solo cuando queremos interpretar el resultado (ejem: 0,67), no sería
la Odds

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
ODDS RATIO O RAZÓN DE VENTAJAS
Es un cociente de ventajas.
Se define como la ventaja de recuperarse (SI) cuando sí va a terapia, partido de la ventaja de
recuperarse cuando no van a terapia.
𝐎𝐎(𝐲𝐲=𝟏𝟏/𝐱𝐱=𝟏𝟏) 𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑣𝑣𝑣𝑣 𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
OR= 𝐎𝐎(𝐲𝐲=𝟏𝟏/𝐱𝐱=𝟎𝟎) = Ventaja de recuperarse sin 𝑖𝑖𝑖𝑖 𝑎𝑎 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
 la ventaja del segundo grupo
partido por la ventaja del primero
4
OR= ~6
0,67

Una Odds Ratio superior a 1, vemos que el numerador es mayor que el denominador, entonces es 6
veces mayor la Odds (ventaja) para los que van que para los que no, es 6 veces mayor la Odds para el
segundo grupo que para el primero.
 Lo que no es tan evidente, es que la probabilidad de los que van a terapia es mayor que la
probabilidad de los que no van. La probabilidad de recuperarse para el grupo de arriba es mayor
que la probabilidad de recuperarse para el grupo de abajo.
El error común es decir que esa probabilidad es 6 veces mayor. 6 veces mayor es la Odds de los que
van que la Odds de los que no. Sabemos que la probabilidad es mayor, pero no sabemos cuántas veces
más en base a ese 6. Podemos decir cuántas veces mayor es la ventaja, pero no puedo decir cuántas
veces más es esa probabilidad.
Supongamos que la Odds Ratio es un valor entre 0 y 1, podemos decir que el denominador es mayor
que el numerador. Que la ventaja cuando no se va a terapia es mayor que la ventaja yendo a terapia.
Tambien puedo extraer que la probabilidad de recuperarse sin ir a terapia es mayor que la
probabilidad de recuperarse cuando vas.
En un Odds Ratio siempre estoy comparando entre 2 grupos distintos, en la Odds me refiero a un solo
grupo.

RISK RATIO O ÍNDICE DE RIESGO


Es la comparación de 2 probabilidades para ver cuánto es mayor una que otra. En este caso la
comparación se haría con las probabilidades que son las de recuperarse.
Las probabilidades que pongamos en el numerador y en el denominador depende de nosotros porque
vamos a querer transmitirlo fácil. En este caso lo ponemos así porque no forma parte de la función
logística.
Entonces en el numerador pondríamos la más grande.
𝐏𝐏(𝐲𝐲=𝟏𝟏/𝐱𝐱=𝟏𝟏) 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝑑𝑑𝑑𝑑 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑦𝑦𝑦𝑦𝑦𝑦𝑦𝑦𝑦𝑦 𝑎𝑎 𝑡𝑡𝑡𝑡𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 0,8
RR= 𝐏𝐏(𝐲𝐲=𝟏𝟏/𝐱𝐱=𝟎𝟎) = Probabilidad de recuperarse sin 𝑖𝑖𝑖𝑖 a terapia
= 0,4 = 2

Sería 2 veces mayor la probabilidad de recuperarse cuando uno va a terapia que cuando no.
 Un error es que muchas veces se interpreta la Odds ratio como un Risk ratio.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Recapitulando:
Siempre partimos de la base de que hemos hecho una selección adecuada de la muestra a la que va
dirigida nuestras conclusiones.
La regresión logística sirve para clasificar a la gente en 2 grupos: los que SI y los que NO.
No siempre tiene que ser de naturaleza SI/NO, también puede ser por ejemplo: sobre si sienten una
emoción positiva o negativa al ver un estimulo. No siempre es un SI/NO directamente, pero lo

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
podemos transformar como tal desde el momento en el que tenemos una variable dicotómica.

Se pretende clasificar siempre en el futuro, ya que partimos de una muestra en la que conoces cómo
están clasificados ya; es lo mismo que decir que conocemos el criterio que en este caso es dicotómico
y por eso clasifica a partir de una variable o varias (covariables predictivas) que pueden ser de distinta
naturaleza, no tienen porque ser dicotómicas.
Si la covariable es predictiva como mínimo voy a acertar más la mitad de las ocasiones, porque si no
introduzco la covariable me va a salir lo más frecuente que es “ingresar o no”.
 Si mi covariable es predictiva yo sé que voy a acertar más de la mitad de las veces, de hecho sé que
estadísticamente va a ser superior al 50%.
Porque si yo no tuviera covariable como mínimo acierto el 50%. Por ejemplo, si tengo que decir que
una persona que entra, de la cual no sé cuál es su puntuación en el test, si va a ingresar o no; nos
basaríamos en la mayoría, en lo más frecuente. Ya que disponemos de esos datos que son de si
ingresaron o no, quiénes, cuántos lo hicieron y cuántos no ingresaron.
Ejem: si yo quiero predecir el clima de mañana en Málaga, voy a tener en cuenta la presión
atmosférica (que es estadísticamente significa) ya que me permite mejorar mi pronóstico, y si me lo
permite es porque sé que al menos me permite acertar (decir que mañana será un día soleado en
Málaga) en más ocasiones que la mitad de las veces.
Me voy a basar en que si no tenemos en cuenta esta covariable (presión atmosférica) y mañana
tenemos que decir si va a hacer sol o no y digo SI, vamos a acertar porque el 90% de los días hace sol
allí. En este caso no me hace falta saber ningún otro valor, porque me voy a basar en lo más frecuente
como mínimo para decir que si o no. Entonces voy a acertar el 90% de los días sin tener ningún otra
información.
Por lo tanto, cuando introduzco la covariable tengo que comparar si al introducirla aumento ese 90%
de predicción, no un 50%. Lo que tengo que incrementar es ese 90%, entonces diré que esa covariable
es predictiva. Si no supera al 90% no lo es porque ya sin introducir nada acierto el 90%.

Sabemos que con un tanto por ciento acierto y con otro fallo, y fallo en 2 sentidos: diciendo que no
cuando es que sí; y diciendo que sí cuando es que no.
Dependiendo de cuales sean las consecuencias de mi investigación, querré fallar menos con unos a
costa de otros.
Tendremos una probabilidad para cada nivel de la covariable y también calcularé una ventaja (Odds)
para cada nivel. Cuando tenemos una variable cuantitativa no necesitamos hacer una Odds. Lo que nos
interesa saber si a medida que aumentan los niveles en la covariable aumenta la probabilidad del SI o
disminuye la probabilidad del SI.
Si tenemos diferentes covariables habrá una probabilidad para cada combinación de niveles.
 No confundir la probabilidad con la ventaja

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Una ventaja (Odds) nos sirve para expresar o transmitir cuántas veces la probabilidad de SI es mayor
que la de NO para ese nivel de la covariable.
Si tenemos una Odds comprendida entre 0 y 1, sabemos que el denominador es mayor al numerador y
por tanto, la probabilidad de SI es mayor que la de NO.
Razón de ventajas (Odds ratio) la ventaja de recuperarse para el segundo grupo partido por la ventaja
del primero.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si tenemos una SI/NO  NO: x= 0 y SI: x=1
- A medida que avanzo en los niveles de la covariable si es una Odds ratio superior a 1, la
probabilidad de Y=1 es mayor. Al tener 2 niveles (0 y 1), cuando paso de NO terapia a SÍ terapia
aumento la probabilidad de recuperarse, es decir, es mayor la probabilidad de recuperarse cuando
voy a terapia que cuando no.
- Y una Odds ratio entre 0 y 1 significa que a medida que avanzo en los niveles de la covariable
cuando X va siendo una unidad mayor la probabilidad de recuperarse es menor (o la Y, resultado de
la función).
Índice de riesgo (Risk ratio) no forma parte de la función logística, es por eso que podemos poner el
numerador y denominador como mejor nos convenga para interpretar.

SUPUESTOS DEL MODELO DE REGRESIÓN LOGÍSTICA


Son más bien recomendaciones, no son tan exigentes como para otro tipo de análisis de datos, pero
hay que intentar que de algún modo garanticemos la linealidad del exponente.
- Linealidad
- No colinealidad alta entre los predicadores
- Independencia entre las observaciones
- Igualdad de varianzas: la varianza del criterio con la varianza de los pronósticos. Si esas
varianzas no son iguales puede ser por 2 motivos:
o Porque no estoy incluyendo en mi modelo covariables muy relevantes
o O porque estoy introduciendo varianzas irrelevantes, es decir, covariables que no me
ayudan a mi modelo de predicción

REGRESION LOGÍSTICA BINARIA SIMPLE: SPSS

Variable criterio: recuperarse (0 = no/ 1 = sí)


Variable predictiva: tipo de tratamiento (0 = tratamiento estándar / 1= tratamiento combinado)
Quiero clasificar a la gente en si se va a recuperar o no (Y: recuperarse), en función de si han recibido
un tratamiento estándar o un tratamiento combinado (X: tipo de tratamiento).

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
 Tenemos 2 tipos de tratamiento y queremos clasificar si se recuperan o no en base a esos 2
tipos de tratamiento
Antes de hacer un análisis de regresión logística no esta demás comprobar mediante una Tabla de
frecuencias conjunta qué es lo que sucede en general, donde yo compare X con Y.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
En general, lo más frecuente es NO RECUPERARSE (57%).
Y de los que reciben el TRATAMIENTO ESTÁNDAR lo más frecuente es NO RECUPERARSE (78,6%).
Y de los que reciben un TRATAMIENTO COMBINADO lo más frecuente es RECUPERARSE (64,3%). 
esto es una pista de que esta variable puede estar asociada a la variable predictora
Primero veo lo general y luego veo si en función de los niveles de mi covariable o al menos en uno de
ellos la cosa cambia. Porque te esta dando información sobre si esa covariable te va a ayudar o no a
pronosticar esa clasificación.
Para hablar con un cierto nivel de confianza haremos un contraste de hipótesis para comprobar esa
relación entre la variable y la variable predictora.

Voy a intentar aumentar el valor predictivo o capacidad de predicción por encima de lo más probable.
En este caso lo más probable es NO RECUPERARSE con lo cual si yo no estuviera introduciendo
ninguna covariable como mínimo acertaría con el 57,1%, esto solo sería así si mi muestra es
representativa.
 Tendría que superar ese 57,1% cuando introduzco la covariable “tipo de tratamiento”
Hacemos una regresión logística porque mi criterio es dicotómico y los resultados que me aparecen
están divididos en 2: Bloque 0 y Bloque 1
- Bloque 0 / bloque de inicio /modelo nulo: es la tabla de cómo clasifica el sistema. Es una tabla
de doble entrada donde por un lado me aparece el criterio (de mi muestra los que se han
recuperados y los que no. Esto es empírico) y, por otro lado, el pronóstico que hago de cómo
los voy a clasificar yo en función del modelo teorico.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Esta tabla es distinta de la tabla que yo había obtenido antes de hacer el análisis de regresión
logística, la otra tabla era empírico frente a empírico, aquí una de las entradas es empírica y la
otra es pronosticada (qué haría yo con ellos usando la función logística).
El modelo 0, clasifica sin haber usado todavía la covariable en base a lo más probable.
Como lo más probable era NO RECUPERARSE (tanto para los que no se han recuperado como
para los que sí voy a decir que no se recuperan, todavía no tengo información sobre qué tipo de
tratamiento han llevado a cabo) a todos los mando a no recuperados porque es lo más
probable y evidentemente acierto con ellos el 57% (esto lo sabíamos de la tabla anterior, es el
tanto por ciento de los que no se recuperan). Este valor es el que yo tengo que superar si mi
modelo es predictivo (el modelo que sí que introduce la covariable).
Este modelo solo nos sirve para comparar los porcentajes.

Lo primero que voy a comprobar al igual que hago con cualquier análisis de datos es tomar una
decisión sobre si hay una relación o no entre las variables. Entonces, el contraste de hipótesis nos sirve
para tomar la decisión SI o NO con un nivel de confianza bueno.
- El contraste de hipótesis es si propones que no hay relación (H0) y si lo rechazas dices que sí.
No nos da más información que solo el nivel de confianza, ya que la conclusión es de tipo
SI/NO.
- Si concluyo que hay relación, paso a interpretar esa relación. De esa relación digo:
o La dirección de la relación: voy a comprobar en función de qué tipo de tratamiento es
más probable recuperarse
o Cuán intensa es esa relación: si es suficientemente intensa esa relación considerando
qué estas estudiando y las consecuencias que de ello se deriven. Me baso en este
número para decir si es suficiente la intensidad de la relación.
Contraste de hipótesis: voy a tomar la decisión de si existe una relación o si no he encontrado
evidencia de que exista tendré que mantenerme en que no hay.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
La H0 es la ausencia de relación entonces el nivel critico asociado al estadístico de contraste es menor
que 0.001, entonces rechazo la H0.
 Concluyo que existe una relación entre la recuperación y el tipo de tratamiento. El tipo de
tratamiento es una covariable estadísticamente significativa para el modelo.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si digo que sí hay relación voy a seguir diciendo cosas de esa relación, si digo que no ya no digo más
porque no puedo seguir hablando de ellos
Para interpretar el tamaño del efecto no fijamos en el R cuadrado de Nagelkerke (0,24).
 En regresión logística este valor siempre es más bajo que en regresión lineal (siendo mayor) porque
mis variables son dicotómicas; no necesariamente mi covariable, pero como mínimo el criterio si lo
es, entonces la proporción de varianza es menor explicada o asociada por la propia naturaleza de las
variables.
Interpretación: 24% (de lo que me interesa) de la variabilidad de recuperarse se debe o se explica al
tipo de tratamiento

Ahora vamos a ver la tabla de clasificación, pero ahora ya sí habiendo introducido la covariable de mi
modelo.

En una entrada de la tabla es Y (es lo observado. Cuánta gente se ha recuperado y cuanta no) y por
otro lado, en la tabla tenemos Y’ (lo que yo pronósticos que va a suceder o como sucedería en base al
tipo de tratamiento).

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Hay 48 personas de mi muestra que NO se recuperan. Acierto con 33 porque a esos digo que no se van
a recuperar.
33 de 48 suponen un 68,8% de aciertos al clasificar como que NO se recuperan.
El porcentaje de clasificados correctamente como que NO es la especificidad de un modelo. 
porcentaje de aciertos cuando digo que NO
El complementario a este 68,8% es el 32,2% que es un error, es el porcentaje de errores al decir SI

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
cuando es que NO (a la gente que dices que se recupera cuando no lo hacen).
36 personas se han recuperado. En función del tipo de tratamiento voy a decir que sí se recuperan 27
personas de 36, lo cual supone un 75% de aciertos al clasificar SI. Esto es la sensibilidad de un modelo.
Su complementario es el error contrario, yo me equivoco con un 25% de las que sí se han recuperado
porque estoy diciendo que no.
 Con un 25% de la gente que sí se ha recuperado estoy cometiendo errores porque estoy
diciendo que no se van a recuperar (decir que no cuando es sí)
En general, el porcentaje de aciertos es 71,4%.  He pasado de un 57,1% (es más frecuente de que la
gente no se recupere) a un 71,4% al introducir el tipo de tratamiento.
 Si yo tengo que clasificar sin considerar la covariable voy a decir que NO SE RECUPERAN todos
porque voy a acertar más (un 57,1%).
 Ese es el valor que tengo que superar cuando introduzco la covariable, ya que estamos
comparando qué modelo predice mejor.
En función de esos porcentajes que es la especificidad y sensibilidad voy a plantearme mover el punto
de corte de probabilidad, a partir del cual voy a decir que sí se recuperar (por defecto esta en 0,5).
En función de mi investigación habrá veces que yo quiera aumentar la sensibilidad, aunque sea a costa
de la especificidad y viceversa.
Ejemplo de sensibilidad: vamos a construir una prueba de screening, sabemos que detrás de estas
pruebas va una evaluación más profunda. Las pruebas de screening suelen ser masivas (generales)
porque son rápidas, poco costosas a nivel económico y para las personas que vas a evaluar porque
detrás va una evaluación más concreta, más cara, más intrusiva.
Con un screening estamos interesados en recoger a los posibles diagnósticos porque luego pasarán a
una segunda fase donde serán evaluados más profundamente y ahí con los que me esté confundiendo
mayoritariamente volveré a corregir y decir no.
Pero el error es preferible que sea en una fase primera de screening, diciéndole a alguien que SI que
tiene una enfermedad y luego NO la tenía, que al revés porque me dejaría gente que SI tiene la
enfermedad fuera del sistema.
En este caso queremos aumentar la sensibilidad porque quieres decir a mucha gente que SI y acertar, a
costa de cometer el error de que habrá gente de que NO tenga el diagnóstico y le estamos diciendo
que tiene una enfermedad, pero como va a pasar a una segunda fase espero corregirlo. Lo que no
quiero es dejarme gente fuera.
En las pruebas de screening la sensibilidad es altísima.
Hay otros ejemplos donde una puede pretender la especificidad.
Por ejemplo: la sensibilidad era muy importante en los test de COVID. Luego, vendría la PCR.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Ejemplo de especificidad: decidir si un preso se va a rehabilitar o no. En este caso, lo que le interesa a
la sociedad es protegerse. Ambos son errores, pero si tengo que decidir entre:
- Cometer más errores diciendo que hay gente que se ESTÁ REHABILITADA cuando NO lo está
(decir que sí cuando no)
- Que decir, el otro tipo de error, gente que ESTÁ REHABILITADA y que digo que NO se va a
rehabilitar (decir que no cuando si)
Elegiremos esta última porque la función de la cárcel es proteger a la sociedad de un posible peligro,

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
entonces ahí lo que va a pretender aumentar es la especificidad (aumentar el número de aciertos
diciendo NO) a costa de la sensibilidad.
 Sensibilidad: tratar de abarcar más
 Especificidad: es más riguroso
Cambiando el punto de corte cambiamos estos valores, subimos uno a costa de bajar un poco el otro y
viceversa.

Variables en la ecuación: En la última tabla 3.13 aparecen los coeficientes B0 (-1,30) y B1 (1,89).

Interpretación de la Odds:
Para el grupo que recibe el tratamiento estándar, la ventaja es menor que 1, asi que ya sé que el
denominador es mayor que el numerador. Ya sé que la probabilidad de no recuperarse es mayor que la
probabilidad de recuperarse en el tratamiento estándar.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.
Para el grupo que recibe el tratamiento combinado, la ventaja es mayor que 1, entonces la
probabilidad de recuperarse es 1,77 veces mayor que la probabilidad de no recuperarse cuando se ha
recibido el tratamiento combinado.
 Comparo solo 1 grupo por Odds

La ventaja de recuperarse con el tratamiento combinado es 6 veces mayor que con el tratamiento
estándar.
La probabilidad de recuperarse con el tratamiento combinado es mayor que con el tratamiento
estándar.

 en la Odds ratio estoy comparando 2 ambos grupos

Es 3 veces mayor la probabilidad de recuperarse con el tratamiento combinado que con el


tratamiento estándar.

Con una 𝑩𝑩𝟏𝟏 positiva ya me está indicando cómo voy a interpretar la Odds ratio, porque con un
coeficiente positivo, la “e” elevado a ese coeficiente me va a dar un valor superior a 1.
A medida que aumentan los niveles en la covariable la probabilidad de recuperarse es mayor.
Si hubiera sido negativo, a medida que aumentan los niveles en la covariable la probabilidad de
recuperarse es menor.
Como nosotros solo tenemos 2 niveles, cuando paso del estándar al combinado aumento la
probabilidad de recuperarme.
Al ver la 𝑩𝑩𝟎𝟎 negativa sé que es más probable no recuperarse que hacerlo con el estándar porque es la
Odds.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si quiero calcular la Odds para el tratamiento combinado haré esto:

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Tengo una forma a partir de las Odds de obtener la probabilidades para cada grupo sin tener que
pasar por las formulas anteriores, sustituyendo la función:
Si:
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 (𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑒𝑒𝑛𝑛 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐) 𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂
𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂 = 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑙𝑙𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 =
1−𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 (𝑑𝑑𝑑𝑑 𝑢𝑢𝑢𝑢 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑒𝑒𝑛𝑛 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐) 1+𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂

Cuando tengo 3 niveles o más tengo que tomar una decisión con el criterio, a partir de qué punto de
corte digo que se van a recuperar o que no.
Si tengo 2 niveles (en este caso tengo: tratamiento combinado y tratamiento estándar) cualquier punto
intermedio me vale porque voy a clasificar igual a la gente, pero cuando tengo 3 niveles o más tengo
que tomar una decisión de dónde lo sitúo, si aumento la especificidad o la sensibilidad.
Este es un ejemplo de grafico de una variable cuantitativa. Por ejemplo, para los que tienen 18 años se
tiene una probabilidad x, para los de 75 una probabilidad x.
Para cada uno de los niveles de la covariable tengo una probabilidad distinta de recuperarse, por
defecto viene en 0,5, pero si lo aumento lo que hago es decir a más gente que no (voy a mejorar la
especificidad). Si disminuyes el punto de corte estas diciendo a más gente que sí, por lo tanto, estas
aumentando la sensibilidad.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7390229

Te has descargado este apunte gracias a la publicidad. También puedes eliminarla con 1 coin.

También podría gustarte