Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CURSO DE ESTADÍSTICA
NOTAS DE CLASES
Julio A. Di Rienzo
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
La aplicación del modelo de regresión logística se utiliza para estudiar que factores o
El modelo más simple supone que existe una variable de respuesta, que la
simbolizaremos con Y, que tiene dos estados posibles que identificaremos con 1
del problema. Ejemplos de éxitos podrías ser: la preñez de una vaca, la tolerancia a un
log 0 1x (1)
1
En la fórmula anterior, log 1 es el “logit” de la probabilidad de éxito, log()
2
Notas de Clase
Regresión logística
e
0 1x
1 e
0 1x
(2)
Para estimar los parámetros o y 1 de un modelo logístico hace falta una muestra de n
ejemplo si se toma una muestra de n=100 vacas que forman parte de un programa de
archivo de datos conteniendo al menos dos columnas: una que tienen ceros y unos y
que los nombre de las variables sean X e Y, para el ejemplo dado anteriormente X
Una vez que el archivo de datos esta abierto, hay que seleccionar:
3
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
Figura 1: Ventana mostrando la forma en que se invoca la regresión logística desde InfoStat.
diálogo en la que espera que el usuario indique cuál es la variable dependiente (Y) y
Figura 2: Ventana de selección de variables mostrada antes (izq) y después que se especificaron de la
Condición como variable dependiente y al tamaño del cuerpo lúteo (tamaCL) como regresora.
4
Notas de Clase
Regresión logística
ventana de diálogo que permite hacer extensiones al modelo de regresión y optar por
muchos casos, el usuario no debe hacer nada en esta ventana excepto accionar el
Figura 3: Ventana de diálogo que permite agregar detalles a la especificación del modelo (aquí no se
muestra ningún agregado), modificar el criterio para interpretar como éxito o fracaso los valores de
la variable dependiente y modificar algunas opciones sobre los resultados que va a mostrar o guardar.
Si el modelo está sintácticamente bien escrito y los datos son coherentes con el
5
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
Regresión Logística
Distribución: Binomial
Función de enlace: Logit
Valor gl
Log Likelihood -136.68 498
Deviance 273.36 498
Escala (fijada) 1.00
La parte más importante de esta salida es la que está resaltada en rojo (en la salida
normal de InfoStat esta parte aparece en color negro). El valor 0.68 es la estimación
éxito (preñez) aumenta con el TCL, mientras que si el coeficiente fuera negativo
indicaría el caso contrario. Por otra parte si el coeficiente es cero quiere decir que la
probabilidad de que ocurra una preñez no está relacionada con el TCL. En este
ejemplo el coeficiente resultó positivo indicando que cuanto mayor sea el cuerpo lúteo,
disponible hemos calculado que 1 es 1.27 pero si tomáramos otra muestra de igual
porque de una muestra a otra los datos cambian (se seleccionan por azar vacas
6
Notas de Clase
Regresión logística
observados en la muestra.
toda la población sería 0, pero si tomamos muestras al azar de esta población muy
de ellas producirá valores cercanos a cero. Sin embargo en algunos casos las
menores que cero. Entonces, es natural preguntarse ¿qué chance tenemos de que
nos toque, por casualidad, una muestra en la que 1 es 1.27 o más grande solo por
Este valor indica que la probabilidad de haber obtener un valor tan extremo como 1.27
o uno mas grande aún, es de 2 en 10000 muestras. Esto quiere decir que en nuestro
experimento hemos obtenido una de estas muy poco probables muestras o que 1 es
1 difiere estadísticamente de cero y por lo tanto es cierto que a medida que aumento
el TCL aumenta la probabilidad de preñez. ¿Cuán chico tienen que ser el p-valor para
que sea significativa la diferencia con respecto al cero? El valor es arbitrario pero se
acepta que si el p-valor es igual o menor que 0.05 esto es evidencia suficiente para
sugerir que este valor debería ser un poco menor, digamos 0.01.
7
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
tiempo promedio con el nuevo procedimiento es solo 10 minutos mayor que tiempo
normal de 18 horas. Este hallazgo podría tener algún significado biológico de interés
práctica. Una pregunta que surge naturalmente es ¿cuán importante es el efecto que
nos preguntaríamos podría ser ¿que efecto tendría una diferencia de 1cm en el TCL
cantidad conocida como razón de chances y que se la conoce más comúnmente por
Razón de chances
las veces que ocurre un éxito por cada ocurrencia de un fracaso. Por ejemplo si
0.50 la chance 1 e indica que por cada fracaso ocurre un éxito. Éste es el caso
de la tirada de una moneda donde se dice que la chance de que salga cara es 1 de
como razón de chances (odds ratio en inglés). Este cociente mide cuanto mayor (o
menor) es la chance de que ocurra un éxito bajo una condición respecto de la otra.
8
Notas de Clase
Regresión logística
¿Que relación hay entre los ’s del modelo logístico y las razones de chances?
Lo primero que hay que señalar es que los s de un modelo logístico están ligados a la
razón de chances por una relación matemática simple, pero su interpretación depende
quisiéramos considerar el efecto del operador (este caso que se desarrollará como
compara las chances bajo dos condiciones. ¿Cuales son las dos condiciones
compara son dos situaciones en las que la variable regresora difiere en una unidad de
chances que se obtienen a partir del coeficiente 1 compara la chance entre una
situación y otra entre las que la regresora difiere en un centímetro. Por ejemplo si una
vaca tiene un tamaño de cuerpo lúteo de 0.5 centímetros y otra lo tiene de 1.5cm y la
razón de chances es 2. Esto significa que por la vaca con cuerpo lúteo mayor tiene
una chance de preñez 2 veces mayor que la chance de la otra. Esta razón de chances
Una razón de chances es igual a 1 cuando 1=0. Es decir, una razón de chances igual
en cambio 1>0 la razón de chances es mayor que 1 e indica cuantas veces mayor
recíproco (el recíproco de x es 1/x), que va a ser mayor que 1, y se interpreta cuantas
veces menor es la chance del éxito cuando la regresora se incrementa en una unidad.
9
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
se observa en el Cuadro 1, que bajo la columna encabezada por el rótulo odds se lee
3.57. Esto significa que la chance de obtener preñes es 3.57 veces mayor en una vaca
cuyo cuerpo lúteo es 1cm mayor que otra vaca. La razón de chances es una medida
que tiene error en su estimación y por ello se da, además de su estimación puntual un
fórmula (2) en la que se reemplaza 0 por 0.68, 1 por 1.27 y x por 2.2:
e
0.681.27(2.2)
0.97
1 e
0.68 1.27(2.2)
Luego, la probabilidad de que una vaca quede preñada cuando el TCL es 2.2cm es
Si repetimos el cálculo para diferentes valores del TCL podemos construir una curva
lúteo comprendidos entre 0.5 y 3. Los valores de probabilidad predichos para los
implementado en InfoStat.
10
Notas de Clase
Regresión logística
1.00
0.95
0.85
0.80
0.75
0.5 1.0 1.5 2.0 2.5 3.0
Tamaño del cuerpo lúteo (cm)
Sensibilidad y Especificidad
mayor sea el TCL. Una cuestión práctica es decidir cual es el tamaño mínimo de
cuerpo lúteo para sembrar una vaca. Para ello se pueden proponer distintos valores
del TCL, y medir la sensibilidad y especificidad del criterio de corte para predecir el
sobre si está (+) o no (-) apta para ser sembrada con los embriones de acuerdo a un
criterio basado en el tamaño del cuerpo lúteo. Por otra parte las vacas se clasifican
11
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
pronóstico es positivo pero no se logra la preñez (falsos positivos), aquellos en los que
negativos) , estos casos son los que en la tabla corresponden a los positivos
verdaderos. La tabla ideal es aquella que solo tienen casos en verdaderos positivos y
verdaderos negativos.
Sensibilidad
Teniendo en cuenta la tabla descripta anteriormente, la sensibilidad del criterio
PositivosVerdaderos
Sensibilidad 100 ;
PositivosVerdaderos Falsos Negativos
resultado positivo. Cuanto mayor es la sensibilidad mejor es. Sin embargo es siempre
fácil elegir un criterio que haga máxima la sensibilidad. Por ejemplo si pronosticamos
que una vaca va a quedar preñada no importando cual sea el tamaño del cuerpo lúteo,
entonces vamos a tener una sensibilidad del 100%, es decir todas las vacas que se
12
Notas de Clase
Regresión logística
Por el contrario lo que van a aumentar son los falsos positivos. Este aumento de los
Especificidad
La especificidad es una medida que indica cuan acertado es un pronóstico de preñez y
Negativos Verdaderos
Especificidad = 100 ;
NegativosVerdaderos Falsos Positivos
Si un criterio es 100% específico eso quiere decir que una vaca que tiene pronóstico
positivo seguro que va a quedar embarazada, pero esto no quiere decir que una que
tenga pronóstico negativo no pueda quedar preñada (falso negativo) todo depende de
entonces encontraremos muchos falsos negativos. Por lo tanto, lo que uno quiere de
distintos valores del tamaño del cuerpo lúteo. Una vez que se tienen estos cálculos se
Figura.
13
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
Cuando se activa este menú aparece una ventana de selección de variables como se
Condición que contienen los unos y ceros que indican si se consiguió o no la preñez
14
Notas de Clase
Regresión logística
Figura 6.Ventanas mostrando la forma selección de variables (izquierda) y las opción (derecha) para lo
obtención de curvas de sensibilidad – especificidad en InfoStat.
100
75
Porcentaje
50
25
0
0.00 0.75 1.50 2.25 3.00
tamaCL
Sensibilidad Especificidad
aumenta con el TCL. El punto donde se cruzan ambas curvas es donde se obtiene la
15
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
1.35 cm. Por lo tanto si queremos fijar un criterio para la transferencia de embriones en
función del cuerpo lúteo parece ser que el umbral 1.35 cm es el apropiado.
¿Hay una medida resumen de cuan bueno es nuestro criterio pronóstico? Si, es el
área bajo la curva ROC. Esta curva se obtiene en la misma secuencia de diálogos que
Variable:Condición
100
75
Sensibilidad(%)
50
25
0
0 25 50 75 100
1-Especificidad(%)
Figura 8.Curvas de ROC para el pronóstico de preñez en función tamaño de cuerpo lúteo. El área bajo
la curva es 0.6698. Es decir que la capacidad pronóstica de nuestro criterio es de alrededor del 67%.
Supongamos que hay dos operarios: Juan y Pedro. ¿Cómo incorporamos el efecto
(Figura 2, izq.) las variables que son categóricas deben agregarse a la lista de
16
Notas de Clase
Regresión logística
que estamos siguiendo el operario tienen dos categorías Juan y Pedro. El sistema
Como puede observarse la razón de chances de Juan con respecto a Pedro es 0.90,
diciendo que la chance de obtener una preñez es 1.1 veces menor con Juan que con
Pedro. Sin embargo observando el p-valor vemos que este tiene un valor alto 0.7449
lo cual indica que en realidad no podemos decir que el efecto operario sea
estadísticamente significativo.
Como hemos visto, en un mismo análisis hemos incorporado más de una regresora
17
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
pueden ser tanto cuanti como cualitativas. Cuando el número de regresoras es mayor
Cuadro 2: Salida de InfoStat de un análisis de regresión logística que incluye una variable regresora y
una variable de clasificación.
Regresión Logística
Distribución: Binomial
Función de enlace: Logit
Valor gl
Log Likelihood -136.63 497
Deviance 273.26 497
Escala (fijada) 1.00
Bibliografía
Agresti, A. Categorical Data Analysis. John Wiley & Sons, NY. 1990
18