Regresión Logística

INSTITUTO DE REPRODUCCIÓN BOVINA CÓRDOBA – IRAC
ESCUELA PARA GRADUADOS – FAC. DE CIENCIAS AGROPECUARIAS
UNIVERSIDAD NACIONAL DE CÓRDOBA
ESPECIALIDAD EN REPRODUCCIÓN BOVINA
CURSO DE ESTADÍSTICA
NOTAS DE CLASES
ANÁLISIS DE REGRESION LOGISTICA
Julio A. Di Rienzo
Curso de Postrado: Estadística
Especialidad en Reproducción Bobina
Análisis de Regresión Logística
La aplicación del modelo de regresión logística se utiliza para estudiar que factores o
covariables modifican y en que medida la probabilidad de ocurrencia de un suceso. Un
ejemplo típico en el contexto de la reproducción animal sería establecer que factores,
de una lista plausible de ellos, hace más o menos propensa la preñez.
El modelo más simple supone que existe una variable de respuesta, que la
simbolizaremos con Y, que tiene dos estados posibles que identificaremos con 1
(éxito) ó 0 (fracaso) y una variables predictora que simbolizaremos con la letra x. El
concepto de éxito es relativo y puede tener significados muy diferentes dependiendo
del problema. Ejemplos de éxitos podrías ser: la preñez de una vaca, la tolerancia a un
dispositivo intrauterino, la ovulación durante una ventana de tiempo, etc.
Si con el símbolo  representamos la probabilidad de ocurrencia de un éxito y existen
factores y covariables que pueden modificar esta probabilidad, el modelo de regresión
logística expresa esta relación según la siguiente relación:
  
log    0  1x (1)
 1  

En la fórmula anterior, log  1     es el “logit” de la probabilidad de éxito, log()
hace referencia a la función logaritmo,  es la probabilidad de ocurrencia de éxito, o
es una constante correspondiente al logit cuando la x=0 y 1 la tasa con que un
cambio en x afecta el “logit” de la probabilidad de éxito. o y 1 son los parámetros del
modelo. Una vez estimados, es posible hacer estimaciones de la probabilidad de éxito
para un valor particular de la variable x utilizando la siguiente expresión.
2
Notas de Clase
Regresión logística
e
0  1x 

1  e
0  1x 
(2)
¿Como se estiman los parámetros del modelo logístico?
Para estimar los parámetros o y 1 de un modelo logístico hace falta una muestra de n
observaciones en las que se registran los valores de Y y de X. Los valores de Y son
ceros o unos y los de X se corresponden con el tipo de variable considerada. Por
ejemplo si se toma una muestra de n=100 vacas que forman parte de un programa de
transplante embrionario, la variable Y podría representar la condición de preñada (1) o
no (0) y X el tamaño del cuerpo lúteo (TCL) al momento de la siembra de los
embriones. Un archivo típico de datos de este tipo tendría la siguiente forma:
Para ajustar el modelo logístico utilizando InfoStat, se supone que se dispone de un
archivo de datos conteniendo al menos dos columnas: una que tienen ceros y unos y
otra conteniendo los valores de la variable predictora (X). No es en absoluto necesario
que los nombre de las variables sean X e Y, para el ejemplo dado anteriormente X
podría tener el rótulo TamCL e Y el rótulo Condición como se observa en la Figura 1.
Una vez que el archivo de datos esta abierto, hay que seleccionar:
Menu Estadísticas>>Datos Categorizados>>Regresión logística como se muestra en
la siguiente ilustración (Figura 1).
3
Figura 1: Ventana mostrando la forma en que se invoca la regresión logística desde InfoStat.
Cuando se solicita un análisis de regresión logística, InfoStat muestra una ventana de
diálogo en la que espera que el usuario indique cuál es la variable dependiente (Y) y
cuál la regresora (X) (Figura 2).
Figura 2: Ventana de selección de variables mostrada antes (izq) y después que se especificaron de la
Condición como variable dependiente y al tamaño del cuerpo lúteo (tamaCL) como regresora.
4
Notas de Clase
A continuación, si el usuario acciona el botón <<Aceptar>> aparece una segunda
ventana de diálogo que permite hacer extensiones al modelo de regresión y optar por
diferentes formatos para el ingreso de la variable dependiente (Y) (Figura 3). En
muchos casos, el usuario no debe hacer nada en esta ventana excepto accionar el
botón <<Aceptar>>, aunque suele ser recomendable tildar la opción Guardar
predichos, como se muestra en el ejemplo.
Figura 3: Ventana de diálogo que permite agregar detalles a la especificación del modelo (aquí no se
muestra ningún agregado), modificar el criterio para interpretar como éxito o fracaso los valores de
la variable dependiente y modificar algunas opciones sobre los resultados que va a mostrar o guardar.
Si el modelo está sintácticamente bien escrito y los datos son coherentes con el
modelo propuesto, se obtendrá una salida como la que se muestra a continuación:
5
Cuadro 1: Salida de un análisis de regresión logística con InfoStat
Regresión Logística
Distribución: Binomial
Función de enlace: Logit
Variable dependiente: Condición

Codificar éxito como valores mayores que la media
Número de observaciones: 500
Observaciones faltantes: 0
Iteraciones: 7 (max=20)
Tolerancia: 1E-9 (0.000000000)
Parámetros Est. EE Odd Wald LI(95%) Wald LS(95%) Wald Chi² p-

valor
Constante 0.68 0.44 1.98 0.84 4.70 2.41
0.1205
tamaCL 1.27 0.34 3.57 1.85 6.89 14.37
0.0002
Valor gl
Log Likelihood -136.68 498
Deviance 273.36 498
Escala (fijada) 1.00
F.V. gl -2[L0-L1] p-valor

tamaCL 1 166.11 <0.0001
La parte más importante de esta salida es la que está resaltada en rojo (en la salida
normal de InfoStat esta parte aparece en color negro). El valor 0.68 es la estimación
de 0 y 1.27 la correspondiente a 1. De ambos parámetros, el que tiene principal
interés para nosotros es 1 ya que si éste es positivo, indica que la probabilidad de
éxito (preñez) aumenta con el TCL, mientras que si el coeficiente fuera negativo
indicaría el caso contrario. Por otra parte si el coeficiente es cero quiere decir que la
probabilidad de que ocurra una preñez no está relacionada con el TCL. En este
ejemplo el coeficiente resultó positivo indicando que cuanto mayor sea el cuerpo lúteo,
al momento de la siembra de los embriones, mayor será la probabilidad de obtener
una preñez. La pregunta que debemos hacer a continuación es si esta interpretación
es confiable. Los estadísticos razonan de la siguiente manera. Con la muestra
disponible hemos calculado que 1 es 1.27 pero si tomáramos otra muestra de igual
tamaño y bajo las mismas condiciones el valor estimado de 1 cambiaria, simplemente
porque de una muestra a otra los datos cambian (se seleccionan por azar vacas
6
Notas de Clase
diferentes) y las estimaciones tanto de 1 como de 0 se calculan a partir de los datos
observados en la muestra.
Si la probabilidad de éxito no dependiera del TCL, el valor de 1 obtenido a partir de
toda la población sería 0, pero si tomamos muestras al azar de esta población muy
difícilmente alguna muestra produzca un valor de 1 exactamente igual a 0. La mayoría
de ellas producirá valores cercanos a cero. Sin embargo en algunos casos las
muestras podrían producir valores bastante distintos de cero ya sea mayores o
menores que cero. Entonces, es natural preguntarse ¿qué chance tenemos de que
nos toque, por casualidad, una muestra en la que 1 es 1.27 o más grande solo por
casualidad si en la población el 1 fuera cero? La respuesta está en el Cuadro 1 bajo la
columna encabezada por el rótulo p-valor de la tabla resaltada en rojo. En esa
columna se lee para la línea correspondiente a tamaCL un p-valor igual a 0.0002.
Este valor indica que la probabilidad de haber obtener un valor tan extremo como 1.27
o uno mas grande aún, es de 2 en 10000 muestras. Esto quiere decir que en nuestro
experimento hemos obtenido una de estas muy poco probables muestras o que 1 es
distinto de cero. La interpretación que se hace acepta es la segunda y se concluye que
1 difiere estadísticamente de cero y por lo tanto es cierto que a medida que aumento
el TCL aumenta la probabilidad de preñez. ¿Cuán chico tienen que ser el p-valor para
que sea significativa la diferencia con respecto al cero? El valor es arbitrario pero se
acepta que si el p-valor es igual o menor que 0.05 esto es evidencia suficiente para
concluir que hay un efecto estadísticamente significativo. La experiencia me permite
sugerir que este valor debería ser un poco menor, digamos 0.01.
¿Como valoramos la importancia de un resultado significativo?
A veces un efecto puede ser estadísticamente significativo pero de poco impacto
práctico. Si por ejemplo estuviéramos ensayando un procedimiento para prolongar la
7
duración del celo en vacas podríamos encontrar que el nuevo procedimiento lo
incrementa significativamente. Pero cuando estimamos ese incremento resulta que el
tiempo promedio con el nuevo procedimiento es solo 10 minutos mayor que tiempo
normal de 18 horas. Este hallazgo podría tener algún significado biológico de interés
académico pero posiblemente para un productor no tenga ninguna implicancia
práctica. Una pregunta que surge naturalmente es ¿cuán importante es el efecto que
tiene la variable estudiada sobre la probabilidad de éxito? En nuestro ejemplo, lo que
nos preguntaríamos podría ser ¿que efecto tendría una diferencia de 1cm en el TCL
sobre la probabilidad de preñez? Una forma de responder esto es mirando una
cantidad conocida como razón de chances y que se la conoce más comúnmente por
su nombre en inglés: odds ratio.
Razón de chances
Si un suceso tiene probabilidad  su chance se define como chance   1    . Esta
es una forma diferente de expresar una probabilidad y su resultado se interpreta como
las veces que ocurre un éxito por cada ocurrencia de un fracaso. Por ejemplo si
  0.50 la chance  1 e indica que por cada fracaso ocurre un éxito. Éste es el caso
de la tirada de una moneda donde se dice que la chance de que salga cara es 1 de
cada 2 tiradas. Si   0.95 la chance  19 y su resultado se expresa diciendo que
de cada 20 veces ocurren 19 éxitos y 1 un fracaso.
Es común que se compare la chance de un evento bajo dos condiciones diferentes. La
forma de hacerlo es tomando el cociente entre las chances y su resultado es conocido
como razón de chances (odds ratio en inglés). Este cociente mide cuanto mayor (o
menor) es la chance de que ocurra un éxito bajo una condición respecto de la otra.
Cuando la probabilidad de éxito es pequeña en ambas condiciones (inferiores a 0.20),
el cociente de chances se aproxima bastante al riesgo relativo y se considera una
8
Notas de Clase
buena aproximación de éste. El riesgo relativo es simple de interpretar y mide cuantas
veces un evento es más probable en una condición que en otra.
¿Que relación hay entre los ’s del modelo logístico y las razones de chances?
Lo primero que hay que señalar es que los s de un modelo logístico están ligados a la
razón de chances por una relación matemática simple, pero su interpretación depende
del tipo de regresora utilizada. La regresoras típicas son cuantitativas como en el
ejemplo que estamos desarrollando (la regresora es el TCL) o categóricas si
quisiéramos considerar el efecto del operador (este caso que se desarrollará como
ejemplo más adelante). Como indicamos anteriormente, una razón de chances
compara las chances bajo dos condiciones. ¿Cuales son las dos condiciones
comparadas cuando la regresora es una variable cuantitativa? En este caso lo que se
compara son dos situaciones en las que la variable regresora difiere en una unidad de
medida. Es decir, si la regresora está dada en centímetros entonces la razón de
chances que se obtienen a partir del coeficiente 1 compara la chance entre una
situación y otra entre las que la regresora difiere en un centímetro. Por ejemplo si una
vaca tiene un tamaño de cuerpo lúteo de 0.5 centímetros y otra lo tiene de 1.5cm y la
razón de chances es 2. Esto significa que por la vaca con cuerpo lúteo mayor tiene
una chance de preñez 2 veces mayor que la chance de la otra. Esta razón de chances
será la misma entre dos vacas con cuerpos lúteos de 1 y 2 cm respectivamente.
Una razón de chances es igual a 1 cuando 1=0. Es decir, una razón de chances igual
a 1 indica que no hay relación entre la variable regresora y la probabilidad de éxito. Si
en cambio 1>0 la razón de chances es mayor que 1 e indica cuantas veces mayor
es la chance de que ocurra un éxito cuando la regresora se incrementa en una unidad.
Si el cociente de chances es menor que 1 entonces para interpretarlo se toma su
recíproco (el recíproco de x es 1/x), que va a ser mayor que 1, y se interpreta cuantas
veces menor es la chance del éxito cuando la regresora se incrementa en una unidad.
9
Volviendo al ejemplo en el que se estudia el éxito de preñez y su relación con el TCL,
se observa en el Cuadro 1, que bajo la columna encabezada por el rótulo odds se lee
3.57. Esto significa que la chance de obtener preñes es 3.57 veces mayor en una vaca
cuyo cuerpo lúteo es 1cm mayor que otra vaca. La razón de chances es una medida
que tiene error en su estimación y por ello se da, además de su estimación puntual un
intervalo de confianza al 95% que indica que la verdadera razón de chances es al
menos de 1.85 y como máximo de 6.89.
Predicciones de un modelo logístico
¿Cuál es la probabilidad de que quede preñada si su cuerpo lúteo mide 2.2cm al
momento de la transferencia de embriones? Para calcularla se utiliza la siguiente
fórmula (2) en la que se reemplaza 0 por 0.68, 1 por 1.27 y x por 2.2:
e
0.681.27(2.2) 
  0.97
1  e
0.68 1.27(2.2) 
Luego, la probabilidad de que una vaca quede preñada cuando el TCL es 2.2cm es
aproximadamente 0.97 (esto es una chance de alrededor 32 veces en 33).
Si repetimos el cálculo para diferentes valores del TCL podemos construir una curva
de probabilidad como se muestra en la siguiente figura. La figura 3a muestra los
valores de probabilidad predichos por el modelo para valores de tamaño de cuerpo
lúteo comprendidos entre 0.5 y 3. Los valores de probabilidad predichos para los
valores de cuerpo lúteo observados en la muestra se pueden obtener tildando la
opción guardar predichos en la ventana de diálogo del análisis de regresión logística
implementado en InfoStat.
10
Notas de Clase
1.00
0.95
probabilidad de preñez 0.90
0.85
0.80
0.75
0.5 1.0 1.5 2.0 2.5 3.0
Tamaño del cuerpo lúteo (cm)
Figura 4. Curva de probabilidad de preñez obtenida utilizando el graficador de formulas de InfoStat

y pidiendo que grafique la expresión exp(0.68+1.27*x)/ (1+exp(0.68+1.27*x)), para valores de x entre 0.5 y
3 (izq).
Sensibilidad y Especificidad
En la gráfica anterior se ve claramente que el TCL al momento de la transferencia de
los embriones modifica la probabilidad de éxito de preñez y esta es mayor cuanto
mayor sea el TCL. Una cuestión práctica es decidir cual es el tamaño mínimo de
cuerpo lúteo para sembrar una vaca. Para ello se pueden proponer distintos valores
del TCL, y medir la sensibilidad y especificidad del criterio de corte para predecir el
éxito de la preñez. Para introducir los conceptos de sensibilidad y especificidad
consideremos el siguiente tabla de doble entrada. En esta tabla se clasifican, por
ejemplo, un conjunto de n vacas de acuerdo al pronóstico que haga el profesional
sobre si está (+) o no (-) apta para ser sembrada con los embriones de acuerdo a un
criterio basado en el tamaño del cuerpo lúteo. Por otra parte las vacas se clasifican
según si consiguieron o no la preñez. Por lo tanto existirán casos en los que el
profesional considera que la vaca está en optimas condiciones de ser sembrada
(pronóstico positivo) y logran la preñez (verdaderos positivos), otros en los que el
11
pronóstico es positivo pero no se logra la preñez (falsos positivos), aquellos en los que
el pronóstico es negativo pero si se logra la preñez (falsos negativos) y finalmente los
que el pronóstico es negativo y efectivamente no se logra la preñez (verdaderos
negativos) , estos casos son los que en la tabla corresponden a los positivos
verdaderos. La tabla ideal es aquella que solo tienen casos en verdaderos positivos y
verdaderos negativos.
Preñez (+) Preñez (-)
Pronóstico (+) Positivos Verdaderos Falsos Positivos
Pronóstico (-) Falsos Negativos Negativos Verdaderos
Sensibilidad
Teniendo en cuenta la tabla descripta anteriormente, la sensibilidad del criterio
pronóstico se calcula de la siguiente manera.
PositivosVerdaderos
Sensibilidad   100 ;
PositivosVerdaderos  Falsos Negativos
Esta cantidad mide cuan capaz es el criterio pronóstico de anticipar (detectar) un
resultado positivo. Cuanto mayor es la sensibilidad mejor es. Sin embargo es siempre
fácil elegir un criterio que haga máxima la sensibilidad. Por ejemplo si pronosticamos
que una vaca va a quedar preñada no importando cual sea el tamaño del cuerpo lúteo,
entonces vamos a tener una sensibilidad del 100%, es decir todas las vacas que se
preñen van a estar correctamente pronosticadas y no va ha haber falsos negativos.
12
Notas de Clase
Por el contrario lo que van a aumentar son los falsos positivos. Este aumento de los
falsos positivos hace caer los que llamamos especificidad.
Especificidad
La especificidad es una medida que indica cuan acertado es un pronóstico de preñez y
su formula de calculo está dada por la siguiente expresión.
Negativos Verdaderos
Especificidad =  100 ;
NegativosVerdaderos  Falsos Positivos
Si un criterio es 100% específico eso quiere decir que una vaca que tiene pronóstico
positivo seguro que va a quedar embarazada, pero esto no quiere decir que una que
tenga pronóstico negativo no pueda quedar preñada (falso negativo) todo depende de
la sensibilidad. Si el criterio pronostico es altamente específico pero poco sensible
entonces encontraremos muchos falsos negativos. Por lo tanto, lo que uno quiere de
un criterio pronóstico o diagnóstico es que tenga alta sensibilidad y alta especificidad.
InfoStat permite construir curvas de sensibilidad – especificad calculando estas
cantidades para distintos valores de un criterio de corte. En nuestro ejemplo para
distintos valores del tamaño del cuerpo lúteo. Una vez que se tienen estos cálculos se
pueden graficar la sensibilidad y la especificidad en relación a los distintos criterios de
corte y obtener las curvas de sensibilidad y especificidad en un mismo gráfico. Para
obtener estas curvas se debe elegir el menú Estadísticas>>Datos
categorizados>>Curvas de sensibilidad-especificidad como se muestra en la siguiente
Figura.
13
Figura 5.Ventan mostrando la forma de solicitar la construcción de curvas de sensibilidad –

especificidad en InfoStat.
Cuando se activa este menú aparece una ventana de selección de variables como se
muestra a continuación (Figura 6 izquierda). En ella se seleccionó a la variable
Condición que contienen los unos y ceros que indican si se consiguió o no la preñez
como Respuesta y al tamaCL como Variable pronóstica. Si accionamos el botón
<<Aceptar>> aparecerá una ventana de diálogo con opciones para la generación de
las curvas de sensibilidad-especificidad (Figura 6 derecha). En este caso nos
limitaremos a aceptar las opciones por defecto accionando el botón <<Aceptar>>. El
resultado se muestra en la Figura 7.
14
Notas de Clase
Figura 6.Ventanas mostrando la forma selección de variables (izquierda) y las opción (derecha) para lo
obtención de curvas de sensibilidad – especificidad en InfoStat.
100
75
Porcentaje
50
25
0
0.00 0.75 1.50 2.25 3.00
tamaCL
Sensibilidad Especificidad
Figura 7.Curvas de sensibilidad – especificidad para el pronóstico de preñez en función tamaño de

cuerpo lúteo. La máxima sensibilidad y especificidad simultáneas se alcanzan cerca de un 1.35 cm
La Figura 7 muestra que la sensibilidad disminuye mientras que la especificidad
aumenta con el TCL. El punto donde se cruzan ambas curvas es donde se obtiene la
máxima especificidad conjuntamente con la máxima sensibilidad. Este punto esta en
15
1.35 cm. Por lo tanto si queremos fijar un criterio para la transferencia de embriones en
función del cuerpo lúteo parece ser que el umbral 1.35 cm es el apropiado.
¿Hay una medida resumen de cuan bueno es nuestro criterio pronóstico? Si, es el
área bajo la curva ROC. Esta curva se obtiene en la misma secuencia de diálogos que
los realizados para obtener las curvas de sensibilidad-especificidad, excepto que en la
última pantalla se selecciona el ítem Curvas ROC y se obtiene la Figura 8.
Variable:Condición
100
75
Sensibilidad(%)
50
25
0
0 25 50 75 100
1-Especificidad(%)
Figura 8.Curvas de ROC para el pronóstico de preñez en función tamaño de cuerpo lúteo. El área bajo
la curva es 0.6698. Es decir que la capacidad pronóstica de nuestro criterio es de alrededor del 67%.
Regresión logística con variables categóricas
Siguiendo con el ejemplo de la preñez, podría haber interés en saber si el operador
introduce cambios en la probabilidad de éxito del procedimiento de transferencia.
Supongamos que hay dos operarios: Juan y Pedro. ¿Cómo incorporamos el efecto
operador en un modelo logístico? En la invocación del análisis de regresión logística
(Figura 2, izq.) las variables que son categóricas deben agregarse a la lista de
variables Clasificadoras como se ilustra en la Figura 9. Si una variable categórica tiene
k categorías, cuando se incorpora en un modelo logístico, se obtienen k-1 coeficientes
correspondientes al las primeras k-1 categorías. La última se toma como categoría de
16
Notas de Clase
referencia y las razones de chances se interpretan en relación a ella. En el ejemplo
que estamos siguiendo el operario tienen dos categorías Juan y Pedro. El sistema
toma a Pedro como la categoría de referencia. El Cuadro 2, presenta la salida que
genera InfoStat en un modelo que incluye además del TCL, al operario.
Figura 9: Ventana de selección mostrando a la variable Condición como variable dependiente, al

operario como variable de clasificación y tamaCL como regresora.
Como puede observarse la razón de chances de Juan con respecto a Pedro es 0.90,
que lo podemos interpretar mas fácilmente si tomamos su valor reciproco 1.1 y
diciendo que la chance de obtener una preñez es 1.1 veces menor con Juan que con
Pedro. Sin embargo observando el p-valor vemos que este tiene un valor alto 0.7449
lo cual indica que en realidad no podemos decir que el efecto operario sea
estadísticamente significativo.
Como hemos visto, en un mismo análisis hemos incorporado más de una regresora
que potencialmente afecta la chance de ocurrencia de un evento y estas regresoras
17
pueden ser tanto cuanti como cualitativas. Cuando el número de regresoras es mayor
que 1 el modelo se conoce como modelo de regresión logística múltiple.
Cuadro 2: Salida de InfoStat de un análisis de regresión logística que incluye una variable regresora y
una variable de clasificación.
Regresión Logística
Distribución: Binomial
Función de enlace: Logit
Variable dependiente: Condición

Codificar éxito como valores mayores que la media
Número de observaciones: 500
Observaciones faltantes: 0
Iteraciones: 7 (max=20)
Tolerancia: 1E-9 (0.000000000)
Parámetros Est. EE Odd Wald LI(95%) Wald LS(95%) Wald Chi² p-

valor
Constante 0.75 0.48 2.11 0.82 5.40 2.41
0.1206
operario_Juan -0.11 0.33 0.90 0.47 1.71 0.11
0.7449
tamaCL 1.27 0.34 3.55 1.84 6.86 14.28
0.0002
Parámetros igualados a cero

Efecto Parámetro
operario operario_Pedro
Valor gl
Log Likelihood -136.63 497
Deviance 273.26 497
Escala (fijada) 1.00
F.V. gl -2[L0-L1] p-valor

operario 1 0.11 0.7446
tamaCL 1 14.99 0.0001
Bibliografía
Agresti, A. Categorical Data Analysis. John Wiley & Sons, NY. 1990
18

Regresión Logística

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Logística

Cargado por

Copyright:

Formatos disponibles

INSTITUTO DE REPRODUCCIÓN BOVINA CÓRDOBA – IRAC

ESCUELA PARA GRADUADOS – FAC. DE CIENCIAS AGROPECUARIAS

UNIVERSIDAD NACIONAL DE CÓRDOBA

ESPECIALIDAD EN REPRODUCCIÓN BOVINA

ANÁLISIS DE REGRESION LOGISTICA

Análisis de Regresión Logística

covariables modifican y en que medida la probabilidad de ocurrencia de un suceso. Un

ejemplo típico en el contexto de la reproducción animal sería establecer que factores,

de una lista plausible de ellos, hace más o menos propensa la preñez.

(éxito) ó 0 (fracaso) y una variables predictora que simbolizaremos con la letra x. El

concepto de éxito es relativo y puede tener significados muy diferentes dependiendo

dispositivo intrauterino, la ovulación durante una ventana de tiempo, etc.

Si con el símbolo  representamos la probabilidad de ocurrencia de un éxito y existen

factores y covariables que pueden modificar esta probabilidad, el modelo de regresión

logística expresa esta relación según la siguiente relación:

hace referencia a la función logaritmo,  es la probabilidad de ocurrencia de éxito, o

es una constante correspondiente al logit cuando la x=0 y 1 la tasa con que un

cambio en x afecta el “logit” de la probabilidad de éxito. o y 1 son los parámetros del

modelo. Una vez estimados, es posible hacer estimaciones de la probabilidad de éxito

para un valor particular de la variable x utilizando la siguiente expresión.

¿Como se estiman los parámetros del modelo logístico?

observaciones en las que se registran los valores de Y y de X. Los valores de Y son

ceros o unos y los de X se corresponden con el tipo de variable considerada. Por

transplante embrionario, la variable Y podría representar la condición de preñada (1) o

no (0) y X el tamaño del cuerpo lúteo (TCL) al momento de la siembra de los

embriones. Un archivo típico de datos de este tipo tendría la siguiente forma:

Para ajustar el modelo logístico utilizando InfoStat, se supone que se dispone de un

otra conteniendo los valores de la variable predictora (X). No es en absoluto necesario

podría tener el rótulo TamCL e Y el rótulo Condición como se observa en la Figura 1.

Menu Estadísticas>>Datos Categorizados>>Regresión logística como se muestra en

la siguiente ilustración (Figura 1).

Cuando se solicita un análisis de regresión logística, InfoStat muestra una ventana de

cuál la regresora (X) (Figura 2).

A continuación, si el usuario acciona el botón <<Aceptar>> aparece una segunda

diferentes formatos para el ingreso de la variable dependiente (Y) (Figura 3). En

botón <<Aceptar>>, aunque suele ser recomendable tildar la opción Guardar

predichos, como se muestra en el ejemplo.

modelo propuesto, se obtendrá una salida como la que se muestra a continuación:

Cuadro 1: Salida de un análisis de regresión logística con InfoStat

Variable dependiente: Condición

Parámetros Est. EE Odd Wald LI(95%) Wald LS(95%) Wald Chi² p-

F.V. gl -2[L0-L1] p-valor

de 0 y 1.27 la correspondiente a 1. De ambos parámetros, el que tiene principal

interés para nosotros es 1 ya que si éste es positivo, indica que la probabilidad de

al momento de la siembra de los embriones, mayor será la probabilidad de obtener

una preñez. La pregunta que debemos hacer a continuación es si esta interpretación

es confiable. Los estadísticos razonan de la siguiente manera. Con la muestra

tamaño y bajo las mismas condiciones el valor estimado de 1 cambiaria, simplemente

diferentes) y las estimaciones tanto de 1 como de 0 se calculan a partir de los datos

Si la probabilidad de éxito no dependiera del TCL, el valor de 1 obtenido a partir de

difícilmente alguna muestra produzca un valor de 1 exactamente igual a 0. La mayoría

muestras podrían producir valores bastante distintos de cero ya sea mayores o

casualidad si en la población el 1 fuera cero? La respuesta está en el Cuadro 1 bajo la

columna encabezada por el rótulo p-valor de la tabla resaltada en rojo. En esa

columna se lee para la línea correspondiente a tamaCL un p-valor igual a 0.0002.

distinto de cero. La interpretación que se hace acepta es la segunda y se concluye que

concluir que hay un efecto estadísticamente significativo. La experiencia me permite

¿Como valoramos la importancia de un resultado significativo?

A veces un efecto puede ser estadísticamente significativo pero de poco impacto

práctico. Si por ejemplo estuviéramos ensayando un procedimiento para prolongar la

duración del celo en vacas podríamos encontrar que el nuevo procedimiento lo

incrementa significativamente. Pero cuando estimamos ese incremento resulta que el

académico pero posiblemente para un productor no tenga ninguna implicancia