2 Tarea

3
Maestría en:
SEGURIDAD Y SALUD
OCUPACIONAL
100% online
Análisis Estadístico de Datos y Técnicas de

Muestreo
U4-Evaluación individual: Modelos de regresión logística
Grupo 6:
 ARGUDO PELÁEZ, RUTH
 CEDEÑO PÉREZ FREDDY
 RODRÍGUEZ RODRÍGUEZ, VERÓNICA
MAESTRIA DE SEGURIDAD Y SALUD
OCUPACIONAL
Análisis Estadístico de Datos y Técnicas de Muestreo
MODELOS DE REGRESIÓN LOGÍSTICA
Instrucciones
A partir de la base de datos adjunta a esta actividad y usando el software Epi Info
realice los siguientes cálculos:
 Modelos de regresión logística cruda y ajustada.

 Guarde los códigos de Epi Info en un documento de Word.
 Con los resultados obtenidos en Epi Info elabore un informe en formato Word
que incluya una tabla de modelos de regresión logística e interprete los
resultados.
 Suba los dos documentos (Códigos Epi Info e Informe) a la plataforma.
OCUPACIONAL
Contenido
INTRODUCCIÓN.........................................................................................................................................2
OBJETIVOS..................................................................................................................................................5
TABLA DE DATOS E INTERPRETACIÓN DE RESULTADOS.............................................................5
Bibliografía....................................................................................................................................................9
CAPTURAS DE PANTALLA....................................................................................................................10
OCUPACIONAL
INTRODUCCIÓN
La aplicación de la estadística en el mundo moderno considerando su historia y evolución, ha marcado

una clara y eficiente herramienta para la interpretación de datos, ya que es una rama de la matemática que
permite hoy en día la posibilidad de evitar tener resultados infundados y que podrían ser considerados no
válidos, permitiendo claramente obtener evidencias que fortalezcan la propuesta de medidas de mejora en
la rama de su aplicación, de la mano para un trabajo más ágil en el análisis de datos, ya que es mucho más
sistemático y ahora con los distintos programas esto es mucho más ágil y eficiente.
Dentro de la estadística una variable es una característica que puede fluctuar y cuya variación
es susceptible a adoptar diferentes valores, los cuales pueden medirse u observarse. Las
variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte de
una hipótesis o de una teoría. En este caso se las denomina constructos o construcciones
hipotéticas. A partir de este concepto se puede mencionar que una variable es la que permite
relacionarla con algún problema o fenómeno, el cual vamos a investigar y buscar posible
soluciones (Wikipedia, 2021).
Dentro de este contexto existes una división de las variables, para esta tarea se considerarán
las variables cuantitativas que varios autores las definen de diferentes formas, para mayor
facilidad se puede definir como variables cuantitativas a las variables con argumento numérico
y/o matemático y que están divididas en:
 Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores
que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los
distintos valores específicos que la variable pueda asumir. Ejemplo: El número de hijos (1, 2, 3, 4, 5)
(Wikipedia, 2021).
 Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo
especificado de valores. Por ejemplo la masa (2,3kg, 2,4kg, 2,5kg,...) o la altura (1,64m, 1,65m,
1,66m,...), o el salario. Solamente se está limitado por la precisión del aparato medidor, en teoría
permiten que exista indefinidos valores entre dos variables (Wikipedia, 2021).
Otra definición técnica es que las variables cuantitativas son diferentes a las cualitativas
porque pueden expresarte en cifras, que pueden ser medibles, pueden ordenarse de mayor a
menor o viceversa y realizar operaciones matemáticas y esto puede ser aplicado para análisis
con métodos estadísticos.
Para el presente análisis se utilizará de igual forma el programa Epi Info que es de fácil acceso y
aplicación, que a pesar de que es un programa estadístico más utilizado por los epidemiólogos puede ser
aplicado en varios campos como es el presente caso.
MODELOS DE REGRESION LOGISTICA
Asociación entre variables binomiales
Se dice que un proceso es binomial cuando sólo tiene dos posibles resultados:
"éxito" y "fracaso", siendo la probabilidad de cada uno de ellos constante en una
serie de repeticiones. A la variable número de éxitos en n repeticiones se le
denomina variable binomial. A la variable resultado de un sólo ensayo y, por tanto,
con sólo dos valores: 0 para fracaso y 1 para éxito, se le denomina binomial
puntual.
Un proceso binomial está caracterizado por la probabilidad de éxito, representada

por p (es el único parámetro de su función de probabilidad), la probabilidad de
fracaso se representa por q y, evidentemente, ambas probabilidades están
relacionadas por p+q=1. En ocasiones, se usa el cociente p/q, denominado "odds",
y que indica cuánto más probable es el éxito que el fracaso, como parámetro
OCUPACIONAL
característico de la distribución binomial aunque, evidentemente, ambas

representaciones son totalmente equivalentes.
Los modelos de regresión logística son modelos de regresión que permiten estudiar
si una variable binomial depende, o no, de otra u otras variables (no
necesariamente binomiales): Si una variable binomial de parámetro p es
independiente de otra variable X, se cumple p=p|X, por consiguiente, un modelo de
regresión es una función de p en X que a través del coeficiente de X permite
investigar la relación anterior.
Ejemplo 1: Se quiere comparar la eficacia de dos tratamientos alternativos para

una misma enfermedad. Asumiendo que el proceso "curar" sólo tiene dos
resultados: sí o no y que la probabilidad de curación es la misma para todos los
enfermos, se trata de un proceso binomial. Se trata de ver si este proceso está
asociado, o no, con el tratamiento, es decir, si la probabilidad de curación dado el
tratamiento A es igual, o distinta, a la probabilidad de curación dado el tratamiento
B. Supóngase que sobre una muestra aleatoria de 40 enfermos, dividida
aleatoriamente en dos grupos de 20, a cada uno de los cuales se le suministra un
tratamiento, se obtienen los siguientes resultados:
tratamiento. A tratamiento. B
(X=1) (X=0)
curación 18 13
no 2 7
Total 20 20
Si se define la variable tratamiento como X=1 para el tratamiento A y X=0 para el

B, a partir de la tabla podemos estimar la probabilidad de curación para el
tratamiento B: p|(X=0)=13/20 y para el tratamiento A: p|(X=1)=18/20 Como
ambas probabilidades son distintas, "parece" que la probabilidad de curación
depende del tratamiento. Las preguntas son: ¿esta dependencia es generalizable
("estadísticamente significativa")? ¿cuánto depende ("clínicamente relevante")?
La primera pregunta la podemos resolver mediante la prueba c2, la segunda

mediante las denominadas "medidas de asociación", o "de fuerza de la asociación",
o "de efecto": diferencia de riesgo (DR), riesgo relativo (RR) y "odds ratio" (OR). En
el ejemplo:
DR: 18/20 - 13/20 = 5/20 =0,25
RR: (18/20)/(13/20) = 18/13 = 1,38
OR: ((18/20)/(2/20))/(13/20)/(7/20) =(18x7)/(13x2) = 4,85
DR es 0 en caso de no diferencia, mientras que RR y OR son ambos 1. Recordemos

que el OR, aunque es la medida menos intuitiva 1,2, es la más extendida por diversas
razones y que es conveniente que a estas estimaciones puntuales las
acompañemos de su intervalo de confianza que nos indica la precisión de la
estimación.
Ejemplo 2: Para refrescar los conceptos de odds ratio y riesgo relativo. Sean dos
juegos, en uno (X=0) se apuesta sobre la salida de una cierta cara en una tirada de
un dado, y en otro (X=1) sobre la salida de una cara en la tirada de una moneda.
Evidentemente, la probabilidad de ganar es para el dado p|(X=0)=1/6 y para la
moneda p|(X=1)=1/2 El riesgo relativo es:
OCUPACIONAL
que, como es distinto de 1, quiere decir que la probabilidad de ganar está asociada
al tipo de juego, y que es 3 veces más probable ganar con la moneda que con el
dado. El odds ratio para este ejemplo es:
el odds para la moneda es 5 veces el odds del dado, es decir, a la larga la razón de
partidas ganadas/perdidas es 5 veces mayor para la moneda que para el dado. Para
decidir a que juego interesa jugar hay que comparar este odds ratio con la razón de
los cocientes entre lo que se puede ganar y perder en cada jugada en ambos
juegos. El OR está siempre más alejado de 1 que el RR, aunque cuando las
probabilidades son muy pequeñas la diferencia (entre el OR y el RR) es pequeña.
Se trata, ahora, de comparar el juego de la lotería nacional (X=1) en el que el

premio es para un número extraído de entre 100.000, con el de la lotería primitiva
(X=0) en que se premia una combinación de 6 números de entre las que se pueden
formar con 49 números. Resulta p|(X=1)=1/100.000. El número de combinaciones
de 6 números que se pueden formar con 49 es C 49;6=13.983.816 por lo tanto p|
(X=0)=1/13.983.816 y:
es aproximadamente 140 veces más probable ganar en el juego de la lotería que en

el de la lotería primitiva. El odds ratio para este ejemplo es:
que, como era de esperar, debido a los pequeños valores de p|X=1 y p|X=0 es
prácticamente igual que el riesgo relativo (recordar cuando la prevalencia es baja,
el OR estima el RR).
OBJETIVOS
- Interpretar los datos y presentación de resultados de los análisis realizados de los

modelos de regresión logística e interprete los resultados.
TABLA DE DATOS E INTERPRETACIÓN DE RESULTADOS
A continuación, se presenta la tabla con los resultados obtenidos de cada una de las variables:
OCUPACIONAL
1.1 Variable dependiente Tratamiento, Variable independiente Ausencia de trabajo, tipo

de contrato y sexo
Hipótesis nula. ¿
Imagen #1. Medias Variable edad y uso de analgésicos
Fuente. EPI INFO
Análisis: los valores de las medias de las variables no son iguales, por lo que se procede a
observar el valor de T test de varianzas desiguales, mismo que es de 0,8536 y el P- Value de
0,8528, por lo tanto, tienen valores mayores a 0,05, indicando que la edad influye con el uso de
analgésicos durante los últimos 3 meses
1.2 Variable Edad – sexo.
Hipótesis nula. ¿la edad no influye con el género de los trabajadores?
Imagen #2. Medias Variable edad y género

OCUPACIONAL
Fuente. EPI INFO
El que explica mejor cuál es el que tiene mayor porcentaje
B si es menor a 0.05 es una variable independiente y explica a la variable dependiente en este caso las
únicas son ausencia del trabajo y uso de medicamentos
Ex(B), indica el grado de relación, cuanto más alejada de uno esta más fuerte, en este caso lesión,
ausencia y uso de medicamentos
En cuanto a la bondad del modelo este se explica entre 0.98 y 0.39 en el primer caso y en el segundo
entre 0.538 y 0.536
El modelo debe ser el que más explique los datos y que además sea técnicamente robusto e
interpretable.
Para ajustar el modelo de regresión logística se debe incluir el estudio de la devianza, este se define
como el doble logaritmo de verosimilitud
=(2*(0.537)-2*(0.3958))
OCUPACIONAL
Chi cuadrado = 0.2824
Mi valor de la varianza debería disminuir sensiblemente entre las dos instancias, en mejor de los
casos tender a cero cuando el modelo predice bien.
=(2*(0.537)-2(0.3958))
“ En el ajuste del modelo deben incluirse todas aquellas variables que se consideren técnicamente
importantes para el modelo, no debería dejarse de incluir toda variable que en un análisis univariado
previo demostrara una relación “suficiente” con la variable dependiente”.
Escoger las variables que se van a escoger en mi caso yo escogí todas así que en tarea ya no pueden
colocar las mismas
Análisis: los valores de las medias de las variables no son iguales, por lo que se procede a
observar el valor de T test, mismo que es de 0,7464 y el P- Value de 0,7469, por lo tanto,
tienen valores mayores a 0,05, indicando que existe dependencia de la edad y genero de los
trabajadores.
Fuente. EPI INFO
Análisis: el porcentaje de los valores esperados en la prueba chi cuadrado no son inferiores al
5%, por ende, es un método robusto,
Respecto a los resultados observamos el valor de 0,9643975756 en x2 corregido y

0,8491347805 el valor exacto de fisher, por lo tanto, al tener valores a mayor al valor de
significancia no rechazamos la hipótesis nula debido a que concluimos que no hay evidencia
estadísticamente significativa, respecto a que sexo de los trabajadores no está relacionado con
haber presentado cirugía anteriormente.
OCUPACIONAL
Análisis:
MODELOS DE REGRESION LOGISTICA

V. Abraira
Bibliografía:
V. Abraira, A.Pérez de Vargas

Métodos Multivariantes en Bioestadística.
Ed. Centro de Estudios Ramón Areces. 1996.
L.C. Silva Ayçaguer

Excursión a la regresión logística en Ciencias de la Salud
Díaz de Santos. 1995
D.W. Hosmer, S. Lemeshow

Applied Logistic Regression.
John Wiley & Sons. 1989.
Bibliografía
1) Pagano, M.; Gauvreau, K. Princípios de Bioestatística.
2) Bussab, WO.; Morettin, PA. Estatística Básica, 2005

OCUPACIONAL
CAPTURAS DE PANTALLA
READ {config:Base de datos 2A}:[Base de datos$]

TABLES cirugia_anterior edad
TABLES LER edad
TABLES sexo_cat edad
TABLES tipo_contrato edad
TABLES tratamiento edad
TABLES uso_medicamentos edad
TABLES cirugia_anterior ausencia_trabajo
TABLES LER ausencia_trabajo
TABLES sexo_cat ausencia_trabajo
TABLES tipo_contrato ausencia_trabajo
TABLES tratamiento ausencia_trabajo
TABLES uso_medicamentos ausencia_trabajo
MEANS LER cirugia_anterior
MEANS sexo_cat cirugia_anterior
MEANS tipo_contrato cirugia_anterior
MEANS tratamiento cirugia_anterior
MEANS uso_medicamentos cirugia_anterior
MEANS cirugia_anterior LER
MEANS sexo_cat LER
MEANS tipo_contrato LER
MEANS tratamiento LER
MEANS uso_medicamentos LER
MEANS LER sexo_cat
MEANS tipo_contrato sexo_cat
MEANS tratamiento sexo_cat
MEANS uso_medicamentos sexo_cat
MEANS uso_medicamentos tipo_contrato
MEANS tratamiento tipo_contrato
MEANS sexo_cat tipo_contrato
MEANS LER tipo_contrato
MEANS cirugia_anterior tipo_contrato
MEANS cirugia_anterior tratamiento
OCUPACIONAL
MEANS uso_medicamentos tratamiento
MEANS sexo_cat tratamiento
MEANS LER tratamiento
MEANS cirugia_anterior uso_medicamentos
MEANS LER uso_medicamentos
MEANS sexo_cat uso_medicamentos
MEANS tipo_contrato uso_medicamentos
MEANS tratamiento uso_medicamentos

2 Tarea

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2 Tarea

Cargado por

Copyright:

Formatos disponibles

3

Análisis Estadístico de Datos y Técnicas de

U4-Evaluación individual: Modelos de regresión logística

MODELOS DE REGRESIÓN LOGÍSTICA

 Modelos de regresión logística cruda y ajustada.

La aplicación de la estadística en el mundo moderno considerando su historia y evolución, ha marcado

MODELOS DE REGRESION LOGISTICA

Asociación entre variables binomiales

Un proceso binomial está caracterizado por la probabilidad de éxito, representada

característico de la distribución binomial aunque, evidentemente, ambas

Ejemplo 1: Se quiere comparar la eficacia de dos tratamientos alternativos para

Si se define la variable tratamiento como X=1 para el tratamiento A y X=0 para el

La primera pregunta la podemos resolver mediante la prueba c2, la segunda

DR: 18/20 - 13/20 = 5/20 =0,25

RR: (18/20)/(13/20) = 18/13 = 1,38

OR: ((18/20)/(2/20))/(13/20)/(7/20) =(18x7)/(13x2) = 4,85

DR es 0 en caso de no diferencia, mientras que RR y OR son ambos 1. Recordemos

Se trata, ahora, de comparar el juego de la lotería nacional (X=1) en el que el

es aproximadamente 140 veces más probable ganar en el juego de la lotería que en

- Interpretar los datos y presentación de resultados de los análisis realizados de los

TABLA DE DATOS E INTERPRETACIÓN DE RESULTADOS

1.1 Variable dependiente Tratamiento, Variable independiente Ausencia de trabajo, tipo

Imagen #1. Medias Variable edad y uso de analgésicos

Fuente. EPI INFO

1.2 Variable Edad – sexo.

Hipótesis nula. ¿la edad no influye con el género de los trabajadores?

Imagen #2. Medias Variable edad y género

Fuente. EPI INFO

El que explica mejor cuál es el que tiene mayor porcentaje

Chi cuadrado = 0.2824

Fuente. EPI INFO

Respecto a los resultados observamos el valor de 0,9643975756 en x2 corregido y

MODELOS DE REGRESION LOGISTICA

V. Abraira, A.Pérez de Vargas

L.C. Silva Ayçaguer

D.W. Hosmer, S. Lemeshow

1) Pagano, M.; Gauvreau, K. Princípios de Bioestatística.

2) Bussab, WO.; Morettin, PA. Estatística Básica, 2005

READ {config:Base de datos 2A}:[Base de datos$]

También podría gustarte