Está en la página 1de 22

CORRELACIÓN Y REGRESIÓN

1. El editor en jefe de un importante periódico metropolitano ha intentado convencer al


dueño del periódico para que mejore las condiciones de trabajo en el taller de prensas.
Estás convencido de que, cuando trabajan las prensas, el grado de ruido crea niveles no
saludables de tensión y ansiedad. Recientemente hizo que un psicólogo realizara una
prueba durante la cual los prensistas se situaron en cuartos con niveles variables de ruido
y luego se le hizo otra prueba para medir niveles de humor y ansiedad. La siguiente tabla
muestra el índice de su grado de ansiedad o nerviosismo y el nivel de ruido al que se
vieron expuestos, (1,0 es bajo y 10,0 es alto).

Nivel de ruido 4 3 1 2 6 7 5 8
Grado de ansiedad 39 38 16 18 41 45 40 48

a) Represente gráficamente esos datos.


b) Desarrolle una ecuación de estimación que describa los datos.
c) Pronostique el grado de ansiedad que podríamos esperar cuando el nivel de ruido
es 9.
d) Calcule e interprete el coeficiente de correlación.
e) Calcule e interprete el coeficiente de determinación.

Solución:

El Nivel de ruido es la variable independiente la denotaremos por x y el Grado de


Ansiedad es la variable dependiente la denotaremos por y. Ordenando los datos
tenemos:

x 1 2 3 4 5 6 7 8
y 16 18 38 39 40 41 45 48

a) Represente gráficamente esos datos

En el siguiente gráfico se puede observar que la tendencia es lineal con una


pendiente es positiva.
Nivel de ruido relaciondo
con el Grado de ansiedad
60

50
Grado de Ansiedad

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9
Nivel de Ruido

b) Desarrolle una ecuación de estimación que describa los datos.

Como la gráfica presenta una tendencia lineal se procederá con calcular la ecuación de
estimación utilizando regresión lineal con el método de mínimos cuadrados.
La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a
continuación:
̂
Donde:
̂ Variable dependiente calculada por la ecuación de estimación, indica el pronóstico para
un valor dado de .
Variable independiente.
Indica el valor de ̂ cuando es =0.
Pendiente de la recta.
Representa el valor de la variable dependiente correspondiente a un valor de .

Para calcular los valores de y se utilizan las siguientes fórmulas.

∑ ∑ ∑
∑ (∑ )

∑ ∑ ∑ ∑
∑ (∑ )
Para nuestro caso n=8 entonces los valores de i son de 1 al 8. Tenemos el siguiente
cuadro para calcular las sumatorias que se utilizarán en las fórmulas.

i=1 1 16 16 1 256
i=2 2 18 36 4 324
i=3 3 38 114 9 1444
i=4 4 39 156 16 1521
i=5 5 40 200 25 1600
i=6 6 41 246 36 1681
i=7 7 45 315 49 2025
i=8 8 48 384 64 2304
∑ 36 285 1467 204 11155

Por lo tanto la ecuación de estimación es:

̂
c) Pronostique el grado de ansiedad que podríamos esperar cuando el nivel de ruido
es 9.
Evaluando en la ecuación de estimación para x=9, se tiene:

d) Calcule e interprete el coeficiente de correlación.

Una medida de la calidad o bondad de ajuste realizado viene dado por el coeficiente de
relación entre las variables x e, definido como:

Donde:

∑ ∑ ∑

∑ ∑
( )

∑ ∑
( )

Entonces reemplazando los datos en las fórmulas:

( )
( )

El coeficiente de correlación puede adoptar valores desde -1 hasta 1. Si R es +/- 1 o


próximo a estos valores, decimos que el modelo lineal es adecuado para describir los
datos experimentales. Cuando R es cercano a 0 decimos que una expresión lineal no es
una buena descripción de los datos. Para este caso el valor obtenido de R=0,899,
entonces podemos decir que la ecuación lineal de estimación es una buena
representación de la relación que existe entre el nivel de ruido y el grado de ansiedad.

e) Calcule e interprete el coeficiente de determinación.

El coeficiente de determinación es el cuadrado del coeficiente de correlación:

A diferencia del coeficiente de correlación este solo adopta valores de 0 hasta 1, no puede
ser negativo. Mientras más cercano a 1 decimos que el modelo lineal es adecuado para
describir los datos y mientras más cercano a 0 decimos que una expresión lineal no es
una buena descripción de los datos. En nuestro caso R=0,809, entonces podemos decir
que la ecuación lineal de estimación es una buena representación de la relación que
existe entre el nivel de ruido y el grado de ansiedad.

A continuación se muestra un gráfico de los datos y la ecuación de estimación.


Nivel de ruido relaciondo y = 4.3929x + 15.857
con el Grado de ansiedad R² = 0.809

60

50

40
Grado de Ansiedad

30

20

10

0
0 1 2 3 4 5 6 7 8 9
Nivel de Ruido

2. El gerente de una Clínica dispone de la siguiente información:

Año 2011 2012 2013 2014 2015 2016


Cirugías 120 143 150 170 162 158

a) Grafique y determine la ecuación de tendencia.


b) Proyecte las cirugías al corazón para el año 2017.

Solución:

El Año es la variable independiente la denotaremos por x y el Número de cirugías es la


variable dependiente la denotaremos por y. Ordenando los datos tenemos:

x 2011 2012 2013 2014 2015 2016


y 120 143 150 170 162 158
Para este caso contamos con 6 pares de datos n=6

a) Grafique y determine la ecuación de tendencia.

El siguiente gráfico muestra como los datos forman una sección creciente y otra
decreciente, haciendo inferir que los datos corresponden a una ecuación cuadrática con
coeficiente principal negativa. Es por ello que en este caso haremos uso del ajuste
parabólico con el método de mínimos cuadrados.

Relación entre el año y


el número de cirugías
180

160

140
Número de Cirugías

120

100

80

60

40

20

0
2010 2011 2012 2013 2014 2015 2016 2017
Año

Tenemos la ecuación cuadrática de la forma general:

Donde para hallar los valores de a, b y c se tendrá que resolver el sistema de ecuaciones
lineales con 3 variables que se muestra a continuación:

∑ ∑ ∑

∑ ∑ ∑ ∑

∑ ∑ ∑ ∑
{

Tenemos el siguiente cuadro para calcular las sumatorias que se utilizarán en las
fórmulas.

i=1 2011 120 4044121 8132727331 16354914662641 241320 485294520


i=2 2012 143 4048144 8144865728 16387469844736 287716 578884592
i=3 2013 150 4052169 8157016197 16420073604561 301950 607825350
i=4 2014 170 4056196 8169178744 16452725990416 342380 689553320
i=5 2015 162 4060225 8181353375 16485427050625 326430 657756450
i=6 2016 158 4064256 8193540096 16518176833536 318528 642152448
∑ 12081 903 24325111 48978681471 98618787986515 1818324 3661466680

Reemplazando en las fórmulas, tenemos:

Resolviendo el sistema se tiene

Por lo tanto se tiene la ecuación de estimación:

b) Proyecte las cirugías al corazón para el año 2017.

Para calcular el número de cirugías al corazón para el año 2017, evaluamos la ecuación
de estimación hallada anteriormente en x=2017.

Como el número de cirugías debe ser un número entero este último se redondea a
̂ .

El siguiente gráfico muestra la línea de tendencia cuadrática dibujada por la ecuación de


estimación:
Relación entre el año y
y = -3.4821x2 + 14030x - 1E+07
el número de cirugías R² = 0.9457
180

160

140
Número de Cirugías

120

100

80

60

40

20

0
2010 2011 2012 2013 2014 2015 2016 2017
Año

3. Se ha medido la variación de creatinina en pacientes tratados con Captopril (droga


antihipertensión) tras la suspensión del tratamiento con diálisis, resultando la siguiente
tabla:

Días tras la diálisis:


X 1 5 10 15 20 25 35
Creatinina (mg/dl):
Y 5.7 5.2 4.8 4.5 4.2 4 3.8

a) Calcule el modelo de regresión lineal


b) Interprete la variación de creatinina, en función de los días transcurridos tras la
diálisis
c) Si un individuo presenta 8 días tras la suspensión del tratamiento con diálisis, que
sucede con la creatinina (mg/dl)

Solución:

En el siguiente gráfico se puede observar que la tendencia es lineal con una pendiente es
negativa.
Relación entre los días tras la diálisis y
la creatinina (mg/dl)
6

Creatinina (mg/dl) 5

0
0 10 20 30 40
Días tras la diálisis

a) Calcule el modelo de regresión lineal

La ecuación de mínimos cuadrados para la regresión lineal es la que se indica a


continuación:
̂

∑ ∑ ∑
∑ (∑ )

∑ ∑ ∑ ∑
∑ (∑ )

Para nuestro caso n=7 entonces los valores de i son de 1 al 7. Tenemos el siguiente
cuadro para calcular las sumatorias que se utilizarán en las fórmulas.

i=1 1 5.7 5.7 1


i=2 5 5.2 26 25
i=3 10 4.8 48 100
i=4 15 4.5 67.5 225
i=5 20 4.2 84 400
i=6 25 4 100 625
i=7 35 3.8 133 1225
∑ 111 32.2 464.2 2601
Por lo tanto la ecuación de estimación es:

b) Interprete la variación de creatinina, en función de los días transcurridos tras la


diálisis.

De acuerdo a la ecuación de estimación calculada anteriormente se puede decir que la


creatina en un paciente tras la suspensión de la diálisis disminuye en 0,0552 por cada día
que trasncurre. Y que además en el día del diálisis (x=0) la persona presentará un nivel de
creatinina de 5,475 mg/dl.

c) Si un individuo presenta 8 días tras la suspensión del tratamiento con diálisis, que
sucede con la creatinina (mg/dl)

Esto se puede deducir evaluando la ecuación de estimación para x=8.

Por lo tanto el nivel de creatinina tras 8 días de la suspensión del tratamiento con diálisis
es 5,0334 mg/dl.

A continuación se muestra un gráfico de los datos y la ecuación de estimación.


Relación entre los días tras la diálisis y y = -0.0552x + 5.475
la creatinina (mg/dl) R² = 0.921
6

5
Creatinina (mg/dl)

0
0 5 10 15 20 25 30 35 40
Días tras la diálisis

PRUEBA DE INDEPENDENCIA

4. Quinientos empleados de una empresa que fabrica cierto producto, sospechoso de estar
asociado con alteraciones respiratorias, se clasificaron en forma cruzada con base de
grado de exposición al producto y si tenían o no los síntomas de tales alteraciones
respiratorias. Los resultados se muestran en la siguiente tabla:

Síntomas Sin exposición


Alto Limitado Total
presentes conocida
Sí 185 33 17 235
No 120 73 72 265
Total 305 106 89 500

¿Proporcionan estos datos la evidencia suficiente para indicar que, en un nivel de


significación de 0.05, existe una relación entre el grado de exposición y la presencia de
los síntomas de las alteraciones respiratorias?

Solución:

Hipótesis

Ho: Hipótesis nula de independencia: no hay relación entre variables.

H1: Hipótesis alternativa: existe relación entre variables.


Se calcula el valor estadístico de contraste con la siguiente fórmula:

( )
∑∑

Donde:

i: filas de las variables

j: columnas de las variables

: son los valores observados

los valores esperados bajo la hipótesis nula de independencia

valor total de la variable en la fila i

valor total de la variable en la columna j

Total de la muestra

Por los datos observados en la tabla se tiene que:

k=2 (2 filas) y m=3 (3 columnas), N=500.


Rechazamos la hipótesis nula si:

Donde es el valor crítico asociado con una distribución Chi Cuadrado con (k-1)(m-1)
grados de libertad, con un nivel de significancia de α.

Por lo tanto:

Grados de libertad = (2-1)(3-1)=2

α=0.05

Según la tabla de distribución Chi Cuadrado se tiene que

Comparando los valores:

por lo tanto rechazamos la hipótesis nula, en consecuencia


aceptamos la hipótesis alternativa.

Conclusión: Hay evidencia estadísticamente suficiente para concluir que las personas con
cierto grado exposición a un producto presentan síntomas de las alteraciones
respiratorias.

5. A un grupo de 350 adultos que participaron en una encuesta de salud, se les preguntó si
llevaban o no una dieta. Las respuestas (por sexos) son las siguientes:

Sexo
Masculino Femenino Total
A dieta 14 25 39
Sin dieta 159 152 311
Total 173 177 350

¿Sugieren estos datos que al estar en dieta depende del sexo? Sea α = 0.05.

Solución:

Hipótesis

Ho: Hipótesis nula de independencia: no hay relación entre variables.


H1: Hipótesis alternativa: existe relación entre variables.

Se calcula el valor estadístico de contraste con la siguiente fórmula:

( )
∑∑

Por los datos observados en la tabla se tiene que:

k=2 (2 filas) y m=2 (2 columnas), N=350.

Grados de libertad = (2-1)(2-1)=1

α=0.05

Según la tabla de distribución Chi Cuadrado se tiene que

Comparando los valores:

por lo tanto aceptamos la hipótesis nula.

Conclusión: No hay evidencia estadísticamente suficiente para concluir que al estar en


dieta dependa del sexo.
PRUEBA DE HOMOGENEIDAD

6. En un estudio acerca de la contaminación atmosférica realizado en dos comunidades, se


seleccionó una muestra aleatoria de 200 familias de cada una de dichas comunidades. Se
le preguntó a uno de los miembros de cada familia si algún miembro de la misma se
sentía afectado por la contaminación atmosférica. Las respuestas fueron las siguientes:

¿Algún miembro de la familia ha sido afectado por la


contaminación?
Comunidad Sí No Total
I 43 157 200
II 81 119 200
Total 124 276 400

¿Pueden concluir los investigadores que las dos comunidades difieren con respecto a la
variable de interés? Sea α = 0.05.

Solución:

Hipótesis

Ho: Hipótesis de homogeneidad: Existe homogeneidad

H1: Hipótesis alternativa: No existe homogeneidad

Se calcula el valor estadístico de contraste con la siguiente fórmula:

( )
∑∑

Por los datos observados en la tabla se tiene que:

k=2 (2 filas) y m=2 (2 columnas), N=400.


Grados de libertad = (2-1)(2-1)=1

α=0.05

Según la tabla de distribución Chi Cuadrado se tiene que

Comparando los valores:

Rechazamos la hipótesis de homogeneidad si:

por lo tanto rechazamos la hipótesis de homogeneidad.

Conclusión: Existe evidencia estadísticamente suficiente para concluir que ambas


comunidades difieren respecto a la variable de interés.

7. A cada uno de los varones de una muestra de tamaño 250, extraída de una población que
se sospechaba sufría de alguna enfermedad de las articulaciones se les preguntó cuál de
tres síntomas lo molestaba mayormente. La misma pregunta se le hizo a una muestra de
300 mujeres que se sospechaba padecían la misma enfermedad. Los resultados fueron
los siguientes:

Síntoma más molesto Hombres Mujeres


Rigidez matutina 111 102
Dolor por la noche 59 73
Hinchazón de las
articulaciones 80 125
TOTAL 250 300

¿Proporcionan estos datos la suficiente evidencia para indicar que las dos poblaciones no
son homogéneas con respecto a los síntomas principales? Sea α = 0.05.

Solución:

Completando la tabla:
Síntoma más molesto Hombres Mujeres Total
Rigidez matutina 111 102 213
Dolor por la noche 59 73 132
Hinchazón de las
80 125 205
articulaciones
TOTAL 250 300 550

Hipótesis

Ho: Hipótesis de homogeneidad: Existe homogeneidad

H1: Hipótesis alternativa: No existe homogeneidad

Se calcula el valor estadístico de contraste con la siguiente fórmula:

( )
∑∑

Por los datos observados en la tabla se tiene que:

k=3 (3 filas) y m=2 (2 columnas), N=550.


Grados de libertad = (3-1)(2-1)=2

α=0.05

Según la tabla de distribución Chi Cuadrado se tiene que

Comparando los valores:

por lo tanto rechazamos la hipótesis de homogeneidad.

Conclusión: Existe evidencia estadísticamente suficiente para concluir que ambas


comunidades no son homogéneas con respecto a los síntomas principales.

ODDS RATIO, RIESGO RELATIVO

8. Se tiene interés en evaluar si el uso de anticonceptivo orales es un factor de riesgo del


infarto miocárdico en mujeres casadas menores de 45 años de edad. Para tal efecto se
realiza un estudio comparativo tipo caso control y se obtienen los siguientes resultados:

Uso de Pacientes con Sin infarto


anticonceptivos infarto Miocárdico Miocárdicos
orales (Casos) (Controles)
Sí 23 34
Nunca 35 132
Total 58 166

Se pide calcular e interpretar el odds ratio (OR).

Solución:

El ODDS es el cociente entre la probabilidad de que un evento ocurra frente a la


probabilidad de que no ocurra.

En los estudios de casos y controles, ODDS Ratio, es el cociente entre la ODDS de


exposición observada en casos y la ODDS de exposición en el grupo de control.
Si el resultado de ODDS ratio es mayor a 1 la asociación es positiva, es decir que la
presencia del factor se asocia a la mayor ocurrencia del evento. Se le considera un Factor
de Riesgo.

Por lo tanto, en nuestro caso es mayor a 1, entonces podemos decir que el


uso de anticonceptivos orales es un factor de riesgo frente a padecer infarto miocárdico.

9. Evaluar si niveles altos de colesterol sérico (>250) se considera factor de riesgo de un


infarto del miocardio. Por consiguiente se realiza un estudio comparativo de cohortes y se
obtiene los siguientes resultados:

Desarrolla IM Sérico No desarrolló


Niveles de colesterol (mg%) IM Total
>250 10 125 135
≤250 21 449 470

Se pide calcular e interpretar el riesgo relativo.

Solución:



El riesgo de infarto del miocardio en el grupo con niveles de colesterol sérico mayores a
250 es 0,0741, mientras que el riesgo de infarto del miocardio en el grupo con niveles de
colesterol sérico menor o igual a 250 es 0,0447.

Por tanto el RR es 1,658 siendo este mayor a 1, entonces podemos decir que, cuánto
más probable es que ocurra un infarto de miocardio en las personas que presentan un
nivel alto de colesterol sérico frente a las que no.

10. Se realizó un estudio caso-control para encontrar si la vasectomía es un factor de riesgo


del cáncer de próstata. Los datos obtenidos se muestran en la tabla cruzada de abajo.

VASECTOMIA Casos Controles TOTAL


Sí 70 80 154
No 105 178 279
Total 175 258 433

Calcular el odds ratio. Interpretar los resultados.

Solución:
Por lo tanto, en nuestro caso es mayor a 1, entonces podemos decir que
realizarse la vasectomía es un factor de riesgo frente a padecer cáncer de próstata.

También podría gustarte