Está en la página 1de 16

1

GUÍA SEMINARIO ESTADÍSTICA APLICADA Nº 3

CORRELACION Y REGRESION

1. El editor en jefe de un importante periódico metropolitano ha intentado convencer al

dueño del periódico para que mejore las condiciones de trabajo en el taller de prensas.

Está convencido de que, cuando trabajan las prensas, el grado de ruido crea niveles no

saludables de tensión y ansiedad. Recientemente hizo que un psicólogo realizara una

prueba durante la cual los prensistas se situaron en cuartos con niveles variables de

ruido y luego se le hizo otra prueba para medir niveles de humor y ansiedad. La

siguiente tabla muestra el índice de su grado de ansiedad o nerviosismo y el nivel de

ruido al que se vieron expuestos. (1,0 es bajo y 10,0 es alto).

Nivel de ruido 4 3 1 2 6 7 5 8
Grado de ansiedad 39 38 16 18 41 45 40 48

a) Represente gráficamente estos datos.

X 1 2 3 4 5 6 7 8
Y 16 18 38 39 40 41 45 48

En el siguiente gráfico se puede observar que la tendencia es lineal con unapendiente

es positiva.

ESTADISTICA APLICADA
2

b) Desarrolle una ecuación de estimación que describa los datos.

Como la gráfica presenta una tendencia lineal se procederá con calcular la ecuación de

estimación utilizando regresión lineal con el método de mínimos cuadrados. La ecuación de

mínimos cuadrados para la regresión lineal es la que se indica a continuación:

Ӯ= a x + b

Donde:

Ӯ : Variable dependiente calculada por la ecuación de estimación, indica el pronóstico para

un valor dado de x

X : Variable independiente.

b : Indica el valor Ӯ cuando X es = 0.

a : Pendiente de la recta.

y : Representa el valor de la variable dependiente correspondiente a un valor de x

Para calcular los valores de a y b se utilizan las siguientes fórmulas.

ESTADISTICA APLICADA
3

Para nuestro caso n=8 entonces los valores de i son de 1 al 8. Tenemos el siguiente

cuadro para calcular las sumatorias que se utilizarán en las fórmulas.

x y xy x² y²

i=1 1 16 16 1 256

i=2 2 18 36 4 324

i=3 3 38 114 9 1444

i=4 4 39 156 16 1521

i=5 5 40 200 25 1600

i=6 6 41 246 36 1681

i=7 7 45 315 49 2025

i=8 8 48 384 64 2304

Σ 36 285 1467 204 11155

a = 8(1467) – (36)(285) = 11736 – 10260 = 1476 = 4.393


8(204) – (36)² 1632 – 1296 336

ESTADISTICA APLICADA
4

b = (204)(285) – (36)(1467) = 58140 – 52812 = 15.857


8(204) – (36) ² 1632 – 1296

c) Pronostique el grado de ansiedad que podríamos esperar cuando el nivel de ruido es 9.

Ӯ= a x + b

Ӯ= 4.393 (9) + 15.857

Ӯ= 55.394

d) Calcule e interprete el coeficiente de correlación

Una medida de la calidad o bondad de ajuste realizado viene dado por el coeficiente de

relación R entre las variables x e, definido como:

R = Cov (x,y)²
Var (x). Var (y)

Entonces reemplazando los datos en las fórmulas:

Cov (x,y) = 8 (1467) – (36)(285)



Cov (x,y) = 1476
64
Cov (x,y) = 23,0625

Var (x) = 204 – (36) ²


8 (8)
Var (x) = 25,5 – 20,25

Var (x) = 5,25

Var (y) = 11155 – (285) ²


8 ( 8)
Var (y) = 1394,375 – 1269,14063

ESTADISTICA APLICADA
5

Var (y) = 125,234

R² = (23,0625)²
(5,25)(125,234)

R² = 531,879
657,48

R² = 0,809

R= 0,899

El coeficiente de correlación puede adoptar valores desde -1 hasta 1. Si R es +/- 1 o

próximo a estos valores, decimos que el modelo lineal es adecuado para describir los

datos experimentales. Cuando R es cercano a 0 decimos que una expresión lineal no es

una buena descripción de los datos. Para este caso el valor obtenido de R=0,899,

entonces podemos decir que la ecuación lineal de estimación es una buena

representación de la relación que existe entre el nivel de ruido y el grado de ansiedad.

e) Calcule e interprete el coeficiente de determinación

El coeficiente de determinación es el cuadrado del coeficiente de correlación:

R² = 0,809

A diferencia del coeficiente de correlación este solo adopta valores de 0 hasta 1, no puede ser

negativo. Mientras más cercano a 1 decimos que el modelo lineal es adecuado para describir

ESTADISTICA APLICADA
6

los datos y mientras más cercano a 0 decimos que una expresión lineal no es una buena

descripción de los datos. En nuestro caso R=0,809, entonces podemos decir que la ecuación

lineal de estimación es una buena representación de la relación que existe entre el nivel de

ruido y el grado de ansiedad.  A continuación se muestra un gráfico de los datos y la

ecuación de estimación

2. El Gerente de una Clínica dispone de la siguiente información:

Año 2011 2012 2013 2014 2015 2016


Cirugías 120 143 150 170 162 158

a) Grafique y determine la ecuación de la tendencia.

b) Proyecte las cirugías al corazón para el año 2017

x y xy x² y²

ESTADISTICA APLICADA
7

1 120 120 1 14400


2 143 286 4 20449
3 150 450 9 22500
4 170 680 16 28900
5 162 810 25 26244
6 158 948 36 24964
21 903 3294 91 137457

a = 6(3294) – (21)(903) = 19764 – 18963 = 801 = 7.6286


6(91) – (21)² 546 – 441 105

b = (91) (903) – (21)(3294) = 82173 – 69174 = 12999 = 123.8


6(91) – (21)² 546 – 441 105

SOLUCIÓN:

Ӯ=ax+b

Ӯ = 7.6286 (6) + 123.8 = 169.5

Interpretación: indica que para el año 2017 se proyectó en 170 cirugías al corazón.

3. Se ha medido la variación de creatinina en pacientes tratados con Captopril (droga

antihipertensión) tras la suspensión del tratamiento con diálisis, resultando la

siguiente tabla:

Días tras la diálisis:


1 5 10 15 20 25 35
X

ESTADISTICA APLICADA
8

5. 5. 4. 4. 4.
Creatinina (mg/dl): Y 4 3.8
7 2 8 5 2

x y xy x² y²
1 5.7 5.7 1 32.49
5 5.2 26 25 27.04
10 4.8 48 100 23.04
15 4.5 67.5 225 20.25
20 4.2 84 400 17.64
25 4 100 625 16
35 3.8 133 1225 14.44
111 32.2 464.2 2601 150.9

a) Calcule el modelo de regresión lineal

m = 7 (464.2) – (111) (32.2) = 3249.4 – 3574 = -279.6 = -0.047


7 (2601) – (111)² 18207 – 12321 5886

b = 32.2 – - 279.6 (111) = 32.2 – -31035.6 = 4.6 – -0.753 = 5.35


7 5886 ( 7 ) 7 41202

SOLUCIÓN:

y = -0.047(7) + 5.35 = 5.021

b) Interprete la variación de creatinina, en función de los días transcurridos tras la diálisis.

SOLUCIÓN:

Indica que por cada dia de suspensión del tratamiento con diálisis que pase, la variación

de creatinina subira en promedio en 5 unidades

c) Si un individuo presenta 8 días tras la suspensión del tratamiento con diálisis, que

sucede con la creatinina (mg/dl).

SOLUCIÓN:

ESTADISTICA APLICADA
9

y = 5*(8) + -0.047 = 40

Interpretación: indica que si un individuo presenta 8 días tras la suspensión

deltratamiento con diálisis, la creatinina esta en 40 mg/dl.

PRUEBA DE INDEPENDENCIA

4. Quinientos empleados de una empresa que fabrica cierto producto, sospechoso de

estar asociado con alteraciones respiratorias, se clasificaron en forma cruzada con

base de grado de exposición al producto y si tenían o no los síntomas de tales

alteraciones respiratorias. Los resultados se muestran en la siguiente tabla:

Nivel de Exposición
Síntomas presentes Alto Limitado Sin exposición conocida Total
Si 185 33 17 235
No 120 73 72 265
Total 305 106 89 500

¿Proporcionan estos datos la evidencia suficiente para indicar que, en un nivel de

significación de 0.05, existe una relación entre el grado de exposición y la presencia de

los síntomas de las alteraciones respiratorias?

HIPOTESIS

Ho: NO HAY RELACION ENTRE VARIABLES

H1: EXISTE RELACION ENTRE VARIABLES

ESTADISTICA APLICADA
10

NIVEL DE SIGNIFICANCIA: 5%

ESTADISTICO:

X²0 = (185-143.35)²/143.35 + (33-47.82)²/47.82 + (17-14.83)²/14.83 + (120-

161.65)²/161.65 + (73-56.18)²/56.18 + (22-47.13)²/43.13

X²0 = 61.356

DECISION

X² t=5.991

Se rechaza la Hipótesis nula por estar en la zona de rechazo

CONCLUSION:

Hay evidencia estadísticamente suficiente para concluir que las personas con alteraciones

respiratorias se deprimen.

5. A un grupo de 350 adultos que participaron en una encuesta de salud, se les preguntó si

llevaban a no una dieta. Las respuestas (por sexos) son las siguientes

Sexo
Masculino Femenino Total
A dieta 14 25 39
Sin dieta 159 152 311
Total 173 177 350

¿Sugieren estos datos que al estar a dieta depende del sexo? Sea  = 0.05.

HIPOTESIS

ESTADISTICA APLICADA
11

Ho: NO HAY RELACION ENTRE VARIABLES

H1: EXISTE RELACION ENTRE VARIABLES

NIVEL DE SIGNIFICANCIA: 5%

ESTADISTICO:

X²0= (14-19.28)²/19.28 + (25-119.72²)/19.72 + (159-153.72)²/153.72 + ((152-

157.28)²/157.28

X²0= 3.215

DECISION:

X²f = 3.841 No se rechaza la hipotesis alternativa

Conclusion: Hay evidencia estadisticamente suficiente para concluir que el estar a dieta

depende del sexo

PRUEBA DE HOMOGENEIDAD

6. En un estudio acerca de la contaminación atmosférica a realizado en dos comunidades, se

seleccionó una muestra aleatoria de 200 familias de cada una de dichas comunidades. Se

le preguntó a uno de los miembros de cada familia si algún miembro de la misma se

sentía afectado por la contaminación atmosférica. Las respuestas son las siguientes:

¿ Algún miembro de la familia ha sido afectado por la

contaminación?
Comunidad Si No Total
I 43 157 200
II 81 119 200
Total 124 276 400

ESTADISTICA APLICADA
12

¿Pueden concluir los investigadores que las dos comunidades difieren con respecto a la

variable de interés? Sea  = 0.05

HIPOTESIS

Ho: EXISTE HOMOGENEIDAD

H1: NO EXISTE HOMOGENEIDAD

NIVEL DE SIGNIFICANCIA: 5%

ESTADISTICO:

X²c = [(43-62)²/62 + (157-138)²/138] x 2

X²c = 13.877

DECISION:

X2f = 3.841

Se rechaza la Hipotesis nula.

CONCLUSION: Hay evidencia estadIstica para concluir que las muestras no provienen

de poblaciones homogeneas según si algún miembro de la familia ha sido afectado por la

contaminación.

7. A cada uno de los varones de una muestra de tamaño 250, extraída de una población que

se sospechaba sufría de alguna enfermedad de las articulaciones se les preguntó cuál de

tres síntomas lo molestaba mayormente. La misma pregunta se le hizo a una muestra de

300 mujeres que se sospechaba padecían la misma enfermedad. Los resultados fueron los

siguientes:

-------------------------------------------------------------------------------------

Síntoma más molesto Hombres Mujeres

ESTADISTICA APLICADA
13

------------------------------------------------------------------------------------

Rigidez matutina 111 102

Dolor por la noche 59 73

Hinchazón de las articulaciones 80 125

-------------------------------------------------------------------------------------

TOTAL 250 300

Proporcionan estos datos la suficiente evidencia para indicar que las dos poblaciones no

son homogéneas con respecto a los síntomas principales?. Sea  = 0.05

HIPOTESIS

Ho: NO HAY RELACION ENTRE VARIABLES

H1: EXISTE RELACION ENTRE VARIABLES

NIVEL DE SIGNIFICANCIA: 5%

ESTADISTICO

7.258
1
0.05

3.841
0.007
-

DECISION: RECHAZA Ho

CONCLUSION: EXISTE DIFERENCIAS

ODDS RATIO, RIESGO RELATIVO

8. Se tiene interés en evaluar si el uso de anticonceptivos orales es un factor de riesgo

ESTADISTICA APLICADA
14

del infarto miocárdico en mujeres casadas menores de 45 años de edad. Para tal

efecto se realiza un estudio comparativo tipo caso control y se obtienen los siguientes

resultados:

Uso de anticonceptivos Pacientes con infarto Sin infarto

orales Miocárdico Miocárdico

(Casos) (Controles)

_________________________________________________________________

Si 23 34

Nunca 35 132

_________________________________________________________________

Total 58 166

Se pide calcular e interpretar el odds ratio (OR)

ODDS1 = 23 / 58 = 0.657
35 / 58

ODDS2 = 34 / 166 = 0.257


132 / 166

Dividir los dos ODDS para calcular OR:

OR = ODDS1 = 23 * 132 = 2.55


ODDS2 34 * 35

CONCLUSION: el uso de anticonceptivos orales es un factor de riesgo del infarto

ESTADISTICA APLICADA
15

miocárdico en mujeres casadas menores de 45 años de edad

9. Evaluar si niveles altos de colesterol sérico (>250) se considera factor de riesgo de un

infarto del miocárdio. Por consiguiente se realiza un estudio comparativo de cohortes y

se obtiene los siguientes resultados:

Niveles de colesterol Desarrolla IM No desarrolló IM Total

Sérico (mg%)

_________________________________________________________

>250 10 125 135

250 21 449 470

_________________________________________________________

Se pide calcular e interpretar el riesgo relativo

RR = 10 /135 = 1,66
21 / 470

CONCLUSION: niveles altos de colesterol sérico (>250) se considera factor de riesgo de

un infarto del miocardio.

10. Se realizó un estudio caso- control para encontrar si la vasectomía es un factor de riesgo

del cáncer de próstata. Los datos obtenidos se muestran en la tabla cruzada de abajo.

ESTADISTICA APLICADA
16

VASECTOMIA   Casos Controles    TOTAL

Si             70       80       154

No             105      178        279

TOTAL          175      258        433

Calcular el odss ratio. Interpretar los resultados

ODDS1 = 70 / 175 = 0.666


105 / 175

ODDS2 = 80 / 258 = 0.449


178 / 258

OR = 70 * 178 = 1.483
80 * 105

CONCLUSION: La vasectomía es un factor de riesgo del cáncer de próstata

ESTADISTICA APLICADA

También podría gustarte