Está en la página 1de 15

Medidas asociación entre variables

CASTILLA CALDERÓN. JESÚS ALBERTO

Maestría en medicina
Estadística Aplicada | 29 de agosto de 2021
Contenido
Pregunta N°1.....................................................................................................2

Pregunta N°2.....................................................................................................5

Pregunta N°3.....................................................................................................8

Pregunta N°4...................................................................................................10

Pregunta N°5...................................................................................................12

PÁGINA 1
Pregunta N°1

X 56 42 72 36 63 47 55 49 38 42

Y 14,8 12,6 15,9 11,8 14,9 13,0 15,1 14,2 11,4 14,1

La tabla siguiente contiene la edad “X” y la máxima de la presión sanguínea


“Y” de un grupo de 10 mujeres: (muestra)

a) Calcule el coeficiente de correlación e interprete el resultado

Paso N°1: Para conocer el coeficiente de correlación necesitamos hallar el


valor de “r” a través de la siguiente formula:

n ( ∑ XY ) −(∑ X )( ∑ Y )
r=
2 2
√ [ n(∑ X )−(∑ X ) ]−[ n (∑ Y )−(∑ Y ) ]
2 2

Paso N°2: Seleccionamos del ejercicio los siguientes datos para lo cual se
calculará la sumatoria de cada valor de X, y de cada valor de Y, se multiplica
los valores de X con Y luego se calcula la sumatoria de cada resultado, se
eleva al cuadrado el valor de X y suma cada uno resultado, por último, se
repite este procedimiento con los valores de Y. Con ayuda del software
Microsoft Excel 2016, se obtiene la siguiente tabla. Para la muestra del grupo
de 10 mujeres.

Muestra X Y X2 Y2 (XY)
1 56 14.8 3136 219.04 828.8
2 42 12.6 1764 158.76 529.2
3 72 15.9 5184 252.81 1144.8
4 36 11.8 1296 139.24 424.8
5 63 14.9 3969 222.01 938.7
6 47 13 2209 169 611
7 55 15.1 3025 228.01 830.5
8 49 14.2 2401 201.64 695.8
9 38 11.4 1444 129.96 433.2

PÁGINA 2
10 42 14.1 1764 198.81 592.2
Sumatoria (∑) 500 137.8 26192 1919.28 7029

Paso N°3: Reemplazamos lo valores seleccionados en la fórmula:

10 ( 7029 ) −(500)(137.8)
r= 2 2
√ [ 10 ( 26192 )−( 500) ] [ 10 (1919.28 )−(137.8) ]
70290−68900
r=
√ [ 261920−250000 ][ 19192.8−18988.84 ]
1390
r=
√ [ 11920 ] [ 203.96 ]
1390
r=
√ 2431203.2
1390
r=
1559.231606

r =0.891464741

Paso N°4: Para la interpretación necesitamos evaluar el nivel de significancia


de la prueba estadística

- Primero establecemos la hipótesis nula y alternativa


 H0: No existe correlación entre la edad y la presión sanguínea
 H1: Existe correlación entre la edad y la presión sanguínea
- Segundo determinamos un nivel de significancia para α=0.05
- Tercero calculamos el estadístico de prueba, para ello tenemos que tener
en cuenta el valor de T-student calculada y teórica
 Reemplazamos en la siguiente formula para poder calcular T calculada
n−2
T cal=r∗
√ 1−r 2
10−2
T cal=0.891∗
√ 1−0.8912

PÁGINA 3
8
T cal=0.891∗
√ 1−0.794709385
8
T cal=0.891∗
√ 0.205290615
8
T cal=0.891∗
√ 0.205290615
T cal=0.891∗√ 38.96914626
T cal=5.564992925
 Mientras que el valor de la T teórica para un valor de 0.05 y grado de
libertad 8, seria por la tabla T igual a 2.3060
T cal=5.5649>T tab =2.3060
- Cuarto: por lo cual se tiene que la T calculada es mayor que la T teórica,
por lo cual el valor p correspondiente es mucho menor de 0.05, con lo cual
se rechaza la hipótesis nula
- Quinto se toma como conclusión la siguiente:
 Hay evidencia estadísticamente significativa que el coeficiente existe
correlación positiva intensa en la edad de las mujeres y su valor de
presión sanguínea con un nivel de significancia de 5%
b) Calcular coeficiente de determinación e interpretar resultado

Paso N°1: Para calcular el coeficiente de determinación necesitamos realizar


la siguiente formula:

R=( r 2 )∗100 %

Paso N°2: Con lo resultados del valor de rho que calculamos, reemplazamos:

R=( 0.89142 )∗100 %


R=0.794709385∗100 %
R=79.4 %

PÁGINA 4
Paso N°3: Interpretación: Significa que el 79.4% de las variaciones de la
presión sanguínea se explica por las variaciones en la edad de las mujeres y
el 20.6% no se explica por dicha variación.

E r∗Χ
E=
100
5∗100
E= =5
100

Paso N°4: Reemplazamos lo valores seleccionados en la fórmula:

(1.96)2 ×(10)2 ×700


n=
5 2 ( 700−1 )+(1.96)2 ×(10)2

Paso N°5 Luego de ello procedemos a ir reduciendo los términos con ayuda
de una calculadora respetando el orden de las operaciones.

3.8416 ×100 ×700


n=
25 ( 699 ) +3.8416 × 100
268912
n=
17859.16
n=15.0573711 ≅ 16

Paso N°6: Por lo cual se necesitará una muestra mínima de 16 niños de 5


años de la comunidad San Pedro, para la estimación deseada.

Pregunta N°2
Una cadena de farmacias, toma una muestra de diez de sus sucursales para
tratar de encontrar un modelo matemático que le permita predecir sus ventas
y obtuvo los siguientes datos: la población de personas en miles fue de 2, 6,
8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de soles fue de:
58, 105, 88, 118, 117, 137, 157, 169, 149, 202.

PÁGINA 5
a) Construir diagrama de dispersión

Paso N°1: Se seleccionarán los datos respecto a la población de personas y


ventas trimestrales y se ordenara en una tabla como la siguiente:

Muestra X Y X2 Y2 (XY)
1 2 58 4 3364 116
2 6 105 36 11025 630
3 8 88 64 7744 704
4 8 118 64 13924 944
5 12 117 144 13689 1404
6 16 137 256 18769 2192
7 20 157 400 24649 3140
8 20 169 400 28561 3380
9 22 149 484 22201 3278
10 26 202 676 40804 5252
Sumatoria (∑) 140 1300 2528 184730 21040

Paso N°2: Realizamos un plano cartesiano en el cual buscamos la


intersección de cada punto de las abscisas “X” con su correspondiente punto
en las ordenas “Y”, según lo encontrado con la tabla, obteniéndose el
siguiente grafico

Grafico N°1: Dispersión de ventas trimestrales en miles respecto a


población de personas en miles
220
200
180
160
140
120
100
80
60
40
20
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28

PÁGINA 6
b) Hallar la ecuación de estimación.

Paso N°1: Para hallar la ecuación de estimación debemos de hallar los


valores correspondientes al coeficiente “a” y al coeficiente “b”

Paso N°2: Para hallar el coeficiente “b” se necesita usar la siguiente formular:

( ∑ X )( ∑ Y )
( ∑ XY ) − n
b= 2
( ∑ X)
2
∑X − n
Paso N°3: Reemplazamos con los valores encontrados en la tabla anterior y
procedemos a ir reduciendo la expresión.

(140)(1300)
( 21040 )−
10
b=
(140)2
2528−
10
182000
( 21040 )−
10
b=
19600
2528−
10
( 21040 )−18200
b=
2528−1960
( 21040 )−18200
b=
2528−1960
2840
b=
568
b=5

Paso N°4: Para hallar el coeficiente “a” se necesita usar la siguiente formular:

a=
∑ Y −b ∑ X
n n

Paso N°5: Reemplazamos con los valores encontrados en la tabla anterior,


además del resultado del coeficiente “b” y procedemos a ir reduciendo la
expresión.

1300 140
a= −5
10 10

PÁGINA 7
a=130−5∗14
a=130−70
a=6 0

Paso N°6: Con los dos coeficientes pasamos a formular la ecuación para
este modelo estimado:

Y =6 0+5 X
c) Proyecte las ventas para una población de 14 000

Usamos la ecuación del modelo estimado, lo reemplazamos el valor de “X”


con 14 000 y luego resolvemos la ecuación

Y =6 0+5 X
Y =6 0+5(14)
Y =6 0+70
Y =130
 Por lo tanto, se espera que para una población de 14 000 personas se
obtenga unas ventas trimestrales en 130 000 soles.

Pregunta N°3
Seiscientos empleados de una empresa que fabrica cierto producto,
sospechoso de estar asociado con alteraciones respiratorias, se clasificaron
en forma cruzada con base de grado de exposición al producto y si tenían o
no los síntomas de tales alteraciones respiratorias. Los resultados se
muestran en la siguiente tabla:

Nivel de Exposición
Síntomas presentes Alto Limitado Sin exposición conocida Total
Si 205 48 32 285
No 140 88 87 315
Total 345 136 119 600

¿Proporcionan estos datos la evidencia suficiente para indicar que, en


un nivel de significación de 0,05, existe una relación entre el grado de
exposición y la presencia de los síntomas de las alteraciones
respiratorias?

PÁGINA 8
PÁGINA 9
Paso N°1: Planteamiento de las hipótesis

 H0: No existe asociación entre la exposición al producto y los síntomas


respiratorios
 H1: Existe asociación entre la exposición al producto y los síntomas
respiratorios

Paso N°2: Se determina un nivel de significancia de α=0.05

Paso N°3: Se calcula el valor de chi cuadrado

2(O i−Ei )2
χ =∑c
Ei

- Para hallar el valor de chi cuadrado necesitamos saber el valor esperado


de cada valor de la tabla
345∗285
E11 = =163.875
600
345∗315
E 1 2= =181.125
600
136∗285
E 2 1= =64.6
600
136∗315
E 2 2= =71.4
600
119∗285
E21= =56.525
600
119∗315
E22= =62.475
600
- Luego de se reemplaza cada uno en la formula del chi cuadrado
(O11−E11 )2 (O12 −E1 2)2 (O21− E2 1)2 (O22−E 22)2 (O3 1−E 3 1)2 (O3 2−E 3 2)2
2
χ= c + + + + +
E 11 E1 2 E2 1 E 22 E3 1 E3 2
(205−163.875)2 (140−181.125)2 (48−64.6)2 ( 88−71.4)2 (32−56.525)2 (87−62.475)2
2
χ= c + + + + +
163.875 181.125 64.6 71.4 56.525 62.475
(41.125)2 (−41.125)2 (−16.6)2 (16.6)2 (−24.525)2 (24.52 5)2
χ 2c = + + + + +
163.875 181.125 64.6 71.4 56.525 62.475
1691.26563 1691.26563 275.56 275.56 601.475625 601.475625
χ 2c = + + + + +
163.875 181.125 64.6 71.4 56.525 62.475

PÁGINA 10
1691.26563 1691.26563 275.56 275.56 601.475625 601.475625
χ 2c = + + + + +
163.875 181.125 64.6 71.4 56.525 62.475
χ 2c =10.3204 +9.3375+ 4.2656+3.8593+10.6408+9.6274=48.0513

Paso N°4: Con ayuda de la tabla de chi cuadrado se establece que para un
valor de 48.0513, con grado de libertad de (2-1) *(3-2) =2 le corresponde un p
valor menor de 0.005

Paso N°5: Se decide rechazar la hipótesis nula, por lo tanto, el nivel de


exposición al producto esta de forma estadísticamente significativa
relacionado a los síntomas respiratorios.

Pregunta N°4
En un estudio acerca de la contaminación atmosférica a realizado en dos
comunidades, se seleccionó una muestra aleatoria de 200 familias de cada
una de dichas comunidades. Se le preguntó a uno de los miembros de cada
familia si algún miembro de la misma se sentía afectado por la contaminación
atmosférica. Las respuestas son las siguientes:

¿Algún miembro de la familia ha sido afectado por la contaminación?


Comunida Si No Total
d
I 43 157 200
II 81 119 200
Total 124 276 400
¿Pueden concluir los investigadores que las dos comunidades difieren
con respecto a la variable de interés? Sea α = 0.05

Paso N°1: Planteamiento de las hipótesis

 H0: Las dos comunidades son homogéneas respecto a la


contaminación atmosférica.
 H1: Las dos comunidades no son homogéneas respecto a la
contaminación atmosférica.

Paso N°2: Se determina un nivel de significancia de α=0.05

PÁGINA 11
PÁGINA 12
Paso N°3: Se calcula el valor de chi cuadrado

2(O i−Ei )2
χ =∑c
Ei

- Para hallar el valor de chi cuadrado necesitamos saber el valor esperado


de cada valor de la tabla
124∗200
E11 = =62
4 00
124∗200
E12= =62
4 00
276∗2 00
E21= =138
4 00
27 6∗200
E22= =138
4 00
- Luego se reemplaza cada uno en la formula del chi cuadrado
(O11−E11 )2 (O12−E12)2 (O21−E 21 )2 (O22−E 22)2
2
χ= c + + +
E 11 E12 E 21 E 22
(43−62)2 (81−62)2 (157−138)2 (119−138)2
2
χ= c + + +
62 62 138 138
(−19)2 (19)2 (19)2 (−19)2
χ 2c = + + +
62 62 138 138
361 361 361 361
χ 2c = + + +
62 62 138 138
χ 2c =5.8225+5.8225+ 2.6159+ 2.6159=16.877

Paso N°4: Con ayuda de la tabla de chi cuadrado se establece que, para un
valor de 16.877, con grado de libertad de (2-1) *(2-1) =1 le corresponde un p
valor menor de 0.005

Paso N°5: Se decide rechazar la hipótesis nula, por lo tanto, la afectación


atmosférica es diferente entre las dos comunidades.

PÁGINA 13
Pregunta N°5
Evaluar si niveles altos de colesterol sérico (>250) se considera factor de
riesgo de un infarto del miocardio. Por consiguiente, se realiza un estudio
comparativo de cohortes y se obtiene los siguientes resultados:

Niveles de colesterol sérico Desarrolla No desarrolló Total


(mg%) IM IM
>250 19 129 148
250 26 454 480
Se pide calcular e interpretar el riesgo relativo

Paso N°1: Para hallar el valor del riesgo relativo se debe conocer la
incidencia en expuesto y la incidencia en no expuestos a través de la
siguiente formula:

P(E /F )
RR=
P( E /F ' )

Paso N°2: Se selecciona los datos en base a la tabla:

(19/148)
RR=
(26 /480)

0.128378378
RR=
0.054166667

RR=2.37006237

Paso N°3: Se concluye que los pacientes con colesterol elevado mas de 250
mg/dl tiene 2.37 veces mas riesgo de desarrollar infarto de miocardio,
respecto a los pacientes con colesterol menor a 250 mg/dl.

PÁGINA 14

También podría gustarte