Está en la página 1de 4

Universidad Nacional de Rosario - Facultad de Ciencias

Económicas y Estadísticas
Maestría en Estadística Aplicada - Módulo de Introducción a la Estadística, Probabilidad
e Inferencia. Trabajo Unidad 2 - Parte 2. Nicolas Gottig. 25/04/2022

ACTIVIDAD 1-A) Asociación entre fumar y sobrevivir en mujeres del Reino


Unido:

Con la información provista por el caso puede construirse la siguiente tabla de contingencia:

Tabla 1 - Tabla de contingencia entre el consumo de cigarrillo y los fallecimientos luego de 20


años en 1314 mujeres del Reino Unido.

fuma/vive Si No Total

Si 442 140 582


No 505 227 732
Total 947 367 1314

Además, puede establecerse la proporcion condicional entre ambas variables:

Gráfico 1 - Distribución de proporciones condicionales entre el consumo de cigarrillo y si


sobrevivió luego de 20 años en 1314 mujeres del Reino Unido.

Fuma
0.6

No Fuma
Proporción

0.4
0.2
0.0

Sobrevive No sobrevive

Sobrevive

A los efectos de analizar la relación entre ambas variables, se proceden a calcular el estadístico
chi-cuadrado, la diferencia de proporciones condicionales y el cociente de las mismas (o riesgo
relativo).

1
Test de independencia para variables categóricas y medidas de asociación.

Para evaluar la independencia entre variables se utilizará la prueba chi-cuadrado. Para eso,
asumimos las siguientes hipótesis:
H0: Las dos variables son independientes
H1: Las dos variables son dependientes
En primer lugar se obtienen los valores esperandos multiplicando los valores marginales de
las variables y dividiéndolo por el total de la muestra. Para calcular el valor del estadístico
chi-cuadrado, se calcula la diferencia entre el valor observado y el valor esperado elevado al
cuadrado, y se divide por el valor esperado. La sumatoria resulta en el estadístico de prueba.
Considerando este valor bajo la distribución Chi-cuadrado con n grados de libertad podemos
estudiar la probabilidad asociada a este estadístico, y rechazar la hipótesis nula si ese valor-p
es menor al nivel de significación α = 0.05. Para simplificar los cálculos se utilizará la función
“chisq.test” de R.

chitest <- chisq.test(tabla1, correct=F)


chitest

##
## Pearson's Chi-squared test
##
## data: tabla1
## X-squared = 7.7934, df = 1, p-value = 0.005244

Como podemos observar, el valor Chi-cuadrado con 1 grado de libertad es 7.7934, con una
probabilidad asociada de 0.005. Estos resultados nos muestran que hay evidencia estadística
para rechazar la hipótesis nula, asumiendo dependencia entre ambas variables (dependencia no
implica causalidad).
Para los casos relacionados a las mujeres que fallecieron, la diferencia de proporciones condicionales
se expresa como 0.241 − 0.310 = -0.069. El valor resulta lejano a 1 absoluto y es negativo,
expresando una relación negativa entre fumar y no sobrevivir. Para comprobar la fuerza de esta
asociación se procede a calcular el cociente de proporciones condicionales:

N oF umaN oV ive 0.241


F umaN oV ive 0.310 = 0.7774194

EL resultado nos informa que la probabilidad de no sobrevivir es casi un 22% menor para las
1
mujeres que fuman que para las que no fuman. Otra forma de interpretarlo es como 0.24/0.31 =
1.29 o dicho de otra forma, ante el hecho de fumar la probabilidad de sobrevivir es 1.29 más que
al no fumar.

2
ACTIVIDAD 1-B) Asociación entre fumar y sobrevivir en mujeres del Reino
Unido, divididas en grupos por edad:

Si añadimos la variable edad podemos observar modificiaciones en las proporciones condicionales


y en la dirección de la asociación. Se realizará el mismo análisis pero considerando 4 grupos de
mujeres según edad, y se utilizará el test exacto de Fisher considerando que en ciertos casos no
puede esperarse una frecuencia de 5 o más. Los grupos son A (mujeres entre 18 y 34 años), B
(mujeres entre 35 y 54 años), C (mujeres entre 55 y 64 años) y D (mujeres mayores de 65).

Tabla 2 - Valor-P del Test de Fisher para grupos de mujeres según edad.

Grupo A B C D

Valor-P 1.00 0.02 0.08 1.00

Como puede observarse, el único grupo que reune evidencia significativa para rechazar la hipótesis
nula con un nivel de significación de α = 0.05 es el grupo B, es decir, aquellas mujeres entre 35 y
54 años. En el resto de los grupos no puede rechazarse la hipótesis nula de independencia al 5%.
Si consideramos además las medidas de asociación entre los distintos grupos, podemos concluir
en que cambió la dirección de la asociación, incrementando las probabilidades de sobrevivir en
las mujeres que no fuman. Esto se ve principalmente en el grupo B, en donde una mujer que
fuma tiene 1.81 veces más de probabilidades de no sobrevivir que las que no lo hacen.

Tabla 3 - Cociente de proporciones condicionales por grupo de edad en mujeres que no


sobreviven.

Grupo A B C D

Cociente 1.03 1.81 1.33 1.00

ACTIVIDAD 2 - Asociación entre Variables Cuantitativas:

Para la última actividad se utilizó una base de datos extraída del Instituto Nacional de Estadísticas
y Censos que reúne información sobre un índice de precios de exportacion y un índice de volumen
asociado de dichas exportaciones. Se utilizaron los datos correspondientes a los productos
manufacturados nacionales de origen industrial entre los años 1986 y 2021 (año base = 2004). La
teoría indica que considerándose constantes otras variables y bajo ciertos supuestos, esta relación
es positiva. Si realizamos un breve análisis descriptivo podemos observar que ambas variables
son cuantitativas continuas. Por otro lado, el promedio del índice de Precios es de 118.05 (con
D.E = 30.04) y mediana menor, sugiriendo que la distribución está sesgada a la derecha. Por

3
último, el promedio del índice de cantidades es de 98.64 (con D.E = 48.53) y mediana mayor,
sugiriendo que su distribución está sesgada a la izquierda.

Tabla 4 - Resumen de distribución del Índice de Precios de Exportación. Valores trimestrales


desde 1986 hasta 2021 (año base = 2004)

Min. 1st Qu. Median Mean 3rd Qu. Max.

67.1 92.25 105.55 118.0493 148.575 170.6

Tabla 5 - Resumen de distribución del Índice de Cantidades de Exportación. Valores trimestrales


desde 1986 hasta 2021 (año base = 2004)

Min. 1st Qu. Median Mean 3rd Qu. Max.

16.9 54.25 99.65 98.63611 137.825 198.4

Gráfico 2 - Gráfico de dispersión entre los índices de precios y cantidades de exportación.


Valores trimestrales desde 1986 hasta 2021 (año base = 2004)
200
150
cantidades

100
50

80 100 120 140 160

precios

Si evaluamos el gráfico, éste sugiere la presencia de más de un grupo y una fuerte asociación
positiva (probablemente debido al método de construcción de los índices).
El coeficiente de correlación de Pearson (utilizaremos este coeficiente ya que el gráfico muestra
cierta linealidad) es 0.83.
Para finalizar, si utilizamos la funcion “cor.test” de r para estudiar si este valor es estadísticamente
significativo (bajo la hipótesis alternativa de que la correlación es distinta de 0) a un nivel de
confianza de α = 0.05. El resultado es un p-valor suficientemente bajo (0.00) para rechazar la
hipótesis nula y asumir una asociación positiva entre las variables.

También podría gustarte