Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Económicas y Estadísticas
Maestría en Estadística Aplicada - Módulo de Introducción a la Estadística, Probabilidad
e Inferencia. Trabajo Unidad 2 - Parte 2. Nicolas Gottig. 25/04/2022
Con la información provista por el caso puede construirse la siguiente tabla de contingencia:
fuma/vive Si No Total
Fuma
0.6
No Fuma
Proporción
0.4
0.2
0.0
Sobrevive No sobrevive
Sobrevive
A los efectos de analizar la relación entre ambas variables, se proceden a calcular el estadístico
chi-cuadrado, la diferencia de proporciones condicionales y el cociente de las mismas (o riesgo
relativo).
1
Test de independencia para variables categóricas y medidas de asociación.
Para evaluar la independencia entre variables se utilizará la prueba chi-cuadrado. Para eso,
asumimos las siguientes hipótesis:
H0: Las dos variables son independientes
H1: Las dos variables son dependientes
En primer lugar se obtienen los valores esperandos multiplicando los valores marginales de
las variables y dividiéndolo por el total de la muestra. Para calcular el valor del estadístico
chi-cuadrado, se calcula la diferencia entre el valor observado y el valor esperado elevado al
cuadrado, y se divide por el valor esperado. La sumatoria resulta en el estadístico de prueba.
Considerando este valor bajo la distribución Chi-cuadrado con n grados de libertad podemos
estudiar la probabilidad asociada a este estadístico, y rechazar la hipótesis nula si ese valor-p
es menor al nivel de significación α = 0.05. Para simplificar los cálculos se utilizará la función
“chisq.test” de R.
##
## Pearson's Chi-squared test
##
## data: tabla1
## X-squared = 7.7934, df = 1, p-value = 0.005244
Como podemos observar, el valor Chi-cuadrado con 1 grado de libertad es 7.7934, con una
probabilidad asociada de 0.005. Estos resultados nos muestran que hay evidencia estadística
para rechazar la hipótesis nula, asumiendo dependencia entre ambas variables (dependencia no
implica causalidad).
Para los casos relacionados a las mujeres que fallecieron, la diferencia de proporciones condicionales
se expresa como 0.241 − 0.310 = -0.069. El valor resulta lejano a 1 absoluto y es negativo,
expresando una relación negativa entre fumar y no sobrevivir. Para comprobar la fuerza de esta
asociación se procede a calcular el cociente de proporciones condicionales:
EL resultado nos informa que la probabilidad de no sobrevivir es casi un 22% menor para las
1
mujeres que fuman que para las que no fuman. Otra forma de interpretarlo es como 0.24/0.31 =
1.29 o dicho de otra forma, ante el hecho de fumar la probabilidad de sobrevivir es 1.29 más que
al no fumar.
2
ACTIVIDAD 1-B) Asociación entre fumar y sobrevivir en mujeres del Reino
Unido, divididas en grupos por edad:
Tabla 2 - Valor-P del Test de Fisher para grupos de mujeres según edad.
Grupo A B C D
Como puede observarse, el único grupo que reune evidencia significativa para rechazar la hipótesis
nula con un nivel de significación de α = 0.05 es el grupo B, es decir, aquellas mujeres entre 35 y
54 años. En el resto de los grupos no puede rechazarse la hipótesis nula de independencia al 5%.
Si consideramos además las medidas de asociación entre los distintos grupos, podemos concluir
en que cambió la dirección de la asociación, incrementando las probabilidades de sobrevivir en
las mujeres que no fuman. Esto se ve principalmente en el grupo B, en donde una mujer que
fuma tiene 1.81 veces más de probabilidades de no sobrevivir que las que no lo hacen.
Grupo A B C D
Para la última actividad se utilizó una base de datos extraída del Instituto Nacional de Estadísticas
y Censos que reúne información sobre un índice de precios de exportacion y un índice de volumen
asociado de dichas exportaciones. Se utilizaron los datos correspondientes a los productos
manufacturados nacionales de origen industrial entre los años 1986 y 2021 (año base = 2004). La
teoría indica que considerándose constantes otras variables y bajo ciertos supuestos, esta relación
es positiva. Si realizamos un breve análisis descriptivo podemos observar que ambas variables
son cuantitativas continuas. Por otro lado, el promedio del índice de Precios es de 118.05 (con
D.E = 30.04) y mediana menor, sugiriendo que la distribución está sesgada a la derecha. Por
3
último, el promedio del índice de cantidades es de 98.64 (con D.E = 48.53) y mediana mayor,
sugiriendo que su distribución está sesgada a la izquierda.
100
50
precios
Si evaluamos el gráfico, éste sugiere la presencia de más de un grupo y una fuerte asociación
positiva (probablemente debido al método de construcción de los índices).
El coeficiente de correlación de Pearson (utilizaremos este coeficiente ya que el gráfico muestra
cierta linealidad) es 0.83.
Para finalizar, si utilizamos la funcion “cor.test” de r para estudiar si este valor es estadísticamente
significativo (bajo la hipótesis alternativa de que la correlación es distinta de 0) a un nivel de
confianza de α = 0.05. El resultado es un p-valor suficientemente bajo (0.00) para rechazar la
hipótesis nula y asumir una asociación positiva entre las variables.