Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En primer lugar, debemos calcular los subtotales por variable (completar la tabla de
arriba). El subtotal de flores blancas, rojas y amarillas sería (respectivamente) sumando
cada categoría:
> 45+36
[1] 81
> 24+83
[1] 107
> 60+40
[1] 100
Ahora debemos calcular el subtotal de flores con y sin abejas, sumando las categorías
correspondientes:
> 45+24+60
[1] 129
> 36+83+40
[1] 159
Luego debemos calcular la frecuencia esperada de flores con abejas y sin abejas.
Partiremos con las flores blancas. Para esto debemos primero dividir 129 por 288, que es
la proporción de flores con abejas, y luego multiplicarlo por 81 que representa el total de
flores blancas. Esto significa que si a las abejas no les importa el color de la flor
(independencia) deberían estar en esa proporción en las flores blancas. Esto es:
> Esperadas_BC<-(129/288)*81
> Esperadas_BC
[1] 36.28125
De este mismo modo calculamos las frecuencias esperadas de flores rojas y blancas con
abejas y sin abejas:
> Esperadas_RC<-(129/288)*107
> Esperadas_RC
[1] 47.92708
>
> Esperadas_RS<-(159/288)*107
> Esperadas_RS
[1] 59.07292
>
> Esperadas_AC<-(129/288)*100
> Esperadas_AC
[1] 44.79167
>
> Esperadas_AS<-(159/288)*100
> Esperadas_AS
[1] 55.20833
> X2<-((45-36.3)^2/36.3)+((36-44.7)^2/44.7)+((24-
47.9)^2/47.9)+((83-59.1)^2/59.1)+((60-44.8)^2/44.8)+((40-
55.2)^2/55.2)
> X2
[1] 34.71126
Por lo tanto, el valor de Chi-cuadrado (2) para nuestro análisis fue de 34.71 aprox. Como
nosotros necesitamos el valor de significancia de la prueba estadística (el valor-p)
debemos recurrir a la tabla de valores-p de la distribución Chi-cuadrado. El número de
grados de libertad (gl) en la prueba de Chi-cuadrado para tablas de contingencia se
obtiene así gl:(n°columnas-1) x (n°filas-1). Según esto, nuestro análisis de 2 posee dos
grados de libertad. Si observamos la tabla de los valores p de la tabla de Chi-cuadrado
podemos observar que el valor crítico de 2 con dos grados de libertad y alpha=0.05 es
5.991. Como 34.7>>>5.991, rechazamos H0, y determinamos que existe una asociación
significativa entre el color de las flores y la presencia de abejas.
chisq.test(Presencia)
> pres<-(as.matrix(Presencia))
>
barplot(pres,beside=TRUE,col=c("black","white"),legend=TRUE,ylab="
Frecuencia")
Ejemplo 2
Tabaco: Este primer ejemplo se basa en el estudio de una Universidad X que encuestó
en el gimnasio de la Facultad de Ciencias a 237 de sus alumnos sobre su actividad física
y adicción al tabaco. Los resultados de esta encuesta se encuentran en el archivo
"Tabaco.csv", carguémoslo en R utilizando el comando file.choose():
Warning message:
In chisq.test(tc_tabaco) : Chi-squared approximation may be
incorrect
El resultado de la prueba de Chi-cuadrado indica un valor de p mayor a 0.05 por lo
tanto no podemos rechazar H0. Luego, podemos afirmar (en base a los resultados) que el
hábito de fumar es independiente del nivel de actividad física de los estudiantes.
Si se fijaron en el resultado obtenido en R, bajo el valor de p, se indica un "Warning",
este aviso se debe a que tenemos algunos factores en nuestra tabla de contingencia con
muy pocos valores. Para remediar esto podemos juntar factores para obtener mayor
tamaño muestral. Lo que haremos será combinar las columnas Nada (de Ejercicio) y Poco
(Ejercicio), y las ingresaremos a un nuevo vector. Para esto utilizaremos el comando
cbind(): el cual toma una secuencia de argumentos de vectores, matrices o marcos de
datos y los combina por columnas o filas, respectivamente.
data: tc2_tabaco
X-squared = 3.2328, df = 3, p-value = 0.3571
Con la nueva tabla no obtuvimos la señal de advertencia, sin embargo, el resultado es
el mismo, el hábito de fumar es independiente del nivel de actividad física. Sin embargo,
sabemos (por múltiples estudios científicos) que el tabaco sí afecta la actividad física de
las personas, entonces, ¿por qué obtenemos estos resultados? Recuerden, siempre una
posibilidad es que realizamos un muestreo sesgado. Los resultados obtenidos provienen
de 237 personas encuestadas en el gimnasio de la Universidad X, no solo tenemos una
muestra reducida (N=237), sino que también la encuesta se realizó en un lugar donde
probablemente no acuden los fumadores.
Entonces, ahora utilizaremos una nueva base de datos llamada "Tabaco2.csv", este
archivo contiene la misma encuesta, pero esta vez realizada a 1296 estudiantes en
distintos lugares de la Universidad X. Revisemos nuestra nueva base de datos:
> tabaco2 <- read.csv("Tabaco2.csv",header=TRUE,sep=";")
> head(tabaco2)
Adiccion Ejercicio
1 Nunca Poco
2 Regularmente Nada
3 Ocasionalmente Nada
4 Nunca Nada
5 Nunca Poco
6 Nunca Poco
> dim(tabaco2)
[1] 1296 2
Nuevamente creemos una tabla de contingencia:
> tc_tabaco2 <- table(tabaco2$Adiccion,tabaco2$Ejercicio)
> tc_tabaco2
Frecuentemente Nada Poco
Nunca 432 72 336
Ocasionalmente 48 12 16
Regularmente 36 4 28
Siempre 28 156 124
> chisq.test(tc_tabaco2)
Pearson's Chi-squared test
data: tc_tabaco2
X-squared = 332, df = 6, p-value < 2.2e-16
Con estos nuevos datos (una muestra ampliada y representativa) los resultados
cambian rotundamente, en base a lo estimado rechazamos H 0, por tanto, el hábito de
fumar y la actividad física NO son variables independientes. ¿Qué más podrían decir al
respecto de este resultado?
Ejercicios para practicar.
Comentario: para cada gráfico que genere en estos ejercicios, no olvide indicar las leyendas de
eje y el título principal del gráfico.
1. La siguiente tabla posee datos de preferencia de ciertos sabores de helado de acuerdo al sexo
o género de los individuos. Evalúe si existe una asociación entre el género de los individuos y el
sabor de los helados a través de la prueba de Chi-cuadrado. Para esto, determine el número de
observaciones esperadas dentro de cada categoría generando vectores de acuerdo a los códigos
de la tabla que aparece a continuación. Finalmente exprese el cálculo del estadístico Chi-
cuadrado en base a la fórmula utilizada en el ejemplo 1 y realice el contraste de hipótesis en base
a la tabla de la distribución Chi-cuadrado. Recuerde explicitar las hipótesis a contrastar y
conclusión en base a los resultados.
Chocolate Esperadas Vainilla Esperadas Frutilla Esperadas Total
Mujeres 300 MC= 100 MV= 90 MF=
Hombres 100 HC= 220 HV= 80 HF=
Total
2. Ud. Desea evaluar si existe asociación entre el color del pelaje de una raza X de perros y el
sexo de los ejemplares en base a la siguiente tabla:
Negro Castaño Rubio
Machos 35 50 20
Hembras 54 63 70
4. Evalúe la normalidad de las variables FSIQ, PIQ y VIQ de la tabla IQ.csv. ¿Es posible
normalizar estas variables mediante transformación logarítmica?
Literatura revisada: