Está en la página 1de 11

Métodos Cuantitativos en Recursos Naturales

Taller 7

Pruebas de: t-Student, U Mann-Whitney & Wilcoxon

Objetivo:
Evaluar diferencias significativas entre uno o dos grupos mediante inferencia estadística
aplicando pruebas paramétricas (t de Student) y no paramétricas (U de Mann Whitney y
Wilcoxon).

Contenido:
1. Prueba Paramétrica de t de Student
a. Prueba de t con una muestra
b. Prueba de t para dos muestras independientes
2. Prueba No Paramétrica de U de Mann Whitney & Wilcoxon
a. Prueba No paramétrica de U de Mann Whitney & Wilcoxon para muestras
independientes
3. Prueba de t y de U de Mann-Whitney & Wilcoxon para evaluar dDiferencias entre
dos muestras pareadas (dependientes)

1. Prueba paramétrica de t de Student

La prueba de t de Student es una prueba estadística paramétrica, por ende, requiere


que las variables de interés cumplan con los supuestos de:

1. Normalidad
2. Homocedasticidad
3. Independencia de los datos

Esta prueba permite evaluar si existen diferencias significativas entre uno y dos
grupos, a través del contraste de los promedios (µ) de una variable X aleatoria. Por
ejemplo, se puede evaluar si las mujeres y los hombres tienen distinta altura promedio en
una población. Por lo tanto, con una prueba de t se contrasta si las diferencias entre dos
promedios se deben al azar o no.

Es más probable que encontremos diferencias significativas cuando:


- La diferencia entre los promedios es grande.
- El tamaño de la muestra es grande.
- Las observaciones son consistentemente cercanas a los valores promedio de cada
grupo y no se alejan considerablemente (es decir, la desviación estándar es baja).

Entonces, a grandes rasgos existen dos tipos de pruebas de t:


a. La prueba de t de una muestra: se usa para comparar el valor promedio () de un
grupo o muestra con el promedio (µ) poblacional (que es un solo número) de una
variable aleatoria (por ejemplo, ¿los ciudadanos de Santiago gastan más de $5.000 por
mes en ir al cine?).

b. La prueba t de dos muestras: se usa para establecer si existen diferencias


significativas entre las medias de dos grupos para una variable aleatoria. En este tipo
de análisis, los sujetos experimentales o individuos de los 2 grupos pueden ser
independientes (que vienen de dos poblaciones distintas) o pareados (que vienen de
una única población en tiempos distintos). Este último caso se da cuando ambos grupos
poseen los mismos individuos bajo diferentes condiciones a comparar.
Ej.:
-
Muestras independientes: ¿los ciudadanos de Santiago gastan más dinero en ir al cine que los ciudadanos
- Muestras pareadas: ¿los ciudadanos de Santiago gastan más dinero en ir al cine
en enero o en febrero?

a. Ejercicio 1: Prueba de t con una muestra

Se detectó un brote de Salmonella en el barrio universitario el cual afectó a un alto


número de estudiantes. El brote se atribuye a la venta de completos de un carrito que, al
parecer, utilizó mayonesa casera elaborada en condiciones insalubres. En este caso
buscamos evaluar si los niveles de Salmonella en los completos de este carrito son
superiores al valor máximo permitido (0,3 MPN/g: Most Probable Number per gram). Para
esto se realizaron mediciones de Salmonella en 9 completos muestreados al azar del
carrito, para compararlos con el máximo valor permitido. Los niveles de Salmonella (en
MPN/g) resultantes se muestran a continuación:

Salmonella: 0,593; 0,142; 0,329; 0,691; 0.231; 0,793; 0,519; 0,392; 0,418
Asumiremos que estos datos cumplen con los supuestos de normalidad y homogeneidad
de varianza.
Entonces ahora planteamos las hipótesis con las que trabajaremos:
Consideraremos que µ (mu) es el valor promedio por contrastar de Salmonella de TODOS
los completos del carro (población), entonces, las hipótesis pueden ser expresadas como:
H0:  muestra ≤ 0,3 (μ permitido)
H1:  muestra > 0,3 (μ permitido)
En este caso la prueba es de una cola, ya que el contraste es con un valor promedio
conocido (0,3), y nos interesa saber si el valor de la muestra es mayor a este promedio.
Ahora realizaremos la prueba de t en R.
Comenzaremos creando el vector que contendrá los valores de Salmonella medidos:
Salmonella = c(0.593, 0.142, 0.329, 0.691, 0.231, 0.793, 0.519, 0.392,
0.418)

Posterior a esto realizaremos el test de t mediante el siguiente comando:


t.test(Salmonella,mu=0.3,alternative="greater")

##t.test() permite realizar la prueba de t. En mu, se debe indicar el valor de referencia


(promedio poblacional) y en alternative se indica la hipótesis alternativa:
##“greater”, para evaluar si nuestra muestra es mayor que mu (Prueba de una cola)
##“less” para evaluar si nuestra muestra es menor que mu (Prueba de una cola)
##“two.sided” para evaluar si nuestra muestra es diferente de mu (prueba de dos colas)
El resultado de este comando es:
One Sample t-test
data: Salmonella
t = 2.2051, df = 8, p-value = 0.02927
alternative hypothesis: true mean is greater than 0.3
95 percent confidence interval:
0.3245133 Inf
sample estimates:
mean of x
0.4564444

Observamos que el valor de tcalculado es de 2.2051, con 8 grados de libertad y un valor p de


0.029 y considerando α = 0.05, entonces la decisión estadística es que el valor de p es
____menor_que α, es decir _________. Por lo que podemos concluir que, __________.
Pero… ¿cómo llegamos obtener este valor de tcalculado y los grados de libertad? Y podemos
confiar en estos resultados?
El valor del estadígrafo tcalculado puede ser obtenido mediante la siguiente fórmula.
x−μ
t calculado=
Sn/ √ n
Donde  es el promedio de la muestra, µ es el promedio poblacional, Sn es la desviación
estándar de la muestra y n es el tamaño de la muestra
Ya conocíamos el valor de mu (0.3) el valor promedio de Salmonella en nuestra muestra
de completos ( = 0.456; resultado del test de t en R), la desviación estándar de la
muestra es 0.213. Entonces, con estos datos calcularemos el estadígrafo tcalculado.
t calculado=¿ 2.20338
Para hacer el contraste de hipótesis, debemos buscar en la tabla de t de Student el valor
de tcrítico o de tabla, el cual se busca con los grados de libertar (gl= n° datos -1) ,lo que
resulta en __ grados de libertad y considerando α =0,05, el valor tcrítico es __.
Dado que t crítico = ___ es _____ que t calculado = ___, entonces , _____ H0 con un α =0,05, y
podemos concluir que el nivel promedio de Salmonella en los completos, cuyo valor es
0,456, es __________que 0,3 MPN/g.

b. Ejercicio 2: Prueba de t para dos muestras independientes.


A continuación trabajaremos con los datos del archivo Rhinella.csv. Este archivo contiene
los resultados de un experimento de jardín común en el cual se evaluó la adaptación local
de dos poblaciones del anfibio andino Rhinella spinulosa. Para esto se recolectaron
huevos de esta especie desde las poblaciones presentes en El Tatio y Farellones, y
fueron mantenidos en condiciones controladas de laboratorio. Se midió el tiempo que
demoraron los individuos en completar la metamorfosis (variable tiempo), por lo tanto, el
objetivo de este análisis es determinar si existen diferencias significativas en la variable
“tiempo” para las distintas poblaciones (que corresponde a un rasgo de historia de vida en
anfibios). En este caso, las muestras son independientes porque se están comparando
diferentes individuos provenientes de cada población.
Comenzaremos cambiando la dirección de trabajo y cargando nuestra base de datos:
setwd()
data=read.csv(“Rhinella.csv”,header=T,sep=";",stringsAsFactors=T)

Si nuestros datos se cargaron exitosamente podremos ver un resumen de nuestra base


de datos con el siguiente comando
summary(data)

Asumiremos que nuestros datos cumplen con los supuestos del análisis para la prueba t.
Las hipótesis por contrastar en una prueba de t de dos muestras serían:
H0: el tiempo promedio a la metamorfosis es igual entre las localidades (μ1=μ2)
H1: el tiempo promedio a la metamorfosis es diferente entre las localidades (μ1≠μ2)
En este caso la prueba de contraste sería de dos colas ya que no se tiene conocimiento a
priori si los valores a contrastar son mayores en un grupo o en otro. Es decir, se
desconoce la potencial diferencia entre ambas poblaciones, por lo que se somete a
prueba el supuesto de que son distintos.
Comenzaremos realizando esto en R, primero generaremos los vectores lógicos para
cada grupo a comparar (en este caso, cada localidad):

TAT=data$Localidad=="Tatio"
FAR=data$Localidad=="Farellones"
y luego realizamos la prueba de t con el comando t.test, pero ahora indicaremos que
la prueba es de dos colas

t.test(data$Tiempo[TAT],data$Tiempo[FAR],alternative="two.sided",var.equa
l=T)

##var.equal=T, indica al análisis que hay que asumir que los datos presentan varianzas
homogéneas (supuesto de homocedasticidad).
Obteniendo como resultado
Two Sample t-test
data: data$Tiempo[TAT] and data$Tiempo[FAR]
t = 6.9003, df = 28, p-value = 1.685e-07
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
27.65693 51.00974
sample estimates:
mean of x mean of y
72.46667 33.13333

Observamos que el valor de tcalculado es de 6.9003 con 28 grados de libertad y un valor p de


1.65x10-7.
Con estos datos, ya podemos tomar una decisión estadística, considerando α = 0.05.
Dado que el valor de p es ____ que α, ___________. Es decir que existen diferencias
significativas en el tiempo a metamorfosis entre ambas poblaciones
Pero… ¿cómo se calcula tcalculado y los grados de libertad en este caso?
El cálculo del estadístico t para dos muestras se realiza de la siguiente fórmula:
X 1− X 2
t calculado=
Sp
√ 1 1
+
n1 n 2
Donde1 y 2 corresponden a los promedios de las dos muestras; n1 y n2 corresponden a
los tamaños muestrales; y Sp corresponde a la varianza global, la cual se calcula de la
siguiente manera:

2 2
S p=
√ ( n1 −1 ) S 2x + ( n2−1 ) S2x
1

n1 +n2−2
2

Donde S x y S x corresponden a la varianza de cada muestra.


1 2
En este caso, los valores promedios para cada población los obtenemos de los resultados
de la prueba de t (72.467 y 33.133 para Tatio y Farellones respectivamente), n1 =15 y n2
=15. Para este caso especifico la varianza global Sp es de 15.611. Por lo tanto podremos
obtener el tcalculado :
t calculado=¿ 6.900

En este caso, calcularemos los grados de libertad como n1+n2-2 =___. Como estamos
realizando un contraste de hipótesis de dos colas, entonces, la zona de rechazo
corresponde a α/2=0,025, tal como se muestra en el gráfico a continuación:

Para este caso buscaremos el tcrítico considerando entonces un valor α = 0.025, y por lo
tanto el valor de tcritico es = __.
Dado que el t crítico=____1.701____ es __<____ t calculado=__6900___, entonces _______se
rechasa___ H0 con un α =0,05 y, concluimos que el tiempo promedio a la metamorfosis
es __significativamente diferente____ entre las localidades (μ1≠μ2).
2. Prueba No paramétrica U de Mann-Whitney & Wilcoxon
La Prueba de U Mann-Whitney es una “versión” no paramétrica de la prueba t de Student
aplicada para 2 muestras independientes con datos cuantitativos ordinales. El
planteamiento de partida es:
I. Las observaciones de ambos grupos son independientes.
II. Las observaciones son variables ordinales y continuas.
III. Los datos no siguen una distribución normal.
IV. Bajo la hipótesis nula, la distribución de los valores de ambas muestras es la
misma.
V. Bajo la hipótesis alternativa, la distribución de los valores de una de las muestras
tiende a exceder a los de la otra.
En este sentido esta prueba estadística utiliza la mediana como estimador y como
medida de tendencia central a comparar.
La prueba se basa en una comparación de cada observación xi de una primera muestra
con cada observación yj en una segunda muestra. Si las muestras tienen la misma
mediana, entonces cada observación tiene un 50% de probabilidad de ser mayor o menor
que la observación correspondiente de la otra muestra.

a. Prueba de U de Mann-Whitney & Wilcoxon para dos muestras independientes


Los datos del tiempo a metamorfosis utilizados en el ejercicio anterior no presentan una
distribución normal en ninguna de las poblaciones, por lo que evaluaremos mediante la
prueba U de Mann-Whitney & Wilcoxon si el tiempo a la metamorfosis en la población de
Tatio es mayor que para la población de Farellones
Entonces, planteamos las hipótesis con las que trabajaremos:
H0: La mediana del tiempo de metamorfosis para la población de Tatio es igual o menor
que para la población de Farellones
H1: La mediana del tiempo de metamorfosis para la población de Tatio es mayor que para
la población del Farellones
En R podemos utilizar esta prueba mediante el siguiente comando:
wilcox.test(data$Tiempo[TAT],data$Tiempo[FAR],alternative="greater")

Obtenemos el siguiente resultado:


Wilcoxon rank sum test with continuity correction
data: data$Tiempo[TAT] and data$Tiempo[FAR]
W = 225, p-value = 1.541e-06
alternative hypothesis: true location shift is greater than 0
Warning message:
In wilcox.test.default(data$Tiempo[TAT], data$Tiempo[FAR], alternative =
"greater", : cannot compute exact p-value with ties
##Este error es un mensaje automático de R, que se emite cuando nuestros datos tienen
valores repetidos, pero en este caso no afecta el cálculo del valor p.
En este análisis considerando α =0,05, y dado que nuestro valor de p fue ______a
nuestro α, entonces nuestra decisión estadística es que se _________H0, por lo que
concluimos que la mediana del tiempo a metamorfosis de Tatio es
____________________ que el de Farellones.
Este estadígrafo fue calculado en base a un ranking usando la siguiente fórmula:
ni (ni +1)
U i=R i−
2
Siendo Ri el valor de la sumatoria del ranking de la muestra i y ni el tamaño de la muestra
i. En este sentido, se debe calcular el valor de Ui para ambas muestras. Finalmente entre
los dos Ucalculado se considerará el que tenga el menor valor para hacer el contraste de
hipótesis, y este se contrastará contra el valor Ucrítico. Si algún U calculado toma el valor de
“0”, entonces el otro U tomara el valor U=n1*n2, y será este el que se contrastara.

3. Prueba de t y de U de Mann-Whitney & Wilcoxon para evaluar diferencias entre


dos muestras pareadas (dependientes)
Para el caso de evaluar diferencias significativas con dos muestras pareadas, podemos
aplicar la prueba de t pareada (datos paramétricos) o la prueba de rangos de Wilcoxon
(datos no paramétricos), que tienen el mismo planteamiento que las pruebas vistas en los
ejemplos anteriores.
En este ejemplo evaluaremos la capacidad de un fármaco en disminuir efectivamente la
presión sanguínea. Se midieron los mismos individuos antes y después de la
administración del fármaco, es decir los datos no son independientes.
Los siguientes vectores muestran la presión sanguínea antes y después de la
administración del fármaco en los mismos individuos (10 en total):
Antes<-c(100,95,80,90,98,105,110,100,90,110)
Despues<-c(84,87,85,91,84,83,85,85,88,95)

Asumiremos que los datos cumplen con el supuesto de normalidad, lo que nos permitirá
utilizar la prueba de t para muestras pareadas. Debido a que en este caso estamos
interesados en la disminución de la presión sanguínea utilizaremos una prueba de una
cola. De este modo, las hipótesis a contrastar son:
H0: el promedio de la presión sanguínea es igual o aumenta con la administración del
fármaco (μ1≤μ2)
H1: el promedio de la presión sanguínea es menor con la administración del fármaco
(μ1>μ2)
t.test(Despues,Antes,alternative="less",var.equal=TRUE,paired=TRUE)

##El argumento paired = T, indica a R que la prueba es de datos


pareados o dependientes, mientras que paired =F, indica que las
muestras son independientes
Obteniendo el siguiente resultado:
Paired t-test
data: Despues and Antes
t = -3.5642, df = 9, p-value = 0.00304
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf -5.391129
sample estimates:
mean of the differences
-11.1

Dado que nuestro valor de p fue >o< a α=0.05, entonces nuestra decisión estadística es
que se ______H0. Luego, podemos concluimos que __________________en la presión
sanguínea asociada a la administración del fármaco, lo que comprueba su efectividad.
Ahora evaluaremos lo mismo, pero utilizando la prueba de Wilcoxon ya que los datos no
cumplen con el criterio de normalidad
H0: la mediana de la presión sanguínea es igual o aumenta con la administración del
fármaco (med1≤med2)
H1: la mediana de la presión sanguínea es menor con la administración del fármaco
(med1>med2)
Y corremos en el comando en R para aplicar esta prueba:
wilcox.test(Despues,Antes,alternative="less",var.equal=TRUE,paired=TRUE)
## con la opción paired=TRUE especificamos que nuestras muestras son
pareadas

El resultado es el siguiente:
Wilcoxon signed rank test with continuity correction
data: Despues and Antes
V = 4, p-value = 0.009491
alternative hypothesis: true location shift is less than 0
Warning message:
In wilcox.test.default(Despues, Antes, alternative = "less", var.equal =
TRUE, :cannot compute exact p-value with ties

Dado que nuestro valor de p fue >o< a nuestro α=0.05, entonces nuestra decisión
estadística es que se __rechaza__ H0. Es decir, llegamos a la misma conclusión que
utilizando la prueba de t pareada, es decir, el fármaco es efectivo en disminuir la presión
sanguínea. Finalmente, con el siguiente comando haremos un boxplot que nos permitirá
ver la magnitud de la disminución de presión:
boxplot(Antes,Despues,names=c("Antes","Después"),ylab="Presión",xlab="Gru
po",col=c("orchid","red"), main="Efecto del Fármaco en la Presión
Sanguinea")

Tarea.
Obs: En cada test estadístico que realice debe plantear las hipótesis alternativa y
nula. Si realiza algún tipo de grafico recuerde modificar el rotulo de los ejes, el titulo
principal y los colores del gráfico.

1) Anteriormente ya trabajamos con la base de datos Malawi.csv, que contiene 157


especies de peces de la familia Cichlidae que habitan el lago Malawi en África. Las
variables que fueron medidas de las especies son la longitud máxima (ML), y el estilo
de vida (LS) en términos de si estos viven expuestos o protegidos en roqueríos. En
esa ocasión calculamos el promedio, desviación estándar y la mediana para evaluar
si el estilo de vida podría resultar en un estimador del tamaño máximo corporal.

A) Determine si existen diferencias significativas para el tamaño máximo corporal


en los peces cíclidos del lago Malawi entre los distintos estilos de vida
B) Grafique de manera adecuada la información entregada.

2) La base de datos Datos_perros.csv corresponden a las medidas anatómicas de 1100


perros de la misma raza, género y edad, cuya única diferencia es la presencia o
ausencia de una enfermedad X (denotando perros sanos con 0 y enfermos con 1).

A) Determine si esta enfermedad puede resultar en cambios significativos en la


altura del perro, en el diámetro del pecho o en el peso del perro.

3) Acceda a la base de datos iris con el siguiente comando:

Data=Iris

Ahora con esta base de dato:

A) Evalué si existen diferencias significativas entre el largo del pétalo para cada
par de especies (I. versicolor vs I. setosa, I. versicolor vs I. virginica y I.
virginica vs I. setosa).
B) Grafique adecuadamente la variable para cada par de comparación

4) Un recién egresado de Biología desea determinar si el sueldo que obtiene


($746.000) es significativamente diferente a lo que obtienen sus compañeros de la
generación anterior: 745986, 745991, 745983, 746005, 746004, 745994, 745985,
746009, 745990, 746000, 745973, 746000, 746002, 746007, 745993, 745990,
746006, 746011. Determine si el sueldo del recién egresado es significativamente
mayor al de sus compañeros de la generación anterior. Utilice comandos de R y
también obtenga el valor del estadígrafo mediante una aproximación analítica o
manual.
5) Un estudio evaluó el efecto de un tratamiento realizado en ratones, que midió
la masa o peso de 15 individuos tras la administración de un nuevo suplemento
alimenticio. Determine si el tratamiento utilizando el suplemento alimenticio
produjo un aumento significativo en el peso promedio de los ratones tratados.
Grafique adecuadamente la información que se le entrega.

Peso Inicial (grs):


200.1, 190.9, 192.7, 213, 241.4, 196.9, 172.2, 185.5, 205.2, 193.7, 205.4, 208.6,
209.3, 198.5, 199.1
Peso Final (grs)
392.9, 393.2, 345.1, 393, 434, 427.9, 422, 383.9, 392.3, 352.2, 384.1, 388.5,
403.5, 410.1, 399.4

También podría gustarte