Está en la página 1de 21

Prueba de Hipótesis,

Supuestos y
Transformación de Datos
Prueba de Hipótesis

En Capítulos anteriores, se vio las medidas de tendencia central y de variación


para describir el conjunto de datos de una variable continua o discreta,

Pero si queremos ir más allá de la descripción, es decir si tenemos dos muestras


de la misma población y deseamos descubrir si la diferencia entre las dos
medias de esas muestras es significativa, entonces es aquí es donde se utilizan
los método estadísticos o estadística inferencial.
Formar una hipótesis es el primer paso en el proceso de realizar estadísticas
inferenciales. En estadística inferencial, el investigador plantea una hipótesis
respecto a uno o más parámetros poblacionales (por ejemplo el promedio,
mediana y varianzas) de que son iguales a algún valor en específico.
En seguida toma una muestra de la población y compara sus observaciones con la
hipótesis que planteo.

Si las observaciones no concuerdan con la hipótesis, las rechaza, esta es conocida


como hipótesis alterna (denotada como H1). De lo contrario, concluye que la
hipótesis es verdadera o que la muestra no detectó la diferencia entre los valores
reales e hipotético de los parámetros poblacionales, a esta se le conoce como
hipótesis nula; esta hipótesis de "sin diferencia" (o sin relación) se conoce como
hipótesis nula y se denota como H0.
Existen dos tipos de hipótesis alternas: específicas y no específicas. En la
primera se especifica la dirección que toma las diferencias o relación. Por
ejemplo, se tienen dos muestras cada una con de diez individuos y planteamos
la hipótesis nula: la media de la muestra A es menor a media de la muestra B , y
la hipótesis alternativa podría ser que la media de la muestra A es mayor que la
de la muestra B .
La no específica es (la más utilizada) cuando la hipótesis nula: las medias son
iguales y la hipótesis alterna lo contrario “diferentes” .
Cuando se tienen planteadas las hipótesis (nula y alterna) el siguiente paso es calcular
un estadístico de prueba y conocer la región de rechazo para la hipótesis.

La región de rechazo para alguna hipótesis, es en base al valor del estadístico de


prueba, donde se rechaza la hipótesis nula y acepta la hipótesis alterna o viceversa.

Con ayuda del software R obtenemos la probabilidad (P) para tomar la decisión por
alguna de las hipótesis. Con la P decidimos si la hipótesis nula es verdadera o
rechazada. Es decir si la P es mayor o igual a 0.05 (), entonces existe una alta
probabilidad de que la hipótesis nula se acepte, lo que indicaría que no existen
diferencias significativas. Por otro lado, si P es menor a 0.05 (), existe una baja
probabilidad de aceptar la hipótesis nula, por lo que se acepta la hipótesis alterna de
que existen diferencias significativas. A esta diferencia se le conoce como diferencias
estadísticamente significativa.
Supuestos: Distribución Normal y Homocedásticidad

Las pruebas que se verán en este libro las podemos dividir en dos tipos. La primera,
pruebas paramétricas, son las que se basan en datos distribuidos normalmente. La
segunda, pruebas no paramétricas, en estas los datos no presentan distribución
normal; también llamada pruebas de libre distribución, puesto que no está sujeta a
ninguna distribución de probabilidades específica a diferencia de la paramétrica.

Los supuestos de distribución normal y homogeneidad de varianza determinan el


tipo de prueba que se debe de utilizar para analizar los datos.
Distribución normal
Existen varios métodos para verificar el supuesto de normalidad: grafico
(método informal) y pruebas estadística (método formal)

Existen alrededor de 40 pruebas de normalidad. Las pruebas de normalidad se


pueden clasificar en pruebas basadas en regresión y correlación (prueba de
Shapiro-Wilk, prueba de Shapiro-Francia y Ryan-Joiner), prueba Bondad de
ajuste de Chi-cuadrada de Pearson, prueba de distribución empírica (como las
pruebas de Kolmogorov–Smirnov, Lilliefors, Anderson–Darling y Cramer–von
Mises), pruebas de momento (prueba de asimetría, prueba de curtosis, prueba de
D'Agostino, prueba de Jarque–Bera), prueba de espaciamiento (prueba de Rao,
prueba de Greenwood) y otras pruebas especiales. Para más detalle sobre estas
pruebas de normalidad ver Keskin (2006), Farrel y Stewart (2006), Nornadiah y
Yap (2011) y Yap y Sim (2011).
Se han realizado estudios comparativos entre las pruebas de normalidad más
utilizadas en diferentes áreas de la ciencia, y encontraron que la prueba de
Shapiro-Wilk es la prueba más poderosa para todos los tipos de distribución
(distribución asimétrica, distribución simétrica no normal o distribuciones
simétricas de cola corta) y tamaños de muestra

En el programa R existe el comando shapiro.test sin necesidad de requerir alguna


librería. Para este caso podemos plantear la siguiente hipótesis:

H0: los datos muestrales presentan una distribución normal y por lo tanto
provienen de una población con la misma distribución.
H1: los datos muestrales presentan una distribución no normal y por lo tanto
provienen de una población con una distribución no normal.
Las pruebas Kolmogorov-Smirnov, Lilliefors y Anderson–Darling también las
podemos encontrar en programa R. La prueba Kolmogorov-Smirnov (ks.test) no
se encuentra en algún paquete, a lo que llamamos un comando libre. Mientras
que, para poder utilizar las pruebas Lilliefors (lillie.test) y Anderson–Darling
(ad.test) requerimos del paquete (librería) nortest. Para poder utilizar
correctamente la prueba de Kolmogorov-Smirnov en R es necesario incluir la
media y la desviación estándar mediante los comandos mean y sd. Todas las
pruebas de normalidad determinaron que los datos muestrales provienen de una
distribución normal.
Con la siguiente base de datos, realizar las pruebas de Shapiro-Wilk,
Kolmogorov-Smirnov, Lilliefors y Anderson–Darling,
Número Número de insectos
de Planta
1 182
2 232
3 191
4 200
5 148
6 249
7 276
8 213
9 241
10 210
11 262
shapiro.test(Numero.de.insectos) > library(nortest)

Shapiro-Wilk normality test > ad.test(Numero.de.insectos)


Anderson-Darling normality test
data: insectos data: insectos
W = 0.98422, p-value = 0.9851 A = 0.12588, p-value = 0.9773

> lillie.test(Numero.de.insectos)
Lilliefors (Kolmogorov-Smirnov)
ks.test(Numero.de.insectos,pnorm, normality test
mean(Numero.de.insectos), sd(Numero.de.insectos)) data: insectos
One-sample Kolmogorov-Smirnov test D = 0.10371, p-value = 0.9848
data: insectos
D = 0.10371, p-value = 0.9987
alternative hypothesis: two-sided
Homogeneidad de varianza
En el método formal se utilizan pruebas estadísticas para examinar si las muestras
presentan varianzas constantes. Estas pruebas manejan hipótesis nula y alterna. La
hipótesis nula sería𝐻 0 : 𝜎 21=𝜎 22=…=𝜎 2𝑘y 𝐻 𝐴 :no todas las varianzas poblacionales son
iguales.

Parra Dos Muestras se utiliza: La Prueba de razón de varianza. Poblaciones con


distribución normal,

En el programa R-project se cuenta con la función vartest, si el valor de P


(probabilidad de error) es menor o igual a 0.05 (p ≤ 0.05), entonces rechazamos la H 0
y concluimos que las dos muestras provienen de poblaciones que tienen varianzas
desiguales. Si la probabilidad es mayor que a 0.05 (p > 0.05), concluimos que existen
suficiente evidencia para concluir que las varianzas son iguales.
Cuando existen más de dos muestras, el método más utilizado para evaluar la
homogeneidad de varianzas es la prueba de Bartlett. La prueba de Bartlett es
poderosa si las poblaciones muestreadas son normales, pero cuando la validez
del supuesto de normalidad está en duda, no deberá usarse la prueba

Así que, si los datos no provienen de una población distribuida normalmente,


existe una prueba robusta en cuento a las desviaciones de la normalidad, esta es
la prueba de Levene.

En el programa R-project existe la función lenvenetest la cual incluye la opción


de elegir alguna de las medidas (media, mediana o media recortada al 10%) para
calcular la desviación absoluta (center=median (por defecto) o center=mean;
trim=0.1(media truncada)). La opción más utilizada es median.
Transformación de datos
La distribución normal es la piedra angular de las aplicaciones estadísticas, pero
los datos no siempre presentan una distribución normal. En este caso, los datos
se pueden transformar para que sigan una distribución aproximadamente normal.

En la práctica se recomienda la transformación raíz cuadrada sobre variables con


distribución de Poisson (Correa y Castillo 2000). Steel y Torrie (1992) la
recomiendan además, para datos enteros pequeños, tales como el conteo de colonias
de bacterias y el número de plantas o insectos de una especie determinada.

Igualmente, en el caso de muestras pequeñas, muchos investigadores utilizan


alternativamente la transformación y =x+0.5, expresión que también es útil aplicar
en aquellas investigaciones donde el contaje de la información incluye los valores
cero que también participan dentro de la investigación (Gaete 1979).
Transformación logarítmica.

Es muy útil cuando existe dependencia de la varianza con respecto al valor de


la media. Es decir, que a mayores valores de las medias le corresponden
mayores varianzas. Considérese, por ejemplo, el caso del número de presas
consumidas por un depredador. Esta relación varía desde cero (ninguna presa
consumida), hasta valores extremadamente grandes cuando un solo
depredador consume muchas presas, teóricamente este número puede ser
infinitamente grande puesto que no hay límite para el número de presas
consumidas. (Pero si no es infinitamente grande se puede aplicar Raíz
cuadrada ).

Mencionan Fowler et al. (2008) que la transformación logarítmica es


apropiada cuando la varianza de una muestra de datos de recuento es mayor
que la media.
TRANSFORMACIÓN ARCOSENO

La transformación arcoseno es apropiado para observaciones que están en


porcentajes o proporciones (Sokal and Rohlf, 2009; Fowler, 2008). Ejemplo
porcentaje de germinación calculado a partir de 50 semillas bajo distintos
tratamienos.

Cuando los porcentaje en los datos originales caen entre 30% y 70%,
generalmente no es necesario la aplicación de la transformación arcoseno
(Sokal and Rohlf, 2009).

Gomes (2000) recomienda que se efectúe este tipo de transformación cuando


los porcentajes sean menores de 15% o excedan 85%. Así, todos los datos que
se encuentran en el intervalo [15%,85%], la transformación no es necesaria.
MÉTODO BOX -COX
Box y Cox (1964) propusieron una familia de funciones de potencia para la variable
de respuesta con el objetivo de garantizar el incumplimiento de todos los
supuestos de un modelo lineal.
Las transformaciones originales de Box y Cox están dada por

y-1/  si  ≠ 0
y()=
log(y) si  = 0

La clase de transformaciones consideradas son transformaciones de potencia definidas


por:
Y’=(Y+ 2) 1

Draper and Smith (1966) estudiaron que no todas las distribuciones pueden
ser transformadas a una normal mediante el método de potencias.
En la cual los datos son calculados en una potencia de λ 1 después de cambiarlo a una
cierta cantidad λ2. Posteriormente, el parámetro de cambio λ2 se fija igual a 0. Esta clase
incluyen raíces cuadradas, logaritmos, recíprocos, y otras transformaciones comunes, que
dependen sobre una potencia. Los ejemplos incluyen:

Potencia Transformación Descripción

λ1 = 2 Y′=Y2 Cuadrado
Datos sin
λ1 = 1 Y′=Y 1
Transformar

λ1 = 0.5 Y′= 2 Raíz Cuadrada


Y
λ1 =0.333 Y′= 3
Y Raíz Cúbica

λ1 = 0 Y′=ln(Y) Logaritmo
1 Raíz Cuadrada
λ1 = -0.5 Y′= 2 Inversa
Y
λ1 = -1 Y′=1/Y Reciproco

Note que si λ1 → 0, la transformación de potencia se enfoca en un logaritmo.


Cuadro 3.3. Datos hipotéticos para mostrar el método de Box y Cox.

Tratamientos Y Tratamientos Y Tratamientos Y


T1 9 T4 9 T7 1
T1 12 T4 6 T7 0
T1 0 T4 4 T7 0
T1 1 T4 5 T7 0
T2 4 T5 27 T8 10
T2 8 T5 7 T8 0
T2 5 T5 10 T8 2
T2 1 T5 10 T8 1
T3 6 T6 35 T9 4
T3 15 T6 28 T9 10
T3 6 T6 2 T9 15
T3 2 T6 15 T9 5
En esta imagen se observa
como debe de quedar la base
de datos del Cuadro 3.3
datos3.2<-read.table("Transf.txt",header=T)
attach(datos3.2)
model<-lm(Y~Trat,data=datos3.2)

> shapiro.test(model$residuals)
Shapiro-Wilk normality test
data: model$residuals
W = 0.92776, p-value = 0.02142

boxcox(Y+1 ~ Trat, data = datos3.2, lambda = seq(-2, 2, 1/10))


Como se observa en la figura el valor de se
aproxima a cero (0), por lo tanto la
transformación que requieren los datos para que
presenten una distribución normal es
logarítmica (log (Y)). Pero como el base de
datos original existen valores de cero, es
necesario sumar el valor uno para que la
transformación funcione, ya que sino el log(0)
no existe.

model2<-
lm(log(Y+1)~Trat,data=datos3.2)
shapiro.test(model2$residuals)
Shapiro-Wilk normality
test
data: model2$residuals
W = 0.9822, p-value =
0.8168

También podría gustarte