Documentos de Académico
Documentos de Profesional
Documentos de Cultura
. . . . . . . . . . . . . . . Q-Q . . . . . . . . . . . .
. . . . . y . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . pruebas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . de . . . . . . . .
13
13 13 13 13 13
14 15 15 16
4.1.
El grco de cajas (boxplot) es una manera rpida e informativa de evaluar la distribucin de los datos: En un grco de cajas, la lnea que divide la caja indica la mediana, los lmites superior e inferior de la caja son los quartiles, lo lmites de las barras de error indican los lmites de los datos extremos (normalmente los que caen a 1.5 veces la distancia entre quartiles), y los crculos son los datos que exceden esos lmites. Tambin en con el paquete lattice se pueden hacer grcos de cajas para ms de una variable categrica:
>library(lattice) >bwplot(fset~sitio|anio,data=pomelos)
Distribucin de probabilidades
>boxplot(pomelos$gp)
4.2.
Taller de Introduccin a R
anio
anio
0.6
0.4
fset
0.2 0.0
PC
PC
Figura 1: Grco de cajas usando la funcin bwplot del paquete lattice. La probabilidad acumulada es F (x) = P (X x), y el quantil Q (u) = F 1 (u), que es la inversa de la funcin acumulada (la proporcin de los puntos que estn ms all de u). R posee funciones especcas para calcular estas distribuciones de probabilidades. Por ejemplo, para calcular la densidad de probabilidad, la probabilidad acumuladas y los quantiles de la distribucin se utilizan las funciones dnorm, pnorm y qnorm, respectivamente. Estas funciones estn disponibles para las distribuciones beta, binomial, Cauchy, 2 , gama, F, Poisson, normal, uniforme, lognormal y Weibull, entre otras (ver Venables and Ripley 2003 para una lista completa). Estas funciones se pueden utilizar fcilmente como tablas estadsticas. Por ejemplo, para conocer el el valor crtico para = 0,05 para una prueba de t de dos colas con 11 grados de libertad utilizamos qt(0.975,11), mientras que para el valor de P de un distribucin de Poisson de 25 sucesos en 32 datos usamos 1-ppois(31,25).
4.2.2. Evaluacin del ajuste a distribuciones estadsticas: grcos Q-Q y pruebas de ajuste Una de las mejores maneras de evaluar el ajuste de la distribucin de una muestra x con una distri-
bucin terica como la normal es mediante los grcos Q-Q (quantil-quantil). La funcin qqplot(x,y,...) graca las funciones de quantiles de dos muestras, x e y, comparando sus distribuciones. La funcin qqnorm(x) reemplaza una de las muestras por quantiles tericos provenientes de la distribucin normal, y se usa comunmente para evaluar el ajuste de los residuos de un modelo a la distribucin normal. Por ejemplo, Alternativamente, el ajuste a una distribucin estadstica puede evaluarse mediante una prueba de bondad de ajuste como la de Shapiro. Por ejemplo:
>shapiro.test(x) >x<-rt(250,df=9) >qqnorm(x); qqline(x)
14
Taller de Introduccin a R
rt(300, df = 5)
0 y
Figura 2: Grco de distribucin de probabilidad normal de 250 puntos creados a partir de una distribucin t con 9 grados de libertad.
Alternativamente, para conocer los parmetros de un conjunto de datos que supongo que provienen de una distribucin normal (por ej. granos de polen de pomelos), podemos hacer lo siguiente:
>pomelos<-read.table(file="http://www.cricyt.edu.ar/interactio/ cursos/r_intro/datos/pomelos.csv",sep=",",header=TRUE) >library (MASS) >fitdistr(pomelos$tp,"normal")
Estadstica clsica univariada
4.3.
Para realizar una prueba de t univariada, por ejemplo para evaluar si la media de la variable gp es igual a 30, puede usarse la fucnin t.test: Para realizar la prueba de Wilcoxon (el equivalente no paramtrico a una prueba de t) se utiliza la funcin wilcoxon.test: Algunas otras funciones para estadstica univariada son binom.test, friedman.test, chisq.test, kruskal.test, mantelhaen.test, var.test y fisher.test.
>wilcox.test(pomelos$gp,mu=30) >t.test(pomelos$gp,mu=30)
15
Taller de Introduccin a R
4.4.
Ejercicios
Utilizando el marco de datos pomelos, calcular o gracar lo siguiente: los estadsticos de tendencia media y de dispersin para todas las variables numricas; un grco de cajas de la variable gp por sitio; un histograma de fset con quince categoras y la probabilidad (o frequencia proporcional) en el eje de las ordenadas (de modo que la suma de las columnas del histograma sea 1); un grco Q-Q y una prueba de ajuste a la probabilidad normal para la variable tp.
Referencias
Venables, W. N. and Ripley, B. D., 2003. Modern Applied Statistics with S. Springer, New York.
16