Está en la página 1de 4

Taller de Introduccin a R

4. Exploracin grca de datos y estadstica univariada ndice


4. Exploracin grca de datos y estadstica univariada
4.1. Resumen de los datos . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1. Funciones de estadstica descriptiva . . . . . . . . . . . . . . 4.1.2. Histogramas y grcos de tallos y hojas . . . . . . . . . . . 4.2. Distribucin de probabilidades . . . . . . . . . . . . . . . . . . . . 4.2.1. Funciones de distribucin de probabilidades . . . . . . . . . 4.2.2. Evaluacin del ajuste a distribuciones estadsticas: grcos ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3. Cmo ajustar distribuciones univariadas? . . . . . . . . . 4.3. Estadstica clsica univariada . . . . . . . . . . . . . . . . . . . . . 4.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Resumen de los datos

. . . . . . . . . . . . . . . Q-Q . . . . . . . . . . . .

. . . . . y . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . pruebas . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . de . . . . . . . .

13
13 13 13 13 13

14 15 15 16

4.1.

4.1.1. Funciones de estadstica descriptiva


La funcin mean devolver la media de los datos de un vector, matrix o marco de datos por columnas. La funcin var devolver la varianza; si el objeto sobre el que se aplica la funcin es una matriz, la funcin devolver la matriz de varianza-covarianza. Por ejemplo: La funcin quantile tambien es til para describir la dispersin de los datos: >quantile(pomelos$gp,c(0,0.25,0.5,0.75,1). Estas funciones descriptivas estn incluidas en la funcin summary(), que funciona siempre que no haya datos faltantes (NAs):
>summary(na.omit(pomelos$fset)) >pom<-na.omit(with(pomelos,cbind(gp,tp,fset))) >var(pom)

4.1.2. Histogramas y grcos de tallos y hojas


Para realizar histogramas utilizamos la funcin hist: >hist(pomelos$gp,breaks=20,col=cyan) La funcin stem es una buena alternativa a los histogramas, quizs un poco ms informativa, ya
>stem(pomelos$gp)

que incluye la frecuencia de cada uno de los valores:

El grco de cajas (boxplot) es una manera rpida e informativa de evaluar la distribucin de los datos: En un grco de cajas, la lnea que divide la caja indica la mediana, los lmites superior e inferior de la caja son los quartiles, lo lmites de las barras de error indican los lmites de los datos extremos (normalmente los que caen a 1.5 veces la distancia entre quartiles), y los crculos son los datos que exceden esos lmites. Tambin en con el paquete lattice se pueden hacer grcos de cajas para ms de una variable categrica:
>library(lattice) >bwplot(fset~sitio|anio,data=pomelos)
Distribucin de probabilidades

>boxplot(pomelos$gp)

4.2.

4.2.1. Funciones de distribucin de probabilidades


Las distribuciones estadsticas estn denidas por funciones de densidad de probabilidad (para distribuciones continuas) o por funciones de probabilidad (para distribuciones discretas), P (X = n). 13

Taller de Introduccin a R

anio

anio

0.6

0.4

fset
0.2 0.0

PC

PC

Figura 1: Grco de cajas usando la funcin bwplot del paquete lattice. La probabilidad acumulada es F (x) = P (X x), y el quantil Q (u) = F 1 (u), que es la inversa de la funcin acumulada (la proporcin de los puntos que estn ms all de u). R posee funciones especcas para calcular estas distribuciones de probabilidades. Por ejemplo, para calcular la densidad de probabilidad, la probabilidad acumuladas y los quantiles de la distribucin se utilizan las funciones dnorm, pnorm y qnorm, respectivamente. Estas funciones estn disponibles para las distribuciones beta, binomial, Cauchy, 2 , gama, F, Poisson, normal, uniforme, lognormal y Weibull, entre otras (ver Venables and Ripley 2003 para una lista completa). Estas funciones se pueden utilizar fcilmente como tablas estadsticas. Por ejemplo, para conocer el el valor crtico para = 0,05 para una prueba de t de dos colas con 11 grados de libertad utilizamos qt(0.975,11), mientras que para el valor de P de un distribucin de Poisson de 25 sucesos en 32 datos usamos 1-ppois(31,25).

4.2.2. Evaluacin del ajuste a distribuciones estadsticas: grcos Q-Q y pruebas de ajuste Una de las mejores maneras de evaluar el ajuste de la distribucin de una muestra x con una distri-

bucin terica como la normal es mediante los grcos Q-Q (quantil-quantil). La funcin qqplot(x,y,...) graca las funciones de quantiles de dos muestras, x e y, comparando sus distribuciones. La funcin qqnorm(x) reemplaza una de las muestras por quantiles tericos provenientes de la distribucin normal, y se usa comunmente para evaluar el ajuste de los residuos de un modelo a la distribucin normal. Por ejemplo, Alternativamente, el ajuste a una distribucin estadstica puede evaluarse mediante una prueba de bondad de ajuste como la de Shapiro. Por ejemplo:
>shapiro.test(x) >x<-rt(250,df=9) >qqnorm(x); qqline(x)

14

Taller de Introduccin a R

rt(300, df = 5)

0 y

Figura 2: Grco de distribucin de probabilidad normal de 250 puntos creados a partir de una distribucin t con 9 grados de libertad.

4.2.3. Cmo ajustar distribuciones univariadas?


La funcin fitdistr en el paquete MASS ajusta los parametros a muchas distribuciones. Por ejemplo, si quiero saber si mi variable ajusta a (o proviene de) una distribucin t puedo usar la funcin fitdistr para la variable
>library(MASS) >x<-rt(250,df=9) >fitdistr(x,"t")

Alternativamente, para conocer los parmetros de un conjunto de datos que supongo que provienen de una distribucin normal (por ej. granos de polen de pomelos), podemos hacer lo siguiente:
>pomelos<-read.table(file="http://www.cricyt.edu.ar/interactio/ cursos/r_intro/datos/pomelos.csv",sep=",",header=TRUE) >library (MASS) >fitdistr(pomelos$tp,"normal")
Estadstica clsica univariada

4.3.

Para realizar una prueba de t univariada, por ejemplo para evaluar si la media de la variable gp es igual a 30, puede usarse la fucnin t.test: Para realizar la prueba de Wilcoxon (el equivalente no paramtrico a una prueba de t) se utiliza la funcin wilcoxon.test: Algunas otras funciones para estadstica univariada son binom.test, friedman.test, chisq.test, kruskal.test, mantelhaen.test, var.test y fisher.test.
>wilcox.test(pomelos$gp,mu=30) >t.test(pomelos$gp,mu=30)

15

Taller de Introduccin a R

4.4.

Ejercicios

Utilizando el marco de datos pomelos, calcular o gracar lo siguiente: los estadsticos de tendencia media y de dispersin para todas las variables numricas; un grco de cajas de la variable gp por sitio; un histograma de fset con quince categoras y la probabilidad (o frequencia proporcional) en el eje de las ordenadas (de modo que la suma de las columnas del histograma sea 1); un grco Q-Q y una prueba de ajuste a la probabilidad normal para la variable tp.

Referencias
Venables, W. N. and Ripley, B. D., 2003. Modern Applied Statistics with S. Springer, New York.

16

También podría gustarte