Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. Objetivos
Obtener los principales resultados estadsticos de una serie de datos mediante el programa R, medidas de tendencia central, medidas de variabilidad Tablas de frecuencia y frecuencia acumulada Tablas de frecuencia relativa y frecuencia relativa acumulada Visualizacin de distribuciones de frecuencia en forma de un histograma, boxplot, dot plot.
2. Colecta de datos
3.- Obtener las medidas de posicin, de tendencia central y de variabilidad para la variable papel.
Introduccin de datos en R.
Antes que nada debe crear un archivo. Dependiendo de los objetivos del estudio, usted puede hacer un archivo para cada variable (una columna) o hacer un archivo con varias variables (ms de una columna). Recuerde que existen varios formatos de almacenamiento de un archivo y que dependiendo del formato se eligen las ordenes para leer el archivo en R. Consultar seccin Leer datos en R
Cuando no hay muchos datos una forma sencilla es introducir los datos mediante la funcin conatenar. Debido a que R no es todava muy eficiente en almacenar archivos, recuerde guardar sus datos en un formato conocido (Word, bloc de notas, open office, etc) papel <- c(38,35,2,20,10,1,22,13.4,32.9,37,55,30,6,20,32,3,10,17.2,31,21,12.2,22.2,28, 15.5,38.2,2.2,17,24,43,18,8,4,50,8,28.9) data.entry(papel)
Los datos que se encuentran en la variable papel estn sin agrupar. A partir de esa serie, existen en R comandos que permiten obtener las medidas de posicin y de tendencia central Las medidas de posicin ms comunes son: el mnimo, el mximo, los cuartiles, los percentles, los deciles. Para encontrar los valores que se encuentran en la posicin mnima y mxima, se ordenan los datos del menor al mayor. En R se puede usar la instruccin sort(x) > sort(papel) [1] 1.0 2.0 2.2 3.0 4.0 6.0 8.0 8.0 10.0 10.0 12.2 13.4 15.5 17.0 17.2 [16] 18.0 20.0 20.0 21.0 22.0 22.2 24.0 28.0 28.9 30.0 31.0 32.0 32.9 35.0 37.0 [31] 38.0 38.2 43.0 50.0 55.0 Tambin es posible usar los comandos: Min(x) y Max(x) > min(papel) [1] 1 > max(papel) [1] 55 Los cuartiles son los valores que separan la serie en grupos de 25% . Hay tres cuarteles. El cuartil uno Q1 se obtiene a partir de la mitad de valores con menor magnitud (ver calculo de la mediana). El procedimiento es muy parecido al aplicado para encontrar la mediana. En este caso hay 18 valores en el primer subgrupo; sumar el rango mximo del subgrupo 18+1 y dividir entre dos; el resultado, en este caso 9.5, indica la posicin en donde se encuentra el cuartil 1. Entre esta posicin estn 10 y 10. El promedio es 10. El cuartil tres Q3 se encuentra a partir del subgrupo de valores con mayor magnitud. En este caso se reasigna el rango de uno al primer elemento del segundo grupo. El valor que ocupa el rango = (rango mximo + 1)/2 es la posicin de cuartil buscado; en este caso hay dos valores el 31 y 32. El cuartel es 31.5 El cuartl dos es igual a la mediana. Es decir el valor que separa a la serie de datos en dos grupos uno de valores de menor magnitud y el otro de valores con mayor magnitud. Los cuartles pueden obtenerse con ayuda de summary(x) o bien con la diferencia de los dos cuarteles Cuartl 1 Summary() quantile(x,.25) Cuartl 2 Summary() o quantile(x,.50) Cuartl 3 Summary() quantile(x,.75) > summary(papel) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 10.00 20.00 21.59 31.50 55.00 O bien > quantile(papel, 0.25)
25% 10 > quantile(papel, 0.50) 50% 20 > quantile(papel, 0.75) 75% 31.5 La instruccin fivenum calcula los valores anteriores >fivenum(papel) [1] 1.0 10.0 20.0 31.5 55.0 Para encontrar los valores que separan en grupos de 1 en 1% o de 10 en 10: Es decir percentl 1 al prcentil 100 o dcil 1 al dcil 10 el decil 1 se obtiene > quantile(papel, 0.1) 10% 3.4 quantile(x,.1)
Existen distintas ambigedades para calcular los cuantiles y existe polmica por los distintos puntos de vista.
Nota:
Fuente http://mathworld.wolfram.com/Quartile.html Probability and Statistics > Descriptive Statistics MathWorld Contributors > Stikker
Existen diversas propuestas para hacer el clculo. Los mtodos ms comunes son para un valor comm., Jan. 24, 2005). In the table, denota el entero ms prximo.
metodo
1er cuartil 1er cuartil 3er cuartil 3er cuartil impar par impar par
Minitab Tukey (Hoaglin et al. 1983) Moore and McCabe (2002) Mendenhall and Sincich (1995) Freund and Perles (1987)
> sort(papel) [1] 1.0 2.0 2.2 3.0 4.0 6.0 8.0 8.0 10.0 10.0 12.2 13.4 15.5 17.0 17.2 [16] 18.0 20.0 20.0 21.0 22.0 22.2 24.0 28.0 28.9 30.0 31.0 32.0 32.9 35.0 37.0 [31] 38.0 38.2 43.0 50.0 55.0 Otra forma de obtener la moda es usando la instruccin table > table(papel) papel
1 2 1 1 22 22.2 1 1
2.2 1 24 1
3 4 1 1 28 28.9 1 1
6 1 30 1
8 2 31 1
17 17.2 1 1 38 38.2 1 1
18 1 43 1
20 2 50 1
21 1 55 1
(utilizar el
En este caso se observa que los valores que ms se repiten son el 8, el 10 y el 20. Es decir hay tres modas el 8, el 10 y el 20. La Mediana corresponde al valor que divide exactamente al grupo en dos subgrupos, un subgrupo con los valores de menor magnitud y el otro con los valores de mayor magnitud. Para obtener la mediana primero se ordenan los datos de menor a mayor magnitud, se asigna un rango a cada valor, de acuerdo al orden asignado. En este ejemplo el rango mximo es 35 (rango mximo), pues hay 35 valores. La segunda etapa consiste en encontrar la posicin donde se encuentra la mediana, mediante (n+1)/2. Si el nmero de valores es par resulta una posicin entre dos valores. La mediana es el promedio de esos dos valores. En nuestro caso 35 + 1 = 36 y dividir entre dos, de donde resulta 18. La mediana, es el valor que se encuentra en la posicin 13. Despus de aplicar este procedimiento resulta la Mediana = 20 Para calcular la mediana se usa en R la instruccin: Median() > median(papel) [1] 20 Para calcular el promedio se usa la formula:
x=
x
i =1
Es decir hay que obtener la suma de los valores y dividir entre el numero total de valores (llamado efectivo) > sum(papel) [1] 755.7 > length(papel) [1] 35 > promedio<-sum(papel)/length(papel) > promedio [1] 21.59143 Tambin se puede usar la instruccin Mean()
> mean(papel) [1] 21.59143 medidas de dispersin o de variabilidad usadas con mayor frecuencia son: Rango, Intervalo intercuartl, desviacin estndar o tpica, varianza poblacional, varianza muestral y desviacin estndar muestral. El rango se obtiene es la diferencia max(x) min(x) > max(papel)-min(papel) [1] 54 El intervalo Intercuartl es la diferencia del cuartel 3 menos el cuartel 1 > IQ<-quantile(papel, 0.75)- quantile(papel, 0.25) > IQ 75% 21.5 O bien > summary(papel) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 10.00 20.00 21.59 31.50 55.00 Es decir 31.5 - 10 Tambin existe una funcin en R > IQR(papel) [1] 21.5 Para calcular la varianza y la desviacin estndar poblacionales se usan las formulas
2 =
( x x)
i =1 i
( x x)
i =1 i
=
2
(x
k i =1
2 i
ni
x2
2
n x 1 n 2 i 2 i =1 = xi n i =1 n
obtener las diferencias entre cada valor y el promedio, a, , para la desviacin estndar obtener la raz de la varianza. Veamos como: > dif<-(papel-mean(papel)) > dif [1] 16.4085714 13.4085714 -19.5914286 -1.5914286 -11.5914286 -20.5914286 [7] 0.4085714 -8.1914286 11.3085714 15.4085714 33.4085714 8.4085714
[13] -15.5914286 -1.5914286 10.4085714 -18.5914286 -11.5914286 -4.3914286 [19] 9.4085714 -0.5914286 -9.3914286 0.6085714 6.4085714 -6.0914286 [25] 16.6085714 -19.3914286 -4.5914286 2.4085714 21.4085714 -3.5914286 [31] -13.5914286 -17.5914286 28.4085714 -13.5914286 7.3085714 Se elevan los datos al cuadrado > difal2<-dif*dif > difal2 [1] 269.2412163 179.7897878 383.8240735 2.5326449 134.3612163 [6] 424.0069306 0.1669306 67.0995020 127.8837878 237.4240735 [11] 1116.1326449 70.7040735 243.0926449 2.5326449 108.3383592 [16] 345.6412163 134.3612163 19.2846449 88.5212163 0.3497878 [21] 88.1989306 0.3703592 41.0697878 37.1055020 275.8446449 [26] 376.0275020 21.0812163 5.8012163 458.3269306 12.8983592 [31] 184.7269306 309.4583592 807.0469306 184.7269306 53.4152163 se obtiene la sum > sumadifal2<-sum(difal2) se divide entre el nmero de valores > vardepapel<-sumadifal2/length(papel) > vardepapel [1] 194.6111 Observe que tambin pudo haber usado la funcin de R var > var(papel) [1] 200.3349 Pero observar que no da el mismo resultado que el que se obtuvo con la frmula, pues R calcula la varianza muestral, es decir
2 =
( x
i =1
x)
n 1
Por loque es necesario multiplicar por n-1 y dividir entre n para obtener la varianza poblacional. > ((n-1)/n)*var(papel) [1] 194.6111 > Lo mismo sucede para la desviacin estndar muestral que se calcula con
( x
i =1
x)
n 1
En R resulta > sd(papel) [1] 14.15397 La desviacin estndar poblacional se obtiene > desvstd<-sqrt(vardepapel)
> desvstd [1] 13.95031 > sqrt(((n-1)/n)*var(papel)) [1] 13.95031 Tambin existen instrucciones en R para obtener las medidas anteriores: Desviacin poblacional estndar o tpica Para calcular la varianza poblacional
n
sqrt((n-1/n))*sd()
2 =
( x
i =1
x)
El comando en R para calcular la desviacin estndar o tpica muestral es sd() En el caso de la varianza muestral var()
No basta con hacer los clculos sino que es necesario interpretar los resultados anteriores. A continuacin se presenta una lista de instrucciones en R.
Valor frecuencia
1 1
2 1
2.2 1
50 1
55 1
Una la tabla de frecuencias en clases tiene la siguiente informacin Clase Limite inferior Limite superior Centro o marca de clase c1 c2 c3 c i-1 ci c i +1 cn Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta Frecuencia Absoluta
1 2 3 i-1 i i+1 n
n1 n2 n3 n i-1 ni n i +1 nn
f1 f2 f3 f i-1 fi f i +1 fn
Procedimineto para calcular el nmero de clases. El nmero de clases es arbitrario, sin embargo existen ciertas reglas:
Numero de clases entre 5 y 9, ya que es difcil visualizar, identificar y memorizar ms de 9 unidades de informacin. Numero de clases impar ya que se puede visualizar la tendencia de los datos Observar que los datos originales no tienen decimales y los lmites de los intervalos de cada clase tienen un decimal (es decir uno ms que los datos originales). Por otra parte observe que el nmero de decimales de la marca de clase coincide con el nmero de decimales de los datos.
Observar que el nivel de detalle se reduce al disminuir el nmero de clases. Observar que una tabla de frecuencias por clase es diferente de la tabla de frecuencias por valor. No siempre es necesario hacer las dos tablas. Esto depende de sus datos. Esta tabla se puede obtener en R despus de visualizar el histograma. Ver seccin Visualizacin de una serie de datos. La notacin en la siguiente tabla es:
n
i =1
=n
fi =
ni
Observar que
f
i =1
=1
nia frecuencia absoluta acumulada hasta la clase i (suma de las frecuencias desde la clase
inicial hasta la clase i). Observar que en la ltima clase la frecuencia absoluta acumulada es n.
f i a frecuencia relativa acumulada hasta la clase i (suma de las frecuencias relativas desde la
clase inicial hasta la clase i). observar que en la ultima clase la frecuencia relativa acumulada es 1. En ocasiones no se dispone de toda la serie de datos en una lista y solo se cuenta con una tabla de frecuencias (distribucin de frecuencias). Por ejemplo si se indica parte de la tabla de frecuencias, es necesario obtener las dems frecuencias: Por ejemplo si se tiene : Clase Limite inferior Limite superior Centro o marca de clase Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta Frecuencia Absoluta
1 2 3 4 5 6
li 0 10 20 30 40 50
ls 10 20 30 40 50 60
freq 10 8 7 7 2 1
Primero se ingresan en R las columnas conocidas en forma de vectores. Para esto se puede copiar cada columna con la instruccin read.delim("clipboard") > linf<-read.delim("clipboard") > linf li 1 0 2 10 3 20 4 30 5 40 6 50 > attach(linf) > lsup<-read.delim("clipboard") > lsup ls 1 10 2 20 3 30 4 40 5 50 6 60 > attach(lsup) > freq<-read.delim("clipboard") > attach(freq) > freq
ni 1 10 2 8 3 7 4 7 5 2 6 1 Verificamos que son los valores > li [1] 0 10 20 30 40 50 > ls [1] 10 20 30 40 50 60 > ni [1] 10 8 7 7 2 1 Se obtienen los centros de cada clase > ci<-(li+ls)/2 > ci [1] 5 15 25 35 45 55 El efectivo es > nt<-sum(ni) > nt [1] 35 Las frecuencias relativas resultan ser: > fi<-ni/nt > fi [1] 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 > sum(fi) [1] 1 Las frecuencias acumuladas absolutas y relativas se obtienen > nai<-cumsum(ni) > nai [1] 10 18 25 32 34 35 > fai<-cumsum(fi) > fai [1] 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000 De lo anterior se obtiene la siguiente tabla de frecuencias.
Clase Limite inferior Limite superior Centro o marca de clase Ci 5 15 25 35 45 Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta acumulada nai 10 18 25 32 34 Frecuencia Relativa acumulada fai 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286
1 2 3 4 5
Li 0 10 20 30 40
ls 10 20 30 40 50
ni 10 8 7 7 2
50
60
55
0.02857143
35
1.0000000
>par(mfrow=c(2, 2)) # para visualizar cuatro zonas en la ventana grfica > boxplot(papel notch = TRUE, col = "pink") > boxplot(papel, notch = TRUE, col = "pink", horizontal = TRUE) > boxplot(papel, notch = TRUE, col = "pink", horizontal = TRUE, main = "produccin de papel")
10
20
30
40
50
Histogram of papel
10 Frequency 0 0 2 4 6 8
10
20
30 papel
40
50
60
Usted puede cambiar los atributos del histograma (colores, ttulos, etc). Muchos parmetros se pueden modificar hist(x, breaks = "Sturges", freq = NULL, probability = !freq, include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, col = NULL, border = NULL, main = paste("Histogram of" , xname), xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, nclass = NULL, ...) breaks representa los limites de clases con main puede cambiar el titulo de la grfica con xlab el ttulo del eje x con ylab el titulo del eje y nclass puede indicar cuantas clases, aunque puede ser contraproducente si usa breaks Observar que a partir del histograma anterior se puede obtener la siguiente tabla de frecuencia: Lim inf 0 10 20 30 40 50 Lim sup 10 20 30 40 50 60 frecuencia 10 8 7 7 2 1 frecuencia Acumulada 1 4 5 9 16 30 frecuencia relativa 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 frecuencia relativa acum. 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000
Para obtener la tabla anterior primero se deben recuperar los atributos de la funcin histograma. Para esto se deben asignar a una variable y como sigue > y<-hist(papel) >y $breaks [1] 0 10 20 30 40 50 60
$counts [1] 10 8 7 7 2 1 $intensities [1] 0.028571423 0.022857143 0.020000000 0.020000000 0.005714286 0.002857143 $density [1] 0.028571423 0.022857143 0.020000000 0.020000000 0.005714286 0.002857143 $mids [1] 5 15 25 35 45 55 $xname [1] "papel" $equidist [1] TRUE attr(,"class") [1] "histogram" > Trate de identificar estos atributos en la figura histograma El atributo break se puede usar para hacer tablas de frecuencia en R y se pueden recuperar y usar > y$breaks [1] 0 10 20 30 40 50 60 Con cut vamos a hacer tablas de frecuencia como sigue > cats = cut(papel,breaks=y$breaks) > cats [1] (30,40] (30,40] (0,10] (10,20] (0,10] (0,10] (20,30] (10,20] (30,40] [10] (30,40] (50,60] (20,30] (0,10] (10,20] (30,40] (0,10] (0,10] (10,20] [19] (30,40] (20,30] (10,20] (20,30] (20,30] (10,20] (30,40] (0,10] (10,20] [28] (20,30] (40,50] (10,20] (0,10] (0,10] (40,50] (0,10] (20,30] Levels: (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] No sirve que presente esto sin decir nada. Trate de entender y explicar lo que la funcin cut hace. > table(cats) cats (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 10 8 7 7 2 1 Y lo anterior que significa ? frecuencia relativa > table(cats)/length(papel) cats (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 La frecuencia acumulada resulta > cumsum(table(cats))
(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 10 18 25 32 34 35 frecuencia relativa acumulada > cumsum(table(cats))/length(papel) (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000 Con lo anterior puede construir la siguiente tabla Ms sobre histogramas: tambin puede presentar los resultados en forma ms agradable hist(papel, col = "green", border = 1, main = "distribucin de pesos de papel", xlab = "prod de papel" , ylab = "frecuencia")
10
20
30
40
50
60
prod de papel
> hist(papel, breaks=c(0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60), col = "blue", border = 1, main = "distribucin de pesos papel", xlab = "pesos" , ylab = "frecuencia")
10
20
30 pesos
40
50
60
Si desea hacer el polgono de frecuencias > y<-hist(papel, breaks=c(0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60), col = "pink", border = 1, main = "distribucin de pesos papel", xlab = "pesos" , ylab = "frecuencia") > lines(c(min(y$breaks),y$mids,max(y$breaks)),c(0,y$counts,0),type="l")
10
20
30 pesos
40
50
60
Tambin se puede hacer el histograma con frecuencia relativa > hist(papel, freq= FALSE, col = "pink") > lines(density(papel))
distribucin acumulada
1.0 Fn(x) 0.0 0.2 0.4 0.6 0.8
10
20
30 x
40
50
60
> y<-plot.ecdf(papel,main="distribucin acumulada",col.01line= "blue", verticals = TRUE,ylab = "frecuencia relativa acumulada", pch=20)
distribucin acumulada
1.0 frecuencia relativa acumulada 0.0 0.2 0.4 0.6 0.8
10
20
30 x
40
50
60
>
Tambin > papel [1] 38.0 35.0 2.0 20.0 10.0 1.0 22.0 13.4 32.9 [10] 37.0 55.0 30.0 6.0 20.0 32.0 3.0 10.0 17.2 [19] 31.0 21.0 12.2 22.2 28.0 15.5 38.2 2.2 17.0 [28] 24.0 43.0 18.0 8.0 4.0 50.0 8.0 28.9 > Fnp<-ecdf(papel) > plot(Fnp, lwd = 0.01) > xx <- unique(sort(c(seq(-3, 2, length=201), knots(Fnp)))) > lines(xx, Fnp(xx), col='blue') >abline(v=knots(Fnp),lty=2,col="red")
10
20
30
40
50
Si desea ver usar op <- par(mfrow=c(2, 2)) para visualizar cuatro grficas Por ejemplo podemos ver el histograma, acumulado, el boxplot y el dot Plot
20
40
20 x
40
60
1 2 3 4 5 6
li 0 10 20 30 40 50
ls 10 20 30 40 50 60
freq 10 8 7 7 2 1
lines(c(min(ls),ls,max(ls)),c(0,nai,0),type="l") Podemos ingresar en R las columnas en forma de vectores Las frecuencias absolutas y relativas > ni [1] 10 8 7 7 2 1 > fi [1] 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 Las marcas de clase
> ci [1] 5 15 25 35 45 55 Las frecuencias acumuladas absolutas y relativas > nai [1] 10 18 25 32 34 35 > fai [1] 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000 De aqu se pueden visualizar las tablas de frecuencia como sigue > par(mfrow=c(2,2)) > plot(ci,ni) > plot(ci,fi) > plot(ci,nai) > plot(ci,fai)
barplot(ni, names.arg= ci, col = "pink", main = "distribucin absoluta", xlab = "ci", ylab = "ni")
barplot(fi, names.arg= ci, col = "cyan", main = "distribucin relativa", xlab = "ci", ylab = "fi")
> barplot(nai, names.arg= ls, col = "blue", main = "distribucin absoluta acumulada", xlab = "ls", ylab = "nia")
> barplot(fai, names.arg= ls, col = "blue", main = " distribucin absoluta acumulada ", xlab = "ls", ylab = "fia") >
> plot(sfun0) > sfun0 <- stepfun(ls, fi, f = 0) > plot(sfun0) > sfun0 <- stepfun(ls, nai, f = 0) > plot(sfun0, col.ver = "blue") > sfun0 <- stepfun(ls, fai, f = 0) > plot(sfun0, col.ver = "red")
Observar que no se obtiene la misma calidad que con los datos completos El polgono de frecuencias acumlado se puede obtener mediante: > plot(ls, nai) > lines(c(min(ls),ls,max(ls)),c(0,nai,0),type="l")
5.- Clculos a partir de tablas de frecuencias 5.1. A partir de tablas de frecuencias por clases
Aunque con menos precisin que con todos los datos, es posible calcular las medidas de posicin, medidas de tendencia central y medidas de variabilidad. Por ejemplo a partir de la tabla
Clase Limite inferior Limite superior Centro o marca de clase Ci 5 15 25 35 45 55 Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta acumulada nai 10 18 25 32 34 35 Frecuencia Relativa acumulada fai 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000
1 2 3 4 5 6
li 0 10 20 30 40 50
ls 10 20 30 40 50 60
freq 10 8 7 7 2 1
Por ejemplo un valor cercano al mnimo puede ser el limite inferior de la primera clase, el valor mximo puede ser el limite superior de la ltima clase. En el caso de la moda, nos podemos conformar con identificar la clase donde se encuentra el mayor nmero de datos. Min = 0 Max= 60 Rango = 60 Amplitud de clase = 10 Clase Modal = 1 En el caso de la moda se habla de clase modal No dude en buscar las formulas para calcular el promedio y la varianza con la informacin presentada en esta tabla. Por ejemplo el promedio se obtiene mediante:
k
x=
n
i =1
* ci
= f i * ci
i =1
> prom1<-sum(ni*ci)/nt > prom1 [1] 21 > prom2<-sum(fi*ci) > prom2 [1] 21 Observar que este resultado difiere del que se obtiene cuando se tienen todos los datos. Porqu? La varianza poblacional se obtiene mediante
=
2
ni * (c i x ) 2
i =1
(m
k i =1
2 i
ni
x2
En R mediante
> varp1<-(sum(ni*(ci-prom1)^2))/nt > varp1 [1] 189.7143 > varp2<-(sum(fi*(ci-prom1)^2)) > varp2 [1] 189.7143 Observar que el valor es diferente del que se obtiene con los datos completos. La varianza muestral se obtiene: > varm1<-((nt-1)/nt)*varp1 > varm1 [1] 184.2939 Pregunta Cules son las formulas de la varianza muestral y de la desviacin estndar muestral? La desviacin estndar poblacional a partir de datos agrupados en clase se puede calcular con la frmula:
ni * (c i x ) 2
i =1
(m
k i =1
2 i
ni
x2
Pregunta Calcular en R desviacin estndar poblacional? Para el clculo de la mediana y los cuarteles a partir de tablas de frecuencia se requiere interpolar. Por ejemplo para calcular la mediana. Esta se debe encontrar entre los valores que limitan la clase uno y la clase 2
1 2 li 0 10 Ls 10 20 Ci 5 15 freq 10 8 fi 0.28571429 0.22857143 nai 10 18 fai 0.2857143 0.5142857
El 28.57 % de los valores se encuentran de 0 hasta el valor 10 El 51.42 % de los valores se encuentran de 0 hasta el valor 20 De aqu podemos hacer una interpolacin lineal
1 2 Ls X1= 10 X X2 =20 fai Y1= 0.2857143 Y= 0.5 Y2= 0.5142857
y y1 =
y 2 y1 * ( x x1 ) x 2 x1
Despejando x se obtiene un valor aproximado a la mediana. Por supuesto que, en muchas publicaciones se presentan formulas para obtener la mediana y los cuarteles. No dude en obtener y comparar los resultados con tales formulas.
x=
x n
i =1 i
n
k
2 =
o
n (x
i =1 i
x)
=
2
(x
k i =1
2 i
ni
x2
Tambin es posible visualizar los datos en forma grfica > barplot(kni, kpapel) > barplot(kni, names.arg = kpapel) > barplot(kni, names.arg = kpapel, col = "green") >
Para hacer el dotplot copiar en R la siguiente funcin Funcin dotplot # R function to graph a dotplot # This is inefficient code, but is fine for small examples # # Written by Bret Larget, September 3, 2003 #
dotplot = function(x,tol=1e-08) { y = rep(1,length(x)) sx = sort(x) dx = diff(sx) maxHt = 1 ht = 1 for(i in 2:length(sx)) { if(abs(dx[i-1])<tol) ht = ht+0.1 else ht = 1 if(ht > maxHt) maxHt = ht } plot(x,y,type="n",axes=F,xlab="",ylab="",ylim=c(1,maxHt+1)) axis(1,pretty(x)) points(sx[1],1,pch=16) ht = 1 for(i in 2:length(sx)) { if(abs(dx[i-1])<tol) ht = ht+0.1 else ht = 1 points(sx[i],ht,pch=16) } invisible(NULL) } #Hasta aqu. Todo lo anterior es una gua y no se debe de copiar y pegar para entregar la prctica,se deben explicar las operaciones y grficas.
b.- Obtener una serie de datos de algn proceso o sistema ambiental. Objetivos : Presentar el origen de los datos y los objetivos del estudio estadstico de estos. Hacer un diagrama de Diagrama de flujo o un mapa conceptual . Escribir una funcin para calcular todas las medidas de tendencia central. Comentar la funcin y entregar resultados comentados Escribir una funcin para calcular todas las medidas de variabilidad. Comentar la funcin y entregar resultados comentados
Escribir una funcin para construir, a partir de una serie de datos, una tabla de clases con todas las frecuencias (simple, acumulada, relativa y relativa acumulada). Comentar la funcin y entregar resultados comentados Escribir una funcin para visualizar los datos (histograma, polgono de frecuencias, histograma acumulado, box plot, stem and leaf) Interpretar sus datos de acuerdo al sistema o proceso elegido. Comentar los resultados estadsticos y conclusiones No dude en presentar diagramas y escribir todas las formulas matemticas necesarias usando el editor de ecuaciones propuesto por Word (para el promedio, varianza, mediana, moda, cuarteles, con datos no agrupados y agrupados
El siguiente es un ejemplo de mapa de conceptos en Estadstica. Recuerde solo es un ejemplo. Usted puede hacer algo mejor.