Apo Yo Estacon R

Apoyo para Estadstica con R.
Variable cuantitativa continua

, Dpto. de Sistemas, Divisin de CBI, Universidad Autnoma Metropolitana
1. Objetivos 2. Obtener una visin de los mtodos de colecta de datos 3.- Estudiar una serie de datos mediante las Medidas de Tendencia Central y de Variabilidad 3.- Sintetizar los datos mediante la obtencin de tablas de frecuencias 4.- Visualizar distribuciones de frecuencia a partir de una serie de datos o a partir de tablas de frecuencia. 5. Para entregar
1. Objetivos
Obtener los principales resultados estadsticos de una serie de datos mediante el programa R, medidas de tendencia central, medidas de variabilidad Tablas de frecuencia y frecuencia acumulada Tablas de frecuencia relativa y frecuencia relativa acumulada Visualizacin de distribuciones de frecuencia en forma de un histograma, boxplot, dot plot.
2. Colecta de datos
Imaginar como se obtuvieron los datos de la tabla anterior
3.- Obtener las medidas de posicin, de tendencia central y de variabilidad para la variable papel.
Introduccin de datos en R.
Antes que nada debe crear un archivo. Dependiendo de los objetivos del estudio, usted puede hacer un archivo para cada variable (una columna) o hacer un archivo con varias variables (ms de una columna). Recuerde que existen varios formatos de almacenamiento de un archivo y que dependiendo del formato se eligen las ordenes para leer el archivo en R. Consultar seccin Leer datos en R
Cuando no hay muchos datos una forma sencilla es introducir los datos mediante la funcin conatenar. Debido a que R no es todava muy eficiente en almacenar archivos, recuerde guardar sus datos en un formato conocido (Word, bloc de notas, open office, etc) papel <- c(38,35,2,20,10,1,22,13.4,32.9,37,55,30,6,20,32,3,10,17.2,31,21,12.2,22.2,28, 15.5,38.2,2.2,17,24,43,18,8,4,50,8,28.9) data.entry(papel)
Datos no agrupados o no tabulados.
Los datos que se encuentran en la variable papel estn sin agrupar. A partir de esa serie, existen en R comandos que permiten obtener las medidas de posicin y de tendencia central Las medidas de posicin ms comunes son: el mnimo, el mximo, los cuartiles, los percentles, los deciles. Para encontrar los valores que se encuentran en la posicin mnima y mxima, se ordenan los datos del menor al mayor. En R se puede usar la instruccin sort(x) > sort(papel) [1] 1.0 2.0 2.2 3.0 4.0 6.0 8.0 8.0 10.0 10.0 12.2 13.4 15.5 17.0 17.2 [16] 18.0 20.0 20.0 21.0 22.0 22.2 24.0 28.0 28.9 30.0 31.0 32.0 32.9 35.0 37.0 [31] 38.0 38.2 43.0 50.0 55.0 Tambin es posible usar los comandos: Min(x) y Max(x) > min(papel) [1] 1 > max(papel) [1] 55 Los cuartiles son los valores que separan la serie en grupos de 25% . Hay tres cuarteles. El cuartil uno Q1 se obtiene a partir de la mitad de valores con menor magnitud (ver calculo de la mediana). El procedimiento es muy parecido al aplicado para encontrar la mediana. En este caso hay 18 valores en el primer subgrupo; sumar el rango mximo del subgrupo 18+1 y dividir entre dos; el resultado, en este caso 9.5, indica la posicin en donde se encuentra el cuartil 1. Entre esta posicin estn 10 y 10. El promedio es 10. El cuartil tres Q3 se encuentra a partir del subgrupo de valores con mayor magnitud. En este caso se reasigna el rango de uno al primer elemento del segundo grupo. El valor que ocupa el rango = (rango mximo + 1)/2 es la posicin de cuartil buscado; en este caso hay dos valores el 31 y 32. El cuartel es 31.5 El cuartl dos es igual a la mediana. Es decir el valor que separa a la serie de datos en dos grupos uno de valores de menor magnitud y el otro de valores con mayor magnitud. Los cuartles pueden obtenerse con ayuda de summary(x) o bien con la diferencia de los dos cuarteles Cuartl 1 Summary() quantile(x,.25) Cuartl 2 Summary() o quantile(x,.50) Cuartl 3 Summary() quantile(x,.75) > summary(papel) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 10.00 20.00 21.59 31.50 55.00 O bien > quantile(papel, 0.25)
25% 10 > quantile(papel, 0.50) 50% 20 > quantile(papel, 0.75) 75% 31.5 La instruccin fivenum calcula los valores anteriores >fivenum(papel) [1] 1.0 10.0 20.0 31.5 55.0 Para encontrar los valores que separan en grupos de 1 en 1% o de 10 en 10: Es decir percentl 1 al prcentil 100 o dcil 1 al dcil 10 el decil 1 se obtiene > quantile(papel, 0.1) 10% 3.4 quantile(x,.1)
Existen distintas ambigedades para calcular los cuantiles y existe polmica por los distintos puntos de vista.
Nota:
Fuente http://mathworld.wolfram.com/Quartile.html Probability and Statistics > Descriptive Statistics MathWorld Contributors > Stikker
Existen diversas propuestas para hacer el clculo. Los mtodos ms comunes son para un valor comm., Jan. 24, 2005). In the table, denota el entero ms prximo.
(P. Stikker, pers.
metodo
1er cuartil 1er cuartil 3er cuartil 3er cuartil impar par impar par
Minitab Tukey (Hoaglin et al. 1983) Moore and McCabe (2002) Mendenhall and Sincich (1995) Freund and Perles (1987)
Las medidas de tendencia ms comunes son: La Moda, la Mediana y el Promedio.
La moda corresponde al valor mas frecuente.

No existe instruccin para obtener directamente la moda, pero puede ordenar los datos y contar que valor se observa con mayor frecuencia: ordenar datos sort(x)
> sort(papel) [1] 1.0 2.0 2.2 3.0 4.0 6.0 8.0 8.0 10.0 10.0 12.2 13.4 15.5 17.0 17.2 [16] 18.0 20.0 20.0 21.0 22.0 22.2 24.0 28.0 28.9 30.0 31.0 32.0 32.9 35.0 37.0 [31] 38.0 38.2 43.0 50.0 55.0 Otra forma de obtener la moda es usando la instruccin table > table(papel) papel
1 2 1 1 22 22.2 1 1
2.2 1 24 1
3 4 1 1 28 28.9 1 1
6 1 30 1
8 2 31 1
10 12.2 13.4 15.5 2 1 1 1 32 32.9 35 37 1 1 1 1
17 17.2 1 1 38 38.2 1 1
18 1 43 1
20 2 50 1
21 1 55 1
(utilizar el
formato courrier New para ver mejor la tabla).
En este caso se observa que los valores que ms se repiten son el 8, el 10 y el 20. Es decir hay tres modas el 8, el 10 y el 20. La Mediana corresponde al valor que divide exactamente al grupo en dos subgrupos, un subgrupo con los valores de menor magnitud y el otro con los valores de mayor magnitud. Para obtener la mediana primero se ordenan los datos de menor a mayor magnitud, se asigna un rango a cada valor, de acuerdo al orden asignado. En este ejemplo el rango mximo es 35 (rango mximo), pues hay 35 valores. La segunda etapa consiste en encontrar la posicin donde se encuentra la mediana, mediante (n+1)/2. Si el nmero de valores es par resulta una posicin entre dos valores. La mediana es el promedio de esos dos valores. En nuestro caso 35 + 1 = 36 y dividir entre dos, de donde resulta 18. La mediana, es el valor que se encuentra en la posicin 13. Despus de aplicar este procedimiento resulta la Mediana = 20 Para calcular la mediana se usa en R la instruccin: Median() > median(papel) [1] 20 Para calcular el promedio se usa la formula:
x=
x
i =1
Es decir hay que obtener la suma de los valores y dividir entre el numero total de valores (llamado efectivo) > sum(papel) [1] 755.7 > length(papel) [1] 35 > promedio<-sum(papel)/length(papel) > promedio [1] 21.59143 Tambin se puede usar la instruccin Mean()
> mean(papel) [1] 21.59143 medidas de dispersin o de variabilidad usadas con mayor frecuencia son: Rango, Intervalo intercuartl, desviacin estndar o tpica, varianza poblacional, varianza muestral y desviacin estndar muestral. El rango se obtiene es la diferencia max(x) min(x) > max(papel)-min(papel) [1] 54 El intervalo Intercuartl es la diferencia del cuartel 3 menos el cuartel 1 > IQ<-quantile(papel, 0.75)- quantile(papel, 0.25) > IQ 75% 21.5 O bien > summary(papel) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.00 10.00 20.00 21.59 31.50 55.00 Es decir 31.5 - 10 Tambin existe una funcin en R > IQR(papel) [1] 21.5 Para calcular la varianza y la desviacin estndar poblacionales se usan las formulas
2 =
( x x)
i =1 i
( x x)
i =1 i
=
2
(x
k i =1
2 i
ni
x2
2
n x 1 n 2 i 2 i =1 = xi n i =1 n
obtener las diferencias entre cada valor y el promedio, a, , para la desviacin estndar obtener la raz de la varianza. Veamos como: > dif<-(papel-mean(papel)) > dif [1] 16.4085714 13.4085714 -19.5914286 -1.5914286 -11.5914286 -20.5914286 [7] 0.4085714 -8.1914286 11.3085714 15.4085714 33.4085714 8.4085714
[13] -15.5914286 -1.5914286 10.4085714 -18.5914286 -11.5914286 -4.3914286 [19] 9.4085714 -0.5914286 -9.3914286 0.6085714 6.4085714 -6.0914286 [25] 16.6085714 -19.3914286 -4.5914286 2.4085714 21.4085714 -3.5914286 [31] -13.5914286 -17.5914286 28.4085714 -13.5914286 7.3085714 Se elevan los datos al cuadrado > difal2<-dif*dif > difal2 [1] 269.2412163 179.7897878 383.8240735 2.5326449 134.3612163 [6] 424.0069306 0.1669306 67.0995020 127.8837878 237.4240735 [11] 1116.1326449 70.7040735 243.0926449 2.5326449 108.3383592 [16] 345.6412163 134.3612163 19.2846449 88.5212163 0.3497878 [21] 88.1989306 0.3703592 41.0697878 37.1055020 275.8446449 [26] 376.0275020 21.0812163 5.8012163 458.3269306 12.8983592 [31] 184.7269306 309.4583592 807.0469306 184.7269306 53.4152163 se obtiene la sum > sumadifal2<-sum(difal2) se divide entre el nmero de valores > vardepapel<-sumadifal2/length(papel) > vardepapel [1] 194.6111 Observe que tambin pudo haber usado la funcin de R var > var(papel) [1] 200.3349 Pero observar que no da el mismo resultado que el que se obtuvo con la frmula, pues R calcula la varianza muestral, es decir
2 =
( x
i =1
x)
n 1
Por loque es necesario multiplicar por n-1 y dividir entre n para obtener la varianza poblacional. > ((n-1)/n)*var(papel) [1] 194.6111 > Lo mismo sucede para la desviacin estndar muestral que se calcula con
( x
i =1
x)
n 1
En R resulta > sd(papel) [1] 14.15397 La desviacin estndar poblacional se obtiene > desvstd<-sqrt(vardepapel)
> desvstd [1] 13.95031 > sqrt(((n-1)/n)*var(papel)) [1] 13.95031 Tambin existen instrucciones en R para obtener las medidas anteriores: Desviacin poblacional estndar o tpica Para calcular la varianza poblacional
n
sqrt((n-1/n))*sd()
2 =
( x
i =1
x)
o en R se puede obtener con (n-1/n)*var()
El comando en R para calcular la desviacin estndar o tpica muestral es sd() En el caso de la varianza muestral var()
No basta con hacer los clculos sino que es necesario interpretar los resultados anteriores. A continuacin se presenta una lista de instrucciones en R.
4.- Tablas de frecuencia

La instruccin table(x) permite obtener una tabla de frecuencias por valor: > table(papel) papel 1 2 2.2 3 4 6 8 10 12.2 13.4 15.5 17 17.2 18 20 21 1 1 1 1 1 1 2 2 1 1 1 1 1 1 2 1 22 22.2 24 28 28.9 30 31 32 32.9 35 37 38 38.2 43 50 55 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Estos datos se pueden presentar en una tabla de frecuencias por valor de la forma:
Valor frecuencia
1 1
2 1
2.2 1
50 1
55 1
Una la tabla de frecuencias en clases tiene la siguiente informacin Clase Limite inferior Limite superior Centro o marca de clase c1 c2 c3 c i-1 ci c i +1 cn Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta Frecuencia Absoluta
1 2 3 i-1 i i+1 n
linf1 linf2 linf3 linf i - 1 linf i linf i +1 linfn
lsup1 lsup2 lsup3 lsup i - 1 lsup i lsup i +1 lsupn
n1 n2 n3 n i-1 ni n i +1 nn
f1 f2 f3 f i-1 fi f i +1 fn
na,1 na,2 na,3 n a ,i - 1 n ai n a,i +1 na,n
fa,1 fa,2 fa,3 fa,i - 1 f ai fa,i +1 fa,n
Procedimineto para calcular el nmero de clases. El nmero de clases es arbitrario, sin embargo existen ciertas reglas:
Numero de clases entre 5 y 9, ya que es difcil visualizar, identificar y memorizar ms de 9 unidades de informacin. Numero de clases impar ya que se puede visualizar la tendencia de los datos Observar que los datos originales no tienen decimales y los lmites de los intervalos de cada clase tienen un decimal (es decir uno ms que los datos originales). Por otra parte observe que el nmero de decimales de la marca de clase coincide con el nmero de decimales de los datos.
Observar que el nivel de detalle se reduce al disminuir el nmero de clases. Observar que una tabla de frecuencias por clase es diferente de la tabla de frecuencias por valor. No siempre es necesario hacer las dos tablas. Esto depende de sus datos. Esta tabla se puede obtener en R despus de visualizar el histograma. Ver seccin Visualizacin de una serie de datos. La notacin en la siguiente tabla es:
ni frecuencia absoluta para cada clase (nmero de valores en la clase i).

Observar que
n
i =1
=n
fi =
ni
frecuencia relativa (fraccin de valores en la clase i respecto al total n)
Observar que
f
i =1
=1
Para identificar las frecuencias acumuladas se indica una a en superindice:
nia frecuencia absoluta acumulada hasta la clase i (suma de las frecuencias desde la clase
inicial hasta la clase i). Observar que en la ltima clase la frecuencia absoluta acumulada es n.
f i a frecuencia relativa acumulada hasta la clase i (suma de las frecuencias relativas desde la
clase inicial hasta la clase i). observar que en la ultima clase la frecuencia relativa acumulada es 1. En ocasiones no se dispone de toda la serie de datos en una lista y solo se cuenta con una tabla de frecuencias (distribucin de frecuencias). Por ejemplo si se indica parte de la tabla de frecuencias, es necesario obtener las dems frecuencias: Por ejemplo si se tiene : Clase Limite inferior Limite superior Centro o marca de clase Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta Frecuencia Absoluta
1 2 3 4 5 6
li 0 10 20 30 40 50
ls 10 20 30 40 50 60
freq 10 8 7 7 2 1
Primero se ingresan en R las columnas conocidas en forma de vectores. Para esto se puede copiar cada columna con la instruccin read.delim("clipboard") > linf<-read.delim("clipboard") > linf li 1 0 2 10 3 20 4 30 5 40 6 50 > attach(linf) > lsup<-read.delim("clipboard") > lsup ls 1 10 2 20 3 30 4 40 5 50 6 60 > attach(lsup) > freq<-read.delim("clipboard") > attach(freq) > freq
ni 1 10 2 8 3 7 4 7 5 2 6 1 Verificamos que son los valores > li [1] 0 10 20 30 40 50 > ls [1] 10 20 30 40 50 60 > ni [1] 10 8 7 7 2 1 Se obtienen los centros de cada clase > ci<-(li+ls)/2 > ci [1] 5 15 25 35 45 55 El efectivo es > nt<-sum(ni) > nt [1] 35 Las frecuencias relativas resultan ser: > fi<-ni/nt > fi [1] 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 > sum(fi) [1] 1 Las frecuencias acumuladas absolutas y relativas se obtienen > nai<-cumsum(ni) > nai [1] 10 18 25 32 34 35 > fai<-cumsum(fi) > fai [1] 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000 De lo anterior se obtiene la siguiente tabla de frecuencias.
Clase Limite inferior Limite superior Centro o marca de clase Ci 5 15 25 35 45 Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta acumulada nai 10 18 25 32 34 Frecuencia Relativa acumulada fai 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286
1 2 3 4 5
Li 0 10 20 30 40
ls 10 20 30 40 50
ni 10 8 7 7 2
fi 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286
50
60
55
0.02857143
35
1.0000000
5.- Visualizacin de una serie de datos

Grficas Diagrama de tallo y hojas > stem(papel,3) The decimal point is at the | 0|0 2 | 020 4|0 6|0 8 | 00 10 | 00 12 | 24 14 | 5 16 | 02 18 | 0 20 | 000 22 | 02 24 | 0 26 | 28 | 09 30 | 00 32 | 09 34 | 0 36 | 0 38 | 02 40 | 42 | 0 44 | 46 | 48 | 50 | 0 52 | 54 | 0 > boxplot(papel)
>par(mfrow=c(2, 2)) # para visualizar cuatro zonas en la ventana grfica > boxplot(papel notch = TRUE, col = "pink") > boxplot(papel, notch = TRUE, col = "pink", horizontal = TRUE) > boxplot(papel, notch = TRUE, col = "pink", horizontal = TRUE, main = "produccin de papel")
Un histograma se genera con > hist(papel)
10
20
30
40
50
Histogram of papel
10 Frequency 0 0 2 4 6 8
10
20
30 papel
40
50
60
Usted puede cambiar los atributos del histograma (colores, ttulos, etc). Muchos parmetros se pueden modificar hist(x, breaks = "Sturges", freq = NULL, probability = !freq, include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, col = NULL, border = NULL, main = paste("Histogram of" , xname), xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, nclass = NULL, ...) breaks representa los limites de clases con main puede cambiar el titulo de la grfica con xlab el ttulo del eje x con ylab el titulo del eje y nclass puede indicar cuantas clases, aunque puede ser contraproducente si usa breaks Observar que a partir del histograma anterior se puede obtener la siguiente tabla de frecuencia: Lim inf 0 10 20 30 40 50 Lim sup 10 20 30 40 50 60 frecuencia 10 8 7 7 2 1 frecuencia Acumulada 1 4 5 9 16 30 frecuencia relativa 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 frecuencia relativa acum. 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000
Para obtener la tabla anterior primero se deben recuperar los atributos de la funcin histograma. Para esto se deben asignar a una variable y como sigue > y<-hist(papel) >y $breaks [1] 0 10 20 30 40 50 60
$counts [1] 10 8 7 7 2 1 $intensities [1] 0.028571423 0.022857143 0.020000000 0.020000000 0.005714286 0.002857143 $density [1] 0.028571423 0.022857143 0.020000000 0.020000000 0.005714286 0.002857143 $mids [1] 5 15 25 35 45 55 $xname [1] "papel" $equidist [1] TRUE attr(,"class") [1] "histogram" > Trate de identificar estos atributos en la figura histograma El atributo break se puede usar para hacer tablas de frecuencia en R y se pueden recuperar y usar > y$breaks [1] 0 10 20 30 40 50 60 Con cut vamos a hacer tablas de frecuencia como sigue > cats = cut(papel,breaks=y$breaks) > cats [1] (30,40] (30,40] (0,10] (10,20] (0,10] (0,10] (20,30] (10,20] (30,40] [10] (30,40] (50,60] (20,30] (0,10] (10,20] (30,40] (0,10] (0,10] (10,20] [19] (30,40] (20,30] (10,20] (20,30] (20,30] (10,20] (30,40] (0,10] (10,20] [28] (20,30] (40,50] (10,20] (0,10] (0,10] (40,50] (0,10] (20,30] Levels: (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] No sirve que presente esto sin decir nada. Trate de entender y explicar lo que la funcin cut hace. > table(cats) cats (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 10 8 7 7 2 1 Y lo anterior que significa ? frecuencia relativa > table(cats)/length(papel) cats (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 La frecuencia acumulada resulta > cumsum(table(cats))
(0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 10 18 25 32 34 35 frecuencia relativa acumulada > cumsum(table(cats))/length(papel) (0,10] (10,20] (20,30] (30,40] (40,50] (50,60] 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000 Con lo anterior puede construir la siguiente tabla Ms sobre histogramas: tambin puede presentar los resultados en forma ms agradable hist(papel, col = "green", border = 1, main = "distribucin de pesos de papel", xlab = "prod de papel" , ylab = "frecuencia")
distribucin de pesos de papel

10 frecuencia 0 0 2 4 6 8
10
20
30
40
50
60
prod de papel
> hist(papel, breaks=c(0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60), col = "blue", border = 1, main = "distribucin de pesos papel", xlab = "pesos" , ylab = "frecuencia")
distribucin de pesos papel

6 frecuencia 0 0 1 2 3 4 5
10
20
30 pesos
40
50
60
Si desea hacer el polgono de frecuencias > y<-hist(papel, breaks=c(0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60), col = "pink", border = 1, main = "distribucin de pesos papel", xlab = "pesos" , ylab = "frecuencia") > lines(c(min(y$breaks),y$mids,max(y$breaks)),c(0,y$counts,0),type="l")

6 frecuencia 0 0 1 2 3 4 5
10
20
30 pesos
40
50
60
Tambin se puede hacer el histograma con frecuencia relativa > hist(papel, freq= FALSE, col = "pink") > lines(density(papel))
hist(papel, nclass=7) >y<-plot.ecdf(papel,main="distribucin acumulada")
distribucin acumulada
1.0 Fn(x) 0.0 0.2 0.4 0.6 0.8
10
20
30 x
40
50
60
> y<-plot.ecdf(papel,main="distribucin acumulada",col.01line= "blue", verticals = TRUE,ylab = "frecuencia relativa acumulada", pch=20)
distribucin acumulada
1.0 frecuencia relativa acumulada 0.0 0.2 0.4 0.6 0.8
10
20
30 x
40
50
60
>
Tambin > papel [1] 38.0 35.0 2.0 20.0 10.0 1.0 22.0 13.4 32.9 [10] 37.0 55.0 30.0 6.0 20.0 32.0 3.0 10.0 17.2 [19] 31.0 21.0 12.2 22.2 28.0 15.5 38.2 2.2 17.0 [28] 24.0 43.0 18.0 8.0 4.0 50.0 8.0 28.9 > Fnp<-ecdf(papel) > plot(Fnp, lwd = 0.01) > xx <- unique(sort(c(seq(-3, 2, length=201), knots(Fnp)))) > lines(xx, Fnp(xx), col='blue') >abline(v=knots(Fnp),lty=2,col="red")
> op <- par(mfrow=c(1, 1)) > dotplot(papel) Ver apendice
10
20
30
40
50
Si desea ver usar op <- par(mfrow=c(2, 2)) para visualizar cuatro grficas Por ejemplo podemos ver el histograma, acumulado, el boxplot y el dot Plot

frecuencia 6 20 40 0 20 pesos 40 60 frecuencia relativa acumulada
distribucin acum ulada

0.6 0.0 0
20
40
20 x
40
60
7.- Visualizar datos a partir de tablas de frecuencias

En muchas situaciones no se cuenta con la serie de datos completa y solo se tiene una tabla de frecuencias. Por ejemplo si tenemos la tabla de frecuencias siguiente:
Clase Limite inferior Limite superior Centro o marca de clase Ci 5 15 25 35 45 55 Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta acumulada nai 10 18 25 32 34 35 Frecuencia Relativa acumulada fai 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000
1 2 3 4 5 6
li 0 10 20 30 40 50
ls 10 20 30 40 50 60
freq 10 8 7 7 2 1
fi 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143
lines(c(min(ls),ls,max(ls)),c(0,nai,0),type="l") Podemos ingresar en R las columnas en forma de vectores Las frecuencias absolutas y relativas > ni [1] 10 8 7 7 2 1 > fi [1] 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143 Las marcas de clase
> ci [1] 5 15 25 35 45 55 Las frecuencias acumuladas absolutas y relativas > nai [1] 10 18 25 32 34 35 > fai [1] 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000 De aqu se pueden visualizar las tablas de frecuencia como sigue > par(mfrow=c(2,2)) > plot(ci,ni) > plot(ci,fi) > plot(ci,nai) > plot(ci,fai)
barplot(ni, names.arg= ci, col = "pink", main = "distribucin absoluta", xlab = "ci", ylab = "ni")
barplot(fi, names.arg= ci, col = "cyan", main = "distribucin relativa", xlab = "ci", ylab = "fi")
> barplot(nai, names.arg= ls, col = "blue", main = "distribucin absoluta acumulada", xlab = "ls", ylab = "nia")
> barplot(fai, names.arg= ls, col = "blue", main = " distribucin absoluta acumulada ", xlab = "ls", ylab = "fia") >
> sfun0 <- stepfun(ls, ni, f = 0)
> plot(sfun0) > sfun0 <- stepfun(ls, fi, f = 0) > plot(sfun0) > sfun0 <- stepfun(ls, nai, f = 0) > plot(sfun0, col.ver = "blue") > sfun0 <- stepfun(ls, fai, f = 0) > plot(sfun0, col.ver = "red")
Observar que no se obtiene la misma calidad que con los datos completos El polgono de frecuencias acumlado se puede obtener mediante: > plot(ls, nai) > lines(c(min(ls),ls,max(ls)),c(0,nai,0),type="l")
5.- Clculos a partir de tablas de frecuencias 5.1. A partir de tablas de frecuencias por clases
Aunque con menos precisin que con todos los datos, es posible calcular las medidas de posicin, medidas de tendencia central y medidas de variabilidad. Por ejemplo a partir de la tabla
Clase Limite inferior Limite superior Centro o marca de clase Ci 5 15 25 35 45 55 Frecuencia Absoluta Frecuencia relativa Frecuencia Absoluta acumulada nai 10 18 25 32 34 35 Frecuencia Relativa acumulada fai 0.2857143 0.5142857 0.7142857 0.9142857 0.9714286 1.0000000
1 2 3 4 5 6
li 0 10 20 30 40 50
ls 10 20 30 40 50 60
freq 10 8 7 7 2 1
fi 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143
Por ejemplo un valor cercano al mnimo puede ser el limite inferior de la primera clase, el valor mximo puede ser el limite superior de la ltima clase. En el caso de la moda, nos podemos conformar con identificar la clase donde se encuentra el mayor nmero de datos. Min = 0 Max= 60 Rango = 60 Amplitud de clase = 10 Clase Modal = 1 En el caso de la moda se habla de clase modal No dude en buscar las formulas para calcular el promedio y la varianza con la informacin presentada en esta tabla. Por ejemplo el promedio se obtiene mediante:
k
x=
n
i =1
* ci
= f i * ci
i =1
> prom1<-sum(ni*ci)/nt > prom1 [1] 21 > prom2<-sum(fi*ci) > prom2 [1] 21 Observar que este resultado difiere del que se obtiene cuando se tienen todos los datos. Porqu? La varianza poblacional se obtiene mediante
=
2
ni * (c i x ) 2
i =1
(m
k i =1
2 i
ni
x2
En R mediante
> varp1<-(sum(ni*(ci-prom1)^2))/nt > varp1 [1] 189.7143 > varp2<-(sum(fi*(ci-prom1)^2)) > varp2 [1] 189.7143 Observar que el valor es diferente del que se obtiene con los datos completos. La varianza muestral se obtiene: > varm1<-((nt-1)/nt)*varp1 > varm1 [1] 184.2939 Pregunta Cules son las formulas de la varianza muestral y de la desviacin estndar muestral? La desviacin estndar poblacional a partir de datos agrupados en clase se puede calcular con la frmula:
ni * (c i x ) 2
i =1
(m
k i =1
2 i
ni
x2
Pregunta Calcular en R desviacin estndar poblacional? Para el clculo de la mediana y los cuarteles a partir de tablas de frecuencia se requiere interpolar. Por ejemplo para calcular la mediana. Esta se debe encontrar entre los valores que limitan la clase uno y la clase 2
1 2 li 0 10 Ls 10 20 Ci 5 15 freq 10 8 fi 0.28571429 0.22857143 nai 10 18 fai 0.2857143 0.5142857
El 28.57 % de los valores se encuentran de 0 hasta el valor 10 El 51.42 % de los valores se encuentran de 0 hasta el valor 20 De aqu podemos hacer una interpolacin lineal
1 2 Ls X1= 10 X X2 =20 fai Y1= 0.2857143 Y= 0.5 Y2= 0.5142857
y y1 =
y 2 y1 * ( x x1 ) x 2 x1
Despejando x se obtiene un valor aproximado a la mediana. Por supuesto que, en muchas publicaciones se presentan formulas para obtener la mediana y los cuarteles. No dude en obtener y comparar los resultados con tales formulas.
Tambin puede obtener la mediana con la siguiente parte de la tabla:

1 2 Ls 10 20 nai 10 17.5 18
5.2. A partir de tablas de frecuencias por valor

> table(papel) papel 1 2 2.2 3 4 6 8 10 12.2 13.4 15.5 17 17.2 18 20 21 1 1 1 1 1 1 2 2 1 1 1 1 1 1 2 1 22 22.2 24 28 28.9 30 31 32 32.9 35 37 38 38.2 43 50 55 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 kpapel 1 2 2.2 3 4 6 8 12.2 13.4 15.5 17 17.2 18 20 21 22 22.2 24 28 28.9 30 31 32 32.9 35 37 38 38.2 43 50 55 kni 1 1 1 1 1 1 2 2 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 35
Se pueden calcular todas las medidas de posicin, tendencia central y variabilidad.
x=
x n
i =1 i
n
k
2 =
o
n (x
i =1 i
x)
=
2
(x
k i =1
2 i
ni
x2
Tambin es posible visualizar los datos en forma grfica > barplot(kni, kpapel) > barplot(kni, names.arg = kpapel) > barplot(kni, names.arg = kpapel, col = "green") >
Que en realidad no presenta, en este caso, mucho inters Apendice:
Para hacer el dotplot copiar en R la siguiente funcin Funcin dotplot # R function to graph a dotplot # This is inefficient code, but is fine for small examples # # Written by Bret Larget, September 3, 2003 #
dotplot = function(x,tol=1e-08) { y = rep(1,length(x)) sx = sort(x) dx = diff(sx) maxHt = 1 ht = 1 for(i in 2:length(sx)) { if(abs(dx[i-1])<tol) ht = ht+0.1 else ht = 1 if(ht > maxHt) maxHt = ht } plot(x,y,type="n",axes=F,xlab="",ylab="",ylim=c(1,maxHt+1)) axis(1,pretty(x)) points(sx[1],1,pch=16) ht = 1 for(i in 2:length(sx)) { if(abs(dx[i-1])<tol) ht = ht+0.1 else ht = 1 points(sx[i],ht,pch=16) } invisible(NULL) } #Hasta aqu. Todo lo anterior es una gua y no se debe de copiar y pegar para entregar la prctica,se deben explicar las operaciones y grficas.
Lo siguiente es para el curso de Sistemas Ambientales
8.- Entregar. Solamente se debe entregar lo siguiente.

Entregar en un solo archivo a mas tardar en la fecha limite a.- Se toman 25 muestras de un Kg de suelo. Los resultados del anlisis en busca de tricloroetileno arrojan los siguientes valores en mg. 2.10, 2.27, 2.02, 1.17, 3.28, 4.35, 5.12, 3.82, 1.54, 1.92, 3.62, 4.76, 5.80, 1.75, 2.25, 3.53, 5.07, 2.23, 4.62, 1.92, 5.17, 3.42, 4.29, 5.54, 2.83 Establecer un histograma con cinco clases y determinar que porcentaje de valores se encuentran por debajo de 4ppm. La EPA fija un plan de emergencia para el valor que separa el 80% de las muestras con menores valores de TCE en mg. Cul es el promedio y la desviacin estndar muestral en mg y en ppm? Si se supone que el TCE se encuentra distribuido uniformemente en la muestras (mezclado perfecto) y solo hubiese tomado muestras de 250 g obtener el promedio y desviacin estndar. A partir de estos resultados hubiese podido obtener el promedio y desviacin estndar para las muestras de un Kg?
b.- Obtener una serie de datos de algn proceso o sistema ambiental. Objetivos : Presentar el origen de los datos y los objetivos del estudio estadstico de estos. Hacer un diagrama de Diagrama de flujo o un mapa conceptual . Escribir una funcin para calcular todas las medidas de tendencia central. Comentar la funcin y entregar resultados comentados Escribir una funcin para calcular todas las medidas de variabilidad. Comentar la funcin y entregar resultados comentados
Escribir una funcin para construir, a partir de una serie de datos, una tabla de clases con todas las frecuencias (simple, acumulada, relativa y relativa acumulada). Comentar la funcin y entregar resultados comentados Escribir una funcin para visualizar los datos (histograma, polgono de frecuencias, histograma acumulado, box plot, stem and leaf) Interpretar sus datos de acuerdo al sistema o proceso elegido. Comentar los resultados estadsticos y conclusiones No dude en presentar diagramas y escribir todas las formulas matemticas necesarias usando el editor de ecuaciones propuesto por Word (para el promedio, varianza, mediana, moda, cuarteles, con datos no agrupados y agrupados
El siguiente es un ejemplo de mapa de conceptos en Estadstica. Recuerde solo es un ejemplo. Usted puede hacer algo mejor.

Apo Yo Estacon R

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apo Yo Estacon R

Cargado por

Copyright:

Formatos disponibles

Apoyo para Estadstica con R.

Variable cuantitativa continua

Imaginar como se obtuvieron los datos de la tabla anterior

Datos no agrupados o no tabulados.

(P. Stikker, pers.

Las medidas de tendencia ms comunes son: La Moda, la Mediana y el Promedio.

La moda corresponde al valor mas frecuente.

10 12.2 13.4 15.5 2 1 1 1 32 32.9 35 37 1 1 1 1

formato courrier New para ver mejor la tabla).

o en R se puede obtener con (n-1/n)*var()

4.- Tablas de frecuencia

linf1 linf2 linf3 linf i - 1 linf i linf i +1 linfn

lsup1 lsup2 lsup3 lsup i - 1 lsup i lsup i +1 lsupn

na,1 na,2 na,3 n a ,i - 1 n ai n a,i +1 na,n

fa,1 fa,2 fa,3 fa,i - 1 f ai fa,i +1 fa,n

ni frecuencia absoluta para cada clase (nmero de valores en la clase i).

frecuencia relativa (fraccin de valores en la clase i respecto al total n)

Para identificar las frecuencias acumuladas se indica una a en superindice:

fi 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286

5.- Visualizacin de una serie de datos

Un histograma se genera con > hist(papel)

distribucin de pesos de papel

distribucin de pesos papel

distribucin de pesos papel

hist(papel, nclass=7) >y<-plot.ecdf(papel,main="distribucin acumulada")

> op <- par(mfrow=c(1, 1)) > dotplot(papel) Ver apendice

distribucin de pesos papel

distribucin acum ulada

7.- Visualizar datos a partir de tablas de frecuencias

fi 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143

> sfun0 <- stepfun(ls, ni, f = 0)

fi 0.28571429 0.22857143 0.20000000 0.20000000 0.05714286 0.02857143

Tambin puede obtener la mediana con la siguiente parte de la tabla:

5.2. A partir de tablas de frecuencias por valor

Se pueden calcular todas las medidas de posicin, tendencia central y variabilidad.

Que en realidad no presenta, en este caso, mucho inters Apendice:

Lo siguiente es para el curso de Sistemas Ambientales

8.- Entregar. Solamente se debe entregar lo siguiente.

También podría gustarte