Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen.
En este trabajo elaboramos un par de rutina en el programa R que construya una tabla de
distribución de frecuencias agrupada y se compara los métodos de Sturges (1926), Scott
(1985) y Freedman & Diaconis (1981) propuesto para la decisión sobre el ancho óptimo del
intervalo y el número de clase. se generaron histogramas con datos simulados de una
distribucción normal de tamaño n=20n=20,n=30n=30,n=50n=50 y n=100n=100 los
cuales se incluyen datos atípicos. y probamos las rutina con la variable “thickness” del
conjunto de datos “Melanoma” de la biblioteca “MASS”.
1. Introducción
Al momento de tratar con datos, el método más útil de organizar, resumir e interpretar de
manera más rápida y eficiente estos datos es construyendo tablas de frecuencias, estas
forma de presentar la informacion resume la cantidad de veces que una variable toma un
valor determinado. Para el caso variables cuantitativas se construye tablas de frecuencias
agrupadas por intervalos y aunque es lo más usual, no necesariamente las clases deben
tener la misma amplitud (Triola 2000). Existen diferentes fórmulas propuestas para la
determinación del número de clases a trabajar dentro de estas están la propuestas por
Sturges (1926), por Scott (1985) y Freedman & Diaconis (1981). A menudo encontramos el
problema cuando la densidad de la variable de interés es desconocida. Un método popular
de estimar la densidad desconocida es utilizando el estimador de Histograma, El
histograma es el gráfico estadístico por excelencia. El histograma de un conjunto de datos
es un gráfico de barras que representan las frecuencias con que aparecen las mediciones
agrupadas en ciertos rangos o intervalos y donde la altura de cada barra representa la
frecuencia o cantidad de datos dentro de cada intervalo .La idea de agrupar datos en
forma de histogramas se conoce desde 1662 con el trabajo de Graunt. Sin embargo, es
hasta 1926 cuando aparecen las primeras reglas sobre su contrucción con la fórmula de
Sturges para determinar el número de barras (Correa & Gónzales . 2002) existen otros
métodos para seleccionar la cantidad de intervalos, tales como los propuestos por Scott
(1985) y Freedman & Diaconis (1981). De acuerdo a Correa & Castrillón (2010). El objetivo
del presente trabajo es elaborar una rutina en el programa R que construya una tabla de
distribución de frecuencias agrupada y comparar los resultados obtenidos por las reglas de
Sturges (1926), Scott (1985) y Freedman & Diaconis (1981) al momento de generar
histogramas y su comportamiento con datos atípicos.
1+3.32∗log(n)1+3.32∗log(n)
Fórmula de Scott:
Para el caso de densidad normal una regla alternativa para construir histogramas incluyen
la regla de Scott (1979) para el ancho de clase.
h∗=3.5∗s∗n−1/3h∗=3.5∗s∗n−1/3
h∗=2∗IQ∗n−1/3h∗=2∗IQ∗n−1/3
Donde IQIQ es el rango intercuartilico de la muestra, este método es menos sensible a los
datos atípicos.
3. Metodología
Para poder dar respuesta a la pregunta planteada, se desarrolló una rutina R Core Team
(2016), en donde para un conjunto de datos se obtiene la tabla de frecuencias, además de
su correspondiente histograma con su correspondiente polígono de frecuencia y ojiva.
Presentamos el comportamiento de la rutina, utilizando la variable thickness del conjunto
de datos Melanoma de la biblioteca MASS incluida en R Core Team (2016). Con el fin de
comparar el comportamiento de los histogramas obtenidos utilizando las tres fórmulas para
el cálculo del número de intervalos de clase, creamos vectores aleatorios de distribución
normal con μ=20μ=20 y σ=5σ=5 de
tamaños n=20n=20, n=30n=30, n=50n=50 y n=50n=50, y se corrió la rutina calculando
los números de intervalos de clase mediante las fórmulas de Sturges (1926), Scott (1979)
y Freedman & Diaconis (1981)
1. Rutina Uno
Freq = numeric(k)
for (i in 1:k) {
Freq[i] = length(X[X >= LimClasInf[i] & X < LimClasSup[i]])
}
FreqAc = cumsum(Freq) #Cálculo Frecuencias Acumuladas
Rel = round(Freq/sum(Freq), 4) #Cálculo Frecuencias Relativas
RelAc = round(cumsum(Rel), 4) #Cálculo de Frecuencias Relativas A
cumuladas
# Tabla de Frecuencias
TabFreq = data.frame(LimClasInf, LimClasSup, MarClas, Freq, FreqAc
, Rel,
RelAc)
print(TabFreq)
# Generando Ojiva
plot(TabFreq$MarClas, TabFreq$RelAc, col = "red", ylab = "Frecuenc
ias Relativas Acumuladas",
xlab = "Datos")
lines(TabFreq$MarClas, TabFreq$RelAc, col = "red")
title(main = "Ojiva", col.main = "darkgreen")
}
2. Rutina Dos
} else {
par(mfrow = c(1, 3))
set.seed(3211)
X=round(rnorm(200,20,5),1)
histograma(X) # Rutina 1
LimClasInf LimClasSup MarClas Freq FreqAc Rel RelAc
1 5.95 9.05 7.5 2 2 0.010 0.010
2 9.05 12.15 10.6 10 12 0.050 0.060
3 12.15 15.25 13.7 26 38 0.130 0.190
4 15.25 18.35 16.8 44 82 0.220 0.410
5 18.35 21.45 19.9 50 132 0.250 0.660
6 21.45 24.55 23.0 37 169 0.185 0.845
7 24.55 27.65 26.1 19 188 0.095 0.940
8 27.65 30.75 29.2 9 197 0.045 0.985
9 30.75 33.85 32.3 3 200 0.015 1.000
DF(X) # Rutina 2
[1] "Tabla Distribución de Frecuencia"
Linf Lsup Marca_c frec F_acum Rel. Rel_acum Porc_Acum
1 5 10 7.5 4 4 0.020 0.020 2.0
2 10 15 12.5 27 31 0.135 0.155 15.5
3 15 20 17.5 73 104 0.365 0.520 52.0
4 20 25 22.5 71 175 0.355 0.875 87.5
5 25 30 27.5 22 197 0.110 0.985 98.5
6 30 35 32.5 3 200 0.015 1.000 100.0
x2=round(rnorm(30,20,5),1)
n_30=round(sample(c(x2,20-3.5*sd(x2),20+3.5*sd(x2)),30,prob = c(rep(0.
8,30),0.6,0.6)),1)
x3=round(rnorm(50,20,5),1)
n_50=round(sample(c(x3,20-3.5*sd(x3),20+3.5*sd(x3)),50,prob = c(rep(0.
8,50),0.8,0.8)),1)
x4=round(rnorm(100,20,5),1)
n_100=round(sample(c(x4,20-3.5*sd(x4),20+3.5*sd(x4)),100,prob = c(rep(
0.8,100),0.9,0.9)),1)
DF(n_20,V=FALSE)
Tamaño n=20n=20
DF(n_30,V=FALSE)
Tamaño n=30n=30
DF(n_50,V=FALSE)
Tamaño n=50n=50
DF(n_100,V=FALSE)
Tamaño n=100n=100
Para tamaño de muestras peqeños (n≤50n≤50) y con datos atípicos, los tres metódos
tienen comportamiento parecido y tienden dejar clases vacias en especial Sturges y F-D.
para n=100n=100 el metódos D-F determina mucho más intervalo y deja varias clases
vacias que los otros dos métodos . Sturges y Scott se comprtan bien y en forma similar,
debido a que ambos estas diseñado bajo el supuesto de normalidad.
La regla de Sturges probablemente ha sobrevivido tanto tiempo como lo ha hecho porque,
para n moderado (menos de 200), da resultados similares a las reglas alternativas
anteriores, y produce un histogramas razonables. Sin embargo, no funciona para n
grandes . El problema con la regla de Sturges es que su derivación es incorrecta. Es una
regla que no deberia tener lugar en los libros de texto de estadística o como un valor
predeterminado en paquetes informáticos estadísticos ( Hyndman 1995).
library(MASS)
attach(Melanoma)
DF(thickness,2)
## [1] "Tabla Distribución de Frecuencia"
## Linf Lsup Marca_c frec F_acum Rel. Rel_acum Porc_Acum
## 1 0 2 1 109 109 0.532 0.532 53.2
## 2 2 4 3 51 160 0.249 0.781 78.1
## 3 4 6 5 21 181 0.102 0.883 88.3
## 4 6 8 7 12 193 0.059 0.942 94.2
## 5 8 10 9 4 197 0.020 0.962 96.2
## 6 10 12 11 0 197 0.000 0.962 96.2
## 7 12 14 13 6 203 0.029 0.991 99.1
## 8 14 16 15 1 204 0.005 0.996 99.6
## 9 16 18 17 1 205 0.005 1.001 100.1
Bibliografía
Scott, D.W. (1979) On optimal and data-based histograms. Biometrika, 66, 605-
610.
Sturges, H. (1926) The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-
66
Freedman, D. and Diaconis, P. (1981) On this histogram as a density estimator: L2
theory. Zeit. Wahr. ver. Geb., 57, 453-476.
Hyndman, R.J (1995) The problem with Sturges’ rule for constructing histograms.
R Core Team (2015). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. URL http://www.R-
project.org/
Correa, J.C and Gonzalez,N.(2002) Gráficos Estadísticos con R.