Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4549 PDF
4549 PDF
1 ESTADSTICA DESCRIPTIVA
- Distribucin de Frecuencias
- Grficas
- Parmetros numricos
Existe la tendencia a pensar que todos los datos numricos son datos cuantitativos, sin
embargo esto no es as. En un proceso de medicin se pueden identificar cuatro
diferentes escalas de medidas:
c) Intervalar: Es una forma ms fina de medir, que la escala ordinal y desde luego
que la nominal. Los datos medidos en esta escala representan la
magnitud de las diferencias entre distintas unidades observadas,
aunque las mediciones an no son del todo comparables. Por otro lado,
el cero en esta escala de medicin es arbitrario y no implica la ausencia
total de la caracterstica medida. Por ejemplo considere mediciones
relacionadas con el coeficiente intelectual de diferentes personas, a
partir de dichas mediciones no se puede considerar que una persona A
que tiene el C.I. del doble de otra B, sea doblemente inteligente que B.
Otro ejemplo es la medicin de temperaturas en grados Fahrenheit.
Aunque la diferencia entre 20oF y 45oF es la misma que entre 90oF y
105oF, sin embargo en cuanto a la cantidad de calor, 90oF no es el
doble que 45oF y 0oF no significa ausencia de temperatura.
Ejemplo 1.1
En los estudios demogrficos de un pas suele ser de inters la poblacin de cada una
de las diferentes razas: Blanca, China, Arabe, India, Negra, Mestiza. Se selecciona de
manera aleatoria un grupo de 2500 personas de la poblacin del pas y se investiga
cul es su origen. Los resultados se obtendran de manera personal, ya que seran las
respuestas a la pregunta cul es su raza de orgen?, sin embargo, un primer intento
para analizar la informacin es agruparla, y el resultado sera una tabla como la
siguiente:
Definicin 1.1:
Frecuencia
Lmites de Marcas de Frecuencia Frecuencia relativa
clase clase Frecuencia acumulada relativa acumulada
xi fi Fi fi* Fi*
-2 x< 7 2 2 2 0.05 0.05
7 x < 16 11 4 6 0.1 0.15
16 x < 25 20 7 13 0.175 0.325
25 x < 34 29 14 27 0.35 0.675
34 x < 43 38 8 35 0.2 0.875
43 x < 52 47 5 40 0.125 1.000
40
Tabla 1.1 Tabla clsica de distribucin de frecuencias.
Aproximacin Aproximacin
de los datos de los lmites
enteros enteros
dcimas dcimas
centsimas centsimas
Con este criterio se puede deducir de la tabla 1.1 que los datos que en ella se
agruparon eran todos nmeros enteros.
Para que la agrupacin sea vlida, absolutamente todos los datos en la muestra se
deben poder clasificar con el criterio dado por los lmites, esto significa que ninguno
debe estar fuera de esta clasificacin. Por lo tanto, tambin podemos estar seguros de
que en la supuesta muestra agrupada en la tabla 1.1, ningn dato es menor que -2
como tampoco existe ningn dato mayor que 52.
Fi = f j
j =1
fi = fi
f *i = m
f
n
j
j=1
ocurre en un nmero grande de repeticiones del experimento bajo estudio, por lo tanto,
si nuestra muestra fuera grande, podramos pensar que la frecuencia relativa de clase
se aproximara a la probabilidad de que la v.a. poblacional tome valores en dicha clase.
Evidentemente, se tendr una mejor aproximacin cuanto ms grande sea la clase.
1
Cabe aclarar que la que aqu se presentar es una forma particular de construccin de una tabla de
distribucin de frecuencias, no as la nica, ya que en este sentido no hay un consenso. Existen
algunas forma alternas de construccin, sin embargo, las diferencias que existen entre ellas son de
forma y no de fondo, por lo cual es relativamente sencillo interpretar la informacin contenida en otra
tabla de distribucin de frecuencias construida de alguna otra forma, y los resultados que de dicho
anlisis se obtengan no tendrn diferencias radicales con los generados mediante la construccin que
aqu haremos, atribuibles a la forma de realizar la agrupacin.
Ejemplo 1.2
Resolucin
Recordemos que para que la tabla que se construya se pueda considerar adecuada
para analizar los datos, se requiere que contenga a todos los datos en la muestra. As,
es necesario conocer el rango en el que se encuentran los datos, para lo cual se tiene
la siguiente definicin:
Esto es,
m= 46 7
Como el lmite inferior de la primera clase debe ser un valor un poco menor al mnimo,
5308 - 54
utilicemos 54. Por lo tanto, la longitud de clase ser = 750.57 750
7
Por al razn utilizaremos c = 750.
Como ya dijimos, el lmite inferior de la primera clase ser 54. La tabla resultante ser
la que se muestra:
- Grficas de barras
- Grficas de sectores circulares ( grficas de pie).
- Histograma de frecuencias
- Polgono de frecuencias
- Ojiva o polgono de frecuencias acumuladas
Es una grfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribucin de frecuencias y sus reas representan las frecuencias
absolutas o relativas correspondientes. Ntese que de acuerdo con esta definicin no
se requiere ms que un eje, en el cual se identificarn las marcas de clase conforme a
las clases que se hayan construido.
Cabe insistir en que en este caso tambin es solo una de las construcciones posibles o
conocidas, sin embargo tiene la ventaja de que es fcil encontrar la similitud entre el
histograma de frecuencias relativas, y el histograma de probabilidad que se construye
en probabilidad para las funciones de probabilidad. Por otro lado, se mantiene la
concepcin de la probabilidad de un evento como rea, que resulta til para la ms fcil
comprensin del concepto de funcin de densidad en el caso de variables aleatorias
continuas.
Histograma de Frecuencias
18
16
14 17
12
10
12 12
8
6
4
2
2 1 0 1 1
0
Histograma de Frecuencias
18
16
14
frecuencias
12
10
8
6
4
2
0
429 1179 1929 2679 3429 4179 4929 5679
marcas de clase
Es una grfica poligonal que representa para cada marca de clase la frecuencia de
dicha clase y se construye uniendo, mediante lneas rectas, los puntos medios de las
bases superiores de las barras del histograma de frecuencias. Es claro que tampoco se
requiere trazar ms que un eje, para hacer la grfica del polgono de frecuencias.
Polgono de Frecuencias
18
16
14
Frecuencia
12
10
8
6
4
2
0
429 1179 1929 2679 3429 4179 4929 5679
Marcas de Clase
Existe una forma alternativa de trazar la grfica del polgono de frecuencias, sin
necesidad de hacerlo sobre el histograma. Observe la siguiente grfica.
Polgono de Frecuencias
18
16
14
Frecuencias
12
10
8
6
4
2
0
429 1179 1929 2679 3429 4179 4929 5679
Marcas de Clase
3.- Ojiva
Es una grfica poligonal que representa para cada lmite de clase la frecuencia
acumulada o la frecuencia relativa acumulada hasta dicha frontera. Cuando la que se
representa es la frecuencia relativa acumulada se le llama ojiva porcentual. A diferencia
de las grficas anteriores, para trazar esta grfica si es indispensable contar con los
dos ejes coordenados.
Ejemplo:
30
25
20
15
10
0
27 30 33 36 39 42 45 48 51 54
Lmites de Clase
Los parmetros numricos, por el tipo de informacin que dan, se clasifican en:
1.- MEDIDAS DE TENDENCIA CENTRAL: Son valores que se encuentran dentro del
rango de la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados. Entre las ms usuales estn la media aritmtica, la mediana y la moda,
que estudiaremos a continuacin.
a) Media aritmtica
x
i =1
i
x=
n
donde n es el tamao de la muestra.
Ntese que es la definicin que conocemos para el promedio usual de los datos en la
muestra.
x f i i m
x= i =1
= xi f *i , puesto que f i = f *i
n i =1 n
en donde
m es el nmero de clases
xi la marca de clase de la clase i, y
fi la frecuencia de la clase i
b) Mediana
x n2 + x n2 + 1
~x =
2
Ejemplo:
Resolucin:
0, 1, 2, 2, 3, 3, 4, 7, 7, 7, 8, 9
2) Dado que el nmero de datos es par, la mediana ser el promedio de los datos
que ocupan los lugares n/2 y (n/2) + 1 en la ordenacin, es decir, la mediana
ser el promedio de los datos que ocupen los lugares 6 y 7 en la ordenacin.
~x = 3 + 4 = 3.5
2
Si los datos se encuentran agrupados, para obtener la mediana se debe realizar una
interpolacin en la ojiva, como se indica a continuacin:
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe el
nombre de clase mediana.
2.- Graficar la ojiva correspondiente a la clase mediana.
Frecuencia Acumulada
Fi + 1
(0.5)n
Fi
Lmites de clase
Li Li + 1
Mediana
~x- Li - n
= F50% Fi ; F50% =
Li+1 - Li Fi+1 - Fi 2
n
~x- Li - Fi
= 2
Li+1 - Li Fi+1 - Fi
n
( - Fi )( Li+1 - Li )
~x = 2 + Li
Fi+1 - Fi
en donde:
Li es el lmite inferior de la clase mediana
Li+1 es el lmite superior de la clase mediana
Fi es la frecuencia acumulada hasta L i
Fi+1 es la frecuencia acumulada hasta L i+1
n es el tamao de la muestra
Ejemplo:
Resolucin:
Frecuencia Acumulada
44
32
15
Lmites de clase
3 ~
x 6
n
- Fi (L i+1 - Li )
De donde, entonces, x =
2 (32 - 15)(6 - 3)
~ + Li = + 3 = 4.7586
Fi+1 - Fi 44 - 15
c) Moda
Existen varias medidas de dispersin, y algunas de ellas (la mayora) se miden con
respecto a la media por ser esta ltima una medida que se encuentra alrededor del
centro del rango de la muestra, y considerarse una medida representativa de los datos.
Estas medidas nos permiten, adems de describir el comportamiento de la muestra,
Rango
Tal vez la medida de tendencia central ms simple sea el rango que se defini para
construir la tabla de distribucin de frecuencias. Es una medida de dispersin
interesante, ya que proporciona informacin inmediata acerca de la variabilidad que
tienen los datos entre s.
Como se dijo antes, el rango se define como la diferencia entre los datos mayor y
menor en la muestra, esto es:
Aunque el rango es una medida importante de dispersin, existen otras medidas, que
proporcionan informacin adicional acerca de dicha variabilidad, algunas de ellas las
definiremos a continuacin. Veamos:
Sean xi , i = 1, 2, ..., n los datos de la muestra. Para medir la dispersin promedio de los
datos con relacin a la media de la muestra, pensaramos inmediatamente en lo
siguiente:
n
(x - x )
i =1
i
,
n
sin embargo, si desarrollamos dicha suma, encontramos que se anula,
independientemente de cuales sean los datos considerados, ya que :
(x - x ) = x - x
n n
i i
i =1 i =1 i =1
n
x i n
n
y por otro lado, x =nx
i =1
n
de donde: (x - x ) = n x - n x = 0
i =1
i
n
esto es: (x - x ) = 0
i =1
i
Desviacin media:
|x -x|
i =1
i
d . m. =
n
Si los datos se encuentran agrupados en una tabla de distribucin de frecuencias, la
expresin para el clculo de la desviacin media se transforma en
m
| x - x| f
i =1
i i
d . m. =
n
Varianza:
Si xi (i=1,2,3 ,..,n) son los datos de la muestra, se define la varianza de la muestra (s2)
como:
n
(x - x i )
2
s2 = i=1
n
en tanto que si los datos se tienen en forma agrupada, se calcular la varianza como
se indica a continuacin:
m
(x - xi
2
) fi
s2 = i=1
n
Desviacin estndar:
s = s2
Coeficiente de variacin: Evita el tener que referirse a los datos para determinar la
magnitud de la variacin.
s
c.v. =
x
Momentos
Se puede definir con respecto a cualquier punto "a", pero las mas usuales son con
respecto al origen y con respecto a la media. Las definiciones correspondientes son:
x r
i
m'r = i=1
n
x i=1
r
i fi
m'r = m
f i
i =1
(x - x i )
r
mr = i=1
n
(x - x
i
r
) fi
mr = i=1
m
f i
i=1
Coeficiente de curtosis
k = m44
s
< 3 platicrti ca
k >3 leptocrti ca
=3
mesocrtic a
0.8
0.6
0.4
0.2
-4 -2 0 2 4
x
Distribucin Mesocrtica
0.8
0.6
0.4
0.2
-4 -2 0 2 4
x
Distribucin Leptocrtica
0.8
0.6
0.4
0.2
-4 -3 -2 -1 0 1 x2 3
Distribucin Platicrtica
Ejemplo:
Resolucin:
a)Media:
8(240000)+ 2(255000)+ 2(265000)+ 2(280000)+ 290000+ 300000+ 305000+ 325000+ 330000+ 340000
20
x = 270,500
x n + x n +1 255000 + 265000
b) Mediana: ~x = 2 2
= = 260000
2 2
c) Moda = 240,000
20
(x - x
i )
2
d) Varianza: s 2 = i=1
= 1,097,250, 000
20
s
f) Coeficiente de variacin: c.v.= = 0.1225 = 12.25%. Esto es que los datos se alejan
x
de la media un 12.25 %.
g) Rango= 100,000
20
(x i - x )3
h)Coeficiente de sesgo: a = m33 m3 =
i =1
s 20
a = 0.75569 Es decir, los datos tienen sesgo positivo
2.70311 x 1018
i) k = m44 = = 2.24 La distribucin de los datos es platicrtica
s (33124.764 )4
Rango = 100,000
# aproximado de clases = 20 = 4.47 5
Lmite inferior de la primera clase =235,000
c=105,000 / 5 = 21,000
x f i i
5,477,000
Media: x = i =1
= = 273,850
n 20
Mediana: ~x = 256,000
11
(x - 273,850 ) 2
fi
2.3175E + 10
i
2 i =1
Varianza: s = = = 1,158,727,500
20 20
s
C.V. = = 0.12430194 = 12.4302%
x
11
(x i - x )3 f i
i =1 6.5721E + 14
m3 = = = 3.286E + 13
11 20
fi
i=1
3.286E + 13
a= = 0.83310573 3
(34,040.08 67 )3
11
4
( xi - x ) f i
6.31528E + 19
m4 = i = 1 = = 3.15764E + 18
11 20
fi
i=1
4
s 4 = ( 34,040.086 7 )