Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Descript Iva
Descript Iva
Estadstica Descriptiva
1 ESTADSTICA DESCRIPTIVA
15
Estadstica
Estadstica Descriptiva
16
Estadstica
Estadstica Descriptiva
17
Estadstica
Estadstica Descriptiva
Ejemplo 1.1
En los estudios demogrficos de un pas suele ser de inters la poblacin de cada una
de las diferentes razas: Blanca, China, Arabe, India, Negra, Mestiza. Se selecciona de
manera aleatoria un grupo de 2500 personas de la poblacin del pas y se investiga
cul es su origen. Los resultados se obtendran de manera personal, ya que seran las
respuestas a la pregunta cul es su raza de orgen?, sin embargo, un primer intento
para analizar la informacin es agruparla, y el resultado sera una tabla como la
siguiente:
Raza del
encuestado
Nmero de
personas
Blanca
500
China
800
Arabe
300
India
250
Negra
300
Mestiza
350
Definicin 1.1:
Una tabla de distribucin de frecuencias es una clasificacin de los datos en clases o
categoras de acuerdo a sus valores.
18
Estadstica
Lmites de
clase
-2
7
16
25
34
43
x< 7
x < 16
x < 25
x < 34
x < 43
x < 52
Tabla 1.1
Estadstica Descriptiva
Marcas de
clase
xi
2
11
20
29
38
47
Frecuencia Frecuencia
Frecuencia acumulada
relativa
fi
Fi
fi*
2
2
0.05
4
6
0.1
7
13
0.175
14
27
0.35
8
35
0.2
5
40
0.125
40
Tabla clsica de distribucin de frecuencias.
Frecuencia
relativa
acumulada
Fi*
0.05
0.15
0.325
0.675
0.875
1.000
Aproximacin
de los lmites
enteros
dcimas
centsimas
Con este criterio se puede deducir de la tabla 1.1 que los datos que en ella se
agruparon eran todos nmeros enteros.
19
Estadstica
Estadstica Descriptiva
Para que la agrupacin sea vlida, absolutamente todos los datos en la muestra se
deben poder clasificar con el criterio dado por los lmites, esto significa que ninguno
debe estar fuera de esta clasificacin. Por lo tanto, tambin podemos estar seguros de
que en la supuesta muestra agrupada en la tabla 1.1, ningn dato es menor que -2
como tampoco existe ningn dato mayor que 52.
Fi = f j
j =1
fi = fi
m
n
j=1
20
Estadstica
Estadstica Descriptiva
ocurre en un nmero grande de repeticiones del experimento bajo estudio, por lo tanto,
si nuestra muestra fuera grande, podramos pensar que la frecuencia relativa de clase
se aproximara a la probabilidad de que la v.a. poblacional tome valores en dicha clase.
Evidentemente, se tendr una mejor aproximacin cuanto ms grande sea la clase.
Frecuencia relativa acumulada (F i*): Es la proporcin de los datos en la muestra que
son menores que el lmite superior de la clase en cuestin.
Fi
Fi
F*i = = m
n
f j
j =1
Cabe aclarar que la que aqu se presentar es una forma particular de construccin de una tabla de
distribucin de frecuencias, no as la nica, ya que en este sentido no hay un consenso. Existen
algunas forma alternas de construccin, sin embargo, las diferencias que existen entre ellas son de
forma y no de fondo, por lo cual es relativamente sencillo interpretar la informacin contenida en otra
tabla de distribucin de frecuencias construida de alguna otra forma, y los resultados que de dicho
anlisis se obtengan no tendrn diferencias radicales con los generados mediante la construccin que
aqu haremos, atribuibles a la forma de realizar la agrupacin.
21
Estadstica
Estadstica Descriptiva
frecuencias
y por ello es conveniente tomar en consideracin las siguientes
recomendaciones empricas:
1.- La tabla de distribucin de frecuencias constar de entre 5 y 20 clases, inclusive.
2.- Todas las clases sern de la misma longitud (c).
Ejemplo 1.2
802
847
1029
2002
55
415
2265
1123
1305
933
531
1400
1120
1249
923
985
2181
946
639
2526
1313
1565
2004
1703
1882
1370
2772
947
5308
2039
210
1767
1465
1303
1800
120
4623
193
460
1706
Resolucin
Recordemos que para que la tabla que se construya se pueda considerar adecuada
para analizar los datos, se requiere que contenga a todos los datos en la muestra. As,
es necesario conocer el rango en el que se encuentran los datos, para lo cual se tiene
la siguiente definicin:
Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la
muestra.
En este caso se tiene que
Rango = 5308 - 55 = 5253
22
Estadstica
Estadstica Descriptiva
46 7
Como el lmite inferior de la primera clase debe ser un valor un poco menor al mnimo,
5308 - 54
utilicemos 54. Por lo tanto, la longitud de clase ser
= 750.57 750
7
Por al razn utilizaremos c = 750.
Como ya dijimos, el lmite inferior de la primera clase ser 54. La tabla resultante ser
la que se muestra:
Lmites
54 - 804
804 - 1554
1554 - 2304
2304 - 3054
3054 - 3804
3804 - 4554
4554 - 5304
5304 - 6054
xi
429
1179
1929
2679
3429
4179
4929
5679
fi
12
17
12
2
1
0
1
1
46
Fi
12
29
41
43
44
44
45
46
fi*
0.2609
0.3696
0.2609
0.0435
0.0217
0.0000
0.0217
0.0217
Fi*
0.2609
0.6304
0.8913
0.9348
0.9565
0.9565
0.9783
1.0000
23
Estadstica
Estadstica Descriptiva
Es una grfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribucin de frecuencias y sus reas representan las frecuencias
absolutas o relativas correspondientes. Ntese que de acuerdo con esta definicin no
se requiere ms que un eje, en el cual se identificarn las marcas de clase conforme a
las clases que se hayan construido.
Cabe insistir en que en este caso tambin es solo una de las construcciones posibles o
conocidas, sin embargo tiene la ventaja de que es fcil encontrar la similitud entre el
histograma de frecuencias relativas, y el histograma de probabilidad que se construye
en probabilidad para las funciones de probabilidad. Por otro lado, se mantiene la
concepcin de la probabilidad de un evento como rea, que resulta til para la ms fcil
comprensin del concepto de funcin de densidad en el caso de variables aleatorias
continuas.
A continuacin se muestra el histograma de frecuencias absolutas para los datos del
ejemplo:
24
Estadstica
Estadstica Descriptiva
Histograma de Frecuencias
18
16
17
14
12
10
12
12
8
6
4
2679
3429
4179
4929
5679
2
0
429
1179
1929
marcas de clase
frecuencias
Histograma de Frecuencias
18
16
14
12
10
8
6
4
2
0
429
1179
1929
2679
3429
4179
4929
5679
marcas de clase
Es una grfica poligonal que representa para cada marca de clase la frecuencia de
dicha clase y se construye uniendo, mediante lneas rectas, los puntos medios de las
bases superiores de las barras del histograma de frecuencias. Es claro que tampoco se
requiere trazar ms que un eje, para hacer la grfica del polgono de frecuencias.
25
Estadstica
Estadstica Descriptiva
Frecuencia
14
12
10
8
6
4
2
0
429
1179
1929
2679
3429
4179
4929
5679
Marcas de Clase
Existe una forma alternativa de trazar la grfica del polgono de frecuencias, sin
necesidad de hacerlo sobre el histograma. Observe la siguiente grfica.
Polgono de Frecuencias
18
16
Frecuencias
14
12
10
8
6
4
2
0
429
1179
1929
2679
3429
4179
4929
5679
Marcas de Clase
26
Estadstica
Estadstica Descriptiva
3.- Ojiva
Es una grfica poligonal que representa para cada lmite de clase la frecuencia
acumulada o la frecuencia relativa acumulada hasta dicha frontera. Cuando la que se
representa es la frecuencia relativa acumulada se le llama ojiva porcentual. A diferencia
de las grficas anteriores, para trazar esta grfica si es indispensable contar con los
dos ejes coordenados.
Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas,
sino solamente que una de ellas es el resultado de trasladar a la otra hacia arriba o
hacia abajo, dependiendo de cual se est tomando como base.
La ojiva porcentual es, adems, una aproximacin a la grfica de la funcin de
distribucin de la variable aleatoria que represente a la poblacin.
Ejemplo:
Lmites
27 - 30
30 - 33
33 - 36
36 - 39
39 - 42
42 - 45
45 - 48
48 - 51
51 - 54
xi
28.5
31.5
34.5
37.5
40.5
43.5
46.5
49.5
52.5
fi
2
3
9
5
2
4
3
1
1
30
Fi
2
5
14
19
21
25
28
29
30
fi*
0.667
0.1
0.3
0.167
0.667
0.133
0.1
0.033
0.033
Fi*
0.066
0.167
0.467
0.633
0.7
0.833
0.933
0.967
1
27
Estadstica
Estadstica Descriptiva
35
30
25
20
15
10
5
0
27
30
33
36
39
42
45
48
51
54
Lmites de Clase
28
Estadstica
Estadstica Descriptiva
1.- MEDIDAS DE TENDENCIA CENTRAL: Son valores que se encuentran dentro del
rango de la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados. Entre las ms usuales estn la media aritmtica, la mediana y la moda,
que estudiaremos a continuacin.
a) Media aritmtica
Es probablemente la medida de tendencia central de uso ms generalizado, se denota
por x (es muy importante que la x sea minscula, ya que la mayscula se utilizar ms
adelante para denotar algo diferente} y se define de la siguiente forma:
a) Si x1 , x2 , x3 , ... , xn son los datos contenidos en una muestra, y se encuentran
sin agrupar, entonces
n
x=
i =1
x f
i
x=
i =1
m
= xi f *i , puesto que f i = f *i
n
i =1
29
Estadstica
Estadstica Descriptiva
en donde
m es el nmero de clases
xi la marca de clase de la clase i, y
fi la frecuencia de la clase i
b) Mediana
Es el valor que divide al conjunto de datos de la muestra en dos conjuntos de igual
tamao, es decir, es aquel valor para el cual existen el mismo nmero de datos
menores o iguales a l que mayores o iguales a l. En otras palabras, la mediana es
aquel valor para el cual el 50% de los datos son menores o iguales a l.
Para calcular la mediana de la muestra cuando los datos no se encuentran agrupados
en una tabla de distribucin de frecuencias, se deben seguir los siguientes pasos:
1.- Se ordenan los datos en forma creciente.
2.- Una vez ordenados se tienen dos casos:
a) Si el nmero de datos es impar, la mediana es el valor central; aquel que se
n +1
encuentre en el lugar
en la ordenacin. Esto es:
2
~x = x n+1
2
b) Si el nmero de datos es par, la mediana ser el promedio de los dos datos
centrales en la ordenacin, es decir, de la datos que se encuentren en los
n
n
lugares
y
+1.
2
2
~x =
x n2 + x n2 + 1
2
Ejemplo:
En un proceso de manufactura, se observa el nmero de veces al mes que se detiene
el proceso durante un perodo de un ao, debido a fallas mecnicas de la maquinaria.
30
Estadstica
Estadstica Descriptiva
Si los datos se encuentran agrupados, para obtener la mediana se debe realizar una
interpolacin en la ojiva, como se indica a continuacin:
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe el
nombre de clase mediana.
2.- Graficar la ojiva correspondiente a la clase mediana.
Frecuencia Acumulada
Fi + 1
(0.5)n
Fi
Li
Li + 1
Mediana
Lmites de clase
31
Estadstica
Estadstica Descriptiva
~x- Li
= F50% Fi
Li+1 - Li Fi+1 - Fi
; F50% =
n
2
n
- Fi
~x- Li
= 2
Li+1 - Li Fi+1 - Fi
n
( - Fi )( Li+1 - Li )
~x = 2
+ Li
Fi+1 - Fi
en donde:
Li es el lmite inferior de la clase mediana
Li+1 es el lmite superior de la clase mediana
Fi es la frecuencia acumulada hasta L i
Fi+1 es la frecuencia acumulada hasta L i+1
n es el tamao de la muestra
Ejemplo:
Los datos que se despliegan en la siguiente tabla de distribucin de frecuencias
provienen de un conjunto de observaciones de la duracin (en minutos) de las
llamadas telefnicas locales que se realizan en el D. F. Calcule la mediana de dichos
datos.
Lmites de
Marca de
Frecuencia
clase
clase
Frecuencia Acumulada
0 - 3
1.5
15
15
3 - 6
4.5
29
44
6 - 9
7.5
10
54
9 - 12
10.5
5
59
12 15
13.5
4
63
15 - 18
16.5
1
64
Resolucin:
La muestra es de tamao n = 64, por lo tanto, n/2 = 32
Por lo anterior, la clase mediana es la segunda, esto es, la mediana est entre 3 y 6.
32
Estadstica
Estadstica Descriptiva
Frecuencia Acumulada
44
32
15
Lmites de clase
3
~
x
n
- Fi (L i+1 - Li )
2
(32 - 15)(6 - 3)
~
De donde, entonces, x =
+ Li =
+ 3 = 4.7586
44 - 15
Fi+1 - Fi
c) Moda
Se denota como mo y es aquella observacin que se repite con mayor frecuencia
dentro de la muestra. Puede existir ms de una moda en una misma muestra. De los
datos agrupados se puede considerar como moda, la marca de clase del intervalo con
mayor frecuencia.
Es importante hacer notar que a diferencia de la media aritmtica y la mediana, la
moda no necesariamente es un valor nico. Esto significa que en un mismo conjunto de
datos, pueden existir varias modas, aunque tambin puede ser nica.
Existen varias medidas de dispersin, y algunas de ellas (la mayora) se miden con
respecto a la media por ser esta ltima una medida que se encuentra alrededor del
centro del rango de la muestra, y considerarse una medida representativa de los datos.
Estas medidas nos permiten, adems de describir el comportamiento de la muestra,
33
Estadstica
Estadstica Descriptiva
Aunque el rango es una medida importante de dispersin, existen otras medidas, que
proporcionan informacin adicional acerca de dicha variabilidad, algunas de ellas las
definiremos a continuacin. Veamos:
Sean xi , i = 1, 2, ..., n los datos de la muestra. Para medir la dispersin promedio de los
datos con relacin a la media de la muestra, pensaramos inmediatamente en lo
siguiente:
n
(x - x )
i
i =1
,
n
sin embargo, si desarrollamos dicha suma, encontramos que
independientemente de cuales sean los datos considerados, ya que :
se
anula,
(x - x ) = x - x
n
i =1
i =1
i =1
x
pero por definicin
x=
i =1
_ x = nx
i
i =1
34
Estadstica
Estadstica Descriptiva
x =nx
i =1
de donde:
(x - x ) = n x - n x = 0
i
i =1
esto es:
(x - x ) = 0
i
i =1
|x -x|
i
d . m. =
i =1
n
Si los datos se encuentran agrupados en una tabla de distribucin de frecuencias, la
expresin para el clculo de la desviacin media se transforma en
m
| x - x| f
i
d . m. =
i =1
es
probablemente
la
forma
ms
35
Estadstica
Estadstica Descriptiva
Varianza:
Si xi (i=1,2,3 ,..,n) son los datos de la muestra, se define la varianza de la muestra (s2)
como:
n
(x - x
i
s2 =
i=1
en tanto que si los datos se tienen en forma agrupada, se calcular la varianza como
se indica a continuacin:
m
(x - x
i
s2 =
) fi
i=1
Coeficiente de variacin: Evita el tener que referirse a los datos para determinar la
magnitud de la variacin.
c.v. =
s
x
36
Estadstica
Estadstica Descriptiva
Momentos
Los momentos en probabilidad, se calculan de la misma manera que en la mecnica,
solamente que, en la primera no tienen una interpretacin fsica y solo se utilizan como
una herramienta para la determinacin de ciertos parmetros.
Se puede definir con respecto a cualquier punto "a", pero las mas usuales son con
respecto al origen y con respecto a la media. Las definiciones correspondientes son:
El r-simo momento muestral con respecto al origen (m'r) se define como:
Si los datos se encuentran sin agrupar:
n
m'r =
i=1
m'r =
fi
i=1
i =1
(x - x
i
mr =
i=1
37
Estadstica
Estadstica Descriptiva
(x - x
i
mr =
) fi
i=1
i=1
a<0
a>0
a=0
Curva Simtrica
Sesgo negativo
Sesgo positivo
Simtrica
38
Estadstica
Estadstica Descriptiva
Coeficiente de curtosis
Es una medida del grado de apuntamiento de una distribucin. Se denota por k.
k = m44
s
< 3
k >3
=3
platicrti ca
leptocrti ca
mesocrtic a
0.8
0.6
0.4
0.2
-4
-2
2
x
Distribucin Mesocrtica
0.8
0.6
0.4
0.2
-4
-2
2
x
Distribucin Leptocrtica
39
Estadstica
Estadstica Descriptiva
0.8
0.6
0.4
0.2
-4
-3
-2
-1
x2
Distribucin Platicrtica
Ejemplo:
Una muestra de 20 trabajadores de una Ca. obtuvieron los siguientes salarios en un
mes determinado: $240000, $240000, $240000,$240000, $240000, $240000, $240000,
$240000, $255000, $255000, $265000, $265000, $280000, $280000, $290000,
$300000, $305000, $325000, $330000, $340000.
Calcular: la media, mediana, moda, varianza, desviacin estndar, coeficiente de
desviacin, rango, coeficiente de sesgo, coeficiente de curtosis. Qu puede decir
acerca de los salarios?
Resolucin:
a)Media:
8(240000)+ 2(255000)+ 2(265000)+ 2(280000)+ 290000+ 300000+ 305000+ 325000+ 330000+ 340000
20
x = 270,500
b) Mediana: ~x =
x n + x n +1
2
255000 + 265000
= 260000
2
c) Moda = 240,000
40
Estadstica
Estadstica Descriptiva
20
(x - x
i
d) Varianza: s 2 =
i=1
= 1,097,250, 000
20
s
= 0.1225 = 12.25%. Esto es que los datos se alejan
x
de la media un 12.25 %.
g) Rango= 100,000
20
h)Coeficiente de sesgo:
a = m33
s
(x
m3 =
- x )3
i =1
20
2.70311 x 1018
= 2.24
(33124.764 )4
Intervalos de clase
235,000 256,000
256,000 277,000
277,000 298,000
298,000 319,000
319,000 340,000
340,000 361,000
Marcas de
Frecuencia Frecuencia Frecuencia
Frecuencias Relativa Acumulada Acum. Relat.
clase
245,500
10
0.5
10
0.5
266,500
2
0.1
12
0.6
287,500
3
0.15
15
0.75
308,500
2
0.1
17
0.85
329,500
2
0.1
19
0.95
350,500
1
0.05
20
1
20
41
Estadstica
Estadstica Descriptiva
Media: x =
x f
i i
i =1
5,477,000
= 273,850
20
(x - 273,850 )
i
Varianza: s =
i =1
fi
=
20
2.3175E + 10
= 1,158,727,500
20
s
= 0.12430194 = 12.4302%
x
11
(x i - x )3 f i
6.5721E + 14
i =1
=
= 3.286E + 13
m3 =
11
20
fi
i=1
a=
3.286E + 13
= 0.83310573 3
(34,040.08 67 )3
42
Estadstica
Estadstica Descriptiva
11
4
( xi - x ) f i
6.31528E + 19
=
= 3.15764E + 18
m4 = i = 1
11
20
fi
i=1
4
s 4 = ( 34,040.086 7 )
k = 2.351796702 ;
k<3,
43