Está en la página 1de 29

Estadstica

Estadstica Descriptiva

1 ESTADSTICA DESCRIPTIVA

1.1 OBJETO DE ESTUDIO Y TIPOS DE DATOS


La estadstica descriptiva es un conjunto de tcnicas que tienen por objeto organizar y
presentar de manera conveniente para su anlisis, la informacin contenida en una
muestra. Dentro de ella existen bsicamente tres tipos de tcnicas:
- Distribucin de Frecuencias
- Grficas
- Parmetros numricos
La estadstica descriptiva, en general es bastante sencilla, aunque no por ello deja de
ser interesante y sobre todo importante. Es as que si a travs de la estadstica
buscamos obtener conclusiones acerca de toda una poblacin a partir de la informacin
contenida en una muestra, parece claro que no es posible hacerlo si no somos capaces
primeramente de describir el comportamiento del conjunto de datos que tenemos a la
mano. Esto es, no podemos pretender describir o intuir lo que ocurre con lo
desconocido, si no somos capaces de describir y analizar primero lo que sucede con lo
que s conocemos. De ah la importancia de la estadstica descriptiva.
Como se mencion antes, la estadstica descriptiva es un conjunto de tcnicas, pero
cabe aclarar que dichas tcnicas no son excluyentes, sino complementarias, sin
embargo dependiendo del tipo de datos que se desee manejar, no siempre es posible
utilizarlas todas.
Identifiquemos entonces entre datos cualitativos y cuantitativos. Los datos cualitativos
se refieren, como su nombre lo dice, a informacin sobre cualidades o caractersticas
del experimento, que en ocasiones pueden estar representados por nmeros, mientras
que los datos cuantitativos son, necesariamente, datos numricos.
Existe la tendencia a pensar que todos los datos numricos son datos cuantitativos, sin
embargo esto no es as. En un proceso de medicin se pueden identificar cuatro
diferentes escalas de medidas:

M. en I. Isabel Patricia Aguilar Jurez

15

Estadstica

Estadstica Descriptiva

a) Nominal: Es el nivel ms primitivo de medicin. En esta escala los nmeros se


utilizan como nombres y no como cantidades o magnitudes. Por lo tanto
los datos medidos en escala nominal son datos cualitativos an siendo
datos numricos.
b) Ordinal: En la escala ordinal los diferentes valores observados representan
diferentes niveles de posesin de la caracterstica observada, entre las
diferentes unidades, aunque no es posible comparar dichos niveles a
travs de los valores observados. Esto significa que los datos aunque no
son comparables se pueden ordenar. Un ejemplo de mediciones con esta
escala son las observaciones del status econmico de una persona (alto,
medio, bajo, etc.). Podran considerarse las mediciones realizadas en esta
escala como datos cualitativos.
c) Intervalar: Es una forma ms fina de medir, que la escala ordinal y desde luego
que la nominal. Los datos medidos en esta escala representan la
magnitud de las diferencias entre distintas unidades observadas,
aunque las mediciones an no son del todo comparables. Por otro lado,
el cero en esta escala de medicin es arbitrario y no implica la ausencia
total de la caracterstica medida. Por ejemplo considere mediciones
relacionadas con el coeficiente intelectual de diferentes personas, a
partir de dichas mediciones no se puede considerar que una persona A
que tiene el C.I. del doble de otra B, sea doblemente inteligente que B.
Otro ejemplo es la medicin de temperaturas en grados Fahrenheit.
Aunque la diferencia entre 20oF y 45oF es la misma que entre 90oF y
105oF, sin embargo en cuanto a la cantidad de calor, 90oF no es el
doble que 45oF y 0oF no significa ausencia de temperatura.
d) De razn: La escala de razn es una escala intervalar, nicamente que considera
un cero absoluto, esto es, los nmeros medios representan igual
nmero de unidades de distancia del cero absoluto, por lo tanto las
observaciones se pueden comparar a travs de razones o
porcentajes. Como ejemplos se puede mencionar las mediciones del
tiempo, la temperatura y la distancia entre otras.

Como se mencion anteriormente, el tipo de datos que se maneja en una investigacin


limita la utilizacin de algunos mtodos estadsticos para el anlisis de la informacin.
As, para describir datos cualitativos lo usual es utilizar mtodos grficos, ya que por las
caractersticas de las otras tcnicas, no es posible aplicarlas con ese tipo de

M. en I. Isabel Patricia Aguilar Jurez

16

Estadstica

Estadstica Descriptiva

informacin, mientras que para analizar datos cuantitativos (intervalares o de razn)


pueden aplicarse los tres tipos de tcnicas mencionadas anteriormente y en este caso,
como se dijo antes, se apoyan unas con otras, para lograr una mejor y ms amplia
descripcin del conjunto de datos.
En muchas ocasiones no es posible elegir la escala en la que se desea efectuar las
mediciones, sino que esta est determinada por el tipo de experimento que se
observar. De cualquier manera, el objetivo de presentar las cuatro escalas de
medicin no es preocuparse por realizar una clasificacin precisa de los datos en
alguna de las cuatro escalas, ya que en muchos casos puede haber ambigedad y no
resulta un problema sencillo, sino nicamente identificar entre los distintos tipos de
datos que usualmente se manejan, con el fin de determinar el tipo de tcnicas
utilizables en el anlisis de la informacin, as como cuidar la interpretacin que se
haga de los datos y de los resultados que a partir de ellos se generen.
Describiremos a continuacin cada una de las tcnicas de la estadstica descriptiva, as
como su aplicabilidad de acuerdo al tipo de datos que constituyan la muestra.

2.2 DISTRIBUCIN DE FRECUENCIAS

La construccin de Tablas de Distribucin de Frecuencias es una tcnica muy usual en


la estadstica ya que hace ms eficiente el anlisis de conjuntos grandes de datos. La
tabla de distribucin de frecuencias se utiliza principalmente para el anlisis de datos
cuantitativos, no obstante, tambin es comn realizar agrupaciones de datos
cualitativos, aunque realmente tales agrupaciones no son tablas de distribucin de
frecuencias propiamente dichas, sino solamente una organizacin de la informacin en
la que el objetivo es cuantificar el nmero de veces que se observ cada unidad de
informacin.

M. en I. Isabel Patricia Aguilar Jurez

17

Estadstica

Estadstica Descriptiva

Ejemplo 1.1
En los estudios demogrficos de un pas suele ser de inters la poblacin de cada una
de las diferentes razas: Blanca, China, Arabe, India, Negra, Mestiza. Se selecciona de
manera aleatoria un grupo de 2500 personas de la poblacin del pas y se investiga
cul es su origen. Los resultados se obtendran de manera personal, ya que seran las
respuestas a la pregunta cul es su raza de orgen?, sin embargo, un primer intento
para analizar la informacin es agruparla, y el resultado sera una tabla como la
siguiente:
Raza del
encuestado

Nmero de
personas

Blanca

500

China

800

Arabe

300

India

250

Negra

300

Mestiza

350

Definicin 1.1:
Una tabla de distribucin de frecuencias es una clasificacin de los datos en clases o
categoras de acuerdo a sus valores.

Este tipo de clasificacin es comn en la presentacin de datos econmicos, censales,


etc.

Un ejemplo tpico de una tabla de distribucin de frecuencias es la que se muestra a


continuacin.

M. en I. Isabel Patricia Aguilar Jurez

18

Estadstica

Lmites de
clase
-2
7
16
25
34
43

x< 7
x < 16
x < 25
x < 34
x < 43
x < 52

Tabla 1.1

Estadstica Descriptiva

Marcas de
clase
xi
2
11
20
29
38
47

Frecuencia Frecuencia
Frecuencia acumulada
relativa
fi
Fi
fi*
2
2
0.05
4
6
0.1
7
13
0.175
14
27
0.35
8
35
0.2
5
40
0.125
40
Tabla clsica de distribucin de frecuencias.

Frecuencia
relativa
acumulada
Fi*
0.05
0.15
0.325
0.675
0.875
1.000

Como se puede observar, una tabla completa de distribucin de frecuencias consta de


seis columnas cuyo contenido se explicar enseguida.
Si aceptamos que en la construccin de una tabla de distribucin de frecuencias se
realizar una clasificacin de los datos, resulta claro que es indispensable contar,
primeramente, con el criterio de clasificacin a utilizar, mismo que se define a travs de
los lmites de clase bien mediante las fronteras de clase.
Lmites de clase: Constituyen un intervalo semiabierto ( cerrado por la izquierda y
abierto por la derecha). Los datos en la muestra, que sean mayores o iguales al lmite
inferior de la clase y menor que el lmite superior de ella misma, pertenecern a la clase
en cuestin. Los lmites de clase tendrn la misma aproximacin que los datos, es
decir:
Aproximacin
de los datos
enteros
dcimas
centsimas

Aproximacin
de los lmites
enteros
dcimas
centsimas

Con este criterio se puede deducir de la tabla 1.1 que los datos que en ella se
agruparon eran todos nmeros enteros.

M. en I. Isabel Patricia Aguilar Jurez

19

Estadstica

Estadstica Descriptiva

Para que la agrupacin sea vlida, absolutamente todos los datos en la muestra se
deben poder clasificar con el criterio dado por los lmites, esto significa que ninguno
debe estar fuera de esta clasificacin. Por lo tanto, tambin podemos estar seguros de
que en la supuesta muestra agrupada en la tabla 1.1, ningn dato es menor que -2
como tampoco existe ningn dato mayor que 52.

Marca de clase (xi): Es el punto medio del intervalo de clase y se considera


representativo de los datos en dicha clase.
Frecuencia (fi): Es el nmero de datos de la muestra que corresponden a la clase en
cuestin. Para determinar la frecuencia de una clase, basta con realizar un conteo del
nmero de observaciones en la muestra, identificando aquellos datos que caen dentro
del intervalo indicado por los lmites de clase.

Frecuencia acumulada (F i): Es el nmero de datos en la muestra cuyo valor es menor


que el lmite superior de la clase en cuestin. Para calcular Fi basta contabilizar las
frecuencias observadas en la clase de inters y las anteriores. Esto es,
i

Fi = f j
j =1

Frecuencia relativa (fi* ): Es la proporcin de los datos en la muestra que pertenecen a


la clase en cuestin. Si denotamos por n al nmero de datos en la muestra y a i como
el nmero de la clase, la frecuencia relativa se expresa como sigue:
f *i =

fi = fi
m
n

j=1

en donde m es el nmero de clases construidas en la tabla de distribucin de


frecuencias.
Podramos identificar en este momento una primera relacin entre la probabilidad y la
estadstica, ya que si recordamos, la interpretacin frecuentista de la probabilidad
define la probabilidad de un evento como la frecuencia relativa con la que dicho evento

M. en I. Isabel Patricia Aguilar Jurez

20

Estadstica

Estadstica Descriptiva

ocurre en un nmero grande de repeticiones del experimento bajo estudio, por lo tanto,
si nuestra muestra fuera grande, podramos pensar que la frecuencia relativa de clase
se aproximara a la probabilidad de que la v.a. poblacional tome valores en dicha clase.
Evidentemente, se tendr una mejor aproximacin cuanto ms grande sea la clase.
Frecuencia relativa acumulada (F i*): Es la proporcin de los datos en la muestra que
son menores que el lmite superior de la clase en cuestin.
Fi
Fi
F*i = = m
n
f j
j =1

en donde nuevamente m es el nmero de clases construidas.

Por extensin, se puede concluir que la frecuencia acumulada relativa se asemeja a la


funcin de distribucin, y que la semejanza ser mayor siempre que la muestra sea
ms grande.
Lontigud de la clase: Se denota por c y es la diferencia entre los lmites superior e
inferior de una misma clase.

En este momento estamos en condiciones de interpretar la informacin contenida en


una tabla de distribucin de frecuencias, sin embargo queda an sin resolver el
problema importante de la construccin de una de ellas, a partir de un conjunto de
datos. Es claro que la agrupacin de datos en tablas es ventajosa puesto que permite
analizar la informacin contenida en la muestra, de una manera ms sencilla, dado que
disminuye el volumen de informacin con la que tendr que trabajar, sin embargo tiene
la desventaja de que al agrupar, se pierde precisin en los datos que se manejarn,
con una consecuente prdida en la precisin de las conclusiones que se obtengan a
partir de dicha informacin. Para evitar al mximo la prdida de informacin que provee
la muestra, es necesario cuidar la construccin1 de la tabla de distribucin de
1

Cabe aclarar que la que aqu se presentar es una forma particular de construccin de una tabla de
distribucin de frecuencias, no as la nica, ya que en este sentido no hay un consenso. Existen
algunas forma alternas de construccin, sin embargo, las diferencias que existen entre ellas son de
forma y no de fondo, por lo cual es relativamente sencillo interpretar la informacin contenida en otra
tabla de distribucin de frecuencias construida de alguna otra forma, y los resultados que de dicho
anlisis se obtengan no tendrn diferencias radicales con los generados mediante la construccin que
aqu haremos, atribuibles a la forma de realizar la agrupacin.

M. en I. Isabel Patricia Aguilar Jurez

21

Estadstica

Estadstica Descriptiva

frecuencias
y por ello es conveniente tomar en consideracin las siguientes
recomendaciones empricas:
1.- La tabla de distribucin de frecuencias constar de entre 5 y 20 clases, inclusive.
2.- Todas las clases sern de la misma longitud (c).

Mostraremos la forma de construccin de una tabla de distribucin de frecuencias, a


travs de un ejemplo.

Ejemplo 1.2

Considere los siguientes nmeros de inscripcin de algunos estudiantes de la Facultad


de Ingeniera. Agrpelos en una tabla de distribucin de frecuencias.
1045
784
491
3073
650
2045

802
847
1029
2002
55
415

2265
1123
1305
933
531
1400

1120
1249
923
985
2181
946

639
2526
1313
1565
2004
1703

1882
1370
2772
947
5308
2039

210
1767
1465
1303
1800

120
4623
193
460
1706

Resolucin
Recordemos que para que la tabla que se construya se pueda considerar adecuada
para analizar los datos, se requiere que contenga a todos los datos en la muestra. As,
es necesario conocer el rango en el que se encuentran los datos, para lo cual se tiene
la siguiente definicin:
Rango de la muestra: Es la diferencia entre los valores (datos) mayor y menor de la
muestra.
En este caso se tiene que
Rango = 5308 - 55 = 5253

M. en I. Isabel Patricia Aguilar Jurez

22

Estadstica

Estadstica Descriptiva

Para determinar ahora la longitud de clase, se puede empezar por establecer el


nmero de clases que conviene construir, para lo cual se puede considerar como valor
adecuado el resultado de calcular n
Esto es,
m=

46 7

Como el lmite inferior de la primera clase debe ser un valor un poco menor al mnimo,
5308 - 54
utilicemos 54. Por lo tanto, la longitud de clase ser
= 750.57 750
7
Por al razn utilizaremos c = 750.
Como ya dijimos, el lmite inferior de la primera clase ser 54. La tabla resultante ser
la que se muestra:
Lmites
54 - 804
804 - 1554
1554 - 2304
2304 - 3054
3054 - 3804
3804 - 4554
4554 - 5304
5304 - 6054

xi
429
1179
1929
2679
3429
4179
4929
5679

fi
12
17
12
2
1
0
1
1
46

Fi
12
29
41
43
44
44
45
46

fi*
0.2609
0.3696
0.2609
0.0435
0.0217
0.0000
0.0217
0.0217

Fi*
0.2609
0.6304
0.8913
0.9348
0.9565
0.9565
0.9783
1.0000

Descripcin grfica de los datos

Generalmente, cuando se desea hacer una presentacin clara de un conjunto de


datos, se elige una forma grfica. As, se acostumbra presentar grficamente los
resultados de una compaa, se hacen grficas comparativas de las utilidades de una
empresa, se hacen grficas que muestren la composicin de una poblacin (% de
hombres adultos, % de mujeres adultas, %de nios), etc.

M. en I. Isabel Patricia Aguilar Jurez

23

Estadstica

Estadstica Descriptiva

En realidad para todos es ms claro comprender cul es el comportamiento de un


conjunto de datos si ste se presenta de manera grfica, que si se muestra nicamente
a travs de valores numricos. Por ello, existen una gran variedad de grficas, sin
embargo utilizaremos solamente algunas de ellas.
Consideremos nuevamente el tipo de datos a manejar. Usualmente para la
representacin de datos cualitativos se utilizan, entre otros, dos tipos de grficas:
- Grficas de barras
- Grficas de sectores circulares ( grficas de pie).
Por su parte, para representar el comportamiento de datos cuantitativos existe tambin
una amplia variedad de posibilidades de grficas, pero nicamente presentaremos tres
de ellas:
- Histograma de frecuencias
- Polgono de frecuencias
- Ojiva o polgono de frecuencias acumuladas

1.- Histograma de Frecuencias

Es una grfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribucin de frecuencias y sus reas representan las frecuencias
absolutas o relativas correspondientes. Ntese que de acuerdo con esta definicin no
se requiere ms que un eje, en el cual se identificarn las marcas de clase conforme a
las clases que se hayan construido.
Cabe insistir en que en este caso tambin es solo una de las construcciones posibles o
conocidas, sin embargo tiene la ventaja de que es fcil encontrar la similitud entre el
histograma de frecuencias relativas, y el histograma de probabilidad que se construye
en probabilidad para las funciones de probabilidad. Por otro lado, se mantiene la
concepcin de la probabilidad de un evento como rea, que resulta til para la ms fcil
comprensin del concepto de funcin de densidad en el caso de variables aleatorias
continuas.
A continuacin se muestra el histograma de frecuencias absolutas para los datos del
ejemplo:

M. en I. Isabel Patricia Aguilar Jurez

24

Estadstica

Estadstica Descriptiva

Histograma de Frecuencias
18
16

17

14
12
10

12

12

8
6
4

2679

3429

4179

4929

5679

2
0

429

1179

1929

marcas de clase

Tambin es comn construir el histograma de frecuencias como una grfica en el plano


cartesiano, considerando a las frecuencias como las alturas de las barras, tal como se
muestra a continuacin.

frecuencias

Histograma de Frecuencias
18
16
14
12
10
8
6
4
2
0
429

1179

1929

2679

3429

4179

4929

5679

marcas de clase

2.- Polgono de Frecuencias

Es una grfica poligonal que representa para cada marca de clase la frecuencia de
dicha clase y se construye uniendo, mediante lneas rectas, los puntos medios de las
bases superiores de las barras del histograma de frecuencias. Es claro que tampoco se
requiere trazar ms que un eje, para hacer la grfica del polgono de frecuencias.

M. en I. Isabel Patricia Aguilar Jurez

25

Estadstica

Estadstica Descriptiva

Como caso particular se presenta a continuacin la grfica del polgono de frecuencias


de los datos del ejemplo anterior.
Polgono de Frecuencias
18
16

Frecuencia

14
12
10
8
6
4
2
0
429

1179

1929

2679

3429

4179

4929

5679

Marcas de Clase

Existe una forma alternativa de trazar la grfica del polgono de frecuencias, sin
necesidad de hacerlo sobre el histograma. Observe la siguiente grfica.

Polgono de Frecuencias
18
16
Frecuencias

14
12
10
8
6
4
2
0
429

1179

1929

2679

3429

4179

4929

5679

Marcas de Clase

M. en I. Isabel Patricia Aguilar Jurez

26

Estadstica

Estadstica Descriptiva

3.- Ojiva

Es una grfica poligonal que representa para cada lmite de clase la frecuencia
acumulada o la frecuencia relativa acumulada hasta dicha frontera. Cuando la que se
representa es la frecuencia relativa acumulada se le llama ojiva porcentual. A diferencia
de las grficas anteriores, para trazar esta grfica si es indispensable contar con los
dos ejes coordenados.
Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas,
sino solamente que una de ellas es el resultado de trasladar a la otra hacia arriba o
hacia abajo, dependiendo de cual se est tomando como base.
La ojiva porcentual es, adems, una aproximacin a la grfica de la funcin de
distribucin de la variable aleatoria que represente a la poblacin.
Ejemplo:

Considere la siguiente tabla de distribucin de frecuencias. Trace la ojiva


correspondiente.

Lmites
27 - 30
30 - 33
33 - 36
36 - 39
39 - 42
42 - 45
45 - 48
48 - 51
51 - 54

M. en I. Isabel Patricia Aguilar Jurez

xi
28.5
31.5
34.5
37.5
40.5
43.5
46.5
49.5
52.5

fi
2
3
9
5
2
4
3
1
1
30

Fi
2
5
14
19
21
25
28
29
30

fi*
0.667
0.1
0.3
0.167
0.667
0.133
0.1
0.033
0.033

Fi*
0.066
0.167
0.467
0.633
0.7
0.833
0.933
0.967
1

27

Estadstica

Estadstica Descriptiva

Polgono de Frecuencias Acumuladas


(Ojiva)
Frecuencia Acumulada

35
30
25
20
15
10
5
0
27

30

33

36

39

42

45

48

51

54

Lmites de Clase

Descripcin de los datos a travs de parmetros numricos

Desde luego es posible ya, mediante la tabla de distribucin de frecuencias y las


grficas hacer cierta descripcin del comportamiento de los datos en la muestra, pero
conviene estar conciente de que sabemos que las grficas pueden mentir, en el sentido
de que simplemente con un cambio de escala, variaciones que probablemente sean
pequeas se pueden ver muy grandes y viceversa, y la obtencin de valores que
caractericen a toda la muestra pueden solamente aproximarse, ya que como dijimos
antes, una representacin grfica puede no ser lo precisa que uno deseara, por lo que
adems de una grfica requerimos de valores que sean representativos del
comportamiento de los datos y que dependan nicamente de dichos datos. A estos
valores se les llama "parmetros numricos" y se utilizan para ayudar a describir el
comportamiento de la muestra con un poco ms de precisin.
Los parmetros numricos, por el tipo de informacin que dan, se clasifican en:

M. en I. Isabel Patricia Aguilar Jurez

28

Estadstica

Estadstica Descriptiva

- Medidas de tendencia central


- Medidas de dispersin
- Parmetros de forma
Presentaremos solamente los parmetros numricos que ms comnmente se utilizan.

1.- MEDIDAS DE TENDENCIA CENTRAL: Son valores que se encuentran dentro del
rango de la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados. Entre las ms usuales estn la media aritmtica, la mediana y la moda,
que estudiaremos a continuacin.
a) Media aritmtica
Es probablemente la medida de tendencia central de uso ms generalizado, se denota
por x (es muy importante que la x sea minscula, ya que la mayscula se utilizar ms
adelante para denotar algo diferente} y se define de la siguiente forma:
a) Si x1 , x2 , x3 , ... , xn son los datos contenidos en una muestra, y se encuentran
sin agrupar, entonces
n

x=

i =1

donde n es el tamao de la muestra.


Ntese que es la definicin que conocemos para el promedio usual de los datos en la
muestra.

b) Si los datos se encuentran agrupados en una tabla de distribucin de


frecuencias, y utilizamos el mismo concepto que para los datos sin agrupar, se
define la media aritmtica como:
m

x f
i

x=

M. en I. Isabel Patricia Aguilar Jurez

i =1

m
= xi f *i , puesto que f i = f *i
n
i =1

29

Estadstica

Estadstica Descriptiva

en donde
m es el nmero de clases
xi la marca de clase de la clase i, y
fi la frecuencia de la clase i

b) Mediana
Es el valor que divide al conjunto de datos de la muestra en dos conjuntos de igual
tamao, es decir, es aquel valor para el cual existen el mismo nmero de datos
menores o iguales a l que mayores o iguales a l. En otras palabras, la mediana es
aquel valor para el cual el 50% de los datos son menores o iguales a l.
Para calcular la mediana de la muestra cuando los datos no se encuentran agrupados
en una tabla de distribucin de frecuencias, se deben seguir los siguientes pasos:
1.- Se ordenan los datos en forma creciente.
2.- Una vez ordenados se tienen dos casos:
a) Si el nmero de datos es impar, la mediana es el valor central; aquel que se
n +1
encuentre en el lugar
en la ordenacin. Esto es:
2
~x = x n+1
2
b) Si el nmero de datos es par, la mediana ser el promedio de los dos datos
centrales en la ordenacin, es decir, de la datos que se encuentren en los
n
n
lugares
y
+1.
2
2
~x =

x n2 + x n2 + 1
2

Ejemplo:
En un proceso de manufactura, se observa el nmero de veces al mes que se detiene
el proceso durante un perodo de un ao, debido a fallas mecnicas de la maquinaria.

M. en I. Isabel Patricia Aguilar Jurez

30

Estadstica

Estadstica Descriptiva

Los datos obtenidos son los siguientes: 7, 4, 1, 3, 9, 2, 7, 8, 0, 7, 3, 2. Obtenga la


mediana del nmero de fallas.
Resolucin:
1) Ordenando los datos de menor a mayor se tiene:
0, 1, 2, 2, 3, 3, 4, 7, 7, 7, 8, 9
2) Dado que el nmero de datos es par, la mediana ser el promedio de los datos
que ocupan los lugares n/2 y (n/2) + 1 en la ordenacin, es decir, la mediana
ser el promedio de los datos que ocupen los lugares 6 y 7 en la ordenacin.
~x = 3 + 4 = 3.5
2

Si los datos se encuentran agrupados, para obtener la mediana se debe realizar una
interpolacin en la ojiva, como se indica a continuacin:
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe el
nombre de clase mediana.
2.- Graficar la ojiva correspondiente a la clase mediana.
Frecuencia Acumulada
Fi + 1
(0.5)n

Fi
Li

M. en I. Isabel Patricia Aguilar Jurez

Li + 1
Mediana

Lmites de clase

31

Estadstica

Estadstica Descriptiva

~x- Li
= F50% Fi
Li+1 - Li Fi+1 - Fi

; F50% =

n
2

n
- Fi
~x- Li
= 2
Li+1 - Li Fi+1 - Fi
n
( - Fi )( Li+1 - Li )
~x = 2
+ Li
Fi+1 - Fi

en donde:
Li es el lmite inferior de la clase mediana
Li+1 es el lmite superior de la clase mediana
Fi es la frecuencia acumulada hasta L i
Fi+1 es la frecuencia acumulada hasta L i+1
n es el tamao de la muestra
Ejemplo:
Los datos que se despliegan en la siguiente tabla de distribucin de frecuencias
provienen de un conjunto de observaciones de la duracin (en minutos) de las
llamadas telefnicas locales que se realizan en el D. F. Calcule la mediana de dichos
datos.
Lmites de
Marca de
Frecuencia
clase
clase
Frecuencia Acumulada
0 - 3
1.5
15
15
3 - 6
4.5
29
44
6 - 9
7.5
10
54
9 - 12
10.5
5
59
12 15
13.5
4
63
15 - 18
16.5
1
64
Resolucin:
La muestra es de tamao n = 64, por lo tanto, n/2 = 32
Por lo anterior, la clase mediana es la segunda, esto es, la mediana est entre 3 y 6.

M. en I. Isabel Patricia Aguilar Jurez

32

Estadstica

Estadstica Descriptiva

Frecuencia Acumulada
44
32

15
Lmites de clase
3

~
x

n
- Fi (L i+1 - Li )
2
(32 - 15)(6 - 3)
~
De donde, entonces, x =
+ Li =
+ 3 = 4.7586
44 - 15
Fi+1 - Fi

c) Moda
Se denota como mo y es aquella observacin que se repite con mayor frecuencia
dentro de la muestra. Puede existir ms de una moda en una misma muestra. De los
datos agrupados se puede considerar como moda, la marca de clase del intervalo con
mayor frecuencia.
Es importante hacer notar que a diferencia de la media aritmtica y la mediana, la
moda no necesariamente es un valor nico. Esto significa que en un mismo conjunto de
datos, pueden existir varias modas, aunque tambin puede ser nica.

2.- MEDIDAS DE DISPERSIN

Existen varias medidas de dispersin, y algunas de ellas (la mayora) se miden con
respecto a la media por ser esta ltima una medida que se encuentra alrededor del
centro del rango de la muestra, y considerarse una medida representativa de los datos.
Estas medidas nos permiten, adems de describir el comportamiento de la muestra,

M. en I. Isabel Patricia Aguilar Jurez

33

Estadstica

Estadstica Descriptiva

validar la representatividad de la media como caracterstica de todo el conjunto de


datos.
Rango
Tal vez la medida de tendencia central ms simple sea el rango que se defini para
construir la tabla de distribucin de frecuencias. Es una medida de dispersin
interesante, ya que proporciona informacin inmediata acerca de la variabilidad que
tienen los datos entre s.
Como se dijo antes, el rango se define como la diferencia entre los datos mayor y
menor en la muestra, esto es:
Rango = Dato mayor en la muestra - dato menor en la muestra.

Aunque el rango es una medida importante de dispersin, existen otras medidas, que
proporcionan informacin adicional acerca de dicha variabilidad, algunas de ellas las
definiremos a continuacin. Veamos:
Sean xi , i = 1, 2, ..., n los datos de la muestra. Para medir la dispersin promedio de los
datos con relacin a la media de la muestra, pensaramos inmediatamente en lo
siguiente:
n

(x - x )
i

i =1

,
n
sin embargo, si desarrollamos dicha suma, encontramos que
independientemente de cuales sean los datos considerados, ya que :

se

anula,

(x - x ) = x - x
n

i =1

i =1

i =1

x
pero por definicin

M. en I. Isabel Patricia Aguilar Jurez

x=

i =1

_ x = nx
i

i =1

34

Estadstica

Estadstica Descriptiva

x =nx

y por otro lado,

i =1

de donde:

(x - x ) = n x - n x = 0
i

i =1

esto es:

(x - x ) = 0
i

i =1

por lo cual no es til como medida de dispersin.


Para evitar la cancelacin de los signos en la suma, se tiene dos opciones:
1) Utilizar la funcin valor absoluto, lo cual da lugar a la desviacin media.
Desviacin media:
Sean x1 , x2 , x3 , ..., xn , los datos contenidos en una muestra, se define la desviacin
media como el promedio de los valores absolutos de las dispersiones alrededor de la
media, es decir,
n

|x -x|
i

d . m. =

i =1

n
Si los datos se encuentran agrupados en una tabla de distribucin de frecuencias, la
expresin para el clculo de la desviacin media se transforma en
m

| x - x| f
i

d . m. =

i =1

en donde m es el nmero de clases, xi es la marca de la clase i, y fi es la frecuencia


de la misma clase.

2) Utilizar una funcin cuadrtica. Esta


generalizada de resolver el problema.

M. en I. Isabel Patricia Aguilar Jurez

es

probablemente

la

forma

ms

35

Estadstica

Estadstica Descriptiva

Varianza:
Si xi (i=1,2,3 ,..,n) son los datos de la muestra, se define la varianza de la muestra (s2)
como:
n

(x - x
i

s2 =

i=1

en tanto que si los datos se tienen en forma agrupada, se calcular la varianza como
se indica a continuacin:
m

(x - x
i

s2 =

) fi

i=1

en donde, nuevamente, m es el nmero de clases, xi es la marca de la clase i-sima,


y fi representa la frecuencia de la misma clase.
La varianza, aunque es ms utilizada que la desviacin media, presenta el problema de
que sus unidades no coinciden con las de los datos de la muestra, ya que al elevar al
cuadrado se obtienen unidades cuadradas, por lo que su interpretacin podra resultar
un tanto confusa, sin embargo, la forma que se ha encontrado de resolver dicho
problema de unidades, consiste simplemente en extraer la raz cuadrada de dicha
medida, con lo cual el resultado se encontrar en unidades lineales, por tal razn se
define la desviacin estndar de los datos.
Desviacin estndar:
Se define la desviacin estndar de una muestra, como la raz cuadrada de la
varianza de la misma muestra, y se denota por s. Esto es:
s = s2

Coeficiente de variacin: Evita el tener que referirse a los datos para determinar la
magnitud de la variacin.
c.v. =

M. en I. Isabel Patricia Aguilar Jurez

s
x

36

Estadstica

Estadstica Descriptiva

Momentos
Los momentos en probabilidad, se calculan de la misma manera que en la mecnica,
solamente que, en la primera no tienen una interpretacin fsica y solo se utilizan como
una herramienta para la determinacin de ciertos parmetros.
Se puede definir con respecto a cualquier punto "a", pero las mas usuales son con
respecto al origen y con respecto a la media. Las definiciones correspondientes son:
El r-simo momento muestral con respecto al origen (m'r) se define como:
Si los datos se encuentran sin agrupar:
n

m'r =

i=1

donde xi son los datos en la muestra y n es el tamao de la muestra.


Si los datos se encuentran en forma agrupada:
m

m'r =

fi

i=1

i =1

donde xi son marcas de clase, fi son las frecuencias de clase y m es el nmero de


clases

El r-simo momento o momento de orden r, de la muestra con respecto a la media se


define como:
Si los datos se encuentran sin agrupar:
n

(x - x
i

mr =

i=1

donde xi son datos de la muestra y n es el tamao de la muestra.


Si los datos se encuentran agrupados:

M. en I. Isabel Patricia Aguilar Jurez

37

Estadstica

Estadstica Descriptiva

(x - x
i

mr =

) fi

i=1

i=1

donde xi es la marca de clase, fi la frecuencia y m el nmero de clases.


As la varianza es el segundo momento respecto a la media y la media es el primer
momento respecto al origen.

3.- PARMETROS DE FORMA

Coeficiente de sesgo o asimetra


El coeficiente de sesgo se denota por "a" y se define como: a = m33 , donde m3 es el
s
tercer momento respecto a la media.
De esta forma, si:

a<0
a>0
a=0

Curva Simtrica

M. en I. Isabel Patricia Aguilar Jurez

Sesgo negativo
Sesgo positivo
Simtrica

Curva Asimtrica (Sesgo positivo)

38

Estadstica

Estadstica Descriptiva

Coeficiente de curtosis
Es una medida del grado de apuntamiento de una distribucin. Se denota por k.
k = m44
s
< 3

k >3
=3

platicrti ca
leptocrti ca
mesocrtic a

0.8

0.6

0.4

0.2

-4

-2

2
x

Distribucin Mesocrtica

0.8
0.6
0.4
0.2

-4

-2

2
x

Distribucin Leptocrtica

M. en I. Isabel Patricia Aguilar Jurez

39

Estadstica

Estadstica Descriptiva

0.8
0.6
0.4
0.2

-4

-3

-2

-1

x2

Distribucin Platicrtica
Ejemplo:
Una muestra de 20 trabajadores de una Ca. obtuvieron los siguientes salarios en un
mes determinado: $240000, $240000, $240000,$240000, $240000, $240000, $240000,
$240000, $255000, $255000, $265000, $265000, $280000, $280000, $290000,
$300000, $305000, $325000, $330000, $340000.
Calcular: la media, mediana, moda, varianza, desviacin estndar, coeficiente de
desviacin, rango, coeficiente de sesgo, coeficiente de curtosis. Qu puede decir
acerca de los salarios?
Resolucin:
a)Media:
8(240000)+ 2(255000)+ 2(265000)+ 2(280000)+ 290000+ 300000+ 305000+ 325000+ 330000+ 340000
20

x = 270,500
b) Mediana: ~x =

x n + x n +1
2

255000 + 265000
= 260000
2

c) Moda = 240,000

M. en I. Isabel Patricia Aguilar Jurez

40

Estadstica

Estadstica Descriptiva

20

(x - x
i

d) Varianza: s 2 =

i=1

= 1,097,250, 000

20

e) Desviacin Estndar: s = 33,124.76


f) Coeficiente de variacin: c.v.=

s
= 0.1225 = 12.25%. Esto es que los datos se alejan
x

de la media un 12.25 %.
g) Rango= 100,000
20

h)Coeficiente de sesgo:

a = m33
s

(x
m3 =

- x )3

i =1

20

a = 0.75569 Es decir, los datos tienen sesgo positivo


i) k = m44 =
s

2.70311 x 1018
= 2.24
(33124.764 )4

La distribucin de los datos es platicrtica

Con estos datos, hacer una tabla de distribucin de frecuencias:


Rango = 100,000
# aproximado de clases = 20 = 4.47 5
Lmite inferior de la primera clase =235,000
c=105,000 / 5 = 21,000

Intervalos de clase
235,000 256,000
256,000 277,000
277,000 298,000
298,000 319,000
319,000 340,000
340,000 361,000

Marcas de
Frecuencia Frecuencia Frecuencia
Frecuencias Relativa Acumulada Acum. Relat.
clase
245,500
10
0.5
10
0.5
266,500
2
0.1
12
0.6
287,500
3
0.15
15
0.75
308,500
2
0.1
17
0.85
329,500
2
0.1
19
0.95
350,500
1
0.05
20
1
20

M. en I. Isabel Patricia Aguilar Jurez

41

Estadstica

Estadstica Descriptiva

Media: x =

x f

i i

i =1

5,477,000
= 273,850
20

Moda: Primera marca de clase. Mo=245,500


Mediana: ~x = 256,000
Rango= 361,000 235,000 = 126,000
11

(x - 273,850 )
i

Varianza: s =

i =1

fi
=

20

2.3175E + 10
= 1,158,727,500
20

Desviacin estndar: s = 34,040.0867


C.V. =

s
= 0.12430194 = 12.4302%
x

Coeficiente de sesgo: a = m33


s

11
(x i - x )3 f i
6.5721E + 14
i =1
=
= 3.286E + 13
m3 =
11
20
fi
i=1
a=

3.286E + 13
= 0.83310573 3
(34,040.08 67 )3

por lo tanto tiene un sesgo positivo

Coeficiente de curtosis: k = m44


s

M. en I. Isabel Patricia Aguilar Jurez

42

Estadstica

Estadstica Descriptiva

11
4
( xi - x ) f i
6.31528E + 19
=
= 3.15764E + 18
m4 = i = 1
11
20
fi
i=1
4
s 4 = ( 34,040.086 7 )

k = 2.351796702 ;

k<3,

M. en I. Isabel Patricia Aguilar Jurez

por lo tanto es platicrtica.

43

También podría gustarte