Está en la página 1de 33

Estadstica Descriptiva

Captulo 5
Objetivos:
-

Conocer las diversas medidas descriptivas de una muestra, con el fin


de mejorar la interpretacin de los datos, superando as las
limitaciones que pueden traer los anlisis grficos por parte de cada
investigador.
Diferenciar cada una de las medidas descriptivas de una muestra,
observando su complementariedad.
Profundizar en el manejo de informacin de carcter cuantitativo,
llegando a comparar diversos sistemas de datos en donde se
referencia la misma variable.
Aplicar el conocimiento adquirido al entorno especfico del estudiante.

Reflexin:
En una isla habitaban la felicidad, la tristeza,
la sabidura, y el amor, entre otros elementos
de la existencia humana.
Un da se supo que la isla se hundira. Todos
prepararon sus barcos para partir, con excepcin
del amor, que quera permanecer en su hogar hasta
el ltimo instante.
Cuando la mayor parte de la isla estaba ya bajo el
agua, el amor decidi pedir ayuda. En ese momento
pas
la riqueza en una imponente galera, y el amor le
pregunt:
- Riqueza, puedes ayudarme?
La riqueza le respondi:
- No, lo lamento. Llevo mucho oro y mucha plata en
mi barco. No hay forma de que quepas.
El amor se apresur entonces a pedirle ayuda a la
vanidad, que navegaba en un yate muy fino y
elegantemente adornado:
- Vanidad, podras ayudarme?
38

Estadstica Descriptiva

Y la vanidad contest:
- Perdname, Amor, pero ests mojado y lleno de
barro. No quisiera ensuciar mi lindo bote.
El amor vio a la tristeza:
- Tristeza, puedo ir contigo?
- Oh... Amor, -replic,- estoy tan triste que
prefiero estar sola.
La felicidad tambin rechaz la peticin, porque
estaba tan feliz que no quiso ocuparse de nada
que interrumpiera la dicha que senta.
De repente, el amor escuch una voz que lo
llamaba:
- Amor, ven, acrcate. Yo te llevo.
El amor estaba tan agitado, contento, y aliviado,
que no se le ocurri preguntar quin lo haba
salvado.
Al llegar a tierra firme, el amor cay en cuenta de
su olvido y queriendo saber a quin agradecer, le
pregunt a un anciano que contemplaba el ocano.
- Quin me ayud?
- Fue el tiempo.- afirm la sabidura.
- El tiempo? -cuestion incrdulo el amor- Por
qu?
Y la sabidura aclar:
- Porque el tiempo es capaz de entender la
grandeza
del amor.
Algunas veces dejamos de lado al amor.
39

Estadstica Descriptiva

Qu nos quedar cuando todo lo dems haya pasado?


Valoras, agradeces y disfrutas a quienes te aman?
Cul es el barco que ms navegas?

5. Medidas Descriptivas de una Muestra


Los grficos pueden presentar limitaciones para la descripcin y anlisis de
un conjunto de datos y las conclusiones que se derivan de ellos pueden
variar segn el juicio del investigador. Las limitaciones de los grficos
pueden obviarse con el uso de medidas descriptivas. stas son valores
nicos, representativos de un conjunto de datos y pueden ser de cuatro
clases:
-

Medidas
Medidas
Medidas
Medidas

de
de
de
de

tendencia central
dispersin o variabilidad
asimetra
curtosis

5.1. Medidas de Tendencia Central


En esta seccin definiremos una serie de medidas o valores que tratan de
representar o resumir a una distribucin de frecuencias dada, sirviendo
adems para realizar comparaciones entre distintas distribuciones de
frecuencias. Las medidas de tendencia central son promedios, es decir,
valores tpicos representativos de todo un conjunto de datos que tienden a
estar localizados en aquella parte de la distribucin, donde los datos tienden
a aglomerarse o a agruparse.
Las medidas de tendencia central ms usuales son:
- Media aritmtica o promedio
- Mediana
- Moda
5.1.1 Media aritmtica (promedio) (x)
5.1.1.1 Media aritmtica para datos sin agrupar (x)
Se utiliza cuando los datos no estn agrupados en una tabla de frecuencias
simples o en intervalos. La media aritmtica se define como la suma de
todos los datos, dividida por el nmero total de ellos. Si los datos fueran x 1,
x2, x3, ..., xn, su expresin sera:
n

x =
i=1

40

xi
n

Estadstica Descriptiva

En donde n es el nmero total de datos.


Ejempl
o 1:
Se pregunt acerca de las edades de un grupo de estudiantes de Derecho
Laboral, pertenecientes a la universidad, los resultados fueron:
21

23

19

25

27

36

21

24

22

20

19

20

23

El promedio de las edades de los estudiantes sera:


n

x =
i=1

x i 21231925273621242220192023
=
n 13
n

x =
i=1

Diramos entonces
aproximadamente

xi
= 23.1 aos = 23 aos
n

que se tiene

una

edad

promedio

de

23

aos

5.1.1.2 Media aritmtica ponderada ( X )


En primer lugar debemos saber que ponderar significa agrupar; cuando los
datos estn agrupados en una tabla de frecuencias simples o en una tabla
de frecuencias en intervalos y si llamamos x l, ..., xk a las categoras que
toma la variable en estudio, o a las marcas de clase de los intervalos en los
que se han agrupado dichos datos, y fa i,..., fak a las correspondientes
frecuencias absolutas de dichas categoras o marcas de clase, la media
aritmtica ponderada de la distribucin de frecuencias estar dada por:
k

x =
i=1

x i fa i
n

en donde n es el tamao de la muestra y k es el nmero total de categoras


que toma la variable o el nmero total de marcas de clase.
Ejemplo
2:
La media aritmtica ponderada para el nmero de hijos por familia en el
barrio Beln Rosales de la ciudad de Medelln (p 25) sera:

41

Estadstica Descriptiva
k

x =
i=1

x i fa i 11 03152433475264748294112
=
n
i=1 40
k

x i fa i
= 4.7 5 hijos
n

x =
i=1

es decir, las familias encuestadas tienen un nmero medio de hijos de


aproximadamente 5.
Ejempl
o 3:
Se midieron los niveles de hemoglobina a un grupo de 34 pacientes que
posean un extrao tipo de anemia (los valores estn en g/dl), siendo
valores normales los encontrados en el rango 14.0 18.0.
La tabla de distribucin de frecuencias en intervalos est dada por:
Li Ls

xi

fai

%fri

Faan

%Fran

7.5 9.0

8.25

8.8

8.8

9.0 10.5

9.75

23.6

11

32.4

10.5 12.0

11.25

10

29.4

21

61.8

12.0 13.5

12.75

10

29.4

31

91.2

13.5 15.0

14.25

2.9

32

94.1

15.0 16.5

15.75

5.9

34

100.0

fai =
34

%fri =
100.0

la media aritmtica ponderada, estara dada por:


k

x =
i=1

x i fa i 8 . 2539 . 75811 . 251012 .751014 . 25115 .752 388. 5


=
=
n
34
34
k

x =
i=1

x i fa i
= 11.4 g/dl
n

5.1.2 Mediana (Me)

42

Estadstica Descriptiva

La mediana es una medida de posicin, ocupa un lugar central en la serie


cuando los datos estn ordenados de menor a mayor o viceversa. Se define
como aquel valor de la variable tal que, al menos el 50% de los datos son
menores o iguales a l y al menos el 50% de los datos son mayores o
iguales a l.
Si la cantidad de datos (n) es impar, la mediana es igual al dato que ocupa
la posicin central. Si el nmero de datos es par, la mediana ser el
promedio de los dos datos centrales.
As, si en la siguiente distribucin de frecuencias,
xi

fai

Faan

7
ordenamos los valores en orden creciente: 0 0 0 1 1 2 2
el 1 ser el valor que cumple la definicin de mediana.
Lgicamente, cuando el tamao de la muestra (n) sea mayor, este
procedimiento resultara inviable. Por esta razn, daremos a continuacin
una frmula que permita calcularla. No obstante, ser necesario distinguir
los casos en los que los datos vengan agrupados en fila de datos (tabla de
frecuencias simples) de aquellos en los que vengan en intervalos.

5.1.2.1 Mediana para datos agrupados en tablas de frecuencias


simples:
Las grficas siguientes, correspondientes a un diagrama de frecuencias
absolutas acumuladas, recogen las dos situaciones que se pueden
presentar:

43

Estadstica Descriptiva

Si la situacin es como la de la figura de la derecha, es decir, si n/2 aparece


en la distribucin, tendr entonces un valor correspondiente en las
variables, as diremos que sta ser la mediana.
Si la situacin que se presenta es como la de la figura de la izquierda,
entonces la mediana queda indeterminada, aunque en este caso se toma
como mediana la media aritmtica de los dos valores entre los que se
produce la indeterminacin; as pues, si
Faaj-1 < n/2 < Faaj
entonces la mediana es

Ejempl
o 1:
La distribucin de frecuencias absolutas acumuladas en el ejemplo sobre el
nmero de hijos en el barrio Beln Rosales era:
Nmero de hijos (xi)

0 1 2

11

Frecuencias Acumuladas( Faan)

3 8

1
2

1
5

2
2

2
4

2
8

3
2

3
4

3
8

40

Como es n/2=20
15 < 20 < 22
44

Estadstica Descriptiva

la mediana ser Me=(3+4)/2.


Me = 3.5 = 4 hijos. Concluimos que el 50% de las familias tiene 4 hijos o
menos.

5.1.2.2 Mediana para datos agrupados en intervalos:


Las grficas siguientes, correspondientes a polgonos de frecuencias
absolutas acumuladas, nos plantean de nuevo dos situaciones diferentes a
considerar:

El ms sencillo, el de la derecha, en el que existe una frecuencia absoluta


acumulada Faaj tal que n/2 = Faaj, la mediana es Me = xj.
Si la situacin es como la que se representa en la figura de la izquierda, en
la que Faaj-l < n/2 < Faaj
entonces, la mediana, est en el intervalo (x j-1, xj], es decir entre xj-1 y xj,
tomndose en ese caso, por razonamientos de proporcionalidad, como
mediana el valor:
n
Faa j1
2
Me =Li
A
fa j
En donde:
Li corresponde al lmite inferior del intervalo que contiene la mediana.
n es el tamao de la muestra.
Faaj-1 es la frecuencia absoluta acumulada anterior a la que contiene a la
mediana.
fai es la frecuencia absoluta correspondiente a la mediana.
A es la amplitud del intervalo
45

Estadstica Descriptiva

Ejempl
o 2:
La distribucin de frecuencias del ejemplo de los niveles de Hemoglobina (p
38) es:
7.59.0

9.010.5

10.512.0

12.013.5

13.515.0

15.016.5

Frecuencia Absolu
fai
ta

10

10

Frecuencia
Acumulada

11

21

31

32

34

Intervalo

Li - Ls

Faan

Como n/2 = 17 y estar comprendido entre los datos dados


11 < 17 < 21
la mediana estar en el intervalo (10.5 , 12.0], y aplicando la frmula
anterior, ser
34
11
2
Me=10. 5
1 .5=11. 4
10
El 50% de los pacientes tendrn niveles de hemoglobina menores o iguales
a 11.4 g/dl
5.1.3 Moda (Mo)
La moda se define como aquel valor de la variable al que corresponde la
mxima frecuencia (absoluta o relativa). Para calcularla, tambin ser
necesario distinguir si los datos estn agrupados en una tabla de
frecuencias simples o en intervalos.
5.1.3.1 Moda para datos agrupados en tablas de frecuencias
simples:
Para datos agrupados en tablas de frecuencias simples, la determinacin del
valor o valores (ya que puede haber ms de uno) modales es muy sencilla.
Basta observar a qu valor le corresponde una mayor fai o %fri. Esa ser la
moda.

46

Estadstica Descriptiva

As en el ejemplo del nmero de hijos, la simple inspeccin de la tabla


siguiente proporciona como valor para la moda el Mo = 4.
Nmero de hijos (xi)

Frecuencias
Absolutas( fai)

11

El nmero de hijos ms frecuente por familia en la muestra del barrio Beln


Rosales es de 4 hijos, pues le corresponde la mayor frecuencia, la cual en
este caso es de 7.

5.1.3.2 Moda para datos agrupados en intervalos:


Si los datos se presentan agrupados en intervalos es necesario, a su vez,
distinguir si stos tienen o no igual amplitud. Si tienen amplitud constante A,
una vez identificado el intervalo modal (x j-1, xj], es decir el intervalo al que
corresponde mayor frecuencia absoluta fai; la moda se define, tambin por
razones geomtricas, como:
Mo=Li

fa i1
A
fa i1 fa i1

En donde:
Li es el lmite inferior que contiene la moda.
fai+a es la frecuencia absoluta correspondiente al intervalo posterior del
que contiene la moda.
fai-a es la frecuencia absoluta correspondiente al intervalo anterior del que
contiene la moda.
A es la amplitud del intervalo que contiene la moda.
Ejempl
o 1:
En el caso de los niveles de hemoglobina, vemos que presenta un caso de
distribucin bimodal, ya que tanto el intervalo (10'5 - 12] como el (12 - 13'5]
tienen frecuencia absoluta mxima. Deberamos aplicar, por tanto, para
cada uno de los dos intervalos la frmula anterior, determinando as las dos
modas de la distribucin. No obstante, este ejemplo presenta adems la
47

Estadstica Descriptiva

peculiaridad adicional de ser ambos intervalos modales contiguos. En esta


situacin se considera la distribucin unimodal, eligiendo como moda el
extremo comn, Mo = 12.
Por lo tanto el nivel ms comn de hemoglobina en la sangre de estos
pacientes es de 12 g/dl.

Ejempl
o 2:
Si los intervalos tuvieran distinta amplitud Ai, primero debemos normalizar
las frecuencias absolutas fai, determinando los cocientes siguientes:
c j=

fai
, i=1,2 ,. . . , k
Ai

y luego aplicar la regla definida para el caso de intervalos de amplitud


constante a los cj. Es decir, primero calcular el c j = max{c1,...., ck} para
determinar el intervalo modal [xj-1, xj) y luego aplicar la frmula
Mo=Li

c j1
A j
c j1 c j1

siendo Aj la amplitud del intervalo modal [xj-1, xj).

Las frecuencias normalizadas correspondientes al ejemplo sobre el test


psicolgico de la pgina 39, que posee intervalos con distinta amplitud
seran,
Li - Ls

fai

cj

0-20

0.4

20-30

0.9

30-40

12

1.2

40-45

10

2.0

45-50

1.8

50-60

10

1.0

48

Estadstica Descriptiva

60-80

0.4

80-100

0.2

con lo que el intervalo modal es el [40 - 45) y la moda, pues posee la mayor
frecuencia normalizada 2.0
Mo=Li

Mo=40

c j1
A j
c j1 c j1

1.8
5=43
1. 21 .8

Con lo cual podramos decir que la puntuacin ms frecuente en un test


psicolgico es de 43 puntos.

Ejempl
o 3:
A diferencia de lo que ocurre con la media o con la mediana, s es posible
determinar la moda en el caso de datos cualitativos. As, en el ejemplo del
tratamiento de radiacin seguido de ciruga (p 32) puede afirmarse que la
causa modal por la que no fue completado el tratamiento es Mo =
rehusaron ciruga.

5.2 Medidas de dispersin o variabilidad


Una medida de tendencia central por s sola no proporciona una descripcin
satisfactoria de un conjunto de datos. Es necesario el uso de una medida de
la variacin de los datos con respecto a los valores centrales, como los
calculados en la seccin anterior. Por lo general, las medidas de dispersin o
variabilidad se calculan comparando los datos de la distribucin con el dato
ms importante de las medidas de tendencia central: la media aritmtica.
Observemos la dificultad que puede ser el caracterizar los datos slo con
una medida de tendencia central.
La edad promedio de 3 jvenes de 18,19 y 20 aos es:
n

x =
i=1

x i 181920
=
=19 aos
n
3
49

Estadstica Descriptiva

Y la edad promedio de 3 integrantes de una familia con 5, 10 y 42 aos es:


n

x =
i=1

x i 51042
=
=19 aos
n
3

Aunque ambos grupos de datos presentan el mismo promedio, vemos como


el primer grupo de datos presenta una pequea dispersin, mientras que en
el segundo grupo es muy grande. La dispersin es una caracterstica muy
importante de un conjunto de datos. Por ejemplo una mquina productora
de tornillos milimtricos debe presentar una dispersin pequea en el
dimetro de los mismos, pues de lo contrario una alta proporcin de ellos
resultara defectuosos.
Las medidas de dispersin o variabilidad, a las cuales dedicaremos esta
seccin, tienen como propsito estudiar lo concentrada que est la
distribucin en torno a algn promedio. Las cuatro medidas de dispersin
ms utilizadas son:
-

Rango
Varianza
Desviacin estndar
Coeficiente de variacin

5.2.1 Rango
Nos indica la diferencia que existe entre el dato mayor y el dato menor de la
distribucin. Si xmax es el dato mayor o la ltima marca de clase, si es que
los datos vienen agrupados en intervalos, y xmin el dato menor o primera
marca de clase, llamaremos rango a
R=x

max

-x

min

Ejemp
los
En el ejemplo sobre el nmero de hijos por familia en el barrio Beln
Rosales:
Nmero de hijos (xi)

0 1 2 3 4 5

11

Frecuencias Absolutas( fai)

3 5 4 3 7 2

R = 11 0 = 11 hijos
50

Estadstica Descriptiva

Vemos aqu que el nmero de hijos vara en 11, siendo 0 el menor nmero
de hijos presentes y 11 el mayor nmero de hijos que tiene una familia,
mostrando una variabilidad relativamente alta.
Para los niveles de hemoglobina en la sangre para pacientes que padecen
un extrao tipo de anemia:
Intervalo

Li Ls

7.59.0

9.010.5

10.512.0

12.013.5

13.515.0

15.016.5

Marca de clase

xi

8.25

9.75

11.25

12.75

14.25

15.75

R = 15.75 8.25 = 7.5 g/dl


Observamos como el nivel de hemoglobina en la sangre para estos
pacientes vara en 7.5 g/dl, del mayor valor respecto al menor valor, lo que
muestra una variabilidad relativamente moderada.
La principal ventaja del rango es la de proporcionar una medida de la
dispersin de los datos entre el menor y el mayor valor. Nos permite
observar qu tanto varan los datos, o sea que tan amplia es la distribucin
de ellos.
5.2.2 Varianza para datos sin agrupar
La varianza mide el grado de dispersin de los datos respecto a la media
aritmtica. Si denotamos por x1,...,xn los datos, llamaremos varianza a la
comparacin de cada dato con su media aritmtica, as:
n

1
=
x x 2
n1 i=1 i
2

Ejempl
o 1:
Para las edades de los jvenes la varianza sera:
2=

1
[ 18192 1919 2 2019 2]= 12 [ 1 2 0 2 12 ]= 12 [ 2 ] =1 ao2
31

Ejempl
o 2:
En las edades de los integrantes de una familia:
51

Estadstica Descriptiva

2=

1
1
519 2 1019 2 4219 2 ]= [ 14 2 9 2 23 2 ]=
[
31
2

1
1
1
14 2 9 2 232 ]= [ 19681529 ]= [ 806 ] =403 aos2
[
2
2
2

Se observa entonces la gran diferencia en cuanto a la dispersin o


variabilidad que presentan las edades de los integrantes de una familia,
comparativamente con las edades de los jvenes, aunque sus promedios
sean los mismos.
5.2.2 Varianza para datos agrupados en tablas de frecuencias
simples o en intervalos de clase
Si los datos se encuentran agrupados en una tabla de frecuencias simples
(fila de datos) o en intervalos, la frmula para calcular la varianza debe
incluir a la frecuencia absoluta (fai) respectiva a cada una de las categoras
que toma la variable o a sus marcas de clase, segn sea el agrupamiento:
k

n x 2 fa i
2

i=1

i =1

x x fa i

n n1

En donde k = al nmero de categoras que toma la variable o a las marcas


de clase.
Ejemplo 1:
En el ejemplo sobre el nmero de hijos por familia en el barrio Beln
Rosales:
xi
0
1
2
3
4
5
6
7
8
9
11

fai
3
5
4
3
7
2
4
4
2
4
2
fai =40

%fri
7.5
12.5
10
7.5
17.5
5
10
10
5
10
5
%fri =
100%

Faan
3
8
12
15
22
24
28
32
34
38
40

52

%Fran
7.5
20
30
37.5
55
60
70
80
85
95
100

xi2fai
0
5
16
27
112
50
144
196
128
324
242
xi2fai =
1244

xifai
0
5
8
9
28
10
24
28
16
36
22
xifai =
186

Estadstica Descriptiva

Reemplazando en la frmula de la varianza, tendramos:


2

40 1244 186 4976034596 15164


=
=
=
=9 . 7 hijos2
40 401
40 39
1560
2

Ejempl
o 2:
Para los niveles de hemoglobina en la sangre de un grupo de pacientes con
un extrao tipo de anemia
Li - Ls

xi

fai

%fri

7.5 9.0

8.25

8.8

9.0 10.5

9.75

23.6

10.5
12.0

11.25

10

12.0
13.5

12.75

13.5
15.0
15.0
16.5

2=

Faan %Fran

xi2fai

xifai

8.8

204.2

24.75

11

32.4

760.5

78.0

29.4

21

61.8

1265.6

112.5

10

29.4

31

91.2

1625.6

127.5

14.25

2.9

32

94.1

203.1

14.25

15.75

5.9

34

100.0

496.1

31.5

fai =
34

%fri =
100.0

xi2fai =
4555.1

xifai =
388.5

34 4555. 1 388. 52 154873. 4150932. 3 3941. 1


=
=
=3. 5 (g/dl)2
34 341
34 33
1122

Existe ms dispersin en el primer grupo de datos (# de hijos por familia)


que en segundo grupo de datos (niveles de hemoglobina en la sangre)
La dificultad de la varianza radica en que sus unidades se encuentran al
cuadrado, dificultando su interpretacin y produciendo una falsa imagen de
la dispersin de la distribucin. Lo anterior se resuelve haciendo uso de la
desviacin estndar.

5.2.3 Desviacin Estndar


53

Estadstica Descriptiva

La desviacin estndar no es mas que la raz cuadrada positiva de la


varianza. As:
= 2

Ejempl
os:
En el ejemplo sobre el nmero de hijos por familia en el barrio Beln
Rosales:
= 9 . 7=3 .1 hijos
Para los niveles de hemoglobina en la sangre de un grupo de pacientes con
un extrao tipo de anemia
= 3 .5=1. 9 g/dl

5.2.4 Coeficiente de Variacin


La desviacin estndar sirve para medir de forma eficaz la dispersin de un
conjunto de datos entorno a su media. Desgraciadamente esta medida
puede resultar engaosa cuando tratamos de comparar la dispersin de dos
conjuntos de datos. As, si por ejemplo tenemos dos grupos de mujeres de
11 y 25 aos con medias y desviaciones tpicas dadas por la tabla siguiente:
Peso Medio

Desviacin Estndar

11 aos

40 Kg

2 Kg

25 aos

50 Kg

2 Kg

puede parecernos, al observar en ambos grupos una desviacin tpica igual,


que ambos grupos de datos tienen la misma dispersin. No obstante, como
parece lgico, no es lo mismo una variacin de dos kilos en un grupo de
elefantes que en uno de conejos. El Coeficiente de Variacin elimina esa
posible confusin al ser una medida de la variacin de los datos pero en
relacin con su media. Se define como:

C .V .= 100
x

54

Estadstica Descriptiva

siendo y x respectivamente la desviacin estndar y la media de la


distribucin en estudio y en donde el factor 100 tiene como nico objetivo el
evitar operar con valores decimales.
De la definicin de C.V. se deduce fcilmente que aquella distribucin a la
que corresponda mayor coeficiente tendr mayor dispersin.
Ejempl
os:
En el ejemplo anterior, al grupo de nias de 11 aos le corresponde un
coeficiente de variacin de igual a:
C .V .=

2
100=5
40

y al grupo de las mujeres de 25 aos


C .V .=

2
100=4
50

lo que indica que existe una mayor dispersin en los datos del grupo de
nias de 11 aos.
5.2.5. Regla emprica y Teorema de Tchebysheff
Aunque la desviacin estndar como la varianza no se pueden interpretar en
forma aislada, la desviacin estndar conjuntamente con la media si tiene
un significado prctico:
Si la distribucin de los datos es simtrica, con forma de campana
(distribucin normal), como se muestra a continuacin, podremos decir que:
-

El 68% de los datos se encuentran en una regin correspondiente a


una desviacin estndar alrededor de la media (x).
El 95% de los datos se encuentran en una regin correspondiente a
dos desviaciones estndar alrededor de la media (x2).
El 99% de los datos se encuentran en una regin correspondiente a
tres desviaciones estndar alrededor de la media (x3).
Datos por fuera de tres desviaciones estndar pueden eliminarse, sin
afectar la distribucin de los datos.

55

Estadstica Descriptiva

68%
95%
99%
Todos los intervalos anteriores son validos nicamente para los datos
muestrales y no necesariamente para toda la poblacin. Sin embargo si los
intervalos se calculan con la media (promedio) y desviacin estndar de la
poblacin entonces sern validos para toda la poblacin: De otro modo, si
la media y la desviacin estndar se han calculado a partir de muestreo
probabilsticos aleatorios, entonces los intervalos anteriores podrn dar una
idea aproximada de lo que pasa en toda la poblacin, sea sta un lote o un
proceso.
Lo anteriormente propuesto est basado en lo que se conoce como la Regla
Emprica; como su nombre lo dice estos resultados obtenidos han sido
deducidos de la experimentacin y no a travs de ninguna teora
matemtica.
Si la distribucin no tiene forma acampanada se tiene que recurrir a lo
desarrollado por Tchebysheff quien propone que:
-

El 75% de las observaciones


distancias que se encuentran a
de la media (x 2).
El 89% de las observaciones
distancias que se encuentran a
de la media (x 3).

deben estar contenidas dentro de


dos desviaciones estndar alrededor
deben estar contenidas dentro de
tres desviaciones estndar alrededor

56

Estadstica Descriptiva

El 94% de las observaciones deben estar contenidas dentro de


distancias que se encuentran a cuatro desviaciones estndar
alrededor de la media (x 4).

5.3 Medidas de Asimetra


Diremos que una distribucin es simtrica cuando su mediana, su moda y su
media aritmtica coincidan. Claramente la distribucin del ejemplo de los
niveles de hemoglobina es simtrica, mientras que para el nmero de hijos
del barrio Beln Rosales es asimtrica.
Diremos que una distribucin es asimtrica a la derecha si las frecuencias
(absolutas o relativas) descienden ms lentamente por la derecha que por la
izquierda. Si las frecuencias descienden ms lentamente por la izquierda
que por la derecha diremos que la distribucin es asimtrica a la izquierda.
Existen varias medidas de la asimetra de una distribucin de frecuencias.
Aqu estudiaremos dos de ellas.
5.3.1 Coeficiente de Asimetra de Pearson
Se define como:
A p=

x Me

siendo cero cuando la distribucin es simtrica, positivo cuando existe


asimetra a la derecha y negativo cuando existe asimetra a la izquierda.
Ejemp
lo:
- En el ejemplo del nmero de hijos Ap es igual a
A p=

4 . 73 . 5
=0 .39
3. 1

indicando una ligera asimetra a la derecha en la distribucin de frecuencias


correspondiente.
5.3.2 Coeficiente de Asimetra de Fisher

57

Estadstica Descriptiva

Cuando los datos estn agrupados en una tabla de frecuencias simples o en


intervalos, sera ms fcil calcular el coeficiente de asimetra utilizando la
siguiente frmula:
k

x i x 3 fai

A f = i=1

n 3

siendo xi las categoras que toma la variable o las marcas de clase.


La interpretacin del coeficiente de Fisher es la misma que la del coeficiente
de Pearson: si la distribucin es simtrica vale cero, siendo positivo o
negativo cuando exista asimetra a la derecha o izquierda respectivamente.
Nota: Excel calcula la asimetra utilizando la siguiente frmula, en donde
cada dato es comparado con su promedio, as:

n
x i x
n
Coeficiente de Asimetra =

n1 n2 i=1

Esta funcin caracteriza el grado de asimetra de una distribucin con


respecto a su media. La asimetra positiva indica una distribucin unilateral
que se extiende hacia valores ms positivos. La asimetra negativa indica
una distribucin unilateral que se extiende hacia valores ms negativos.
5.4 Medidas de Curtosis
La curtosis tambin es una medida relacionada con la forma de la
distribucin de los datos. La curtosis representa la elevacin o achatamiento
de una distribucin, comparada con la distribucin normal. Una curtosis
positiva indica una distribucin relativamente elevada, mientras que una
curtosis negativa indica una distribucin relativamente plana.
Si la distribucin de los datos es ms elevada que la distribucin normal
diremos que es leptocrtica, si es ms aplanada, diremos que es
platicrtica.
Para calcular la curtosis Excel utiliza la siguiente frmula:

n
xi x
n n1
Curtosis=

n1 n2 n3 i =1

3 n1 2
n2 n3

En donde n ser el nmero total de datos, xi es cada dato de la distribucin,


x es el promedio de todos los datos y es la desviacin estndar.
58

Estadstica Descriptiva

5.5 Ejercicios sobre medidas de tendencia central y medidas de


variabilidad
1. Cul de las siguientes aseveraciones relacionadas con el promedio de un
conjunto de datos es cierta?
a. La mediana es aquel que se obtiene sumando todos los datos y dividiendo
entre
el
nmero
total
de
datos.
b. La media se obtiene sumando el valor mayor y el valor menor de los
datos
y
luego
dividiendo
entre
2.
c. La moda es aquel dato que ms se repite.
d. La media es el doble de la mediana.
2. Determina la media del conjunto de cinco datos: { 1.5 , 4.2 , 9 , 25 , 16.17
}.
3. Encuentre la mediana del siguiente conjunto de ocho datos {3, 6, 8, 7, 9,
4, 1, 3}
4. Un experimento sobre el tiempo que toma una medicina para hacer
efecto resulta en los siguientes datos (en minutos): { 4, 7, 8, 5, 4, 6, 8,
9, 8, 7, 3 } Cul es el tiempo promedio segn la mediana?
5. La compaa Acme tiene 8 empleados. La siguiente tabla desglosa los
salarios anuales de cada empleado de la empresa. $16,000 $70,000
$14,000 $10,000 $12,000 $18,000 $12,000 $20,000 (En miles de
pesos) Cul es el salario promedio segn la media aritmtica?
6. La tabla en la figura resume las puntuaciones obtenidas en cinco
exmenes. Cul es la mediana?

59

Estadstica Descriptiva

7. El siguiente cuadro muestra la distribucin del ingreso anual (en millones


de pesos) que tuvieron 50 empresas:
Marca de Clase 18.85 21.55
N
de 3
2
Viviendas

24.25
7

26.95
7

29.65
11

32.35
11

35.05
9

a. Halle e interprete segn el enunciado


i.
Media, mediana y moda.
ii.
Desviacin estndar y coeficiente de variabilidad.
b. Estime el porcentaje de empresas con ingresos superiores o iguales a 26
millones de pesos pero menores que 32 millones.
c. Si los ingresos son menores que $28.300.000 se incrementaron en
$2.500.000 y los ingresos mayores o iguales que $28.300.000 se redujeron
en un 30%. Calcule la nueva renta promedio.
8. Una compaa requiere los servicios de un tcnico especializado. De los
expedientes presentados, se han seleccionado 2 candidatos: A y B, los
cuales renen los requisitos mnimos requeridos. Para decidir cual de los 2
se va a contratar, los miembros del Jurado deciden tomar 7 pruebas a cada
uno de ellos.
Los resultados se dan a continuacin:

Puntaje obtenido por A


Puntaje obtenido por B

Prueba
1
2
57
55
80
40

3
54
62

4
52
72

5
62
46

6
55
80

7
59
40

a. Halle e interprete la media, mediana y moda de los dos candidatos.


b. Estadsticamente Cul de los candidatos debe ser contratado?
Fundamente su respuesta.

60

Estadstica Descriptiva

9. Se toman las medidas de 80 personas las que tienen estatura media de


1.70 m y desviacin estndar de 3.4 cm. Posteriormente se verific que la
media usada tenia 4 cm de menos.
Rectifique los estadgrafos mencionados.
10. Una asistencia social desea saber cul es el ndice de natalidad en 2
barrios de Pereira para lo que encuest a 10 familias de cada barrio con los
siguientes resultados
A
B

0
3

6
4

1
1

2
4

3
2

1
3

4
1

3
5

6
4

4
3

a. Calcule la media, mediana y moda para cada barrio e interprtelos.


b. Considera Ud. que en el barrio B, el nmero de hijos por familia es ms
homogneo que en el barrio A.
11.El salario promedio en una ciudad es de $ 550.000 con una variancia de
$ 360.000. Cuales sern la nueva media y la nueva variancia si se efectan
los siguientes cambios:
a. Se aumenta $100.000 a todos
b. Se aumenta el 15 % de su salario a cada trabajador
c. Si se duplican los sueldos
12. En un examen 20 alumnos del curso A obtienen una media de 60
puntos. y desviacin estndar de 20 puntos
En el curso B los alumnos obtienen una media de 80 y desviacin estndar
de 16. Ante un reclamo se decide subir en 5% ms 5 puntos adicionales a
todos los alumnos del curso A, en cambio como hubo muchas copias en el
curso B se decidi disminuir la quinta parte de la calificacin.
Despus de los mencionados ajustes Cul es el puntaje medio de los 50
alumnos?
13. Los ingenieros industriales realizan peridicamente anlisis de
medicin de trabajo con el fin de determinar el tiempo requerido para
generar una sola unidad de produccin. En una planta de procesamiento
grande se registr durante 50 das el nmero de horas-obrero totales
requeridas por da para realizar cierta tarea. Los datos son:
128
113
146
124
100

119
109
128
131
112

95
124
103
133
111

97
132
135
131
150

124
97
114
88
117

128
138
109
118
122

142
133
100
116
97

98
136
111
98
116

108
120
131
112
92

a. Calcule la media, la mediana y la moda del conjunto de datos.


61

120
112
113
138
122

Estadstica Descriptiva

b. Determine el rango, la varianza y la desviacin estndar del conjunto de


datos.
c. Construya los intervalos a una, dos y tres desviaciones estndar alrededor
de la media y cuente el nmero de observaciones que caen dentro de cada
intervalo. Determine las proporciones correspondientes. Compare los
resultados de la regla emprica. Detecta Usted valores fuera del intervalo?
14. Un cientfico midi lospesos de varios elefantes en la india y encontr un
peso promedio por elefante de 10800 kg con una varianza igual a 338724
kg2 . Tambin midi el peso de las ratas y encontr una media de 476 g y
una varianza de 7569 g2 . Compare la variabilidad de los pesos de estos
animales. cul peso es ms homogneo? Explique.
15. Los precios promedios mensuales por kilogramo de tomate de alio en
el ao 2001 y 2002 fueron los siguientes:
200
1
200
2

ENE
950
101
0

FEB
110
0
125
0

MAR ABR MAY


108 990 110
0
0
900 145 130
0
0

JUN
100
0
120
0

JUL
995
980

AGO
106
0
960

SEP
104
0
920

OCT
115
0
880

NOV
100
0
960

DIC
100
0
120
0

Compare los conjuntos de datos e interprete:


a. Usando las medias y las medianas.
b. Usando las varianzas y las desviaciones estndar.
c. Usando los coeficientes de variacin.

Taller General de Repaso


1. Un importante bufete de abogados de la ciudad, preocupado por mejorar
sus servicios hacia sus clientes y hacia sus asociados realiz una
investigacin con el fin de determinar semanalmente el tiempo en horas que
invertan sus abogados en labores extraoficina; como revisin de procesos y
audiencias entre otros. Los datos recopilados fueron los siguientes:
62

Estadstica Descriptiva

Tiempo

# de

(horas)
1
2
3
4
5
6
7
8
9
10
Total

abogados
2
4
7
9
13
16
9
6
3
1
70

a. Complete la tabla de distribucin de frecuencias.


b. Realice la ficha tcnica.
c. Cuntos abogados y qu porcentaje gastan semanalmente menos de 8
horas?
d. Cuntos abogados y qu porcentaje utilizan semanalmente 6 o ms
horas?
e. Cuntos abogados y qu porcentaje invierten entre 5 y 9 horas?
f. Determine la media, la moda y la mediana e interprtelas.
g. Calcule la varianza (2), la desviacin estndar () y el coeficiente de
variacin de los datos. Explique segn estos resultados, cmo es la
dispersin de los datos respecto a la media.
2. Peridicamente, la Federal Trade Comisin (FTC, Comisin Federal de
Comercio) de Estados Unidos califica las marcas de cigarrillos nacionales
segn el contenido de alquitrn, nicotina y monxido de carbono. Los
resultados de los ensayos se obtienen mediante una mquina fumadora
secuencial que fuma los cigarrillos hasta reducirlos a una colilla de 23 mm
de largo. Luego se mide la concentracin de alquitrn, nicotina y monxido
de carbono (redondeada al miligramo ms cercano) en el material
particulado seco residual del humo.
a. A continuacin mostramos un histograma de SAS para el contenido de
alquitrn (TAR, en la grfica) de 372 cigarrillos ensayados en 1991. Resulta
til la regla emprica para describir la distribucin de los datos?

63

Estadstica Descriptiva

Porcentajes de alquitrn
35

30

30

25

20

Procentajes

20

15

15

12

11

10

1
0
1

Punto Medio de Alquitrn

b. La media y la desviacin estndar de los 372 contenidos de alquitrn son


11.60 mg y 4.97 mg respectivamente. Utilice esta informacin para
establecer un intervalo de dos desviaciones estndar alrededor de la media.
c. Con base en su respuesta de la parte a, estime el porcentaje de cigarrillos
cuyo contenido de alquitrn cae en el intervalo establecido en la parte b.
d. Utilice la informacin del histograma SAS para determinar el porcentaje
real de contenidos de alquitrn que caen dentro del intervalo establecido en
la pare b. Concuerda su respuesta con lo predicho en la parte c?
3. En fechas recientes se realiz un estudio de investigacin de mercado de
servicios de consultora en ingeniera para empresas industriales en el
medio oeste estadounidense. El objetivo principal del estudio fue recabar
informacin que permitiera a los ingenieros consultores comercializar
eficazmente sus servicios a las empresas industriales. De las 70 empresas
encuestadas 40 indicaron que no necesitan servicios de consultora en
ingeniera externos. La siguiente tabla proporciona las razones primarias
64

Estadstica Descriptiva

citadas por las empresas (sin necesidad) y el correspondiente desglose en


porcentaje para las empresas tanto grandes como pequeas que se
encontraron durante el estudio.
Razn

Empresa
s
Grandes
%
Se obtuvo ayuda de la oficina corporativa
62
No hay desperdicio; por lo tanto, no hay necesidad de
0
mejorar
No se planean mejoras
0
Se obtuvo ayuda de ingenieros
19
Falta familiaridad con las consultoras
10
Esperan reglamentacin
9
Otras razones
0
Totales
100

Empresas
Pequeas
%
30
32
24
6
2
0
6
100

a. Construya una grfica circular que describa las razones citadas para no
necesitar servicio de consultora en ingeniera en las empresas industriales
grandes.
b. Repita el punto anterior para las empresas industriales pequeas.
c. Compare las dos grficas de los puntos a y b detecta Usted diferencias
importantes en las razones citadas por las empresas grandes y pequeas?
4. Los ingenieros industriales realizan peridicamente anlisis de medicin
de trabajo con el fin de determinar el tiempo requerido para generar una
sola unidad de produccin. En una planta de procesamiento grande se
registr durante 50 das el nmero de horas-obrero totales requeridas por
da para realizar cierta tarea. Los datos son:
128
113
146
124
100

119
109
128
131
112

95
124
103
133
111

97
132
135
131
150

124
97
114
88
117

128
138
109
118
122

142
133
100
116
97

98
136
111
98
116

108
120
131
112
92

120
112
113
138
122

a. Calcule la media, la mediana y la moda del conjunto de datos.


b. Determine el rango, la varianza y la desviacin estndar del conjunto de
datos.
c. Construya los intervalos a una, dos y tres desviaciones estndar alrededor
de la media y cuente el nmero de observaciones que caen dentro de cada
intervalo. Determine las proporciones correspondientes. Compare los
resultados de la regla emprica. Detecta Usted valores fuera del intervalo?
65

Estadstica Descriptiva

5. Se muestrearon aleatoriamente 66 especimenes en bulto de mineral de


hierro aterronado procedente de Chile (tamao del 95% de las partculas:
150 mm) de un embarque de 35.325 toneladas de mineral y se determin el
porcentaje de hierro en cada espcimen. Los resultados se muestran en la
siguiente tabla:
Espcime
n Mineral

% de
Hierro

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

62.66
62.87
63.22
63.01
62.10
63.43
63.22
63.57
61.75
63.15
63.08
63.22
63.22
63.08
62.87
61.68
62.45
62.10
62.87
62.87
62.94
62.38

Espcime
n
Mineral
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44

% de
Hierro
61.82
63.01
63.01
62.80
62.80
63.01
62.10
63.29
63.37
61.75
63.29
62.38
62.59
63.92
63.29
63.57
62.80
62.31
63.01
62.94
63.08
63.43

Espcim
en
Mineral
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66

% de
Hierro
62.24
63.43
62.87
63.64
63.92
63.71
63.64
64.06
62.73
62.52
62.10
63.29
63.01
63.36
63.08
62.03
64.34
64.06
62.87
63.50
63.78
62.10

a. Realice la ficha tcnica del estudio.


b. Cite un posible objetivo de este procedimiento de muestreo.
c. Agrupe los datos utilizando al mtodo numrico visto.
d. Construya un histograma de frecuencia relativa para los datos.
e. Calcule el promedio y la desviacin estndar.
f. Determine el porcentaje del nmero total (n = 66) de observaciones que
caen dentro del intervalo x 2 . Concuerda este porcentaje con la regla
emprica?
6. En la universidad se realiz un estudio con el fin de registrar el tiempo
que los estudiantes de Estadstica Descriptiva invertan al estudio de dicha
66

Estadstica Descriptiva

materia semanalmente; para ello se estudiaron 50 jvenes que cursaban la


materia en el presente semestre. Los resultados observados se tabularon,
obtenindose los siguientes resultados:

Tiempo (horas)
3
4
5
6
7
8
Total

# de estudiantes
3
7
10
16
9
5
50

a. Realice la ficha tcnica.


b. Complete la tabla de distribucin de frecuencias.
c. Construya el polgono de frecuencias absolutas e interprtelo.
d. Cuntas estudiantes invierten semanalmente ms de 5 horas?
e. Qu porcentaje invierte en su formacin entre 4 y 7 horas?
f. Determine la media, la moda y la mediana, ubquelas e interprtelas.
g. Calcule la desviacin estndar (), la varianza ( 2) y el coeficiente de
variacin de los datos. Explique segn estos resultados, cmo es la
dispersin de los datos respecto a la media.
7. En el comit de seguridad de minas de carbn subterrnea del consejo
nacional de investigacin de Estados Unidos, se establecieron los factores
que distinguen a las minas ms seguras de las ms peligrosas. Se
recopilaron datos sobre 19 de las compaas con minas de carbn
subterrneas ms grandes. En la tabla se registra la tasa de lesiones
intermedias. (es decir, el nmero de lesiones incapacitantes que resultan
de derrumbes de techos y paredes, accidentes de acarreo, maquinaria,
explosivos por 200.000 horas trabajador) para cada una de las 19
compaas. Construya un diagrama de ramas y hojas para los datos.
Interprete los resultados.
Compaa
Old Ben
Bethlehem
Island Creek

Tasa de Lesiones
2.72
2.89
2.87

Consolidation
Mapco

2.98
3.17

Compaa
Tasa de Lesiones
Jones & Laughlin
5.11
American Electric
5.12
Rochester
&
5.39
Pittsburg
Pittston
6.19
Xiegler
6.83
67

Estadstica Descriptiva

U.S. Steel
Alabama
By- Product
Eastern Assoc
Peaboy

3.58
3.88
4.66
4.81
4.87

Freman
Republic
North American
West Moreland

6.84
7.47
7.68
8.71

8. Los ingenieros tienen un trmino para las acciones autnomas como


levantar, bajar, empujar, tirar de, acarrear o sostener y liberar un objeto:
actividades de manejo manual de materiales (MMHA) Se han tratado de
establecer pautas de fuerza y capacidad para las MMHA. Existe una
distincin clara entre fuerza y capacidad: la fuerza implica lo que una
persona puede hacer en un solo intento, mientras la capacidad implica lo
que una persona puede hacer durante un periodo de tiempo prolongado.
La siguiente tabla presenta una porcin de recomendaciones respecto a las
capacidades de levantamiento de hombres y mujeres. Esta tabla presenta
las medias y las desviaciones estndar del peso mximo en kilogramos de
una caja de 30 centmetros de anchura que puede levantarse desde el piso
hasta la altura de los nudillos con dos diferentes tasas de levantamiento: 1
levantamiento por minuto y 4 levantamientos por minuto.
Gnero
Hombres
Mujeres

Levantamientos/mi
nuto
1
4
1
4

Media
30.25
23.83
19.79
15.82

Desviacin
Estndar
8.56
6.70
3.11
3.23

a. Bosqueje aproximadamente la distribucin de frecuencias relativa del


peso del levantamiento mximo recomendado para cada una de las cuatro
combinaciones de gnero / levantamiento por minuto. La regla emprica le
ayudar a hacer esto.
b. Establezca el intervalo X 2 para cada uno de los cuatro conjuntos de
datos e indique la proporcin aproximada de determinaciones que caen
dentro del intervalo.
c. Suponiendo que las recomendaciones par MMHA son razonables.
Esperara Usted que un hombre medio pudiera levantar sin peligro una caja
de 30 cm de ancho con un peso de 25 kg desde el piso hasta la altura de los
nudillos a razn de 4 levantamientos por minuto? Podra hacerlo una mujer
media? Explique.
9. El proyecto de elementos txicos y sustancias orgnicas en el aire
(ATEOS, Airbome Toxic Elements and Organic Substances) se dise para
medir los niveles atmosfricos de ms de 50 compuestos txicos y
carcinognicos en varias reas de Nueva Jersey. El siguiente grfico muestra
las contribuciones estimadas de diversas fuentes al total de material
68

Estadstica Descriptiva

particulado inhalable. (IPM, medida en nmero de partculas) en la localidad


de Cadmen, Nueva Jersey.

Contribuyentes al IPM total


vehculos motorizados
10%

combustin de petrleo
6%
industria e incin
6%

residu
5%
resuspensin de suelos
15%

a. Cul fuente contribuye ms al IPM total?


b. Qu porcentaje del IPM total se debe a la industria, combustin de
petrleo o vehculos motorizados?
c. Transforme el grfico en otro en donde exponga la misma informacin.
Por qu escogi ese tipo especial de grfico? Explique.

sulfato secundario
58%

69

Estadstica Descriptiva

Bibliografa
Gutirrez, Armando. Fundamentos de matemticas y estadstica. Serie
Matemtica. Editorial Universidad de Antioquia. Medelln. 1988
Mendenhall, Probabilidad y estadstica para ingeniera y ciencias. Ed.
Prentice Hall. 1996
Porras, Jaime. Universidad Nacional Agraria la Molina. Departamento de
Estadstica e Informtica.
http://thales.cica.es/rd/Recursos/rd99/ed99-0278-01/inicio.html
Vctor Larios Osorio. Universidad Autnoma de Quertaro (Mxico).URL de
esta pgina: http://www.uaq.mx/matematicas/estadisticas/xu3.html.

70

También podría gustarte