Está en la página 1de 34

2

2
.
.


ESTADISTICA
DESCRIPTIVA


CONTENIDO
2 ESTADISTICA DESCRIPTIVA................................. 10
2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS .................................11
2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO .................................11
2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA ........ 14
2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA ....... 16
2.1.4 GRAFICAS DE SERIE DE TIEMPO ...........................................................22
2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE
FRECUENCIAS ................................................................................................... 25
2.2.1 MEDIDAS DE POSICION .......................................................................... 26
2.2.2 MEDIDAS DE DISPERSIN ...................................................................... 29
2.2.3 COEFICIENTE DE VARIACION .............................................................. 32
2.3 REGLA EMPIRICA ............................................................................................ 33
2.4 DIAGRAMAS DE CAJA O BOX - PLOT ......................................................... 34
2.5 TRANSFORMACIONES LINEALES ............................................................... 36
2.6 TRABAJO PRACTICO ...................................................................................... .38












ESTADSTICA DESCRIPTIVA 11
G.Carnevali-E.Franchelli-G.Gervasoni
2 ESTADISTICA DESCRIPTIVA

Una vez fijado el objetivo de estudio y en consecuencia definida la o las poblaciones asociadas,
se procede a la recoleccin de los datos (censo o muestra).

Considerando que el conjunto de datos constituye una muestra, en este captulo se estudian
algunas de las tcnicas ms usadas para:

la presentacin de los mismos en forma ordenada ( tablas y grficos)
el clculo de medidas resmenes.
Antes de analizar los datos es importante determinar primero si se recogieron datos cualitativos
o cuantitativos ya que se usan tcnicas estadsticas distintas para cada uno de ellos, por lo que
se pueden esperar resultados errneos si se aplica una tcnica inapropiada.

2.1 DISTRIBUCIONES DE FRECUENCIAS Y GRAFICOS

Una forma til de presentar un conjunto de datos es la distribucin de frecuencias.
2.1.1 DATOS CORRESPONDIENTES A UN ATRIBUTO

Ejemplo :
Los siguientes datos representan la condicin en Matemtica Discreta de los alumnos de la
carrera de Ingeniera en Sistemas de Informacin de la U.T.N., Reg. Rosario, inscriptos en la
asignatura Probabilidad y Estadstica, en el ao 2002

Condicin
Nmero de alumnos
n
k

Proporcin de alumnos
f
k

Aprobada 119 0,24
Regular 320 0,64
Cursada 13 0,03
Cursando 44 0,09
Sin cursar 3 0
Totales 499 1,00

Caracterstica en estudio: Condicin en Matemtica Discreta (variable cualitativa o atributo)

Para armar la distribucin de frecuencias se particion al conjunto de los 499 alumnos inscrip-
tos en Probabilidad y Estadstica en el ao 2002 en subconjuntos o clases segn los niveles
del atributo (en el ejemplo 5 niveles que se corresponden con las condiciones de: aprobada,
regular, cursada, cursando y sin cursar).
El nmero de elementos que pertenecen a cada clase recibe el nombre de frecuencia absolu-
ta (n
k
).
El cociente entre la frecuencia absoluta y el nmero total de observaciones recibe el nombre de
frecuencia relativa ( f
k
).
La suma de las frecuencias absolutas es igual al nmero total de observaciones y en conse-
cuencia, la suma de las frecuencias relativas es siempre igual a 1.
ESTADSTICA DESCRIPTIVA 12
G.Carnevali-E.Franchelli-G.Gervasoni
Es muy frecuente expresar a las frecuencias relativas como porcentaje; as en el ejemplo dire-
mos que slo el 24 % de los alumnos que cursaron Probabilidad y Estadstica en el 2002,
tenan aprobada la asignatura Matemtica Discreta.


REPRESENTACION GRAFICA


GRAFICO CIRCULAR O SECTORES (realizado en Excel, con asistente de grfico )


Condicin en Matemtica Discreta de los alumnos
que cursan Prob. y Estadstica - ao 2002
Aprobada
24%
Regular
64%
Cursada
3%
Cursando
9%
Sin cursar
0%





GRAFICO DE BARRAS (realizado en Excel con asistente de grfico)

Condi cin en Matemti ca Di screta de l os al umnos
i nscri ptos en Probabi l i dad y Estadsti ca - 2002
0,00
0,10
0,20
0,30
0,40
0,50
0,60
0,70
Aprobada Regular Cursada Cursando Sin cursar
Condicin
f
r
e
c
.

r
e
l
a
t
i
v
a



ESTADSTICA DESCRIPTIVA 13
G.Carnevali-E.Franchelli-G.Gervasoni
DIAGRAMA DE PARETO

Es un caso especial del diagrama de barras, que se usa con frecuencia en control de calidad.
Las barras se grafican en orden descendente. Puede tambin incluir una segunda escala (del
0 al 100), encima de las barras de las clases, que muestre los porcentajes acumulados.
Este tipo de diagrama lleva el nombre del economista italiano V. Pareto y en general represen-
ta la ley de Pareto, esto es: la mayor parte de los defectos aparece slo en unas pocas cate-
goras.


Ejemplo :

Un analista de redes registr las causas principales que propiciaron fallas en los sistemas
durante los ltimos seis meses, obteniendo el siguiente resultado:

Razn de la falla Frecuencia
Conexin fsica 1
Falla elctrica 8
Software del servidor 28
Hardware del servidor 4
Servidor sin memoria disponible 14
Ancho de banda inadecuado 1


Este resultado se presenta en un diagrama de Pareto (obtenido a travs del software estadsti-
co SPSS)

Razn de la falla
Conexin fsica
Ancho de banda
Hardware
Falla elctrica
Sin memoria
Soft servidor
C
o
u
n
t
60
50
40
30
20
10
0
P
e
r
c
e
n
t
100
50
0
4
8
14
28


ESTADSTICA DESCRIPTIVA 14
G.Carnevali-E.Franchelli-G.Gervasoni
2.1.2 DATOS CORRESPONDIENTES A UNA VARIABLE DISCRETA

Ejemplo :

Un distribuidor de aspiradoras registra el nmero de unidades vendidas por da durante un
perodo de 50 das. Los resultados obtenidos fueron:

84 88 87 89 88 89 88 91 87 85
88 89 90 88 87 91 86 89 85 88
86 90 89 84 91 92 89 88 94 90
87 89 91 86 90 89 91 92 89 88
85 88 87 88 91 87 92 90 85 87

Caracterstica en estudio: nmero de aspiradoras vendidas por da (variable discreta)

A fin de ordenar la informacin se particiona al conjunto de 50 das en clases, segn la variable
en estudio: nmero de aspiradoras vendidas por da y se realiza el cmputo de frecuencias
segn se indica en la siguiente:


DISTRIBUCION DE FRECUENCIAS



Valor de la
variable
x
k

Cmputo de
Frecuencias
Frecuencia
absoluta
n
k

Frecuencia
relativa
f
k

Frecuencia
absoluta acu-
mulada
N
k

Frecuencia
relativa
acumulada
F
k

84 // 2 0,04 2 0,04
85 //// 4 0,08 6 0,12
86 /// 3 0,06 9 0,18
87 //// // 7 0,14 16 0,32
88
//// ////
10 0,20 26 0,52
89
//// ////
9 0,18 35 0,70
90
////
5 0,10 40 0,80
91
//// /
6 0,12 46 0,92
92 /// 3 0,06 49 0,98
93 0 0,00 49 0,98
94 / 1 0,02 50 1,00
Total 50 1,00


La frecuencia absoluta acumulada ( N
k
) es la cantidad de elementos correspondientes a va-
lores de la variable menores o iguales a x
k
.

La frecuencia relativa acumulada ( F
k
) es la proporcin de elementos cuyo valor de la varia-
ble es menor o igual que x
k
.

ESTADSTICA DESCRIPTIVA 15
G.Carnevali-E.Franchelli-G.Gervasoni

REPRESENTACION GRAFICA

GRAFICO DE BASTONES (realizado en Excel con Anlisis de datos
1
)

El mismo se obtiene representando la frecuencia (absoluta o relativa) correspondiente a cada
valor de la variable mediante un segmento cuya longitud es proporcional a la frecuencia.























GRAFICO ESCALONADO



















1
Ver pasos a seguir para su utilizacin en el punto 2.7: Complemento para el uso de Excel, pag 45.
0
0,05
0,1
0,15
0,2
0,25
83 84 85 86 87 88 89 90 91 92 93 94
nmero de aspiradoras
f
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
0
0,2
0,4
0,6
0,8
1
83 84 85 86 87 88 89 90 91 92 93 94 95
Nmero de aspiradoras
F
r
e
c
.

r
e
l
.

a
c
u
m
u
l
a
d
a
ESTADSTICA DESCRIPTIVA 16
G.Carnevali-E.Franchelli-G.Gervasoni
dgitos tallo
dgitos hoja
8 5
11 7
Si el nmero de observaciones hubiese sido pequeo (supongamos las dos primeras colum-
nas), el tratamiento de la informacin se hara a travs de un:


DIAGRAMA DE PUNTOS






84 85 86 87 88 89 90 91

nmero de aspiradoras


2.1.3 DATOS CORRESPONDIENTES A UNA VARIABLE CONTINUA

Ejemplo:

Con el propsito de adecuar los objetivos curriculares de una escuela, se decide analizar la
realidad socioeconmica de la familia a la cual pertenecen los alumnos ingresantes en un
ao determinado. A tal fin se registran para cada uno de ellos (entre otros datos) la superfi-
cie cubierta de la vivienda que habita la familia del alumno ingresante. Los resultados obte-
nidos para 30 alumnos ingresantes seleccionados al azar fueron:

85 - 117 - 92 - 120 - 94 - 110 - 151 - 90 - 80 - 116 - 95 - 102 - 100 - 113 - 118 - 140 - 133 -
108 - 115 - 148 - 110 - 130 - 100 - 120 - 108 - 125 - 105 - 130 - 112 - 150

Caracterstica en estudio: superficie cubierta de la vivienda, en m
2
(variable continua).



DIAGRAMA DE TALLO-HOJA

Como un paso previo a la construccin de la distribucin de frecuencias, los datos pueden or-
ganizarse en un diagrama de tallo-hoja. En este tipo de diagramas, cada valor observado se
descompone en dgitos tallo y dgitos hoja.
En el ejemplo planteado, la decena y la centena de cada valor observado forman los dgitos
tallo y la unidad el dgito hoja.
As, para las dos primeras observaciones (85 y 117)
resultan:


Es conveniente presentar a los dgitos hoja ordenados en forma creciente para facilitar la pos-
terior utilizacin del diagrama tallo-hoja, tanto en forma grfica como tabular.
ESTADSTICA DESCRIPTIVA 17
G.Carnevali-E.Franchelli-G.Gervasoni
En el ejemplo, resulta el diagrama de tallo-hoja realizado con PHStat
2
:

8 0 5
9 0 2 4 5
10 0 0 2 5 8 8
11 0 0 2 3 5 6 7 8
12 0 0 5
13 0 0 3
14 0 8
15 0 1



DISTRIBUCION DE FRECUENCIAS

Otra forma de organizar la informacin es individualizando entre los datos, el valor mnimo (80
m
2
) y el mximo (151 m
2
) que asume la variable.
La diferencia entre ambos valores (en este caso 71 m
2
) se llama rango.
Los 28 valores restantes pertenecen al intervalo [ 80, 151].
Para poder realizar el respectivo cmputo de frecuencias, dicho intervalo se particiona en sub-
intervalos de igual amplitud. Cada uno de ellos identifica a una clase y recibe el nombre de in-
tervalo de clase.
Cuando se agrupan datos a travs de intervalos de clase, se produce una prdida de informa-
cin por la no conservacin de los valores individuales. Demasiados intervalos provoca prdida
de efectividad como medio de resumir datos; en cambio, pocos intervalos condensan tanto la
informacin que arrojan poca luz sobre el comportamiento de la caracterstica.
La eleccin del nmero de subintervalos est estrechamente relacionada con la cantidad de
datos que se consideran. Es comn usar entre 5 y 20 subintervalos.
Suele aplicarse una regla prctica que indica que el nmero de subintervalos es aproximada-
mente igual a la raz cuadrada del nmero de observaciones.
Para el ejemplo dado, se tomarn 6 subintervalos, dado que 30 =5,4772

Cuando se fijan los intervalos de clase, se debe tener en cuenta que:


Deben ser semiabiertos para que cada valor de la variable pertenezca a uno y slo
uno de los intervalos.
En el ejemplo : 79 < x 91 ( 79 , 91]


El punto medio de cada intervalo de clase debe ser un posible valor de la variable
(de acuerdo a las restricciones con las que se expresan los valores de las observa-
ciones).
En el ejemplo los puntos medios deben ser valores enteros a pesar de que la variable
es continua.


Es preferible, por facilidad en el anlisis, que los intervalos posean igual amplitud.

2
PHStat es un complemento estadstico para Microsoft Excel incluido en el CD que acompaa al libro Estadstica para Adminis-
tracin (2da edicin) de Berenson, M; Levine , D. y Krehbiel,T.; editorial Pearson Educacin, Mxico, 2001.
ESTADSTICA DESCRIPTIVA 18
G.Carnevali-E.Franchelli-G.Gervasoni
La tabla siguiente muestra la distribucin de frecuencias del ejemplo :


Intervalo de clase Punto medio
Frecuencia
absoluta
Frecuencia
relativa
Frecuencia
absoluta
acumulada
Frecuencia
relativa
acumulada
79 <x 91 85 3 0,10 3 0,10
91 <x 103 97 6 0,20 9 0,30
103 <x 115 109 8 0,27 17 0,57
115 <x 127 121 6 0,20 23 0,77
127 <x 139
133 3 0,10 26 0,87
139 <x 151 145 4 0,13 30 1,00
30 1,00



REPRESENTACION GRAFICA


HISTOGRAMA

Las bases de las barras tienen la longitud igual a la amplitud del intervalo de clase que
representan y se ubican sobre el eje de la abscisa.

El rea de cada barra es proporcional a la frecuencia del intervalo de clase.

Si los intervalos de clase son de igual amplitud, las alturas de las barras resultan propor-
cionales a las frecuencias de las clases. En caso de amplitudes diferentes, las alturas de-
ben ser calculadas para que se verifique la condicin anterior.

Para el ejemplo, se presenta a continuacin la distribucin de frecuencia y el histograma reali-
zado en Excel con Anlisis de datos:
3


Clases Frecuencia Frec. acumulada
79 0 0
91 0,10 0,10
103 0,20 0,30
115 0,27 0,57
127 0,20 0,77
139 0,10 0,87
151 0,13 1
163 0 1



3
Ver pasos a seguir para su utilizacin en el punto 2.7: Complemento para el uso de Excel, pag 45

ESTADSTICA DESCRIPTIVA 19
G.Carnevali-E.Franchelli-G.Gervasoni

0
0,05
0,1
0,15
0,2
0,25
0,3
79 91 103 115 127 139 151 163
Superficie cubierta (en m2)
F
r
e
c
u
e
n
c
i
a



Los histogramas son ms fciles de interpretar si los intervalos de clase tienen la misma ampli-
tud.
El histograma, al igual que el diagrama de tallo-hoja, proporciona una impresin visual del as-
pecto que tiene la distribucin de las observaciones, as como informacin sobre la dispersin
de los datos.
Al pasar de los datos originales o del diagrama de tallo-hoja a la distribucin de frecuencias y al
histograma, se pierde parte de la informacin debido a que ya no se tienen las observaciones
originales. Sin embargo, esta prdida en la informacin a menudo es pequea si se le compara
con la facilidad de interpretacin ganada al utilizar la distribucin de frecuencias y el histogra-
ma.
Para conjuntos de datos pequeos, los histogramas pueden cambiar claramente de apariencia
si el nmero de clases o el ancho de stas cambia. Los histogramas son ms estables si el
nmero de observaciones es grande.




POLIGONO DE FRECUENCIAS

Otra forma de representar grficamente la distribucin de frecuencias absolutas o relativas es a
travs del polgono de frecuencias.
Si se considera una distribucin de frecuencias con intervalos de clase de igual amplitud, el
polgono est referido a un sistema coordenado donde cada vrtice tiene por abscisa el punto
medio del intervalo y por ordenada la frecuencia del intervalo de clase.
Para hallar los puntos de iniciacin y finalizacin del polgono, se consideran dos intervalos
de clase (uno anterior al primero y otro posterior al ltimo) de igual amplitud a los restantes y de
frecuencia cero.
Se demuestra mediante la igualdad de tringulos que el polgono as construido encierra igual
rea que el histograma.


ESTADSTICA DESCRIPTIVA 20
G.Carnevali-E.Franchelli-G.Gervasoni
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
67 79 91 103 115 127 139 151 163
Sup. cubierta (en m2)
F
r
e
c
.

r
e
l
a
t
i
v
a

a
c
u
m
u
l
a
d
a

Para el ejemplo:






















POLIGONO DE FRECUENCIAS ACUMULADAS

De igual forma se puede construir el polgono de frecuencias acumuladas como se muestra en
la siguiente figura:





















0
0,05
0,1
0,15
0,2
0,25
0,3
73 85 97 109 121 133 145 157
sup. cubierta (en m2)
f
r
e
c
u
e
n
c
i
a

r
e
l
a
t
i
v
a
ESTADSTICA DESCRIPTIVA 21
G.Carnevali-E.Franchelli-G.Gervasoni
Se presenta a continuacin otro ejemplo sobre variable continua
4
:

Los datos de la siguiente tabla representan la resistencia a la tensin, en libras por pul-
gada cuadrada (psi), de 80 muestras de una nueva aleacin de aluminio y litio, que est
siendo evaluada como posible material para la fabricacin de elementos estructurales de ae-
ronaves.


Resistencia a la tensin de 80 muestras de aleacin de aluminio-litio
105 221 183 186 121 181 180 143
97 154 153 174 120 168 167 141
245 228 174 199 181 158 176 110
163 131 154 115 160 208 158 133
207 180 190 193 194 133 156 123
134 178 76 167 184 135 229 146
218 157 101 171 165 172 158 169
199 151 142 163 145 171 148 158
160 175 149 87 160 237 150 135
196 201 200 176 150 170 118 149


Los datos fueron registrados conforme se realizaba la prueba y en este formato no conllevan
mucha informacin con respecto a la resistencia a la tensin. No es fcil responder a preguntas
tales como Qu porcentaje de las muestras fallaron debajo de los 120 psi?.
Dado que se tienen muchas observaciones, la construccin de un diagrama de puntos para
estos datos es ineficiente; existen presentaciones visuales ms eficaces para conjuntos gran-
des de datos. Una de ellas es el ya visto diagrama de tallo y hoja:


Tallo Hoja Frecuencia
7 6 1
8 7 1
9 7 1
10 51 2
11 580 3
12 103 3
13 413535 6
14 29583169 8
15 471340886808 12
16 3073050879 10
17 8544162106 10
18 0361410 7
19 960934 6
20 7108 4
21 8 1
22 189 3
23 7 1
24 5 1

4
Ejemplo extrado de Probabilidad y Estadstica aplicada a la Ingeniera de Montgomery Douglas, Runger Geor-
ge.- Mc Graw Hill Mxico, 1996. pag. 5

ESTADSTICA DESCRIPTIVA 22
G.Carnevali-E.Franchelli-G.Gervasoni

Otra grfica apropiada es el histograma. Ntese en la figura siguiente la simetra de la distribu-
cin de frecuencias de las mediciones de resistencia.



2.1.4 GRAFICAS DE SERIE DE TIEMPO
5


Las grficas consideradas hasta el momento (histogramas, diagramas de tallo y hoja) son m-
todos visuales muy tiles para mostrar la variabilidad presente en los datos. Sin embargo, con
frecuencia el tiempo es un factor importante que contribuye a la variabilidad observada en los
datos, y los mtodos anteriores no lo toman en cuenta. Una serie de tiempo, o secuencia de
tiempo, es un conjunto de datos en los que las observaciones se registran en el orden en que
ocurren. La grfica de una serie de tiempo es un diagrama en el que el eje vertical denota el
valor observado (por ejemplo x), mientras que el eje horizontal denota el tiempo (que puede ser
minutos, das, aos, etc.). Cuando se grafican las mediciones como una serie de tiempo, a me-
nudo se observan tendencias, ciclos u otras caractersticas importantes de los datos que, de
otra forma, pasaran inadvertidas.
Por ejemplo, considrese la figura 1-18 a, la cual presenta la grfica de una serie de tiempo de
las ventas anuales de una compaa durante los ltimos diez aos. La impresin general que
ofrece esta grfica es que las ventas tienen una tendencia a crecer. Existe cierta variabilidad
en esta tendencia, donde, las ventas en algunos aos aumentaron con respecto a las del ao
anterior, mientras que las ventas de otros aos disminuyeron. La figura 1-18 b presenta las
ventas de los tres ltimos aos notificadas por trimestre. Esta grfica muestra de manera clara
que las ventas anuales de la empresa exhiben una variabilidad cclica por trimestre, donde las
ventas en los dos primeros trimestres son mayores que en los dos ltimos.




5
Extrado de Probabilidad y Estadstica aplicada a la Ingeniera de Montgomery Douglas, Runger George.- Mc
Graw Hill Mxico, 1996. pag. 33

ESTADSTICA DESCRIPTIVA 23
G.Carnevali-E.Franchelli-G.Gervasoni


a)


b)

Figura 1-18 Ventas de una compaa por ao a) y por trimestre b)





Algunas veces puede ser til combinar las grficas de serie de tiempo con alguno de los tipos
de presentacin grfica considerados hasta el momento, por ejemplo con los diagramas de
tallo y hoja, para formar un diagrama de dgitos y lneas.
La figura 1.19 presenta un diagrama de dgitos y lneas para las observaciones de resistencia
a la tensin del ejemplo de la pgina 23, que como se dijo, fueron registradas en el orden en
que ocurrieron.
Esta grfica indica de manera eficaz la variabilidad total de los datos de resistencia a la tensin
y, de manera simultnea, presenta la variabilidad en las mediciones con el paso del tiempo. La
impresin general es que la resistencia cambia alrededor del valor medio de 162,67, y no hay
ningn patrn obvio sobre esta variabilidad con respecto al tiempo.



ESTADSTICA DESCRIPTIVA 24
G.Carnevali-E.Franchelli-G.Gervasoni


El diagrama de dgitos y lneas de la figura 1.20 presenta una situacin diferente. Esta grfica
resume 30 observaciones sobre la concentracin de un producto obtenido mediante un proceso
qumico, donde las observaciones se registraron a intervalos de una hora. La grfica indica
que, durante las primeras 20 horas de operacin, el proceso produjo concentraciones en gene-
ral por encima de 85 g/l, pero despus de la muestra 20 algo ocurri con el proceso, que dio
como resultado concentraciones ms bajas. Si esta variabilidad en la concentracin del pro-
ducto puede reducirse, entonces es posible mejorar la operacin del proceso.



ESTADSTICA DESCRIPTIVA 25
G.Carnevali-E.Franchelli-G.Gervasoni
2.2 MEDIDAS CARACTERISTICAS DE UNA DISTRIBUCION DE
FRECUENCIAS.


Las medidas que resumen la informacin de una distribucin de frecuencias reciben el nombre
de:




ESTADISTICOS





de acuerdo a





la informacin que brindan






pueden ser de






POSICION DISPERSION












Media Media Mediana Moda Fractilas Rango Varianza
Desvo
estndar
Desvo Inter-
cuartlico
ESTADSTICA DESCRIPTIVA 26
G.Carnevali-E.Franchelli-G.Gervasoni

2.2.1 MEDIDAS DE POSICION


Se llaman tambin de tendencia central y estn referidas a la posicin de la distribucin de
frecuencias sobre el eje de las abscisas.



Ellas son :



NOMBRE NOTACION DEFINICION
Media aritmtica x Es el promedio de las observaciones
Moda x

Es el valor de la variable con mayor frecuen-
cia
Mediana x
~

Es el mnimo valor de la variable que acu-
mula, por lo menos, el 50 % de las observa-
ciones ordenadas en forma
creciente



Cuartiles


Fractilas Deciles


Percentiles



q
1
q
2
q
3


d
1
d
2
...... d
9



p
1
p
2
........p
99

Son los mnimos valores de la variable que
acumulan respectivamente, por lo menos :

el 25% , el 50% y el 75% de las obser-
vaciones ordenadas en forma creciente.

el 10% , el 20% ........el 90% de las ob-
servaciones ordenadas en forma creciente.

el 1% , el 2% ........ el 99% de las ob-
servaciones ordenadas en forma creciente.







ESTADSTICA DESCRIPTIVA 27
G.Carnevali-E.Franchelli-G.Gervasoni

Media aritmtica o promedio muestral

Es la ms conocida y utilizada de las medidas de posicin.
No coincide necesariamente con un valor de la variable.
Para el clculo del promedio de n observaciones de la variable X ( x
i
con i =1, 2,.......n ),
resulta:

=
=
n
i
i x
n
x
1
1
( 1 )


Si las n observaciones estn agrupadas en r clases , la frmula (1) resulta :



= =
= =
r
i
i i
r
i
i i f x n x x
n
1 1
1
( 2 )


En los casos en que las observaciones se encuentren agrupadas en intervalos de clase,
se le da a x
i
el valor del punto medio del intervalo de clase correspondiente.


Caractersticas del promedio:

Toma en consideracin toda la informacin por lo tanto es muy sensible a la influencia
de los valores extremos, lo que puede ser una ventaja o desventaja, segn la situacin.

Es una medida de posicin til para comparar dos o ms distribuciones, slo si stas
tienen forma semejante.



Moda

Es el valor de la variable con mayor frecuencia.

Caractersticas de la moda:

Algunos conjuntos de observaciones no poseen moda.

Algunos conjuntos de observaciones tienen ms de una moda.



Mediana

Es el mnimo valor de la variable que acumula, por lo menos, el 50 % de las observaciones
ordenadas en forma creciente, por tal razn es uno de los llamados estadsticos de orden.

5 , 0 )
~
( /
~
x F x


ESTADSTICA DESCRIPTIVA 28
G.Carnevali-E.Franchelli-G.Gervasoni
Caracterstica de la mediana:

Al no tomar en cuenta toda la informacin pues depende de la cantidad de observaciones y no de
la magnitud de ningn valor extremo, no es sensible a dichos valores extremos.


Fractilas

Se trabajan en forma similar a la mediana.


Ejercicios

1. Indique cmo calculara la mediana en los siguientes casos :


si se tiene un nmero impar de observaciones, por ej. : 7 , 12 , 15 , 10 , 4


si se tiene un nmero par de observaciones, por ej. : 4 , 17 , 15 , 10 , 12 , 7


si las observaciones se encuentran clasificadas en clases (ej. apartado 2.1.2, pag. 14)


si las observaciones se encuentran agrupadas en intervalos de clase (ej. apartado
2.1.3 , pag. 18 )

2. Los ltimos diez das de junio, el tren Costa Especial lleg tarde a su destino en los
siguientes nmeros de minutos ( un nmero negativo significa que el tren lleg con anti-
cipacin):

3 , 6 , 4 , 10 , - 4 , 124 , 2 , - 1 , 4 , 1

Qu medidas de posicin utilizara Ud. para :


mostrar que el tren ofrece un buen servicio?


mostrar que el tren ofrece un mal servicio?


COMPARACION DE MEDIA ARITMETICA, MEDIANA Y MODA

Distribucin Simtri ca





Media
Mediana
Moda
ESTADSTICA DESCRIPTIVA 29
G.Carnevali-E.Franchelli-G.Gervasoni
Distribuciones Asimtri cas o Sesgadas








Distribucin asimtrica a la derecha










Distribucin asimtrica a la izquierda




2.2.2 MEDIDAS DE DISPERSIN


Analizando comparativamente las siguientes distribuciones se observa que a pesar de que es-
tn igualmente centradas, los valores de la variable de cada una de ellas estn alejados del
promedio de manera distinta. Esta situacin hace ver la necesidad del estudio de otro tipo de
medida caracterstica de las distribuciones de frecuencias que son llamadas de dispersin.




ESTADSTICA DESCRIPTIVA 30
G.Carnevali-E.Franchelli-G.Gervasoni
Dicha informacin se obtiene a travs de los siguientes estadsticos de dispersin:


NOMBRE NOTACION DEFINICION

Rango
r
Es la diferencia entre el mayor
y el menor valor de las observa-
ciones
Varianza muestral

s
2
n-1


Es el promedio, aproximado, de
los cuadrados de las diferencias
entre los valores de las observa-
ciones y su correspondiente media
aritmtica

Desvo estndar muestral s
Es la raz cuadrada positiva de la
varianza.
Recorrido intercuartlico

r
iq

Es la diferencia entre el cuartil 3
y el cuartil 1.



Rango

Es la diferencia entre el mximo valor de las observaciones (x
M
) y el mnimo valor de las
mismas (x
m
)

r =x
M
- x
m

Proporciona una primera informacin sobre la dispersin de los valores pero basta que al
menos uno de los dos valores que intervienen en su clculo est excesivamente alejado pa-
ra que pierda importancia la informacin que brinda.


Varianza muestral

Es el promedio, aproximado, de los cuadrados de los desvos de las observaciones con res-
pecto a su media aritmtica.

( ) i
r
i
n
n x xi
n
s

=

=
1
2
2
1
1
1

Si el denominador hubiese sido n en lugar de n-1, se hubiera obtenido el promedio de los
cuadrados de los desvos de las observaciones con respecto al promedio de las mismas. Sin
ESTADSTICA DESCRIPTIVA 31
G.Carnevali-E.Franchelli-G.Gervasoni
embargo, n-1 se usa aqu debido a ciertas propiedades deseables del estadstico s
2
que lo
hacen apropiado para la inferencia estadstica. Si el tamao de la muestra es grande, la dife-
rencia entre s
2
n
y s
2
n-1
es despreciable.



La varianza est expresada en unidades al cuadrado, lo que representa una desventaja para
su interpretacin.


Desvo estndar muestral

Es la raz cuadrada positiva de la varianza muestral.


2
1
=
n
s s

Este estadstico tiene la ventaja de estar expresado en la misma unidad de las observacio-
nes


Recorrido intercuartlico

Es la diferencia entre el tercer cuartil y el primer cuartil.


r
iq
= q
3
- q
1


Se darn a continuacin las medidas caractersticas calculadas para los dos ejemplos trabaja-
dos con variable discreta y con variable continua. Las mismas fueron obtenidas en Excel con
Anlisis de datos, en la opcin Estadstica Descriptiva :



Para el ejemplo del apartado 2.1.2 correspondiente al nmero de aspiradoras vendidas
diariamente por un distribuidor, las mismas resultaron :

Nmero de Aspiradoras
Media 88,44
Error tpico 0,32
Mediana 88,00
Moda 88,00
Desviacin estndar 2,23
Varianza de la muestra 4,99
Curtosis -0,22
Coeficiente de asimetra 0,05
Rango 10
Mnimo 84
Mximo 94
Suma 4422
Cuenta 50

ESTADSTICA DESCRIPTIVA 32
G.Carnevali-E.Franchelli-G.Gervasoni
Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las
viviendas de los alumnos ingresantes a una escuela las mismas resultaron :

Superficie cubierta (en m2)
Media 113,90
Error tpico 3,41
Mediana 112,50
Moda 120,00
Desviacin estndar 18,70
Varianza de la muestra 349,54
Curtosis -0,33
Coeficiente de asimetra 0,35
Rango 71
Mnimo 80
Mximo 151
Suma 3417
Cuenta 30



2.2.3 COEFICIENTE DE VARIACION

Es una medida de variacin relativa. Se simboliza c.v. y es igual a :



100 . . .
x
s
v c =
Es el desvo estndar expresado como porcentaje de la media aritmtica, por lo tanto no viene
expresado en unidades.
Es til para la comparacin de la variabilidad relativa entre distribuciones que no estn expre-
sadas en la misma unidad de medida o bien, entre distribuciones que si bien estn expresadas
en la misma unidad, poseen promedios muy dispares.


Ejemplo :

En febrero del ao pasado, los datos de prstamos personales de una mutual mostraron
un promedio de $650 y una desviacin estndar de $300. Recientemente se calcul la
media y la desviacin estndar correspondiente a los prstamos personales de febrero
del presente ao resultando las mismas $ 900 y $ 350 respectivamente.
En cul de los dos aos los prstamos personales presentaron menor dispersin relati-
va?

c.v.
ao pasado
= ( 300 / 650 ) . 100 = 45%

c.v.
presente ao
= ( 350 / 900 ) . 100 = 39%


La menor dispersin relativa se presenta en los prstamos personales otorgados este
ao por la mutual.


ESTADSTICA DESCRIPTIVA 33
G.Carnevali-E.Franchelli-G.Gervasoni

2.3 REGLA EMPIRICA

Es posible que dos conjuntos de datos distintos tengan el mismo rango pero difieran conside-
rablemente en el grado de variacin de los datos. En consecuencia, el rango es una medida
relativamente insensible de la variacin de los datos. La varianza tiene importancia terica, pe-
ro es difcil de interpretar porque las unidades de medicin de la variable de inters estn ele-
vadas al cuadrado. En cambio, las unidades de medicin de la desviacin estndar son las
unidades de la variable. Si la desviacin estndar se combina con la media del conjunto de
datos, resulta fcil interpretarla. Una regla prctica til es la que se conoce como regla emp-
rica, a saber:

Si un conjunto de datos tiene una distribucin aproximadamente simtrica se pueden utilizar
las siguientes reglas prcticas para describir el conjunto de datos:


Aproximadamente el 68 % de las observaciones quedan a una desviacin estndar de su
media (es decir, dentro del intervalo s x )


Aproximadamente el 95 % de las observaciones quedan a dos desviaciones estndar de
su media (es decir, dentro del intervalo s 2 x )


Casi todas las observaciones quedan a tres desviaciones estndar de su media (es de-
cir, dentro del intervalo s 3 x )

La regla emprica es el resultado de la experiencia prctica de investigadores en muchas disci-
plinas, que han observado muy diferentes tipos de conjuntos de datos de la vida real.




Fuente : Estadstica Elemental. J ohnson Kuby pag 82

ESTADSTICA DESCRIPTIVA 34
G.Carnevali-E.Franchelli-G.Gervasoni

Con respecto al ejemplo del apartado 2.1.3 correspondiente a la superficie cubierta de las
viviendas de los alumnos ingresantes a una escuela, la media es 113,8 m
2
y la desvia-
cin estndar 18,267 m
2
.
Las proporciones del nmero total de observaciones que se esperara encontrar en
los intervalos s x , s 2 x y s 3 x segn la regla emprica, as como las propor-
ciones reales, se presentan en la siguiente tabla:


k x k s
Proporcin esperada de
observaciones en el in-
tervalo
Proporcin real de obser-
vaciones en el intervalo
1 95,533 132,067 0,68 0,67
2 77,266 150,334 0,95 1,00
3 58,999 168,601 Aproximadamente 1,00 1,00

En caso de conocer la distribucin de frecuencias, lgicamente se encuentran las proporciones
reales de las observaciones para los distintos intervalos y no se aplica la regla emprica.




2.4 DIAGRAMAS DE CAJA O BOX - PLOT


Representa los tres cuartiles junto con los dos valores extremos de las observaciones.
Los diagramas de caja que se presentan a continuacin ( confeccionados con PHStat ), corres-
ponden a los datos observados para las caractersticas nmero de aspiradoras vendidas y
superficie cubierta de la vivienda analizadas anteriormente en el desarrollo de las distribucio-
nes de frecuencias de las variables discretas y continuas, respectivamente.



N Aspiradoras
N Aspiradoras
82
84
86
88
90
92
94
96



ESTADSTICA DESCRIPTIVA 35
G.Carnevali-E.Franchelli-G.Gervasoni



Superfi ci e cubi erta
Superficie
70
90
110
130
150




El lado inferior de las cajas corresponde al primer cuartil, el lado superior al tercer cuartil y el
segmento que divide a las cajas al segundo cuartil. Un segmento de recta une el lado inferior
de las cajas con el mnimo valor observado y otro segmento une el lado superior de las cajas
con el mximo valor observado.





Constituyen una herramienta eficaz para el anlisis de la simetra de una distribucin de fre-
cuencias y su estudio comparativo con otras distribuciones.


ESTADSTICA DESCRIPTIVA 36
G.Carnevali-E.Franchelli-G.Gervasoni

DETECCION DE VALORES ANOMALOS (outliers)

Hay ocasiones en que un conjunto de datos contiene observaciones inconsistentes y es proba-
ble que no se desee incluirlas para su anlisis. Cuando dichas observaciones se salen del in-
tervalo de valores de datos que se quiere describir, se denominan valores anmalos u
outliers.
Una observacin x que es inusualmente grande o pequea en relacin con los dems valores
de un conjunto de datos se denomina valor anmalo.
Uno de los mtodos para determinar si una observacin es un valor anmalo es observar si el
valor absoluto de z es anormalmente grande.
El valor z de un valor x de un conjunto de datos es la distancia a la que se encuentra x
por arriba o por debajo de la media, medida en unidades de la desviacin estndar:




Estos valores por lo general son atribuibles a una de las siguientes causas:


La observacin se registra incorrectamente.


La observacin proviene de una poblacin distinta.


La observacin es correcta pero representa un suceso poco comn (fortuito)



2.5 TRANSFORMACIONES LINEALES

Supongamos una variable x con media aritmtica ( x ) y varianza ( s
2
x
) y una variable y
de la forma:

y = a +b x

Se demuestra fcilmente que:

x b a y + = ( media aritmtica de la variable y )


2
x
2
y
s b s
2
= ( varianza de la variable y )

s
y
= b s
x
( desvo estndar de la variable y )

En el caso b =1, lo nico que se hace es sumar una constante (a). La media aritmtica de la
nueva variable quedar incrementada en un valor igual al de la constante (a) y el desvo estn-
dar, que es una medida de dispersin, permanece igual.

En cambio, si la variable es multiplicada por una constante b 1, esto produce una contraccin
o una dilatacin de la distribucin (segn sea b menor o mayor que 1) lo que se refleja en la
varianza.


s
x - x
z Valor =
ESTADSTICA DESCRIPTIVA 37
G.Carnevali-E.Franchelli-G.Gervasoni
Ejemplo :

Sea la variable x : nmero de das completos trabajados en un ao por operario de una f-
brica.
Se conoce que el promedio de la variable x es 290,1 das con una desviacin de 2,2 das.
Cada da no trabajado ocasiona a la fbrica una prdida de $ 150.
Calcule la prdida anual promedio por operario y su desvo estndar (considere 300 das la-
borables en el ao).

y : prdida anual por operario

y
i
= ( 300 - x
i
) 150

de donde :

=( 300 - 290,1 ) 150 = $ 1485 prdida anual promedio por operario

s
y
= 150 . 2,2 = $ 330 desviacin estndar de la prdida anual por operario

y
ESTADSTICA DESCRIPTIVA 38
G.Carnevali-E.Franchelli-G.Gervasoni
2.6 TRABAJO PRACTICO

1.- Analice los siguientes grficos
6
. Comente.

a ) El siguiente grfico representa una reduccin ( en el ao 1990 con respecto al ao ante-
rior ) del 50% en el nmero de barriles de petrleo extranjero utilizado en el proceso de
manufactura de productos de pelculas por una empresa.







b)
















Quin creen los propietarios que es el lder en bienes races?






6
Los grficos fueron realizados por Diego Martnez Viademonte, alumno que curs la asignatura en el ao 2003
120,000
60,000
1989 1990
B
a
r
r
i
l
e
s
Liderazgo
3%
2%
2%
32%
11%
COLDWELL
BANKER
E.R.A.
GALLERY
CENTURY
otros
ESTADSTICA DESCRIPTIVA 39
G.Carnevali-E.Franchelli-G.Gervasoni

c)

Chevrolet. Los camiones ms formales y de mayor duracin.


Ms del 98% de los camiones Chevy vendidos durante los ltimos 10 aos siguen en el camino.




Chevrolet. Los camiones ms formales y de mayor duracin.


Ms del 98% de los camiones Chevy vendidos durante los ltimos 10 aos siguen en el camino.



Como una roca
95
96
97
98
CHEVY FORD TOYOTA NISSAN
Camin
P
o
r
c
e
n
t
a
j
e
Como una roca
0
10
20
30
40
50
60
70
80
90
100
CHEVY FORD TOYOTA NISSAN
Cami n
P
o
r
c
e
n
t
a
j
e
ESTADSTICA DESCRIPTIVA 40
G.Carnevali-E.Franchelli-G.Gervasoni
2.- En una editorial se clasificaron las publicaciones del ao anterior segn su carcter y se
obtuvo que el 45% de las publicaciones eran cientficas, el 17% tcnicas, 16% literarias,
12% artsticas y 10% de otro carcter.
Presente un informe respecto a las publicaciones de la editorial.

3.- Una fbrica de estreos desea estudiar la relacin entre el nmero de piezas defectuosas y
el momento de la jornada de trabajo en que se producen las mismas. Se fijaron tres pero-
dos de la jornada : 6 7 horas ; 10 11 horas y 13 14 horas y en cada uno de ellos se
observ durante treinta das el nmero de defectuosos. Los resultados obtenidos fueron:


1 perodo
4
8
1
10
4
6
3
4
5
6
10
5
4
7
8
6
10
6
3
9
7
7
6
5
6
6
5
7
9
5
2 perodo
6
3
2
6
4
6
5
5
7
9
8
8
5
6
6
7
4
6
6
4
5
7
7
6
4
6
6
5
5
7
3 perodo
4
11
5
12
6
9
9
14
8
12
10
9
12
11
11
13
12
12
10
11
9
13
9
14
10
12
8
10
7
13

Compare y concluya respecto de la relacin entre el nmero de piezas defectuosas y el mo-
mento de la jornada de trabajo.

4.- Los siguientes datos corresponden a los tiempos de duracin (en segundos) de 100 temas
de rock. Realiza un anlisis descriptivo completo de la informacin:


Tiempo Frecuencia
135 t < 145 8
145 t < 155 9
155 t < 165 18
165 t < 175 20
175 t < 185 35
185 t < 195 10



5.- A los efectos de organizar las compras de gaseosas para la fiesta de fin de curso de un
instituto, se le pregunt a cada uno de los 200 integrantes de la comunidad educativa la ga-
seosa preferida.

Completa la siguiente tabla a doble entrada considerando que:

el 20 % de los docentes y el 30 % de los alumnos prefieren naranja

de los no docentes , el 40 % prefieren cola y el 20 % prefieren pomelo

el porcentaje de alumnos que prefieren pomelo es igual al de los docentes que prefieren
la misma gaseosa

ESTADSTICA DESCRIPTIVA 41
G.Carnevali-E.Franchelli-G.Gervasoni

Integrantes

Gaseosa
Docentes No docentes Alumnos Totales
Cola
Pomelo 4
Naranja
Totales 40 10



6.- Una compaa de seguros registr entre sus asegurados el nmero de accidentes del ao
2003, obteniendo la siguiente informacin:


Edad del asegurado

N de accidentes
[18-28) [28-38) [38-48) [48-58)
58 y ms Totales
0 748 821 786 720 672
1 84 50 41 66 60
2 41 15 12 16 25
ms de 2 10 9 5 5 8
Totales

En base al cuadro anterior responde:

a) Qu porcentaje de asegurados no tuvo accidentes durante 2003?
b) Analiza en qu rango de edades hay el mayor y el menor porcentaje de asegurados
que tuvieron al menos un accidente.
c) Si la compaa decide no renovar el seguro a todos aquellos asegurados que hayan te-
nido ms de dos accidentes, cuntos asegurados estn en condiciones de renovar su
seguro en 2004?
d) Cul puede haber sido el objetivo de este estudio?
e) La compaa decide dar un premio del 5% de descuento sobre el valor de la pliza del
ao 2004 a todos aquellos asegurados que no sufrieron accidentes en 2003. El valor
promedio de cada pliza es de $ 3.200, cunto dejar de ganar la compaa en 2004
por la implementacin de dicho premio?

ESTADSTICA DESCRIPTIVA 42
G.Carnevali-E.Franchelli-G.Gervasoni

7.- La siguiente es la distribucin de frecuencias de los sueldos de los empleados administrati-
vos de una industria:



Sueldo ( x ) ( en $ )


Nmero de empleados
200 < x 400 10
400 < x 600 25
600 < x 800 40
800 < x 1000 10
1000 < x 1200 2

a) Calcule las medidas descriptivas que crea conveniente para representar los datos e in-
terprete sus resultados.
b) El sueldo promedio de los 1000 operarios de esa industria es de $ 490. Obtenga el
sueldo promedio para el conjunto de ambas categoras de empleados.
c) Si conociera la mediana y la moda para la categora de los operarios, podra calcular
esas medidas para el conjunto de todos los trabajadores de la industria?
d) Si se aumentara en un 10 % el sueldo de cada empleado, calcule sueldo promedio y
varianza.
e) Si a cada empleado se le aumenta el sueldo en 50 $, calcule sueldo promedio y va-
rianza.


8.- Los siguientes datos son mediciones de viscosidad de un producto qumico tomadas cada
hora (de arriba abajo y de izquierda a derecha).

47,9 48,8 48,6 43,2 43,0
47,9 48,1 48,0 43,0 42,8
48,6 48,3 47,9 43,5 43,1
48,0 47,2 48,3 43,1 43,2
48,4 48,9 48,5 43,0 43,6
48,1 48,6 48,1 42,9 43,2
48,0 48,0 48,0 43,6 43,5
48,6 47,5 48,3 43,3 43,0


a) Grafique de la manera ms conveniente.

b) Las especificaciones sobre la viscosidad del producto son 48 +2. Qu conclusiones
puede obtener sobre el desempeo del proceso?


ESTADSTICA DESCRIPTIVA 43
G.Carnevali-E.Franchelli-G.Gervasoni
9.- En un proceso de produccin interesa controlar el dimetro ( X ) de un tipo de lata ( en mm ).
Se seleccionan al azar 160 latas a las cules se les mide el dimetro y se obtiene la si-
guiente distribucin de frecuencias:

Dimetro de las latas Cantidad de latas
83,4 x < 83,5 3
83,5 x < 83,6 12
83,6 x < 83,7 21
83,7 x < 83,8 30
83,8 x < 83,9 47
83,9 x < 84,0 28
84,0 x < 84,1 19


a) Indique la caracterstica en estudio y clasifquela. D la unidad elemental asociada a la va-
riable o atributo. Grafique.
b) Calcule la media aritmtica, mediana, moda , desvo estndar. Analice la simetra.
c) De otra muestra de 200 observaciones del dimetro de la lata mencionada se obtuvo un
promedio de 83,93 mm con una desviacin estndar de 0,20 mm. Puede a partir de
estos datos encontrar el promedio de las observaciones de las dos muestras? En caso
afirmativo, encuntrelo. En caso negativo, justifique porqu.
d) Cul de la dos muestras (la primera de 160 observaciones y la segunda de 200 obser-
vaciones) presenta menor dispersin relativa? J ustifique la respuesta.

10.- Para comparar la capacidad de frenado de tres diseos de bandas de rodamiento, se mi-
di la distancia necesaria para detener un tipo de automvil que se desplazaba sobre pa-
vimento hmedo. Los neumticos de cada diseo fueron probados en el mismo vehculo
que circulaba sobre un pavimento hmedo controlado.

Diseo A Diseo B Diseo C
37 36 34 40 38 - 32 33 34 35 38 42 - 34 40 39 41 41 40 - 43

Construya un grfico de cajas para cada uno de los tres diseos y presente un informe
con sus conclusiones.

También podría gustarte