Está en la página 1de 12

ESTADSTICA DESCRIPTIVA

Cuando se toma una muestra de mediciones de una poblacin, uno termina con
un conjunto desordenado de datos que no aportan mucha informacin til. Un primer
paso para organizar estos datos es separarlos en categoras. Por ejemplo, supongamos
que nos interesa estudiar el nmero de huevos por individuo que pone el pequeo
cangrejo !antido. "n la tabla # aparecen las observaciones obtenidas para $% cangrejos&
#'%' $%($ )*+* ,)+% ,',$ )$+- '%(' '#,, +-*+
+$,+ $*** (()- )($( $#-' -')( $(+) +$#+ ),+$
#%$- $-*# )(- %(+# -$' %)$' ,-() -,(' )$#)
,*-+ #*+$# ',+ (-'$ #-*# %*'' ,,+) $$-$ %,((
$#$- ,%-- %-$) $,(+ ,$)+ -()+ -++% ,#$+ #*#(*
.abla #
/o mejor es elegir de % a +* categoras de igual longitud dependiendo del nmero de
datos, pocas categoras para pocos datos 0 un nmero ma0or para muchos datos. Una
frmula emprica til para guiarse en este c1lculo es por medio de la regla de 2turges&
n N log (++ . ( #+
donde N es el nmero de categoras 0 n, el nmero de datos de la muestra. "n este caso
*(+$ . , $% log (++ . ( # + N
, que redondearemos a , N categoras.
/uego, determinamos el rango de los datos, definido como la diferencia entre los
valores m13imo 0 mnimo de los datos,
mnimo valor m13imo valor rango
que en este caso es&
'%*( )(- #*+$# rango
Para encontrar la longitud mnima requerida para cada categora, dividimos el rango
entre el nmero de categoras, N.
-( . #%-(
,
'%*( rango
categora cada para requerida mnima longitud
N
"n la pr1ctica, usaremos una longitud de categora, h, que se obtiene redondeando por
e3ceso la longitud mnima hasta un valor con el mismo nmero de cifras decimales que
los datos. Como los datos vienen dados en nmeros enteros, redondeamos la longitud
mnima, #%-(.-(, por e3ceso, hasta el nmero entero m1s pr3imo, o sea, #%-$.
"ntonces,
#%-$ categora de longitud h
,%
/a primera categora empieza 4 unidad debajo de la observacin m1s pequea. Puesto
que los datos tienen valores enteros, una unidad es uno 0 empezamos la primera
categora 4 unidad # 5 *.% por debajo de la observacin m1s pequea. 6s que el
lmite inferior para la primera categora ser1 % . )() % . * )(- . /os lmites,
i
L
para
las restantes categoras se obtienen sumando i veces la longitud de categora al lmite
inferior, es decir, que
N i ih L
i
..., , + , # para , inferior lmite +
con lo que se obtiene )().%, +(+#.%, ('*%.%, %$-'.%, )*)(.%, -,%).% 0 #*+$#.%.
7bservemos que los lmites tienen una cifra decimal m1s que los datos, por lo que
ningn dato puede coincidir con un lmite8 cada dato debe pertenecer estrictamente a
una sola categora. /uego, contamos el nmero de observaciones dentro de cada
categora.
Categora /mites 9recuencia 9recuencia
relativa
9recuencia
acumulada
9recuencia relativa
acumulada
# )().% a +(+#.% , ,:$% 5 *.#(( , ,:$%
+ +(+#.% a ('*%.% % %:$% 5 *.### ## ##:$%
( ('*%.% a %$-'.% #* #*:$% 5 *.+++ +# +#:$%
$ %$-'.% a )*)(.% ## ##:$% 5 *.+$$ (+ (+:$%
% )*)(.% a -,%).% - -:$% 5 *.#)- $* $*:$%
, -,%).% a #*+$#.% % %:$% 5 *.### $% #
.abla +.
Histograma
Por ltimo, construimos un histograma de frecuencias como el que aparece en la figura
uno, que es un diagrama de barras o rect1ngulos verticales construidos tomando como
base los intervalos de cada categora 0 una altura igual a la frecuencia o a la frecuencia
relativa de las observaciones contenidas dentro de cada intervalo. 2i la altura de los
rect1ngulos es igual a la frecuencia de las observaciones contenidas en el intervalo, el
histograma se llama de frecuencias 0 si las alturas son las de las frecuencias relativas, el
histograma se llama de frecuencias relativas.
Polgono de frecuencias
Una distribucin de frecuencias puede representarse gr1ficamente en otra forma
por medio de un polgono de frecuencias. Para dibujar un polgono de frecuencias,
primero ponemos un punto e3actamente arriba del punto medio del intervalo de cada
categora a una altura igual a la frecuencia o a la frecuencia relativa de las
observaciones dentro del intervalo. ;espu<s, conectamos los puntos por medio de lneas
,,
rectas formando as el polgono de frecuencias. "n la figura +, se muestra el polgono de
frecuencias relativas correspondiente a los datos de la tabla #.
9igura #. =istograma de frecuencias relativas
9igura +. Polgono de frecuencias relativas
,)
Distribuciones de frecuencia acumulada
/a frecuencia total de todos los valores menores que el lmite superior de cada
categora se conoce como frecuencia acumulada hasta esa categora inclusive. Por
ejemplo, como puede verse en la quinta columna de la tabla +, la frecuencia acumulada
hasta la categora %$-'.% a )*)(.% es de (+, lo que significa que (+ cangrejos !antido
ponen )*)(.% huevos o menos.
Una gr1fica que muestre las frecuencias acumuladas menores que los lmites
superiores de todas las categoras se llama polgono de frecuencias acumuladas, ojiva o
distribucin de frecuencias acumuladas.
Distribuciones de frecuencia relativa acumulada
/a frecuencia relativa acumulada o frecuencia porcentual acumulada es la
frecuencia acumulada dividida por la frecuencia total. Por ejemplo, como se ve en la
se3ta columna de la tabla +, la frecuencia relativa acumulada hasta la categora que va
de %$-'.% a )*)(.% es de (+:$% 5 *.)##, lo que significa que el )#.#> de cangrejos
!antido pone )*)(.% huevos o menos.
Una gr1fica que muestre las frecuencias relativas acumuladas menores que los
lmites superiores de todas las categoras se llama polgono de frecuencias relativas
acumuladas, ojiva porcentual o distribucin de frecuencias relativas acumuladas.
"n la figura ( aparece la gr1fica de la distribucin de frecuencias relativas
acumuladas para el ejemplo de los cangrejos !antido, que se puede construir a partir de
la tabla +.
edidas de tendencia central
6unque las distribuciones de frecuencia tienen propsitos tiles, ha0 otras
situaciones que requieren otra manera de presentar los datos. Por eso, introduciremos
algunas medidas descriptivas para resumir los datos. /as medidas descriptivas pueden
calcularse a partir de los datos de una muestra o los datos de una poblacin. Para
distinguir entre ellas usaremos las siguientes definiciones&
#. Una medida descriptiva calculada a partir de los datos de una muestra ser1 llamada
un estadstico.
+. Una medida descriptiva calculada a partir de los datos de una poblacin ser1
llamada un par1metro.
,-
9igura (. ;istribucin de frecuencias relativas acumuladas.
=a0 varios tipos de medidas descriptivas que pueden calcularse a partir de un
conjunto de datos, pero limitaremos nuestra atencin slo a dos tipos& medidas de
tendencia central 0 medidas de dispersin.
"n cada una de las medidas de tendencia central consideramos que un solo valor se
considera tpico de un conjunto de datos como un todo. /as medidas de tendencia
central centran la informacin considerando el valor promedio de un conjunto de
valores aunque la palabra promedio puede definirse de varias maneras.
/as tres medidas de tendencia central m1s comunes son la media, la mediana 0 la
moda.
edia aritm!tica
/a m1s famosa de las medidas de tendencia central es la media aritm<tica 0 se
obtiene sumando todos los valores de una muestra o una poblacin 0 dividiendo la suma
entre el nmero de valores que se sumaron. "n general, si
N
x x x ..., , ,
+ #
, son las
mediciones que corresponden a una poblacin, entonces, definimos la media
poblacional como

+ + +

N
i
i
N
x
N N
x x x
#
+ #
# ...

,'
0 si
n
x x x ..., , ,
+ #
, son las mediciones que corresponden a una muestra, entonces,
definimos la media muestral como

+ + +

n
i
i
n
x
n n
x x x
x
#
+ #
# ...
/a media aritm<tica tiene algunas propiedades deseables 0 algunas no tanto, que
inclu0en las siguientes&
#. Unicidad. Para un conjunto de datos e3iste una 0 slo una media aritm<tica.
+. 2implicidad. /a media aritm<tica es f1cil de entender 0 de calcular.
(. ?a que cada valor del conjunto de datos entra al c1lculo de la media, <sta es
afectada por cada valor, en especial por los valores e3tremos, que algunas veces
pueden distorsionarla tanto que resulta indeseable como medida de tendencia
central.
Como un ejemplo de cmo los valores e3tremos pueden afectar a la media,
consideremos que un conjunto de % empleados ganan @$*, @$*, @$%, @$% 0 @+(* por da.
"l salario medio es @-*, que no es un valor mu0 representativo del conjunto de datos
como un todo. "l salario atpico de @+(* tiene el efecto de acrecentar la media de
manera indeseable.
Como otro ejemplo, calculemos el nmero promedio de huevos puestos por los
cangrejos !antido a partir de los datos de la tabla #,
( ) %%#$ -$ . %%#( #*#(* ,#$+ ... ,)+% )*+* $%($ #'%'
$%
#
+ + + + + + x
/os tres puntos representan los valores que no se muestran para ahorrar espacio.
ediana
/a mediana de un conjunto finito de valores es el valor que divide al conjunto en
dos partes iguales, tal que el numero de valores ma0ores o iguales que la mediana es
igual al nmero de valores menores o iguales a la mediana. 2i el nmero de valores es
impar, la mediana ser1 el valor que est< a la mitad del arreglo, siempre que todos los
valores ha0an sido ordenados de acuerdo a su magnitud. Cuando el nmero de valores
es par, no ha0 un solo valor a la mitad sino dos. "n este caso, la mediana se toma como
la media de estos dos valores, siempre que todos los valores ha0an sido arreglados de
acuerdo a su orden de magnitud. Por ejemplo, si ordenamos los datos que aparecen en la
tabla # de menor a ma0or, obtenemos la tabla (.
)*
)(- -$' ',+ #%$- #-*# #'%' +$#+ +$,+ +-*+
(()- (-'$ $*** $#$- $#-' $(+) $$-$ $%($ $,(+
$-*# %*'' %(+# %,(( %)$' %-$) ,*-+ ,#$+ ,$)+
,%-- ,,+) ,)+% ,-() ,',$ )*+* )($( )$#) )$+-
),+$ -++% -()+ -,(' -')( '#,, '%(' #*#(
*
#*+$#
.abla (.
Como ha0 un nmero impar de datos, en este caso $%, se elige el valor %)$'
A
x , que es
el valor a la mitad de la lista, como la mediana.
"a moda
/a moda de un conjunto de valores es el valor que ocurre m1s frecuentemente.
Por ejemplo, si en la siguiente tabla se representan los niveles de glucosa en sangre para
una muestra de #* nios.
Bmero Calor Bmero Calor
# %, , ,%
+ ,+ ) ,%
( ,( - ,-
$ ,% ' )*
% ,% #* )+
.abla $.
Como el valor que se repite con m1s frecuencia es el ,%, entonces tomamos, moda 5 ,%.
2i todos los valores son diferentes, no ha0 moda, como ocurre con nuestro ejemplo del
cangrejo !antido de la tabla (. Por otro lado, un conjunto de valores puede tener m1s de
una moda, si es que ha0 dos o m1s observaciones que se repiten con la misma
frecuencia.
/a moda se usa para describir datos cualitativos. Por ejemplo, supongamos que
los pacientes atendidos en una clnica de salud mental durante un ao recibieron uno de
los siguientes diagnsticos& retardo mental, sndrome de cerebro org1nico, psicosis,
neurosis 0 desorden de personalidad. "l diagnstico m1s frecuente en el grupo de
pacientes ser1 llamado el diagnstico modal.
edidas de dis#ersi$n
/a dispersin de un conjunto de observaciones se refiere a la variedad que <stos
e3hiben. Una medida de dispersin da informacin acerca de la variabilidad de un
conjunto de datos. 2i todos las observaciones son las mismas no ha0 dispersin8 si no
)#
son todas iguales, ha0 dispersin. 2i los datos, aunque diferentes, son mu0 parecidos,
entonces la dispersin es pequea.
El rango
Una manera de medir la dispersin de los datos es por medio del rango, que 0a
usamos en el ejemplo representado en la tabla #. "l rango es la diferencia entre los
valores m1s grande 0 m1s pequeo del conjunto de observaciones. 6s, si
G
x
es el
valor
m1s grande del conjunto de datos,
P
x
es el valor m1s pequeo del mismo conjunto, 0
denotamos por R al rango, entonces,
P G
x x R
Varian%a
Cuando los valores de un conjunto de datos caen cerca de su media, la dispersin
es menor que cuando est1n dispersos sobre un intervalo mu0 amplio. ?a que esto es
cierto, parece buena idea medir la dispersin relativa alrededor de la media. "s posible
hacer tal medicin por medio de la varianza muestral. "ntonces, si las observaciones
que constitu0en una muestra se representan por
n
x x x ..., , ,
+ #
, se define la varianza
muestral como
( )
+
#
+
#
#

n
i
i
x x
n
s
aunque, cuando el nmero de observaciones es grande es mejor usar la frmula
equivalente
( )
1
]
1

1
1
]
1

,
_



n
i
i
n
i
n
i
i i
x n x
n
x x n
n n
s
#
+
+
#
+
#
+ +
#
#
#
#
Como ejemplo, calculamos la varianza a partir del conjunto de datos dados en la tabla #,
dando como resultado
( ) ( ) [ ] ) . ''- , %,' , , -$ . %%#( $% #*#(* ,#$+ ... $%($ #'%'
$$
#
+ + + + + +
+ + + + s
Cuando calculamos la varianza a partir de una poblacin que consta de N datos, el
procedimiento es semejante, e3cepto que se divide la suma entre el nmero total de
datos, N , antes que entre # N . 6s la varianza poblacional es
)+
( )
+
#
+
#


N
i
i
x
N

que puede desarrollarse para dar
1
]
1


1
1
]
1

,
_




+
#
+
#
+
#
+
+
+
# #
N x
N
x x N
N
N
i
i
N
i
N
i
i i
/a varianza tiene unidades al cuadrado, 0, por consiguiente, no es una medida de
dispersin adecuada cuando queremos e3presar este concepto en t<rminos de sus
unidades originales. Para obtener una medida de dispersin en sus unidades originales,
simplemente tomamos la raz cuadrada de la varianza. "l resultado es llamado la
desviacin est1ndar. 7 sea, que la desviacin est1ndar de una muestra est1 dada por
( )
+
#
#
#

n
i
i
x x
n
s
0 la desviacin est1ndar de una poblacin finita es
( )
+
#
#


N
i
i
x
N

"n el caso de la tabla #, la desviacin est1ndar correspondiente a los datos es
huevos + . %,( , + ) . ''- , %,' , , s
El coeficiente de variaci$n
/a desviacin est1ndar es til como medida de variacin cuando se trata con un
conjunto de datos. 2in embargo, cuando queremos comparar la dispersin en dos
conjuntos de datos puede conducir a resultados falsos. Puede ser que las dos variables
involucradas est<n medidas en unidades diferentes. Por ejemplo, si queremos saber, para
cierta poblacin, si los niveles de colesterol, medidos en miligramos por #** ml, son
m1s variables que el peso corporal, medidos en Dg. 6dem1s, aunque las unidades de
medicin sean las mismas, las dos medias pueden ser mu0 diferentes. 2i comparamos la
desviacin est1ndar de los pesos corporales de los nios de primer grado de primaria
con la desviacin est1ndar de los nios de primer ao de secundaria, podramos concluir
que la ltima es ma0or que la primera, debido a que los mismos pesos son ma0ores, no
porque la dispersin sea ma0or.
/o que se necesita en las situaciones anteriores es una medida de variacin
relativa antes que una de variacin absoluta. .al medida se encuentra en el coeficiente
)(
de variacin, la cual e3presa la desviacin est1ndar como porcentaje de la media. /a
frmula es
( ) #** C.C.
x
s

?a que las unidades de la desviacin est1ndar 0 la media son las mismas, el coeficiente
de variacin es adimensional 0 es independiente de esas unidades.
2upongamos que se tomaron dos muestras de mujeres de ## 0 de +% aos 0 que
se obtuvieron los siguientes resultados&
Euestra # Euestra +
"dad +% aos ## aos
Peso promedio ,% Dg (, Dg
;esviacin est1ndar $.% Dg $.% Dg
.abla %.
2i se comparan las desviaciones est1ndares, podramos concluir que ambas
muestra poseen igual variabilidad. 2in embargo, si calculamos los coeficientes de
variacin tenemos, para las de +% aos&
( ) '+ . , #**
,%
% . $
C.C.
0 para las de ## aos&
( ) % . #+ #**
(,
% . $
C.C.
2i comparamos ahora, nos llevamos una impresin completamente diferente, dando a la
ltima muestra una variabilidad de casi el doble de la primera.
"l coeficiente de variacin tambi<n es til para comparar los resultados
obtenidos por diferentes personas que est1n estudiando la misma variable. ?a que el
coeficiente de variacin es independiente de las unidades de medicin, es un estadstico
til para comparar la variabilidad de dos o m1s variables medidas en diferentes escalas.
Podramos usar el coeficiente de variacin, por ejemplo, para comparar la variabilidad
en los pesos de una muestra de individuos cu0os pesos est<n e3presados en libras con la
variabilidad en los pesos de otra muestra de individuos cu0os pesos est<n e3presados en
Dilogramos.
"a media calculada a #artir de datos agru#ados
)$
Para calcular la media a partir de datos agrupados, se supone que todos los
valores que caen en una categora particular est1n localizados en el punto medio del
intervalo de esa categora. 6s que la media para datos agrupados se calcula como

k
i
i
k
i
i i
f
f m
y
#
#
donde k 5 nmero de categoras
i
m
5 punto medio de la iF<sima categora
i
f
5 frecuencia de la iF<sima categora.
"n nuestro ejemplo del nmero de huevos puestos por los cangrejos !antido, tenemos,
$%
% % . '$$' - % . )-,% ## % . ,+-# #* % . $,') % % . (##( , % . #%+' + + + + +
y
% . %%)) y
C&lculo de la mediana #ara datos agru#ados
Cuando se calcula la media a partir de datos agrupados, se supone que los datos
dentro de una categora est1n localizados en el punto medio, sin embargo, cuando se
calcula la mediana asumimos que est1n distribuidos uniformemente a lo largo del
intervalo. 6s que, empezamos localizando el intervalo donde est1 la mediana, que es el
intervalo donde cae el
+ n
F<simo valor siempre que los datos est<n ordenados de
acuerdo a su magnitud. Para nuestro ejemplo del nmero de huevos puestos por los
cangrejos !antido, recordamos que ha0 $% n observaciones. "l
+ n
F<simo valor es
++.%, que cae dentro de la $G categora, pues ha0 , observaciones dentro de la primera,
% dentro de la segunda 0 #* dentro de la tercera, lo cual suma +# observaciones dentro
de las primeras tres categoras, as que la ++.% observacin est1 dentro de la cuarta
categora, que contiene ## observaciones. 6s que la mediana est1 en alguna parte entre
%$-'.% 0 )*)(.%. Para localizarla e3actamente, tomamos en cuenta que hemos supuesto
que los datos est1n distribuidos uniformemente, as que es razonable suponer que
debemos movernos una distancia de
( ) ## +# % . ++
, a partir del lmite inferior, %$-'.%,
para alcanzar la mediana. "ntonces, la mediana ser1
( ) % . %)*% % . %$-' % . )*)(
##
+# % . ++
% . %$-'
A

+ y
)%
Heneralizando estas ideas podemos encontrar la siguiente frmula para la
mediana&
mediana 5
( )
i i
i
i
L U
f
j
L y +
A
donde
i
L
5 lmite inferior del intervalo de la categora que contiene a la mediana.
i
U
5 lmite superior del intervalo de la categora que contiene a la mediana.
j
5 nmero de observaciones que faltan para alcanzar la mediana, despu<s que
se ha alcanzado el lmite inferior del intervalo que contiene a la mediana.
i
f
5 frecuencia del intervalo que contiene a la mediana.
Varian%a ' desviaci$n est&ndar #ara datos agru#ados
Para calcular la varianza 0 la desviacin est1ndar a partir de unos datos
agrupados, suponemos que todos los valores que est1n dentro de una categora
particular se localizan en el punto medio de la categora. 6s, la varianza de una muestra
est1 dada por la frmula
( )
#
#
#
+
+

k
i
i
k
i
i i
f
f y m
s
donde
i
m
5 punto medio de la iF<sima categora
i
f
5 frecuencia de la iF<sima categora.
agrupados. datos los de media y
=aciendo un poco de 1lgebra, la varianza tambi<n puede escribirse como sigue
( ) #
#
+
#
+
+

,
_



n n
f m f m n
s
k
i
k
i
i i i i
donde

k
i
i
f n
#
0 la desviacin est1ndar se calcula como la raz cuadrada positiva de la varianza.
"n el ejemplo de los huevos puestos por los cangrejos !antido,
-*- , -)' , %
+
s
0
- . $+$ , + s
),