Está en la página 1de 15

UNIVERSIDAD AUTNOMA DE CENTRO AMRICA

SEDE REGIONAL PACFICO NORTE


NICOYA - GUANACASTE



MEDIDAS DE DISPERSIN
EN DATOS NO AGRUPADOS




CURSO:
PROBABILIDAD Y ESTADSTICA


PREPARADO POR:
ING. ALLAN VILLEGAS ALEMN


2012
Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 2


INTRODUCCIN
El concepto de variabilidad juega un papel clave dentro de la Estadstica. Si
los hechos no se repitieran o se repitieran sin variacin, la Estadstica casi no
tendra razn de ser; pero la realidad es que la mayora de los fenmenos se repiten
y lo hacen mostrando variaciones de mayor o menor intensidad; de ah la
importancia que tiene la Estadstica en el mundo moderno, al suministrarle al
hombre procedimientos vlidos y confiables para analizar esos hechos que se repiten
y hacer inferencias acerca de ellos a pesar de la variabilidad que presentan.
Bsicamente, al analizar un conjunto de datos, se tienen en mente dos
objetivos: a) por una parte, se trata de descubrir las irregularidades que puedan
existir en l y de resumirlas a travs de un valor tpico (un promedio por ejemplo); y
b) por otra, se procura establecer la medida en que los datos se concentran o se
dispersan alrededor de se valor tpico, o sea, la importancia de las desviaciones de
los elementos individuales respecto a ese valor representativo escogido para
caracterizar al grupo.
En realidad, es casi tan importante conocer un promedio como conocer la
variabilidad de los datos alrededor de l. Esto es lgico: la validez de un valor tpico
para resumir o representar al conjunto de datos para el cual se calcul, depende, en
gran medida de si los datos individuales se concentran o se dispersan alrededor de
l. Cuanto ms concentrados estn los datos alrededor del promedio aritmtico, por
ejemplo, mucho ms confianza se tendr en este valor para caracterizar o
representar el conjunto de datos.
Si la moda del nmero ideal de hijos es 3 en una poblacin, y una porcin
muy grande de mujeres se concentran en ese valor, podemos utilizar con seguridad
ese valor para describir las preferencias reproductivas de la poblacin, como un
todo, ya que sabemos que pocos se alejan, de forma significativa, de ese valor.
En esta oprtunidad veremos el clculo de las medidas de dispersin para
datos no agrupados.





Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 3
LA VARIABILIDAD Y SU IMPORTANCIA
La importancia del concepto de variabilidad se hace an ms clara, si se nota
que en la prctica puede suceder que varios conjuntos de datos tengan, la misma
media aritmtica y sin embargo, su dispersin sea muy diferente, tal como se puede
apreciar a continuacin:


A: 5, 5, 5, 5, 5; ;
B: 4, 5, 5, 5, 6; ;
C: 1, 3, 4, 7, 10; ;

Figura 1: Ilustracin de tres distribuciones con igual media y diferente variabilidad.

0
1
2
3
4
5
1 2 3 4 5 6 7 8 9 10
0
1
2
3
1 2 3 4 5 6 7 8 9 10
0
1
2
1 2 3 4 5 6 7 8 9 10
Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 4
Los anteriores conjuntos tienen la misma media aritmtica (5) pero su
dispersin o variabilidad es muy diferente: mientras que en el grupo A todos los
valores son iguales a cinco, es decir, no existe dispersin, en B s existe cierto grado
de variabilidad y en el grupo C la dispersin es an mayor. An ms, en este ltimo
grupo ni siquiera hay un valor que sea igual al promedio y esto puede darnos una
idea de las conclusiones errneas a que podramos llegar si no tomramos en cuenta
la dispersin de los datos con respecto a esta medida. Para los investigadores, la
variabilidad es un fenmeno natural y corriente del cual tienen clara conciencia.
Es evidente que slo el conocimiento del valor central x no es suficiente para
caracterizar un conjunto de datos.

LA MEDICIN DE LA VARIABILIDAD
Dentro del tratamiento estadstico de la informacin cuantitativa, es necesario
hacer referencia a la medicin de la variabilidad. Han sido propuestas diferentes
formas de medir la dispersin o variabilidad de un conjunto de datos; cada una de
ellas posee ventajas y tambin limitaciones conceptuales y prcticas.
La eleccin de una de ellas, en particular, depender de la situacin concreta
que se considere y de si, en ese caso, las ventajas de su utilizacin superan a las
desventajas, en relacin a las dems medidas. Seguidamente se discutirn las
medidas de variabilidad ms conocidas, a saber:
a) El recorrido o amplitud.
b) La desviacin media.
c) La desviacin estndar.
d) La variancia.
e) El coeficiente de variacin.

El recorrido o amplitud (R)
Una forma natural de apreciar la variabilidad es considerar los valores
extremos del grupo de datos. Esto da origen al recorrido o amplitud, que se define
como la diferencia entre el valor mayor y el valor menor del conjunto de datos. Su
clculo es simple; por ejemplo, lo calcularemos para los siguientes datos: 3, 10, 2, 8,
7. . Tambin puede indicarse dando directamente los valores
extremos, o sea, para el ejemplo considerado: Recorrido de 2 a 10.
No obstante lo simple de su clculo y lo fcil que resulta percibir su
significado, el recorrido no es muy usado debido a ciertas limitaciones que presenta.
La ms importante, como puede apreciarse en su definicin es la de que no toma en
cuenta todas las observaciones del grupo o muestra, sino nicamente el mayor y el
Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 5
menor. Esta caracterstica hace que dependa sensiblemente del nmero de datos y
que aumente al crecer este nmero ya que es probable que, entre las nuevas
observaciones agregadas aparezca una ms pequea y/o una de mayor valor que las
existentes y eso producir un incremento en el valor del recorrido.
En la prctica el recorrido se utiliza cuando se desea una medida simple de la
variabilidad o cuando -por falta de tiempo- no se pueden emplear medidas ms
complejas.

La desviacin media (DM)
La necesidad de definir una medida de dispersin que tome en cuenta para su
clculo todos los datos y no est tan estrictamente ligada al nmero de ellos, lleva
casi automticamente a la conclusin de que esta medida tiene que estar basada en
las desviaciones o diferencias de los datos individuales respecto de un valor central
o tpico.
Esta lnea de razonamiento conduce lgicamente, a considerar la suma de las
desviaciones de los datos con respecto a la media aritmtica como una posible
medida de dispersin. Sin embargo, como es sabido, la suma de las desviaciones de
las observaciones con respecto a la media aritmtica siempre es igual a cero,
circunstancia que impide que pueda ser utilizada como medida de dispersin.
Para obviar este problema, se puede emplear la suma de los valores absolutos
de las diferencias y dividirla por el nmero de datos para obtener una medida de
dispersin promedio o por observacin. As se origina la llamada desviacin media.




Simblicamente as:


Recurdese que el smbolo se emplea para indicar que deben ser
considerados los valores absolutos de las diferencias, es decir, ignorando su signo.
Su clculo se ilustra seguidamente para los valores: 3, 10, 2, 8, 7. Primero se
obtiene la media aritmtica:


Se recomienda hacer una tabla como la que se muestra a continuacin:
Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 6


3 -3 3
10 +4 4
2 -4 4
8 +2 2
7 +1 1
0 14

Luego se calcula la desviacin media:


La desviacin media, no obstante las ventajas conceptuales que rene, casi no
se utiliza debido a que requiere el manejo de valores absolutos por una parte, y por
el hecho de que existe otra medida, basada tambin en las desviaciones respecto a
la media aritmtica, que es mucho ms cmoda y til, y rene numerosas ventajas
prcticas y tericas. Esta medida es la desviacin tpica.

Desviacin tpica (Desviacin estndar)
La desviacin estndar -o tpica- utiliza en lugar de los valores absolutos, los
cuadrados de las desviaciones. La desviacin estndar nos indica cunto se alejan,
en promedio, las observaciones de la media aritmtica del conjunto.
Es la medida de dispersin ms usada en estadstica, tanto para aspectos
descriptivos como analticos. Es, la raz cuadrada del cuadrado de la suma de las
desviaciones entre el nmero total de observaciones, as:




Simblicamente es as:


Tambin tiene mucha importancia el cuadrado de la desviacin estndar, que
recibe el nombre de variancia (en algunos textos aparece como varianza).

Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 7
La Variancia
Como se dijo atrs, la variancia es el cuadrado de la desviacin tpica, as:




Simblicamente as:


Es conveniente hacer algunas observaciones acerca de la definicin de varianza,
segn se considere una muestra o toda la poblacin.
Como ya se ha explicado, el estudio de una poblacin se realiza observando no
todos sus elementos, sino, tomando una muestra. Las medidas o valores calculados
a partir de las muestras se utilizan luego para representar o estimar los valores de la
poblacin en los que estamos interesados.
Con el propsito de establecer claramente si el clculo ha sido realizado para
toda la poblacin o para una muestra, se acostumbra indicar con smbolos
diferentes cada una de las situaciones. Comnmente se utilizan letras latinas
maysculas o letras griegas para indicar los valores de la poblacin y letras latinas
minsculas para los valores calculados a partir de los datos de la muestra
(estimadores).
Adems, es corriente emplear la letra N para indicar el nmero total de
elementos en la poblacin y la n para representar el tamao de la muestra.
Seguidamente se presentan los smbolos y definiciones para el promedio y la
variancia, segn se refieran a la poblacin o a una muestra:

GRUPO DE REFERENCIA PROMEDIO VARIANCIA

Muestra (n)





Poblacin (N)



Algo que llama la atencin inmediatamente es que, al definir

, se utiliza n-1
como divisor en vez de n. Esto obedece al hecho de que, de acuerdo con la teora de
Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 8
la estadstica, al dividir por n-1 se obtiene una mejor estimacin del valor
poblacional

(variancia de la poblacin).
Debe sealarse, sin embargo, que si la muestra es grande no tiene
importancia alguna usar n n-1 como divisor, ya que el resultado numrico que se
obtendr ser prcticamente el mismo; en cambio, si la muestra es pequea,
entonces s es importante el usar la frmula apropiada, o sea, la correspondiente a

(minscula).

Clculo de la variancia en datos no agrupados
Seguidamente se presentar el clculo de la variancia cuando se tiene una
muestra de n datos sin agrupar. Como ya se vio, la frmula de

es la siguiente:



Utilizando esta frmula y sacando luego la raz cuadrada, puede obtenerse el
valor de la desviacin estndar (s). Ahora se ilustra el clculo de ambas medidas a
partir de la definicin.

EJEMPLO: Para los valores: 3, 10, 2, 8, 7. Calcular

y s.
Primero se obtiene la media aritmtica:


Se recomienda hacer una tabla como la que se muestra a continuacin:


3 -3 9
10 4 16
2 -4 16
8 2 4
7 1 1
=30 0 46


Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 9
En el ejemplo anterior, el promedio result ser un nmero entero y por lo
tanto, el cmputo de las diferencias

y su elevacin al cuadrado, fue una


labor relativamente fcil; sin embargo, en la mayora de los casos, la utilizacin de la
frmula

, implica una serie de operaciones incmodas y largas, al tener que elevar


al cuadrado nmeros con muchos decimales. Adems, la expresin

, no
es la ms apropiada cuando se trabaja con calculadora, por ello, para fines de
clculo, es preferible emplear la expresin siguiente:



A la cual se llega realizando ciertas transformaciones algebraicas en el numerador
de

. Seguidamente, se repite el clculo de

y s, utilizando la frmula para


clculos que se acaba de introducir:



3 9
10 100
2 4
8 64
7 49
=30 =226



Puede verse que los resultados obtenidos para la desviacin tpica y la
variancia son idnticos a los hallados empleando la frmula de la pgina anterior.

Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 10
EL COEFICIENTE DE VARIACIN
Una situacin corriente en la investigacin, es la necesidad de comparar dos o
ms conjuntos de datos en cuanto a su variabilidad. Si los datos estn dados en las
mismas unidades, y si los promedios de los conjuntos, es decir, la magnitud de los
datos, son bastantes similares, la desviacin estndar es una herramienta
perfectamente apropiada para realizar la comparacin.
Pero, si alguna de las condiciones antes citadas no se cumple, la desviacin
estndar, y cualquier medida absoluta de dispersin, pierde casi toda su utilidad
para este propsito.
Si los datos estn expresados en diferentes unidades, es obvio que no puede
compararse su variabilidad utilizando la desviacin estndar, ya que carece de
sentido comparar, por ejemplo, una desviacin estndar expresada en kg, con otra
dada en minutos o en aos luz.
Por otra parte, aun cuando los conjuntos de datos estn dados en la misma
unidad de medida, la diferencia entre sus promedios puede ser tan importante que
haga completamente inadecuada la comparacin directa de las desviaciones
estndar.
Se hace necesario entonces, disponer de valores que sean independientes de
las unidades de medida y que no dependan de la magnitud general de los datos que
se consideren. Con este propsito se utilizan las llamadas medidas de dispersin
relativa, la ms importante de las cuales es el coeficiente de variacin.
El coeficiente de variacin indica la importancia de la desviacin estndar en
relacin al promedio aritmtico y cuya definicin puede representarse de la siguiente
forma:




Ntese que se da multiplicado por 100. De acuerdo con la simbologa
presentada anteriormente, se tendran las siguientes frmulas segn se trate de una
poblacin o de una muestra:


Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 11
Su definicin obedece a las necesidades mencionadas anteriormente de contar
con una medida independiente de las unidades y de la magnitud general de las
observaciones.
Al dividir la desviacin estndar ( medida de dispersin absoluta) entre la
media aritmtica ( medida de posicin), se eliminan las unidades
1
, por una parte,
y por otra, la inclusin del promedio en el divisor, permite corregir el efecto que
sobre la desviacin estndar tiene la magnitud general de los datos.
En otras palabras, si la desviacin estndar es grande porque los datos en s
son grandes, al dividirse entre la media aritmtica ese factor queda eliminado. En
cuanto a la multiplicacin por 100, no tiene otro propsito que el de amplificar el
nmero relativo y hacer ms cmodo su uso.

Ejemplo:
Los siguientes datos se refieren a estatura en centmetros de nias de 2 y 16
aos.
EDAD EN AOS ESTATURA PROMEDIO DESVIACIN ESTNDAR
2 84 3
16 160 5

En trminos absolutos es evidente que hay mayor variabilidad en el grupo de
nias de 16 aos, ya que la desviacin estndar es mayor; sin embargo, al calcular
los coeficientes de variacin se descubre que son muy parecidos, resultando ms
bien ligeramente inferior el correspondiente a nias de 16 aos.


Debe concluirse, entonces, que la dispersin relativa en ambos grupos de
nias es muy similar.




1
Tanto la desviacin estndar como la media aritmtica vienen referidas a unidades concretas; por ejemplo, si se
trata de la variable peso, ambas vendran dadas en kilogramos; al dividir una entre la otra, se dividen los kg
entre kg, desapareciendo las unidades de referencia, es decir kg, quedando un nmero abstracto (un escalar)
que no se refiere a ninguna unidad determinada.
Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 12









ANEXO I
OBTENCIN DE LA FRMULA PARA CLCULOS


Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 13
FRMULA PARA CLCULOS
La frmula para clculos introducida en la pgina 9, se obtuvo, como se dijo
antes, de manipular el numerador de la frmula para

de datos sin agrupar


introducida en la pgina 8. Veamos dicho procedimiento.
Primero tomamos la frmula para calcular la variancia en datos no agrupados:



Y desarrollamos (o expandimos) la frmula notable que se haya implcita en su
numerador:


As:


Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 14


La expresin anterior corresponde al nuevo numerador de la frmula para
clculos; slo resta dividir esta expresin entre n-1, as:



As queda demostrado de dnde sale la frmula para clculos.



Medidas De Dispersin en Datos No Agrupados

Ing. Allan Villegas Alemn Pgina 15

Referencias

LIPSCHUTZ, SEYMOUR y SCHILLER, JOHN. Introduccin a la Probabilidad y
Estadstica, Editorial McGraw Hill. 2000.

QUINTANA, CARLOS. Estadstica Elemental, Editorial Mster Libro S.A.1992.

GMEZ, MIGUEL. Estadstica Descriptiva, Oficina de publicaciones de la Universidad
de Costa Rica, 1977.

También podría gustarte