Está en la página 1de 41

BIOESTADSTICA

Tatiana Burga.
Wilver Rodrguez.

Medidas de
Dispersin
FACULTAD DE MEDICINA HUMANA
FILIAL NORTE
Las medidas de dispersin o variabilidad
Son tiles porque:
Permiten juzgar la confiabilidad de la
medida de tendencia central.
Los datos demasiados dispersos tienen
un comportamiento especial.
Es posible comparar dispersin de
diversas muestras.
AMPLITUD TOTAL: A RANGO: R
Se obtiene de la diferencia entre el dato mayor y
el dato menor.
Ejemplo:
Los siguientes datos representan los pesos de 10
pacientes. Calcule el rango.
60, 58, 80, 70, 75, 55, 76, 60, 68, 70
Amplitud Total Rango = 80 - 55 = 25
Interpretacin
La diferencia entre el paciente con mayor peso y el paciente con
menor peso es 25 kilos.

Clculo a partir de datos agrupados
Se utiliza la siguiente formula:


Amplitud Total o Rango = ( L
s
- L
i
) + 1
donde:
L
s
:

Limite superior de la ltima clase

: Limite inferior de la primera clase
i
L
Ejemplo:
La distribucin de frecuencias siguiente representa
las estancia hospitalaria(das) de una muestra de
pacientes. Calcule e interprete el rango

Rango = (20 - 1) + 1

R = 20


Interpretacin: la diferencia de das entre el
paciente que ms das hospitalarios y el paciente
con menos das hospitalarios es de 20 das.
N Das N de Pacientes
1 - 4 4
5 - 8 8
9 - 12 15
13 - 16 23
17 - 20 10
Total 60
Ventajas
fcil de calcular
fcil de entender e interpretar

Desventajas
slo considera los valores extremos
no toma en cuenta ni el nmero de datos ni el
valor de stos
no es posible de calcular en tablas con
extremos abiertos.
LA VARIANZA
Es una medida de dispersin e indica la desviacin
promedio con respecto a la media aritmtica
a) Clculos a partir de datos no agrupados.
para una muestra



para un poblacin
1
1
2
) X (
2


=
=
n
n
i
i
x
S
N
N
i
i

=
=
1
2
) X (
2

o
8 8 - 10 = 2 4
10 10 - 10 = 0
0
5 5 - 10 = 5
25
12 12 - 10 = 2
4
10 10 - 10 = 0 0
15
15 - 10 = 5 25
Ejemplo:
La siguiente informacin se refiere a los das de
hospitalizacin de 6 pacientes en un centro de salud:
8, 10, 5, 12, 10, 15. Calcule la varianza.
Elaboramos un cuadro de la forma siguiente
x
X x
i

( )
2
X x
i

60 X=

( )

= 0 X x
i
10
6
60
=
=
x
x
( ) 58
2
=

x
i
X
( )

= 58 X
2
x
i
1
) (X
2
2


n
i
S
x
2
das 6 , 11
1 6
58
2
=

=
S
LA DESVIACION ESTANDAR
Es la raz cuadrada de la varianza, sea
poblacional o muestral.
a) Clculos a partir de datos no agrupados

Para la muestra



Para la poblacin
1
1
2
2

= =

=
n
n
i
i
x) (X
S
s
N
N
i
i


= =
=1
2
2
) X (
o
o
Ejemplo:
En relacin al ejemplo anterior. Calcular la desviacin
estndar de los siguientes das hospitalarios:
8, 10, 5, 12, 10, 15
Ya sabemos por el ejemplo anterior que S
2
= 11,6 das
2
.
Entonces:
s
2
S =
das 3,4 S
das 6 , 11 S
2
=
=
DESVIACIN ESTANDAR
1
) (
2
2


=
n
n
x f
x f
S
i i
i i
Donde: f
i
: frecuencias absolutas simples
X
i
: puntos medios de los intervalos de clase

Ejemplo:
Calcular la desviacin estndar de la siguiente
distribucin de frecuencias:
N de Das
Hospitalarios X
i
f
i
X
i
*f
i
X
i
2
*f
i
2 - 4 3 4 12 36
5 - 7 6 10 60 360
8 - 10 9 15 135 1215
11 - 13 12 30 360 4320
14 - 16 15 5 75 1125
17 - 19 18 1 18 324
Total 65 660 7380
DESVIACIN ESTANDAR
1 65
65
660
7380

= S
25 . 3 = S
-3 -2 - + +2 +3

68.3 %

95.5 %

99.7 %
Teorema de Chebyshev
El coeficiente de variacin
Es una medida de variabilidad relativa de los
datos, permite comparar la variabilidad de dos o
ms conjuntos de datos expresados en unidades
diferentes (peso; kg. y libras).

a) Calculos a partir de datos no agrupados

Para la muestra:

Para la poblacin:
100 =
x
CV
s
100 =

o
CV
Ejemplo:
A continuacin se presentan los pesos en dos grupos de pacientes
Cul de los grupos tiene un peso ms estable?.

I grupo II grupo
40,70,60,48,52,65,58 70,35,150,140,82,110,140,120

Calculamos la media y desviacin estndar para
cada uno de los grados
Grupo I
40 -16,14 260,50
70 13,86
192,10
60 3,86
14,90
48 -8,14
66,26
52 -4,14 17,14
65 8,86 78,50
58
1,86 3,46
x X x
i

( )
2
X x
i

14 56
7
393
1
, = = =

=
n
x
n
i
i
X
393 X=

( )

= 0 X x
i
( )

= 86 , 632 X
2
x
i
( ) = 86 632
2
, x
i
X Si
27 10
1 7
86 632
1
1
2
,
,
( )
=


=
=
n
n
i
i
x X
S
100
S
=
x
CV
29 18 100 , = =
56,14
10,27
CV
Grupo II
70 -35,87 1286,6569
35 -70,87 5022,5569
150 44,13 1947,4569
140 34,13 1164,8569
82 -23,87 569,7769
110 4,13 17,0569
140 34,13 1164,8569
120 14,13 199,6569
x X x
i

( )
2
X x
i

87 105
8
847
1
, = =

=
=
n
i
x
n
i
X
847 X =
( ) = 04 , 0 X x
i
( ) = 88 , 11372 X
2
x
i
( ) 88 11372
1
2
, =


=
n
i
i
x X Si
30 40
1 8
88 11372
1
1
2
,
,
) (
=


=
=
n
n
i
i
x X
S
100
S
=
x
CV
06 , 30 100
105,87
40,30
= = CV
El II grupo presenta una mayor variabilidad en sus
pesos que el I grupo.
CONSIDERACIONES
15/04/2013
SI:
C.V < 33% La distribucin se puede considerar
aproximadamente simtrica.
C.V 33% La distribucin puede ser asimtrica
Curvas simtricas: Cuando
al trazar una lnea el rea se
divide en dos partes iguales.
Curvas asimtricas o
sesgadas: Concentrados en
el extremo inferior o superior
del eje horizontal.
La cola indica el tipo de
sesgo.
Medidas Forma:

p = 3 (X - Me)
S
X=Me=Mo
Mo<Me<X
Asimetra a la derecha
X<Me<Mo
Asimetra a la izquierda
Simtrica
p < 0 p = 0 p > 0
Coeficiente de Simetra de Pearson
Refleja el grado de agudeza.
(a) Leptocrtica (concentracin al centro)
(b) Mesocrtica (distribuidos simtricamente)
(c) Platicrtica (aplanada).
Coeficiente de Curtosis
USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION
La desviacin estndar se emplea cuando
tambin es apropiado el uso de la media,
es decir, con distribuciones simtricas(no
sesgadas) de datos numricos.
Percentiles y rango intercuartilicos se
emplean, cuando la distribucin no es
simtrica(sesgada) y es apropiado el uso
de la mediana.

USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION
El rango es una medida apropiada para
datos numricos cuando el propsito es
enfatizar valores extremos.
El coeficiente de variacin es til cuando
la intencin es comparar dos
distribuciones numricas medidas en
escalas diferentes.

El Boxplot (Diagrama de Caja)
Al igual que el histograma y el grfico de
Tallo y Hoja permite tener una idea visual
de la distribucin de los datos (simetra y
variabilidad)
Permite detectar outliers (valores
extremos).
Permite comparar la media y la
variabilidad de varios grupos (alternativa
grfica a pruebas estadsticas)

Boxplot: Procedimiento
1. Dibujar una caja cuyo lmite inferior ser
Q1 y el superior Q3. Dentro de la caja
trazar una lnea que localice la mediana.
2. Calcular el rango intercuartlico:
R.I. (Q) = RIQ = Q3 Q1
3. Dibujar un bigote del borde inferior de
la caja hasta Q1-1.5xRIQ .

Boxplot: Procedimiento
5. Dibujar otrobigote del borde
superior de la caja hasta
Q3+1.5xRIQ .
6. Dibujar cualquier observacin que
se ubique fueras de los bigotes
(estos sern los outliers).

BoxPlot: Ejemplo
0
10
20
30
40
50
D
a
t
o
s
OTRA ALTERNATIVA DE
ANALIZAR LA DISPERSIN DE
UN CONJUNTO DE DATOS:
GRFICO DE TALLO - HOJAS
Grfico de Tallo - Hoja
Un diagrama de tallos y hojas consiste en una serie de
hileras horizontales de nmeros. El nmero utilizado
para designar una hilera es un tallo y el resto de
nmeros en la hilera se denominan hojas.

Se tienen los siguientes datos permetro
ceflico (cm) de recin nacidos, que
constituye una muestra obtenida de una
poblacin de recin nacidos:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
Para la clasificacin de datos, se deben
identificar los valores entre los cuales se
encuentra la distribucin, es decir, el dato
menor y el dato mayor.





Dato menor: 33.1cm
Dato mayor: 36.5cm

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
Se deben identificar los tallos -los nmeros que
van a designar las hileras- los cuales deben
contener a todos los valores de la distribucin (del
33.1 al 36.5). La eleccin de los tallos depende de
la unidad con la que se quiera trabajar: enteros,
dcimas, centsimas... En el caso del ejemplo, los
datos estn dados indicando dcimas por lo que
trabajar con tallos enteros es la opcin ms
precisa y cmoda.
Los tallos seran entonces: 33, 34, 35 y 36.

Sin embargo, no se puede realizar un diagrama de
tallos y hojas con menos de 5 tallos. Por lo tanto, los
tallos propuestos se deben dividir (desdoblar) en una
especie de intervalo, produciendo el doble. La divisin
del tallo debe distinguirse visualmente:

33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
Seguidamente, se realiza el proceso de clasificacin
en s. Todos los datos, dependiendo de su valor, se
colocan a lado de su respectivo tallo. En el ejemplo,
los datos cuyo valor se encuentre entre 33.0 y 33.4
se deben colocar en la hilera del tallo 33*. Se debe
indicar el valor decimal exacto de cada dato a la
derecha del tallo. En el ejemplo hay 2 valores entre
33.0 y 33.4. Para clasificar el primero (33.1) se
agrega al diagrama de tallos y hojas de la siguiente
manera:
33*|1
Para clasificar el segundo dato que corresponde a este
tallo (33.4):
33*|14

Lo mismo se realiza con cada tallo y lo
valores que le correspondan:
En la hilera del tallo 33. se debe colocar los
nmeros 67789, correspondientes a los
valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9.
A la hilera del tallo 34* se debe colocar
012222233 correspondientes a los valores
que se encuentran entre 34.0 y 34.4.
etc.

Al clasificar todos los valores en sus tallos
respectivos, se obtiene el diagrama:

Anlisis de la distribucin usando Tallos y Hojas
Las principales caractersticas de la
distribucin que se observan fcilmente
en el diagrama de tallos y hojas son:
Hay 35 observaciones.
El dato menor es 33.1cm.
El dato mayor es 36.5cm.
El rango de los valores
observados es de 3.4cm
(dato mayor dato menor).
De los 35 datos, 18 estn alrededor de
34cm.
Los casos mayores a 36cm son pocos.
La distribucin de los datos es asimtrica:
distribucin heterognea.