Está en la página 1de 41

Universidad De San

Martin de Porres
Facultad de Medicina Humana

BIOESTADÍSTICA

Medidas de
Dispersión

Dr. Wilver Rodríguez López


Las medidas de dispersión o variabilidad

Son útiles porque:


Permiten juzgar la confiabilidad de la
medida de tendencia central.
Los datos demasiados dispersos tienen
un comportamiento especial.
Es posible comparar dispersión de
diversas muestras.
AMPLITUD TOTAL: A ó RANGO: R

Se obtiene de la diferencia entre el dato mayor y


el dato menor.

Ejemplo:
Los siguientes datos representan los pesos de 10
pacientes. Calcule el rango.
60, 58, 80, 70, 75, 55, 76, 60, 68, 70

Amplitud Total ó Rango = 80 - 55 = 25

Interpretación
La diferencia entre el paciente con mayor peso y el paciente con
menor peso es 25 kilos.
Cálculo a partir de datos agrupados
Se utiliza la siguiente formula:

Amplitud Total o Rango = ( Ls - Li ) + 1


donde:
Ls : Limite superior de la última clase

L : Limite inferior de la primera clase


i
Ejemplo:
La distribución de frecuencias siguiente representa
las estancia hospitalaria(días) de una muestra de
pacientes. Calcule e interprete el rango

Nº Días Nº de Pacientes
1-4 4 Rango = (20 - 1) + 1
5-8 8
9 - 12 15
13 - 16 23 R = 20
17 - 20 10
Total 60

Interpretación: la diferencia de días entre el


paciente que más días hospitalarios y el paciente
con menos días hospitalarios es de 20 días.
Ventajas
 fácil de calcular
 fácil de entender e interpretar

Desventajas
 sólo considera los valores extremos
 no toma en cuenta ni el número de datos ni el
valor de éstos
 no es posible de calcular en tablas con
extremos abiertos.
La VARIANZA
Es una medida de dispersión e indica la
desviación promedio con respecto a la media
aritmética
a) Cálculos a partir de datos no agrupados.
para una muestra
n

 (X i  x )
2


2 i 1

para un población S n 1

 (X i   )
2

 
2 i 1

N
Ejemplo:
La siguiente información se refiere a los días de
hospitalización de 6 pacientes en un centro de salud:
8, 10, 5, 12, 10, 15. Calcule la varianza.
Elaboramos un cuadro de la forma siguiente

x Xi  x Xi  x  2

8 8 - 10 = 2 4 60
10 10 - 10 = 0 0 x
5 5 - 10 = 5 25
6
12 12 - 10 = 2 4
10
15
10 - 10 = 0
15 - 10 = 5
0
25
x  10
 X  60  Xi  x   0  Xi  x   58
2
 Xi  x   58
2

 (X i  x )
2

S 
2

n 1

2
58

S 6 1  11,6 días 2
LA DESVIACION ESTANDAR

Es la raíz cuadrada de la varianza, sea


poblacional o muestral.
a) Cálculos a partir de datos no agrupados
n
 (Xi  x)
2
Para la muestra i 1
S  s2 
n 1
N
 (Xi   )
2
Para la población
  2  i 1
N
Ejemplo:
En relación al ejemplo anterior. Calcular la desviación
estándar de los siguientes días hospitalarios:
8, 10, 5, 12, 10, 15
Ya sabemos por el ejemplo anterior que S2 = 11,6 días2.
Entonces:

S
2
s
S  11,6 días 2

S  3,4 días
Teorema de Chebyshev

µ-3δ µ-2δ µ-δ µ µ+δ µ+2δ µ+3δ

68.3 %

95.5 %

99.7 %
El coeficiente de variación
Es una medida de variabilidad relativa de los
datos, permite comparar la variabilidad de dos o
más conjuntos de datos expresados en unidades
diferentes (peso; kg. y libras).

a) Calculos a partir de datos no agrupados

Para la muestra: s
CV   100
x
Para la población:

CV   100

Ejemplo:
A continuación se presentan los pesos en dos grupos de pacientes
¿Cuál de los grupos tiene un peso más estable?.

I grupo II grupo
40,70,60,48,52,65,58 70,35,150,140,82,110,140,120

Calculamos la media y desviación estándar para


cada uno de los grados
Grupo I
n
 Xi
393
x  i 1
  56,14
n 7
x Xi  x Xi  x  2

40 -16,14 260,50
70 13,86 192,10
60 3,86 14,90
48 -8,14 66,26
52 -4,14 17,14
65 8,86 78,50
58 1,86 3,46

 X  393  Xi  x   0  Xi  x  2


 632,86
Si  Xi  x   632,86
2

n
 i
( X  x )
2
i 1 632,86
S   10,27
n 1 7 1

S
CV   100
x
10,27
CV   100  18,29
56,14
Grupo II n
 Xi
i 1 847
x    105,87
n 8

x Xi  x Xi  x  2

70 -35,87 1286,6569
35 -70,87 5022,5569
150 44,13 1947,4569
140 34,13 1164,8569
82 -23,87 569,7769
110 4,13 17,0569
140 34,13 1164,8569
120 14,13 199,6569

X  847  Xi  x   0,04  Xi  x 


2
 11372,88
n
Si  Xi  x 2  11372,88
i 1

n
 ( Xi  x )
2
i 1 11372,88
S   40,30
n 1 8 1

S 40,30
CV   100 CV  100  30,06
x 105,87

El II grupo presenta una mayor variabilidad en sus


pesos que el I grupo.
CONSIDERACIONES
SI:

C.V  33% La distribución se puede considerar


aproximadamente simétrica.

C.V ≥ 33% La distribución puede ser asimétrica


positiva o negativa.

07/06/2019
Medidas Forma:

Curvas simétricas: Cuando


al trazar una línea el área se
divide en dos partes iguales. Curvas asimétricas o
sesgadas: Concentrados en
el extremo inferior o superior
del eje horizontal.
La “cola” indica el tipo de
sesgo.
Coeficiente de Simetría de Pearson

p = 3 (X - Me)
S
p<0 p=0 p>0

Asimetría a la izquierda Simétrica Asimetría a la derecha


X<Me<Mo X=Me=Mo Mo<Me<X
Coeficiente de Curtosis

Refleja el grado de agudeza.


(a) Leptocúrtica (concentración al centro)
(b) Mesocúrtica (distribuidos simétricamente)
(c) Platicúrtica (aplanada).
DESVIACIÓN ESTANDAR

( f i xi ) 2
 f i xi 
2

S n
n 1

Donde: fi: frecuencias absolutas simples


Xi: puntos medios de los intervalos de clase
Ejemplo:
Calcular la desviación estándar de la siguiente
distribución de frecuencias:
Nº de Días
Hospitalarios Xi fi Xi*fi Xi2*fi
2 - 4 3 4 12 36
5 - 7 6 10 60 360
8 - 10 9 15 135 1215
11 - 13 12 30 360 4320
14 - 16 15 5 75 1125
17 - 19 18 1 18 324
Total 65 660 7380
DESVIACIÓN ESTANDAR

660
7380 
65
S
65  1

S  3.25
USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION
• La desviación estándar se emplea cuando
también es apropiado el uso de la media,
es decir, con distribuciones simétricas(no
sesgadas) de datos numéricos.
• Percentiles y rango intercuartilicos se
emplean, cuando la distribución no es
simétrica(sesgada) y es apropiado el uso
de la mediana.
USO DE LAS DIFERENTES
MEDIDAS DE DISPERSION
• El rango es una medida apropiada para
datos numéricos cuando el propósito es
enfatizar valores extremos.
• El coeficiente de variación es útil cuando
la intención es comparar dos
distribuciones numéricas medidas en
escalas diferentes.
El “Boxplot” (Diagrama de Caja)
• Al igual que el histograma y el gráfico de
Tallo y Hoja permite tener una idea visual
de la distribución de los datos (simetría y
variabilidad)
• Permite detectar outliers (valores
extremos).
• Permite comparar la media y la
variabilidad de varios grupos (alternativa
gráfica a pruebas estadísticas)
Boxplot: Procedimiento
1. Dibujar una caja cuyo límite inferior será
Q1 y el superior Q3. Dentro de la caja
trazar una línea que localice la mediana.
2. Calcular el rango intercuartílico:
R.I. (Q) = RIQ = Q3 – Q1
3. Dibujar un “bigote” del borde inferior de
la caja hasta Q1-1.5xRIQ .
Boxplot: Procedimiento
5. Dibujar otro“bigote” del borde
superior de la caja hasta
Q3+1.5xRIQ .
6. Dibujar cualquier observación que
se ubique fueras de los bigotes
(estos serán los outliers).
BoxPlot: Ejemplo

50

40

30
Datos

20

10

0
OTRA ALTERNATIVA DE
ANALIZAR LA DISPERSIÓN DE
UN CONJUNTO DE DATOS:
GRÁFICO DE TALLO - HOJAS
Gráfico de Tallo - Hoja

• Un diagrama de tallos y hojas consiste en una serie de


hileras horizontales de números. El número utilizado
para designar una hilera es un tallo y el resto de
números en la hilera se denominan hojas.
Se tienen los siguientes datos –perímetro
cefálico (cm) de recién nacidos, que
constituye una muestra obtenida de una
población
33.1 de recién
33.4 33.6 33.7 nacidos:
33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
• Para la clasificación de datos, se deben
identificar los valores entre los cuales se
encuentra la distribución, es decir, el dato
menor y el dato mayor.
33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5

• Dato menor: 33.1cm


• Dato mayor: 36.5cm
 Se deben identificar los tallos -los números que
van a designar las hileras- los cuales deben
contener a todos los valores de la distribución (del
33.1 al 36.5). La elección de los tallos depende de
la unidad con la que se quiera trabajar: enteros,
décimas, centésimas... En el caso del ejemplo, los
datos están dados indicando décimas por lo que
trabajar con tallos enteros es la opción más
precisa y cómoda.
 Los tallos serían entonces: 33, 34, 35 y 36.
 Sin embargo, no se puede realizar un diagrama de
tallos y hojas con menos de 5 tallos. Por lo tanto, los
tallos propuestos se deben dividir (desdoblar) en una
especie de intervalo, produciendo el doble. La división
del tallo debe distinguirse visualmente:
33.1 33.4 33.6 33.7 33.7 33.8 33.9 34.0
34.1 34.2 34.2 34.2 34.2 34.2 34.3 34.3
34.5 34.5 34.6 34.6 34.6 34.7 34.7 34.8
34.9 35.1 35.1 35.2 35.2 35.3 35.6 35.8
36.0 36.1 36.5
 Seguidamente, se realiza el proceso de clasificación
en sí. Todos los datos, dependiendo de su valor, se
colocan a lado de su respectivo tallo. En el ejemplo,
los datos cuyo valor se encuentre entre 33.0 y 33.4
se deben colocar en la hilera del tallo 33*. Se debe
indicar el valor decimal exacto de cada dato a la
derecha del tallo. En el ejemplo hay 2 valores entre
33.0 y 33.4. Para clasificar el primero (33.1) se
agrega al diagrama de tallos y hojas de la siguiente
manera:
 33*1
› Para clasificar el segundo dato que corresponde a este
tallo (33.4):
 33*14
Lo mismo se realiza con cada tallo y lo
valores que le correspondan:
En la hilera del tallo 33. se debe colocar los
números 67789, correspondientes a los
valores 33.6, 33.7, 33.7, 33.8, 33.8 y 33.9.
A la hilera del tallo 34* se debe colocar
012222233 correspondientes a los valores
que se encuentran entre 34.0 y 34.4.
etc.
 Al clasificar todos los valores en sus tallos
respectivos, se obtiene el diagrama:
Análisis de la distribución usando Tallos y Hojas

 Las principales características de la


distribución que se observan fácilmente
en el diagrama de tallos y hojas son:
 Hay 35 observaciones.
 El dato menor es 33.1cm.
 El dato mayor es 36.5cm.
 El rango de los valores observados es de
3.4cm
 (dato mayor – dato menor).
 De los 35 datos, 18 están alrededor de
34cm.
 Los casos mayores a 36cm son pocos.
 La distribución de los datos es asimétrica:
distribución heterogénea.

También podría gustarte