Está en la página 1de 33

CLASE05: MEDIDAS DE DISPERSION

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


MEDIDAS DE DISPERSIÓN
Una de las características importantes en el
análisis de los datos es la DISPERSIÓN ó
VARIABILIDAD.
La dispersión es la cantidad de variación, de los
datos en torno al promedio.
Las medidas de Dispersión más usadas son:

 RANGO
 RANGO INTERCUARTILIC0
 VARIANZA
 DESVIACION ESTANDAR
 COEFICIENTE DE VARIACION
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE DISPERSIÓN
Nos permiten
cuantificar cuan
separados están los
datos de una
distribución.

A
B

mA=mB
Dispersión A > B
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
2 : RANGO INTERCUARTILICO

 Permite ubicar 50% de los datos

0.05
Mín. P25 P50 P75 Máx.

que se encuentran en el centro de

0.04
la distribución
R.I.= Q3 – Q1

0.03
 Mide la dispersión en la parte 25% 25% 25% 25%

0.02
central de los datos, así que no se Rango intercuartílico
ve influenciada por los valores

0.01
Rango
extremos.

0.00
 Es una medida resistente en el
150 160 170 180 190
sentido de ser poco sensible a las
observaciones extremas

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo2: La tabla muestra la experiencia (en años) del personal que
labora en el Hospital Central.
Experiencia
(años)
Trabajadores
F
a)¿Entre qué valores se encuentra el
0–4 18 18 50% intermedio de estos datos?
4-8 42 60
8 - 12 68 128
Rpta:
12 - 16 120 248 b)¿Cuál es el rango intercuartílico?
16 - 20 40 288 Rpta:
20 - 24 34 322
24 - 27 12 334
Total 334
50 % 25 %
25 %

Q1 Q3

Rango
Intercuartílico

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo 2: La siguiente tabla muestra información de los precios del artículo de
perfumería (en nuevos soles) en establecimientos elegidos al azar en el distrito
de Surco.

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


ANALISIS EXPLORATORIO DE DATOS
El análisis exploratorio de datos es el proceso de utilizar herramientas estadísticas
(como gráficas. medidas de tendencia central y medidas de variación)
con la finalidad de investigar conjuntos de datos para comprender sus
características importantes
Antes de proceder a cualquier análisis se debe hacer un Análisis Exploratorio que
nos permita ver la naturaleza de los datos.
El Análisis exploratorio se usa para detectar valores atípicos (outliers) es decir
valores que no son igual al resto

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


PROCEDIMIENTO DE CALCULO

 Es un dato atípico si cae fuera del intervalo

<P25 -1.5xR.I. , P75+1.5xR.I.> en la grafica se indica como °


 Es un dato atípico extremo si cae fuera del intervalo

<P25 -3xR.I. , P75+3xR.I.> en la grafica se indica como *

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo 1: Sean los puntajes de un grupo de trabajadores. Calcular el RI y ver si y
ver si hay datos atípicos
150 151 150 147 155 145 151 152 150 149
166 142 158 153 144 190 145 147 151 156

SOLUCION: Primero ordenar los datos


ORDEN PUNTAJES
1 142
2 144
3 145
4 145
5 147
6 147
7 149
8 150
9 150
10 150
Boxplot of PUNTAJES
11 151
12 151
13 151
14 152 166 190

15 153
16 155
17 156
18 158 1 40 1 50 1 60 1 70 1 80 1 90
PUNTAJES
19 166
20 190 Material de Clases © Germán Pomachagua Perez 7-Ene.-19
3. VARIANZA: La varianza se define como la media
de las diferencias cuadráticas de todas las
observaciones con respecto a su media
aritmética.
Se usa
• Para comparar dos o más poblaciones.
• En inferencia estadística
• Para calcular el tamaño de muestra

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Población (X) Muestra (Xj)
Parámetro Estimador
s2 x1j
S2
x1
x2 x2j
. .
. .
. xnj
.
.
xN

N n
 ( xi  m ) 2
 i
( x  x ) 2

s2  i 1
s2  11
N n 1

De esta manera S2 es estimador de s 2


Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE DISPERSIÓN
DATOS SIN AGRUPAR
2
 n

n   xi 
 i   i 1 
2 n
( x x )

Calculo
abreviado
xi
2

S2  i 1
S2  i 1
n
n 1 n 1

DATOS AGRUPADOS
SIN INTERVALOS CON INTERVALOS
m m

 f i ( xi  x ) 2  f i ( X i  x ) 2
S2  i 1
S2  i 1
n 1 n 1

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


• Ejemplo1 :
Calcular la varianza de los siguientes valores numéricos:
5, 9, 11, 7
n

• Primero calculamos el promedio  i


( x  x ) 2

S2  i 1
n 1
5  9  11  7
x 8
4
• Entonces la varianza será

(5  8) 2
 (9  8) 2
 (11  8) 2
 (7  8) 2
9 1 9 1
S 
2
  6.667
3 3
• Utilizando la fórmula simplificada:

(52
 9 2
 112
 7 2
)  4(8) 2
S2   6.667
3
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo2: La siguiente información se refiere al número de
radiografías reprocesadas durante una semana.
Calcule la varianza. 8, 10, 5, 12, 10, 15
Primero, elaboramos un cuadro de la forma siguiente:
n

Xi Xi  x Xi  x  2

s 
2
 (x
11
i  x)2
8 8 - 10 = 2 4 n 1
10 10 - 10 = 0 0
5 5 - 10 = 5 25
60
12 12 - 10 = 2 4 x  10
10 10 - 10 = 0 0 6
15 15 - 10 = 5 25
 X  60  Xi  x   0  Xi  x 
2
 58 58
S  6  1  11.6
2

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo3: Se uso dos tipos de máquinas para la producción de un tipo de agujas
descartables. Se tomo una muestra de 5 y se muestran los tiempos en segundos.
2
 n 
A: 14, 24, 46, 50, 70   xi 
xi2   i 1 
n
B: 15, 38, 46, 52, 53
¿En qué grupo hay mas dispersión?
 n
S 2  i 1
n 1

Reemplazando

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


n

Usando la fórmula en  i
( x  x ) 2

maquina A S2  i 1

n 1
Reemplazando

1964.8
S 
2
 491.2
4
1964.8
s2   491.2
4


i 1

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


DATOS AGRUPADOS: sin intervalos
m

 f i ( xi  x ) 2
S2  i 1
n 1
Ejemplo: En cierta clínica, muestra los días de
permanencia que se distribuye entre sus paciente

Días (xi) Nº Pacientes(fi) Xifi


1 3 3
5 3 15
6 3 18
9 4 36
12 1 12
14 84

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


X i

DATOS AGRUPADOS: con intervalos


 i i
f ( X   X ) 2

S 
2 i 1
n 1
Li - Ls fi
[39 - 46] 3
<46 - 53] 2
<53 - 60] 7
<60 - 67] 3
<67 - 74] 6
21

Calcular varianza desviación estándar y coeficiente de variación

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


PROPIEDADES DE LA VARIANZA
Se X una variable tal que Xi : x1 , x2 ,…….., xn
1. La varianza de una constante es cero
En este caso Xi : k, k,……..,k i:1, 2……..n
V ( X )  V (K )  0
2. La varianza de una constante multiplicada por una variable, es igual
a la constante al cuadrado multiplicada por la varianza de la variable.
Yi = kxi i:1, 2……..n

V (Y )  V (kX )  k V ( X ) 2

3. La varianza de una constante multiplicada por una variable mas(o


menos) una constante es igual a:
En este caso Yi = axi ±b i:1, 2……..n

V (Y )  V (aX  b)  V (aX )  a V ( X ) 2

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


MEDIDAS DE DISPERSIÓN

4. DESVIACIÓN ESTÁNDAR (TÍPICA): Es la raíz cuadrada


de la varianza
n
 2
 i )
( x  x
S i 1
n 1
A es S  491.2  22.16
Luego la desviación estándar de
B es S  243.7  15.61

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


5. COEFICIENTE DE VARIACIÓN: Es una medida de dispersión relativa
que es fácilmente comparable con otro coeficiente de variabilidad,
correspondiente a un distinto conjunto de observaciones. El resultado se
expresa en porcentaje. Mientras menor es el Coeficiente de Variación, menor
es la dispersión de los datos (Mayor homogeneidad).
Si el Coeficiente de Variación es:
< 5% ----> datos muy homogéneos, Media
s
C.V .   100 aritmética muy representativa
X
5%  CV  20% ----> datos con
homogeneidad aceptable. La media
aritmética es representativa

Si el CV  20% ----> datos heterogéneos, la


media aritmética es poco representativa

Tipo X s C.V.
A 40.8 22.16 0.5432
B 40.8 15.61 0.3826
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
MEDIDAS DE FORMA

Las medidas de forma permiten comprobar si una distribución de frecuencia


tiene características especiales como simetría, asimetría, nivel de
concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo
particular de distribución.

Las medidas de forma son necesarias para determinar el comportamiento de los


datos y así, poder adaptar herramientas para el análisis probabilístico.

En este capitulo analizaremos dos medidas de forma:


1) Coeficiente de asimetría
2) Curtosis

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Estadísticos para detectar asimetría

 Hay diferentes estadísticos que sirven para detectar asimetría.


– Coeficiente de simetría de Pearson: Se usa solo en datos unimodales

𝑥ҧ − 𝑀𝑒
𝐴𝑠 = 3
𝑠

– Basado en la diferencia entre el 1º y 2º cuartiles y 2º y 3º.


– Basados en desviaciones con signo al cubo con respecto a la media.

𝒏 𝟑
𝒏 ഥ
𝒙𝒊 − 𝒙
𝑨𝒔 = ෍
𝒏−𝟏 𝒏−𝟐 𝒊=𝟏 𝒔

• Calculados con software. Es pesado de hacer a mano.


 En función del signo del estadístico diremos que la asimetría es positiva o
negativa.

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Las medidas de asimetría se dirigen a elaborar un indicador que
permita establecer el grado de simetría (asimetría) que presenta la
distribución, sin la necesidad de llevar a cabo su representación
grafica (histograma)

Asimetría nula Asimetría positiva


Asimetría negativa (simétrica) As=0 As>0
As<0
m <Me<Mo m =Me=Mo m >Me>Mo

0.20
0.5
0.20

0.4

0.15
0.15

0.3

0.10
0.10

0.2

0.05
0.05

0.1

x s x s
x s
66 % 78 %
78 %
0.00

0.00
0.0

8 10 12 14 16 18 20 -2 -1 0 1 2 3 0 2 4 6 8 10 12 14

x x x
Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Sean las ganancias por acción del año 2014 en una muestra de 15 empresas
0.09 0.13 0.41 0.51 1.12 1.20 1.49 3.18 3.50 6.36 7.83 8.92
10.13 12.99 16.40
Calcular la asimetría

Por fórmula

Minitab

𝑥ҧ − 𝑀𝑒 4.95 − 3.18
𝐴𝑠 = 3 𝐴𝑠 = 3 = 1.017
𝑠 5.22

Las ganancias por acción tienen asimetría positiva

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Curtosis
• La curtosis nos indica el grado de apuntamiento
(aplastamiento) de una distribución con respecto a la
distribución normal (distribución simétrica).
• Indican el nivel de concentración de los datos
respecto a su media.

1 n

n i 1
( xi  x ) 4

K 4
3
s

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Apuntamiento o curtosis
Platicúrtica (aplanada): curtosis < 0
serán de especial
interés las mesocúrticas
Mesocúrtica (como la normal): curtosis = 0 y simétricas (parecidas
a la normal).

Leptocúrtica (apuntada): curtosis > 0


Aplanada Apuntada como la normal
2.0

Apuntada

0.8
0.3
1.5

0.6
0.2
1.0

0.4
0.1
0.5

0.2
x s
x s x s
68 %
57 % 82 %
0.0

0.0

0.0

0.0 0.2 0.4 0.6 0.8 1.0 -3 -2 -1 0 1 2 3 -2 -1 0 1 2

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Material de Clases © Germán Pomachagua Perez 7-Ene.-19
Ejemplo2: Un grupo de 47 personas fueron sometidas a un
tratamiento para disminuir el nivel de colesterol en la sangre. Se
registró el nivel de colesterol de los 47 antes y después de realizado
el tratamiento. Calcular si hay datos atípicos

Antes
146 160 182 186 186 190 200 200 202 210 214 216
218 218 220 220 220 226 234 234 236 236 238 240
242 244 244 248 248 258 266 270 270 272 276 276
278 278 282 288 288 294 294 350 385 401 420
Después
142 156 160 162 164 166 168 170 178 178 182 182
182 182 182 182 184 186 188 188 196 198 198 198
198 200 200 204 204 206 212 214 216 218 230 232
236 238 242 242 248 256 256 264 264 280 294

30

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo 1: Los trabajadores de cierta empresa tienen un sueldo promedio de $383.29,
con una varianza de 30.571 ($)2. Si a cada trabajador se le aumenta el sueldo en 8%
más un bono de $10.5.
a) Determine el sueldo promedio y la varianza luego del aumento.
b) En porcentaje en cual hay mas variabilidad antes o después del aumento

Ejemplo 2: En una Empresa donde los salarios tienen una media de $100 y una
desviación estándar de $10, el sindicato solicita que cada salario X, se transforme en Y,
mediante la siguiente relación Y = 2,5 X +10. El Gerente acoge la petición rebajando los
salarios propuestos por el sindicato en10%, lo que es aceptado. ¿Qué distribución de
salarios es más homogénea? ¿Qué propuesta prefieren los trabajadores?

Ejemplo 3 : El coeficiente de variación de los salarios pagados a 200 trabajadores de


una empresa es del 30%. Con el aumento de 100 soles a cada trabajador, el nuevo
coeficiente de variación sería del 25% ¿Qué cantidad debe tener disponible la
compañía para hacer efectiva la nueva planilla? .Rpta: S/.120,000

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo4: En un proceso de reorganización una empresa pública fue sometida a
evaluación mediante una prueba de conocimientos con escala de calificación
centesimal. Las puntuaciones obtenidas fueron tabuladas en un cuadro de
frecuencias con 7 clases de igual amplitud. Si la puntuación mínima es de 30
puntos, la media aritmética es de 61.5 y las frecuencias acumuladas porcentuales
de los intervalos del 1 al 6 son respectivamente: 8, 23, 43, 73, 91 y 97.
Identificar el tipo de asimetría que presenta esta distribución.
a) Calcular e interpretar el coeficiente de variación..
b) Si la empresa tiene 2000 trabajadores y el directorio acuerda promocionar a
todos los empleados con una puntuación superior a la media + S. ¿ Cuántos
trabajadores serán promovidos?.

Material de Clases © Germán Pomachagua Perez 7-Ene.-19


Ejemplo 6: : Si los datos del archivo Herramientas es del año 2018. Para
el año 2019, los sueldos aumentaran en un 10% mas una bonificación de
150 soles.
a) Determine el sueldo promedio y la varianza luego del aumento.
b) En porcentaje en cual hay mas variabilidad antes o después del
aumento

Material de Clases © Germán Pomachagua Perez 7-Ene.-19

También podría gustarte