Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cuanto mas grande sea el grado de variación menor uniformidad tendrán los datos
(heterogéneos), si el grado de variabilidad es pequeño hay una gran uniformidad entre los
datos. Cuando la variabilidad es cero quiere decir que todos los datos son iguales
Existen varias razones por la cual se debe estudiar la dispersión en un conjunto de datos
1.- Al aplicar una medida de dispersión es posible evaluar la confiabilidad del promedio que
se está utilizando. Una dispersión pequeña indica que los datos se encuentran
acumulados cercanamente, por ejemplo, alrededor de la media aritmética. Por tanto, la
media se considera bastante representativa de los datos. Esto es: la media es un
promedio confiable. Por el contrario, una dispersión grande indica que la media no es
muy confiable, es decir no es muy representativa de los datos.
2.- Una medida de dispersión permite apreciar cuán dispersas están dos o más
distribuciones. Por ejemplo, veamos la siguiente figura
1
Apuntes de clase Estadística General
- Rango intercuartil
- Desviación media
- Varianza
- Desviación estándar
- Coeficiente de variabilidad
Medida de dispersión. Datos no agrupados
A continuación, se muestran dos series de datos, ambos tienen la misma media aritmética,
pero se observa que tienen diferente dispersión alrededor de ella.
Se tiene dos series de datos:
48 49 50 51 52
48 49 50 51 52
40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
En resumen, podremos decir que en la serie B hay valores muy altos y muy bajos.,
mientras que en la serie A los valores están más concentrados alrededor del promedio.
Se trata de la diferencia entre los valores mayor (o más alto) y menor ó más bajo de un
conjunto de datos
1.- Es fácil de calcular y sus unidades son las mismas que las de la variable.
2
Apuntes de clase Estadística General
4.- El rango aumenta con el número de observaciones o bien se queda igual. En cualquier
caso, nunca disminuye.
Rango intercuartil ( RQ )
Min Q1 Q3 Max
RQ
Desviación media:
Donde:
La desviación media tiene dos ventajas. Utiliza en su cálculo el valor de cada uno de los
elementos de un conjunto de datos, y es fácil de comprender; y es el promedio en que los
valores se desvían con respecto de la media.
Ejemplo
Los pesos de una muestra de cajas listas para embarcarse a Italia son (en kilogramos):
103, 97, 101, 106 y 103
3
Apuntes de clase Estadística General
103+97+101+106+103
5
= = = 102 Kg
|103−102|+|97−102|+|101−102|+|106−102|+|103−102|
D.M. =
5
D.M.═ 2,4 Kg
Variancia.
Media aritmética del cuadrado de las desviaciones observadas con respecto a su media
Variancia de población:
σ2
=
Variancia de la muestra:
2
s =¿
= =
La varianza para datos agrupados será calculada empleando la siguiente fórmula:
La varianza está dada en las mismas unidades que la variable en estudio al cuadrado. Por
ejemplo, si las unidades de las observaciones son Kg entonces la varianza se expresa en
kg2
Propiedades de la varianza
2.- La varianza de una constante es cero. Esto significa que si X 1 = X2 =……..= Xn= b
entonces:
V (b) = 0
4
Apuntes de clase Estadística General
V (y) = V (x ± b) = V(x)
V (y) = a2 V(X)
A continuación, se presentan los tiempos de espera (en minutos) de 11 clientes para ser
atendidos en la ventanilla de un banco
x1 x2 x3 x4 x5 x6 x7 x8 x9 x 10 x 11
15 10 20 11 8 15 9 12 18 11 14
x1 x2 x3 x4 x5 x6 x7 x8 x9 x 10 x 11
15 10 20 11 8 15 9 12 18 11 14
15+10+…+14
x= =¿ 13
11
5
Apuntes de clase Estadística General
(X i X ) 2
s2 i 1
n 1
Xi fi Xi f i f i X 2i
0 1 0 0
1 2 2 2
2 4 8 16
3 12 36 108
4 9 36 144
5 2 10 50
Total 30 92 320
( 92 )2
320−
2 30 ¿ 1,3036
s=
30−1
Con la finalidad de conocer la varianza de los gastos semanales (en soles) del personal
administrativo de la UNPRG, en enero del 2021 se seleccionó una muestra de 30
personas.
6
Apuntes de clase Estadística General
( 29 300 )2
28 950 000−
2 30 ¿ 11 505,7471
S=
30−1
Desviación estándar
Es una de las medidas de dispersión de mayor uso, en el cual las unidades de la variable
ya no están elevadas al cuadrado.
Es una medida de dispersión relativa (no tiene unidades) y se define como la razón entre la
desviación estándar y la media aritmética de un conjunto de observaciones
Si se tienen dos o más conjunto de observaciones con distintas unidades o con medias
diferentes es conveniente usar el coeficiente de variabilidad para comparar la dispersión de
los datos
A veces se considera que un CV mayor de 50% indica alta dispersión de los datos y en
consecuencia poca representatividad de la media. Esta es una referencia, para establecer
otra referencia hay que tener en cuenta el control que se tiene sobre otros factores que
afectan a las unidades elementales
7
Apuntes de clase Estadística General
Desviaciónestandar
× 100
CV = Media aritmética
σ
Población CV = x 100
μ
s
Muestra CV = x 100
x
Ejemplo
Si se tiene los siguientes datos sobre la estatura de los alumnos de la UNPRG X =¿ 130 y
S ¿ 2,12132 Calcular el C.V.
Solución
S
C.V. ¿
X
x 100
2,12132
C.V. ¿ X 100 ¿ 1,63%
130
Interpretación
3.- Se afecta su valor cuando se suma una constante K a cada observación de un conjunto
de datos.
4.-No cambia de valor cuando se multiplica por una constante K a cada una de las
observaciones.
Coeficiente de
Grados de variabilidad
variabilidad (%)
0 Datos Completamente homogéneos
0¿ CV <10 Datos muy homogéneos
10 ¿ CV <15 Datos regularmente homogéneos
15 ¿ CV <20 Datos regularmente variables
20 ¿ CV <25 Datos variables
8
Apuntes de clase Estadística General
Una desviación estándar pequeña para un conjunto de valores indica que éstos se
encuentran localizados cerca de la media. Por el contrario, una desviación estándar grande
revela que las observaciones están muy dispersas con respecto a la media.
9
Apuntes de clase Estadística General
MEDIDAS DE FORMA
Coeficiente de asimetría.
Las medidas de asimetría tienen como facilidad elaborar un indicador que permita
establecer el grado de simetría o asimetría, que presenta una distribución, sin necesidad
de llevar a cabo su representación gráfica.
x−Mo
sk =
s
También existen otras fórmulas alternativas para el cálculo del coeficiente de asimetría.
3( M edia−Mediana)
sk =
S
El sesgo positivo surge cuando la media aumenta debido a algunos valores grandes y poco
usuales: el sesgo negativo ocurre cuando la media se reduce debido a algunos valores
muy pequeños. Los datos son simétricos cuando en realidad no hay valores extremos en
ninguna dirección, de tal manera que los valores grandes y pequeños se equilibran.
Simetría Relación
Simétrica o insesgada Media = Mediana = Moda
Sesgo positivo o a la derecha Media > Mediana > Moda
Sesgo negativo o a la izquierda Media < Mediana < Moda
Analiza el grado de concentración que presentan los valores alrededor de la zona central
de la distribución, es decir, estudia la distribución de frecuencias en la zona central. La
mayor o menor concentración de frecuencias alrededor de la media y en la zona central de
la distribución, dará lugar a una distribución más o menos apuntada.
10
Apuntes de clase Estadística General
Si el valor de la curtosis es positivo, se dice que los datos tienen una distribución
leptocúrtica (es más apuntada o puntiaguda que la distribución normal); en caso contrario,
si la curtosis es negativa, se dice que los datos tienen una distribución platicúrtica (es
menos apuntada o puntiaguda que la distribución normal). Si la curtosis es cero, entonces
los datos se distribuyen siguiendo una distribución normal, y se dice que en este caso la
distribución mesocúrtica.
k=
[
1 Q3 −Q1
2 P90−. P10 ]
Donde
3.- No le afecta las operaciones de suma y multiplicación por una constante c aplicada a
cada observación.
xi ( x i−x )
2
( x i−x )
4
2 4 16
4 0 0
8 16 256
2 4 16
∑ 16 24 288
Media x = 4
2
Varianza S x = 8
288
( 4 ) (64)
= - 3 = -1.875
11
Apuntes de clase Estadística General
Ejemplo
Solución
Reemplazando
3( Media−Mediana) 3(87−73)
sk = = =¿ 2,49
s 16.9
12
Apuntes de clase Estadística General
13