Está en la página 1de 31

Principios de Estadística

Medidas de Tendencia Central y


Medidas de Dispersión
Centralización, Dispersión, Posición y Forma
Un brevísimo resumen sobre estadísticos
 Posición
– Dividen un conjunto ordenado de datos en grupos con la
misma cantidad de individuos.
• Cuantiles, percentiles, cuartiles, deciles,...
 Centralización
– Indican valores con respecto a los que los datos parecen
agruparse.
• Media, mediana y moda
 Dispersión
– Indican la mayor o menor concentración de los datos con
respecto a las medidas de centralización.
• Desviación típica, coeficiente de variación, rango, varianza
 Forma
– Asimetría
– Apuntamiento o curtosis
Centralización
Son medidas que buscan posiciones (valores) con respecto a los
cuales los datos muestran tendencia a agruparse.

 Media (‘mean’) Es la media aritmética (promedio) de los valores de una


variable. Suma de los valores dividido por el tamaño muestral.
 Media de 2,2,3,7 es (2+2+3+7)/4=3,5
 Conveniente cuando los datos se concentran simétricamente con
respecto a ese valor. Muy sensible a valores extremos.
 Centro de gravedad de los datos

 Mediana (‘median’) Es un valor que divide a las observaciones en dos


grupos con el mismo número de individuos (percentil 50). Si el número
de datos es par, se elige la media de los dos datos centrales.
 Mediana de 1,2,4,5,6,6,8 es 5
 Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5,5
 Es conveniente cuando los datos son asimétricos. No es sensible a
valores extremos.
 Mediana de 1,2,4,5,6,6,800 es 5. ¡La media es 117,7!

 Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia


alcanza un máximo.
La media aritmética
 La media se define como la suma de las
medidas de un grupo de observaciones
divididas por el número de medidas. Esto es
sencillamente lo que suele llamarse
“promedio”.
 En símbolos, si tienen N (n) medidas, por
ejemplo X1, X2,..., Xn, entonces
N
 = x/N Media Poblacional
i=1
n
 X =  x /n Media Muestral
i=1
La mediana
 Es un valor que divide a las observaciones
ordenadas en dos grupos con el mismo número de
individuos (percentil 50 ó segundo cuartil).

 Si la serie contiene un número impar de


observaciones, la mediana es la observación
central.
 Si el número de observaciones es par, la mediana
es la media de los dos valores centrales
– Mediana de 1,2,4,5,6,6,8 es 5
– Mediana de 1,2,4,5,6,6,8,9 es (5+6)/2=5.5

 Es conveniente cuando los datos son asimétricos.


No es sensible a valores extremos.
• Mediana de 1,2,4,5,6,6,800 es 5. La media es 117.7
La mediana Altura mediana
La moda
 La moda se define como
el valor que se da con
mayor frecuencia.
 En un conjunto de datos
puede darse una o más
modas, pero también
encontramos series de
datos sin valores
repetitivos.
3-29

NOTA
 Si se conocen dos promedios de una
distribución de frecuencias con sesgo
moderado, el tercero se puede
aproximar.
 moda = media - 3(media - mediana)
 media = [3(mediana) - moda]/2
 mediana = [2(media) + moda]/3
Medidas de Dispersión
Miden el grado de dispersión (variabilidad) de los
datos, independientemente de su causa.
El rango La diferencia entre las
observaciones extremas.

 Es la diferencia entre el valor máximo y el mínimo


R = Máx - Mín.

 2,1,4,3,8,4. El rango es 8 – 1 = 7
Es muy sensible a los valores extremos

Permite conocer como fluctúan los datos


La desventaja es que sólo utiliza dos valores y no
puede utilizarse para comparar poblaciones o
muestras de diferente naturaleza
Medidas de dispersión

 Amplitud total o Rango (‘range’):


La diferencia entre las observaciónes extremas.
– 2,1,4,3,8,4. El rango es 8-1=7 5% %
% 2 25 5%
– Es muy sensible a los valores extremos. 25 2

Rango intercuartílico (‘interquartile range’):


– Es la distancia entre el primer y tercer cuartil.
• Rango intercuartílico = P - P25
75
– Parecida al rango, pero eliminando las observaciones más
extremas inferiores y superiores.
– No es tan sensible a valores extremos.
Varianza y desviación estándar
muestral
 Desviación
 Variancia Media estándar Raíz
aritmética de las cuadrada de la
desviaciones
variancia.
cuadráticas con
respecto a la media.

 X
2

2
X  n2

s 
n 1
Ventajas del Coeficiente de
Variación
CV = Desviación estándar / promedio
CV= S / X
 Es una medida muy útil cuando:
 Los datos están en unidades diferentes (como
dólares y días de inasistencia
 Los datos están en las mismas unidades, pero
las medidas muy distantes (como sucede son
los ingresos de los ejecutivos superiores y los
ingresos de los empleados no calificados)
Es la razón entre la desviación típica y la media.
– Mide la desviación típica en forma de
“qué tamaño tiene con respecto a la media”

– También se la denomina variabilidad relativa.

– Es frecuente mostrarla en porcentajes


• Si la media es 80 y la desviación típica 20 entonces
CV=20/80=0,25=25% (variabilidad relativa)

 Es una cantidad adimensional. Interesante para comparar la


variabilidad de diferentes variables.
– Si el peso tiene CV=30% y la altura tiene CV=10%, los individuos
presentan más dispersión en peso que en altura.

 No debe usarse cuando la variable presenta valores negativos o


donde el valor 0 sea una cantidad fijada arbitrariamente
– Por ejemplo 0ºC ≠ 0ºF

 Los ingenieros electrónicos hablan de la razón ‘señal/ruido’ (su


inverso).
Medidas de asimetría (o sesgo)

3media  mediana 
C . A. 
Desviación estándar
 Es una medida de dispersión para evaluar
el sesgo o hacia donde se dispersan los
datos.
 El coeficiente de asimetría por lo general
se encuentra entre – 3 y + 3.
Asimetría o Sesgo
 Una distribución es simétrica si la
mitad izquierda de su distribución
es la imagen especular de su
mitad derecha.

 En las distribuciones simétricas


media y mediana coinciden. Si
sólo hay una moda también
coincide

 La asimetría es positiva o negativa


en función de a qué lado se
encuentra la cola de la
distribución.

 La media tiende a desplazarse


hacia las valores extremos (colas).

 Las discrepancias entre las


medidas de centralización son
indicación de asimetría.
Apuntamiento o curtosis 160

La curtosis nos indica el grado de apuntamiento 140

(aplastamiento) de una distribución con respecto a la 120

distribución normal o gaussiana. Es adimensional.


100

Platicúrtica: curtosis < 0 80

Frecuencia
60

Mesocúrtica: curtosis = 0
40
45 48 51 54 57 60 63 66 69 72 75 78 81 84

Leptocúrtica: curtosis > 0 Platicúrtica

400

300

Los gráficos poseen la misma


300

media y desviación típica, pero 200

con diferente grado de 200

apuntamiento.
En el curso serán de especial 100
100
Frecuencia

interés las mesocúrticas y

Frecuencia
simétricas (parecidas a la 0
0
normal). 3
16
27
32
37
42
47
52
57
62
67
72
77
82
87
92
97 108
102 138
27 37 45 53 61 69 77 85 93
32 41 49 57 65 73 81 89 99

Leptocúrtica Mesocúrtica
4-14

Interpretación y usos de la
desviación estándar
 Teorema de Chebyshev: para
cualquier conjunto de observaciones,
la proporción mínima de valores que

está dentro de k desviaciones


x

estándar desde la media es al menos


1 – 1 / k2 , donde k2 es una constante
mayor que 1.
 K= Limite – x
s
4-15

Interpretación y usos de la
deviación estándar
 Regla empírica: para una distribución
de frecuencias simétrica de campana,
cerca de 68% de las observaciones
estará dentro de ±1 de la media ();
cerca de 95% de las observaciones
estará dentro de ±2 de la media ();
alrededor de 99.7% estará dentro de
±3 de la media ().
Curva en forma de campana que muestra la relación entre  y 

      


4-19

Amplitud intercuartílica
 La amplitud intercuartílica es la
distancia entre el tercer cuartil Q3 y el
primer
cuartil Q1.
 Amplitud intercuartílica
= tercer cuartil - primer
cuartil
= Q3 - Q 1
4-20

Primer cuartil
 El primer cuartil es el valor correspondiente al
punto debajo del cual se encuentra el 25% de
las observaciones en un conjunto ordenado
de datos. n
 CF
Q1  L  4 (i )
f
 donde L = límite de las clasese que contienen Q1,
CF = frecuencia acumulda que precede a la clase
que contiene a Q1, f = frecuencia de la clase que
contiene Q1, i= tamaño de la clase que contiene Q1.
4-21

Tercer cuartil
 El tercer cuartil es el valor
correspondiente al punto debajo del cual
se encuentra 75% de las observaciones
en un conjunto ordenado de datos:
3n
CF
Q3 = L + 4 (i )
f

donde L = límite inferior de la clase que contiene a


Q3, CF = frecuencia acumulada precedente a la
clase que contiene a Q3, f = frequencia de la clase
que contiene a Q3, i = tamaño de la clase que
contiene a Q3.
4-22

Desviación cuartílica
 La desviación cuartílica es la mitad
de la distancia entre el tercer cuartil,
Q3, y el primero, Q1.
 QD = [Q3 - Q1]/2
4-23

EJEMPLO 5
 Si el tercer cuartil = 24 y el primer
cuartil = 10, ¿cuál es la desviación
cuartílica? La amplitud
intercuartílica es 24 - 10 = 14;
por lo tanto, la desviación
cuartílica es
14/2 = 7.
4-24

Amplitud cuartílica
 Cada conjunto de datos tiene 99
porcentiles, que dividen el conjunto en
100 partes iguales.
 La amplitud cuartílica es la distancia
entre dos porcentiles establecidos. La
amplitud cuartílica 10 a 90 es la
distancia entre el 10º y 90º porcentiles.
4-25

Fórmula para porcentiles

P
Lp = ( n + 1)
100
4-26

Diagramas de caja
 Un diagrama de caja es una ilustración
gráfica, basada en cuartiles, que ayuda
a visualizar un conjunto de datos.
 Se requieren cinco tipos de datos para
construir un diagrama de caja: el valor
mínimo, el primer cuartil, la mediana, el
tercer cuartil, y el valor máximo.
4-27

EJEMPLO 6
 Con base en una muestra de 20 entregas,
Marco’s Pizza determinó la siguiente
información: valor mínimo = 13 minutos,
Q1 = 15 minutos, mediana = 18 minutos,
Q3 = 22 minutos, valor máximo = 30
minutos. Desarrolle un diagrama de caja
para los tiempos de entrega.
4-28

EJEMPLO 6 continuación

mediana
mín Q1 Q3 máx

 12 14 16 18 20 22 24 26 28 30 32

También podría gustarte