Documentos de Académico
Documentos de Profesional
Documentos de Cultura
• Media.
• Mediana.
• Moda.
• Cuantiles (cuartiles, deciles y percentiles).
Media: Xn , μ
Es la suma de todas las observaciones dividida
por el número total de observaciones
Para datos no agrupados:
n
X i
Xn i 1
m f i i
Xn i 1
n
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: cantidad de clases
Para nuestro ejemplo de Conductividad
X 50 ?
Propiedades, ventajas y desventajas
de la media
Ventajas:
Emplea en su cálculo toda la información disponible.
Se expresa en las mismas unidades que la variable en
estudio.
Es el centro de gravedad de toda la distribución,
representando a todos los valores observados.
Es un valor único.
Se trata de un concepto familiar para la mayoría de las
personas.
Es útil para llevar a cabo procedimientos estadísticos
para la comparación de exactitud de varios conjuntos de
datos.
Propiedades, ventajas y desventajas
de la media
Desventajas:
Se ve adversamente afectada por valores
extremos, perdiendo representatividad.
Si el conjunto de datos es muy grande
puede ser tedioso su cálculo manual.
No se puede calcular para datos
cualitativos.
No se puede calcular para datos
agrupados que tengan clases de amplitud
indeterminada.
EJEMPLO
Emisión de CO2 por persona, por año (Tn) en 8
países del mundo
China: 2,3
Indonesia:1,2
Pakistán: 0,7
Considerando las 8 observaciones X ?8
India: 1,1
Bangladesh: 0,2
Rusia: 9,8
Ejemplo: IC de amplitud
indeterminada
~
Mediana: M, Me o X
n
F ( xm 1 )
M Li 2 h
f ( xm )
Indonesia:1,2 M8= ?
Pakistán: 0,7
M7= ?
India: 1,1
Brasil: 1,8
Bangladesh: 0,2
Rusia: 9,8
Ejemplo: IC de amplitud
indeterminada (n=92)
COMPARACIÓN MEDIA-MEDIANA
Desventajas:
Para conjuntos pequeños de datos su valor no tiene casi
utilidad, si es que de hecho existe. Solo tiene significado en el
caso de una gran cantidad de datos.
No utiliza toda la información disponible.
No siempre existe, si los datos no se repiten.
Difícil de interpretar si los datos tiene 3 o más modas.
Relación entre la media, la
mediana y la moda
2) 47 43 44 46 20 70
3) 44 43 40 50 47 46
Ordenamos las observaciones y
calculamos la media y la mediana en cada
caso
20 30 40 50 60 70
20 43 44 46 47 70
40 43 44 46 47 50
En todos los casos la media y la mediana toman el
mismo valor (?)
¿Cuáles son las diferencias entre los tres grupos?
MEDIDAS DE DISPERSIÓN
Rango
Rango intercuartílico o
semiintercuartílico.
Varianza y desviación típica o
estándar
Desviación media
Coeficientes de variación
Medidas de dispersión: Rango (R)
Rango (amplitud o recorrido):
Está determinado por los dos valores
extremos de los datos muestrales, es
simplemente la diferencia entre la mayor
y menor observación.
Es una medida de dispersión absoluta,
ya que depende solamente de los datos y
permite conocer la máxima dispersión.
Ventajas del Rango
Fácil de calcular
Desventajas del Rango
Depende únicamente de dos valores. ¿Y el resto de
las observaciones? Calculemos R(1) y R(2)
No proporciona una medida de variabilidad de las
observaciones con respecto al centro de la
distribución.
No es robusto frente a valores extremos.
RANGO INTERCUARTÍLICO: RQ = Q3 - Q1
•RANGO SEMI-INTERCUARTÍLICO: RSQ = (Q3 - Q1)/2
Comparemos R y RQ para los dos primeros grupos del ejemplo
Medidas de dispersión: Varianza
Notación: s2, 2
Es un valor numérico que mide el grado
de dispersión relativa porque depende de
la posición de los datos x1,x2,…,xn con
respecto a la media.
Es el promedio al cuadrado de las
desviaciones de cada observación con
respecto a la media.
Medidas de dispersión: Varianza
N
ix 2
Para datos NO
2
i 1 N
agrupados: N
n
ix x 2
2
s i 1 n > 30
n
n
ix x 2
2 n < 30
s i 1
n 1
Medidas de dispersión: Varianza
Para datos agrupados en una distribución
de frecuencias:
k
m x fi
2
i
2 n > 30
S i 1
n
k
m x fi
2
i
2 n < 30
S i 1
n 1
Propiedades, Ventajas y
Desventajas de la Varianza
Ventajas:
Utiliza toda la información disponible.
Aplicación muy importante en inferencia
Desventajas:
No proporciona ayuda inmediata cuando se estudia
la dispersión de un solo conjunto de datos.
Difícil de interpretar por tener sus unidades elevadas
al cuadrado.
Medidas de dispersión:
Desviación Típica o estándar
Notación: s,
Es la raíz cuadrada 2
de la varianza. s s
Ventajas y Desventajas de la
Desviación Estándar
Ventajas:
Esta expresada en las mismas unidades que la variable en
estudio.
Utiliza todas las observaciones en su cálculo.
Fácil de interpretar.
Desventajas:
Influenciada por valores extremos
El valor por si solo no totalmente indicativo de la magnitud
de variabilidad. Si en forma comparativa: Calculemos la
desviación estándar para los tres grupos del ejemplo y
concluyamos.
Medidas de dispersión:
Coeficiente de Variación
Es una medida de dispersión relativa que
permite comparar el nivel de dispersión
de dos muestras con variables con
unidades y/o medias diferentes.
No tiene dimensiones.
Notación: CV
CV S / x
CV % ( S / x) *100
Ejemplo de cómo la varianza no sirve para
comparar la dispersión de dos variables distintas:
Sea X el peso en Kg de una población de lagartos
Sea Y el peso en Kg de una población de tiburones
xi ni yi ni
0.4 3 400 3
0.45 4 403 4
0.5 6 405 4
0.55 2 410 2
Ap < 0 Ap = 0 Ap > 0
Medidas de Forma: Kurtosis
Miden si los valores de la distribución
están más o menos concentrados
alrededor de los valores medios de la
muestra (zona central de la distribución).
Se definen tres tipos de distribución
según su grado de Kurtosis:
Medidas de Forma: Kurtosis
Mesocúrtica: grado de concentración medio
alrededor de los valores centrales de la
variable.
Leptocúrtica: grado de concentración
elevado.
Platicúrtica: grado de concentración
reducido.
DIAGRAMA DE CAJA y BIGOTES (BOX-PLOT)
Se construye del siguiente modo:
•Con los datos ordenados se obtienen los tres cuartiles
•Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se
indica la posición de la mediana mediante una línea.
•Se calculan los límites de admisión ( los valores que queden
fuera se consideran atípicos) LI Q1 1,5(Q 3 Q1 )
LS Q 3 1,5(Q 3 Q1 )
•Se dibuja una línea desde cada extremo del rectángulo hasta el
valor más alejado no atípico.
•Se marcan todos los datos considerados como atípicos.
DIAGRAMA DE CAJA (BOX-
PLOT)
Dato mayor
Box-and-Whisker Plot no atípico
Dato atípico
150 160 170 180 190 200
Altura
Dato atípico Q1 Q3