Está en la página 1de 45

MEDIDAS DESCRIPTIVAS

Son ciertos números que permiten


cuantificar las características más
relevantes de un conjunto de datos
considerado como un todo. Permiten
condensar la información más relevante
de un conjunto de datos.
Estadístico: en el contexto del muestreo es toda función de las
observaciones muestrales.

Los estadísticos (características muestrales) se utilizan como


estimadores de las correspondientes características poblacionales.
Cuatro tipos de medidas descriptivas que permiten definir
adecuadamente la distribución de frecuencias en estudio:

1.MEDIDAS DE TENDENCIA CENTRAL O LOCALIZACION


2.MEDIDAS DE VARIABILIDAD O DISPERSION
3. MEDIDAS DE SESGO O ASIMETRIA
4.MEDIDAS DE CURTOSIS O APUNTAMIENTO
Medidas de tendencia central o
localización:
 Las medidas de tendencia central más
importantes son:

• Media.
• Mediana.
• Moda.
• Cuantiles (cuartiles, deciles y percentiles).
Media: Xn , μ
Es la suma de todas las observaciones dividida
por el número total de observaciones
 Para datos no agrupados:
n

X i
Xn  i 1

 Para datos agrupados:


k

m f i i
Xn  i 1

n
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
k: cantidad de clases
Para nuestro ejemplo de Conductividad
X 50  ?
Propiedades, ventajas y desventajas
de la media
Ventajas:
 Emplea en su cálculo toda la información disponible.
 Se expresa en las mismas unidades que la variable en
estudio.
 Es el centro de gravedad de toda la distribución,
representando a todos los valores observados.
 Es un valor único.
 Se trata de un concepto familiar para la mayoría de las
personas.
 Es útil para llevar a cabo procedimientos estadísticos
para la comparación de exactitud de varios conjuntos de
datos.
Propiedades, ventajas y desventajas
de la media
Desventajas:
 Se ve adversamente afectada por valores
extremos, perdiendo representatividad.
 Si el conjunto de datos es muy grande
puede ser tedioso su cálculo manual.
 No se puede calcular para datos
cualitativos.
 No se puede calcular para datos
agrupados que tengan clases de amplitud
indeterminada.
EJEMPLO
Emisión de CO2 por persona, por año (Tn) en 8
países del mundo
China: 2,3

Indonesia:1,2

Pakistán: 0,7
Considerando las 8 observaciones X ?8

India: 1,1

Brasil: 1,8 Descartando la mayor observación X  ?


7

Bangladesh: 0,2

Estados Unidos: 19,7

Rusia: 9,8
Ejemplo: IC de amplitud
indeterminada
~
Mediana: M, Me o X

 Es un estadístico de orden. Es el valor que


ocupa la posición central de un conjunto de
observaciones, una vez que han sido ordenados
en forma ascendente o descendente.Divide al
conjunto de datos en dos partes iguales.
 Se calcula para datos no agrupados:
• Si n es impar: posición donde se ubica la
mediana es igual a (n+1)/2.
• Si n es par: (n+1)/2 no es entero, por lo tanto
la mediana será igual al promedio de las dos
posiciones centrales, (n/2 y (n/2 + 1).
EJEMPLOS
 Si tengo 17 observaciones ordenadas de
menor a mayor, en qué posición
encuentro a la mediana?

 Si tengo 18 observaciones ordenadas de


menor a mayor, cómo calculo la
mediana?
Cálculo de la mediana
 Datos agrupados: clase mediana es la que contiene al dato que
ocupa la posición n/2, para n par o (n+1)/2, para n impar .

n
 F ( xm 1 )
M  Li  2 h
f ( xm )

Donde: Li: límite inferior de la clase mediana.


F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
h: amplitud de la clase mediana.
Para nuestro ejemplo de Conductividad
M= ?
Ventajas y desventajas de la
mediana
Ventajas:
 Fácil de calcular si el número de observaciones no es
muy grande.
 No se ve influenciada por valores extremos, ya que
solo influyen los valores centrales.
 Se puede calcular para cualquier tipos de datos
cuantitativos, incluso los datos con clase de amplitud
indeterminada.
Desventajas:
 Hay que ordenar los datos antes de determinarla.
 No utiliza todas las observaciones en el cálculo.
Recordemos este ejemplo y calculemos la mediana
incluyendo y excluyendo el valor extremo

Emisión de CO2 por persona, por año (Tn) en


8 países del mundo
China: 2,3

Indonesia:1,2 M8= ?
Pakistán: 0,7
M7= ?
India: 1,1

Brasil: 1,8

Bangladesh: 0,2

Estados Unidos: 19,7

Rusia: 9,8
Ejemplo: IC de amplitud
indeterminada (n=92)
COMPARACIÓN MEDIA-MEDIANA

•La media contiene más información porque usa


los valores de todos los datos.
•La mediana es más robusta frente a la presencia
de valores extremos.
•La media se presta mejor a los cálculos
algebraicos.
•Deben calcularse ambas pues proporcionan
información complementaria.
Media Recortada o Truncada
Esta medida resuelve la no robustez de la media
y usa mas observaciones que la mediana
Como se calcula:
Se ordenan los datos de menor a mayor
Se elimina un número (o %) de observaciones igualmente
repartidos a cada lado
Con los valores restantes se calcula la media a la que se
denomina media recortada o truncada (-Xtr)
Ejemplo: Emisión de CO2
0,2 0,7 1,1 1,2 1,8 2,3 9,8 19,7
Calcular la media recortada 25% -
Xtr(25) = ?
Moda (Mo)
 Observación o clase que tiene la mayor
frecuencia en un conjunto de
observaciones.
 Un conjunto de datos puede ser
unimodal, bimodal o multimodal.
 Es la única medida de tendencia central
que se puede determinar para datos de
tipo cualitativo.
Cálculo de la moda
 Para datos no agrupados: es simplemente la
observación que más se repite.
 Para datos agrupados:
1
Mo  Li  h
1   2
Donde: Li: límite inferior de la clase modal.
1: diferencia entre fi de la clase modal y la
anterior.
2: diferencia entre fi de la clase modal y la
posterior.
h: amplitud de la clase modal (clase de mayor
frecuencia).
Para nuestro ejemplo de Conductividad Mo= ?
Ventajas y desventajas de la
moda
Ventajas:
 No requiere cálculos (para datos no agrupados).
 Puede usarse para datos tanto cuantitativos como cualitativos.
 Fácil de interpretar.
 No se ve influenciada por valores extremos.
 Se puede calcular en clases de amplitud indeterminada.

Desventajas:
 Para conjuntos pequeños de datos su valor no tiene casi
utilidad, si es que de hecho existe. Solo tiene significado en el
caso de una gran cantidad de datos.
 No utiliza toda la información disponible.
 No siempre existe, si los datos no se repiten.
 Difícil de interpretar si los datos tiene 3 o más modas.
Relación entre la media, la
mediana y la moda

Todo esto se verifica con índices que cuantifican la asimetría

Cuando los datos son muy sesgados es mejor emplear la Md


li: Limite inferior de la
clase que contiene el
percentil
F: número de
observaciones
(n)
P(r): Percentil que
busco
Fn-1: Frec Acum en la
clase anterior a la que
contiene el percentil
P(r)
h:amplitud IC que
contiene el percentil
f: frec absoluta IC que
contiene el percentil
CUARTILES
Cómo los calculamos a partir de las observaciones crudas

Ordeno las observaciones de menor a mayor

Calculo la mediana (Q2) con la cual divido el conjunto de


observaciones en dos partes

Calculo la mediana en la primera mitad (Q1)

Calculo la mediana en la segunda mitad (Q3)


Resumen Estadístico Resumen Estadístico
para n=16 (par) para n=15 (impar)
4 Recuento 16 4 Recuento 15
5 Promedio 11,5 5 Promedio 11,0
6 Mediana 11,5 6 Mediana 11,0
7 Mínimo 4,0 7 Mínimo 4,0
8 Máximo 19,0 8 Máximo18,0
9 Rango 15,0 9 Rango 14,0
10 10
Cuartil Inferior 7,5 Cuartil Inferior 7,0
11 11
12 Cuartil Superior 15,5 12 Cuartil Superior 15,0
13 13
14 14
15 15
16 16
17 17
18 18
19
Medidas de dispersión,
variación o variabilidad.
 Son valores numéricos que indican o
describen la forma en que las
observaciones están dispersas o
distribuidas con respecto al valor central.
 Son importantes debido a que distintos
conjuntos de observaciones con el
mismo valor central pueden tener una
variabilidad muy distinta.
EJEMPLO
 Tres grupos de observaciones con
medias iguales
 1) 20 40 50 30 60 70

 2) 47 43 44 46 20 70

 3) 44 43 40 50 47 46
Ordenamos las observaciones y
calculamos la media y la mediana en cada
caso

 20 30 40 50 60 70

 20 43 44 46 47 70

 40 43 44 46 47 50
En todos los casos la media y la mediana toman el
mismo valor (?)
¿Cuáles son las diferencias entre los tres grupos?
MEDIDAS DE DISPERSIÓN
 Rango
 Rango intercuartílico o
semiintercuartílico.
 Varianza y desviación típica o
estándar
 Desviación media
 Coeficientes de variación
Medidas de dispersión: Rango (R)
Rango (amplitud o recorrido):
 Está determinado por los dos valores
extremos de los datos muestrales, es
simplemente la diferencia entre la mayor
y menor observación.
 Es una medida de dispersión absoluta,
ya que depende solamente de los datos y
permite conocer la máxima dispersión.
Ventajas del Rango
Fácil de calcular
Desventajas del Rango
 Depende únicamente de dos valores. ¿Y el resto de
las observaciones? Calculemos R(1) y R(2)
 No proporciona una medida de variabilidad de las
observaciones con respecto al centro de la
distribución.
 No es robusto frente a valores extremos.
RANGO INTERCUARTÍLICO: RQ = Q3 - Q1
•RANGO SEMI-INTERCUARTÍLICO: RSQ = (Q3 - Q1)/2
Comparemos R y RQ para los dos primeros grupos del ejemplo
Medidas de dispersión: Varianza
 Notación: s2, 2
 Es un valor numérico que mide el grado
de dispersión relativa porque depende de
la posición de los datos x1,x2,…,xn con
respecto a la media.
 Es el promedio al cuadrado de las
desviaciones de cada observación con
respecto a la media.
Medidas de dispersión: Varianza

N

 ix   2

Para datos NO  
2
i 1 N
agrupados: N
n

 ix  x 2
2
s  i 1 n > 30
n
n

 ix  x 2

2 n < 30
s  i 1
n 1
Medidas de dispersión: Varianza
Para datos agrupados en una distribución
de frecuencias:
k

 m  x   fi
2
i
2 n > 30
S  i 1
n
k

 m  x   fi
2
i
2 n < 30
S  i 1
n 1
Propiedades, Ventajas y
Desventajas de la Varianza
Ventajas:
 Utiliza toda la información disponible.
 Aplicación muy importante en inferencia

Desventajas:
 No proporciona ayuda inmediata cuando se estudia
la dispersión de un solo conjunto de datos.
 Difícil de interpretar por tener sus unidades elevadas
al cuadrado.
Medidas de dispersión:
Desviación Típica o estándar
Notación: s, 
 Es la raíz cuadrada 2
de la varianza. s s
Ventajas y Desventajas de la
Desviación Estándar
Ventajas:
 Esta expresada en las mismas unidades que la variable en
estudio.
 Utiliza todas las observaciones en su cálculo.
 Fácil de interpretar.
Desventajas:
 Influenciada por valores extremos
 El valor por si solo no totalmente indicativo de la magnitud
de variabilidad. Si en forma comparativa: Calculemos la
desviación estándar para los tres grupos del ejemplo y
concluyamos.
Medidas de dispersión:
Coeficiente de Variación
 Es una medida de dispersión relativa que
permite comparar el nivel de dispersión
de dos muestras con variables con
unidades y/o medias diferentes.
 No tiene dimensiones.
 Notación: CV
CV  S / x

CV %  ( S / x) *100
Ejemplo de cómo la varianza no sirve para
comparar la dispersión de dos variables distintas:
Sea X el peso en Kg de una población de lagartos
Sea Y el peso en Kg de una población de tiburones
xi ni yi ni
0.4 3 400 3
0.45 4 403 4
0.5 6 405 4
0.55 2 410 2

x  0.473 S2  0.026 y  404 S2  9.846


CV  0.34 CV = 0.0076
DESVIACIÓN MEDIA:

•No tiene significado estadístico.


Medidas de Forma
 Son medidas numéricas que permiten
determinar la forma que tiene la
distribución de los datos, por lo tanto,
sirven para corroborar lo que los gráficos
muestran.

-Sesgoo Coeficiente de Pearson (Ap)


Medidas
Asimetría Coeficiente de Fisher ()
de forma
-Kurtosis
o apuntamiento: Coeficiente de
apuntamiento de Fisher (K)
Medidas de Forma: Asimetría

Ap < 0 Ap = 0 Ap > 0
Medidas de Forma: Kurtosis
 Miden si los valores de la distribución
están más o menos concentrados
alrededor de los valores medios de la
muestra (zona central de la distribución).
 Se definen tres tipos de distribución
según su grado de Kurtosis:
Medidas de Forma: Kurtosis
 Mesocúrtica: grado de concentración medio
alrededor de los valores centrales de la
variable.
 Leptocúrtica: grado de concentración
elevado.
 Platicúrtica: grado de concentración
reducido.
DIAGRAMA DE CAJA y BIGOTES (BOX-PLOT)
Se construye del siguiente modo:
•Con los datos ordenados se obtienen los tres cuartiles
•Se dibuja un rectángulo cuyos extremos son Q1 y Q3 y se
indica la posición de la mediana mediante una línea.
•Se calculan los límites de admisión ( los valores que queden
fuera se consideran atípicos) LI  Q1  1,5(Q 3  Q1 )
LS  Q 3  1,5(Q 3  Q1 )

•Se dibuja una línea desde cada extremo del rectángulo hasta el
valor más alejado no atípico.
•Se marcan todos los datos considerados como atípicos.
DIAGRAMA DE CAJA (BOX-
PLOT)

Dato menor no atípico Media Mediana

Dato mayor
Box-and-Whisker Plot no atípico

Dato atípico
150 160 170 180 190 200
Altura

Dato atípico Q1 Q3

También podría gustarte