Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medidas de posición.
Informan la posición que ocupa un valor dentro de la distribución de datos.
Se clasifican, a su vez, en:
-Medidas de tendencia central: medias, moda y mediana.
-Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).
Medidas de dispersión.
Resumen la heterogeneidad de los datos, lo separados que estos están entre sí.
Se clasifican, a su vez, en:
-Medidas de dispersión absoluta: vienen dadas en las mismas unidades en las que se mide la
variable: recorridos, desviaciones medias, varianza, y desviación típica.
-Medidas de dispersión relativa: informan de la dispersión en términos relativos: coeficiente de
variación, coeficiente de apertura, recorridos relativos, índice de desviación respecto de la
mediana.
Medidas de forma.
Su valor informa sobre el aspecto que tiene la gráfica de la distribución: coeficientes de asimetría,
coeficientes de curtosis, etc.
Otros parámetros.
Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy
concretas: proporciones, números índice, tasas, coeficiente de Gini, etc.
La elección de uno u otro parámetro dependerá de cada caso particular, de los valores de la
variable y de los propósitos del estudio.
A continuación, se describen con mayor detalle las medias del resumen anterior.
Si los datos están agrupados en una tabla de frecuencias, se puede expresar la media aritmética en
función de las frecuencias absolutas y relativas:
∑ x i ⋅ fⅈ k
x= i=1
=∑ x i fir
n i=1
Siendo “k” la cantidad de frecuencias, es decir, la cantidad de valores diferentes que adopta la
variable.
=
∑ mi fi , siendo “k” la cantidad de intervalos y “mi” la marca de clase.
i=1
n
Ejemplo: En un estudio, las edades de hijos de familias, se presentan agrupadas por intervalos.
Nota: el cálculo anterior para el caso de intervalos, difiere de la siguiente afirmación tomada de
otro autor Montanero: “El hecho de que los datos aparezcan agrupados en intervalos, como
ocurre con los valores de colesterol que figuran en un ejemplo previo, no debe afectar al cálculo
de la media que debe calcularse a partir de los datos originales sin agrupar.”
Propiedades de la Media:
-Representa el punto de equilibrio de los datos. Podemos establecer una analogía entre la media
aritmética y el concepto físico de centro de gravedad, es decir, la media aritmética puede
entenderse como el centro de gravedad de los datos de la muestra, y como tal puede verse muy
afectada ante la presencia de valores extremos.
-La suma de las distancias de los datos a la media es cero.
-En general, no coincide con el valor exacto de alguna de las variables.
Ventajas de la Media
-Emplea todos los valores disponibles.
-Tiene una forma fija de cálculo.
Desventajas de la Media
-No puede calcularse para variables cualitativas.
-Su valor es sensible a datos extremos (muy grandes o chicos) y datos atípicos (outliers)
Media truncada: es la media aritmética que se obtiene excluyendo del cálculo los datos más
extremos en un 5% del total.
Media ponderada: se obtiene de manera similar a la media según la fórmula de cálculo ya vista,
pero ponderando (asignado un peso o importancia) cada dato xi al gusto de quien la calcula. Desde
ese punto de vista, la media aritmética puede entenderse como una media ponderada en la que se
considera, para cada dato xi, la ponderación correspondiente a la frecuencia relativa del mismo en
la muestra. La media ponderada no destaca especialmente por su interés científico, sino por su
uso en ámbitos académicos a la hora de calificar asignaturas, por lo que no profundizaremos más
en este parámetro.
Mediana (Me)
Es el valor central en el sentido del orden, es decir, es aquel dato que queda al medio una vez
ordenados de menor a mayor.
Otra manera de definirla es: la mediana es el dato que deja por debajo de sí a la mitad de los
datos, una vez que estos están ordenados de menor a mayor.
Debe distinguirse claramente entre la posición en que se encuentra el valor de la Mediana y el
valor mismo.
Si el número total de datos n es impar, la posición de ese dato viene dada por: (n+1)/2.
Ejemplo:
-Muestra con n=5 (impar): x1=11, x2=14, x3=12 ,x4=10 ,x5=13
Se ordenan los datos: 10,11,12,13,14.
Posición del dato cuyo valor es la media: (n+1)/2= (5+1)/2=3
Valor de la Mediana: 12. Luego Me=12
Para n par, se determinan las dos posiciones centrales y la Mediana es el promedio de los valores
correspondientes a esas posiciones:
Las posiciones centrales vienen dadas por n/2 y (n+2)/2
Ejemplo
-Muestra con n=6 (par): x1=11, x2=14, x3=12 ,x4=10 ,x5=13,x6=15
Se ordenan los datos: 10,11,12,13,14,15
Posición de los datos cuyo promedio de valores será la media: n/2= 6/2=3 y (n+2)/2= (6+2)/2=4
Valor de los datos: 12 y 13. Luego Me=(12+13)/2=12,5
Ejemplo para el caso de datos agrupados por intervalos puede calcularse la Clase Mediana. En el
siguiente ejemplo la Clase Mediana es [10-15)
Propiedades de la Mediana
-Si la distribución de los datos es aproximadamente simétrica, la media y la mediana serán
aproximadamente iguales.
-Puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está
acotado (¿?).
Ventajas:
-La mediana puede ser usada no sólo para datos numéricos sino también para datos cualitativos
ordinales.
-Es menos sensible que la media a oscilaciones de valores de la variable.
-La mediana es una medida de posición robusta. No se afecta por la presencia de datos outliers o
extremos. Efectivamente, podríamos reemplazar el valor mayor de la muestra por otro mucho
más grande sin que ello afecte a la mediana. Esta cualidad podría considerarse negativa por
denotar un carácter menos informativo que la media, pero también puede resultar positiva
cuando una clara asimetría con presencia de valores extremos (sesgo) desplaza fuertemente la
media restándole representatividad, como se puede ver calculando media y mediana del
siguiente conjunto de datos: 8,0,10,9,9.
-No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética
cuando la población es bastante heterogénea. Ejemplo: cuando se resume la información sobre
los salarios una empresa, hay unos pocos salarios muy altos que elevan la media aritmética
haciendo que pierda representatividad respecto al grueso de la población, sin embargo, alguien
con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana
menos.
-Desventajas:
-No puede calcularse para variables cualitativas no ordinales.
-Su fórmula de cálculo depende del tipo de variable. (¿?)
-En el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos.
-No se presta a cálculos algebraicos tan bien como la media aritmética.
Modo o moda
Es el dato más repetido, el valor de la variable con mayor frecuencia absoluta (“estar de moda”).
Características:
-Su cálculo es extremadamente sencillo, pues sólo necesita de un recuento.
-En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su
defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
-Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la
misma frecuencia (distribuciones bimodales o multimodales).
Ventajas
-Cálculo sencillo.
-Interpretación muy clara.
-Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el
parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos,
por ejemplos: cuando se enumeran en medios periodísticos, las características más frecuentes
de determinado sector social (¿?).
Inconvenientes:
-Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a
variaciones muestrales.
-Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del
número de intervalos y de su amplitud.
-Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la
moda, no afectan en modo alguno a su valor.
-No siempre se sitúa hacia el centro de la distribución.
-Su fórmula de cálculo depende del tipo de variable. (¿?)
• Valor correspondiente a la posición que deja por debajo un cierto porcentaje del total de
valores diferentes de la variable
Tradicionalmente se distingue entre cuartiles, deciles y percentiles.
Cuartiles
Son los tres valores de la variable que corresponden a las posiciones que dividen al conjunto de
valores ordenados en cuatro porciones iguales correspondiendo al 25%, 50% y 75 % del total de
valores que toma la variable. En ese orden, se denominan primero, segundo y tercer cuartil; y se
identifican con Q1, Q2 y Q3 respectivamente.
Cálculo de cuartiles
-Ordenar los datos de mayor a menor.
-Determinar la posición de los cuartiles:
-El cuartil inferior Q1 es el dato que ocupa la posición (n+1)/4 en la muestra ordenada.
-El cuartil medio Q2 es el dato que ocupa la posición (n+1)/2 en la muestra ordenada.
-El cuartil superior Q3 es el dato que ocupa la posición 3(n+1)/4 en la muestra ordenada.
-Determinar el valor de los cuartiles.
Posiciones:
Posición de Q1= (13+1)/4=3,5
Posición de Q2=Me= (13+1)/2=7
Posición de Q3= 3(13+1)/4=10,5
Nota: cuando, como en el ejemplo anterior, al calcular una posición, no se obtiene un valor entero,
se adoptan dos posiciones: la correspondiente a la parte entera del valor calculado y la
correspondiente a esa parte entera más uno. El valor del cuartil, resultará de promediar los valores
correspondientes a esas posiciones.
Para el cálculo de éste y otros cuantiles, es conveniente recurrir a algún software estadístico, con
más razón, si la cantidad de datos es elevada.
Deciles
Son nueve valores correspondientes a las posiciones que dividen al conjunto de valores ordenados
en diez porciones iguales correspondiendo al 10%, 20%, 30%..., 90% del total de valores que toma
la variable. En ese orden, se denominan primero, segundo, tercer…. noveno decil.
Percentiles
Son 99 valores correspondientes a las posiciones que dividen en cien porciones iguales el conjunto
de datos o valores ordenados. De modo genérico el percentil p% deja p% de los valores por
debajo. Se denotan con p1 a p99.
Ejemplo. Durante un año se registra la edad de pacientes de un centro médico que concurren con
una determinada dolencia.
-Si el percentil 10% (P10) es 28 años, significa que, del total de pacientes que concurrieron con la
dolencia, el 10% tiene 28 años o menos y el 90% tiene más de 28 años.
-Si el percentil 80% (P80) es 56 años, significa que, del total de pacientes que concurrieron con la
dolencia, el 80% tiene 56 años o menos y el 20 % tiene más de 56 años.
Los percentiles se utilizan mucho en pediatría para analizar el crecimiento de los recién nacidos.
No tiene sentido hablar de percentiles en muestra con pocos datos. Para muestras amplias, se
hace imprescindible el uso de programas estadísticos.
Otra manera de expresar estos mismos cuantiles, es con referencia a la cantidad total de valores.
El valor del cuantil indica la porción de dicha unidad que queda a su izquierda. Así, el cuantil 0.1 es
el valor que deja a su izquierda el 10% de los datos. La mediana coincide con el cuantil 0.5 y el
percentil 95 coincide con el cuantil 0.95.
• Valor de la variable que deja por debajo un cierto porcentaje de la frecuencia acumulada
absoluta
Se define el cuantil de orden α como un valor de la variable por debajo del cuál se encuentra una
frecuencia acumulada α (%).
Nota mía: Para un cierto valor de la variable, la frecuencia acumulada viene dada por el área bajo
la curva de Gauss.
En todos los casos la Media y la mediana valen 55. En la muestra “C” los datos están más dispersos
que en la muestra “A”. La muestra “B” corresponde a una situación intermedia. La figura muestra
la campana de Gauss asociada a muestras del tipo “C” y “A”. Se precia claramente que, el
conocimiento de la Media y la Mediana no contienen la información suficiente para caracterizar la
muestra.
R=Xmax – Xmin
Desviaciones medias
Dada una variable estadística x y un parámetro de tendencia central, c, se llama desviación de un
valor de la variable, xi, respecto de c, al número |xi - c|. Este número mide lo lejos que está cada
dato del valor central c, por lo que una media de esas medidas podría resumir el conjunto de
desviaciones de todos los datos.
Así pues, se denomina desviación media de la variable x respecto de c a la media aritmética de las
desviaciones de los valores de la variable respecto de. Si x=x1,x2,…..,xn; entonces:
∑ |xi−c| .
DMc = i=1
n
n n
∑ ( xi −x ) =∑ x i−n x=0
i=1 i=1
Sin embargo, el uso de valores absolutos impide determinados cálculos algebraicos que obligan a
desechar estos parámetros, a pesar de su clara interpretación, en favor de los siguientes.
S 2
=
∑ (xi−x )2
i=1
n
k
S =¿ ∑ ( xi −x ) f ir
2 2
i =1
Con vista a una posterior Inferencia Estadística aparecerá dividida en (n-1) en lugar de n. En tal
caso, suele denominarse varianza insesgada o cuasi-varianza.
∑ ( x i−x )2
S2= i=1
n−1
s = √ Varianza
√
n
∑ ( x i−x )2
i=1
s=
n
Igualmente, en la Inferencia Estadística, se utilizará la cuasi-desviación típica que se obtiene a
partir de la cuasi-varianza.
Para variables agrupadas en intervalos, se usan las marcas de clase en estos cálculos.
Propiedades:
-Ambos parámetros no se alteran con los cambios de origen.
-Si todos los valores de la variable se multiplican por una constante, b, la varianza queda
multiplicada por b2.
-En el intervalo ( x - kS, x + kS ) se encuentran, al menos, el 100 (1-1/k2)% de las observaciones.
Esta última propiedad muestra la potencia del uso conjunto de la media y la desviación típica
como parámetros estadísticos, ya que para valores de k iguales a 2 y 3, respectivamente, se
obtiene que:
-En el intervalo ( x - 2S, x + 2S ) están, al menos, el 75% de los datos.
-En el intervalo ( x - 3S, x + 3S ) están, al menos, el 89% de los datos.
-Se cumple la siguiente relación entre los parámetros de dispersión:
DMe < D x< S
donde DMe, D x , y S, son, respectivamente, la desviación media respecto de la mediana, la
desviación media respecto de la media y la desviación típica.
Tipificación o Estandarización
Resulta de calcular la diferencia entre cada dato xi y la media aritmética, dividiendo el resultado en
la desviación típica:
xi −x
z i=
s
En el caso de que los datos se distribuyeran según una distribución normal, la desviación típica
funciona como complemento de la media (teniendo en cuenta que esta última indica el centro
aritmético de los datos y la primera, el grado de dispersión respecto a dicho centro), de modo que,
el par de números ( x , s) resume perfectamente la información contenida en los n datos de la
muestra.
Para esta distribución, ocurre, por ejemplo, que entre los valores x -s y x +s se encuentra una
proporción muy cercana al 68 % de los datos, y que entre x -2s y x +2s se encuentra una
proporción muy cercana al 95 %.
Un ejemplo lo encontramos en la a la medición del colesterol sérico (mg=cm3) en una muestra
de n = 4583 individuos. Los datos se han agrupado en intervalos, obteniéndose el
histograma de frecuencias absolutas que muestra la figura.
A su vez, realizados los cálculos se tiene: x=228 , 18 y s=44,2.
la mayor parte de los datos (95 %) está comprendida en el intervalo 228+2*45 y 228-2*45, es
decir, entre 138 y 318, lo cual se puede verificar gráficamente. El mero conocimiento de x y s,
permitiría reproducir con exactitud el histograma (que se asemeja bastante a la campana de
Gauss).
Rango intercuartílico
No ocurre lo mismo con los datos del histograma relativo a 97 mediciones del volumen de
tumores prostáticos, donde se aprecia un modelo de distribución radicalmente diferente
al de la campana de Gauss; en este caso, el modelo está caracterizado por un fuerte sesgo
o asimetría hacia la derecha.
A medida que nos alejamos de las distribuciones normales, el par ( x , s) pierde su capacidad de
síntesis. De hecho, sabemos que en determinadas situaciones la media aritmética puede
considerarse menos representativa que la mediana. En tal caso necesitamos una medida de
dispersión que complemente dicho valor central.
El rango intercuartílico pretende ser un complemento adecuado a la mediana. Está basado, al igual
que esta, en el orden de los datos y se define mediante RI = Q3-Q1. En ejemplo se obtiene
RI = 7.03.
Muestra A: CV =0
Muestra B: CV =1,05
Muestra C: CV =2,08
Medidas de forma
Las medidas de forma caracterizan la forma de la gráfica de una distribución de datos estadísticos.
La mayoría de estos parámetros tiene un valor que suele compararse con la campana de Gauss,
esto es, la gráfica de la distribución normal, una de las que con más frecuencia se ajusta a
fenómenos reales.
Campana de Gauss: curva que sirve de modelo para el estudio de la forma de una distribución
Distribución simétrica.
En las distribuciones simétricas los parámetros media, mediana y moda coinciden, mientras que, si
una distribución presenta cierta asimetría, de un tipo o de otro, los parámetros se sitúan como
muestra el siguiente gráfico:
Ello puede demostrarse fácilmente si se tiene en cuenta la atracción que la media aritmética
siente por los valores extremos, que ya se ha comentado más arriba y las definiciones de mediana
(justo en el centro de la distribución, tomando el eje de abscisas como referencia) y moda (valor
que presenta una ordenada más alta).
Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más
larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha.
Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más
larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
Por consiguiente, la posición relativa de los parámetros de centralización puede servir como una
primera medida de la simetría de una distribución.
Otras medidas más precisas son el coeficiente de asimetría de Fisher, el coeficiente de asimetría
de Bowley y el coeficiente de asimetría de Pearson.
Los coeficientes de asimetría o sesgo indican el grado de asimetría o sesgo que se da en la
distribución de los datos.
Llegados a este punto hemos estudiado ya una amplia variedad de medidas estadísticas.
Recordemos que éstas tienen como función resumir la información que aporta la muestra.
Ahora bien, un resumen ideal debería verificar simultáneamente dos condiciones en ocasiones
incompatibles: exhaustividad y brevedad. En ese sentido, aconsejamos lo siguiente:
Si pretendemos resumir lo mejor posible la información contenida en la muestra
debemos escoger al menos una medida de centralización junto con otra de dispersión.
Lo más frecuente es considerar el par ( x ; s). Esta opción es la ideal en el caso de
que los datos se distribuyan según una curva normal.
A medida que nos diferenciamos de ese modelo de distribución, el par anterior pierde
su capacidad de síntesis, por lo que debe añadirse al resumen de los datos la mediana
como medida de centralización y, si es posible, el rango intercuartílico como medida de
dispersión. Nos decantaremos por esta opción preferiblemente cuando observemos una
fuerte asimetría con presencia de valores extremos. Esta elección debería ir acompañada
del uso de técnicas no paramétricas en la posterior inferencia. Por último, el
tamaño de muestra nunca debe faltar en un resumen adecuado.
Estas normas no dejan de ser orientativas, porque en la redacción de trabajos científicos
prima la capacidad de síntesis, de manera que debemos intentar elaborar tablas
que recojan la máxima información en el mínimo espacio y escoger sólo los gráficos que
resulten más esclarecedores.
Función gaussiana
Donde:
σ: es la desviación estándar.
𝝁: es la media.
x: valor de la variable (en realidad xi)
A confirmar: esta función permitiría graficar la campana de Gauss que aproxima el histograma de
Una distribución normal de frecuencias, conocidas la media y la desviación estándar.