Está en la página 1de 18

Estadística Descriptiva

3. Resumen de datos. Medición estadística.


El tercer paso del proceso descriptivo consiste en caracterizar la muestra calculando los valores
típicos cuyo propósito es resumir o sintetizar la información que aportan los n datos.

3.1. Parámetro estadístico. Conceptos básicos.


En estadística, un parámetro es un número que resume la gran cantidad de valores (datos) que
pueden derivarse del estudio de una variable estadística. El cálculo de este número está bien
definido, usualmente mediante una fórmula aritmética.
Los parámetros estadísticos son una consecuencia inevitable del propósito esencial de la
estadística: crear un modelo de la realidad.
El estudio de una gran cantidad de datos individuales de una población puede ser farragoso e
inoperativo, por lo que se hace necesario realizar un resumen que permita tener una idea global
de la población, compararla con otras, comprobar su ajuste a un modelo ideal,
realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A
estas tareas contribuyen de modo esencial los parámetros estadísticos.
Un parámetro estadístico es una medida poblacional, un valor que se puede comparar con otros,
tomando una unidad de una determinada magnitud como referencia.
La denominación de parámetros queda reservada para el caso en que estos valores resumen se
calculen a partir de los datos de toda la población. Cuando son calculados usando los datos
provenientes de una muestra, se denominan, simplemente, estadísticos o, también, estadígrafos o
estimadores.

Propiedades deseables de un parámetro


-Se define de manera objetiva. Es posible calcularlo sin ambigüedades, generalmente mediante
una fórmula matemática. Por ejemplo, la media aritmética se define como la suma de todos los
datos, dividida por el número de datos. No hay ambigüedad.
-No desperdicia, a priori, ninguna de las observaciones. Con carácter general, un parámetro será
más representativo de una determinada población, cuántos más valores de la variable estén
implicados en su cálculo. Por ejemplo, para medir la dispersión puede calcularse el recorrido, que
sólo usa dos valores de la variable objeto de estudio: los extremos; o la desviación típica, en cuyo
cálculo intervienen todos los datos del eventual estudio.
-Es interpretable. Significa algo. La mediana, por ejemplo, deja por debajo de su valor a la mitad
de los datos, está justo en medio de todos ellos cuando están ordenados. Esta es una
interpretación clara de su significado.
-Es sencillo de calcular y se presta con facilidad a manipulaciones algebraicas. Se verá más abajo
que una medida de la dispersión es la desviación media. Sin embargo, al estar definida mediante
un valor absoluto, función definida a trozos y no derivable, no es útil para gran parte de los
cálculos en los que estuviera implicada, aunque su interpretación sea muy clara.
-Es poco sensible a las fluctuaciones muestrales. Si pequeñas variaciones en una muestra de
datos estadísticos influyen en gran medida en un determinado parámetro, es porque tal
parámetro no representa con fiabilidad a la población. Así, pues, es deseable que el valor de un
parámetro con esta propiedad se mantenga estable ante las pequeñas oscilaciones que con
frecuencia pueden presentar las distintas muestras estadísticas. Esta propiedad es más interesante
en el caso de la estimación de parámetros. Por otra parte, los parámetros que no varían con los
cambios de origen y escala o cuya variación está controlada algebraicamente, son apropiados en
determinadas circunstancias como la tipificación.

3.2. Principales parámetros


Habitualmente se agrupan los parámetros en las siguientes categorías.

Medidas de posición.
Informan la posición que ocupa un valor dentro de la distribución de datos.
Se clasifican, a su vez, en:
-Medidas de tendencia central: medias, moda y mediana.
-Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).

Medidas de dispersión.
Resumen la heterogeneidad de los datos, lo separados que estos están entre sí.
Se clasifican, a su vez, en:
-Medidas de dispersión absoluta: vienen dadas en las mismas unidades en las que se mide la
variable: recorridos, desviaciones medias, varianza, y desviación típica.
-Medidas de dispersión relativa: informan de la dispersión en términos relativos: coeficiente de
variación, coeficiente de apertura, recorridos relativos, índice de desviación respecto de la
mediana.

Medidas de forma.
Su valor informa sobre el aspecto que tiene la gráfica de la distribución: coeficientes de asimetría,
coeficientes de curtosis, etc.

Otros parámetros.
Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy
concretas: proporciones, números índice, tasas, coeficiente de Gini, etc.

La elección de uno u otro parámetro dependerá de cada caso particular, de los valores de la
variable y de los propósitos del estudio.

A continuación, se describen con mayor detalle las medias del resumen anterior.

Medidas de posición o localización

Medidas de Tendencia Central


Las medidas de centralización son las más importantes, aunque no suelen bastar para
resumir la información. Sus valores suelen situarse cerca del centro de la distribución de
datos. La pregunta puede ser la siguiente: si pretendemos explicar la mayor parte posible
de información con un único número ¿Cuál debe ser ese número? Debe ser un número
representativo. Los más destacados son las medias o promedios (incluyendo la media
aritmética, la media geométrica y la media armónica), la mediana y la moda.

Media aritmética ():


Dada una muestra aleatoria de n mediciones denotadas x 1,x2,…,xn, se define la media muestral o
media aritmética:
n
x 1+ x 2+ …..+ xn ∑ xi
= = i=1
n
n

Ejemplo: n=6, x1=10, x2=14, x3=12, x4=11, x5=12, x6=13;  = 12


(La media se expresa, lógicamente, en las mismas unidades que los datos originales. Indicar dicha
unidad es aconsejable).

Si los datos están agrupados en una tabla de frecuencias, se puede expresar la media aritmética en
función de las frecuencias absolutas y relativas:

∑ x i ⋅ fⅈ k
x= i=1
=∑ x i fir
n i=1

Siendo “k” la cantidad de frecuencias, es decir, la cantidad de valores diferentes que adopta la
variable.

Para el caso de valores agrupados en intervalos, la fórmula de cálculo es:

 =
∑ mi fi , siendo “k” la cantidad de intervalos y “mi” la marca de clase.
i=1
n

Ejemplo: En un estudio, las edades de hijos de familias, se presentan agrupadas por intervalos.

Nota: el cálculo anterior para el caso de intervalos, difiere de la siguiente afirmación tomada de
otro autor Montanero: “El hecho de que los datos aparezcan agrupados en intervalos, como
ocurre con los valores de colesterol que figuran en un ejemplo previo, no debe afectar al cálculo
de la media que debe calcularse a partir de los datos originales sin agrupar.”

Propiedades de la Media:
-Representa el punto de equilibrio de los datos. Podemos establecer una analogía entre la media
aritmética y el concepto físico de centro de gravedad, es decir, la media aritmética puede
entenderse como el centro de gravedad de los datos de la muestra, y como tal puede verse muy
afectada ante la presencia de valores extremos.
-La suma de las distancias de los datos a la media es cero.
-En general, no coincide con el valor exacto de alguna de las variables.
Ventajas de la Media
-Emplea todos los valores disponibles.
-Tiene una forma fija de cálculo.
Desventajas de la Media
-No puede calcularse para variables cualitativas.
-Su valor es sensible a datos extremos (muy grandes o chicos) y datos atípicos (outliers)

Media truncada: es la media aritmética que se obtiene excluyendo del cálculo los datos más
extremos en un 5% del total.

Media ponderada: se obtiene de manera similar a la media según la fórmula de cálculo ya vista,
pero ponderando (asignado un peso o importancia) cada dato xi al gusto de quien la calcula. Desde
ese punto de vista, la media aritmética puede entenderse como una media ponderada en la que se
considera, para cada dato xi, la ponderación correspondiente a la frecuencia relativa del mismo en
la muestra. La media ponderada no destaca especialmente por su interés científico, sino por su
uso en ámbitos académicos a la hora de calificar asignaturas, por lo que no profundizaremos más
en este parámetro.

Mediana (Me)
Es el valor central en el sentido del orden, es decir, es aquel dato que queda al medio una vez
ordenados de menor a mayor.
Otra manera de definirla es: la mediana es el dato que deja por debajo de sí a la mitad de los
datos, una vez que estos están ordenados de menor a mayor.
Debe distinguirse claramente entre la posición en que se encuentra el valor de la Mediana y el
valor mismo.
Si el número total de datos n es impar, la posición de ese dato viene dada por: (n+1)/2.
Ejemplo:
-Muestra con n=5 (impar): x1=11, x2=14, x3=12 ,x4=10 ,x5=13
Se ordenan los datos: 10,11,12,13,14.
Posición del dato cuyo valor es la media: (n+1)/2= (5+1)/2=3
Valor de la Mediana: 12. Luego Me=12

Para n par, se determinan las dos posiciones centrales y la Mediana es el promedio de los valores
correspondientes a esas posiciones:
Las posiciones centrales vienen dadas por n/2 y (n+2)/2
Ejemplo
-Muestra con n=6 (par): x1=11, x2=14, x3=12 ,x4=10 ,x5=13,x6=15
Se ordenan los datos: 10,11,12,13,14,15
Posición de los datos cuyo promedio de valores será la media: n/2= 6/2=3 y (n+2)/2= (6+2)/2=4
Valor de los datos: 12 y 13. Luego Me=(12+13)/2=12,5
Ejemplo para el caso de datos agrupados por intervalos puede calcularse la Clase Mediana. En el
siguiente ejemplo la Clase Mediana es [10-15)

Propiedades de la Mediana
-Si la distribución de los datos es aproximadamente simétrica, la media y la mediana serán
aproximadamente iguales.
-Puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está
acotado (¿?).
Ventajas:
-La mediana puede ser usada no sólo para datos numéricos sino también para datos cualitativos
ordinales.
-Es menos sensible que la media a oscilaciones de valores de la variable.
-La mediana es una medida de posición robusta. No se afecta por la presencia de datos outliers o
extremos. Efectivamente, podríamos reemplazar el valor mayor de la muestra por otro mucho
más grande sin que ello afecte a la mediana. Esta cualidad podría considerarse negativa por
denotar un carácter menos informativo que la media, pero también puede resultar positiva
cuando una clara asimetría con presencia de valores extremos (sesgo) desplaza fuertemente la
media restándole representatividad, como se puede ver calculando media y mediana del
siguiente conjunto de datos: 8,0,10,9,9.
-No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética
cuando la población es bastante heterogénea. Ejemplo: cuando se resume la información sobre
los salarios una empresa, hay unos pocos salarios muy altos que elevan la media aritmética
haciendo que pierda representatividad respecto al grueso de la población, sin embargo, alguien
con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana
menos.

-Desventajas:
-No puede calcularse para variables cualitativas no ordinales.
-Su fórmula de cálculo depende del tipo de variable. (¿?)
-En el caso de datos agrupados en intervalos, su valor varía en función de la amplitud de estos.
-No se presta a cálculos algebraicos tan bien como la media aritmética.

Modo o moda
Es el dato más repetido, el valor de la variable con mayor frecuencia absoluta (“estar de moda”).
Características:
-Su cálculo es extremadamente sencillo, pues sólo necesita de un recuento.
-En variables continuas, expresadas en intervalos, existe el denominado intervalo modal o, en su
defecto, si es necesario obtener un valor concreto de la variable, se recurre a la interpolación.
-Puede haber más de una moda en el caso en que dos o más valores de la variable presenten la
misma frecuencia (distribuciones bimodales o multimodales).
Ventajas
-Cálculo sencillo.
-Interpretación muy clara.
-Al depender sólo de las frecuencias, puede calcularse para variables cualitativas. Es por ello el
parámetro más utilizado cuando al resumir una población no es posible realizar otros cálculos,
por ejemplos: cuando se enumeran en medios periodísticos, las características más frecuentes
de determinado sector social (¿?).
Inconvenientes:
-Su valor es independiente de la mayor parte de los datos, lo que la hace muy sensible a
variaciones muestrales.
-Por otra parte, en variables agrupadas en intervalos, su valor depende excesivamente del
número de intervalos y de su amplitud.
-Usa muy pocas observaciones, de tal modo que grandes variaciones en los datos fuera de la
moda, no afectan en modo alguno a su valor.
-No siempre se sitúa hacia el centro de la distribución.
-Su fórmula de cálculo depende del tipo de variable. (¿?)

Observación final sobre las medidas de tendencia central


Su uso indiscriminado puede ser deliberadamente tendencioso o involuntariamente sesgado,
convirtiéndose, de hecho, en un abuso. Por ejemplo, en una empresa donde 2 empleados ganen $
15000 mensuales cada uno y 8 empleados ganen $ 1000 mensuales cada uno; el salario promedio
(media aritmética) es $ 3800, valor que puede inducir a pensar que el personal está bien pago,
cuando el sueldo de la mayoría está bastante por debajo de esta media.
Con carácter general y a modo de resumen podría decirse que la media aritmética es un
parámetro representativo cuando la población sigue una distribución normal o es bastante
homogénea; en otras situaciones de fuerte dispersión, habría que decantarse por la mediana. La
moda es el último recurso (y el único) cuando de describir variables cualitativas se trata.

Medidas de posición no central


También conocidas como cuantiles. Se trata de valores de la variable estadística que dejan por
debajo de sí determinada cantidad de los datos o valores. (Se pueden interpretar como una
generalización del concepto de la mediana. Mientras que ésta deja por debajo de sí al 50% de la
distribución, los cuantiles pueden hacerlo con cualquier otro porcentaje).
(Debe quedar claro que hablamos de cantidad de valores de entre todos los valores diferentes que
toma la variable y no de frecuencias de los mismos):
Hay dos maneras de definir los cuantiles:

• Valor correspondiente a la posición que deja por debajo un cierto porcentaje del total de
valores diferentes de la variable
Tradicionalmente se distingue entre cuartiles, deciles y percentiles.

Cuartiles
Son los tres valores de la variable que corresponden a las posiciones que dividen al conjunto de
valores ordenados en cuatro porciones iguales correspondiendo al 25%, 50% y 75 % del total de
valores que toma la variable. En ese orden, se denominan primero, segundo y tercer cuartil; y se
identifican con Q1, Q2 y Q3 respectivamente.

Cálculo de cuartiles
-Ordenar los datos de mayor a menor.
-Determinar la posición de los cuartiles:
-El cuartil inferior Q1 es el dato que ocupa la posición (n+1)/4 en la muestra ordenada.
-El cuartil medio Q2 es el dato que ocupa la posición (n+1)/2 en la muestra ordenada.
-El cuartil superior Q3 es el dato que ocupa la posición 3(n+1)/4 en la muestra ordenada.
-Determinar el valor de los cuartiles.

Ejemplo. Considérense los siguientes datos ordenados (n=13)

Posiciones:
Posición de Q1= (13+1)/4=3,5
Posición de Q2=Me= (13+1)/2=7
Posición de Q3= 3(13+1)/4=10,5

-Determinar el valor de los Cuartiles


Q1==140 Q2=Me=170 Q3==320

Nota: cuando, como en el ejemplo anterior, al calcular una posición, no se obtiene un valor entero,
se adoptan dos posiciones: la correspondiente a la parte entera del valor calculado y la
correspondiente a esa parte entera más uno. El valor del cuartil, resultará de promediar los valores
correspondientes a esas posiciones.

Para el cálculo de éste y otros cuantiles, es conveniente recurrir a algún software estadístico, con
más razón, si la cantidad de datos es elevada.

Deciles
Son nueve valores correspondientes a las posiciones que dividen al conjunto de valores ordenados
en diez porciones iguales correspondiendo al 10%, 20%, 30%..., 90% del total de valores que toma
la variable. En ese orden, se denominan primero, segundo, tercer…. noveno decil.

Percentiles
Son 99 valores correspondientes a las posiciones que dividen en cien porciones iguales el conjunto
de datos o valores ordenados. De modo genérico el percentil p% deja p% de los valores por
debajo. Se denotan con p1 a p99.
Ejemplo. Durante un año se registra la edad de pacientes de un centro médico que concurren con
una determinada dolencia.
-Si el percentil 10% (P10) es 28 años, significa que, del total de pacientes que concurrieron con la
dolencia, el 10% tiene 28 años o menos y el 90% tiene más de 28 años.
-Si el percentil 80% (P80) es 56 años, significa que, del total de pacientes que concurrieron con la
dolencia, el 80% tiene 56 años o menos y el 20 % tiene más de 56 años.
Los percentiles se utilizan mucho en pediatría para analizar el crecimiento de los recién nacidos.
No tiene sentido hablar de percentiles en muestra con pocos datos. Para muestras amplias, se
hace imprescindible el uso de programas estadísticos.

Otra manera de expresar estos mismos cuantiles, es con referencia a la cantidad total de valores.
El valor del cuantil indica la porción de dicha unidad que queda a su izquierda. Así, el cuantil 0.1 es
el valor que deja a su izquierda el 10% de los datos. La mediana coincide con el cuantil 0.5 y el
percentil 95 coincide con el cuantil 0.95.

• Valor de la variable que deja por debajo un cierto porcentaje de la frecuencia acumulada
absoluta
Se define el cuantil de orden α como un valor de la variable por debajo del cuál se encuentra una
frecuencia acumulada α (%).
Nota mía: Para un cierto valor de la variable, la frecuencia acumulada viene dada por el área bajo
la curva de Gauss.

Medidas de dispersión o escala.


Las medidas de posición resumen la distribución de datos, pero resultan insuficientes y simplifican
excesivamente la información. Estas medidas adquieren verdadero significado cuando van
acompañadas de otras que informen sobre el grado de dispersión de los datos, su variabilidad, es
decir, las medidas de dispersión tienen por objeto completar la información que aportan las
medidas de posición. Los parámetros de dispersión, generalmente, permiten apreciar en qué
medida los datos se agrupan en torno a un valor central. Indican, de un modo bien definido, lo
homogéneo que estos datos son. Hay medidas de dispersión absolutas, entre las cuales se
encuentran el rango o recorrido, la varianza, la desviación típica o la desviación media; y medidas
de dispersión relativas, como el coeficiente de variación, el coeficiente de apertura o los
recorridos relativos. En muchas ocasiones las medidas de dispersión se ofrecen acompañando a
un parámetro de posición central para indicar en qué medida los datos se agrupan en torno de él.
Ejemplo:

En todos los casos la Media y la mediana valen 55. En la muestra “C” los datos están más dispersos
que en la muestra “A”. La muestra “B” corresponde a una situación intermedia. La figura muestra
la campana de Gauss asociada a muestras del tipo “C” y “A”. Se precia claramente que, el
conocimiento de la Media y la Mediana no contienen la información suficiente para caracterizar la
muestra.

Medidas de dispersión absoluta


Rango o Recorrido
El recorrido o rango (R) de una variable estadística es la diferencia entre el mayor y el menor
valor que toma la misma. Es la medida de dispersión más sencilla de calcular, aunque es algo
burda porque sólo toma en consideración un par de observaciones. Basta con que uno de
estos dos datos varíe para que el parámetro también lo haga, aunque el resto de la
distribución siga siendo, esencialmente, la misma.

R=Xmax – Xmin

Para el ejemplo anterior:


Muestra A: Rango=55-55=0
Muestra B: Rango=63-47=16
Muestra C: Rango=71-39=32

Desviaciones medias
Dada una variable estadística x y un parámetro de tendencia central, c, se llama desviación de un
valor de la variable, xi, respecto de c, al número |xi - c|. Este número mide lo lejos que está cada
dato del valor central c, por lo que una media de esas medidas podría resumir el conjunto de
desviaciones de todos los datos.
Así pues, se denomina desviación media de la variable x respecto de c a la media aritmética de las
desviaciones de los valores de la variable respecto de. Si x=x1,x2,…..,xn; entonces:

∑ |xi−c| .
DMc = i=1
n

De este modo se definen la desviación media respecto de la media (c = x ) o la desviación media


respecto de la mediana (c = Me ), cuya interpretación es sencilla en virtud del significado de la
media aritmética.
La opción por el valor absoluto se debe a que, como ya se indicó,

n n

∑ ( xi −x ) =∑ x i−n x=0
i=1 i=1

Sin embargo, el uso de valores absolutos impide determinados cálculos algebraicos que obligan a
desechar estos parámetros, a pesar de su clara interpretación, en favor de los siguientes.

Varianza y desviación típica o estándar


Si se desea una medida de la dispersión sin los inconvenientes para el cálculo que tienen las
desviaciones medias, una solución es elevar al cuadrado tales desviaciones antes de calcular el
promedio. Así, se define la varianza como:

S 2
=
∑ (xi−x )2
i=1
n

Que también puede expresarse en función de las frecuencias relativas:

k
S =¿ ∑ ( xi −x ) f ir
2 2

i =1

Con vista a una posterior Inferencia Estadística aparecerá dividida en (n-1) en lugar de n. En tal
caso, suele denominarse varianza insesgada o cuasi-varianza.

∑ ( x i−x )2
S2= i=1
n−1

El hecho de dividir por (n-1) en lugar de n en el contexto de la Inferencia Estadística es apenas


apreciable cuando n es grande, por lo que no debe desviar nuestra atención de la esencia del
parámetro. Es conveniente realizar el cálculo de la varianza mediante un programa estadístico.

Desviación típica o estándar:


Se puede observar que, en la varianza, las unidades originales se perdieron por la necesidad de
elevar al cuadrado las diferencias. Para recuperarlas basta con efectuar la raíz cuadrada de la
varianza obteniendo lo que denominamos desviación típica, que se denotará por s:

s = √ Varianza


n

∑ ( x i−x )2
i=1
s=
n
Igualmente, en la Inferencia Estadística, se utilizará la cuasi-desviación típica que se obtiene a
partir de la cuasi-varianza.

Nota: en lugar de “S”, también se utiliza “”

Para el ejemplo anterior:


Muestra A: S2=0 , SA=0
Muestra B: S2=28, SB=5,29
Muestra C: S2=108, SC=10,39

Para variables agrupadas en intervalos, se usan las marcas de clase en estos cálculos.

Propiedades:
-Ambos parámetros no se alteran con los cambios de origen.
-Si todos los valores de la variable se multiplican por una constante, b, la varianza queda
multiplicada por b2.
-En el intervalo ( x - kS, x + kS ) se encuentran, al menos, el 100 (1-1/k2)% de las observaciones.
Esta última propiedad muestra la potencia del uso conjunto de la media y la desviación típica
como parámetros estadísticos, ya que para valores de k iguales a 2 y 3, respectivamente, se
obtiene que:
-En el intervalo ( x - 2S, x + 2S ) están, al menos, el 75% de los datos.
-En el intervalo ( x - 3S, x + 3S ) están, al menos, el 89% de los datos.
-Se cumple la siguiente relación entre los parámetros de dispersión:
DMe < D x< S
donde DMe, D x , y S, son, respectivamente, la desviación media respecto de la mediana, la
desviación media respecto de la media y la desviación típica.

Tipificación o Estandarización
Resulta de calcular la diferencia entre cada dato xi y la media aritmética, dividiendo el resultado en
la desviación típica:

xi −x
z i=
s

En el caso de que los datos se distribuyeran según una distribución normal, la desviación típica
funciona como complemento de la media (teniendo en cuenta que esta última indica el centro
aritmético de los datos y la primera, el grado de dispersión respecto a dicho centro), de modo que,
el par de números ( x , s) resume perfectamente la información contenida en los n datos de la
muestra.
Para esta distribución, ocurre, por ejemplo, que entre los valores x -s y x +s se encuentra una
proporción muy cercana al 68 % de los datos, y que entre x -2s y x +2s se encuentra una
proporción muy cercana al 95 %.
Un ejemplo lo encontramos en la a la medición del colesterol sérico (mg=cm3) en una muestra
de n = 4583 individuos. Los datos se han agrupado en intervalos, obteniéndose el
histograma de frecuencias absolutas que muestra la figura.
A su vez, realizados los cálculos se tiene: x=228 , 18 y s=44,2.
la mayor parte de los datos (95 %) está comprendida en el intervalo 228+2*45 y 228-2*45, es
decir, entre 138 y 318, lo cual se puede verificar gráficamente. El mero conocimiento de x y s,
permitiría reproducir con exactitud el histograma (que se asemeja bastante a la campana de
Gauss).

Rango intercuartílico
No ocurre lo mismo con los datos del histograma relativo a 97 mediciones del volumen de
tumores prostáticos, donde se aprecia un modelo de distribución radicalmente diferente
al de la campana de Gauss; en este caso, el modelo está caracterizado por un fuerte sesgo
o asimetría hacia la derecha.
A medida que nos alejamos de las distribuciones normales, el par ( x , s) pierde su capacidad de
síntesis. De hecho, sabemos que en determinadas situaciones la media aritmética puede
considerarse menos representativa que la mediana. En tal caso necesitamos una medida de
dispersión que complemente dicho valor central.
El rango intercuartílico pretende ser un complemento adecuado a la mediana. Está basado, al igual
que esta, en el orden de los datos y se define mediante RI = Q3-Q1. En ejemplo se obtiene
RI = 7.03.

Medidas de dispersión relativa


Son parámetros que miden la dispersión en términos relativos, un porcentaje o una proporción,
por ejemplo, de modo que permiten una sencilla comparación entre la dispersión de distintas
distribuciones.

Coeficiente de Variación de Pearson


CV = s / x
Se interpreta como el número de veces que la media está contenida en la desviación típica. Suele
darse su valor en tanto por ciento, multiplicando el resultado anterior por 100. De este modo se
obtiene un porcentaje de la variabilidad.
Es de gran utilidad para comparar la dispersión de distintos grupos de datos, dado que nos da una
medida de la dispersión de los datos relativa al orden de magnitudes que estos presentan.
Su principal inconveniente es que en el caso de distribuciones cuya media se acerca a cero, su
valor tiende a infinito e incluso resulta imposible de calcular cuando la media es cero. Por ello no
puede usarse para variables tipificadas.
Permite eliminar la dimensionalidad de las variables.
Para el ejemplo

Muestra A: CV =0
Muestra B: CV =1,05
Muestra C: CV =2,08

Medidas de forma
Las medidas de forma caracterizan la forma de la gráfica de una distribución de datos estadísticos.
La mayoría de estos parámetros tiene un valor que suele compararse con la campana de Gauss,
esto es, la gráfica de la distribución normal, una de las que con más frecuencia se ajusta a
fenómenos reales.

Campana de Gauss: curva que sirve de modelo para el estudio de la forma de una distribución

Medidas de simetría (Distribución respecto de un eje de simetría)


Las medidas de asimetría son indicadores que permiten establecer el grado de simetría (o
asimetría) que presenta la distribución de una variable sin tener que hacer su representación
gráfica.
Para su definición, se establece como eje de simetría, una recta paralela al eje de ordenadas que
pasa por la media de la distribución.
Se dice que una distribución de datos estadísticos es simétrica cuando el eje de simetría divide a su
representación gráfica en dos partes simétricas. Ello equivale a decir que los valores equidistantes
de la media, a uno u otro lado, presentan la misma frecuencia. La distribución será asimétrica en
caso contrario.

Distribución simétrica.
En las distribuciones simétricas los parámetros media, mediana y moda coinciden, mientras que, si
una distribución presenta cierta asimetría, de un tipo o de otro, los parámetros se sitúan como
muestra el siguiente gráfico:

Ello puede demostrarse fácilmente si se tiene en cuenta la atracción que la media aritmética
siente por los valores extremos, que ya se ha comentado más arriba y las definiciones de mediana
(justo en el centro de la distribución, tomando el eje de abscisas como referencia) y moda (valor
que presenta una ordenada más alta).
Decimos que hay asimetría positiva (o a la derecha) si la "cola" a la derecha de la media es más
larga que la de la izquierda, es decir, si hay valores más separados de la media a la derecha.
Diremos que hay asimetría negativa (o a la izquierda) si la "cola" a la izquierda de la media es más
larga que la de la derecha, es decir, si hay valores más separados de la media a la izquierda.
Por consiguiente, la posición relativa de los parámetros de centralización puede servir como una
primera medida de la simetría de una distribución.
Otras medidas más precisas son el coeficiente de asimetría de Fisher, el coeficiente de asimetría
de Bowley y el coeficiente de asimetría de Pearson.
Los coeficientes de asimetría o sesgo indican el grado de asimetría o sesgo que se da en la
distribución de los datos.

Medidas de contorno de la curva (Distribución según la forma)


Coeficiente de aplastamiento o de Curtosis: expresa el grado de aplastamiento de una
distribución simétrica respecto al que correspondería a una distribución normal con su media y
desviación típica, de manera que un valor 0 equivale a una campana de Gauss, mientras que un
valor negativo indica un aplastamiento excesivo y un valor positivo indica un apuntamiento.
Otros gráficos
Gráfico de caja o Box-Plot
Propuesto por Tukey para presentar datos numéricos, especialmente útil para comparar
distribuciones de varios conjuntos de observaciones.
Este gráfico se construye a partir de los cuartiles y el rango intercuartílico. Se trata de una caja
cuyos bordes son los cuartiles primero y tercero, por lo que su longitud coincide con el rango
intercuartílico. En su interior se marca la mediana con una línea gruesa. A partir del rango
intercuartílico se determina qué valores se considerarán extremos: concretamente aquellos que
desisten de los cuartiles Q2 o Q3, según corresponda, más de 1.5 veces el rango intercuartílico. Se
marcan con unas vallas los valores no extremos más próximos a dichos límites de manera que los
que queden fuera de las mismas serán los datos extremos o atípicos, que representarán mediante
círculos o asteriscos según el grado de extremismo que alcancen.

En la figura siguiente, se muestra el diagrama de caja correspondiente al histograma del estudio


sobre volumen de tumores prostáticos.
En resumen, el gráfico Box Plot indica las siguientes características de una distribución de datos:
-Muestra las medias de posición.
-Permite estudiar la simetría de la distribución.
-Da un criterio de detección de datos atípicos.
En el primer gráfico de caja:
-Hay un dato atípico (outlier)
-La distribución de los datos es asimétrica hacia la derecha (asimetría positiva), la mitad inferior de
los datos se distribuye en un rango mucho menor que la mitad superior.

Llegados a este punto hemos estudiado ya una amplia variedad de medidas estadísticas.
Recordemos que éstas tienen como función resumir la información que aporta la muestra.
Ahora bien, un resumen ideal debería verificar simultáneamente dos condiciones en ocasiones
incompatibles: exhaustividad y brevedad. En ese sentido, aconsejamos lo siguiente:
Si pretendemos resumir lo mejor posible la información contenida en la muestra
debemos escoger al menos una medida de centralización junto con otra de dispersión.
Lo más frecuente es considerar el par ( x ; s). Esta opción es la ideal en el caso de
que los datos se distribuyan según una curva normal.
A medida que nos diferenciamos de ese modelo de distribución, el par anterior pierde
su capacidad de síntesis, por lo que debe añadirse al resumen de los datos la mediana
como medida de centralización y, si es posible, el rango intercuartílico como medida de
dispersión. Nos decantaremos por esta opción preferiblemente cuando observemos una
fuerte asimetría con presencia de valores extremos. Esta elección debería ir acompañada
del uso de técnicas no paramétricas en la posterior inferencia. Por último, el
tamaño de muestra nunca debe faltar en un resumen adecuado.
Estas normas no dejan de ser orientativas, porque en la redacción de trabajos científicos
prima la capacidad de síntesis, de manera que debemos intentar elaborar tablas
que recojan la máxima información en el mínimo espacio y escoger sólo los gráficos que
resulten más esclarecedores.
Función gaussiana

Donde:
σ: es la desviación estándar.
𝝁: es la media.
x: valor de la variable (en realidad xi)

A confirmar: esta función permitiría graficar la campana de Gauss que aproxima el histograma de
Una distribución normal de frecuencias, conocidas la media y la desviación estándar.

También podría gustarte