Está en la página 1de 30

02.

LAS MEDIDAS Y REPRESENTACIONES GRÀFICAS

Las medidas nos permiten información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos.

Medición, Se ha definido como la asignación de números a los elementos u objetos


para representar o cuantificar una propiedad. El problema básico está dado por la
asignación un numeral que represente la magnitud de la característica que queremos
medir y que dicho números pueden analizarse por manipulaciones de acuerdo a
ciertas reglas.

Niveles o Escalas de mediciones, al respecto cabe señalar algunas definiciones:


Nominal, consiste en la asignación, puramente arbitraria de números a cada una de
las diferentes categorías en las cuales podemos dividir el carácter que observamos, sin
que puedan establecerse relaciones entre dichas categorías, a no ser el de que cada
elemento pueda pertenecer a una y solo una de estas categorías; Ordinal, En caso de
que puedan detectarse diversos grados de un atributo o propiedad de un objeto, la
medida ordinal es la indicada, puesto que entonces puede recurrirse a la propiedad de
“orden” de los números asignándolo a los objetos en estudio de modo que, si la cifra
asignada al objeto A es mayor que la de B, puede inferirse que A posee un mayor
grado de atributo que B; Intervalos, está caracterizada por una unidad de medida
común y constante que asigna un número igual al número de unidades equivalentes a
la de la magnitud que posea el elemento observado; y Coeficientes, entonces, a
iguales diferencias entre los números asignados corresponden iguales diferencias en
el grado de atributo presente en el objeto de estudio. Además, siendo que cero ya no
es arbitrario, sino un valor absoluto, podemos decir que A. Tiene dos, tres o cuatro
veces la magnitud de la propiedad presente en B.

MEDIDAS DE POSICIÓN

Medidas de posición central, informan sobre los valores medios de la serie de datos.

Medidas de posición no centrales, informan de como se distribuye el resto de los


valores de la serie. Las principales medidas de posición central son:

Valor Medio, Promedio o Valor Central, es el valor medio ponderado de la serie de


datos. Se pueden calcular diversos tipos de media, siendo las más utilizadas:

Media Aritmética, se calcula sumando los valores y dividiendo en el número de


ellos, o sumando los valores de multiplicar cada valor por el número de veces que se
repite. La suma de todos estos productos se divide por el total de datos de la muestra

1
x1  x 2  x 3    x n 1 n x1 * n1  x 2 * n 2   x n * n n
X   xi X
n n 1 n

La media aritmética de una variable estadística es la suma de todos sus posibles


valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores
de una variable X es

X ni fi
x1 n1 f1
… … …
xk nk fk

la media es el valor que podemos escribir de las siguientes formas equivalentes:


1 1 k
x  x 1f 1   x k f k  ( x 1 n 1   x k n k )   x i n i
n n i 1

Media Geométrica, se eleva cada valor al número de veces que se ha repetido. Se


multiplican todo estos resultados y al producto final se le calcula la raíz n (siendo n el
total de datos de la muestra),
n n nn
x g  n x1 1 * x 2 2 * x n  n  1n x n

Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o
la media geométrica. La media geométrica se suele utilizar en series de datos como
tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto
multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la
medida de posición central más utilizada.

Logx 1   Logx n
Ahora bien, Logx g  , luego x g  n x 1 x 2  x n
n

Si los datos están agrupados en una tabla, entonces se tiene: x  n x 1n x n2  x nk 1 2 k

Media Armónica, x a , se define como el recíproco de la media aritmética de los


recíprocos, es decir,
1 (1 / x 1 )   (1 / x n ) n
  xa 
xa n (1 / x 1 )   (1 / x n )

Media Cuadrática. x c , es la raíz cuadrada de la media aritmética de los cuadrados:

2
x 12   x 2n
xc 
n

Media Ponderada, se calcula sumando los valores multiplicados por sus frecuencias
o significancias, y dividiendo en la suma de las significancias,
n

x i * si
Xp  1
n

s
1
i

Mediana, es el valor de la serie de datos que se sitúa justamente en el centro de la


muestra una vez se ha ordenado ésta, corresponde a un 50% de valores son inferiores
y otro 50% son superiores.

Mediana  L  c( j / f )
L es el límite inferior de la clase, f la frecuencia de esa clase y c la longitud de la
clase, j el número de observaciones en esta clase

Consideramos una variable discreta X cuyas observaciones en una tabla estadística


han sido ordenadas de menor a mayor. Llamaremos mediana, Med al primer valor de
la variable que deja por debajo de sí al 50% de las observaciones. Por tanto, si n es el
número de observaciones, la mediana corresponderá a la observación [n/2]+1, donde
representamos por la parte entera de un número.

En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la
fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el
intervalo donde hemos encontrado que por debajo están el 50% de las observaciones.

3
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
mediante interpolación lineal:
CC BB n (n/2)  N 1 (n/2)  N i 1
  i   Med  l i 1  ai
AC AB ai Med  l i 1 ni

La relación corresponde a definir para cada posible observación, x   l j1  l j  , su


frecuencia relativa acumulada, F(x), por interpolación lineal entre los valores F(lj-1) =
Fj-1 y F(lj) = Fj de forma que
F(l j )  F(l j1 )
F( x )  F(l j1 )  ( x  l j1 )
aj

De este modo, Med es el punto donde F(Med )  1 / 2 . Esto equivale a decir que la
mediana divide al histograma en dos partes de áreas iguales a 1/2. Entre las
propiedades de la mediana, se destacan principalmente,

- Como medida descriptiva, tiene la ventaja de no estar afectada por las


observaciones extremas, ya que no depende de los valores que toma la variable,
sino del orden de las mismas. Por ello es adecuado su uso en distribuciones
asimétricas.
- Es de cálculo rápido y de interpretación sencilla.
- A diferencia de la media, la mediana de una variable discreta es siempre un valor
de la variable que estudiamos (por ejemplo, la mediana de una variable número de
hijos toma siempre valores enteros).
- Si una población está formada por 2 subpoblaciones de medianas Med1 y Med2, sólo
se puede afirmar que la mediana, Med, de la población está comprendida entre
Med1 y Med2: Med 1  Med  Med 2
- El mayor defecto de la mediana es que tiene unas propiedades matemáticas
complicadas, lo que hace que sea muy difícil de utilizar en inferencia estadística.
- Es función de los intervalos escogidos.
- Puede ser calculada aunque el intervalo inferior o el superior no tenga límites.
- La suma de las diferencias de los valores absolutos de n puntuaciones respecto a
su mediana es menor o igual que cualquier otro valor. Este es el equivalente al
teorema de König con respecto a la media, pero donde se considera como medida
de dispersión a:
n

x
i 1
i  Med

Moda, es el valor que más se repite en la muestra. Corresponde al valor que tiene
mayor frecuencia relativa. La moda a cualquier máximo relativo de la distribución de
frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor
que su anterior y su posterior.

4
En el caso de variables continuas es más correcto hablar de intervalos modales. Una
vez que este intervalo,  l j1 , l j  , se ha obtenido, se utiliza la siguiente fórmula para
calcular la moda, de acuerdo con la figura anterior,
HC H C HC  H C Moda  l i 1 ai
   
AB A B AB  A B n i  n i 1 ( n i  n i 1 )  ( n i  n i 1 )

de donde se despeja Moda

Relación entre media, mediana y moda. En el caso de distribuciones unimodales, la


mediana está con frecuencia comprendida entre la media y la moda (incluso más
cerca de la media). En distribuciones que presentan cierta inclinación, es más
aconsejable el uso de la mediana. Sin embargo en estudios relacionados con
propósitos estadísticos y de inferencia suele ser más apta la media.
Ejemplo, Consideremos una tabla estadística relativa a una variable continua, de la
que nos dan los intervalos, las marcas de clase ci, y las frecuencias absolutas ni.

Intervalo ci ni Ni nici
00-02 1 2 2 2
02-04 3 1 3 3
04-06 5 4 7 20
06-08 7 3 10 21
08-10 9 2 12 18
12 64

Para calcular la media podemos añadir una columna con las cantidades nici. La suma
de los términos de esa columna dividida por n=12 es la media x  64 / 12  5.3 . La
mediana es el valor de la variable que deja por debajo de sí a la mitad de las n
observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas
acumuladas, Ni y vemos que eso ocurre en la modalidad tercera, es decir, i=3,

5
entonces, (li-1,li]= (4,6], que corresponde el intervalo en donde se encuentra la
mediana, entonces tenemos
( n / 2)  N i 1 (12 / 2)  3
Med  l i 1  ai  4   5.5   l i 1 , l i 
ni 4

Para el cálculo de la Moda, lo primero es encontrar los intervalos modales, buscando


los máximos relativos en la columna de las frecuencias absolutas, ni. Vemos que hay
dos modas, correspondientes a las modalidades j=1, j=3. En el primer intervalo
modal, (l0,l1]=(0,2], la moda se calcula como
n i  n i 1 20
Moda  l i 1   ai  0   2  1.3
(n i  n i 1 )  (n i  n i 1 ) (2  0)  (2  1)

El segundo intervalo modal es (l2,l3]=(4,6], siendo la moda el punto perteneciente al


mismo que se obtiene como:
n i  n i1 4 1
Moda  l i 1   ai  4   2  5.5
(n i  n i 1 )  (n i  n i 1 ) (4  1)  (4  3)

En este caso, como se ve, la moda no toma un valor único, sino el conjunto, Moda =
(1.3,5.5)

Ejemplo, Dado el registro de estaturas de estudiantes, hallar los principales


parámetros estadísticos analizados

Frecuencia Absoluta Frecuencia Relativa


Variable
Simple Acumulada Simple Acumulada
1,20 1 1 3,3 % 3,3 %
1,21 4 5 13,3 % 16,6 %
1,22 4 9 13,3 % 30,0 %
1,23 2 11 6,6 % 36,6 %

6
1,24 1 12 3,3 % 40,0 %
1,25 2 14 6,6 % 46,6 %
1,26 3 17 10,0 % 56,6 %
1,27 3 20 10,0 % 66,6 %
1,28 4 24 13,3 % 80,0 %
1,29 3 27 10,0 % 90,0 %
1,30 3 30 10,0 % 100,0 %

1.20  4  1.21  4  1.22  4    1.30  3


Media aritmética: X m   1.253
30

Media geométrica: 30
1.20 4  1.214    1.30 3  1.253

Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.

Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo
tanto esta seria cuenta con 3 modas

Ejemplo, Dado el registro de estaturas de estudiantes, hallar los principales


parámetros estadísticos analizados

Frecuencia Absoluta Frecuencia Relativa


Variable
Simple Acumulada Simple Acumulada
1,20 1 1 3,3 % 3,3 %
1,21 4 5 13,3 % 16,6 %
1,22 4 9 13,3 % 30,0 %
1,23 2 11 6,6 % 36,6 %
1,24 1 12 3,3 % 40,0 %
1,25 2 14 6,6 % 46,6 %
1,26 3 17 10,0 % 56,6 %
1,27 3 20 10,0 % 66,6 %

7
1,28 4 24 13,3 % 80,0 %
1,29 3 27 10,0 % 90,0 %
1,30 3 30 10,0 % 100,0 %

1.20  4  1.21  4  1.22  4    1.30  3


Media aritmética: X m   1.253
30

Media geométrica: 30
1.20 4  1.214    1.30 3  1.253

Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.

Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo
tanto esta seria cuenta con 3 modas

Medidas no Centrales. Las medidas no centrales permiten conocer otros puntos


característicos de la distribución que no son los valores centrales, tales como

Cuártiles, son 3 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en cuatro tramos iguales, en los que cada uno de ellos
concentra el 25% de los resultados.

Déciles, son 9 valores que distribuyen la serie de datos, ordenada de forma creciente
o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10%
de los resultados.

Percéntiles, son 99 valores que distribuyen la serie de datos, ordenada de forma


creciente o decreciente, en cien tramos iguales, en los que cada uno de ellos concentra
el 1% de los resultados.

Estadísticos de posición. Para una variable discreta, se define el percentil de orden


k, como la observación, Pk, que deja por debajo de si el k% de la población. Esta

8
definición nos recuerda a la mediana, pues como consecuencia de la definición es
evidente que Med= P50

Para una variable continua, el intervalo donde se encuentra Pk  (li-1,li], se calcula


buscando el que deja debajo de si al k% de las observaciones. Dentro de él, P k se
obtiene según la relación:
n  (k / 100)  N i 1
Pk  l i 1   ai
ni

Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la


distribución, por lo que no puede considerársele como una medida de tendencia
central. Los cuartiles, Qi, son un caso particular de los percentiles. Hay 3, y se
definen como, Q1=P25, Q2=P50=Mediana, Q3=P75

De forma análoga se definen los déciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamaño. Más precisamente, definimos
D1,D2,...,D9 como, Di=P10i siendo i=1,2,…,10

Ejemplo, Dada la siguiente distribución en el número de hijos de cien familias,


calcular sus cuartiles.

xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solución:
Primer cuartil: n/4=25, ni>n/4=39, luego Q1=2
Segundo cuartil: 2n/4=50, Primera Ni>2n/4=65, luego Q2=3
Tercer cuartil: 3n/4=75, Primera Ni>3n/4=85, luego Q3=4

LAS MEDIDAS. Estudia la distribución de los valores de la serie analizando si éstos


se encuentran más o menos concentrados, o más o menos dispersos. Existen diversas
medidas de dispersión, entre las más utilizadas podemos destacar las siguientes:

Rango, mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo.

9
Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo
de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o
valores están próximas entre sí o si por el contrario están o muy dispersas. Una
medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto. Es
fácil de calcular y sus unidades son las mismas que las de la variable, aunque posee
varios inconvenientes:
- No utiliza todas las observaciones (sólo dos de ellas);
- Se puede ver muy afectada por alguna observación extrema;
- El rango aumenta con el número de observaciones, o bien se queda igual. En
cualquier caso nunca disminuye.

En el transcurso de esta sección, veremos medidas de dispersión mejores que la


anterior. Estas se determinan en función de la distancia entre las observaciones y
algún estadístico de tendencia central.

Desviación media, Dm Se define la desviación media como la media de las


diferencias en valor absoluto de los valores de la variable a la media, es decir, si
tenemos un conjunto de n observaciones, x1, ..., xn, entonces
1 n 1 k
Dm   xi  x Dm   xi  x  n i
n i 1 n i 1

Si los datos están agrupados en una tabla estadística es más sencillo usar la relación
de la derecha

Como se observa, la desviación media guarda las mismas dimensiones que las
observaciones. La suma de valores absolutos es relativamente sencilla de calcular,
pero esta simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la
distancia que induce la desviación media en el espacio de observaciones no es la
natural. Esto hace que sea muy engorroso trabajar con ella a la hora de hacer
inferencia a la población

Varianza, Mide la distancia existente entre los valores de la serie y la media. Se


calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media,
multiplicadas por el número de veces que se ha repetido cada valor.

x  X 
n
2
i
ni
s 2    xi  X 
n
2
s2  1
o
n 1 n

10
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.

Desviación Típica o Estándar, se calcula como raíz cuadrada de la varianza.

Coeficiente de Variación, se calcula como cociente entre la desviación típica y la


media.
σ
σ = s2 CV =
X
El interés del coeficiente de variación es que al ser un porcentaje permite comparar el
nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que
viene expresada en las mismas unidas que los datos de la serie.

Error. La suma de las diferencias de la variable con respecto al valor medio es nula,
n

 (x
i 1
i  x)  0

Si los errores se consideran con signo positivo, en este caso no pueden compensarse.
Esto ocurre si tomamos como medida de error alguna de las siguientes:
n

x
i 1
i  x  0  error absoluto
n

 (x
i 1
i  x) 2  0  error cuadrático

König. Para cualquier posible valor k que consideremos como candidato a medida
central, lo mejora en el sentido de los mínimos cuadrados, es decir
n 2 n 2

 (x  x)   (x  k)
i 1
i
i 1
i siendo k  x

Grados de libertad. Los grados de libertad de un estadístico calculado sobre n datos


se refieren al número de cantidades independientes que se necesitan en su cálculo,
menos el número de restricciones que ligan a las observaciones y el estadístico. Es
decir, normalmente n-1. Por ejemplo, Consideramos una serie de valores de una
variable, xi=2,5,7,9,12 que han sido tomados independiente uno de otro.

Su valor medio es 7 y se ha calculado a partir de las n=5observaciones independientes


1
xi, que están ligadas a la media por la relación, x 
n
 xi

11
Luego el número de grados de libertad de la media es n-1=4. Si calculamos a
(x  x)2
continuación la varianza, se han de sumar n cantidades x  i
n

Sin embargo esas cantidades no son totalmente independientes, pues están ligadas por
una restricción:
n
  n 
 

i 1 
x i   
 i 1
x i n    0


El número de grados de libertad del estadístico es el número de observaciones de la


variable menos el número de restricciones que verifican, así que en este caso, los
grados de libertad de la varianza sobre los n=5 datos son también n-1 =4.
Un principio general de la teoría matemática nos dice que si pretendemos calcular de
modo aproximado la varianza de una población a partir de la varianza de una muestra
suya, se tiene que el error cometido es generalmente más pequeño, si en vez de
considerar como estimación de la varianza de la población, a la varianza muestral
1 n
s 2   (x i  x) 2
n i 1

consideramos lo que se denomina cuasivarianza muestral, ŝ 2 que se calcula como


la anterior, pero cambiando el denominador por el número de grados de libertad, n-1,
1 n ns 2
ŝ 
2
 (x i  x)  n  1
n  1 i 1
2

Medidas de forma o Concentración. Las medidas de forma permiten conocer que


forma tiene la curva que representa la serie de datos de la muestra. En concreto,
podemos estudiar las siguientes características de la curva,

Concentración, mide si los valores de la variable están más o menos uniformemente


repartidos a lo largo de la muestra. Para medir el nivel de concentración de una
distribución de frecuencia se pueden utilizar distintos indicadores, entre ellos el
Índice de Gini, para medir el nivel de concentración de una distribución de frecuencia
se pueden utilizar distintos indicadores, entre ellos el Índice de Gini, el cual se
calcula
n 1

 P  Q 
i i
Ig  i1
n 1

P
i1
i

12
El Índice Gini (Ig) puede tomar valores entre 0 y 1, es 0, cuando la concentración es
mínima, o la muestra está uniformemente repartida a lo largo de todo su rango; es 1
cuando la concentración es máxima, y en este caso un sólo valor de la muestra
acumula el 100% de los resultados

Asimetría y apuntamiento. Sabemos cómo calcular valores alrededor de los cuales


se distribuyen las observaciones de una variable sobre una muestra y sabemos cómo
calcular la dispersión que ofrecen los mismos con respecto al valor de central. Nos
proponemos dar un paso más allá en el análisis de la variable. En primer lugar, nos
vamos a plantear el saber si los datos se distribuyen de forma simétrica con respecto a
un valor central, o si bien la gráfica que representa la distribución de frecuencias es
de una forma diferente del lado derecho que del lado izquierdo.

Si la simetría ha sido determinada, podemos preguntarnos si la curva es más o menos


apuntada (larga y estrecha). Este apuntamiento habrá que medirlo comparado a cierta
distribución de frecuencias que consideramos normal (no por casualidad es éste el
nombre que recibe la distribución de referencia).

Estadísticos de asimetría. Para saber si una distribución de frecuencias es simétrica,


hay que precisar con respecto a qué. Un buen candidato es la mediana, ya que para
variables continuas, divide al histograma de frecuencias en dos partes de igual área.
Podemos basarnos en ella para, de forma natural, decir que una distribución de
frecuencias es simétrica si el lado derecho de la gráfica (a partir de la mediana) es la
imagen por un espejo del lado izquierdo,

Cuando la variable es discreta, decimos que es simétrica, si lo es con respecto a la


media.
- Se podría pensar que definir la simetría con usando la mediana para variables
continuas y usando la media para variables discretas es una elección arbitraria. En
realidad esto no es así, pues si una variable es continua, coinciden los ambos

13
criterios de simetría (con respecto a la media y a la mediana). Es más, se tiene que
media y mediana coinciden para distribuciones continuas simétricas. Por otro
lado,
- en el caso de variables discretas, la distribución es simétrica si el lado derecho del
diagrama se obtiene por imagen especular desde la media. En este caso coincide
la media con la mediana si el número de observaciones es impar.
- Si la variable es continua simétrica y unimodal, coinciden la media, la mediana y
la moda.

Dentro de los tipos de asimetría posible, vamos a destacar los dos clases
fundamentales: Asimetría positiva: Si las frecuencias más altas se encuentran en el
lado izquierdo de la media, mientras que en derecho hay frecuencias más pequeñas
(cola); y Asimetría negativa: Cuando la cola está en el lado izquierdo.

Cuando realizamos un estudio descriptivo es altamente improbable que la


distribución de frecuencias sea totalmente simétrica. En la práctica diremos que la
distribución de frecuencias es simétrica si lo es de un modo aproximado. Por otro
lado, aún observando cuidadosamente la gráfica, podemos no ver claro de qué lado
están las frecuencias más altas. Conviene definir entonces unos estadísticos que
ayuden a interpretar la asimetría, a los que llamaremos índices de asimetría, y que
denotaremos mediante  . Vamos a definir a continuación algunos de los índices de
asimetría más usuales como son el índice basado en los tres cuartiles, el momento de
tercer orden y la distancia entre la moda y la media o la media y la mediana

La asimetría mide si la curva tiene una forma simétrica, es decir, si respecto al centro
de la misma (centro de simetría) los segmentos de curva que quedan a derecha e
izquierda son similares. Hemos comentado que el concepto de asimetría se refiere a si
la curva que forman los valores de la serie presenta la misma forma a izquierda y
derecha de un valor central (media aritmética). Para medir el nivel de asimetría se
utiliza el llamado Coeficiente de Asimetría de Fisher,

14
1 n
  x i  X 3 * n i 1 n
n
 1 siendo A ∑  x i X 2 * n i
 A 3 / 2 n 1

Hemos comentado que el concepto de asimetría se refiere a si la curva que forman los
valores de la serie presenta la misma forma a izquierda y derecha de un valor central
(media aritmética)

Los resultados pueden ser los siguientes:


- γ =0 (distribución simétrica; existe la misma concentración de valores a la
derecha y a la izquierda de la media).
- γ >0 (distribución asimétrica positiva; existe mayor concentración de valores a la
derecha de la media que a su izquierda)
- γ <0 (distribución asimétrica negativa; existe mayor concentración de valores a
la izquierda de la media que a su derecha).

Curtosis, mide si los valores de la distribución están más o menos concentrados


alrededor de los valores medios de la muestra. El Coeficiente de Curtosis analiza el
grado de concentración que presentan los valores alrededor de la zona central de la
distribución.
1 n
∑  x i X  4 * ni
n 1 n
γ 1 siendo A  ∑  x i X  2 * ni
 A 3/2
n 1

- Distribución mesocúrtica: presenta un grado de concentración medio alrededor


de los valores centrales de la variable (el mismo que presenta una distribución
normal): γ =0
- Distribución leptocúrtica: presenta un elevado grado de concentración alrededor
de los valores centrales de la variable: γ >0
- Distribución platicúrtica: presenta un reducido grado de concentración
alrededor de los valores centrales de la variable: γ <0
Ejemplo, Dado el registro de estaturas de estudiantes, hallar los principales
parámetros estadísticos analizados

Frecuencia Absoluta Frecuencia Relativa


Variable
Simple Acumulada Simple Acumulada
1,20 1 1 3,3 % 3,3 %
1,21 4 5 13,3 % 16,6 %
1,22 4 9 13,3 % 30,0 %
1,23 2 11 6,6 % 36,6 %

15
1,24 1 12 3,3 % 40,0 %
1,25 2 14 6,6 % 46,6 %
1,26 3 17 10,0 % 56,6 %
1,27 3 20 10,0 % 66,6 %
1,28 4 24 13,3 % 80,0 %
1,29 3 27 10,0 % 90,0 %
1,30 3 30 10,0 % 100,0 %

1.20  4  1.21  4  1.22  4    1.30  3


Media aritmética: X m   1.253
30

Media geométrica: 30
1.20 4  1.214    1.30 3  1.253

Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.

Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo
tanto esta seria cuenta con 3 modas

Cuarteles, Deciles y Percentiles


1º cuartil: es el valor 1,22
2º cuartil: es el valor 1,26
3º cuartil: es el valor 1,28

Rango: 130 – 1.20 =0.10

Vamos a calcular los valores de las distintas posiciones centrales:

Varianza:
S 2x 
    
(1.20  1.253)2  4  (1.21  1.253) 2 * 4   (130  1.253)2 * 3 
30

16
Por lo tanto, la varianza es 0,0010

Desviación típica: σ   0.010  0.032


0.032
Coeficiente de variación: CV   0.0255
1.253

Coeficiente de Asimetría:  =0.1586 Coeficiente de Curtosis: k=-1.39

Teoría de los Índices. Para medir el nivel de concentración de una distribución de


frecuencia se pueden utilizar distintos indicadores, entre ellos el Índice de Gini, el
cual se calcula
n 1

 P  Q i i
Ig  i1
n 1

P
i1
i

Los índices reflejan los porcentajes de cambios en algún evento en un periodo de


tiempo dado respecto a un tiempo de referencia. Con miras de dar una demostración y
aplicación de los índices en la estadística y desarrollo de las investigaciones se
presenta el siguiente problema

Ejemplo, Sea el cuadro que representa el costo del kg de pescado en los diferentes
años

a. Índices Porcentuales. Tomando al año 1960 como año base y a partir de él


calculamos el crecimiento de precios con base en este año, asó por ejemplo, para el
Pi( t )
año 1970: Índice = 15.3*100/12.2 = 125.4%: En este caso I i ( t )  ( 0 ) *100
Pi

b. Índices agregados simples. Se calculan como una media aritmética simple de


precios relativos, por ejemplo,
n

P i
(t)

I as ( t )  i 1
n

P
i 1
i
(0)

17
El índice se calcula como, en el año
1960: 46.3*100/46.3 = 100.0
1965: 46.2*100/46.3 = 99.8
1970: 80.3*100/46.3 = 173.4
1975: 132.5*100/46.3 = 286.3

c. Precios relativos en la media aritmética simple.


n

P i
(t)
Pi( 0)
I sm ( t )  i 1
* 100
n
En cuyo caso resulta,

d. Laspeyres. Tiene por objeto utilizar los pesos Q del año base, de modo que ,

18
n

P i
(t)
Q i( 0 )
I L (t )  i 1
n
* 100
P
i 1
i
(0)
Q ( 0)
i

e. Paashe. Similar a Laspeyres, pero con una formulación distinta que pretende
obtener una mejor ponderación del evento, se calcula utilizando los pesos de cada
periodo analizado y no los del año base
n

P i
(t)
Q i( t )
I P (t )  i 1
n
*100
P
i 1
i
(0)
Q (t )
i

Los resultados son para Laspeyres y Paashe, respectivamente,

REPRESENTACIONES GRÁFICAS

DIAGRAMA DE CAJAS Y BIGOTES

19
Presentación visual que describe al mismo tiempo varias características importantes
de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la
simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores
que se alejan de una manera poco usual del resto de los datos. Presenta los tres
cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u
horizontalmente. Procedimiento. Para el diagrama de cajas y bigotes se requiere

Calcular la mediana y los otros dos cuartiles, con los cuales se formará la caja, que
tiene la mediana como eje central, y como lados los dos cuartiles. Estos cuartiles
reciben también los nombres de " bisagras". La altura (anchura) de la caja no interesa.

La distancia H definida como la distancia entre el cuartil superior y el cuartil inferior,


es decir, corresponde al rango intecuartílico  H = Q3 - Q1 = RIC.
El paso correspondiente a 1.5 veces la distancia  Paso = 1.5 H
Cercas Internas, ubicadas a un paso de las bisagras o de los respectivos cuartiles. Así,
las Cercas Internas Inferior (CIi) y Superior (CIs) estarán dadas por:
CIi = Q1 – Paso CIs = Q3 + Paso

Si la cerca interna inferior da menor que el valor mínimo de la muestra, ésta se hace
igual al valor mínimo; igualmente, si la cerca interna superior da mayor que el valor
máximo, ésta se hace igual a dicho valor.

Cercas Externas, ubicadas a un paso de las cercas internas. Así, las Cercas Externas
Inferior (CEi) y Superior (CEs) estarán dadas por:
CEi = CIi – Paso CEs = CIs + Paso

Se denominan "valores adyacentes" los ubicados entre las cercas internas y los bordes
de las cajas. Por simplicidad no se grafican.
"Valores extremos" son los ubicados entre las dos cercas, y merecen especial
atención, ya que pueden ser valores atípicos, que, en algunos casos, no pertenecen
realmente a la distribución general de donde provienen los datos.

"Valores lejanos" o, ubicados por fuera de las cercas externas, correspondientes a


valores extremos, que requieren un mayor análisis que los valores atípicos.

Considere los siguientes datos, correspondientes a

20
De este conjunto de datos tenemos que:
Me = 90.45 Q1 = 88.25 Q3 = 92.2
Rango intercuartílico = 92.2-88.25 = 3.95  Paso = 5.925
Cercas interna inferior = 88.25 - 5.925 = 82.325
Cerca interna superior = 92.20 + 5.925 = 98.125
Cerca externa inferior = 82.325 - 5.925 = 76.40
Cerca externa superior = 98.125 + 5.925 = 104.05

Como se observa hay dos valores que merecen especial atención: 98.8 y 100.3 que
están entre las cercas interna y externa superior.

Las medidas siguientes se han tomado de libros de biología y medicina, pero son
parámetros muy aplicable y gran importancia para el estudiante de estadística, y por
tanto los reproducimos, tal como se mostrará en la bibliografía.

Proporciones. Son los cocientes entre dos mediciones, por ejemplo si en una
población de 2500 habitantes se diagnostican 150 casos de gripe aviar, entonces, la
proporción de enfermos es de 150/2500 = 0.06 (6%). El valor de una proporción
puede variar así de 0 a 1, y suele expresarse como un porcentaje.

Razones. Al igual que en el caso anterior es una división, pero aquí el numerador no
forma parte del denominador como en le caso anterior, por ejemplo, la razón entre la
población con gripe aviar y la sana es 150/2350 = 3/47 =0,064. Cuando, como en el
caso del ejemplo, la razón se calcula entre la probabilidad de que ocurra un evento y
la probabilidad de que éste no ocurra, la razón recibe también el nombre de odds. El
valor de una odds varía entre cero y el infinito. El valor 0 corresponde al caso en que
la enfermedad nunca ocurra, mientras que el valor infinito correspondería
teóricamente a una enfermedad que esté siempre presente.

Odds Proporcion
Proporcion  Odds 
Odds  1 1  Proporcion

21
Tasas. El concepto de tasa es similar al de una proporción, con la diferencia de que
las tasas llevan incorporado el concepto de tiempo. El numerador lo constituye la
frecuencia absoluta de casos del problema a estudiar. A su vez, el denominador está
constituido por la suma de los períodos individuales de riesgo a los que han estado
expuestos los sujetos susceptibles de la población a estudio. De su cálculo se
desprende la velocidad con que se produce el cambio de una situación frente a otra.
Se han considerado dos tipos de tasas:

Prevalencía P. Esta tasa cuantifica la proporción de elementos de una población que


presentan una determinada característica en un momento

Numero elementos con la caracteristica en un momento dado


P
Total de la poblacion en ese momento
La Incidencia I. La incidencia se define como el número de características nuevas
que se desarrollan en una población durante un período de tiempo determinado. Hay
dos tipos de medidas de incidencia: la incidencia acumulada y la tasa de incidencia,
también denominada densidad de incidencia. La incidencia acumulada es la
proporción de los elementos sin la característica que desarrollan la característica a lo
largo de un período de tiempo concreto.

22
Numero elementos nuevos con la caracteristica en un momento dado
P
Total de la poblacion en ese momento
La incidencia acumulada proporciona una estimación de la probabilidad o el riesgo de
que un elemento a desarrollar la característica durante un período especificado de
tiempo. Como cualquier proporción, suele venir dada en términos de porcentaje.
Además, al no ser una tasa, es imprescindible que se acompañe del periodo de
observación para poder ser interpretada.

Sensibilidad. Es la probabilidad de clasificar correctamente a un elemento


muestreado con la característica, es decir, la probabilidad de que para un elemento
muestreado se clasifique sin la característica. La sensibilidad es, por lo tanto, la
capacidad del test o criterio para detectar la característica. Cuando los datos obtenidos
a partir de una muestra se clasifican en una tabla, es fácil estimar a partir de ella la
sensibilidad como la proporción de elementos con la característica
Número de elementos con la característica
Sensibilidad 
Numero de elementos totales con y sin la caracteristica

Especificidad. Es la probabilidad de clasificar correctamente a un elemento sin la


característica, es decir, es el caso complementario a la sensibilidad

Número de elementos sin la característica


Especificidad 
Numero de elementos totales con y sin la caracteristica

Riesgo. Es la incertidumbre frente a decidir por el desconocimiento del


comportamiento de una variable o elemento muestreado. Su valor es obtenido
mediante Predicción: La presencia de un factor de riesgo significa un riesgo
aumentado de presentar en un futuro una evaluación o futuro la característica
muestreada, en comparación el resto de elementos de la población.

23
Causalidad. La presencia de un factor de riesgo no es necesariamente causal. El
aumento de incidencias de una característica en un población en relación a otro
grupo, se asume como factor de riesgo, sin embargo esta asociación puede ser debida
a una tercera variable.

REPRESENTACIONES GRÁFICAS

Las representaciones gráficas prácticamente están orientadas de acuerdo con las


necesidades del investigador o estadístico, de todas formas se tienen algunas normas
de trabajo y representación, que tienen por objeto facilitar la lectura de los datos e
información que se maneja estadísticamente. Las principales representaciones son:

Diagramas de barras: Representamos comparaciones entre varias poblaciones o


muestras

Diagramas de sectores o Torta. Se divide un círculo en tantas porciones como clases


existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su
frecuencia absoluta o relativa

Pictogramas. Expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. La escala de los dibujos debe ser tal que el área de cada
uno de ellos sea proporcional a la frecuencia de la modalidad que representa.

24
Diagramas diferenciales e Integrales: Los primeros son los que se representan
frecuencias absolutas o relativas y en ellos se representa el número o porcentaje de
elementos que presenta una modalidad dada Los segundos los que se representan el
número de elementos que presentan una modalidad inferior o igual a una dada. Se
realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes,
y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.

Otros. Cuando las variables son continuas, utilizamos como diagramas diferenciales
los histogramas y los polígonos de frecuencias. Un histograma se construye a partir
de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a
este segmento como base. El criterio para calcular la altura de cada rectángulo es el
de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada
intervalo y el área de los mismos. El polígono se construye fácilmente si tenemos
representado previamente el histograma, ya que consiste en unir mediante líneas
rectas los puntos del histograma que corresponden a las marcas de clase. Para
representar el polígono de frecuencias en el primer y último intervalo, suponemos que
adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y
se unen por una línea recta los puntos del histograma que corresponden a sus marcas
de clase.

25
Pirámides, Conos, Telarañas, etc. Estos gráficos se utilizan para mostrar, los
primeros elementos comparaciones entre elementos resaltando el peso de cada uno,
tal como lo hace el histograma o el gráfico de barras

Las telarañas tienen una importancia enorme, ya que permiten comparar ciclos y
tendencias

Una vez distribuidos todos los valores en los intervalos de clase, y obtenida la
frecuencia absoluta de cada intervalo, se realizan algunos cálculos para mejorar la
presentación de los resultados. Por lo general, se calcula para cada intervalo la
frecuencia relativa y la frecuencia relativa acumulada, las cuales están dadas por:

26
Frecuencias relativas y relativas acumuladas del intervalo i
Fi
Fa i   k 1 Frk
i
Fri 
n
donde Fi es la frecuencia absoluta del intervalo i, es decir, corresponde al número de
valores observados que quedaron en dicho intervalo.

Información gráfica. El Histograma. Generalmente la distribución de frecuencia se


complementa con el Histograma, que es simplemente un gráfico de barras. En la
abscisa se colocan los límites de los intervalos de clase b 0, b1, b2,.., bM, y en la
ordenada se grafica, bien sea la frecuencia absoluta, o la frecuencia relativa. Para
cada intervalo se levanta una barra cuya longitud es proporcional a la frecuencia
(absoluta, o relativa). La forma que toma el gráfico es la misma, bien sea que se
trabaje con frecuencia absoluta o relativa, ya que la diferencia entre las dos es
simplemente un cambio de escala. A veces se grafica una ordenada izquierda con la
frecuencia absoluta, y una ordenada derecha con la frecuencia relativa. Los
histogramas también pueden construirse con la frecuencia (absoluta o relativa)
acumulada.

Información gráfica. La Ojiva. La ojiva se construye a partir del histograma de


frecuencia (absoluta o relativa) uniendo las marcas de clase de los intervalos
mediante una línea recta, y uniendo la marca de clase del primer intervalo con el
punto medio de un intervalo ficticio inmediatamente anterior, y la marca de clase del
último intervalo con el punto medio de un intervalo ficticio inmediatamente siguiente.
La marca de clase de un intervalo es simplemente el punto medio del respectivo
intervalo. Este valor también recibe a veces el nombre de "Mediatriz".
A continuación se hace el desarrollo completo de la distribución de frecuencia y de
los histogramas.

Gráficos para variables cualitativas. Los gráficos más usuales para representar
variables de tipo nominal son los siguientes:

Diagramas de barras: Siguiendo la figura, representamos en el eje de ordenadas las


modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas.
Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras
modalidades, como las mostradas en la figura. Cuando los tamaños de las dos
poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en
otro caso podrían resultar engañosas.

27
Diagramas de sectores. Se divide un círculo en tantas porciones como clases existan,
de modo que a cada clase le corresponde un arco de círculo proporcional a su
frecuencia absoluta o relativa.

Como en la situación anterior, puede interesar comparar dos poblaciones. En este


caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas
sobre gráficos como los anteriores. Otra posibilidad es comparar las 2 poblaciones
usando para cada una de ellas un diagrama semicircular. Sean n 1  n 2 los tamaños
respectivos de las 2 poblaciones. La población más pequeña se representa con un
semicírculo de radio r1 y la mayor con otro de radio r2. La relación existente entre los
radios, es la que se obtiene de suponer que la relación entre las áreas de las
circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir:
r22 n 2 n
2
  r2  r1 2
r1 n 1 n1

28
Pictogramas, Expresan con dibujos alusivo al tema de estudio las frecuencias de las
modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas
un mismo dibujo.

El escalamiento de los dibujos debe ser tal que el área de cada uno de ellos sea
proporcional a la frecuencia de la modalidad que representa. Este tipo de gráficos
suele usarse en los medios de comunicación, para que sean comprendidos por el
público no especializado, sin que sea necesaria una explicación compleja.

Gráficos para variables cuantitativas. Para las variables cuantitativas,


consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las
frecuencias (absolutas o relativas) o las frecuencias acumuladas:

Diagramas diferenciales: Son aquellos en los que se representan frecuencias


absolutas o relativas. En ellos se representa el número o porcentaje de elementos que
presenta una modalidad dada.

Diagramas integrales: Son aquellos en los que se representan el número de


elementos que presentan una modalidad inferior o igual a una dada. Se realizan a
partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio
que este tipo de gráficos no tiene sentido para variables cualitativas.

Gráficos para variables discretas. Cuando representamos una variable discreta,


usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial.
Las barras deben ser estrechas para representar el que los valores que toma la variable
son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la
variable, forma de escalera.

Ejemplo, Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de


caras, X, obteniéndose los siguientes resultados, x = 2,1, 0, 1, 3, 2, 1, 2. Representar
gráficamente el resultado.

En primer lugar observamos que la variable X es cuantitativa discreta, presentando


las modalidades, x está incluido en 0, 1, 2, 3, Ordenamos a continuación los datos en
una tabla estadística

Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese
que el diagrama integral (creciente) contabiliza el número de observaciones de la
variable inferiores o iguales a cada punto del eje de abscisas.

29
Conteo de datos. Se toman los valores de la muestra, y se analiza en que intervalo
cae. Para ello se toma cada valor y se compara sucesivamente con el límite superior
del primer intervalo, luego con el del segundo, y así sucesivamente hasta que caiga en
alguno. Si el valor x queda en el intervalo i, entonces se aumenta en uno la frecuencia
del respectivo intervalo.

30

También podría gustarte