Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Documento 02 Medidas y Graficas
Documento 02 Medidas y Graficas
Las medidas nos permiten información sobre la serie de datos que estamos
analizando. Estas medidas permiten conocer diversas características de esta serie de
datos.
MEDIDAS DE POSICIÓN
Medidas de posición central, informan sobre los valores medios de la serie de datos.
1
x1 x 2 x 3 x n 1 n x1 * n1 x 2 * n 2 x n * n n
X xi X
n n 1 n
X ni fi
x1 n1 f1
… … …
xk nk fk
Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o
la media geométrica. La media geométrica se suele utilizar en series de datos como
tipos de interés anuales, inflación, etc., donde el valor de cada año tiene un efecto
multiplicativo sobre el de los años anteriores. En todo caso, la media aritmética es la
medida de posición central más utilizada.
Logx 1 Logx n
Ahora bien, Logx g , luego x g n x 1 x 2 x n
n
2
x 12 x 2n
xc
n
Media Ponderada, se calcula sumando los valores multiplicados por sus frecuencias
o significancias, y dividiendo en la suma de las significancias,
n
x i * si
Xp 1
n
s
1
i
Mediana L c( j / f )
L es el límite inferior de la clase, f la frecuencia de esa clase y c la longitud de la
clase, j el número de observaciones en esta clase
En el caso de variables continuas, las clases vienen dadas por intervalos, y aquí la
fórmula de la mediana se complica un poco más (pero no demasiado): Sea (li-1,li] el
intervalo donde hemos encontrado que por debajo están el 50% de las observaciones.
3
Entonces se obtiene la mediana a partir de las frecuencias absolutas acumuladas,
mediante interpolación lineal:
CC BB n (n/2) N 1 (n/2) N i 1
i Med l i 1 ai
AC AB ai Med l i 1 ni
De este modo, Med es el punto donde F(Med ) 1 / 2 . Esto equivale a decir que la
mediana divide al histograma en dos partes de áreas iguales a 1/2. Entre las
propiedades de la mediana, se destacan principalmente,
x
i 1
i Med
Moda, es el valor que más se repite en la muestra. Corresponde al valor que tiene
mayor frecuencia relativa. La moda a cualquier máximo relativo de la distribución de
frecuencias, es decir, cualquier valor de la variable que posea una frecuencia mayor
que su anterior y su posterior.
4
En el caso de variables continuas es más correcto hablar de intervalos modales. Una
vez que este intervalo, l j1 , l j , se ha obtenido, se utiliza la siguiente fórmula para
calcular la moda, de acuerdo con la figura anterior,
HC H C HC H C Moda l i 1 ai
AB A B AB A B n i n i 1 ( n i n i 1 ) ( n i n i 1 )
Intervalo ci ni Ni nici
00-02 1 2 2 2
02-04 3 1 3 3
04-06 5 4 7 20
06-08 7 3 10 21
08-10 9 2 12 18
12 64
Para calcular la media podemos añadir una columna con las cantidades nici. La suma
de los términos de esa columna dividida por n=12 es la media x 64 / 12 5.3 . La
mediana es el valor de la variable que deja por debajo de sí a la mitad de las n
observaciones, es decir 6. Construimos la tabla de las frecuencias absolutas
acumuladas, Ni y vemos que eso ocurre en la modalidad tercera, es decir, i=3,
5
entonces, (li-1,li]= (4,6], que corresponde el intervalo en donde se encuentra la
mediana, entonces tenemos
( n / 2) N i 1 (12 / 2) 3
Med l i 1 ai 4 5.5 l i 1 , l i
ni 4
En este caso, como se ve, la moda no toma un valor único, sino el conjunto, Moda =
(1.3,5.5)
6
1,24 1 12 3,3 % 40,0 %
1,25 2 14 6,6 % 46,6 %
1,26 3 17 10,0 % 56,6 %
1,27 3 20 10,0 % 66,6 %
1,28 4 24 13,3 % 80,0 %
1,29 3 27 10,0 % 90,0 %
1,30 3 30 10,0 % 100,0 %
Media geométrica: 30
1.20 4 1.214 1.30 3 1.253
Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo
tanto esta seria cuenta con 3 modas
7
1,28 4 24 13,3 % 80,0 %
1,29 3 27 10,0 % 90,0 %
1,30 3 30 10,0 % 100,0 %
Media geométrica: 30
1.20 4 1.214 1.30 3 1.253
Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo
tanto esta seria cuenta con 3 modas
Déciles, son 9 valores que distribuyen la serie de datos, ordenada de forma creciente
o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10%
de los resultados.
8
definición nos recuerda a la mediana, pues como consecuencia de la definición es
evidente que Med= P50
De forma análoga se definen los déciles como los valores de la variable que dividen a
las observaciones en 10 grupos de igual tamaño. Más precisamente, definimos
D1,D2,...,D9 como, Di=P10i siendo i=1,2,…,10
xi ni Ni
0 14 14
1 10 24
2 15 39
3 26 65
4 20 85
5 15 100
n=100
Solución:
Primer cuartil: n/4=25, ni>n/4=39, luego Q1=2
Segundo cuartil: 2n/4=50, Primera Ni>2n/4=65, luego Q2=3
Tercer cuartil: 3n/4=75, Primera Ni>3n/4=85, luego Q3=4
Rango, mide la amplitud de los valores de la muestra y se calcula por diferencia entre
el valor más elevado y el valor más bajo.
9
Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo
de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o
valores están próximas entre sí o si por el contrario están o muy dispersas. Una
medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene
restando el valor más bajo de un conjunto de observaciones del valor más alto. Es
fácil de calcular y sus unidades son las mismas que las de la variable, aunque posee
varios inconvenientes:
- No utiliza todas las observaciones (sólo dos de ellas);
- Se puede ver muy afectada por alguna observación extrema;
- El rango aumenta con el número de observaciones, o bien se queda igual. En
cualquier caso nunca disminuye.
Si los datos están agrupados en una tabla estadística es más sencillo usar la relación
de la derecha
Como se observa, la desviación media guarda las mismas dimensiones que las
observaciones. La suma de valores absolutos es relativamente sencilla de calcular,
pero esta simplicidad tiene un inconveniente: Desde el punto de vista geométrico, la
distancia que induce la desviación media en el espacio de observaciones no es la
natural. Esto hace que sea muy engorroso trabajar con ella a la hora de hacer
inferencia a la población
x X
n
2
i
ni
s 2 xi X
n
2
s2 1
o
n 1 n
10
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más
concentrados están los valores de la serie alrededor de la media. Por el contrario,
mientras mayor sea la varianza, más dispersos están.
Error. La suma de las diferencias de la variable con respecto al valor medio es nula,
n
(x
i 1
i x) 0
Si los errores se consideran con signo positivo, en este caso no pueden compensarse.
Esto ocurre si tomamos como medida de error alguna de las siguientes:
n
x
i 1
i x 0 error absoluto
n
(x
i 1
i x) 2 0 error cuadrático
König. Para cualquier posible valor k que consideremos como candidato a medida
central, lo mejora en el sentido de los mínimos cuadrados, es decir
n 2 n 2
(x x) (x k)
i 1
i
i 1
i siendo k x
11
Luego el número de grados de libertad de la media es n-1=4. Si calculamos a
(x x)2
continuación la varianza, se han de sumar n cantidades x i
n
Sin embargo esas cantidades no son totalmente independientes, pues están ligadas por
una restricción:
n
n
i 1
x i
i 1
x i n 0
P Q
i i
Ig i1
n 1
P
i1
i
12
El Índice Gini (Ig) puede tomar valores entre 0 y 1, es 0, cuando la concentración es
mínima, o la muestra está uniformemente repartida a lo largo de todo su rango; es 1
cuando la concentración es máxima, y en este caso un sólo valor de la muestra
acumula el 100% de los resultados
13
criterios de simetría (con respecto a la media y a la mediana). Es más, se tiene que
media y mediana coinciden para distribuciones continuas simétricas. Por otro
lado,
- en el caso de variables discretas, la distribución es simétrica si el lado derecho del
diagrama se obtiene por imagen especular desde la media. En este caso coincide
la media con la mediana si el número de observaciones es impar.
- Si la variable es continua simétrica y unimodal, coinciden la media, la mediana y
la moda.
Dentro de los tipos de asimetría posible, vamos a destacar los dos clases
fundamentales: Asimetría positiva: Si las frecuencias más altas se encuentran en el
lado izquierdo de la media, mientras que en derecho hay frecuencias más pequeñas
(cola); y Asimetría negativa: Cuando la cola está en el lado izquierdo.
La asimetría mide si la curva tiene una forma simétrica, es decir, si respecto al centro
de la misma (centro de simetría) los segmentos de curva que quedan a derecha e
izquierda son similares. Hemos comentado que el concepto de asimetría se refiere a si
la curva que forman los valores de la serie presenta la misma forma a izquierda y
derecha de un valor central (media aritmética). Para medir el nivel de asimetría se
utiliza el llamado Coeficiente de Asimetría de Fisher,
14
1 n
x i X 3 * n i 1 n
n
1 siendo A ∑ x i X 2 * n i
A 3 / 2 n 1
Hemos comentado que el concepto de asimetría se refiere a si la curva que forman los
valores de la serie presenta la misma forma a izquierda y derecha de un valor central
(media aritmética)
15
1,24 1 12 3,3 % 40,0 %
1,25 2 14 6,6 % 46,6 %
1,26 3 17 10,0 % 56,6 %
1,27 3 20 10,0 % 66,6 %
1,28 4 24 13,3 % 80,0 %
1,29 3 27 10,0 % 90,0 %
1,30 3 30 10,0 % 100,0 %
Media geométrica: 30
1.20 4 1.214 1.30 3 1.253
Mediana: 1,26, ya que por debajo está el 50% de los valores y por arriba el otro 50%.
Moda: Hay 3 valores que se repiten en 4 ocasiones: el 1,21, el 1,22 y el 1,28, por lo
tanto esta seria cuenta con 3 modas
Varianza:
S 2x
(1.20 1.253)2 4 (1.21 1.253) 2 * 4 (130 1.253)2 * 3
30
16
Por lo tanto, la varianza es 0,0010
P Q i i
Ig i1
n 1
P
i1
i
Ejemplo, Sea el cuadro que representa el costo del kg de pescado en los diferentes
años
P i
(t)
I as ( t ) i 1
n
P
i 1
i
(0)
17
El índice se calcula como, en el año
1960: 46.3*100/46.3 = 100.0
1965: 46.2*100/46.3 = 99.8
1970: 80.3*100/46.3 = 173.4
1975: 132.5*100/46.3 = 286.3
P i
(t)
Pi( 0)
I sm ( t ) i 1
* 100
n
En cuyo caso resulta,
d. Laspeyres. Tiene por objeto utilizar los pesos Q del año base, de modo que ,
18
n
P i
(t)
Q i( 0 )
I L (t ) i 1
n
* 100
P
i 1
i
(0)
Q ( 0)
i
e. Paashe. Similar a Laspeyres, pero con una formulación distinta que pretende
obtener una mejor ponderación del evento, se calcula utilizando los pesos de cada
periodo analizado y no los del año base
n
P i
(t)
Q i( t )
I P (t ) i 1
n
*100
P
i 1
i
(0)
Q (t )
i
REPRESENTACIONES GRÁFICAS
19
Presentación visual que describe al mismo tiempo varias características importantes
de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la
simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores
que se alejan de una manera poco usual del resto de los datos. Presenta los tres
cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u
horizontalmente. Procedimiento. Para el diagrama de cajas y bigotes se requiere
Calcular la mediana y los otros dos cuartiles, con los cuales se formará la caja, que
tiene la mediana como eje central, y como lados los dos cuartiles. Estos cuartiles
reciben también los nombres de " bisagras". La altura (anchura) de la caja no interesa.
Si la cerca interna inferior da menor que el valor mínimo de la muestra, ésta se hace
igual al valor mínimo; igualmente, si la cerca interna superior da mayor que el valor
máximo, ésta se hace igual a dicho valor.
Cercas Externas, ubicadas a un paso de las cercas internas. Así, las Cercas Externas
Inferior (CEi) y Superior (CEs) estarán dadas por:
CEi = CIi – Paso CEs = CIs + Paso
Se denominan "valores adyacentes" los ubicados entre las cercas internas y los bordes
de las cajas. Por simplicidad no se grafican.
"Valores extremos" son los ubicados entre las dos cercas, y merecen especial
atención, ya que pueden ser valores atípicos, que, en algunos casos, no pertenecen
realmente a la distribución general de donde provienen los datos.
20
De este conjunto de datos tenemos que:
Me = 90.45 Q1 = 88.25 Q3 = 92.2
Rango intercuartílico = 92.2-88.25 = 3.95 Paso = 5.925
Cercas interna inferior = 88.25 - 5.925 = 82.325
Cerca interna superior = 92.20 + 5.925 = 98.125
Cerca externa inferior = 82.325 - 5.925 = 76.40
Cerca externa superior = 98.125 + 5.925 = 104.05
Como se observa hay dos valores que merecen especial atención: 98.8 y 100.3 que
están entre las cercas interna y externa superior.
Las medidas siguientes se han tomado de libros de biología y medicina, pero son
parámetros muy aplicable y gran importancia para el estudiante de estadística, y por
tanto los reproducimos, tal como se mostrará en la bibliografía.
Proporciones. Son los cocientes entre dos mediciones, por ejemplo si en una
población de 2500 habitantes se diagnostican 150 casos de gripe aviar, entonces, la
proporción de enfermos es de 150/2500 = 0.06 (6%). El valor de una proporción
puede variar así de 0 a 1, y suele expresarse como un porcentaje.
Razones. Al igual que en el caso anterior es una división, pero aquí el numerador no
forma parte del denominador como en le caso anterior, por ejemplo, la razón entre la
población con gripe aviar y la sana es 150/2350 = 3/47 =0,064. Cuando, como en el
caso del ejemplo, la razón se calcula entre la probabilidad de que ocurra un evento y
la probabilidad de que éste no ocurra, la razón recibe también el nombre de odds. El
valor de una odds varía entre cero y el infinito. El valor 0 corresponde al caso en que
la enfermedad nunca ocurra, mientras que el valor infinito correspondería
teóricamente a una enfermedad que esté siempre presente.
Odds Proporcion
Proporcion Odds
Odds 1 1 Proporcion
21
Tasas. El concepto de tasa es similar al de una proporción, con la diferencia de que
las tasas llevan incorporado el concepto de tiempo. El numerador lo constituye la
frecuencia absoluta de casos del problema a estudiar. A su vez, el denominador está
constituido por la suma de los períodos individuales de riesgo a los que han estado
expuestos los sujetos susceptibles de la población a estudio. De su cálculo se
desprende la velocidad con que se produce el cambio de una situación frente a otra.
Se han considerado dos tipos de tasas:
22
Numero elementos nuevos con la caracteristica en un momento dado
P
Total de la poblacion en ese momento
La incidencia acumulada proporciona una estimación de la probabilidad o el riesgo de
que un elemento a desarrollar la característica durante un período especificado de
tiempo. Como cualquier proporción, suele venir dada en términos de porcentaje.
Además, al no ser una tasa, es imprescindible que se acompañe del periodo de
observación para poder ser interpretada.
23
Causalidad. La presencia de un factor de riesgo no es necesariamente causal. El
aumento de incidencias de una característica en un población en relación a otro
grupo, se asume como factor de riesgo, sin embargo esta asociación puede ser debida
a una tercera variable.
REPRESENTACIONES GRÁFICAS
Pictogramas. Expresan con dibujos alusivos al tema de estudio las frecuencias de las
modalidades de la variable. La escala de los dibujos debe ser tal que el área de cada
uno de ellos sea proporcional a la frecuencia de la modalidad que representa.
24
Diagramas diferenciales e Integrales: Los primeros son los que se representan
frecuencias absolutas o relativas y en ellos se representa el número o porcentaje de
elementos que presenta una modalidad dada Los segundos los que se representan el
número de elementos que presentan una modalidad inferior o igual a una dada. Se
realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes,
y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas.
Otros. Cuando las variables son continuas, utilizamos como diagramas diferenciales
los histogramas y los polígonos de frecuencias. Un histograma se construye a partir
de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a
este segmento como base. El criterio para calcular la altura de cada rectángulo es el
de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada
intervalo y el área de los mismos. El polígono se construye fácilmente si tenemos
representado previamente el histograma, ya que consiste en unir mediante líneas
rectas los puntos del histograma que corresponden a las marcas de clase. Para
representar el polígono de frecuencias en el primer y último intervalo, suponemos que
adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y
se unen por una línea recta los puntos del histograma que corresponden a sus marcas
de clase.
25
Pirámides, Conos, Telarañas, etc. Estos gráficos se utilizan para mostrar, los
primeros elementos comparaciones entre elementos resaltando el peso de cada uno,
tal como lo hace el histograma o el gráfico de barras
Las telarañas tienen una importancia enorme, ya que permiten comparar ciclos y
tendencias
Una vez distribuidos todos los valores en los intervalos de clase, y obtenida la
frecuencia absoluta de cada intervalo, se realizan algunos cálculos para mejorar la
presentación de los resultados. Por lo general, se calcula para cada intervalo la
frecuencia relativa y la frecuencia relativa acumulada, las cuales están dadas por:
26
Frecuencias relativas y relativas acumuladas del intervalo i
Fi
Fa i k 1 Frk
i
Fri
n
donde Fi es la frecuencia absoluta del intervalo i, es decir, corresponde al número de
valores observados que quedaron en dicho intervalo.
Gráficos para variables cualitativas. Los gráficos más usuales para representar
variables de tipo nominal son los siguientes:
27
Diagramas de sectores. Se divide un círculo en tantas porciones como clases existan,
de modo que a cada clase le corresponde un arco de círculo proporcional a su
frecuencia absoluta o relativa.
28
Pictogramas, Expresan con dibujos alusivo al tema de estudio las frecuencias de las
modalidades de la variable. Estos gráficos se hacen representado a diferentes escalas
un mismo dibujo.
El escalamiento de los dibujos debe ser tal que el área de cada uno de ellos sea
proporcional a la frecuencia de la modalidad que representa. Este tipo de gráficos
suele usarse en los medios de comunicación, para que sean comprendidos por el
público no especializado, sin que sea necesaria una explicación compleja.
Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese
que el diagrama integral (creciente) contabiliza el número de observaciones de la
variable inferiores o iguales a cada punto del eje de abscisas.
29
Conteo de datos. Se toman los valores de la muestra, y se analiza en que intervalo
cae. Para ello se toma cada valor y se compara sucesivamente con el límite superior
del primer intervalo, luego con el del segundo, y así sucesivamente hasta que caiga en
alguno. Si el valor x queda en el intervalo i, entonces se aumenta en uno la frecuencia
del respectivo intervalo.
30