Está en la página 1de 15

Cátedra Estadística

UNIDAD II

MEDIDAS DE POSICIÓN Y DE DISPERSIÓN

ANÁLISIS DESCRIPTIVO DE UN CONJUNTO DE DATOS

Cualquiera sea el conjunto de datos en los cuales se ha estudiado una o más va-
riables cuantitativas, resulta interesante tener información resumida de sus caracterís-
ticas, como pueden ser la localización del conjunto de observaciones y la dispersión de
éstas. Definiremos entonces algunas medidas de posición y otras de dispersión utiliza-
das en el estudio de variables unidimensionales.
Las medidas de posición más utilizadas son los valores medios o de tendencia
central (promedios, mediana y modo) aunque también dan mucha información los
cuartiles, los deciles y los percentiles. Estas medidas proporcionan la diferencia de lo-
calización de la distribución sobre el eje de las abscisas respecto al origen. Graficamen-
te obsevamos el desplazamiento de una distribución de frecuencias respecto a la otra
sobre el eje de las abscisas.

fi

La medida de dispersión más utilizada es el desvío standart ( o desviación stan-


dart o desviación típica), aunque también dan bastante información el rango, el reco-
rrido intercuartil, y la desviación cuartílica. Estas medidas son las que indican la dife-
rencia en la intensidad con que se dispersan o concentran los valores observados con
respecto a una medida de tendencia central.

fi

Las medidas de asimetría son aquellas que tomando como eje de simetría la or-
denada correspondiente a un valor central, clasificaremos las distribuciones en simétri-
cas, asimétrica a la derecha y asimétrica a la izquierda.

Medidas de Posición y de Dispersión 1


Cátedra Estadística

SERIE SIMPLE
Cuando la cantidad de observaciones (n) es pequeña, entonces disponemos de una se-
rie simple de datos, no es necesario organizarlos en una tabla de frecuencias.
Supongamos una serie simple de observaciones unidimensionales : x1, x2,
......, xn,
En dicha serie podemos calcular todas las medidas de posición (salvo el modo), y to-
das las medidas de dispersión.

Medidas de posición
 Promedios :
Existen tres tipos de promedio : aritmético, geométrico y armónico. Según la natu-
raleza de la variable corresponde usar uno u otro promedio. Cualquiera sea el
promedio utilizado, en su cálculo intervienen todos los valores observados.
n
 xi
Promedio aritmético: x i 1

n
- El promedio de una constante es la misma constante.
- El promedio de una variable multiplicada por una constante es igual a la cons-
tante multiplicada por el promedio de la variable.
Por ser el más utilizado, el más importante es el promedio aritmético x que tam-
bién lo simbolizaremos M(x), además de estas dos propiedades:
n
 xi x1  x2 ....... xn
i 1
Promedio Aritmético : x   M (x)
n n

Propiedades

• M(k) = k para k constante


Demostracion:
n
k nk
M ( k )  i 1  k
n n

• M(k.x) = k. M(x) para k constante

Medidas de Posición y de Dispersión 2


Cátedra Estadística
Demostracion:
n n
 kx j kxj
j 1 j 1
M ( kx )    kM ( x )
n n

cumple con las siguientes :

• M( x ± k ) = M(x) ± k para k constante

Demostracion:
n n n n n

( x j  k)  x  k  x
j j k
j 1 j 1 j 1 j 1 j 1
M(x  k)      M ( x)  k
n n n n
• M(a.x ± b) = a.M(x) ± b para a, b constantes

• M( xi - x ) = 0

Demostración
n n n

( x i  x )  0   x j   x  nx  nx  0
i 1 j 1 j 1

• M(xi - x )2 = mínimo

Demostración
n
 ( xi  x )2  min
i 1
n n
 ( x j  x )   ( x j  C )2 ,
2
para cx
j 1 j 1

Medidas de Posición y de Dispersión 3


Cátedra Estadística
n n n n n
 ( x j  x )2   (x 2j  2 x j x  x 2 )   x 2j  2 x  x j   x 2 
j 1 j 1 j 1 j 1 j 1
n n n
  x 2j  2 xnx  nx 2   x 2j  2nx 2  nx 2   x 2j  nx 2 (1)
j 1 j 1 j 1

para C  x C  x  con   0, luego :


n n n
 ( x j  C )2   (x 2j  2 x j C  C 2 )   (x 2j  2 x j ( x  )  ( x  )2 ) 
j 1 j 1 j 1
n n n
  x 2j  2( x  ) x j   ( x  )2 
j 1 j 1 j 1
n n n
  x 2j  2( x  )nx   ( x  ) 2   x 2j  2nxx  2nx  n( x 2  2 x  2 )
j 1 j 1 j 1
n n
  x 2j  2nx 2  2nx   nx 2  2nx   n2   x 2j  nx 2  n2 ( 2)
j 1 j 1

Como   0 entonces 2  0, por lo tanto comparando(1) y (2)

n n
 x 2j  nx 2   x 2j  nx 2  n2 lo queimplicaque
j 1 j 1
n n
 ( x j  x )2   ( x j  C )2 , para Cx
j 1 j 1

• M( x ± y ) = M(x) ± M(y) para x, y variables

 Mediana :
Es el valor de la variable que supera a no más de la mitad de las observaciones
y a la vez es superada por no más de la mitad de las observaciones. Para su cálculo es
necesario ordenar la serie de datos.
Si n (cantidad de observaciones) es impar, entonces la mediana es el valor
que ocupa el lugar central.
M na  x n 1
2

Si n es par, entonces existen dos valores centrales, y la mediana se calcula


como un promedio de éstos.
x n  x n 1
M na  2 2

2
Otras medidas de posición, ya no de tendencia central, son :

 Cuartiles :

Medidas de Posición y de Dispersión 4


Cátedra Estadística
Se distinguen dos cuartiles, uno de ellos, el cuartil inferior (o primer cuartil) supera a
no más de la cuarta parte de las observaciones y a su vez es superado por no más de
las tres cuartas partes de las observaciones, y el otro, el cuartil superior (o tercer cuar-
til ) supera a no más de las tres cuartas partes de las observaciones y a su vez es su-
perado por no más de la cuarta parte de las observaciones. El segundo cuartil coincide
con la mediana.
Para el cálculo de los cuartiles es necesario ordenar la serie de valores observados.

Si n es múltiplo de cuatro, entonces

x n  x n 1 x 3n  x 3n 1
Qi  Q1  4 4
Qs  Q3  4 4
2 2

 Deciles :
Son valores de la variable que dividen (o clasifican) a las observaciones en 10 partes,
cada una de ellas conteniendo no más del 10% de las observaciones

Medidas de dispersión
Entre las más simples se encuentran el rango, el recorrido intercuartil y la desviación
cuartílica, simples porque para su cálculo sólo intervienen dos valores.

 Rango :
Es la diferencia entre los valores extremos : el máximo valor observado menos el mí-
nimo valor observado : R = xmáx - xmín

 Recorrido Intercuartil :
Es la diferencia entre los cuartiles: cuartil superior menos cuartil inferior, su ventaja
frente al Rango es que elimina el 50% de los valores extremos. El recorrido intercuartil
cubre el 50% de las observaciones centrales : RQ  Qs  Qi

 Desviación Cuartílica :
Qs  Qi
Es la mitad del recorrido intercuartil : DQ 
2
En distribuciones simétricas se verifica que el intervalo ( x  DQ ; x  DQ) contiene el
50% de las observaciones centrales, pues coincide con el intervalo (Qi ; Qs )

 Variancia :
Se la define y calcula como el promedio de los cuadrados de los desvíos respecto de la
media aritmética.
n n
 ( xi  x ) 2  xi2
i 1 i 1
V ( x)    x2
n n

Medidas de Posición y de Dispersión 5


Cátedra Estadística

Propiedades de la variancia :
- 1 - V(x) > 0 para X variable
- 2 - V(k) = 0 para k constante
- 3 - V(x ± k) = V(x) para k constante
- 4 - V(k.x) = k2.V(x) para k constante
2
- 5 - V(a.x ± b) = a .V(x) para a y b constantes
-6 - V( x ± y ) = V(x) + V(y) para x, y variables independientes
-7 - V( x ± y ) = V(x) + V(y)  2 cov (x,y) para x, y variables no inde-
pendientes

Observaciones:
Si V(x) = 0 entonces X es una constante (no es variable)
Dadas dos poblaciones existe mayor dispersión en aquella que posee mayor va-
riancia.

 Desvío Standart :
El desvío standart es la medida de dispersión más utilizada. En su cálculo inter-
vienen todas las observaciones. Se lo define como la raíz cuadrada de la varian-
cia.
n

(x  x)i
2

S ( x)  i 1
n
Observe que el desvío standart está expresado en la misma unidad de medida
que la variable y su media; en cambio la variancia lo está en términos de "cua-
drados de unidades".
Propiedades del desvío standart :
- 1 - S(x) > 0 para X variable
- 2 - S(k) = 0 para k constante
- 3 - S(x ± k) = S(x) para k constante
- 4 - S(k.x) = k.S(x) para k constante
- 5 - S(a.x ± b) = a.S(x) para a y b constantes

Valen las observaciones hechas para la variancia :


S(x) = 0  X es una constante.
mayor S(x)  mayor dispersión.
El desvío standart es una medida de dispersión muy útil, sobre todo para comparar dos
poblaciones en las cuales se está estudiando la misma variable y se la expresa en la
misma unidad de medida. Si las unidades de medidas no son las mismas; para poder
realizar comparaciones nos valdremos de un coeficiente adimensional que se define a
continuación.

Medidas de Posición y de Dispersión 6


Cátedra Estadística
DISTRIBUCIONES DE FRECUENCIA
Si los datos (por ser grande la cantidad de observaciones) ya están organizados en
una tabla de frecuencias, existen fórmulas (o métodos) para calcular las medidas de
posición y de dispersión, según sea la variable discreta o continua.
Para variables unidimensionales, según como se originen, tendremos una distribución
de frecuencias para datos sin agrupar (discreta) o una distribución de frecuencias para
datos agrupados (continua).

Datos sin agrupar


 Promedios
Si los datos están sin agrupar, entonces no existe pérdida de información. En este ca-
so, el promedio se define de la siguiente manera :
m m

 xi . f i x . f i i m
fi m
promedio aritmético = x i 1
m
 i 1
  xi .   xi hi
f
n i 1 n i 1
i
i 1

Mediana y Modo
El cálculo de la mediana y el modo es muy sencillo, basta observar los gráficos.

Analíticamente :
 Mediana :

Medidas de Posición y de Dispersión 7


Cátedra Estadística

Se busca la mediana de orden M ona  n , luego se determina la frecuencia acumulada Fi


2
tal que Fi 1  M ona  Fi . La mediana será el valor xi de la variable al cual le corresponda
dicha frecuencia acumulada Fi .

Nota: si la mediana de orden coincide con una de las frecuencias acumuladas


n xi  xi 1
M na   Fi , entonces la mediana normalmente es calculada como M na  ,
o
2 2
pues de esta manera supera exactamente a la mitad de las observaciones y es supera-
da por la otra mitad.

Modo :
Es el valor de la variable al cual le corresponde la máxima frecuencia. Por lo tanto, se
busca la mayor frecuencia simple f i , y el modo será el valor xi de la variable al cual
le corresponda dicha frecuencia simple f i .

xn  xn
1
M na  2 2
2

Notas : - al valor modal Mdo  xi le corresponde una frecuencia que supera a la de los
valores inmediatamente superior xi1 e inferior xi1 .

es decir f i  f i 1 y f i  f i 1
- En una distribución de frecuencias puede existir más de un modo. Si existen
dos modos, la distribución se denomina bimodal.

- No existe modo en una distribución uniforme.

Medidas de Posición y de Dispersión 8


Cátedra Estadística
En la figura (b), si bien no es una distribución uniforme, la misma carece de un
valor modal

 Cuartiles:
Se determinan gráficamente.

3n
Q3 
4

n
Q1 
4

n
Qi  Q1 
o o
Analíticamente : Se calculan los cuartiles de orden
4
3. n
Qs  Q3 
o o

y se los determina en forma similar a la utilizada para la mediana.

 Variancia :
En su cálculo intervienen todas las observaciones. Al igual que en el cálculo de los
promedios, se toman los distintos valores observados tantas veces como lo indican sus
respectivas frecuencias.
La variancia es el promedio de los cuadrados de los desvíos respecto de la media arit-
mética.
m m

 ( xi  x ) 2 . f i x 2
i . fi
V ( x)  i 1
m
 i 1
 x2
f
n
i
i 1

 Desvío Standart
m

(x  x) . f
i
2
i
S ( x)  i 1
n

Datos agrupados

Si los datos están agrupados en intervalos o clases, entonces se pierde parte de la in-
formación.
Se supone que la distribución es uniforme dentro de cada intervalo y que éste está re-
presentado por su punto medio.

Medidas de Posición y de Dispersión 9


Cátedra Estadística
En este caso, si bien las fórmulas del promedio y de la variancia son las mismas, va-
ría el concepto de sus elementos :
xi es el punto medio del i-ésimo intervalo

fi es la frecuencia absoluta simple del i-ésimo intervalo

hi es la frecuencia relativa simple del i-ésimo intervalo

m es la cantidad de intervalos

 Promedio Aritmético :
m m

x . f i i x . f i i m
fi m
x i 1
m  i 1
  xi .   xi hi
f i
n i 1 n i 1
i 1

 Mediana :
n
Se busca la mediana de orden M na  , luego se determina la frecuencia acumu-
o
2
lada Fi tal que Fi 1  M ona  Fi . Esto indica que la mediana será el valor que
pertenece al i-ésimo intervalo, para el cual corresponde la frecuencia acumula-
da Fi . Es decir :

M na ( xi1 ; xi )
Utilizando las propiedades de triángulos semejantes, se deduce que la mediana es:
o
M na  Fi 1
M na  xi1  .( xi  xi1 )
fi

n
2

 Modo :
Es el valor de la variable al cual le corresponde la máxima frecuencia. En este caso no
existe un valor de máxima frecuencia, sino un intervalo de máxima frecuencia. Por lo
tanto tendremos un intervalo modal, que será aquél al cual le corresponda la mayor
frecuencia simple f i , siendo ésta aquella frecuencia que supera a la de los intervalos
inmediatamente superior e inferior, es decir f i  f i 1 y f i  f i 1 .
Una vez identificado el intervalo modal, se sabe que el modo pertenece al mismo, es
decir :

M do ( xi1 ; xi )

Medidas de Posición y de Dispersión 10


Cátedra Estadística
Definiendo : 1  f i  f i 1 y  2  f i  f i 1 , y luego utilizando las propiedades
de triángulos semejantes, se deduce que el modo es :

1
M do  xi1  .( xi  xi1 )
1   2
Se calcula graficamente de la siguiente forma:

Cuartiles :
El cálculo de los cuartiles es muy similar al de la mediana. Primeramente se calcula el
n 3. n k .n
Qi  Q1  Qs  Q3  , en general : Qk 
o o o o o
cuartil de orden o , luego
4 4 4
tal que Fi 1  Qk  Fi . Esto indica que la
o
se determina la frecuencia acumulada Fi
mediana será el valor que pertenece al i-ésimo intervalo, para el cual corresponde la
frecuencia acumulada Fi . Es decir :

Qk ( xi1 ; xi )
y por la misma propiedad de triángulos semejantes se deduce que :

Qko  Fi 1
Qk  xi1  .( xi  xi1 )
fi
Relación entre las medidas de posición de tendencia central
Si la distribución es simétrica, entonces la media aritmética coincide con el modo y la
mediana

Como la media aritmética se halla muy afectada por los valores de datos extremos, y
la mediana tan sólo por la cantidad de datos extremos. Por lo tanto , en una distribu-
ción asimétrica , resulta lo siguiente:

Distribucion Asimetrica a la Derecha

Medidas de Posición y de Dispersión 11


Cátedra Estadística
Distribución Asimétrica a la Izquierda

 Variancia :
m m

( x  x ) . f
i
2
i x . f 2
i i
i 1 i 1
V ( x)  m   x2
f i
n
i 1

 Desvío Standart :
m

( x  x ) . f i
2
i
i 1
S ( x) 
n

Para distribuciones simétricas, se verifica que aproximadamente:

el intervalo ( x  S ( x ) , x  S ( x )) contiene al 68% de las observaciones.

el intervalo ( x  2. S ( x ) , x  2. S ( x )) contiene al 95% de las observaciones.

el intervalo ( x  3. S ( x) , x  3. S ( x )) contiene al 99% de las observaciones.

 Dispersión Relativa - Coeficiente de Variación


Se lo define como el cociente entre el desvío standart y la media de la variable. De es-
ta manera se elimina la unidad de medida , resultando un coeficiente adimensional ,
por lo cual suele estar expresado en porcentajes.

Medidas de Posición y de Dispersión 12


Cátedra Estadística

S ( x)
C.V .  .100
X

Cuándo se lo utiliza?
- Cuando es necesario comparar dos poblaciones en las cuales se estudia variables di-
ferentes, y por lo tanto se está utilizando unidades de medida diferentes.
- Cuando es necesario comparar dos poblaciones en las cuales se estudia la misma va-
riable pero con medias diferentes , ya que una misma dispersión no significa tanto
si la media de la variable es mayor.

VARIABLE BIDIMENSIONAL:

En el estudio de una variable bidimensional para la cual se tiene un número grande (


n ) de observaciones, y por lo tanto se la ha organizado en distribuciones de frecuen-
cia bidimensionales, los promedios, las variancias y la covariancia se calculan de la si-
guiente manera :
m

x . f i i.
i 1
M ( x)  x 
n
p

y . f j .j
j 1
M ( y)  y 
n

m m

 ( xi  x ) 2 . f i. x . f 2
i i.
i 1 i 1
V ( x)    x2
n n

p p

( y j  y ) . f. j
2
y . f 2
j .j
j 1 j 1
V ( y)    y2
n n

m p m p

  (x  x ).( y i j  y ). f ij  x . y . fi j ij
i 1 j 1 i 1 j 1
Cov( x , y )    x. y
n n

 Covariancia:
En el estudio de una variable bidimensional adquiere importancia el análisis de
la variación conjunta de ambas variables, además de la media y la variancia de
cada variable. La variación conjunta se mide a través de un coeficiente llamado
covariancia.
Sea la siguiente serie simple de datos bidimensionales :
(x1, y1 ), (x2, y2 ), (x3, y3 ), ......, (xn, yn )

Medidas de Posición y de Dispersión 13


Cátedra Estadística

A este conjunto de datos podemos estudiarle las siguientes características que conden-
san dicha información :
n n n

 xi  ( xi  x ) 2 x 2
i
i 1 i 1
M ( x)  x  i 1
V ( x)    x2
n n n
n n n

y i ( y  y ) i
2
y 2
i
i 1 i 1
M ( y)  y  i 1
V ( y)    y2
n n n
n n

(x i  x ).( yi  y ) x .y i i
Cov( x, y )  i 1
 i 1
 x. y
n n

Signo de la covariancia

Cuadrante Relación respecto al promedio Signo de los desvíos Signo del produc-
to
xi  x yi  y ( xi  x ).( yi  y )
I xi x , yi  y + + +
II xi x , yi  y - + -
III xi x , yi  y - - +
IV xi x , yi  y + - -

Y Y

X X

Medidas de Posición y de Dispersión 14


Cátedra Estadística
Cuando la relación entre las variables es directa la mayoría de los puntos esta-
rán en el 1° y en el 3º cuadrantes, en cuyo caso la suma de los productos de los des-
víos será positiva, luego, la covariancia también es positiva.
Cuando la relación entre las variables es inversa la mayoría de los puntos esta-
rán en el 2° y en el 4º cuadrantes, en cuyo caso la suma de los productos de los des-
víos será negativa, luego, la covariancia también es negativa.
Cuando no existe relación entre las variables, los puntos se distribuirán unifor-
memente en los cuatro cuadrantes, y por lo tanto habrá tantos términos positivos co-
mo negativos; en este caso se compensan los términos positivos con los negativos
anulando la suma de los productos de los desvíos.
Por lo tanto : cov (x, y) > 0  relación directa entre las variables.
cov (x, y) < 0  relación inversa entre las variables.
cov (x, y) = 0  no existe relación lineal entre las varia-
bles.
Sabemos que la covariancia mide la variancia conjunta entre dos variables
cuantitativas X e Y, indica además el tipo de relación que existe entre ellas (directa o
inversa), o bien, la ausencia de una relación lineal.
Si bien el valor absoluto de la covariancia aumenta a medida que aumenta la in-
tensidad de la relación, este valor no nos indica el "grado de la relación" pues (como
regla general) la covariancia puede asumir valores desde -¥ hasta +¥ . Entonces se
torna necesario disponer de un coeficiente adimensional que mida (o cuantifique) la in-
tensidad de la relación que exista entre dos variables .

Medidas de Posición y de Dispersión 15

También podría gustarte