Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MedidasDescriptivas PDF
MedidasDescriptivas PDF
Introduccin
Los fenmenos que se observan sometidos al azar no suelen ser constantes, por lo que
ser necesario que junto a una medida que indique el valor alrededor del cual se agrupan
los datos, se disponga de una medida que haga referencia a la variabilidad que refleje
dicha fluctuacin. En este sentido pueden examinarse varias caractersticas, siendo las
ms comunes: la tendencia central de los datos, la dispersin o variacin con respecto a
este centro, los datos que ocupan ciertas posiciones, la simetra de los datos y la forma en
la que los datos se agrupan.
A lo largo de este tema, y siguiendo este orden, iremos estudiando los estadsticos que
nos van a orientar sobre cada uno de estos niveles de informacin: valores alrededor de los
cuales se agrupa la muestra, la mayor o menor fluctuacin alrededor de esos valores, nos
interesaremos en ciertos valores que marcan posiciones caractersticas de una distribucin
de frecuencias as como su simetra y su forma.
Medidas de centralizacin
Dependiendo del tipo de variable se pueden considerar diferentes medidas.
Media Aritmtica
La media aritmtica de una variable estadstica es la suma de todos sus posibles
valores, ponderada por las frecuencias de los mismos. Es decir, si la tabla de valores de
una variable X es
X
x1
...
xk
ni
n1
...
nk
fi
f1
...
fk
x1 + + xn
n
(xi x) = 0
Demostracin:
Basta desarrollar el sumatorio para obtener
n
X
i=1
Ejemplo
Obtener las desviaciones con respecto a la media en la siguiente distribucin y comprobar que su suma es cero.
li1 li
0 - 10
10 - 20
20 - 30
30 - 40
ni
1
2
4
3
Solucin:
li1 li
0 - 10
10 - 20
20 - 30
30 - 40
ni
xi
xi ni
xi x
(xi x) ni
1
5
5
-19
-19
2
15
30
-9
-18
4
25
100
+1
+4
3
35
105
+11
+33
Pk
Pk
n = 10
i=1 xi ni = 240
i=1 (xi x) ni = 0
1X
240
= 24
x=
xi ni =
n i=1
10
k
Clculo abreviado
Se puede utilizar la propiedad de la linealidad de la media para simplificar las operaciones necesarias para su clculo mediante un cambio de origen y de unidad de medida,
en el caso de tener datos con muchos dgitos.
Otras tipos de medias
En funcin del tipo de problema se pueden considerar varias posibles generalizaciones
de la media aritmtica. He aqu algunas de ellas aplicadas a un conjunto de posibles
observaciones x1 , . . . , xn .
Media geomtrica
xG =
n
x1 x2 . . . xn ,
ln (x1 ) + + ln (xn )
.
n
Media armnica
Se define como la inversa de la media de las inversas de las observaciones:
xA =
=
1
x1
1
x1
+ + x1n
n
n
.
+ + x1n
!1
Observacin
En el caso de las variables continuas agrupadas en intervalos, el clculo de la mediana
es algo ms complicado. Se supone que la mediana se encuentra en un intervalo dado
(li1 , li ] y hay que determinar el punto que deja exactamente la mitad de observaciones
a un lado y al otro. Mediante un argumento geomtrico se deduce que la mediana es el
valor tal que
donde li1
n
2
Ni1
ai ,
ni
es el extremo inferior del intervalo donde se encuentra el valor de la mediana,
Me = li1 +
CC 0
BB 0
=
=
AC
AB
n
Ni1
ni
= 2
=
ai
Me li1
n
Ni1
Me = li1 + 2
ai
ni
6
Ejemplo
Sea X una variable discreta que ha presentado sobre una muestra las siguientes modalidades:
X 2, 5, 7, 9, 12
x=
x1 ++xn
n
2+5+7+9+12
5
=7
Med = 7, ya que es el valor que deja por detrs dos observaciones y por delante otras
dos (est en medio de todas las observaciones).
Si cambiamos la ltima observacin por otra anormalmente grande, esto no afecta a
la mediana, pero s a la media:
X 2, 5, 7, 9, 125
x=
x1 ++xn
n
2+5+7+9+125
5
= 29,6 y Me = 7.
Estadsticos de posicin
Para una variable discreta, se define el percentil de orden k, como la observacin, Pk ,
que deja por debajo de s el k % de la muestra. Esta definicin es semejante a la de la
mediana, pues como consecuencia de la definicin, es evidente que Me = P50 .
Por su propia naturaleza, el percentil puede estar situado en cualquier lugar de la
distribucin, por lo que no se puede considerar como una medida de tendencia central,
sino ms bien de posicin.
Los cuartiles, Ql , son un caso particular de los percentiles. Hay 3, y se definen como:
7
k
n 100
Ni1
ai .
ni
Ejemplo
Dada la siguiente distribucin en el nmero de hijos de cien familias, calcular sus
cuartiles.
xi
0
1
2
3
4
5
ni
Ni
14
14
10
24
15
39
26
65
20
85
15
100
n = 100
Solucin:
1. Primer cuartil:
n
4
2. Segundo cuartil:
3. Tercer cuartil:
3n
4
1X
Dm =
|xi x| .
n i=1
n
Como se observa, la desviacin media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta
simplicidad tiene un inconveniente: desde el punto de vista geomtrico, la distancia que
induce la desviacin media en el espacio de observaciones no es la natural (no permite
definir ngulos entre dos conjuntos de observaciones). Esto hace que no sea muy conveniente trabajar con ella cuando se considera inferencia estadstica.
Nota: Como forma de medir la dispersin de los datos se tiene que descartar
P
n
1
i=1 (xi x), pues esa suma vale 0, ya que las desviaciones con respecto a la men
dia se pueden compensan unas con otras al haber trminos en esa suma que son de signos
distintos.
9
Rango Intercuartlico
Se define como la diferencia entre el tercer y el primer cuartil
IQR = Q3 Q1
Es preferible usarlo cuando aparecen observaciones anmalas (outliers).
Varianza y desviacin estndar
Si las desviaciones con respecto a la media las consideramos al cuadrado, (xi x)2 , de
nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es adems
la forma de medir la dispersin de los datos de forma que sus propiedades matemticas
son ms fciles de utilizar. Se pueden definir, entonces, dos estadsticos fundamentales:
La varianza y la desviacin estndar (o tpica).
La varianza, 2 , se define como la media de las diferencias cuadrticas de n puntuaciones con respecto a su media aritmtica, es decir
1X
(xi x)2 .
n i=1
n
2 =
2 =
1X 2
x x2 .
n i=1 i
n
La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones
se miden en metros, la varianza lo hace en metros2 ) Si queremos que la medida de
dispersin sea de la misma dimensionalidad que las observaciones bastar con tomar su
raz cuadrada. Por ello se define la desviacin estndar, , como
v
v
u n
u n
u1 X
u1 X
2
2
t
=+ =
(xi x) = t
x2 x2 .
n i=1
n i=1 i
Ejemplo
10
3+3+4+4+5
= 3,8 metros.
5
La varianza es:
1X 2
32 + 32 + 42 + 42 + 52
3,82 = 0,56 metros2 ,
xi x2 =
=
n i=1
5
Las siguientes propiedades de la varianza (respectivamente, desviacin tpica) son importantes a la hora de hacer un cambio de origen y escala a una variable. En primer
lugar, la varianza (respectivamente desviacin tpica) no se ve afectada si al conjunto de
valores de la variable se le aade una constante. Si adems cada observacin es multiplicada por otra constante, en este caso la varianza cambia con relacin al cuadrado de la
constante (respectivamente la desviacin tpica cambia con relacin al valor absoluto de
la constante). Esto queda precisado en la siguiente proposicin:
Proposicin
Si Y = aX + b entonces 2y = a2 2x .
Demostracin: Para cada observacin xi de X, i = 1, . . . , n, tenemos una observacin
de Y que es por definicin .yi = axi + b. Como y = ax + b, .la varianza de Y es
1X
1X
(yi y)2 =
[(axi + b) (ax + b)]2 =
n i=1
n i=1
n
2y =
1X 2
=
a (xi x)2 = a2 2x .
n i=1
n
Las consecuencias del anterior resultado eran de esperar: Si los resultados de una
medida son trasladados una cantidad b, la dispersin de los mismos no aumenta. Si estos
mismos datos se multiplican por una cantidad a < 1, el resultado tender a concentrarse
alrededor de su media (menor varianza). Si por el contrario a > 1 habr mayor dispersin.
Observaciones.
La varianza y la desviacin estndar tienen las siguientes propiedades:
11
Ambas son sensibles a la variacin de cada una de las puntuaciones, es decir, si una
puntuacin cambia, cambia con ella la varianza ya que es funcin de cada una de
las puntuaciones.
La desviacin tpica tiene la propiedad de que en el intervalo (x 2; x + 2) se
Tipificacin
La tipificacin al proceso de restar la media y dividir entre su desviacin tpica a una
variable X. De este modo se obtiene una nueva variable
z=
X x
,
media ms elevada, ya que la dificultad para conseguir una buena calificacin puede ser
mucho mayor en un centro que en el otro, lo que limita las posibilidades de uno de los
estudiante y favorece al otro. En este caso, lo ms correcto es comparar las calificaciones
de ambos estudiantes, pero tipificadas cada una de ellas por las medias y desviaciones
tpicas respectivas de las notas de los alumnos de cada Universidad.
Coeficiente de Variacin
En el caso de que el problema sea comparar la variabilidad de dos poblaciones con
medidas diferentes (variables diferentes) se puede considerar un coeficiente adimensional
que es el coeficiente de variacin. Se define del siguiente modo (como un porcentaje):
CV =
100.
x
Observaciones:
Slo se debe calcular para variables con todos los valores positivos. Todo ndice de
variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas
o nulas, pero su variabilidad debe ser siempre positiva. De ah que slo se deba
trabajar con variables positivas, de modo que x > 0.
No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le
sumamos una cantidad positiva, b > 0, para tener Y = X +b, entonces CVY > CVX ,
ya que la desviacin estndar no es sensible ante cambios de origen, pero s la media.
Lo contrario ocurre si restamos (b < 0)
CVY =
x
x
y
=
<
= CVX
y
x+b
x
ax
a x
Y
=
=
= CVX
y
ax
ax
Ejemplo
Dada la distribucin de edades (medidas en aos) en un colectivo de 100 personas,
obtener: La variable tipificada Z, los valores de la media y varianza de Z, el coeficiente de
variacin de Z.
xi
2
7
15
30
ni
47
32
17
4
n = 100
Solucin:
Se construye la siguiente tabla auxiliar para realizar los clculos
xi
2
7
15
30
ni
xi ni
47
94
32
224
17
255
4
120
n = 100 693
x2i ni
188
1568
3825
3600
9181
X x
,
x
partimos de los datos del enunciado. Ser necesario calcular en primer lugar la media y
desviacin tpica de la variable original (X = aos).
693
= 6,93 aos
100
9181
6,932 = 43,78 aos2
=
100
p
=
43,78 = 6,6 aos
x =
2x
x
2 6,93
= 0,745
6,6
7 6,93
=
= 0,011
6,6
15 6,93
=
= 1,22
6,6
30 6,93
= 3,486
=
6,6
z1 =
z2
z3
z4
14
ni
zi ni
zi2 ni
47
-35.015 26.086
32
0.352
0.004
17
20.720 25.303
4
13.944 48.609
n = 100 0.021 100.002
zi
-0.745
0.011
1.220
3.486
0,021
0
100
100,002
01
=
100
=
1=1
z =
2z
z
Nota: El coeficiente de variacin no se puede usar con variables tipificadas, aqu, por
ejemplo, se tendra que
CV =
1
z
= .
z
0
Asimetra y apuntamiento
Nos vamos a plantear averiguar si los datos se distribuyen de forma simtrica con
respecto a un valor central, o si bien la grfica que representa la distribucin de frecuencias
es de una forma diferente del lado derecho que del lado izquierdo.
Si la simetra ha sido determinada, podemos preguntarnos si la curva es ms o menos
apuntada (larga y estrecha). Este apuntamiento habr que medirlo comparndolo con
cierta distribucin de frecuencias que consideramos normal (no por casualidad es ste el
nombre que recibe la distribucin de referencia).
Coeficiente de asimetra
Para saber si una distribucin de frecuencias es simtrica, hay que precisar con respecto a qu. Un buen candidato es la mediana, ya que para variables continuas, divide
al histograma de frecuencias en dos partes de igual rea. Podemos basarnos en ella para,
de forma natural, decir que una distribucin de frecuencias es simtrica si el lado derecho
de la grfica (a partir de la mediana) es la imagen por un espejo del lado izquierdo (figura
2).
15
16
1X p
p =
x,
n i=1 i
n
1X
mp =
(xi x)p ,
n i=1
n
m2 m2
3
Apoyndonos en este ndice, se dice que hay asimetra positiva si 1 > 0, y que la
asimetra es negativa si 1 < 0.
Se puede observar que es un ndice adimensional, sin unidades de medida. Por otro
lado, sucede que diferencias importantes entre la media y la moda o la media y la mediana
indican asimetra.
Coeficiente de curtosis o apuntamiento
Se define el coeficiente de curtosis de Fisher como:
2 =
m4
3,
4
Grafico de Cajas
10
20
30
40
X
En los extremos de la caja se ponen los cuartiles (1o y 3o ) y dentro de la caja se pone
la mediana. En las patas se ponen los siguientes valores: Q1 1,5 (Q3 Q1 ) y Q3 +
18
rango intercuartlico.
114, 125, 114, 124, 142, 152, 133, 113, 172, 127, 135,
11|344
12|24577
19
13|345
14|27
15|2
16|1
17|2
20
The StatAdvisor
--------------This display shows a frequency tabulation for x1.
one or more leading digits for the data values falling within that
interval. On each row, the individual data values are represented
by a digit (called a leaf) to the right of the vertical line.
This results in a histogram of the data from which you can recover
at least two significant digits for each data value.
If there are
any points lying far away from most of the others (called outside
points), they are placed on separate high and low stems.
case, there are no outside points.
In this
depths, which give cumulative counts from the top and bottom of
the table, stopping at the row which contains the median.
Diagramas de dispersin
En ocasiones se trata con dos variables al mismo tiempo (X, Y ). En un primer anlisis
exploratorio se tratara de reflejar posibles relaciones entre las dos variables, por ejemplo
lineales. Es decir cuando aumentan los valores de una tambin lo hacen los de la otra de
manera lineal. Se pueden considerar los grficos de dispersin, donde en abscisas se ponen
los valores de una variable (X2 ) y en ordenadas los de la otra (X1 ). Considero el programa
en Statgraphics donde se muestra un ejemplo donde aparece una relacin lineal entre dos
variables.
21
Grafico de Dispersion
40
x1
30
20
10
0
5,7
7,7
9,7
11,7
13,7
15,7
x2
190
170
150
130
110
0
22
12
16