Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Nmero clientes
[0 , 600[
10
[600 , 1.200[
15
[1.200 , 1.800[
35
[1.800 , 3.000[
10
[3.000 , 6.000]
7 ITES-Paraninfo
Tema
Anlisis de datos
unidimensionales
2.1.
2.2.
2.3.
2.4.
2.5.
2.6.
Medidas de posicin.
Medidas de dispersin.
Momentos.
Medidas de forma.
Transformaciones lineales y tipificacin de variables.
Medidas de concentracin. Curva de Lorenz e ndice de Gini.
Cuestiones de autoevaluacin.
Ejercicios propuestos.
Problemas resueltos.
Problemas propuestos.
OBJETIVOS
Definir una serie de medidas (estadsticos descriptivos bsicos) que sinteticen la informacin contenida en una distribucin de frecuencias
unidimensional, tanto de valores agrupados como sin agrupar, y aprender a calcularlos e interpretarlos. Comparar la dispersin entre dos o
ms variables o distribuciones de frecuencias. Estudiar cmo se ven
afectados los estadsticos al transformar los datos de una variable.
Cuantificar e interpretar la concentracin de una distribucin.
26
; xi
i%1
x6 %
N
; xi ni
x6 %
% ; x i fi
i%1
Evidentemente, esta medida slo se puede calcular si la variable estadstica objeto de estudio es de naturaleza cuantitativa.
El valor que toma la media debe estar siempre incluido entre el valor mnimo y
mximo del dominio de la variable analizada.
Ejemplo 2.1 La plantilla de una empresa durante los ltimos 4 meses ha estado formada por 16, 14, 15 y 15 empleados. Determinar la plantilla media de la empresa.
Solucin
A partir de la informacin proporcionada, construimos la distribucin de frecuencias. La variable toma I % 3 valores distintos (xi para i % 1, 2, 3), con frecuencias 1, 2 y 1, respetivamente.
(1)
xi
ni
14
15
16
1
2
1
Este es, con diferencia, el estadstico (cualquier funcin de los valores de la variable) ms importante. En adelante, cuando se haga referencia al trmino media, sin especificar, deber entenderse media
aritmtica.
7 ITES-Paraninfo
27
Si se aade una tercera columna que recoja, para cada elemento, el producto
xi ni, su suma se corresponder con el numerador de la expresin de la media, de
manera que se obtendr al dividir por el nmero total de observaciones (N), en este
caso N % 4.
xi
ni
xi ni
14
14
15
30
16
16
3
60
p ; xi ni
i%1
60
% 15, es decir, la plantilla media de la empresa en los
4
ltimos 4 meses ha sido de 15 empleados.
Obsrvese que la media de empleados (x6 % 15) se encuentra comprendida entre
el mnimo valor de la variable (x1 % 14) y el mximo (x3 % 16).
La media ser: x6 %
Nmero optativas
ni
[10 , 20[
[20 , 40]
28
Alumnos
matriculados
Li.1 , Li
Nmero
optativas
ni
Marca
de clase
xi
xi ni
[10 , 20[
15
60
[20 , 40]
30
180
2
240
p ; xi ni
i%1
Al dividir este resultado entre el nmero total de observaciones (N % 10) se obtiene la media,
240
x6 %
% 24 alumnos matriculados
10
La media aritmtica puede utilizarse si los datos con los que se trabaja son de
naturaleza aditiva, es decir, que al sumar todos los valores, estos representen el total de la poblacin. Variables aditivas son, por ejemplo, el nmero de empleados,
la renta, el salario, etc. Por el contrario, variables no aditivas son: tipos de inters,
velocidad, rentabilidad, etc.
Entre las principales ventajas que presenta la media se pueden destacar las siguientes:
Se puede calcular siempre que las variables sean de tipo cuantitativo.
Su clculo resulta fcil y en l intervienen todos los valores de la distribucin.
La media aritmtica es el centro de gravedad de la distribucin, es decir, es
el punto que por trmino medio dista menos de todas las observaciones de la
distribucin.
Es una medida nica y definida de forma objetiva en cada distribucin de
frecuencias.
En cuanto a los inconvenientes, tal vez el ms importante sea que la media aritmtica de la distribucin puede llegar a ser muy poco representativa del conjunto
de los valores observados si existe mucha dispersin en los datos. Se trata de una
medida muy sensible a los valores extremos(2).
Ejemplo 2.3 Para un total de 4 empresas se dispone de informacin relativa al tamao,
medido a travs del activo (millones de e):
500, 25, 30, 545
Cul es el tamao medio del conjunto de las empresas?
(2)
7 ITES-Paraninfo
29
Solucin
El tamao medio (x6 ) se obtiene al sumar todos los valores de la variable y dividir por el nmero de observaciones (empresas), as:
x6 %
Como se pone de manifiesto en el ejemplo anterior, los valores del activo son
muy diferentes entre s, con lo que la media (275 millones de e) ser poco representativa. Cuando ocurre esto, es preferible utilizar otras medidas de posicin central, por ejemplo la mediana (vase Epgrafe 2.1.2.).
Con todo, la media aritmtica es la medida de posicin central ms utilizada,
de la que cabe destacar las siguientes propiedades:
1.
; (xi . x6 )ni % 0
i%1
2.
Si x6 i (i % 1, 2, ..., k) corresponden a las medias de k grupos distintos de tamao Ni (i % 1, 2, ..., k), respectivamente, se cumple que la media aritmtica del conjunto es:
x6 %
x6 1N1 ! x6 2N2 ! ! x6 k Nk
N1 ! N2 ! Nk
30
1
1
1
n1 ! n2 ! ! nI
x1
x2
xI
N
1
; ni
i%1 xi
I
siendo:
I
N % ; ni
i%1
J
N
< x ni i
i%1
En el caso particular de que las frecuencias fuesen unitarias (ni % 1 O i), entonces se tienen:
I
I
Mg % x
< xi
1 x2 ... xI %
i%1
Adems, a la hora de calcular la media geomtrica suele utilizarse que el logaritmo de la media geomtrica que es igual a la media aritmtica de los logaritmos
de los valores de la variable, esto es:
I
7 ITES-Paraninfo
ni
N
31
De la misma forma que se indic para la media aritmtica, el valor que tome la
media armnica y la media geomtrica(3) debe estar siempre incluido entre el valor
mnimo y mximo del dominio de la variable analizada.
2.1.3. Mediana
Ordenada la distribucin de frecuencias de menor a mayor, la mediana, que se
denota por Me, es un valor del recorrido de la variable que deja el mismo nmero
de observaciones a su izquierda y a su derecha.
Para el clculo de la mediana es necesario distinguir entre distribuciones de
frecuencias de valores sin agrupar y agrupados, pero la idea que siempre hay que
tener presente es que la mediana es aquel valor de la variable al que corresponde
una frecuencia acumulada igual a N/2.
2.1.3.1. Distribuciones de frecuencias de valores sin agrupar
Al trabajar con valores sin agrupar hay que considerar varias posibles situaciones (Figura 2.1). Cada una de stas ser tratada a continuacin.
Nmero impar de
observaciones
Frecuencias unitarias
Nmero par de
observaciones
Distribucin de frecuencias
de valores sin agrupar
Frecuencias no unitarias
Figura 2.1.
Situacin 1.
7 ITES-Paraninfo
32
Ejemplo 2.5 Una variable estadstica X toma los siguientes 7 valores distintos:
1, 3, 5, 6, 7, 8, 12
Determinar la mediana.
Solucin
Puede verse fcilmente que el valor de la variable xi % 6 deja el mismo nmero
de observaciones, un total de 3, a cada lado.
1, 3, 5 6 7, 8, 12
VWX
VWX
Por tanto, el valor de la mediana es:
Me % xi % 6
Ejemplo 2.6 Obtener la mediana de una variable estadstica que toma los siguientes 6
valores distintos:
9, 2, 5, 3, 6, 8,
Solucin
En este caso, lo primero que debe hacerse es ordenar la distribucin de frecuencias de menor a mayor.
2, 3, 5 8 6, 8, 9
El valor de la variable que deja el mismo nmero de observaciones a ambos lados, la mediana, se sita entre 5 y 6. As:
Me %
Situacin 2.
5!6
% 5,5
2
Cuando la distribucin de frecuencias es no unitaria, se suele utilizar el siguiente criterio para determinar el valor de la mediana: sea Ni la primera frecuencia absoluta acumulada igual o superior a N/2, entonces:
D N aNaN
i
A i.1 2
si E
N
A
Ni %
F
2
7 ITES-Paraninfo
Me % xi
Me %
xi ! xi!1
2
33
ni
3
2
3
Ni
3
5
8
Solucin
N
% 4. El valor de la variable que
2
contiene una frecuencia acumulada de 4 es x2 % 3, con N2 % 5.
La mitad de las observaciones corresponde a
xi % x2 r
xi
2
3
5
ni
3
2
3
Ni
3
5
8
p Ni.1 % N1
p Ni % N2
N
Por tanto, como N1 a a N2 r 3 a 4 a 5 entonces Me % x2 r Me % 3.
2
Ejemplo 2.8 Obtener la mediana de la siguiente distribucin de frecuencias.
xi
3
4
6
ni
3
2
5
Ni
3
5
10
Solucin
N
El valor de la variable que acumula un nmero de observaciones igual % 5
2
es x2 % 4.
xi % x2 r
xi!1 % x3 r
xi
3
4
6
ni
3
2
5
Ni
3
5
10
p Ni % N2
N
xi ! xi!1
4!6
se tendr que Me %
r Me %
% 5.
2
2
2
La mediana de la distribucin es 5.
Por tanto, como N2 % 5 %
7 ITES-Paraninfo
34
Crculos de calidad
ni
[8 , 12[
[12 , 16[
[16 , 20[
2
6
8
[20 , 24]
Crculos de calidad
ni
Ni
[8 , 12[
[12 , 16[
[16 , 20[
[20 , 24]
2
6
8
4
2
8
16
20
p Ni.1%N2
p Ni%N3
N/2 . Ni
Identificado el intervalo mediano, Me % Li.1 ! ci
, donde ci es la amplitud del interN
i . Ni.1
valo mediano y Li.1 su extremo inferior.
(5)
7 ITES-Paraninfo
35
N
observaciones, sta
2
estar contenida en el intervalo [16 , 20[, que es el intervalo mediano, puesto que
N
N
N2 a m N3 , es decir, 8 a % 10 m 16.
2
2
Como la mediana es el valor de la variable que acumula
2.1.4. Moda
La moda de una distribucin, a la que se denotar por Mo, representa el valor
de la variable con mayor frecuencia. No tiene por qu ser nica. Es decir, si hay
dos o ms valores de la variable que tienen la misma frecuencia, siendo esta la
mayor, se estar ante una distribucin multimodal (bimodal, dos modas; trimodal,
tres modas; etc.).
Del mismo modo que se procedi con la mediana, para determinar la moda
debe distinguirse entre distribuciones de valores sin agrupar y agrupados.
2.1.4.1. Distribuciones de frecuencias de valores sin agrupar
En este caso, y segn la definicin de la moda, hay que fijarse en cul es el valor de la variable que ms se repite, el de mayor frecuencia.
Ejemplo 2.10 Se ha preguntado a 15 estudiantes por el nmero de horas semanales
dedicadas al estudio, recogindose sus respuestas en la siguiente distribucin de
frecuencias.
Horas semanales
de estudio, xi
2
3
Nmero
de estudiantes, ni
1
4
5
7
8
2
7 ITES-Paraninfo
36
Ejemplo 2.11 Se ha preguntado a 5 estudiantes por el nmero de horas semanales dedicadas al estudio, siendo sus respuestas:
0, 2, 4, 5, 8
Obtener la moda del nmero de horas de estudio.
Solucin
En esta distribucin todos los valores de la variable se consideraran modas
pues ni % 1 O i.
intervalo modalr
Proyectos de
mejora, Li.1 , Li
Crculo
de calidad, ni
[8 , 12[
[12 , 16[
2
6
1/2
3/2
[16 , 20[
[20 , 24]
8
4
2
1
hi %
ni
ci
pmayor altura
37
Figura 2.2.
Grfica (b), la moda se desplaza hacia la derecha de la marca de clase, coincidiendo su valor con el lmite superior del intervalo modal cuando la altura del anterior
al mismo sea cero, como puede verse en la Grfica (c). De forma anloga, la moda
coincidir con el extremo inferior del intervalo modal cuando la altura del intervalo posterior a ste sea cero, Grfica (d).
Siguiendo con el criterio anterior de aproximar el valor de la moda en proporcin inversa a las alturas de los rectngulos del histograma anterior y posterior al
modal, se recurre a la siguiente expresin:
Mo % Li.1 ! ci
hi!1
hi.1 ! hi!1
(2.1)
donde ci es la amplitud del intervalo modal, Li.1 su extremo inferior; hi.1 es la altura asociada al intervalo anterior al modal y hi!1 a la del posterior.
Ejemplo 2.13 En la siguiente distribucin de frecuencias se refleja la retribucin mensual de los 260 empleados del rea de fabricacin de una gran empresa industrial.
Retribucin (e)
Li.1 , Li
Nmero de empleados
ni
[800 , 1.000[
[1.000 , 1.400[
[1.400 , 1.800[
[1.800 , 2.100]
50
100
80
30
38
Solucin
Como fcilmente puede observarse en la distribucin de frecuencias del enunciado, los intervalos son de distinta amplitud. En consecuencia, y a diferencia del
Ejemplo 2.12, el intervalo al que corresponde mayor frecuencia no necesariamente
tiene que ser el que tenga mayor altura asociada.
Aadiendo a la tabla dos nuevas columnas que recojan la amplitud (ci) y altura
(hi) de cada intervalo:
intervalo modal r
intervalo modal r
Retribucin (e)
Li.1 , Li
Nmero
empleados
ni
ci
[800 , 1.000[
[1.000 , 1.400[
[1.400 , 1.800[
[1.800 , 2.100]
50
100
80
30
200
400
400
300
hi %
ni
ci
0,25
0,25
0,2
0,1
p mayor altura
p mayor altura
Como puede verse en la tabla anterior, en este caso existen dos modas (la distribucin es bimodal), la primera estar incluida en el intervalo [800 , 1.000[ y la
segunda en [1.000 , 1.400[.
Sin necesidad de realizar ningn clculo, podra decirse que la primera moda
ser 1.000, puesto que la altura del intervalo anterior al modal es cero. En cambio,
respecto a la segunda, como el intervalo anterior a [1.000 , 1.400[ es de mayor altura que el posterior, slo puede decirse que su valor se encontrar ligeramente por
debajo de la marca de clase (x2 % 1.200). Una mejor aproximacin al valor de la
moda puede obtenerse con la expresin dada en (2.1).
Moda 1: Mo % 800 ! 200
0,25
% 1.000
0 ! 0,25
0,2
% 1.177,78
0,25 ! 0,2
Por tanto, las retribuciones ms frecuentes en el rea de fabricacin de esta empresa son 1.000 e y 1.177,78 e.
2.1.5. Cuantiles
Ordenados de menor a mayor los valores de la variable y dado un entero positivo k, las familias de cuantiles sern valores del recorrido de la variable que dividirn la distribucin en k partes, conteniendo cada una de ellas la misma proporcin
1
de observaciones
.
k
AB
7 ITES-Paraninfo
39
Las familias de cuantiles ms utilizadas son aquellas que dividen la distribucin de frecuencias en cuatro, diez y cien partes y se conocen con el nombre de
cuartiles, deciles y percentiles, respectivamente:
a) Cuartiles (k % 4): son tres valores (Cs, s % 1, 2, 3) del recorrido que divi1
den la distribucin en 4 partes, conteniendo cada una de ellas el 25%
4
de las observaciones.
b) Deciles (k % 10): son nueve valores del recorrido (Ds, s % 1, 2, ..., 9) que
dividen la distribucin en 10 partes, de tal forma que cada una de ellas
1
contendr el 10%
de las observaciones.
10
c) Percentiles (k % 100): son noventa y nueve valores del recorrido (Ps,
s % 1, 2, ..., 99) que dividen la distribucin en 100 partes, conteniendo cada una de ellas el 1% de las observaciones.
AB
AB
AB
s
k
s % 1, 2, ..., (k.1), se identificar como los (k.1) valores del recorrido de la variable Qs s % 1, 2, ..., (k.1), que dividirn en k partes la distribucin de la variak
1
ble conteniendo, cada una de ellas, una proporcin de valores de
.
k
s
s
De esta forma, si Qs es el cuantil de orden
, un porcentaje de
100 de
k
k
k
los valores de la variable (como mnimo) sern menores o iguales que Qs y un pork
s
centaje de 1 . 100 de los valores (como mnimo) sern mayores o iguales
k
que Qs .
En general (para cualquier valor de k): una familia de cuantiles de orden
AB
AB
A B
A B
As, por ejemplo, el primer cuartil C1 ser el cuantil Q1 , de tal forma que, al
4
menos, el 25% de los valores sern menores o iguales que C1 y, al menos, el 75%
restante sern mayores o iguales que C1.
Anlogamente, podemos identificar los deciles y percentiles como cuantiles en
general: P35 % Q 35 , D8 % Q 8 , ..., etc.
100
10
F
k
Q s % xi
k
Qs %
k
xi ! xi!1
2
7 ITES-Paraninfo
40
donde Qs es el cuantil (cuartil, decil o percentil) que se quiere calcular y que acuk
s
observaciones.
mular una proporcin de
k
Si la distribucin de frecuencias es de valores agrupados se determinar el
intervalo cuantlico, es decir, aquel que contiene el cuantil que se quiere obtener.
AB
Crculos de calidad
ni
10
14
2
6
18
22
8
4
Ni
10
Crculos de calidad
ni
2
14
18
22
6
8
4
8
16
20
s N 2 20
%
% 10 observaciones
4
k
sN
a N3 (8 a 10 a 16) entonces C2 % Q2 % x3 % 18.
4
k
El cuarto decil (D4) es el valor que acumula como mnimo un 40% de las observaciones:
s % 4, k % 10
7 ITES-Paraninfo
s N 4 20
%
% 8 observaciones
10
k
en consecuencia, como N2 % 8 %
sN
, el cuarto decil ser:
k
Qs % D4 %
k
41
x2 ! x3 14 ! 18
%
% 16
2
2
Por ltimo, el nonagsimo percentil, P90, es el valor que acumula como mnimo un 90% de las observaciones:
s % 90, k % 100 r
s N 90 20
%
% 18 observaciones
100
k
sN
%
con lo que el percentil noventa ser: Q 90 % P % x4 % 22, dado que N3 a
90
100
k
% 18 a N4 .
2.2.1. Rango
El rango o recorrido de una distribucin es la diferencia entre el valor mximo
y mnimo, es decir, Re % xmax . xmin . La principal desventaja de este tipo de medida de dispersin es que nicamente tiene en cuenta dos valores de la variable.
; (xi . x6 )2 ni
S2X %
i%1
(2.2)
7 ITES-Paraninfo
42
; x2i ni
S2X %
i%1
. x6 2
(2.3)(6)
; (xi . x6 )2 ni
S*X2 %
i%1
N.1
N
2
SX
N.1
Re % 20 . 10 % 10
(6)
En el Apartado 2.3 se ver cmo esta expresin se corresponde con la obtenida al expresar el
momento central de orden 2, que es la varianza, en funcin de los momentos ordinarios.
7 ITES-Paraninfo
43
Para calcular la varianza, se puede recurrir a la Expresin (2.2) o (2.3). Evidentemente el resultado es el mismo, simplemente una forma resulta ms cmoda que
la otra, como se ver.
Los clculos necesarios para obtener la varianza pueden obtenerse aadiendo
una serie de columnas a la tabla de frecuencias de las ofertas de empleo publicadas, tal y como se muestra a continuacin:
xi
ni
(xi .x6 )
xini
x2i ni
10
.4
.4
16
10
100
12
.2
.4
24
288
16
16
256
20
36
20
400
;% 64
;% 70
;% 1.044
;% 0
(7)
Una vez elaborada la tabla anterior resulta casi inmediato el clculo de la media y de la varianza.
I%4
; xini
x6 %
i%1
70
% 14 anuncios
5
I%4
; (xi . x6 )2 ni
S2X %
i%1
64
% 12,8 (anuncios)2
5
o bien,
I%4
; x2i ni
S2X %
i%1
. x6 2 %
1.044
. 142 % 12,8 (anuncios)2
5
N
5
S2X %
12,8 % 16 (anuncios)2
N.1
5.1
Obsrvese cmo la suma de las desviaciones de cada valor de la variable respecto a su media es
I%4
cero
7 ITES-Paraninfo
44
SX
x6
SA
2
% % 0,2
x6 A 10
g0(B) %
SB
3
% % 0,1875
x6 B 16
es decir, como g0(B) a g0(A) puede concluirse que la dispersin relativa de la revista B es menor que la de la revista A.
2.3. Momentos
A partir de la distribucin de frecuencias es posible calcular una serie de valores especficos que la caracterizan. Estos valores son los denominados momentos.
Los estadsticos obtenidos hasta ahora como media y varianza pueden considerarse casos particulares de los momentos. A continuacin se estudian los principales detalles de los distintos tipos de momentos que pueden obtenerse, momentos
ordinarios y centrales, as como la relacin que puede establecerse entre ellos.
7 ITES-Paraninfo
45
; x pini
ap(X) %
i%1
Los distintos momentos ordinarios son obtenidos al asignar valores a p. Seguidamente se presentan algunos casos particulares:
I
; x 0i ni
Momento ordinario de orden 0: Si p % 0 r a0(X) %
i%1
%1
; x 1i ni
Momento ordinario de orden 1: Si p % 1 r a1(X) %
i%1
% x6
; x 2i ni
Momento ordinario de orden 2: Si p % 2 r a2(X) %
i%1
; (xi . x6 )pni
mp(X) %
i%1
; (xi . x6 )0ni
Momento central de orden 0: Si p % 0 r m0(X) %
i%1
; ni
%
i%1
%1
; (xi . x6 )1ni
Momento central de orden 1: Si p % 1 r m1(X) %
i%1
%0
7 ITES-Paraninfo
46
; (xi . x6 )2ni
i%1
% S2x . Es
N
decir, el momento central de orden 2 coincide con la varianza [vase Expresin (2.2)].
Momento central de orden 2: Si p % 2 r m2(X) %
mp % ; (.1)k
k%0
AB
p
ak1 ap.k
k
(2.4)
AB
A B
p%2
ak1 ap.k %
k
AB
AB
2
2
2
a01 a2.0 ! (.1)1
a11 a2.1! (.1)2
a21 a2.2
0
1
2
V\\W\\\X
V\\W\\\X V\\W\\\X
% (.1)0
k%0
k%1
k%2
Operando:
S2X % m2(X) % a01 a2 . 2 a11 a1 ! a21 a0 r S2X % m2(X) % a2 . a21
Sustituyendo el momento ordinario de orden 2 por la expresin que lo hace
operativo, y recordando que el momento ordinario de orden 1 coincide con la
media:
I
; x2i ni
S2X % m2(X) %
i%1
. x6 2
(8)
7 ITES-Paraninfo
AB
p
k
AB
p!
p
k
k!(p . k)!
47
m3(X) % ; (.1)k
k%0
A B
AB
p%3
3
ak1 ap.k % (.1)0
a01 a3.0 !
k
0
V\\W\\\X
k%0
AB
AB
AB
3
3
3
a11 a3.1! (.1)2
a21 a3.2 ! (.1)3
a31 a3.3
1
2
3
V\\W\\\X
V\\W\\\X V\\W\\\X
! (.1)1
k%1
k%2
k%3
Operando:
m3(X) % a01 a3.0 . 3 a11 a3.1 ! 3 a21 a3.2 . a31 a3.3
m3(X) % a3 . 3 a2 a1 ! 2 a31
Es decir:
I
; x31 ni
m3(X) %
i%1
; x21 ni
.3
i%1
x6 ! 2 x6 3
48
Eje simetra
x = Me = Mo
Grfica (a)
Grfica (b)
Figura 2.3.
Para medir la asimetra de una distribucin pueden utilizarse diferentes coeficientes, aunque es frecuente obtener el denominado coeficiente de asimetra (de
Fisher), que se denota por g1, y se define como el cociente entre el momento central de orden 3 y la desviacin tpica elevada al cubo. Por tanto, el coeficiente de
asimetra de la variable X vendr dado por:
I
; (xi . x6 )3 ni
i%1
m3(X)
g1(X) % 3 %
SX
N
S3X
49
Mo
Distribucin simtrica
g1 (X) = 0
x = Me = Mo
Figura 2.4.
Ejemplo 2.18 A partir de las calificaciones en estadstica de 50 estudiantes universitarios de primer curso se han obtenidos los siguientes estadsticos:
I
; x2i ni % 2.553
; xi ni % 345
i%1
i%1
; x 31ni % 19.821
i%1
; xi ni
i%1
x6 %
N
SX % ! S2X %
345
% 6,9
50
; x 2i ni
i%1
. x6 2 %
2.553
. 6,92 r SX % 1,85741756 ] 1,857
50
; x 3i ni
m3(X) %
i%1
; x 2i ni
.3
i%1
x6 ! 2 x6 3 %
19.821
2.553
.3
6,9 ! 2 6,93
50
50
50
m3(X) .3,504
%
].0,547.
S3X
1,8573
Es decir, la distribucin de las calificaciones obtenidas en la asignatura de estadstica es asimtrica negativa, como puede verse en la Figura 2.6, en el Ejemplo 2.19, donde se representa grficamente.
Resolviendo, m3(X) %.3,504. Por tanto, g1(X)%
m4(X)
.3
S4X
Leptocrtica
Mesocrtica
Platicrtica
Figura 2.5.
Ejemplo 2.19 En la Figura 2.6 se representa la distribucin de frecuencias correspondiente al Ejemplo 2.18.
7 ITES-Paraninfo
51
N. alumnos
Distribucin
Normal
5 6 7 8
Calificaciones
10
Figura 2.6.
52
Estadstico (medida)
Transformacin
Cambio unidad
Y%bX
Cambio origen
Y%X!a
Media
y6 % b x6
(depende)
y6 % x6 ! a
(depende)
y6 % b x6 ! a
Varianza
S2Y % b2 S2X
(depende)
S2Y % S2X
(no depende)
S2Y % b2 S2X
Coeficiente
Variacin
g0(Y) % g0(X)
(no depende)
SX
x6 ! a
(depende)
Coeficiente
Asimetra
g1(Y) % g1(X)
(no depende)
g1(Y) % g1(X)
(no depende)
g1(Y) % g1(X)
Coeficiente
Curtosis
g2(Y) % g2(X)
(no depende)
g2(Y) % g2(X)
(no depende)
g2(Y) % g2(X)
mp(Y)%mp(X)
(no depende)
mp(Y)%bp mp(X)
Momento
mp(Y)%bp mp(X)
central orden p
(depende)
g0(Y) %
g0(Y) %
b SX
b x6 ! a
53
Solucin
La variable Y es obtenida al aplicar, sobre la variable X, un cambio de escala
(b % 1/4) y un cambio de origen (a % 2).
La media depende tanto de los cambios de origen como de unidad, ambos deben ser tenidos en cuenta a la hora de calcular la media de la variable Y, as:
1
y6 % b x6 ! a % 17 ! 2 r y6 % 6,25
4
La varianza (en general todos los momentos centrales) nicamente depende de
los cambios de unidad, siendo invariante ante cambios de origen, por tanto:
S2Y % b2 S2X %
AB
1
4
4 r S2Y % 0,25
A B
X . x6
!m
SX
54
En este sentido, los valores tipificados que son obtenidos indican la distancia a la
que se encuentran cada uno de ellos respecto a la media, distancia que es medida
en trminos de desviaciones tpicas. Por tanto, fcilmente puede compararse la posicin relativa de cada valor.
Ejemplo 2.21 En la seccin de pintura de un taller de reparaciones trabajan tres personas. Sus salarios son de 900, 950 y 1.000 e. Obtener los salarios tipificados a media cero y desviacin tpica 1.
Solucin
La media y desviacin tpica de los salarios ser:
3
; xi
i%1
%
x6 %
N
SX % !
; x 2i
i%1
. x6 2 %
x1 . x6 900 . 950
%
r z1 ] .1,225
40,825
SX
z2 %
x2 . x6 950 . 950
%
r z2 ] 0
40,825
SX
z3 %
x3 . x6 1.000 . 950
%
r z3 ] 1,225
40,825
SX
x1
x2
Sz
1,225 = z1 1
x3
Sz
z = z2 = 0
1 z3 = 1,225
Figura 2.7.
Puede comprobarse que z6 %0 y SZ %1. Los valores z1 y z3 , que se corresponden con los salarios de 900 y 1.000 e, respectivamente, se encuentran a 1,225 desviaciones tpicas de la media, es decir, se encuentran a la misma distancia de sta.
7 ITES-Paraninfo
55
Q
qi
Bisectriz
Curva Lorenz
pi P
O
(% acumulado de frecuencias)
Figura 2.8.
7 ITES-Paraninfo
56
; (pi . qi)
IG %
i%1
I.1
; pi
i%1
IG = 0
0 < IG < 1
IG = 1
Figura 2.9.
57
variable. Para ello, lo ms prctico consiste en aadir columnas a la tabla de frecuencias original, tal y como se muestra en la Tabla 2.2.
Tabla 2.2.
(a)
(b)
(c)
Volumen
Volumen
acumulado
Porcentaje
acumulado
individuos
Porcentaje
acumulado
de volumen
Diferencia
xi
ni
Ni
mi (a)
Mi
pi %
Ni
100
N
qi %
Mi
100
M
pi . qi
x1
n1
N1
m1
M1
p1 %
N1
100
N
q1 %
M1
100
M
p1 . q1
x2
n2
N2
m2
M2
p2 %
N2
100
N
q2 %
M2
100
M
p2 . q2
xI
nI
NI (b)
mI
MI (c)
pI % 100
qI % 100
pI .qI %0
Si no es facilitada informacin sobre el volumen (mi), por ejemplo masa salarial, sta puede ser estimada de la
siguiente forma: mi % xi ni .
Total de individuos NI % N.
Volumen total de la variable MI % M.
Ejemplo 2.22 Las horas de formacin recibidas a lo largo del ltimo ao por los 40
directivos de distinto nivel, de la filial espaola de una compaa multinacional, se
recogen en la siguiente tabla.
Horas formacin
xi
Nmero directivos
ni
20
20
30
10
40
50
58
Ni
mi%xi ni
Mi
20
20
20
400
400
50
34,78
15,22
30
10
30
300
700
75
60,87
14,13
40
35
200
900
87,5
78,26
9,24
50
40(b)
250
1.150(c)
(b)
(c)
qi %
Mi
100 (a)
MI
ni
(a)
pi%
Ni
100
N
xi
100
pi .qi
100
Los resultados han sido redondeados a dos nmeros decimales para facilitar los clculos.
Total directivos.
Total de horas dedicadas a formacin de directivos.
Representando el punto (0, 0) y los distintos pares (pi , qi), esto es, (p1 % 50,
q1 % 34,78); (p2 % 75, q2 % 60,87); (p3 % 87,5, q3 % 78,26); la curva de Lorenz se
obtiene al unir los puntos mediante segmentos.
Curva de Lorenz
100,00
90,00
80,00
70,00
60,00
50,00
40,00
30,00
20,00
10,00
(100; 100)
(87,5; 78,26)
(75; 60,87)
(50; 34,78)
(0,0)
20
40
60
60
100
% acumulados de individuos
Figura 2.10.
; (pi.qi)
IG%
i%1
4.1
(p1.q1)!(p2.q2)!(p3.q3) 15,22!14,13!9,24
%
]0,1816
p1!p2!p3
50!75!87,5
i%1
es decir, el nmero de horas de formacin destinadas a los diferentes niveles directivos en esta filial estn relativamente bien repartidas.
7 ITES-Paraninfo
59
Cuestiones de autoevaluacin
2.1 En un total de 10 empresas de un determinado sector de actividad se ha observado
el nmero de empleados, obtenindose los valores siguientes: 15, 21, 22, 26, 32,
35, 40, 50, 54, 1.000, donde x6 % 129,5 y Me % 33,5.
Qu medida de posicin es preferible utilizar como resumen del conjunto de
datos de la variable?
a) La media aritmtica, porque es la medida de posicin central por excelencia y
siempre que se conozca se debe utilizar sta.
b) La mediana, porque como existe un valor muy alejado del resto, la media es
poco representativa del conjunto de valores de la distribucin.
c) Es indiferente.
d) Ninguna de las anteriores es correcta.
2.2 Se estudian los salarios que perciben los empleados de una empresa. El menor de
los salarios es de 600 e/mes y el mayor de 2.400 e/mes. Cul de los siguientes
resultados puede ser cierto?
a)
b)
c)
d)
x6 % 1.200 e, SX % 0 e
x6 % 1.000 e, SX % 200 e
x6 % 500 e, SX % 200 e
x6 % 1.200 e, SX % .150 e
2.3 Se invierten 12.000 e a plazo fijo durante dos aos. El primer ao el capital se incrementa en un 3% y el segundo en un 12% acumulativo. El inters o incremento
medio anual es:
a) 7,5 %.
b) 7,406 %
c) 4,8 %
2.4 Si el coeficiente de asimetra de una variable X es 4, y se realiza una transformacin lineal de la forma Y % 50 ! 60X, cul es el coeficiente de asimetra de la
nueva variable?
a)
b)
c)
d)
60
2.5 Supngase una variable estadstica X tal que x6 % 31 y S2X % 35. Si se realizase un
cambio de variable aplicando la transformacin Y % 10 ! 5X, entonces:
a) y6 % 165 y S2Y % 875
b) y6 % 165 y S2Y % 35
c) y6 % 155 y S2Y % 875
d) y6 % 155 y S2Y % 35
2.6 Una empresa de componentes electrnicos dispone de tres plantas de produccin
(A, B y C) con 100, 150 y 200 operarios de fabricacin respectivamente. Si el nmero medio mensual de unidades producidas por cada empleado en la planta A es
de 2.000, en la planta B de 2.500 y en la planta C de 1.750, cal es el nmero
medio mensual de unidades producidas por cada operario para el global de la empresa?
a)
b)
c)
d)
a3 % 296.867,
m3 % .430,
m4 % 110.024
Menor a 243.
61
X . 25
3
b) Z %
X
5
c)
Z%2
X . 25
!5
3
d) nicamente pueden obtenerse variables tipificadas con media cero y desviacin tpica 1.
2.10 Si el ndice de Gini vale 1, se puede afirmar que:
a)
b)
c)
d)
Ejercicios propuestos
2.1 Se ha preguntado a 9 empresas por el nmero de personas que emplean, siendo sus
respuestas:
50, 56, 60, 75, 80, 85, 88, 90, 100
Calcular la media aritmtica, mediana y moda.
2.2 A 15 personas que guardaban cola para entrar al museo de El Prado se les ha
preguntado por el nmero de veces que han visitado previamente la pinacoteca,
siendo las respuestas obtenidas:
0, 1, 1, 2, 0, 5, 3, 2, 4, 4, 0, 1, 0, 0, 1
Calcular la media aritmtica, mediana y moda.
2.3 Cierta empresa ha incrementado el salario a sus empleados en los ltimos cinco
aos en un 1, 2, 3, 4 y 5% acumulativo. Si un trabajador empez con un salario
1.000 e, calcular:
a) El incremento medio anual aplicado en estos cinco aos.
b) El salario a cobrar cinco aos despus.
7 ITES-Paraninfo
62
ni
9
31
10
Viviendas
5
25
50
15
5
4
1
1
1
4 4 4 4 4 4
1 1 1 1 3 20
2 3 4 5 6 7
1 2 4 4 8 8
Ordenar el posible valor de sus varianzas (dispersin) de menor a mayor, pero sin
realizar ningn clculo. Despus comprobar el resultado calculando dichas varianzas.
2.7 Inspeccionadas un total de 40 planchas, el nmero de defectos (obstruccin del
pulverizador, funcionamiento incorrecto del termostato, etc.) encontrados por el
departamento de calidad ha sido:
Defectos
0
1
2
3
Planchas
10
25
4
1
63
8 10 15 20
Biblioteca B
a1 %12 (miles de euros)
Grupo B
x6 B % 25.420 e
SB % 6.860 e
Cul de las dos empresas presenta un beneficio anual relativo mayor, la compaa o el comercio?
7 ITES-Paraninfo
64
2.12 Se tiene informacin acerca del nmero de goles por partido marcados en dos ligas
europeas:
Liga de ftbol A: Media 3,5 goles y varianza 1,34.
Liga de ftbol B: Media de 2,5 goles y varianza 1,88.
a) En qu liga europea hubo una mayor dispersin relativa?
b) Si en un partido jugado en la liga A el resultado fue 2-0 y en otro partido de la
liga B el resultado fue 1-1. En qu partido el nmero de goles fue relativamente mayor?
2.13 Dos empresas del sector qumico, A y B, han recogido informacin sobre el nmero de accidentes laborales al mes con baja laboral que se ha producido durante un
determinado periodo de tiempo, obteniendo los siguientes resultados:
Empresa A: x6 A % 9
Empresa B: x6 B % 12
S2A % 2,2857
SB % 1,51
ni
2
5
10
5
2
65
2.17 De un estudio realizado en dos poblaciones acerca del tiempo diario (en minutos)
que los nios de 4 a 10 aos dedican a ver la televisin, se han obtenido los siguientes resultados: en la poblacin A dedican una media diaria de 90 minutos con
una varianza de 144, mientras que en la poblacin B la media diaria es de 75 minutos con una varianza de 100.
a) En qu poblacin es mayor la dispersin relativa?
b) Un nio de la poblacin A dedica 82 minutos diarios a ver televisin y otro de
la poblacin B dedica 75 minutos. En trminos relativos, qu nio dedica
ms tiempo a ver televisin?
2.18 La evolucin de la variable X: Siniestralidad de automviles (millones de euros)
en los ltimos 6 aos ha sido, aproximadamente, la que se recoge a continuacin:
Ao
Siniestralidad
1995
4.000
1996
4.500
1997
4.750
1998
5.000
1999
5.250
2000
6.000
m2(X) % 225
m3(X) % .830
m4(X) % 147.830
66
Problemas resueltos
2.1 Una empresa de plsticos se dedica a la realizacin de piezas para vehculos de una
determinada marca. La distribucin del nmero de piezas que realizan los 250 trabajadores en una hora es la siguiente:
Nmero de piezas
10
Trabajadores
26
11
34
12
13
60
62
14
15
40
28
2.2 Un grupo de expertos lleva a cabo una cata de aceites. A continuacin se facilita la
distribucin de frecuencias correspondiente a las calificaciones obtenidas por los
aceites de oliva procedentes de 150 almazaras:
7 ITES-Paraninfo
Puntuacin
Nmero de aceites
[0 , 4[
40
[4 , 5[
12
[5 , 7[
67
[7 , 9[
22
[9 , 10]
67
a) Calcular la calificacin media obtenida en la cata por el conjunto de los aceites evaluados.
b) Obtener los intervalos donde estn contenidas la mediana y la moda.
c)
Nmero
de empresas
Volumen
de ventas
[15 , 20[
140
[20 , 25[
145
[25 , 30[
130
[30 , 35[
125
[35 , 40]
210
68
Problemas propuestos
2.5 Durante el pasado fin de semana, dos agencias de viajes han presentado el siguiente movimiento en la venta de billetes de avin.
Importe billete (e)
340
425
700
750
800
930
Agencia 1
Nmero de billetes
3
2
2
1
1
1
Agencia 2
Nmero de billetes
1
2
4
4
3
1
a) Obtener la media, mediana y moda del importe obtenido por la venta de billetes en cada una de las agencias.
b) En qu agencia ha sido mayor la dispersin en el importe de los billetes vendidos?
2.6 Una empresa multinacional americana tiene una fbrica en Valencia. Se realiza un
estudio sobre los salarios mensuales (en cientos de euros) de los empleados de dicha empresa, ofreciendo los siguientes resultados:
Salario
[3 , 6[
[6 , 9[
[9 , 12[
[12 , 18[
[18 , 20]
ni
22
54
20
15
9
SY % 4,5133
Cul de las dos empresas es la que presenta una mayor dispersin relativa?
7 ITES-Paraninfo