Está en la página 1de 30

Capı́tulo 1

Estadı́stica descriptiva univariante

”No nos atrevemos a muchas cosas porque son difı́ciles,


pero son difı́ciles porque no nos atrevemos a hacerlas”.
Séneca

Distribuciones de frecuencias. Representaciones gráficas.

Medidas descriptivas: de centralización, de posición, de dispersión.

Momentos muestrales. Medidas de forma.

Casos atı́picos.

Ejercicios.

1
2 1. Estadı́stica descriptiva univariante

La Estadı́stica es la ciencia de los datos. Cualquier conjunto de datos contiene


información sobre un grupo de individuos. La información se organiza con variables.
Los individuos, que son los elementos observados y sometidos a investigación,
pueden ser personas, animales o cosas.
Una variable es cualquier caracterı́stica X de un individuo que queramos ana-
lizar. Las variables pueden ser:
• cualitativas o atributo: sus valores son un conjunto de cualidades no numéricas
llamadas categorı́as o modalidades
• ordinales: sus categorı́as pueden ordenarse.
• cuantitativas: toman valores numéricos, para los que tiene sentido hacer cálculos
aritméticos. Las variables numéricas pueden ser:

Discreta: cuando el paso de un valor a otro representa un salto, es decir, existe


una distancia, no nula, entre valores contiguos de la variable. Por ejemplo:
nacimientos diarios en cierta comunidad, número de electrodomésticos en el
hogar, número de ordenadores personales en la universidad ...

Continua: cuando dados dos valores cualesquiera que ha tomado la variable,


existe siempre entre ellos una infinidad de posibles valores que pudiera tomar.
Ası́ por ejemplo magnitudes como el peso, la longitud, el volumen, ... son
variables continuas.

1.1. Distribuciones de frecuencias. Gráficos.


Si la variable X ha tomado los valores x1 , x2 , . . . , xn en un conjunto de individuos,
nuestro objetivo será, en primer lugar, organizar la información.
La distribución de frecuencias nos dice qué valores toma la variable y con
qué frecuencia.

ni : frecuencia absoluta fi : frecuencia relativa


Ni : frecuencia absoluta acumulada Fi : frecuencia relativa acumulada

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.1. Distribuciones de frecuencias. Gráficos 3

ni
xi ni fi = n

Ni
Ni = n1 + · · · + ni Fi = n

• Distribución de frecuencias para datos no agrupados:

X ni Ni fi Fi
x1 n1 N1 f1 F1
x2 n2 N2 f2 F2
.. .. .. .. ..
. . . . .
xi ni Ni fi Fi
.. .. .. .. ..
. . . . .
xm nm n fm 1
n 1
• Distribución de frecuencias para datos agrupados: Cuando la variable
es continua o, en cambio, es discreta pero el número de valores distintos que toma
es grande, conviene agrupar los datos en clases o intervalos, en cuyo caso, se llama
marca de clase al valor central del intervalo que identifica la clase.

Ii ci ni Ni fi Fi
[L0 , L1 ) c1 n1 N1 f1 F1
[L1 , L2 ) c2 n2 N2 f2 F2
.. .. .. .. .. ..
. . . . . .
[Li−1 , Li ) ci ni Ni fi Fi
.. .. .. .. .. ..
. . . . . .
[Lm−1 , Lm ] cm nm n fm 1
n 1

siendo ci la marca de clase del intervalo [Li−1 , Li ),


Li−1 + Li
ci =
2
Alicia M. Juan González
Ing. Industrial, Grupos A-B, Curso 2020/21
4 1. Estadı́stica descriptiva univariante

No existe un único criterio para determinar el número k de intervalos. Por lo general,


depende del tamaño de la muestra, n.

Un criterio clásico establece que, si n es pequeño (n ≤ 50), entonces k ≈ n y,
en caso contrario, k ≈ 1 + 3, 22 log n. Otro criterio recomienda que 4 ≤ k ≤ 15 con
k ≈ 10 % n.
Una vez obtenido k, calculamos el rango o recorrido R de la variable,

R = máx xi − mı́n xi
i i

y la razón R/k ≈ a (de tal manera que ak ≥ R) es la amplitud de cada clase. A


partir de aquı́, conviene tener en cuenta las observaciones siguientes:

El dato más pequeño debe estar en el primer intervalo, y el dato mayor debe
estar en el último intervalo,

Los lı́mites de los intervalos no deben solaparse,

La marca de clase, si es posible y por razones de comodidad, debe ser de la


misma naturaleza que los datos.

Representaciones gráficas.

Gráficos de atributos

Gráfico de sectores Gráfico de Pareto

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.1. Distribuciones de frecuencias. Gráficos 5

Gráficos de variables discretas

Gráfico de barras Gráfico de barras acumulado

Gráficos de variables continuas

Histograma Diagrama de tallos y hojas

• Un histograma es un conjunto de rectángulos, cada uno se corresponde con un


intervalo o clase. Cada rectángulo tiene una base que es la amplitud de su intervalo
asociado y su altura se determina de forma que el área de dicho rectángulo sea pro-
porcional a la frecuencia de su intervalo. Ası́, la altura de cada rectángulo, conocida
como densidad de frecuencia, se calcula por

fi
hi =
ai

aunque también podrı́an calcularse utilizando las frecuencias absolutas, ni , en lugar


de las relativas. Cuando, en particular, todos los intervalos tienen la misma amplitud,
entonces las alturas serán proporcionales a las frecuencias.
El inconveniente del histograma es que no es reversible, es decir, una vez definidos
los intervalos, nos ”olvidamos” de los valores que toma la variable en cada uno de

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
6 1. Estadı́stica descriptiva univariante

ellos desconociendo, por tanto, cómo se reparten las frecuencias dentro de ellos, lo
único que sabemos es la frecuencia que corresponde a cada intervalo. No obstante y
por convenio, se supone que los elementos se sitúan de forma homogénea dentro de
cada intervalo.
• Por esta razón el diagrama de tallo y hojas (”stem-and-leaf” plot, en inglés) es
una alternativa, cuando cada dato está formado al menos por dos dı́gitos. En este
diagrama, cada dato xi se descompone en dos partes: el tallo, formado por el primer
o primeros dı́gitos; y una hoja, que es el último dı́gito o el que sigue a los utilizados
en el tallo.

(a) (b)

Fig. 1.1: Diagramas de tallos y hojas.

Por ejemplo, en el diagrama 1.1(a), el primer caso 29 se compone del tallo, de


valor 2, y la hoja, de valor 9.
Cada tallo puede ocupar una o más filas. Si un tallo ocupa una fila, sus hojas
contienen dı́gitos del 0 al 9. Si un mismo tallo ocupa dos filas, las hojas de la primera
fila pueden contener dı́gitos del 0 al 4, y las de la segunda fila dı́gitos del 5 al 9. Si
un mismo tallo ocupa tres filas, las hojas de la primera fila pueden contener dı́gitos
del 0 al 3, las de la segunda fila dı́gitos del 4 al 7, y las de las trecera fila dı́gitos del
8 al 9. Por ejemplo, en el diagrama 1.1(a), cada uno de los tallos 3, 4, 5 y 6 ocupan
dos filas.
El ancho del tallo se indica en la parte inferior del diagrama (”stem width”) y
es un dato necesario para interpretarlo correctamente. En nuestro ejemplo, el ancho

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.2. Medidas descriptivas 7

es 10, lo que significa que los valores del tallo representan decenas. Ası́, un tallo de
valor 3 vale 30. Por el contrario, en el diagrama 1.1(b), el ancho del tallo vale 10.000
y, por tanto, un tallo de valor 2 representa un salario actual de 20.000 e.
Las hojas, por su parte, completan la información. Cuando el ancho del tallo es
10, entonces los dı́gitos de las hojas son unidades; cuando el ancho del tallo vale 100,
los dı́gitos de las hojas son decenas; cuando el ancho del tallo es 1.000, entonces los
dı́gitos de las hojas son centenas, y ası́ sucesivamente.
El número de casos que representa cada hoja viene indicado en ”each leaf”. En
el diagrama 1.1(a), cada hoja representa 1 caso y ası́, un tallo de valor 4 con una
hoja de valor 3 representa una edad de 43 años. Sin embargo, en el diagrama 1.1(b),
cada hoja representa 3 casos y, por ejemplo, en el tallo de valor 2 aparecen 4 hojas
de valor 0, lo que significa que hay (4 × 3 =)12 casos cuyos salarios actuales son
20.000 e.
El diagrama simula ası́ una tabla estadı́stica, los tallos simulan las distintas
categorı́as de la variable y las hojas, sus frecuencias.
La última fila del diagrama indica el número de casos con ”valores extremos”.
Por ejemplo, en el diagrama 1.1(b), tenemos 53 casos extremos con un salario actual
superior a los 56.750 e.

1.2. Medidas descriptivas.

Las tablas estadı́sticas y representaciones gráficas mejoran la presentación de


los datos y nos proporcionan toda la información sobre la variable en estudio. No
obstante y desde el punto de vista de las aplicaciones, surge la necesidad de resumir
toda esa información mediante un conjunto reducido de cantidades numéricas que
describan las caracterı́sticas de dicha variable. En esto consiste la reducción de los
datos que, junto a su interpretación posterior, constituyen las técnicas estadı́sticas
del análisis descriptivo.

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
8 1. Estadı́stica descriptiva univariante

Medidas de centralización.
Algunas de estas cantidades describen la tendencia central de un conjunto de
observaciones, esto es, lo dominante, lo tı́pico de ellas. Se conocen como medidas de
centralización, y son:
• Media aritmética1 : es el valor central de la distribución de frecuencias de la
variable, es decir, el valor en torno al cual se agrupan los datos.

 Pm
xi ni Pm

 i=1
n
= i=1 xi fi Datos no agrupados
x1 + x2 + · · · + xn 
x̄ = = (1.1)
n  Pm
i=1 ci ni
 Pm

n
= i=1 ci fi Datos agrupados

Propiedades 1.2.1.
Pm
1. i=1 (xi − x̄)ni = 0

2. Si Y = aX + b ⇒ ȳ = ax̄ + b

3. La media aritmética de una muestra partida se relaciona con las medias aritméti-
cas de las submuestras de la forma:
n1 x̄1 + n2 x̄2
x̄ =
n1 + n2
siendo n1 y n2 los tamaños muestrales de dos submuestras de medias x̄1 y x̄2 ,
respectivamente.

• Mediana (Me): Una vez ordenados los datos, Me es el valor de la variable o


la categorı́a del atributo (si éstas son ordenables) que ocupa el centro.

x1 , x2 , . . . , xn −→ x(1) ≤ x(2) ≤ · · · ≤ x(n)



 x(k+1) n = 2k + 1


Me =

 x(k) +x(k+1)

2
n = 2k
1
Dado que casi siempre se considera a los datos como una muestra, la media aritmética se
conoce también como media muestral.

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.2. Medidas descriptivas 9

n
En distribuciones con datos no agrupados, calculamos el valor 2
y observamos
el primer valor de la variable cuya frecuencia Ni supera o iguala esta cantidad.

 xi

 Ni > n2
Me =

 xi +xi+1 N = n

2 i 2
n
En distribuciones con datos agrupados, calculamos el valor 2
y observamos el
primer intervalo (Li−1 , Li ] cuya frecuencia Ni supera o iguala esta cantidad. Una vez
identificado el intervalo mediano,
n
2
− Ni−1
Me = Li−1 + ai
ni
donde ai = Li − Li−1 es la amplitud del intervalo.

• Moda (Mo): es el valor o categorı́a más frecuente. En distribuciones con datos


agrupados, el intervalo modal es el de mayor densidad de frecuencia,
ni
hi =
ai
es decir, el que tiene mayor altura en el histograma.

Ii ci ni Ni fi Fi ai hi
[L0 , L1 ) c1 n1 N1 f1 F1 a1 h1
[L1 , L2 ) c2 n2 N2 f2 F2 a2 h2
.. .. .. .. .. .. .. ..
. . . . . . . .
[Lm−1 , Lm ] cm nm n fm 1 am hm
n 1

Una vez identificado dicho intervalo, la moda es el valor


hi − hi−1
Mo = Li−1 + ai
(hi − hi−1 ) + (hi − hi+1 )
pero, cuando todos los intervalos tienen la misma amplitud (ai = a para cada i), la
fórmula se reduce a
ni − ni−1
Mo = Li−1 + a
(ni − ni−1 ) + (ni − ni+1 )

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
10 1. Estadı́stica descriptiva univariante

• Otras medias:

Media recortada: Dado que para calcular la media utilizamos todas las obser-
vaciones, la presencia de valores extremos en la distribución de frecuencias afecta a su
valor. Se tiene ası́, que la media es muy sensible a los valores extremos (o ”atı́picos”)
de la distribución, mientras que la mediana, que se calcula utilizando únicamente los
valores centrales, permanece inalterable. Las medidas que tienen la propiedad de no
verse afectada por datos extremos se conocen como medidas robustas o resistentes.
Con objeto de que la media sea menos sensible a la presencia de valores extremos,
esto es, sea robusta, se introduce el concepto de media recortada, que es la media
aritmética de los datos que quedan en el conjunto de todos ellos, después de descartar
de éste cierto porcentaje de ellos, tanto por arriba como por debajo. Ası́ la media
recortada al 10 % serı́a la media aritmética del 80 % de los datos que quedan después
de quitar el 10 % de los valores más pequeños y el 10 % de los datos más grandes.
Por ejemplo, en una muestra de 50 datos, la media recortada al 10 % es la media
aritmética que se calcula con los 40 datos centrales, una vez descartados los 5 valores
más bajos (10 % inferior) y los 5 valores más altos (10 % superior).
Con ello, obtenemos una mejor estimación de la tendencia central (especialmente
cuando los datos no son normales) porque la mediana, aunque es robusta, es sensible
a otros errores como, por ejemplo, los de redondeo o agrupamiento.

Ejemplo 1.2.1. Dada la muestra, ya ordenada, 2, 4, 5, 5, 6, 8, 9, 9, 12, 45, su media


aritmética es x̄ = 10, 5. No obstante, puesto que el último dato es un valor muy
grande con respecto a los demás, conviene prescindir de él y ası́, para calcular la
media recortada al 10 %, descartamos el dato más pequeño (2) y el más grande (45),
y la media de los 8 datos centrales es x̄rec = 7, 25.

Media ponderada: se aplica cuando no todos los datos tienen la misma impor-
tancia (”peso”). Pm
wi xi
x̄w = Pi=1
m
i=1 wi
Ejemplo 1.2.2. La tabla siguiente indica la densidad de población de una región
que está dividida en 5 distritos. Si tomamos la media aritmética de los 5 valores de

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.2. Medidas descriptivas 11

la variable ”densidad”, obtenemos el valor x̄ = 138, que no es realista porque las


zonas no son homogéneas, esto es, sus extensiones son muy distintas. Con objeto de
calcular una densidad de población media que refleje la realidad, conviene asignar
como peso a la densidad de cada zona su extensión,

Distrito Densidad(hab/km2 ) Extensión(km2 )


1 80 5000
2 90 10000
3 100 10000
4 120 5000
5 300 500

En consecuencia, la densidad media ponderada viene dada por


80 × 5000 + 90 × 10000 + 100 × 10000 + 120 × 5000 + 300 × 500
x̄w = = 100
5000 + 10000 + 10000 + 5000 + 500

Medias para datos positivos:


• Media geométrica: se aplica para promediar razones.

xn1 1 × xn2 2 × · · · × xnmm
p
n
x̄G = n
x1 × x2 × · · · × xn =

Ejemplo 1.2.3. En 2005, el precio de un producto A era la mitad del de otro


producto B. En 2006, el precio de A era 1/3 del de B. En 2007, cambió esta relación
nuevamente de forma que el precio de A respecto del de B era de 2/3, ¿Cuál es el
precio medio de A respecto a B?

Año P recio de A vs. B P recio de B vs. A


2005 1/2 2
2006 1/3 3
2007 2/3 3/2

Si queremos conocer el promedio del valor de A respecto de B, durante estos 3 años,


entonces la media aritmética no es apropiada, pues si la utilizamos obtendremos
1
2
+ 13 + 2
3 1
x̄A/B = =
3 2
Alicia M. Juan González
Ing. Industrial, Grupos A-B, Curso 2020/21
12 1. Estadı́stica descriptiva univariante

lo que significarı́a afirmar que, en estos 3 años, el precio de A ha sido la mitad del
de B. Por tanto, si ahora promediamos los precios de B respecto de A, lo lógico
será que obtengamos que ha sido el doble. Sin embargo, el resultado es
2 + 3 + 32 13
x̄B/A = = 6= 2
3 6
Veamos lo que ocurre al tomar las medias geométricas:
r r
3 1 1 2 3 3 1
GA/B = = 0, 48 GB/A = 2 3 = 2, 08 =
2 3 3 2 0, 48
Los promedios sı́ son inversos, como cabe esperar. Por tanto, la media geométrica es
la adecuada y puede afirmarse, entonces, que el precio de A ha sido 0,48 respecto de
B durante estos 3 años o, lo que es equivalente, el precio de B ha sido en promedio
2,08 veces el precio de A.

• Media armónica: se aplica para promediar funciones inversas.


n n
x̄A = Pn 1 = Pm ni
i=1 xi i=1 xi

Ejemplo 1.2.4. Supongamos un coche que recorre una distancia de 100 kms en
dos ocasiones. La primera lo hace en un sentido, siendo la velocidad de 50 kms/h;
y la segunda vez, en sentido contrario, a una velocidad de 80 kms/h. ¿Cuál es la
velocidad media?
Aunque el coche ha recorrido 100 kms en cada caso, al hacerlo a velocidades dis-
tintas, ha empleado tiempos también distintos y, en consecuencia, no serı́a correcto
afirmar que la velocidad media es
50 + 80
v̄ = = 65 km/h
2
Puesto que el tiempo está en relación inversa con la velocidad: v = et . La velocidad
media serı́a el espacio total dividido entre el tiempo total, es decir,
e e1 + e2 200 200 2
v̄ = = = = 100 100 = 1 = 61, 54 km/h
t t1 + t2 t1 + t2 v1
+ v2 v1
+ v12
que es la media armónica de la velocidad.

La relación entre estas medias es,

x̄A ≤ x̄G ≤ x̄

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.2. Medidas descriptivas 13

Medidas de posición.
• Cuartiles: son los tres valores Q1 , Q2 y Q3 de la variable o categorı́as del atri-
buto (si éstas son ordenables) que, una vez ordenados los datos, ocupan la posición
correspondiente al primer, al segundo y al tercer cuarto de los datos, respectivamen-
te.
En distribuciones con datos no agrupados, calculamos los valores 41 n, 24 n y 43 n
y observamos los valores de la variable para los que se superan o igualan estas
cantidades en la columna de las frecuencias absolutas acumuladas (Ni ).

 xi

 Ni > 4p n p = 1, 2, 3
Qp =

xi +xi+1
Ni = p4 n


2
p = 1, 2, 3

En distribuciones con datos agrupados, calculamos el valor p4 n donde p = 1, 2, 3,


y observamos el primer intervalo (Li−1 , Li ] cuya frecuencia Ni supera o iguala esta
cantidad. Se tiene ası́ que Qp ∈ (Li−1 , Li ] y su valor viene dado por,
p
4
n − Ni−1
Qp = Li−1 + ai p = 1, 2, 3
ni

Es inmediato, entonces que

Q2 = Me

• Cuantiles: La mediana y los cuartiles son casos particulares de ”cuantiles”.


El cuantil de orden p es el valor de la variable que deja a su izquierda el p100 % de
los datos. Otros cuantiles importantes son los deciles,
p
10
n − Ni−1
Dp = Li−1 + ai p = 1, 2, . . . , 9
ni

y los percentiles,
p
100
n − Ni−1
Pp = Li−1 + ai p = 1, 2, . . . , 99
ni

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
14 1. Estadı́stica descriptiva univariante

Medidas de dispersión.
Miden el grado de separación o dispersión de los datos respecto al centro de la
distribución. Cuanto mayor sea la dispersión, menos representativa es su medida de
centralización asociada.
• absolutas: miden el grado de variabilidad en la misma unidad que la de la
variable en estudio. No sirven para comparar variables en distintas unidades de
medida. Algunas son: el rango R de la variable y el rango intercuartı́lico, Q3 − Q1 ,
aunque la más importante es la desviación tı́pica ”muestral”, que es la raı́z cuadrada
positiva de la varianza. Ası́, si la varianza muestral de un conjunto de datos es
Pn
2 (xi − x̄)2
s = i=1 ≥ 0 (1.2)
n

entonces la desviación tı́pica es


s≥0

Cuando s = 0, todos los valores de la variable, coinciden con la media aritmética.

Propiedades 1.2.2. Las medidas de dispersión absolutas son invariantes respecto


a un cambio de origen, pero no de escala. Ası́, por ejemplo, si

Y = X + b ⇒ s2Y = s2X
Y = aX ⇒ s2Y = a2 s2X

• relativas: son adimensionales (se expresan en porcentajes). Sirven para com-


parar variables en distintas unidades de medida. Una de ellas es el coeficiente de
variación,
s
CV = (×100)
|x̄|
que nos proporciona una buena medida de la representatividad de la media. Ası́,
cuando CV = 0 %, la representatividad es máxima (no hay dispersión, s = 0). En
general, coeficientes de variación superiores al 30 % indican baja representatividad
de la media, y por debajo del 20 % la representatividad puede considerarse buena.

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.3. Momentos muestrales 15

Propiedades 1.2.3. Las medidas de dispersión relativas son invariantes respecto a


un cambio de escala, pero no de origen. Ası́, si

Y = aX ⇒ CVY = CVX

y si Y = X + b, ¿cuál es la relación entre CVY y CVX ?.

1.3. Momentos muestrales.


Si x1 , x2 , . . . , xn son los datos correspondientes a una variable X, el momento de
orden k de su distribución de frecuencias se define por
 Pm k
i=1 xi ni
= m k
P
i=1 xi fi Datos no agrupados

k k k
 n
x + x2 + · · · + xn 
ak = 1 = (1.3)
n P
 m
 k
i=1 ci ni
= m k
 P
n i=1 ci fi Datos agrupados

En consecuencia, la media aritmética x̄ es el momento de orden 1, x̄ = a1 . Una vez


conocido x̄, el momento central de orden k de dicha distribución, se define por
 Pm k
i=1 (xi −x̄) ni
= m k
P
i=1 (xi − x̄) fi Datos no agrupados

Pn k
 n
(xi − x̄) 
mk = i=1 =
n P
 m
 k
i=1 (ci −x̄) ni
= m (c − x̄)k f Datos agrupados
 P
n i=1 i i
(1.4)
y ası́, la varianza muestral s2 es el momento central de orden 2, m2 = s2 . Se puede
demostrar, en virtud de las propiedades lineales de la media aritmética (Propiedad
1.1.1-2), que los momentos centrales pueden obtenerse a partir de los momentos
ordinarios y viceversa, obteniéndose ası́ la fórmula para el cálculo directo de la
varianza (1.2),
Pn Pn
2 i=1 (xi − x̄)2 x2i
s = = i=1
− x̄2 = a2 − a21 (1.5)
n n
Análogamente,

m3 = a3 − 3a2 x̄ + 2x̄3 (1.6)


m4 = a4 − 4a3 x̄ + 6a2 x̄2 − 3x̄4 (1.7)

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
16 1. Estadı́stica descriptiva univariante

Medidas de la forma de la distribución.

• Simetrı́a: Una distribución de frecuencias es simétrica cuando, gráficamente,


lo es respecto a su tendencia central.
La simetrı́a perfecta de una distribución implica,

la igualdad entre la media, mediana y moda: x̄ = Me = Mo

La mediana equidista de los cuartiles primero y tercero: Q3 − Me = Me − Q1

Todos los momentos centrales de orden impar son nulos: mk = 0, para k =


3, 5, 7, 9, . . .

Si la gráfica de las frecuencias (histograma o diagrama de barras) refleja una rama


más alargada por la izquierda, esto es, las frecuencias tienden a descender más
lentamente por la izquierda, entonces la distribución es de ”cola izquierda”, se dice
que tiene asimetrı́a negativa y

x̄ ≤ Me ≤ Mo

Si la distribución presenta una cola larga por la derecha (asimetrı́a positiva), entonces

Mo ≤ Me ≤ x̄

El coeficiente de asimetrı́a de Fisher, definido por

m3
CAS = (1.8)
s3

refleja la intensidad de la asimetrı́a, y su signo indica el sentido de la misma.

CAS < 0 CAS = 0 CAS > 0

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.4. Casos atı́picos 17

• Apuntamiento (o curtosis): es el grado de concentración de la distribución


en el centro frente a las colas, de tal manera que diremos que cuanto mayor sea
la concentración, mayor será el apuntamiento. Se mide mediante el coeficiente de
apuntamiento (o curtosis) muestral, definido por
m4
CAP = −3 (1.9)
s4
que indica la intensidad del apuntamiento,


 < 0 forma aplastada (platicúrtica)


CAP = 0 forma ”normal” (mesocúrtica)


 > 0 forma puntiaguda (leptocúrtica)

1.4. Casos atı́picos.


Definición: Son observaciones que se diferencian claramente de la mayorı́a de
los datos que componen la muestra.
Los casos atı́picos (”outlier”, en inglés) ocurren con frecuencia. En condiciones
muy controladas, pueden aparecer entre un 1 y un 3 % de observaciones inusuales en
la muestra. Cuando los datos se recogen sin un cuidado especial, dicho porcentaje
puede llegar al 5 % o más.
El tratamiento de un caso atı́pico depende de su origen. Se distinguen dos clases:

1. Los casos atı́picos que surgen por un error de procedimiento como, por ejemplo,
un dato mal registrado, un error o accidente en la experimentación.

2. Los casos atı́picos que ocurren como consecuencia de un acontecimiento ex-


traordinario, es decir, conocemos una explicación acerca de su presencia, o
por el contrario, son observaciones inusuales para las que el analista no tiene
explicación.

En el primer caso, deberı́an eliminarse o recodificarse como datos ausentes. En el


segundo caso, es el analista el que debe decidir si eliminarlos o mantenerlos. Ası́, por

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
18 1. Estadı́stica descriptiva univariante

ejemplo, deberı́an retenerse si el analista cree que representan un segmento válido


de la población. No obstante, es aconsejable realizar el análisis de los datos con ellos
y también sin ellos. De esta forma, el investigador puede tomar conciencia de su
impacto, información que le resultará muy útil para decidir su inclusión o no en
futuros análisis.
Cuando los datos atı́picos no se deben a errores de medida o de transcripción,
hay que sospechar que sobre esa observación ha actuado alguna causa que no ha
estado actuando sobre el resto de las observaciones. Por ejemplo, alguna variable
que afecta a la variable en estudio ha tomado un valor distinto y es responsable
del cambio observado. El descubrimiento de esta variable insospechada puede ser el
resultado más importante del estudio descriptivo. Muchos descubrimientos cientı́ficos
importantes y muchas patentes insdustriales han surgido de la investigación para
determinar las razones de un dato anómalo.

Detección: Aunque pueden identificarse mediante el histograma o diagrama de


barras porque aparecerán separados del resto de las observaciones, el gráfico idóneo
es el gráfico de caja y bigotes (”Box-and-Whisker Plot”, en inglés) ideado por Tukey
en 1977.
Con objeto de determinar los datos o casos atı́picos, consideramos los siguientes
5 valores de la distribución de frecuencias: el valor mı́nimo (Min), el máximo (Max)
y los 3 cuartiles: Q1 , Me y Q3 . A partir de aquı́, calculamos las fronteras interiores:

f1 = Q1 − 1, 5 (Q3 − Q1 ) y f2 = Q3 + 1, 5(Q3 − Q1 )

y tomamos una escala que contenga los valores mı́nimo (Min) y máximo (Max). A
continuación, dibujamos un rectángulo o ”caja” delimitada por los cuartiles Q1 y
Q3 , dentro de la cual se traza una lı́nea en la posición que corresponde al segundo
cuartil, Me. En tercer lugar, se traza un segmento o ”bigote” a la izquierda de Q1
que acabe en el valor adyacente inferior (VAI), que es el dato más próximo por
exceso a f1 , esto es, V AI ≥ f1 , y otro ”bigote” a la derecha de Q3 que acabe
en el valor adyacente superior (VAS), que es el dato más próximo por defecto a

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.4. Casos atı́picos 19

f2 (V AS ≤ f2 ). Los casos atı́picos son las observaciones xi que quedan fuera del
intervalo [V AI, V AS].

Sin embargo, podemos distinguir entre casos atı́picos ”moderados” o ”extremos”.


Estos últimos son aquellas observaciones que están más allá de 3 veces el rango
intercuartı́lico. Para ello, determinamos las fronteras exteriores:

F1 = Q1 − 3 (Q3 − Q1 ) y F2 = Q3 + 3 (Q3 − Q1 )

y los casos xi que quedan fuera del intervalo (F1 , F2 ) son los extremos. Estos, si los
hay, deberı́an eliminarse. Los casos atı́picos moderados son los que se encuentran
entre las fronteras interiores y exteriores:

F1 ≤ xi ≤ f1 o f2 ≤ xi ≤ F2

Ejemplo 1.4.5 (Datos sin agrupar). En un estudio sobre parásitos, se consi-


deró la distribución de la garrapata ”Ixodes trianguliceps” en el cuerpo de los conejos
de una granja. Se obtuvieron las siguientes observaciones del número de garrapatas
encontradas sobre 44 conejos:

0 2 0 0 2 2 0 0 1 1 3
0 0 1 0 0 1 0 1 4 0 0
1 4 2 0 0 1 0 0 2 2 1
1 0 6 0 5 1 3 0 1 0 1

a) Construye el gráfico adecuado para representar estos datos, b) Determina el


número medio de garrapatas de un conejo, el número mediano, y explica su signi-
ficado, ¿Cuál es el número de garrapatas más frecuente de un conejo?, c) ¿Cómo

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
20 1. Estadı́stica descriptiva univariante

es la forma de la distribución?, d) Determina la dispersión en torno a la media,


y la representatividad de ésta, e) Analiza la homogeneidad de los datos o si, por
el contrario, existe algún dato que pueda considerarse atı́pico. En caso afirmativo,
analiza su impacto sobre la tendencia central de la variable en estudio.
Sol. La tabla estadı́stica es

xi ni Ni xi ni
0 20 20 0
1 12 32 12
2 6 38 12
3 2 40 6
4 2 42 8
5 1 43 5
6 1 44 6
44 49

b) El número medio de garrapatas viene dado por la media muestral,

Pm
i=1 xi ni 49
x̄ = = = 1, 11
n 44

Para determinar el número mediano, calculamos

n
= 22 ⇒ Ni = 32 > 22 ⇒ Me = 1
2

lo que significa que la mitad de los conejos (el 50 %) tienen menos de 1 garrapata,
mientras que la otra mitad, tienen más de 1. El número de garrapatas más frecuente
(o moda) es 0.
c) Puesto que Mo ≤ Me ≤ x̄, la distribución tiene una cola hacia la derecha
(asimetrı́a positiva) y, por tanto, es de esperar que CAS > 0 (¡Compruébalo!).

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.4. Casos atı́picos 21

d) Añadimos la columna x2i ni a nuestra tabla estadı́stica,

xi ni Ni xi ni x2i ni
0 20 20 0 0
1 12 32 12 12
2 6 38 12 24
3 2 40 6 18
4 2 42 8 32
5 1 43 5 25
6 1 44 6 36
44 49 147

La desviación tı́pica muestral es


147
s2 = − 1, 112 = 2, 1088 ⇒ s = 1, 45
44
En consecuencia, el coeficiente de variación es
1, 45
CV = = 1, 31 =⇒ 131 %
1, 11
lo que indica que el número medio de garrapatas no representa adecuadamente el
centro de la distribución.
e) Vamos a calcular los cuartiles:
1
× 44 = 11 ⇒ Ni = 20 > 11 ⇒ Q1 = 0
4
3
× 44 = 33 ⇒ Ni = 38 > 33 ⇒ Q3 = 2
4
Las fronteras interiores son:

f1 = Q1 − 1, 5(Q3 − Q1 ) = −3 y f2 = Q3 + 1, 5(Q3 − Q1 ) = 5

con lo cual, V AI = 0 y V AS = 5 y, por tanto, el dato 6 es atı́pico. Cuando lo


descartamos de los cálculos, obtenemos un valor inferior para la media (x̄ = 1)
con una desviación tı́pica también inferior (s = 1, 26). En consecuencia, la media

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
22 1. Estadı́stica descriptiva univariante

gana en representatividad (CV = 126 %), aunque no lo suficiente. Si, con objeto de
conseguir una media ”robusta” consideramos la media recortada al 5 %, entonces,
una vez descartados los dos primeros datos y los dos últimos, la media recortada es
la media aritmética de los 40 datos centrales, esto es,
P
xi ni 0 × 18 + 1 × 12 + 2 × 6 + 3 × 2 + 4 × 2
x̄rec = i = = 0, 95
n 40

Ejemplo 1.4.6 (Datos agrupados). Un estudio pluviométrico realizado en 80


núcleos rurales españoles registró durante el pasado año los siguientes datos respecto
a precipitaciones (en milı́metros):

810 312 368 423 529 1861 390 675 919 578
1053 514 391 259 513 1348 498 194 340 587
1495 1868 553 322 404 441 567 835 518 446
542 593 353 670 572 362 595 1028 1552 417
513 1352 473 226 917 419 442 516 1658 280
404 442 574 815 320 379 414 1502 361 310
566 419 591 1048 503 554 283 414 379 670
917 372 440 1508 598 332 317 559 492 228

a) Construye el gráfico adecuado para representar estos datos, b) Determina la


precipitación media, en primer lugar, sin agrupar los datos y, en segundo lugar,
agrupándolos en 5 intervalos ¿Cuál de los promedios es más preciso? Razona tu
respuesta, c) ¿Cuál es la precipitación mediana?, ¿Cuál es precipitación más fre-
cuente?, d) Determina la dispersión en torno a la media, y la representatividad de
ésta, e) ¿Hay casos atı́picos? ¿Cuáles son? ¿Cuáles de ellos son casos extremos?.
Sol. b) La media sin agrupar es 627,53 mm. Para calcular la media agrupada
tendremos en cuenta: n = 80, el dato máximo es 1868 y el mı́nimo 194, con lo cual
el recorrido es R = 1674 y si el número de intervalos k ha de ser 5, entonces

R 1674
= = 334, 8 ≈ a
k 5
Alicia M. Juan González
Ing. Industrial, Grupos A-B, Curso 2020/21
1.4. Casos atı́picos 23

Si a = 335 y L1 = 190, las marcas de clase tienen decimales. Para evitarlo, probamos
con a = 334 y L1 = 190 pero entonces el último intervalo no contiene al dato máximo
pues L1 + k a = 1860. Ahora bien, si a = 336 y L1 = 190, entonces L1 + k a = 1870.
Ası́ pues, la tabla queda,

xi ni xi ni Ni
(190, 526] 358 44 15752 44
(526, 862] 694 21 14574 65
(862, 1198] 1030 6 6180 71
(1198, 1534] 1366 5 6830 76
(1534, 1870] 1702 4 6808 80
80 50144

y la media agrupada es
50144
x̄ = = 626, 8 mm
80
Aunque los valores de ambas medias están muy próximos, lo cual se debe a una
buena elección de los intervalos, la media sin agrupar siempre es más precisa que
la agrupada. El agrupamiento de los datos en intervalos siempre lleva implı́cito una
pérdida de información.
c)

1
× 80 = 40 ⇒ Ni = 44 > 40 ⇒ Me ∈ (190, 526] ⇒
2

40 − 0
Me = 190 + × 336 = 495, 45 mm
44
Puesto que todos los intervalos tienen la misma amplitud, el intervalo modal es el
de mayor frecuencia absoluta: Mo ∈ (190, 526], y la precipitación más frecuente es

44 − 0
Mo = 190 + 336 = 410, 66 mm
44 + (44 − 21)

d) Añadimos la columna x2i ni a nuestra tabla,

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
24 1. Estadı́stica descriptiva univariante

xi ni xi ni Ni x2i ni
(190, 526] 358 44 15752 44 5639216
(526, 862] 694 21 14574 65 10114356
(862, 1198] 1030 6 6180 71 6365400
(1198, 1534] 1366 5 6830 76 9329780
(1534, 1870] 1702 4 6808 80 11587216
80 50144 43035968
La desviación tı́pica muestral es
43035968
s2 = − 626, 82 = 145071, 36 ⇒ s = 380, 88 mm
80
En consecuencia, el coeficiente de variación es
380, 88
CV = = 0, 6077 =⇒ 60, 77 %
626, 8
lo que indica que la precipitación media no representa adecuadamente el centro de
la distribución.
e) Calculamos los cuartiles:
1 20 − 0
× 80 = 20 ⇒ Q1 ∈ (190, 526] ⇒ Q1 = 190 + × 336 = 342, 73
4 44
3 60 − 44
× 80 = 60 ⇒ Q3 ∈ (526, 862] ⇒ Q3 = 526 + × 336 = 782
4 21
Las fronteras interiores son:

f1 = Q1 − 1, 5(Q3 − Q1 ) = −316, 175


f2 = Q3 + 1, 5(Q3 − Q1 ) = 1440, 91

con lo cual, V AI = Min = 194 y V AS = 1352 y, por tanto,las precipitaciones fuera


del intervalo (194, 1352) son atı́picas. Las fronteras exteriores son:

F1 = Q1 − 3(Q3 − Q1 ) = −975, 08
F2 = Q3 + 3(Q3 − Q1 ) = 2099, 81

Las precipitaciones atı́picas moderadas son superiores a 1440 mm pero inferiores a


2099 mm, aproximadamente, esto es, en el intervalo (1440, 2099) mientras que las
extremas son superiores a 2099 mm pero, en este caso, no las hay.

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.5. Ejercicios 25

1.5. Ejercicios.
2. El dióxido de carbono es un gas que interviene en el efecto invernadero. Su-
pongamos los siguientes valores de dióxido de carbono (en partes por millón, ppm):

319 338 337 339 328 325 340 331 341 336
330 330 321 327 337 320 343 350 322 334
326 349 341 338 332 339 335 338 333 334

a) ¿Cuál es la proporción de dióxido de carbono superior a la media?, b) ¿Qué can-


tidad de dióxido de carbono es la más frecuente?, c) Calcula los cuartiles de la
distribución e interpreta los resultados, d) ¿Cuál es la representatividad de la me-
dia?, e) Analiza la forma de la distribución, f) ¿Existe algún caso atı́pico?.

3. Las diferencias de temperatura entre la superficie caliente del océano y las


aguas profundas, más frı́as, pueden utilizarse para convertir la energı́a térmica en
energı́a mecánica. A su vez, ésta última sirve para producir energı́a eléctrica en una
turbina de vapor. Sea X la diferencia de temperatura entre el agua superficial y la
situada a profundidad de 1 km. Se realizan mediciones en 15 sitios seleccionados al
azar del Golfo de México. Los datos son:

22, 5 23, 8 23, 2 22, 8 10, 1 23, 5 24, 0 23, 2


24, 2 24, 3 23, 3 23, 4 23, 0 23, 5 22, 8

a) ¿Cuál es el gráfico adecuado para representar estos datos?, b) Determina la dife-


rencia de temperatura media y también la recortada al 5 %, c) la diferencia de tem-
peratura mediana y explica su significado, d) ¿Cuál es la diferencia de temperatura
más frecuente?, e) Determina la dispersión en torno a la media, y su representati-
vidad, f) Analiza la homogeneidad de los datos o si, por el contrario, existe algún
dato que pueda considerarse atı́pico. En caso afirmativo, analiza su impacto sobre
la tendencia central de la variable en estudio.

4. Se quiere elaborar fibras textiles a partir de fibra de turba. Esto creará una
fuente de materiales económicos para las industrias textil y papelera. Una variable

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
26 1. Estadı́stica descriptiva univariante

estudiada, que representamos por X, es el porcentaje del contenido en ceniza de


una determinada turbera. Las observaciones relativas a una muestra aleatoria de 50
turberas han sido,

0, 5 1, 1 2, 0 3, 6 1, 9 2, 6 1, 3 3, 2 2, 4 1, 5
1, 8 1, 6 3, 8 2, 4 2, 3 3, 1 3, 0 2, 4 2, 8 0, 7
4, 0 2, 3 3, 0 0, 8 1, 2 2, 5 2, 7 2, 5 2, 7 3, 7
1, 0 3, 5 2, 3 3, 4 1, 9 1, 7 1, 2 1, 9 4, 5 1, 8
2, 0 2, 2 1, 8 1, 4 2, 3 5, 0 1, 5 3, 1 2, 1 1, 7

a) ¿Cuál es el gráfico adecuado para representar estos datos?, b) Determina la media


muestral, mediana y moda, c) Determina la dispersión en torno a la media muestral,
y su representatividad.

5. Las concentraciones de ozono alrededor de la ciudad de Los Angeles han


llegado a ser hasta de 220 partes por millar de millones (ppmm), lo que constituye
un riesgo para la vida animal y vegetal. Los datos siguientes son las concentraciones
de ozono obtenidas en un área boscosa cercana a Seattle, Washington (basado en
información de ”Twigs”, American Forests, 1990, p.71)

160 176 160 180 167 165 163 162 168 173 170 196 185
163 162 172 162 167 161 169 164 179 163 178 161

a) Determina la concentración promedio, la más frecuente y la mediana, b) Evalúa


la representatividad de la media? c) ¿Hay algún caso atı́pico?.

10. Queremos hacer un estudio sobre la duración (en miles de Km) de dos tipos
de neumáticos A y B. Para ello se han observado 50 vehı́culos con neumáticos de
cada tipo y se han obtenido los resultados siguientes:

Duración Frec. neumáticos A Frec. neumáticos B


10 - 20 5 8
20 - 40 20 15
40 - 60 18 20
60 - 80 7 7

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.5. Ejercicios 27

a) Determina la duración por debajo de la cual está el 86 % de los vehı́culos de cada


tipo de neumáticos. Razona el resultado. b) Determina la duración más frecuente
de cada tipo de neumáticos y compara la representatividad de los promedios. c) Los
neumáticos de un usuario de la marca A duraron 43000 Km, mientras que los de un
usuario de la marca B tuvieron una duración de 42800 Km ¿cuál de los dos usuarios
tuvo, en términos relativos, neumáticos más duraderos?.

11. El departamento de producción de cierta empresa observa el número de


piezas fabricadas a lo largo de cierto intervalo de tiempo por cada uno de sus 100
empleados:

87 80 109 91 83 70 91 93 86 95 115 119 75


71 86 98 104 107 89 109 126 102 83 103 84 76
86 107 85 115 103 69 74 70 86 92 88 115 85
97 118 102 122 97 78 91 108 101 85 99 87 112
100 80 93 90 90 79 93 102 107 107 92 91 108
83 103 99 87 92 107 80 90 72 100 93 113 89
118 81 115 88 70 87 99 105 99 103 71 113 80
99 98 88 90 89 73 93 94 82
Agrupa los datos en 8 intervalos de la misma amplitud y construye el gráfico apropia-
do que describe la distribución de frecuencias, a) ¿Cuántos empleados han fabricado
más de 100 piezas pero menos de 108?, ¿cuál es el porcentaje de empleados que han
fabricado más de 100 piezas?, b) ¿Cuál es el número medio de piezas fabricadas?,
¿cuál es el número más frecuente?, c) ¿Cuántas piezas, como mı́nimo, fabrican los
empleados más productivos?, d) ¿Cuál es la representatividad del promedio de piezas
fabricadas por cada empleado?, e) Analiza la simetrı́a de la distribución de frecuen-
cias, f) Determina el intervalo intercuartı́lico, ¿ hay casos atı́picos?, g) ¿Cuál es el
promedio de piezas fabricadas recortado al 10 %?.

12. Para la creación de una empresa se decide clasificar la categorı́a de sus em-
pleados: administrativos, jefes de sección, jefes de departamento e inspectores, según
los resultados de cierta prueba de aptitud. Los resultados han sido los siguientes:

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
28 1. Estadı́stica descriptiva univariante

Puntuaciones (0, 30] (30, 50] (50, 70] (70, 90] (90, 100]
Núm.empleados 94 140 160 98 8

a) Construye el gráfico adecuado. b) ¿Cuál es la puntuación más frecuente en la


prueba?. c) La planificación óptima de la empresa exige que el 65 % sean adminis-
trativos, el 20 % jefes de sección, el 10 % jefes de departamento y el 5 % inspectores.
¿Cuál es la puntuación mı́nima para ser jefe de sección, jefe de departamento e
inspector?.

16. El propietario de una pequeña empresa tiene asignado un sueldo de 3910 e


mensuales. Los salarios de sus 18 empleados son:

480 510 739 883 859 499 505 1106 980


1172 853 487 553 944 920 1713 1893 595

a) ¿Cuál es el salario medio de todos los trabajadores de la empresa incluido el


propietario?, ¿Cuál es la desviación tı́pica? b) Determina la mediana, el intervalo
intercuartı́lico e interpreta sus significados, c) Si se decide aumentar el salario de
cada uno en 20 e, ¿cómo varı́a el salario medio? ¿y la desviación tı́pica?. d) Si
el propietario decide aumentar únicamente su sueldo en 600 e, ¿qué ocurre con el
salario medio?. e) ¿Qué ocurre con la mediana si todos los sueldos se aumentan en
300 e? ¿y con el rango intercuartı́lico?. f) ¿Qué criterio conviene más al propietario,
”aumentar 20 e el sueldo de cada empleado” o ”aplicar un aumento del 2 %”?.

23. Se han medido los coeficientes intelectuales de un grupo de 20 alumnos, vi-


niendo los resultados agrupados en 6 intervalos de amplitud variable. Las amplitudes
de dichos intervalos y sus frecuencias relativas acumuladas son:

ai 12 12 4 4 12 20
Fi 0,15 0,15 0,55 0,80 0,95 1,00

Construye la tabla de frecuencias, sabiendo que el extremo inferior del primer inter-
valo es 70, y determina entre qué dos percentiles está comprendido un coeficiente
intelectual de 98,4.

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
1.5. Ejercicios 29

36. La distribución de los presupuestos anuales (en miles de e) para los 45


municipios de cierta provincia es:

Presupuesto (0, 300] (300, 660] (660, 1080] (1080, 1500]


Núm. municipios 8 12 15 10
a) ¿Cuál es el presupuesto más común entre estos municipios?, b) ¿Cuál es el pre-
supuesto mı́nimo del 20 % de los municipios con mayor presupuesto asignado?, c)
Determina el presupuesto medio y analiza si dicho valor es representativo, d) ¿Cómo
afectarı́a al presupuesto medio, una subvención de 12000e a cada uno de los muni-
cipios de la provincia?, ¿cómo afectarı́a dicha subvención a la desviación tı́pica del
presupuesto?, e) Si en otras dos provincias con 20 y 33 municipios, el presupues-
to medio anual es de 480000 y 720000 e, respectivamente, ¿cuál es el presupuesto
medio anual de los municipios de las 3 provincias?.

38. La distribución con datos (xi ; ni ) tiene las caracterı́sticas siguientes: x̄ = 7,


Mo = 5, s2 = 3, 5 y n = 50. Determina estas caracterı́sticas para las distribuciones
siguientes: a) (xi + 2; ni ), b) (20xi ; ni ).

41. Se ha medido la talla (cm) de 110 jóvenes de cierta universidad, obteniéndose


los datos siguientes:

Altura 155-160 160-170 170-180 180-190 190-200


Núm. jóvenes 18 31 24 20 17
Determina: a) los percentiles 21 y 87 e interpreta sus significados, b) los deciles 3
y 9 e interpreta sus significados, c) Si se consideran ”bajos” aquellos cuya altura
está sobre el percentil 3, ¿cuál es la altura máxima que puede alcanzar un joven?, d)
Si se consideran ”altos” aquellos cuya altura está sobre el percentil 82, ¿cuál es la
altura mı́nima que puede alcanzar un joven?, e) ¿Qué porcentaje de jóvenes tienen
una altura inferior a 178 cms?, f) la altura mediana, la más frecuente, la altura
media y su representatividad.

45. El consumo eléctrico diario en una determinada ciudad arroja los datos
siguientes: supone el 10 % desde las doce de la noche hasta las seis de la madrugada;

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21
30 1. Estadı́stica descriptiva univariante

a las ocho este valor aumenta hasta el 20 %; llega al 60 % a las dos de la tarde y al
85 % a las veinte horas. a) ¿A qué hora del dı́a el consumo es máximo?, b) ¿Cuántas
horas al dı́a serán necesarias para obtener un consumo del 65 %?

58. El registro del número de dı́as que, durante los seis primeros meses del
año, han faltado al trabajo los 40 empleados de una compañı́a ha dado lugar a los
resultados siguientes:
0 1 2 2 1 0 0 2 2 2
4 2 3 2 0 0 0 2 3 0
3 2 3 8 1 1 0 0 2 2
4 3 0 1 1 1 1 2 1 0
Construye la tabla de frecuencias y determina: a) ¿Cuántos dı́as, en promedio, han
faltado al trabajo los empleados de la compañı́a?, b) ¿Cuál es el porcentaje de
empleados que no han faltado a su trabajo en esos seis meses?, ¿cuál es el porcentaje
de empleados que han faltado, como mucho, dos dı́as?, c) ¿Cuál es el número mı́nimo
de dı́as que han faltado los empleados con mayor absentismo laboral?, d) Calcula el
coeficiente de asimetrı́a, e) Determina, de forma razonada, si hay algún caso atı́pico.

Alicia M. Juan González


Ing. Industrial, Grupos A-B, Curso 2020/21

También podría gustarte