Está en la página 1de 36

Estadística 1 Grados de Ingeniería Mecánica e

Ingeniería Química
Problemas de Estadística Descriptiva Univariante

Problema 1 Señala las deficiencias que observes en los siguientes análisis estadísticos:
El caso 1 (gráfico de la izquierda) se refiere a un estudio de mercado para ver el grado de
aceptación de un artículo nuevo que se quiere lanzar. Se tiene una muestra de 1070 indi-
viduos y la variable estudiada es la OPINIÓN SOBRE EL ARTÍCULO donde MF=Muy
favorable, F=Favorable, I=Indiferente, D=Desfavorable, MD=Muy Desfavorable.
El caso 2 (gráfico de la derecha) es un estudio sobre la calidad de servicio de una enti-
dad bancaria que presta servicios telefónicos. Tamaño de la muestra: 1000 operaciones
realizadas. Variable estudiada: TIEMPO DE SERVICIO (en segundos).
DIAGRAMA DE PARETO HISTOGRAMA

500 285
500 266
247
450 228
209
400
190
350 171
No. de Observaciones

No. de observaciones

152
300 275 133
250 114
250
95
200 76
57
150 38
19
100 0
<= -250

(-250;250]

> 8750
(250;750]

(750;1250]

(1250;1750]

(1750;2250]

(2250;2750]

(2750;3250]

(3250;3750]

(3750;4250]

(4250;4750]

(4750;5250]

(5250;5750]

(5750;6250]

(6250;6750]

(6750;7250]

(7250;7750]

(7750;8250]

(8250;8750]
50 35
10
0
I F D MD MF
OPINIÓN TIEMPO DE SERVICIO

Problema 2 Señala las deficiencias que observes en los siguientes análisis estadísticos.
Caso 1: Estudio microeconómico realizado en cierto establecimiento comercial. Muestra:
Todos los días laborables de los 4 últimos años. Variable estudiada: VOLUMEN DIARIO
DE VENTAS (en miles de euros) (Gráfico de la derecha).
Caso 2: Inspección de envasado de naranjas en bolsas de 5 Kg.Muestra: 50 bolsas escogidas
al azar.Variable estudiada: CONTENIDO ENVASADO (en Kilogramos) (Gráfico de la
Izquierda).
HIST0GRAMA
8

6
No. de observaciones

0
4.7 4.8 4.9 5.0 5.1 5.2 5.3

CONTENIDO POR BOLSA


Problema 3 El siguiente gráfico apareció en el diario El País de fecha 6 de Mayo de
1999. Comenta las posibles deficiencias que observes en el mismo.

Problema 4 Los gráficos siguientes muestran los resultados obtenidos por 59 atletas de
ambos sexos en la prueba de 100 metros libres en unos Juegos Olímpicos. Indicar qué
ventajas e inconvenientes presenta cada uno de los dos análisis descriptivos realizados y
explicar los aspectos más reseñables de la distribución de la variable en estudio.
La media y la desviación típica de los datos son 12.3322 y 1.4043 repectivamente. Co-
mentar el valor que tienen estos estadísticos como medidas de posición y dispersión en
este estudio concreto.
PRUEBA DE 100 METROS LIBRES PRUEBA DE 100 METROS LIBRES
40
percentage

30

20

10

0
10 12 14 16 18 10 12 14 16 18
TIEMPO TIEMPO

Problema 5 En un reportaje sobre Internet en Castilla y León aparecido en el Diario


de Valladolid/El Mundo del día 19 de Junio de 2000 se incluía el siguiente gráfico.

¿Te parece correcto el gráfico? Si no es así, ¿qué deficiencias presenta? Observa el


porcentaje global de hogares con ordenador (310%) que se da para toda la región. Con
los datos que tienes, ¿puede obtenerse esa media a partir de los porcentajes de cada una
de las provincias?, ¿por qué?
Problema 6 En un reportaje sobre alergias primaverales aparecido en El Norte de
Castilla el día 2 de Abril de 2002 aparece el siguiente gráfico

¿Cuál es la población de estudio en este caso? ¿Cuál es la variable que se estudia? ¿De qué
tipo es la variable? En ese mismo reportaje se dice: “Las edades en las que la incidencia
se dispara son entre los 15 a los 26 años”. Comentar esta afirmación a la vista del gráfico.
¿Tiene algún defecto este gráfico? ¿Cuál o cuáles?

Problema 7 En un reportaje sobre el crecimiento de la economía aparecido en El Norte


de Castilla el día 29 de Agosto de 2002 aparece el siguiente gráfico

¿Presenta este gráfico algún tipo de defecto? ¿Sería apropiado construir un histograma a
partir de los datos contenidos en el gráfico? Justifica tus respuestas.

Problema 8 En el diario El País del día 6 de Junio de 2003 aparecen los siguientes
gráficos a propósito de la bajada de los tipos de interés y del cambio dólar-euro.

El gráfico relativo a los tipos de interés muestra los datos mensuales para cada una de las
4 zonas económicas que aparecen en el gráfico. ¿Habría sido apropiado construir una tabla
de frecuencias con dichos datos y un diagrama de barras a partir de ella? ¿Se observa
algún tipo de error en este gráfico? ¿Y en el relativo al cambio dólar-euro?
Problema 9 El día 18 de junio de 2008 se publicó en El Norte de Castilla un estudio
sobre costes laborales que incluía el gráfico que se reproduce a continuación.

¿Qué variable se estudia en el gráfico? ¿De qué tipo es esta variable? ¿El gráfico es
apropiado para este tipo de variable? ¿Sería apropiado un diagrama de Pareto para esta
variable? En caso afirmativo, construir un diagrama de Pareto en el que se desglosen todas
las clases de la variable (sin agrupar ninguna de ellas en la clase “Otras”). Justificar todas
las respuestas.

Problema 10 Las distribuciones de las notas obtenidas por un grupo de alumnos en las
asignaturas “Estadística” y “Cálculo” presentan las siguientes características:
    
Estadística 318 4.05 1.16 -0.10 2.73
Cálculo 280 3.15 0.72 0.16 2.85
Un alumno del grupo ha obtenido una nota de 6.15 en Estadística y de 4.90 en Cálculo.
¿En qué asignatura se puede decir que dicho alumno tiene mejor nota en relación al grupo?
Razona la respuesta.

Problema 11 El Defensor del Espectador había solicitado a varias cadenas de televisión


un informe sobre la duración de los cortes publicitarios. En el informe debía aparecer un
estudio estadístico de las duraciones de los últimos 100 cortes realizados en la progra-
mación. Una cadena envió el siguiente estudio:
Histograma
30
27
25 Media =992; Mediana=987; 1 = 6; 3 = 1336
Frecuencia

19
20 19 Rango =189; Varianza = 206116
14
15
11 Desviación típica = 454;
10
6 Coeficiente de asimetría = 01894
5 4
Coeficiente de apuntamiento = −07793
0
0 3 6 9 12 15 18 21
Duración

Completa el informe que debía enviar esta cadena calculando las medidas anteriores para
los datos tipificados. Dibuja también un histograma de los nuevos datos.
Problema 12 Una muestra de n=20 datos de una variable comienza con los siguientes
datos:
175 −006 027 −749 802 
Usando la desigualdad de Chebyshev, decir si es posible o no que la muestra esté tipificada
(estandarizada).

Problema 13 Una muestra de 100 componentes electrónicos se ponen a funcionar in-


interrumpidamente hasta que fallan. La duración media fue  = 10345  y la varianza
 2 = 997345 2  ¿Es posible que algún componente de la muestra haya durado más de
1000 horas?

Problema 14 Tres máquinas A, B y C se encargan del llenado de litronas de cerveza,


cuyo contenido debe estar entre 950 y 1050 ml. Al examinar la producción de cada una, se
ha determinado que las respectivas medias han sido 980 ml, 1000 ml y 1030 ml. Establecer
una cota para cada una de las desviaciones típicas que permita garantizar que más del
99% de la producción de cada una se encuentra dentro de los límites admisibles. ¿En cuál
de las máquinas hay mayor desviación típica? ¿Por qué?

Problema 15 En el taller de tubos de escape de una factoría dedicada a la fabricación


de automóviles se ha llevado a cabo, durante los últimos 30 días, un proceso de control
de calidad cuyo objetivo era inspeccionar todos los tubos de escape producidos. Cada día
se trabaja en tres turnos, y en cada turno hay un trabajador dedicado exclusivamente
a inspeccionar los tubos de escape fabricados en el turno anterior. Según los cálculos
del jefe de taller, en inspeccionar cada tubo se tarda un minuto, por lo que -descontados
descansos- en cada turno se pueden inspeccionar 420 tubos de escape. Sin embargo, la
producción de tubos de escape en cada turno es algo más variable. Según las cuentas de
este mismo jefe, en estos 90 turnos el número medio de tubos de escape producidos es de
408 por turno con una desviación típica de 10. ¿En cuántos turnos, a lo sumo, no pudo
revisarse completamente la producción de tubos de escape?

Problema 16 Cada gragea de un cierto medicamento ha de contener entre 77 y 83


mg. de hierro. La siguiente lista muestra el contenido en hierro de las 18 rechazadas al
inspeccionar una caja de 50 grageas:
70 705 71 73 745 755 755 76 76 ; 835 85 855 86 87 87 875 88 91
Calcular los percentiles 10 y 85. Sabiendo que el contenido medio en hierro de todas las
grageas de la caja es 80 mg., demostrar que la varianza es mayor o igual que 6.

Problema 17 El coche que ha ganado un gran premio de automovilismo ha conseguido


un tiempo medio por vuelta de 7515 segundos, con una desviación típica de 3 segundos,
para recorrer un total de 30 vueltas. ¿Se puede afirmar que ha circulado al menos el 80%
de sus vueltas con un tiempo comprendido entre 71 y 79 segundos? ¿Cuánto tiempo ha
tardado, como mínimo, en dar su mejor vuelta?
Problema 18 Se anotan valores de la variable X =“Precio en euros de un determinado
artículo” en 10 establecimientos disponiendose de los siguientes resultados:
P10 P10 2
=1  = 428 =1  = 18324
Si los precios se rebajan en un 10%, ¿cuánto vale el coeficiente de variación de los precios
rebajados? ¿Es posible que haya un precio rebajado con un valor de 40 euros?

Problema 19 Una empresa de aviación está probando sensores de velocidad propor-


cionados por dos fabricantes diferentes A y B. Ha probado 15 sensores de A obteniendo
que la duración media de los mismos es de 15372 horas y una varianza de 95099 horas2 .
Los sensores de la empresa B han sido probados en 2 fases. En la primera se probaron 10
sensores, obteniéndose una duración media de 16120 horas. En la segunda se probaron 17
sensores, obteniéndose una duración media de 14920 horas. La desviación típica de los 27
sensores del segundo fabricante es de 30643 horas. Utilizando toda la información, ¿qué
fabricante se debe seleccionar como proveedor de los sensores, si estos se van a usar en
una aplicación que requiere que funcionen 15000 horas ininterrumpidamente?

Problema 20 Se tiene una muestra de 10 individuos en la que se mide la altura. ¿Es


posible que un individuo de la muestra mida 215 metros en cada uno de las siguientes
situaciones?
a) La media y la desviación típica son 165 y 015 metros, respectivamente.
b) Los cuartiles primero y tercero son 150 y 190.
c) La distribución es exactamente simétrica, la mediana es 170 metros y el coeficiente
de variación es 01.

Problema 21 Sea 1   31 una muestra de los sueldos mensuales de varios funcionar-
ios en mayo. Sean 1   31 los nuevos sueldos de junio tras aplicárseles el recorte:
 = 095 ·  ,  = 1  31. Se conocen los siguientes datos de los sueldos en mayo:
(1) = 860 (15) = 1650 (16) = 1700
(30) = 2600 () = 1900 3 () = 1860
2
() = 500  = 1660  = 211600
Elaborar un diagrama de caja para los nuevos sueldos. A la vista del diagrama de caja,
¿qué podrías decir de la simetría de esta distribución? Da una cota inferior de la propor-
ción de los funcionarios que, tras el recorte, ganarán entre 1000 y 2100 euros.
Soluciones a los problemas de Estadística Descriptiva Univariante

Problema 1 Caso 1: El diagrama de Pareto sólo es apropiado para variables cualitativas


nominales. En el caso de variables cualitativas ordinales se debería de realizar un diagrama
de barras sobre un eje simbólico en el que se respete el orden natural de las categorías.
Cualquier otra ordenación oscurece la representación de la distribución de frecuencias, ya
que dificulta la comprensión del comportamiento global de la variable.
Caso 2: La variable estudiada es continua y positiva, por lo que el histograma no puede
comenzar antes del 0 en abscisas. El histograma realizado está construido sobre clases
aparentemente de igual longitud, 500 . No obstante, la primera clase con obser-
vaciones es (−250 250), si bien las observaciones (235 ) están realmente
comprendidas en (0 250). Por ello, la primera barra es engañosa ya que debería tener
como base (0 250) y una altura doble que la representada en el gráfico para representar
realmente la densidad de aparición de observaciones por unidad de tiempo. Lo más con-
veniente sería reconstruir el histograma estableciendo otra red de clases que comience en
0.

Problema 2 Caso1: El análisis estadístico realizado, consistente en la construcción de


un histograma y el cálculo de la media y la desviación típica, no es el más apropiado para
la variable VOLUMEN DE VENTAS, ya que parece obligado aprovechar el carácter de
serie temporal que tienen los datos.
Con el análisis realizado no observamos nada sobre la evolución del negocio a lo largo
del tiempo, sobre el comportamiento estacional, la existencia de ciclos expansivos o re-
cesivos, etc. Extraer ese tipo de información puede ser crucial para hacer previsiones.
Si representamos los datos como una serie temporal, es decir, el TIEMPO en abscisas y
el VOLUMEN DE VENTAS en ordenadas, la información mencionada se pondría más
fácilmente de manifiesto.
Para simplificar el gráfico, también podría ser interesante agrupar los datos utilizando
una unidad de tiempo más amplia, por ejemplo, la semana o el mes. También se podrían
hacer otros gráficos comparando las ventas en los distintos días de la semana, etc.
Caso 2: El histograma es la herramienta correcta para estudiar una variable continua como
es el CONTENIDO ENVASADO por bolsa de naranjas con un tamaño muestral de 50
observaciones. El problema reside en que la amplitud de las clases es demasiado pequeña y
esto hace que aparezca un aspecto muy irregular con excesivos picos y valles. Esto dificulta
la conceptualización global del problema y la observación del posible modelo subyacente.
Con una amplitud mayor de clase aparecería una imagen mucho menos dependiente de
los aspectos locales y más globabizadora del comportamiento de la √ población subyacente.
Por ejemplo, agrupando de 100 en 100 gramos saldrían 7 clases y 50 ≈ 7 es una elección
razonable para tamaños muestrales no muy elevados.
HIST0GRAMA HISTOGRAMA
8 18

7 16

6 14
No. de observaciones

12
5
No of obs

10
4
8
3
6
2
4
1 2
0 0
4.7 4.8 4.9 5.0 5.1 5.2 5.3 <= 4.7 (4.7;4.8] (4.8;4.9] (4.9;5.] (5;5.1] (5.1;5.2] (5.2;5.3] > 5.3
CONTENIDO POR BOLSA CONTENIDO POR BOLSA
Problema 3 En el gráfico se presentan tres series temporales referidas a la evolución
reciente de distintos aspectos del paro registrado (parados apuntados en el INEM).
La primera serie, en la parte superior derecha, refleja mes a mes la variable tasa de paro
en % desde octubre de 1998 hasta abril de 1999, último dato a la fecha del artículo. Esta
serie se presenta a través de la propia tabla de datos, sin realizar con ella ningún análisis
gráfico. En esta primera serie no observamos ninguna deficiencia desde un punto de vista
técnico.
La segunda serie representa la evolución mes a mes de la variable número de desemplea-
dos, de abril de 1998 a abril de 1999, o sea, en el último año. Esta serie está representa
grá ficamente con el formato habitual, es decir, en un diagrama bidimensional que en-
frenta el tiempo frente a la variable en estudio (número de parados) y une los puntos con
una línea poligonal. El gráfico correspondiente a esta serie presenta varios problemas. En
primer lugar, las ordenadas no comienzan en 0, con lo que las fluctuaciones relativas de
la serie parecen más bruscas de lo que son (en este caso se agudiza la importancia de
la disminución interanual del número de desempleados). Esto no necesariamente es un
defecto ya que es una práctica muy común en las representaciones gráficas cuando los val-
ores de las ordenadas que se representan son muy parecidos o están muy lejos del origen.
De este modo es posible observar mejor las diferencias y no ver un gráfico prácticamente
plano. La solución pasa por que el lector se fije en el detalle e interprete correctamente
las fluctuaciones de la variable más allá del mero efecto visual. Además, la rejilla que
representa las marcas en ordenadas (1,7, 1,8, ...) no se corresponde con los puntos repre-
sentados como se puede comprobar fácilmente. El primer valor (abril de 1998) está bien,
pero se ha comprimido la poligonal hacia arriba produciendo (intencionadamente o no) el
efecto de aparentar una menor disminución del número de desempleados. Por último, no
se indica que la variable representada se expresa en millones de parados, si bien se con-
trarresta el fallo con el hecho de que aparecen los valores enteros sobre el gráfico. En el
eje de abscisas hay también una errata en la separación de los años 1998 y 1999.
La tercera serie, titulada “El paro en abril”, refleja año a año, desde 1989 a 1999, los val-
ores de la variable incremento del número de parados ocurrido en el mes de abril (con
respecto al número de parados del mes anterior). Evidentemente, los incrementos nega-
tivos corresponden a disminuciones. Esta serie está también representada gráficamente,
pero no con el formato más habitual (el de la serie anterior), sino mediante barras que re-
flejan el valor de la variable en cada año y que están colocadas sobre un eje de abscisas
que representa el tiempo. Como el mes de abril es un mes habitualmente propicio a las
contrataciones, los valores son generalmente negativos y las barras correspondientes están
orientadas hacia abajo en un eje de ordenadas imaginario. El problema está, de nuevo,
en la ausencia de un origen de ordenadas, si bien en este caso si que parece que es el 0.
Además, el dato correspondiente a 1993 aparece sin signo. De este modo, necesariamente
hay un error: o bien falta el signo −, o bien la barra es hacia arriba.
NOTA: Cualquier parecido de la segunda serie con un polígono de frecuencias sobre un
histograma, o de la tercera con un diagrama de barras para una variable cualitativa es
pura coincidencia.

Problema 4 Los datos del estudio son reales y pertenecen a las pruebas de Decathlon
(hombres) y de Heptathlon (mujeres) correspondientes a los Juegos Olímpicos de 1988.
Participaron 34 hombres y 25 mujeres, respectivamente.
El enunciado de la cuestión ya nos pone sobre aviso del posible problema causado por
no haber tenido en consideración en los análisis el factor SEXO. Afortunadamente, el
histograma es capaz de informar del problema a través de su aspecto claramente bimodal.
Esto es debido a la clara separación entre los resultados que obtienen hombres y mujeres
en la prueba de 100 metros lisos. Como es bien sabido, el box-plot, a pesar de ser
una herramienta ágil y muy informativa sobre diversos aspectos de las distribuciones de
frecuencias, es incapaz de reflejar la bimodalidad o multimodalidad de una distribución.
La mezcla de los dos conjuntos de datos heterogéneos distorsiona completamente los
resultados de cualquier análisis estadístico. Como muestra basta ver que el box-plot
no refleja la presencia de una observación claramente atípica a pesar de estar diseñado
para ello.
Los estadísticos media y desviación típica no tienen ningún valor en el conjunto de datos
mezclados. Basta comprobar que la media cae precisamente en la zona de menor frecuencia
entre las dos modas. Análogamente, el valor elevado de la desviación típica da cuenta del
carácter poco representativo que tiene la media para este conjunto de datos.
En estas circunstancias, lo razonable habría sido tener en cuenta el factor SEXO con lo
que se trataría de un conjunto de datos bivariante para el que el estudio de mayor interés
sería el de la posible dependencia entre el TIEMPO y el SEXO (Comparación de grupos).
A continuación se muestran los análisis gráficos apropiados para este problema. Como
era previsible, el TIEMPO es fuertemente dependiente del SEXO y las distribuciones
de frecuencias de ambos sexos presentan aspectos razonablemente simétricos. Los datos
correspondientes a los hombres están centrados en torno a valores más bajos que los de
las mujeres y además son menos dispersos. Los valores de los estadísticos de posición y
dispersión tienen verdadero sentido trabajando por sexos. Así, en el caso de los hombres,
la media y la desviación típica valen 11.22 s. y 0.29 s. respectivamente, y en el caso de
las mujeres, 13.84 s. y 0.74 s.
Ahora el box- plot correspondiente a los tiempos de las mujeres si que muestra la atipicidad
de la observación situada más allá de 16 s.
PRUEBA DE 100 METROS LISOS PRUEBA DE 100 METROS LISOS
SEXO FEMENINO
75
50 MUJERES
percentage

25
0
25
VARONES
50
75
10 12 14 16 18 seg. 10 11 12 13 14 15 16 17
SEXO MASCULINO TIEMPO

Problema 5 El gráfico presentado en el articulo es claramente incorrecto. En los grafico


de cada provincia se ha marcado un sector con ángulo proporcional al porcentaje de hoga-
res con ordenador, y es el área o superficie marcada lo que nos debe informar visualmente
de ese porcentaje. En un diagrama de sectores sobre una superficie circular este prob-
lema no surge pues el área del sector y el ángulo que lo determina son proporcionales.
Además, este problema individual de las gráficas de cada provincia se agrava al intentar
comparar visualmente los porcentajes entre provincias. La utilización de diagramas de
sectores sobre circulos de igual radio puede ser una buena alternativa al gráfico propuesto.
El porcentaje global de hogares con ordenador en toda la comunidad de Castilla y León no
puede ser obtenido a partir de los porcentajes individuales de cada provincia. Necesitamos
conocer el número de hogares con que cuenta cada provincia. Por supuesto, no podemos
obtener ese porcentaje global haciendo la media de los nueve porcentajes por provincias.
Problema 6 La población de estudio son los pacientes con alergias que han pasado
por la unidad de alegiología del hospital del Rio Hortega. La variable que se estudia en
este caso (la pregunta que se le hace a los pacientes) es la edad. No se les pregunta si
tienen o no alergia puesto que la tienen todos los que aparecen en el estudio ni que tipo
de alergia tienen (que no aparece por ninguna parte). La variable es numérica contínua
aunque la respuesta es habitualmente discreta pero el hecho de tener muchos valores
diferentes posibles (rango) hace que el tratamiento que se le da sea de variable contínua
(agrupamiento de valores en clases).
La afirmación sobre la incidencia entre los 15 y los 26 años no se puede comprobar con el
gráfico que se tiene. Se puede sospechar que ha habido una errata y que se quería decir
24 años en lugar de 26 puesto que esa es la barra más alta pero en este caso se estaría
incurriendo en un error puesto que el número de pacientes alergicos entre los 5 y los 14
años es superior al que hay entre los 15 y los 24.
Ese es uno de los mayores problemas del gráfico. La diferente longitud en las clases no se
ve reflejada en la anchura de las barras. Las tres primeras cubren intervalos de edad de
cinco años y las restantes de diez excepto la última. Para ver realmente la distribución de
las alegrias por edades esto no debería ocurrir. Es decir, o bien los intervalos son de igual
longitud, o bien la anchura de las barras debe reflejar esa diferencia. Además al tratarse
la variable como contínua las barras deberían ser adyacentes.

Problema 7 El principal defecto que presenta el gráfico radica en el valor desde el que
se construyen las barras: -2, dando lugar a una impresión errónea de las magnitudes que se
representan. Así por ejemplo, el valor del año 93 podría interpretarse como crecimiento
positivo. Además la longitud de las barras no guarda relación con el valor que se re-
presenta, y esto es especialmente visible en el dato -1.2, con longitud proporcional a 0.8,
minimizando el efecto del decrecimiento.
¿Sería apropiado construir un histograma a partir de los datos contenidos en el gráfico?
No, pues se perdería el carácter de serie de tiempo y toda la información que ello conlleva.

Problema 8 Si construyeramos la tabla de frecuencias para cada una de las cuatro


zonas representadas en el gráfico, deberíamos tener en cuenta que se trata de una variable
continua y que, en cualquier caso, deberíamos agrupar los valores de la variable en inter-
valos. Aunque es posible construir una tabla de frecuencias para cada zona, perderíamos
la información que sí nos proporciona la serie temporal. La importancia de los datos no
radica en los valores que la variable presenta y las frecuencias con las que presenta es-
tos valores, sino la tendencia con la que éstos se obtienen. Es más interesante analizar la
evolución de los tipos de interés que analizar la repetición de éstos.
El diagrama de barras no sería una representación adecuada porque la variable que se
debería representar es continua y el diagrama de barras es para otro tipo de variables.
Para cada zona se ha medido el tipo de interés presente a mediados de cada mes desde
el verano de 2001, y se ha trazado la serie temporal correspondiente a estos datos. A
continuación se han dibujado las cuatro gráficas en los mismos ejes para establecer una
comparación entre la evolución en las cuatro zonas. La gráfica es correcta, hay un error
en el eje temporal puesto que en un año (2002) hay 13 divisiones, que no se corresponden
con la división en meses del año; este error no es demasiado importante, parece más bien
una errata que un defecto del gráfico, y se podría haber detectado si en el eje se hubiera
incluido una leyenda que indicase los meses.
En cuanto al gráfico correspondiende al cambio dólar-euro a lo largo del día 5 de junio
de 2003, también se trata de una serie temporal. En términos estadísticos la inclusión de
la nota en la gráfica no es apropiada, aunque sí explicativa de la causa que ha originado
el súbito incremento en el cambio. Hay que tener el cuenta que el eje de ordenadas no
comienza en 0, lo que puede hacer que el incremento parezca mucho mayor de lo que
en realidad es; la escala condiciona este crecimiento. El gráfico muestra la evolución del
cambio a lo largo de un día y la elección de escala parece que se debe sólo a que se pueda
apreciar la diferencia entre el cambio en el tramo que va desde 12:30 hasta 15:30 y la
estabilidad del resto de horas a lo largo del día.
También sería conveniente extender el eje de ordenadas para que se pueda comprobar el
valor correspondiende al cambio en el tramo de 18:30 hasta 21:00, pues todos los valores
quedan por encima de la máxima marca del eje.

Problema 9 A la vista del gráfico y las clases que en él aparecen es inmediato que
la variable estudiada es  = “motivo o causa de las horas laborales no trabajadas”. Y
puesto que los valores que toma son categorías, y estas no tienen un orden natural, es una
variable cualitativa medida en escala nominal.
El diagrama de sectores es un gráfico apropiado por el tipo de variable que se representa
(var. cualitativa). Y el diagrama de Pareto también es apropiado pues la variable es
cualitativa y está medida en escala nominal. Por tanto, tiene sentido ordenar las clases de
mayor a menor frecuencia en un diagrama de barras, en este caso con el fin de identificar
de una forma rápida las causas más frecuentes de pérdida de horas laborales.
A la hora de construir el diagrama de Pareto se ha de tener en cuenta que la categoría
“Otras” del diagrama de sectores, con una frecuencia relativa del 91%, aparece desglosada
en el cuadro de la derecha en “Maternidad”, “Permisos remunerados”, etc ... junto con las
frecuencias relativas respecto a la clase “Otras”. Así por ejemplo, las horas no trabajadas
por “Maternidad” son el 509% del 91%, que respecto del total son 91 × 0509 = 463%.
De esta forma, la tabla de frecuencias relativas (en %) para todas las clases queda,
1 - Fiestas 48.2 7 - Conflictividad laboral 0.63
2 - Incap. Temporal 28.5 8 - H. perd. en el lugar de trab. 0.26
3 - Vacaciones 14.2 9 - H. no trabajadas y no remuneradas 0.15
4 - Maternidad 4.63 10 - Horas no trabajadas y remuneradas 0.11
5 - Permisos Rem. 1.79 11 - H. pérdidas por razones tec. o econom. 0.11
6 - Compen. por horas extra 1.42
y el diagrama de Pareto es
Problema 10 Para poder comparar la posición del alumno en cuestión respecto al grupo
en las dos asignaturas es necesario homogeneizar las unidades de medida. Como sabemos,
la utilización de una escala u otra de medida es una cuestión bastante arbitraria y hay
que pensar que ni el origen en 0 ni la unidad elegida (punto) tiene porqué tener el mismo
significado en ambas asignaturas. Dicho en otras palabras, la distribución de las notas de
ambas asignaturas no necesariamente tienen la misma posición y dispersión.
Un procedimiento para resolver esta dificultad es tipificar las variables (restar la media y
dividir por la desviación típica). Ahora el origen en ambos casos pasa a ser la media y
medimos ambas variables en ”unidades de desviación típica”, es decir, una nota tipificada
representa el número de desviaciones típicas que se aleja de la media en dirección positiva
o negativa.
Este procedimiento se ve avalado por el hecho de que las dos distribuciones parecen tener
(por la información que se da a través de los coeficientes de asimetría y apuntamiento)
una forma muy similar y seguramente de aspecto normal. Así pues, al tener las dos
distribuciones una forma análoga, la tipificación homogeiniza también la posición y la
dispersión y así podemos ver claramente la situación concreta de nuestro individuo en
ambos grupos.
− 615 − 405
́ : = = 181
 116
− 490 − 315
́ : = = 243
 072
Así pues, observamos que la nota es ciertamente elevada en ambas asignaturas, pero
sensiblemente mejor en Cálculo que en Estadística.

Problema 11 Puesto que la tipificación de una variable es una transformación lineal


 −
=

los estadísticos de posición como la media, mediana y cuartiles de la variable tipificada
resultarán transformados linealmente como la propia variable. Es decir, para calcularlos
hay que restar la media de la variable de partida ( = 992) y dividir entre la desviación
típica ( = 454).
Media: =0
987 − 992
Mediana:  = = −0011013
454
6 − 992
1 Cuartil: Q1 = = −086344
454
1336 − 992
3 Cuartil: Q3 = = 075771
454
En cambio, ya que el cambio de localización (restar ) no afecta a las medidas de disper-
sión, para calcular éstas en la variable tipificada bastará con dividir entre la desviación
típica:
Varianza: 2 = 1
Desv. Típica:  = 1
(() − ) − ((1) − ) () − (1) 189
Rango: () − (1) = = = = 4163
  454
Por último, al ser la tipificación un simple cambio de localización y escala que conserva la
estructura original de los datos, los coeficientes de asimetría y apuntamiento permanecen
invariantes:
Coeficiente de asimetría  = 01894
Coeficiente de apuntamiento  = −07793
Por último, para construir el nuevo histograma, al ser todos los intervalos de igual ampli-
tud, es suficiente tipificar los extremos o las marcas de clase, pasando a ser la amplitud
de éstas igual a 3454 = 066
Histograma
30
27
25

Frecuencia
20 19 19
15 14
11
10
6
5 4

0
-2.18 -1.52 -0.86 -0.2 0.46 1.12 1.78 2.44
Datos Tipificados

Problema 12 Si los datos estuvieran tipificados, tendríamos que la media y la desviación


típica serían, respectivamente,  = 0 y  = 1
Entonces, aplicando la Desigualdad de Chebyshev con  = 7, por ejemplo, tendríamos:
© ¯ ¯ ª 1
   ; ¯ −  ¯    2 

es decir,
1
 { ; | |  7}  = 002
49
Pero en la muestra con  = 20 datos que se plantea, observamos que que hay al menos
dos datos con valor absoluto mayor que 7, es decir
2
  { ; | |  7} ≥ = 01  002
20
lo cual contradice la desigualdad de Chebyshev. En consecuencia, los datos del problema
no pueden estar tipificados.

Problema 13 Tenemos una muestra de  = 100 componentes electrónicos a los que se


ha medido la variable  = ́ Procesados los datos, se obtienen los estadísticos
 = 10345  y  2 = 997345 2 ( = 99867 ) Recordemos que la desigualdad de
Chebyshev nos dice que
© ¯ ¯ ª 1
  ; ¯ −  ¯   ≤ 2 

Naturalmente, como los datos son todos positivos, para cualquier valor de  de interés
sólo existirá la cola de la derecha, es decir, la desigualdad de Chebyshev es realmente
© ª 1
  ;  −    ≤ 2 

es decir
© ª 1
  ;    +  ≤ 2 

Entonces, haciendo  +  = 1000 obtenemos  = 897744 es decir
1
 { ;   1000} ≤ = 00124
8977442
De este modo, puede haber a lo sumo un 124% de observaciones en la muestra por encima
de 1000 Como la muestra es de tamaño  = 100 entonces a lo sumo podría haber 1
observación mayor de 1000.
Nótese que se trata de un problema de Estadística Descriptiva donde los  = 100 valores
de la muestra ya están obtenidos. No estamos preguntando sobre la probabilidad de que
al poner a funcionar los componentes electrónicos alguno dure más de 1000 Se trata
de saber simplemente si entre 100 números que cumplen ciertas relaciones aritméticas
( = 10345  y  2 = 997345 2 ) es posible que haya alguno que sea superior a 1000.
Problema 14 Aplicando la desigualdad de Chebyshev en cada una de las tres máquinas,
se verifica:
Máquina A : ({  950} ∪ {  1050}) ≤  ({  950} ∪ {  1010}) =
1
= (| − 980|  30)  ⇒  = 10;  = 10 ≤ 30 ⇒  ≤ 3
100
Aunque no es necesario, si se repite el razonamiento con el extremo admisible más alejado,
1050, se obtendría que  ≤ 7. Por tanto, la conclusión es  ≤ 3  7 y la cota pedida es 3.
({  950} ∪ {  1050}) ≤ ({  950} ∪ {  1010}) =
1
Máquina B :  ({  950} ∪ {  1050}) =  (| − 1000|  50)  ⇒
100
⇒  = 10;  = 10 ≤ 50 ⇒  ≤ 5
Máquina C :  ({  950} ∪ {  1050}) ≤ ({  1010} ∪ {  1050}) =
1
=  (| − 1030|  20)  ⇒  = 10;  = 10 ≤ 20 ⇒  ≤ 2
100
Como era lógico suponer, cuanto más cerca de uno de los límites de tolerancia se encuentre
la media, hay un mayor riesgode rebasar ese límite y, por tanto, para disminuir ese riesgo,
menor ha de ser la desviación típica. En consecuencia, la máquina B, cuya media está
situada en el centro del intervalo admisible, es la que puede admitir una mayor desviación
típica.

Problema 15 Si denominamos  a la variable estadística que contabiliza el número de


tubos de escape producidos en un turno, disponemos (el jefe de taller) de una muestra de
90 observaciones de esa variable. Se pide dar una cota para el número de turnos en que
no pudo revisarse completamente la producción, es decir, para la proporción de valores de
la muestra que exceden del valor 420. Para ello usaremos la desigualdad de Chebychev,
pues conocemos  = 408 y  = 10:
 { :  ≤ 420} = { :  − 408 ≤ 420 − 408}
1
≥ { : | − 408| ≤ 12} ≥ 1 − = 03055
122
Luego,  { :   420} ≤ 06945. Es decir, hasta en un 6945% de los turnos (63 de los
90) pudieron no haberse revisado completamente los lotes de tubos de escape.

Problema 16 Como tenemos 50 observaciones


10 1¡ ¢ 745 + 755
· 50 = 5 ⇒ Percentil 10 = (5) + (6) = = 75
100 2 2
y
85
· 50 = 425 ⇒ Percentil 85 = (43) = 85
100
ya que ocupa el octavo lugar empezando por el final.
Hay por tanto cinco valores menores que 75 y siete mayores que 85. En total, 12 de los
50 datos están a una distancia de la media, 80, mayor que 5.
¡¯ ¯ ¢ 2
Aplicando la desigualdad de Chebyshev,   ¯ − ̄ ¯   ≤ 2 , se obtiene:

2
12  12 · 25
 (| − 80|  5) = ≤ 2 ⇒ = 6 ≤ 2
50 5 50
Problema 17 Para resolver esta cuestión debemos emplear la desigualdad de Chebyshev
ya que solo disponemos de la media y la desviación típica de las observaciones.
¡ ¢
 (71 ≤  ≤ 79) =   71 − 7515 ≤  −  ≤ 79 − 7515
¡ ¢ ¡¯ ¯ ¢
=   −415 ≤  −  ≤ 385 ≥  ¯ −  ¯ ≤ 385
µ ¶ µ ¶2
¯ ¯ 385 3
=   ¯ −  ¯ ≤  ≥1− = 039281
3 385
con lo que al menos el 3928% de las vueltas se dieron en esas condiciones. No podemos
asegurar por tanto que el 80% de las observaciones estén entre 71 y 79 segundos.
Como se han dado 30 vueltas, para la segunda parte de la cuestión necesitamos calcular
el menor valor de  posible que verifique
1
 ( ≤ ) ≤
30
Empleando de nuevo la desigualdad de Chebyshev tenemos
¡ ¢ ¡¯ ¯ ¢
  −  ≤  − 7515 ≤  ¯ −  ¯ ≤ | − 7515|
µ ¶ µ ¶2
¯ ¯ 7515 −  3 1
¯
=   −  ≤ ¯  ≤ =
3 7515 −  30
puesto que lógicamente  será menor que 7515. Por tanto despejando nos queda
7515 −  √
= 30
3
 = 5871

Problema 18 La solución a la primera pregunta se obtiene del siguiente modo:



 = 09 =⇒  = 09 2 = 092 2 =⇒  = = 

P10 2 Ã P10 !2

=1  
2 = − =1
10 10
= 18324 − 4282 = 056

056
 = = 00175
428
Para la solución de la segunda pregunta vamos a aplicar la desigualdad de Chebyschev:
(:  ≥ 40) =  (:  − 09 · 428 ≥ 40 − 09 · 428)
à √ !2
09 ∗ 056
≤ (: | − 09 · 428| ≥ 148)  = 0207
148
Y, por tanto, el número de artículos con un precio rebajado de 40 euros o más es menor
que 207, con lo que podría haber algún precio rebajado con un valor de 40 euros o más.

Problema 19 Serán preferibles aquellos sensores que con mayor frecuencia duren al
menos las 15000 horas que se necesitan. Así, aplicando la desigualdad de Chebyshev en
la muestra de sensores de A tenemos que
(  15000) = ( −   15000 − 15372) = ( −   −372)
µ ¶2
1 30833
≤ (| −  |  372) ≤ 2 = = 06872
 372

donde  = 95099 = 30833 Por tanto, pasando al complementario (  15000) ≥
03128
Para utilizar toda la información del fabricante B tenemos que calcular la media de la
muestra de 10 + 17 = 27 observaciones que tenemos,
10 × 16120 + 17 × 14920
 = = 1536444
27
y puesto que  = 30643,
(  15000) = ( −   15000 − 1536444)
= ( −   −36444) ≤  (| −  |  36444)
µ ¶2
1 30643
≤ 2 = = 07070
 36444
por lo que,  (  15000) ≥ 02930 La conclusión es entonces que son preferibles los
sensores del fabricante A (aunque por poco).

Problema 20 Tenemos una muestra con  = 10 individuos sobre los que medimos la
altura. Por tanto tenemos 10 valores {1  2      10 }.
a) Conocemos que  = 165 y  = 015. Aplicando la desigualdad de Chebyshev para
variables estadísticas tendremos,
( ≥ 215) = ( − 165 ≥ 05)
µ µ ¶ ¶ µ ¶2
05 015 1
≤  | − 165| ≥ 015 ≤ = 009 
015 05 10
Luego no es posible. No puede haber ni un solo individuo de los 10 con un valor de la
altura igual o superior a 215.
b) Sí es posible. No hay ninguna restricción que se derive de 1 = (3) y 3 = (8) con
respecto a lo que podría ser (9) ó (10) . Tampoco tiene nada que ver con el valor del
límite superior que se calcula para hacer el Box-plot.
c) Si es simétrica entonces la mediana coincidirá con la media, luego  = 170. De
aquí, dado que  =  = 01, obtenemos la desviación típica  = 017. Aplicando
nuevamente la desigualdad de Chebyshev, pero teniendo en cuenta ahora la simetría,
tendremos
µ ¶2
1 1 017 1
 ( ≥ 215) =  ( − 17 ≥ 045) =  (| − 17| ≥ 045) ≤ = 007 
2 2 045 10
Luego no es posible. No puede haber ni un individuo con esas características.

Problema 21 Teniendo en cuenta que el recorte de sueldos es la transformación lineal


 = 095 tenemos

1 () = 095 · 1 () = 095 · (3 () − ()) = 1292


3 () = 095 · 3 () = 1767
() = 095 · () = 095 · (16) = 1615
(1) = 095 · (1) = 817
(30) = 095 · (30) = 2470
(31) = 095 · (31) = 095 · ((1) + ()) = 2622
() = 3 () − 1 () = 475
1 () − 15 · () = 5795
3 () + 15 · () = 24795
 = 095 ·  = 1577
 = 095 ·  = 437
Con todos estos datos ya estamos en disposición de elaborar el diagrama de cajas. Si
se efectúa el diagrama de caja podrá verse que la distribución presenta asimetría a la
izquierda.
Por último, vamos a obtener una cota inferior de la proporción de los sueldos en junio
entre 1000 y 2100 euros:
( : 1000 ≤  ≤ 2100) =
( : 1000 − 1577 ≤  −  ≤ 2100 − 1577) =
( : −577 ≤  −  ≤ 2100 − 1577) =
( : −577 ≤  −  ≤ 523) ≥
1
( : | − | ≤ 523) ≥ 1 − ³ ´2 = 03018
523

Estadística 1 Grados de Ingeniería Mecánica e
Ingeniería Química
Problemas de Estadística Descriptiva Bivariante

Problema 1 Una compañía petrolera fabrica gasolina bajo dos fórmulas, una que con-
tiene tetraetil-plomo ( 1) y otra sin plomo ( 2). Una característica de calidad importante
de la gasolina es el “Índice de octano en carretera” (Variable ). Se toman diez observa-
ciones de cada fórmula y se anotan los valores de la variable  obteniendo los siguientes
resultados:
 1 8855 8951 9014 9019 9110 8875 9028 9118 9065 9063
 2 8965 9121 9412 9170 9168 8945 9059 9124 9113 9210
Hacer una comparación gráfica de las dos fórmulas y sacar conclusiones.

Problema 2 Se quiere comparar el grado de dificultad que tienen los alumnos para su-
perar tres asignaturas 1, 2 y 3. Por la información contenida en las actas de dichas
asignaturas, se sabe que en la asignatura 1 se presentaron al examen 321 alumnos, de
los cuales resultaron 150 Suspensos, 138 Aprobados y 33 Notables o Sobresalientes. Para
la asignatura 2 se presentaron al examen 240 alumnos, de los cuales resultaron 150 Sus-
pensos, 78 Aprobados y 12 Notables o Sobresalientes. Por último, para la asignatura
3 se presentaron al examen 402 alumnos, de los cuales resultaron 190 Suspensos, 172
Aprobados y 40 Notables o Sobresalientes. Tabular estos datos de la manera más apropi-
ada para poder sacar conclusiones sobre la existencia o no de diferencias entre asignaturas
en cuanto a la dificultad para superar los exámenes. ¿Cuáles son esas conclusiones?

Problema 3 En una planta industrial dedicada a la fundición de chatarra, una variable


importante es el PORCENTAJE DE DESPERDICIO que se produce en cada colada. Se
quiere comparar muestras tomadas en dos factorías de dicha planta y para ello se anali-
zan los datos de las coladas realizadas durante el último año, obteniéndose el diagrama
siguiente. Con la precisión que permiten los datos de que dispones, dibuja aproximada-
mente un box-plot múltiple como técnica alternativa para realizar la comparación de las
dos factorías respecto al PORCENTAJE DE DESPERDICIO. Explica brevemente en qué
aspectos difieren las dos factorías y en cuáles se asemejan.
POLÍGONO DE FRECUENCIAS ACUMULADAS
100
90 FACTORIA 2

80
70
Fr. Relativa (%)

60
FACTORIA 1
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10
PORCENTAJE DE DESPERDICIO
Problema 4 En la tabla se muestran las extracciones de órganos realizadas en los hos-
pitales de Castilla y León en los últimos años.
X = Órgano donado
Riñón Hígado Corazón Pulmón
Y = Año 1996 100 16 16 16
1997 102 20 20 20
1998 123 51 18 18
1999 112 50 20 14
2000 130 62 20 15
Calcular la distribución de Y condicionada por el tipo de donación realizada. Dibujar
mediante un diagrama de sectores la información global de la variable X. Realizar una
representación gráfica que muestre la evolución entre los distintos tipos de donaciones.

Problema 5 Al preguntar a los alumnos de Estadística por su altura los resultados han
sido:
n respuestas media S Mediana Q1 Q3 Mínimo Máximo
Chicos 42 175 497 173 168 182 162 191
Chicas 36 169 482 166 160 177 155 183
Representa la información de la tabla utilizando un diagrama adecuado. Elabora, si es
posible, una tabla similar para la altura sin tener en cuenta la variable Sexo.

Problema 6 En El Norte de Castilla del día 6 de junio de 2004 aparecen los siguientes
gráficos relacionados con los accidentes de trabajo en la Comunidad de Castilla y León.

¿Cuáles son las dos variables registradas para cada uno de los accidentes? ¿De qué tipo son
cada una de esas variables? Construir una tabla de contingencia con los datos contenidos
en los gráficos y dar la tabla de distribuciones condicionadas por cada año.
Problema 7 La distribución de empresas según sector económico (en %) en cada una
de las 4 comunidades autónomas de la zona cantábrica es la siguiente:
Industria Construcción Comercio Resto
Galicia 8 13 32 47
Asturias 6 11 31 52
Cantabria 6 13 29 52
Pais Vasco 11 15 28 46
Para conocer la proporción global en toda la zona cantábrica se han formado los promedios
por columna de la tabla anterior, pero en el periódico han aparecido otros valores. ¿Cuál
de las dos opciones crees que es la correcta? ¿Por qué?
Industria Construccion Comercio Resto
Promedios 7.75 13 30 49.25
Periódico 8 14 29 49
En el periódico aparece también el número total de empresas (418000). Indica (sin re-
solverlo) cómo se puede calcular el número de empresas en cada una de las 4 comunidades.

Problema 8 En la edición del día 25 de julio de 2004 del diario El País se trata sobre
la evolución de la distribución de carburante en España. Así se dividen las estaciones de
servicio de carburante en abanderadas (AOP) y situadas en centros comerciales y se con-
sideran los años 2002 y 2003 ofreciendose el siguiente gráfico.

Comentar posibles defectos del gráfico y, en su caso, dar un gráfico correcto para los
mismos. Construir, si es posible, una tabla de contingencia con dichos gráficos indicando
claramente las dos variables de la misma y las clases de cada una. Construir la tabla
apropiada para decidir si la forma de distribución es estable en esos dos años y tomar una
decisión sobre esa estabilidad.

Problema 9 La siguiente tabla muestra los datos de emisiones de gases de efecto inver-
nadero en el año 2001 para los 15 países de la U.E. (en millones de toneladas equivalentes
de CO2).
País País País
Austria 85.9 Germany 993.5 Netherlands 219.7
Belgium 150.2 Greece 132.2 Portugal 83.8
Denmark 69.4 Ireland 70.0 Spain 382.8
Finland 80.9 Italy 545.3 Sweden 70.5
France 560.7 Luxembourg 6.1 United Kingdom 657.2
Construye un diagrama de cajas de esta muestra de datos y, ayudándote del gráfico,
comenta las principales características de la distribución. ¿Es bimodal o unimodal? Da
una medida de posición/localización de España.
Problema 10 En un artículo sobre la regularización de canteras en el País Vasco, apare-
cido en el El País el 20 de marzo de 2006, se incluyen los siguientes gráficos:

¿Qué variables se consideran en el artículo? ¿De qué tipo de variables se trata? ¿Permite
este tipo de diagramas hacer un análisis de la asociación entre variables? ¿Por qué? Con-
struir una tabla que permita decidir si la distribución de las canteras de Caliza entre las
provincias es igual o no a la de las canteras de Mármol y a la de las canteras de Ofita.

Problema 11 En un informe de la Junta de Castilla y León sobre la situación de la


juventud en la comunidad, aparecen los siguientes datos:

¿Qué tipo de variable es la denominada “Número de miembros del hogar”? Construir


un diagrama de sectores con los datos relativos a la provincia de Valladolid. Proponer
una tabla y un gráfico que permitan comparar las provincias de Ávila y Valladolid y
el conjunto de la comunidad autónoma con respecto al número de miembros del hogar.
Extraer conclusiones de esta comparación.
Problema 12 El examen de selectividad de cierta asignatura tiene dos opciones  y 
entre las que el alumno puede elegir. Los resultados de uno de los correctores de dicha
asignatura se resumieron en la siguiente tabla.
Summary Statistics for Nota
Opcion=A Opcion=B
Count 151 40
Average 5,64305 4,3575
Median 5,6 4,3
Standard deviation 0,8831 1,29737
Minimum 0 0,2
Maximum 10,0 8,7
Lower quartile 4,1 2,7
Upper quartile 7,3 5,95
Skewness -0,19898 0,00165253
Kurtosis -0,579208 -0,749473

Construir un gráfico que permita comparar los resultados de las dos opciones y extraer
conclusiones. ¿Las variables nota y opción son independientes? ¿Cuál es el número
máximo posible de alumnos que eligieron la opción A y obtuvieron una nota inferior a la
media de los resultados de la opción B?

Problema 13 En el número de mayo de 2008 de la revista Índice editada por la Uni-


versidad Autónoma de Madrid aparece el siguiente gráfico dentro de un artículo titulado
“Agua y Sostenibilidad”.

¿Cuáles son las dos variables a partir de las cuales se ha construido este gráfico? ¿De
qué tipo son estas variables? ¿Es este gráfico apropiado para dichas variables? ¿Puedes
decidir a partir del gráfico si las variables son independientes? En caso afirmativo, ¿lo son?
Justificar. Construir, si es posible, la tabla de distribución conjunta de esas variables. En
caso negativo, ¿qué datos adicionales serían necesarios para obtenerla?
Problema 14 Según los datos de la Junta de Castilla y León la distribución provincial
de la población en la región entre los años 2000 y 2007 es la que aparece en la siguiente
tabla.
FECHA 2000 2001 2002 2003 2004 2005 2006 2007
PROVINCIA
AVILA 164.991 163.885 165.138 165.480 166.108 167.032 167.818 168.638
BURGOS  347.240 349.810 352.723 355.205 356.437 361.021 363.874 365.972
LEON  502.155 499.517 496.655 495.998 492.720 495.902 498.223 497.387
PALENCIA  178.316 177.345 176.125 175.047 173.990 173.471 173.153 173.281
SALAMANCA  349.733 350.209 347.120 348.271 350.984 352.414 353.110 351.326
SEGOVIA  146.613 147.028 149.286 150.701 152.640 155.517 156.598 159.322
SORIA  90.911 91.314 91.487 90.954 91.652 92.773 93.503 93.593
VALLADOLID  495.690 497.961 501.157 506.302 510.863 514.674 519.249 521.661
ZAMORA  203.469 202.356 200.678 199.688 198.524 198.045 197.492 197.237
TOTAL  2.479.118 2.479.425 2.480.369 2.487.646 2.493.918 2.510.849 2.523.020 2.528.417
Construir los gráficos apropiados para estudiar la evolución de la población regional total,
estudiar la evolución del peso de la provincia de Valladolid en el total regional y estudiar
la distribución provincial de la población en 2007.

Problema 15 En la publicación “Indicadores Laborales 2008” de la Junta de Castilla


y León aparecida en mayo de 2009 se encuentra la siguiente tabla que contiene el número
medio de parados extranjeros registrados durante 2008.
 Provincia   Sector de actividad  
 Agricultura    Industria    Construcción    Servicios   Sin empleo anterior    Total  
 Ávila   37 45 423 310 181 996
 Burgos   155 195 588 639 258 1835
 León   94 166 444 664 441 1808
 Palencia   48 28 99 169 88 432
 Salamanca   37 44 238 396 387 1102
 Segovia   145 83 452 377 89 1146
 Soria   52 75 123 179 103 531
 Valladolid   193 111 482 691 308 1785
 Zamora   55 21 97 169 150 493
Total CyL 816 768 2945 3593 2005 10127
¿Cuáles son las variables a partir de las cuales se ha construido esta tabla? ¿De qué tipo
son estas variables? Construir un gráfico que permita decidir si la distribución de los
parados por sectores en las provincias de Ávila y Valladolid es similar o no. ¿Cuántos
parados debería haber en el sector agrícola en la provincia de Palencia si las variables
fueran independientes?
Problema 16 El 4 de junio de 2009 el diario “El Norte de Castilla” publicó los siguientes
datos sobre producción bruta de energía eléctrica (en MWh) en Castilla y León durante
el tercer trimestre de 2008.
Térmica Hidráulica Nuclear Eólica
Ávila 0 17572 0 44220
Burgos 220309 13640 975567 338701
León 3120216 168111 0 59685
Palencia 435405 70246 0 162650
Salamanca 17634 503213 0 11447
Segovia 31040 1902 0 12571
Soria 29452 6022 0 239221
Valladolid 126503 1009 0 42409
Zamora 0 334926 0 117698

a) ¿Cuáles son las dos variables a partir de las que se construye la tabla? ¿De qué tipo
son las variables?
b) Construir las tablas de frecuencias univariantes para cada una de esas dos variables y
construir un gráfico de diferente tipo a partir de cada una de ellas.
c) Construir un gráfico que permita tomar una decisión sobre la independencia de esas
variables. ¿Son independientes? Justificar.
Soluciones a los problemas de Estadística Descriptiva Bivariante

Problema 1 El diagrama más apropiado para comparar dos grupos ( 1 y  2) en


relación con la variable INDICE DE OCTANO EN CARRETERA (variable continua)
es un box-plot múltiple. La realización de dos histogramas enfrentados también podría ser
válida, pero al ser las muestras de tamaño  = 10 los histogramas resultarán demasiado
irregulares acusando mucho los efectos locales.
BOX PLOT MULTIPLE
95

94
INDICE DE OCTANO EN CARRETERA

93

92

91

90
Non-Outlier Max
Non-Outlier Min
89 75%
25%
Median
88
F1 F2 Outliers

El diagrama pone de manifiesto que ambas distribuciones son de aspecto simétrico y


con una dispersión similar, pero en cuanto a la posición la fórmula  2 está desplazada
aproximadamente una unidad hacia la derecha con relación a  1, es decir, el índice de
octano en carretera es globalmente mayor para  2. También se observa la existencia de
un dato atípico (fuera de los límites) para  2. Habría que estudiar la naturaleza de dicha
observación.

Problema 2 Se nos da la siguiente información sobre los resultados obtenidos en tres


asignaturas 1  2  3 :
 \  1 2 3  
 150 150 190 490
 138 78 172 388
   33 12 40 85
321 240 402 963
Para poder sacar conclusiones sobre la existencia o no de diferencias entre asignaturas
en cuanto a la dificultad para superar los exámenes, la forma más apropiada de ta-
bular los datos del problema es construyendo la tabla de distribuciones condicionadas
     :
 \  1 2 3  
 4673% 6250% 4726% 5088%
 4299% 3250% 4279% 4029%
    1028% 500% 995% 883%
100% 100% 100% 100%
Esta tabla pone en evidencia que las asignaturas 1  3 arrojan resultados muy simi-
lares mientras que la asignatura 2 muestra peores resultados que las otras dos al tener
un porcentaje sensiblemente mayor de suspensos y menor tanto de aprobados como de
notables y sobresalientes.
La representación gráfica de las distribuciones condicionadas     
sería:
DISTRIBUCIONES CONDICIONADAS NOTA / ASIGNATURA
100

90

80

70

60

PORCENTAJE
NOT O SOB
APROBADO
50
SUSPENSO

40

30

20

10

0
A1 A2 A3 TOTAL
ASIGNATURA

Problema 3 Para dibujar un box-plot múltiple, tenemos que obtener los siguientes es-
tadísticos: Mediana , Cuartiles 1 y 3 , Mínimo (1) y Máximo () . Además,
tenemos que calcular los límites  = 1 − 15(3 − 1 ) y  = 3 + 15(3 − 1 )
para ambas distribuciones. Con la precisión que nos permite el polígono de frecuencias
acumuladas del que disponemos, podemos obtener los siguientes valores aproximados:
FACTORÍA 1 FACTORÍA 2
 = 6  = 4
1 = 532 1 = 332
3 = 668 3 = 468
(1) desconocido (1) desconocido
() desconocido () desconocido
 = 328  = 128
 = 872  = 672
Con estos valores obtendríamos un box-plot múltiple como el que sigue, donde los puntos
fuera de los límites LI y LS se han dibujado arbitrariamente y, por su abundancia, corre-
sponderían a una muestra de gran tamaño.

BOX-PLOT MÚLTIPLE

FACTORÍA 2

FACTORÍA 1

0 1 2 3 4 5 6 7 8 9 10

PORCENTAJE DE DESPERDICIO

Las distribuciones de la variable PORCENTAJE DE DESPERDICIO en ambas Factorías


son aproximadamente desplazadas una de la otra en 2 unidades (%). Por tanto, las dos dis-
tribuciones difieren únicamente en la posición pero son semejantes en dispersión y forma.
En cuanto a la forma, tendríamos dos distribuciones simétricas y con un apuntamiento
normal. De hecho, los datos han sido simulados de sendas distribuciones normales (6 1)
y (4 1), con muestras de tamaño  = 5000.
En otras palabras, la Factoría 2 produce globalmente un 2% más de desperdicio que la
Factoría 1, con una dispersión y forma similares para las distribuciones.
Problema 4 Condicionando por el tipo de distribución debemos escribir los totales por
columnas y luego dividir cada celda por el total de su columna correspondiente, así:
X = Órgano donado
Riñón Hígado Corazón Pulmón
Y = Año 1996 018 008 017 019
1997 018 01 021 024
1998 022 026 019 022
1999 02 025 021 017
2000 023 031 021 018
Total 06 021 01 008
Primero usamos las frecuencias relativas de la variable X, que se encuentran en la última
fila. A continuación se calculan los sectores que se deben dibujar múltiplicando las fre-
cuencias relativas por 360, es decir, para el riñón se usa un ángulo de 216 grados, para el
hígado de 75, para el corazón de 36 y para el pulmón de 29.
Diagrama de Sectores
8.80%

9.97% Riñón
Hígado
Corazón
Pulmón

21.10% 60.13%

La mejor forma de usar la información es una serie temporal, que permite ver la evolu-
ción en cada uno de los distintos tipos de donaciones.
Multiple X-Y Plot
150 Variables
Riñón
120 Hígado
Corazón
90 Pulmón

60

30

0
1996 1997 1998 1999 2000

Otra alternativa es dibujar, mediante un diagrama de barras la evolución anual, ya sea


de frecuencias absolutas o de relativas. Si los dibujamos en un sólo gráfico podemos com-
parar los distintos grupos, aunque es posible dibujarlos por separado pues sólo se pide la
evolución de cada grupo.
Barchart
15
1996
12 1997
percentage

1998
9 1999
2000
6

0
Riñon Higado Corazón Pulmón
Problema 5 Dado que estamos representando una variable cuantitativa continua (la
altura de los alumnos) en dos poblaciones (chicos y chicas), el diagrama más adecuado
es un diagrama de cajas (o Box-plot) múltiple. El rango intercuartílico en el grupo de
chicos es  = 182 − 168 = 14, luego 15 ·  = 21; y  = 1 − 21 = 147;
 = 3 + 21 = 203. En el grupo de chicas es  = 177 − 160 = 17, con lo que
15 ·  = 255; y  = 1 − 255 = 1345;  = 3 + 255 = 2025. Por tanto, los máx-
imos y mínimos están dentro de los límites superior e inferior, respectivamente, las patas
del diagrama llegan hasta ellos y queda así:

No se puede elaborar completamente una tabla con las mismas características, aunque sí
se pueden obtener algunas de ellas: El número de respuestas es 78, la media es
42 · 175 + 36 · 169
= = 172231
42 + 36
y el mínimo es 155 y el máximo 191.

Problema 6 Las dos variables que se han registrado para cada accidente son: ”Grado
de las lesiones observadas en el accidente” y ”Año en el que se produjo el accidente”. La
primera variable es de tipo categórica ordinal puesto que las lesiones se clasifican en leves,
graves y mortales. La segunda variable puede considerarse como numérica discreta. La
tabla de contingencia para esos datos sería la siguiente:
Lesiones\Año 1996 1997 1998 1999 2000 2001 2002 2003 Total
Leves 30128 32842 35247 37860 41072 42848 43958 42015 305790
Graves 709 664 632 694 631 653 654 580 5217
Mortales 68 76 75 77 85 87 78 46 592
Total 30905 33582 35954 38451 41788 43588 44690 42641 311599
Por otra parte la tabla de distribuciones condicionadas por años es:
Lesiones 1996 1997 1998 1999 2000 2001 2002 2003 Total
Leves 09749 09780 09803 09799 09829 09830 09836 09853 09814
Graves 00229 00197 00176 00180 00151 00149 00145 00136 00167
Mortales 00022 00023 00021 00021 00020 00021 00017 00011 00019
Total 1 1 1 1 1 1 1 1 1
Problema 7 La tabla que se presenta en la cuestión corresponde a las distribuciones
condicionadas, no a la distribución conjunta; por tanto no es posible sumar los valores por
columna. La fila de promedios podría ser correcta sólo en el caso de que la proporción de
empresas en las cuatro comunidades fuese la misma.Que ocurra así en este caso parece algo
dificil. Por tanto parecen más verosimiles los datos que proporciona el periódico, aunque
tampoco podremos afirmar que sean correctos; hay un dato que falta, la distribución
marginal de las distintas comunidades. En cualquier caso no se puede afirmar que los
datos que proporciona el periódico sean incorrectos.
Para calcular el número de empresas en cada una de las 4 comunidades, un valor marginal
de la tabla que se proporciona, hay que relacionar las distribuciones condicionadas de las
que disponemos con los valores marginales. La relación viene dada por:
X
·  = | ·

siendo ·  el porcentaje de empresas de cada tipo, | la familia de condicionadas de la que
se dispone y · las proporciones de empresas en cada comunidad. Para hacer los calculos
se pueden usar los valores que proporciona el periódico. De esta forma la respuesta a la
cuestión se obtiene resolviendo el sistema: ⎫
81 + 62 + 63 + 114 = 8 ⎪ ⎪

131 + 112 + 133 + 154 = 14
321 + 312 + 293 + 284 = 29 ⎪ ⎪
471 + 522 + 523 + 464 = 49 ⎭
donde además se comprueba que los valores del periódico también son incorrectos.

Problema 8 El gráfico muestra la comparación por años (2002 y 2003) de la distribu-


ción de las estaciones de servicio clasificadas en dos tipos (Abanderadas (AOP) y situ-
adas en centros comerciales (CC)). En horizontal vemos la comparación por años de
cada clase de estaciones y en vertical la comparación por tipos de los datos de cada
año. Podemos decir que en el problema se distinguen dos variables: AÑO: Variable
tratada como cualitativa ordinal con dos valores: 2002 y 2003. TIPO: Variable cualita-
tiva nominal con dos valores: AOP y CC. Nótese que la variable año es por naturaleza
un tiempo y en otros estudios puede admitir un tratamiento como variable cuantita-
tiva. El defecto fundamental de este gráfico es que se comete el error tan recurrente en
reportajes de prensa de no guardar las proporciones de la altura de las barras en real-
ción con las frecuencias, lo cual está relacionado con la ausencia del 0 y de una escala
en el eje de ordenadas. El defecto se presenta tanto al realizar una lectura horizontal
como vertical. De este modo se acentúa la impresión de que la distribución de las esta-
ciones de servicio clasificadas en AOP y CC está evolucionando hacia el aumento de la
importancia de CC y la disminución consiguiente de la AOP. Lo que ocurre es que esta
evolución se presenta en el gráfico mucho más acentuada de lo que es en realidad, lo
cual podría deberse a un sesgo intencionado introducido por el autor del reportaje o a
un simple error por deconocimiento de las reglas básicas de este tipo análisis estadísti-
cos. La construcción de un gráfico correcto podría adoptar alguna de las formas siguientes:
Diagrama de barras múltiples Diagrama de barras múltiples
(X 1000) (X 1000)
8 8
AOP AÑO 2002
CC AÑO 2003
frecuencia

frecuencia

6 6

4 4

2 2

0 0
2002 2003 AOP CC
El primero de ellos facilita la comparación de la distribución de frecuencias de la variable
TIPO por cada clase de la variable AÑO y el segundo permite comparar la distribución
de frecuencias (o evolución) de la variable AÑO por cada clase de la variable TIPO.
Cualquiera de ellos evidencia que la gran diferencia entre los valores de las frecuencias de
las dos clases de la variable tipo hace difícil apreciar las diferencias entre las alturas de las
barras. Quizás de ahí arranca la idea de no guardar las proporciones en el reportaje de
prensa. La consideración de los datos como dos series temporales con valores anuales de
las frecuencias de cada tipo de estación es poco acertada al existir sólo dos valores de la
serie. Este tratamiento podría hacerse si se dispusiese de series de datos más largas (por
ejemplo 8 o 10 años). La tabla de contingencia con frecuencias absolutas sería:
TIPO\AÑO 2002 2003 TOTAL
AOP 7051 6962 14013
CC 121 157 278
TOTAL 7172 7119 14291
Para observar si la distribución de las estaciones por tipos permanece estable del año 2002
al 2003, la tabla apropiada es la tabla de frecuencias condicionadas por años:
TIPO\AÑO 2002 2003 TOTAL
AOP 98,3% 97,8% 98,05%
CC 1,7% 2,2% 1,95%
TOTAL 100% 100% 100%
Esta tabla se puede completar con un gráfico como el siguiente:

Distribuciones condicionadas por año

AOP
CC

2002 2003

Se observa una cierta tendencia a crecer la importancia de CC y decrecer la de AOC del


año 2002 al 2003. Las diferencias en términos absolutos son pequeñas (apenas 0,5%) pero
en términos relativos para el caso de CC el aumento es de casi un 30% del año 2002 al
2003.

Problema 9 Las principales medidas numéricas son:


Número de obs = 15
Media = 273.8
Mediana = 132.2
Desviación estándar = 289.8
Mínimo = 6.1
Máximo = 993.5
Primer cuartil = 70.5
Tercer cuartil = 545.3
Rango intercuartílico = 474.8
Box-and-Whisker Plot

0 200 400 600 800 1000


Emisiones

La U.E. emitía en el año 2001, 273.8 mil millones de toneladas equivalentes de CO2 de
gases de efecto invernadero de media por país, siendo la distribución por paises muy
asimétrica a la derecha (como puede verse en la caja -mitad derecha mucho más amplia
que la mitad izquierda, e idem para el bigote-). Es decir, unos pocos paises emitían una
gran cantidad de gases en comparación con el resto. Aún así, no se observa ningún outlier
(ningún punto que se salga del límite ±15).
A partir de un diagrama de cajas no se puede decir si la distribución es unimodal o
multimodal. No se ve esta característica en este gráfico. Si se vería en un histograma.
Ordenados los datos de menor a mayor, la posición que ocupa España es la 11, que
corresponde aproximadamente al percentil 70. En una muestra con  impar, el percentil
100 (0 ≤  ≤ 1) es ([]+1) . En nuestro caso  = 15, luego [15]+1 = 11, que despejando
da valores de  entre 0.67 y 0.73 (en promedio 0.70).

Problema 10 Se consideran 2 variables: el tipo de mineral que se extrae (las posibil-


idades son caliza, mármol, ofita,...) y la provincia (Vizcaya, Guipúzcoa o Álava), para
cada cantera examinada. Ambas variables son cualitativas y al no existir un orden natural
entre los "valores" (atributos) que pueden tomar se miden en la escala nominal.
El diagrama presenta todos los datos necesarios para hacer un estudio de la asociación
entre las variables, pero tal cual está no es satisfactorio. En efecto, al ser distintos los
tamaños de los distintos grupos no se puede hacer una comparación.
La tabla que permite comparar la distribución de las canteras de caliza entre las distintas
provincias con la de las canteras de mármol y la de las canteras de ofita corresponde a
mirar en el conjunto de las canteras de caliza qué proporción se encuentra en cada una de
las provincias. Igual para los otros dos minerales. Esto es una tabla en la que figuran las
distribuciones de la variable Provincia condicionada a que el tipo de mineral sea la caliza,
luego a que el tipo de mineral sea el mármol y por último la ofita.
La tabla es la siguiente:
Provincia\Mineral Caliza Mármol Ofita
2 1
Álava 30
= 0066 0 4
= 025
12 2 2
Guipúzcoa 30
= 0400 6
= 0333 4
= 050
16 4 1
Vizcaya 30
= 0533 6 = 0666 4 = 025
Total 1 1 1
Problema 11 La variable “número de miembros del hogar” es evidentemente una vari-
able numérica discreta. El diagrama de sectores de Valladolid será

5 o mas; 10%

1; 19%

4; 23%

2; 25%

3; 23%

Valladolid

La tabla y el gráfico apropiados para comparar Valladolid y Ávila con el conjunto de la


Comunidad serían los siguientes
Valladolid Ávila Castilla y León

1 18,6906 25,9934 23,0987


2 24,8390 27,1885 26,0180
3 22,6858 18,4099 20,5715
4 23,3263 18,9757 20,3720
5 o más 10,4583 9,4324 9,9398
Total 100,0000 100,0000 100,0000
Stacked Plot
100

90

80

70

60

50

40

30
5 o más
20 4
3
2
10 1
Valladolid Ávila Castilla y León

Si observamos la tabla y el gráfico podemos concluir que en Valladolid el número de hogares


con 3 y 4 miembros es superior al de Ávila y el conjunto de la Comnuidad mientras que en
Ávila el número de hogares con una cantidad baja de miembros es mayor que en Valladolid
y en el conjunto global.
Problema 12 El siguiente diagrama de cajas múltiple nos permite decidir sobre la in-
dependencia entre las variables:

Box-and-Whisker Plot

Opción A

Opción B

0 2 4 6 8 10
Nota

A la vista del gráfico es claro que las variables no son independientes ya que los alumnos
que eligen la opción A tienen, en general, mejores notas.
Nos piden también una cota para   (  43575). Viendo que la mediana de A es 56 y
el primer cuartil de A es 41 podemos deducir que esa frecuencia es inferior al 50%. Con
la desigualdad de Chebyshev obtenemos lo siguiente
 (  43575) =   ( −   43575 − 564)
≤   (| −  |  12825)
µ ¶
12825
=   | −  |  
08831
µ ¶2
08831
≤ = 047414
12825
mejorandose algo la cota anterior.

Problema 13 La variables a partir de las cuales se ha construido el gráfico son: Variable


1: Río ={Júcar, Segura, ..., Ebro};Variable 2: Tipo de tratatamiento necesario para su
potabilización = {A1 , A2 , A3 , A4 }. La variable 1 (Río) es una variable cualitativa o
atributo, cuyos valores o categorías sólo expresan la posesión de una u otra característica,
en este caso el río al que pertenecen. Además, está medida en escala nominal, pues
las categorías no son ordenables. La variable 2 (Tipo de tratamiento necesario para su
potabilización) es una variable cualitativa o atributo, de nuevo, aunque esta vez en escala
ordinal, pues los tipos de tratamiento admiten un orden natural: de 1 a 4 cada vez es
peor la calidad del agua y más intensivo debe ser el tratamiento, hasta el punto de que
las aguas de 4 no admiten tratamiento de lo mal que están.
El gráfico es apropiado para comparar los distintos ríos según el tipo de tratamiento
necesario para su potabilización. Además, los datos de que disponemos son las frecuencias
condicionadas de los tratamientos según los ríos, luego el gráfico es el idóneo para los datos.
En cuanto a la posible independencia, sabemos que si las distribuciones condicionadas
(las de una variable según la otra y viceversa) son muy diferentes entre sí, esto nos
indicará que hay asociación o dependencia entre las dos variables, y, por el contrario, si
son muy parecidas entre sí (las de una variable según la otra y viceversa) esto indicará
que hay independencia. En este gráfico tenemos las distribuciones condicionadas de los
tratamientos según los ríos, y son muy diferentes entre sí, por lo que sí podemos decidir a
partir del gráfico si las variables son independientes, y la decisión es que no: podemos decir
que no lo son, que, por el contrario, hay una fuerte dependencia entre ambas variables.
Para construir la tabla de distribución conjunta de esas variables, necesitamos las fre-
cuencias absolutas o las relativas, y lo que tenemos son las condicionadas de cada tipo de

tratamiento según cada río. Es decir, necesitamos  o  (=  ) y tenemos 100 ·  =
 
100 ·  · = 100 ·  ·   = 1  4  = 1  8. Para tener  o  , lo que necesitaríamos
serían las distribuciones marginales de los ríos, es decir, nos bastaría con conocer · o · ,
 = 1  8, pues, de esta forma:

 · · = · · = 
 ·

 · · = · · = 
 ·
y podríamos calcular la distribución conjunta.

Problema 14 Para estudiar la evolución de la población regional total de Castilla y


León representamos la población del total de Castilla y León en una serie temporal, de la
forma siguiente:
Evolución de la población regional total de Castilla y Evolución de la población regional total de Castilla y León
León
2.540.000
3.000.000 2.530.000
2.500.000 2.520.000
2.510.000
2.000.000 2.500.000
1.500.000 2.490.000
1.000.000 2.480.000
2.470.000
500.000 2.460.000
0 2.450.000
2000 2001 2002 2003 2004 2005 2006 2007 2000 2001 2002 2003 2004 2005 2006 2007

A la vista de los gráficos, comprobamos que ha habido un aumento de la población de


Castilla y León en los últimos años. Aunque el gráfico de la izquierda es teóricamente el
más correcto con el de la derecha podemos ver mejor esa pequeña evolución creciente.
Para estudiar la evolución del peso de la provincia de Valladolid en el total regional,
dividimos la población de la provincia de Valladolid entre el total de Castilla y León y
multiplicamos por 100, y representamos los valores en función del tiempo, obteniendo.
Evolución del peso de la provincia de Valladolid en Evolución del peso de la provincia de Valladolid en
el total regional el total regional

20,80%
0,25
20,60%
0,2
20,40%
0,15
20,20%
0,1
20,00%
0,05
19,80%
0 19,60%
2000 2001 2002 2003 2004 2005 2006 2007 2000 2001 2002 2003 2004 2005 2006 2007

A la vista de los gráficos, comprobamos que el peso de la provincia de Valladolid en el


total regional ha aumentado en los últimos años. De nuevo hemos incluido los dos por los
mismos motivos que en el caso anterior.
Para representar la distribución provincial de la población de Castilla y León en el año
2007, lo mejor es un diagrama de sectores:
Distribución provincial de la población de
Castilla y León. Año 2007

Soria
Segovia Valladolid
3,7%
Ávila 6,3% 20,6%
6,7%
Palencia
6,9%

Zamora
León
7,8%
19,7%
Salamanca
13,9% Burgos
14,5%

Problema 15 Las variables a partir de las cuales se ha construido la tabla son, lógica-
mente, el sector de actividad del individuo que está en paro y la provincia de residencia.
Ambas variables son cualitativas nominales puesto que no hay un orden natural estable-
cido para las categorías de ninguna de las dos.
El gráfico apropiado para comparar la distribución de parados por sectores debe hacerse
con las frecuencias relativas ya que el número de parados en las provincias es diferente.
Una buena opción es el siguiente gráfico.

Diagrama de Barras

Agricultura Ávila
Valladolid
Industria

Construcción

Servicios

Sin empleo anterior

0 10 20 30 40 50
Porcentaje

Para saber cuantos parados debería haber en el sector agrícola de la provincia de Palencia
basta con tener en cuenta que de la independencia se deduce:
432 816
 (  ∩  ́) =  ( ) ( ́) =
10127 10127
Por lo que el número de parados en caso de independencia debería ser
432 816
10127 = 3481
10127 10127

Problema 16 Las dos variables que se manejan, y que se pueden considerar medidas
sobre cada MWh de la muestra, son Provincia en la que se generó el MWh, y Origen del
MWh. Las dos son variables cualitativas medidas en escala nominal, siendo Ávila, Burgos,
León, Palencia, Salamanca, Segovia, Soria, Valladolid, Zamora y Térmica, Hidráulica,
Nuclear, Eólica; sus respectivas categorías.
Las tablas de frecuencias absolutas y relativas para cada una de ellas son:
Ávila Burgos León Palencia Salamanca Segovia Soria Valladolid Zamora
F. Abs. 61792 1548217 3348012 668301 532294 45513 274695 169921 452624
F. Rel. 0.0087 0.2180 0.4715 0.0941 0.0750 0.0064 0.0387 0.0239 0.0637

Térmica Hidráulica Nuclear Eólica


F. Abs. 3980559 1116641 975567 1028602
F. Rel. 0.5605 0.1572 0.1374 0.1448
Los dos gráficos apropiados para este tipo de variables son el diagrama de sectores y el
diagrama de barras:

Calculamos las distribuciones condicionadas a la variable Provincia:


Térmica Hidráulica Nuclear Eólica
Ávila 0.0000 0.2844 0.0000 0.7156 1
Burgos 0.1423 0.0088 0.6301 0.2188 1
León 0.9320 0.0502 0.0000 0.0178 1
Palencia 0.6515 0.1051 0.0000 0.2434 1
Salamanca 0.0331 0.9454 0.0000 0.0215 1
Segovia 0.6820 0.0418 0.0000 0.2762 1
Soria 0.1072 0.0219 0.0000 0.8709 1
Valladolid 0.7445 0.0059 0.0000 0.2496 1
Zamora 0.0000 0.7400 0.0000 0.2600 1
y el diagrama de barras asociado:

A la vista de ambos, dado que las distribuciones condicionadas no son homógeneas,


podemos afirmar que las dos variables no son independientes.

También podría gustarte