Está en la página 1de 83

Dra.

Josefa Marn Fernndez


Departamento de Estadstica e Investigacin Operativa
Universidad de Murcia
Estadstica
Manual de teora y problemas
Licenciatura en Documentacin
Curso 2010-11
Contenidos
Contenidos
1. Tabulacin y representacin grca de los datos 5
2. Medidas descriptivas de los datos 19
3. Relacin entre dos variables cuantitativas 31
4. Probabilidad 39
5. Modelos de probabilidad 49
6. Contrastes no paramtricos en una poblacin 59
7. Contrastes paramtricos en una poblacin 67
8. Contrastes paramtricos en dos poblaciones 75
3
1
Tabulacin y representacin grca de
los datos
Tabulacin y representacin grca de
los datos
Resumen del tema
1.1. Introduccin a la Estadstica
Estadstica: ciencia que se ocupa de recoger, clasicar, representar y resumir los datos de muestras,
y de hacer inferencias (extraer conclusiones) acerca de las poblaciones de las que stas proceden.
1. Estadstica descriptiva: parte de la estadstica que se ocupa de recoger, clasicar, representar y
resumir los datos de las muestras.
2. Estadstica inferencial: parte de la estadstica que se ocupa de llegar a conclusiones (inferencias)
acerca de las poblaciones a partir de los datos de las muestras extradas de ellas.
CONCEPTOS GENERALES:
Poblacin: conjunto de individuos con propiedades comunes sobre los que se realiza una inves-
tigacin de tipo estadstico.
Muestra: subconjunto de la poblacin.
Tamao muestral: nmero de individuos que forman la muestra.
Muestreo: proceso de obtencin de muestras representativas de la poblacin.
Variable: propiedad o cualidad que puede manifestarse bajo dos o ms formas distintas en un
individuo de una poblacin.
Modalidades, categoras o clases: distintas formas en que se maniesta una variable.
Las variables se clasican en:
5
6 J. Marn Fernndez
1. Cuantitativas: se expresan numricamente. Se clasican en:
a) Discretas: toman valores numricos aislados, por lo que, jados dos consecutivos, no
pueden tomar ningn valor intermedio.
b) Continuas: pueden tomar cualquier valor dentro de unos lmites, por lo que entre
dos valores cualesquiera, por prximos que sean, siempre pueden encontrarse valores
intermedios.
2. Cualitativas: no se expresan numricamente. Se clasican en:
a) Ordinales: admiten una ordenacin de menor a mayor aunque sus resultados no son
numricos.
b) Nominales: no admiten una ordenacin de menor a mayor.
1.2. Tabulacin de los datos
Los datos se agrupan en clases si son cualitativos o discretos, o en intervalos de clase (de igual
longitud, generalmente) si son continuos (o discretos con muchos valores distintos).
Nmero adecuado de intervalos: k = 1 + 3

322 log n, siendo n el nmero total de datos. Si los


datos no estn agrupados en intervalos, tambin denotaremos por k al nmero de datos (o de
categoras) diferentes.
Amplitud del intervalo de clase (
i
,
i+1
]: d
i
=
i+1

i
.
Marca de clase del intervalo (
i
,
i+1
]: x
i
=

i
+
i+1
2
.
Frecuencia absoluta de la clase i-sima: f
i
=nmero de observaciones contenidas dentro de ella.
Frecuencia relativa de la clase i-sima: h
i
=
f
i
n
.
Porcentaje de la clase i-sima: %
i
= 100 h
i
.
Frecuencia absoluta acumulada de la clase i-sima: F
i
= f
1
+f
2
+ +f
i
.
Frecuencia relativa acumulada de la clase i-sima: H
i
= h
1
+h
2
+ +h
i
=
F
i
n
.
Distribucin de frecuencias: tabla conteniendo las distintas clases y las frecuencias correspon-
dientes a cada una de ellas.
1.3. Representaciones grcas
1. Variables cualitativas
a) Diagrama de barras: se sitan en el eje horizontal las clases y sobre cada una de ellas se
levanta un segmento rectilneo (o un rectngulo) de altura igual a la frecuencia (absoluta
o relativa) o al porcentaje de cada clase.
b) Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos pro-
porcionales a las frecuencias absolutas de las clases.
Estadstica 7
2. Variables cuantitativas con datos no agrupados en intervalos
a) Diagrama de barras: se sitan en el eje horizontal los diferentes resultados de la variable
y sobre cada uno de ellos se levanta un segmento rectilneo de altura igual a la frecuencia
(absoluta o relativa) o al porcentaje de cada resultado.
b) Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
los distintos valores de la variable y en el eje vertical sus correspondientes frecuencias (no
acumuladas), uniendo despus los puntos mediante segmentos rectilneos.
c) Grco de frecuencias acumuladas: es la representacin grca de las frecuencias acu-
muladas, para todo valor numrico. Siempre es una grca en forma de escalera.
3. Variables cuantitativas con datos agrupados en intervalos
a) Histograma: se sitan en el eje horizontal los intervalos de clase y sobre cada uno se
levanta un rectngulo de rea igual o proporcional a la frecuencia absoluta.
b) Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal las
marcas de clase de los intervalos y en el eje vertical sus correspondientes frecuencias (no
acumuladas), uniendo despus los puntos mediante segmentos rectilneos.
c) Grco de frecuencias acumuladas: es la representacin grca de las frecuencias acumu-
ladas para todo valor numrico, teniendo en cuenta que dentro de cada intervalo de clase
se supone que el nmero de observaciones se distribuye uniformemente. Siempre es un
polgono.
8 J. Marn Fernndez
Ejemplos que se van a resolver en clase
En este tema vamos a utilizar los resultados de las tres variables siguientes: sexo, edad y altura,
en metros, observadas en todos/as los/as alumnos/as que asisten hoy a clase.
Ejemplo 1.1. Con los datos de la variable sexo:
a) Determinar la distribucin de frecuencias absolutas.
b) Determinar la distribucin de frecuencias relativas (o proporciones).
c) Determinar la distribucin de porcentajes.
Ejemplo 1.2. Con los datos de la variable edad:
a) Determinar la distribucin de frecuencias absolutas, frecuencias relativas y porcentajes.
b) Determinar la distribucin de frecuencias acumuladas absolutas.
c) Determinar la distribucin de frecuencias acumuladas relativas (o proporciones acumula-
das).
d) Determinar la distribucin de porcentajes acumulados.
Ejemplo 1.3. Con los datos de la variable altura:
a) Agrupar los datos en intervalos de la misma amplitud.
b) A partir de la agrupacin anterior determinar la distribucin de frecuencias absolutas,
relativas, acumuladas absolutas y acumuladas relativas.
Ejemplo 1.4. Dibujar el diagrama de barras de frecuencias absolutas de los datos de la variable sexo.
Ejemplo 1.5. La siguiente tabla muestra el pas de procedencia de los documentos primarios de los
resmenes contenidos en un determinado volumen de las tres revistas siguientes: Computer
Abstracts, Lead Abstracts y Sociological Abstracts. Dibujar el diagrama de barras conjunto de
frecuencias absolutas.
Tabla 1.4
pas de Computer Lead Sociological
procedencia Abstracts Abstracts Abstracts
Pases Bajos 42 34 22
Francia 55 7 76
Alemania 162 37 14
Gran Bretaa 310 147 24
EEUU 966 265 552
Rusia 191 37 42
Otros 265 79 239
suma 1.991 606 969
Estadstica 9
Ejemplo 1.6. Dibujar el grco de sectores de los datos de la variable sexo.
Ejemplo 1.7. Dibujar el diagrama de barras de frecuencias absolutas de los datos de la variable edad.
Ejemplo 1.8. Dibujar el polgono de frecuencias relativas de los datos de la variable edad.
Ejemplo 1.9. Dibujar el grco de frecuencias acumuladas absolutas de los datos de la variable edad.
Ejemplo 1.10. Dibujar el histograma de los datos de la variable altura agrupados en intervalos de la
misma amplitud.
Ejemplo 1.11. Dibujar el polgono de frecuencias absolutas de los datos de la variable altura agrupa-
dos en intervalos de la misma amplitud.
Ejemplo 1.12. Dibujar el polgono de frecuencias acumuladas absolutas de los datos de la variable
altura agrupados en intervalos de la misma amplitud.
10 J. Marn Fernndez
Problemas propuestos
Problema 1.1. El gasto de una biblioteca, en euros, durante un ao determinado, es:
Gasto en personal 6.570
Gasto en libros 3.450
Otros gastos 2.380
Hacer un diagrama de barras de frecuencias absolutas y un grco de sectores.
Problema 1.2. Una biblioteca contiene una cantidad de estantes de libros en varios idiomas tal como
muestra la siguiente tabla:
Idioma N
o
de estantes
Francs 78
Alemn 47
Ruso 20
Espaol 30
Determinar la distribucin de frecuencias relativas. Hacer un diagrama de barras de frecuencias
relativas y un grco de sectores.
Problema 1.3. La estadstica de fotocopias de una biblioteca, durante un ao determinado, es la
siguiente:
Reproduccin de catlogos 16.110
Trabajo del personal de la biblioteca 63.350
Prstamo interbibliotecario 2.600
Copias para usuarios de la biblioteca 43.540
Determinar la distribucin de porcentajes. Hacer un diagrama de barras de porcentajes y un
grco de sectores.
Problema 1.4. La estadstica de fotocopias de 4 bibliotecas (A, B, C y D), durante un ao, est
recogida en la siguiente tabla:
A B C D
Reproduccin de catlogos 16.110 3.640 0 3.400
Trabajo del personal de la biblioteca 63.350 11.360 3.080 5.500
Prstamo interbibliotecario 2.600 1.090 560 250
Copias para usuarios de la biblioteca 43.540 58.040 1.980 0
Hacer un diagrama de barras conjunto de frecuencias absolutas.
Estadstica 11
Problema 1.5. El nmero de citas en diferentes campos de investigacin y en distintos aos viene
dado en la tabla siguiente:
1970 1980 1990
Sociologa 330 414 547
Economa 299 393 295
Poltica 115 357 137
Psicologa 329 452 258
Hacer un diagrama de barras conjunto de frecuencias relativas.
Problema 1.6. El nmero de descriptores (keywords) de 72 artculos de investigacin viene dado por:
N
o
de descriptores 3 4 5 6 7 8 9 10 11 12 13 14
N
o
de artculos 5 8 12 7 9 9 10 5 3 2 1 1
Hacer un diagrama de barras de frecuencias absolutas.
Problema 1.7. La altura, en centmetros, de una coleccin de libros es la siguiente:
Altura 15 16 17 18 19 20 21 22 23 24 25 26 27
N
o
de libros 1 0 3 4 4 2 4 5 2 2 2 1 1
Determinar la distribucin de frecuencias relativas y hacer un polgono de frecuencias relativas.
Problema 1.8. El nmero de palabras por lnea de una pgina de un libro viene dado por:
N
o
de palabras 4 5 8 9 10 11 12 13 14 15 16 17
N
o
de lneas 1 1 2 3 2 7 11 14 3 2 1 1
Determinar la distribucin de frecuencias acumuladas absolutas y hacer el grco de frecuen-
cias acumuladas absolutas.
Problema 1.9. Los siguientes datos corresponden al nmero de palabras por resumen de los artculos
cientcos de autores espaoles que han publicado en una determinada revista de investigacin
durante un ao concreto:
10 15 16 20 17 19 21 14 13 19
11 14 17 19 20 20 22 15 13 12
12 15 17 19 18 23 22 17 21 20
15 18 16 18 12 17 14 15 17 15
Determinar la distribucin de frecuencias absolutas, relativas, acumuladas absolutas y acumula-
das relativas. Hacer un diagrama de barras de frecuencias absolutas, un polgono de frecuencias
relativas y un grco de frecuencias acumuladas relativas.
12 J. Marn Fernndez
Problema 1.10. Los siguientes datos agrupados en intervalos se reeren al nmero de llamadas te-
lefnicas recibidas en el servicio de informacin de una biblioteca pblica durante 45 das
elegidos al azar:
N
o
de llamadas (9,15] (15,21] (21,27] (27,33] (33,39] (39,45] (45,51]
N
o
de das 2 4 8 14 10 6 1
Dibujar el histograma, el polgono de frecuencias y el grco de frecuencias acumuladas abso-
lutas.
Problema 1.11. El nmero de socios de 84 bibliotecas pblicas viene dado por:
1.995 1.050 2.500 3.000 3.000 1.500 2.500
995 995 3.000 3.000 1.200 1.450 2.500
2.750 3.000 1.600 3.000 2.250 2.750 1.800
1.250 3.250 1.800 1.750 3.250 2.100 4.500
2.100 995 3.500 2.500 1.700 2.100 1.250
3.500 3.250 1.200 950 3.250 1.700 3.000
1.500 3.500 1.500 995 2.750 3.500 2.150
1.750 2.000 2.200 1.750 2.800 750 2.000
1.500 3.500 4.500 1.950 3.000 2.200 1.600
1.200 2.400 750 1.850 2.400 1.250 3.000
800 2.750 4.000 2.050 5.500 3.750 950
995 3.750 1.500 1.800 1.200 2.500 1.250
Aunque la variable es cuantitativa discreta, se desea agrupar los datos en intervalos de la misma
amplitud. A partir de esta agrupacin, determinar la distribucin de frecuencias y dibujar el
histograma, el polgono de frecuencias y el grco de frecuencias acumuladas relativas.
Estadstica 13
Soluciones de los problemas propuestos
Solucin del problema 1.1. La variable estadstica es el tipo o modalidad de gasto. Es cualitativa
nominal. Tiene 3 categoras, clases o modalidades. Cada vez que se realiza un gasto en la
biblioteca se observa dicha variable (cada individuo es cada gasto que se hace).
Categoras (Tipos de gasto) f
i
ngulos
Gasto en personal 6570 190

74
o
Gasto en libros 3450 100

16
o
Otros gastos 2380 69

10
o
suma 12400 360

00
o
Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal las categoras
y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia absoluta,
f
i
.
Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos igua-
les a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.2. La variable estadstica es el idioma. Es cualitativa nominal. Tiene 4 ca-
tegoras, clases o modalidades. Los individuos a los que se les observa dicha variable son los
estantes (se supone que en cada estante slo hay libros en el mismo idioma; es decir, en un
estante no se mezclan dos idiomas).
Categoras (Idiomas) f
i
h
i
ngulos
Francs 78 0

4457 160

452
o
Alemn 47 0

2686 96

696
o
Ruso 20 0

1143 41

148
o
Espaol 30 0

1714 61

704
o
suma 175 1

0000 360

000
o
Diagrama de barras de frecuencias relativas: se sitan en el eje horizontal las categoras
y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia relativa,
h
i
.
Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos igua-
les a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.3. La variable estadstica es el tipo de fotocopia (con qu n est hecha?).
Es cualitativa nominal. Tiene 4 categoras, clases o modalidades. Los individuos a los que se les
observa dicha variable son todas y cada una de las fotocopias que se realizan en la mencionada
biblioteca durante el determinado ao.
14 J. Marn Fernndez
Categoras (Tipos de fotocopia) f
i
%
i
ngulos
Reproduccin de catlogos 16110 12

83 46

188
o
Trabajo del personal de la biblioteca 63350 50

44 181

584
o
Prstamo interbibliotecario 2600 2

07 7

452
o
Copias para usuarios de la biblioteca 43540 34

67 124

812
o
suma 125600 100

00 360

000
o
Diagrama de barras de porcentajes: se sitan en el eje horizontal las categoras y sobre
cada una de ellas se levanta un rectngulo de altura igual al porcentaje, %
i
.
Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos igua-
les a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.4. Tenemos 4 variables estadsticas cualitativas nominales cuyas categoras
son las mismas (Reproduccin de catlogos, Trabajo del personal de la biblioteca, Prstamo
interbibliotecario y Copias para usuarios de la biblioteca). Cada una de estas cuatro variables
es totalmente anloga a la variable denida en el problema anterior.
A B C D
Categoras (Tipos de fotocopia)
f
i
f
i
f
i
f
i
Reproduccin de catlogos 16 110 3 640 0 3 400
Trabajo del personal de la biblioteca 63 350 11 360 3 080 5 500
Prstamo interbibliotecario 2 600 1 090 560 250
Copias para usuarios de la biblioteca 43 540 58 040 1 980 0
Diagrama de barras conjunto de frecuencias absolutas: se sitan en el eje horizontal las cuatro
categoras y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia
absoluta, f
i
, con distinto color o trama de relleno para cada una de las cuatro bibliotecas.
Solucin del problema 1.5. Tenemos 3 variables estadsticas cualitativas nominales cuyas categoras
son las mismas (sociologa, economa, poltica y psicologa). Por ejemplo, la primera de las
variables es rea de investigacin de las citas que aparecen en los artculos publicados en
1970. Los individuos a los que se les observa dicha variable son todas y cada una de las citas
que aparecen en los artculos publicados en 1970. Las otras dos variables se denen de forma
anloga (. . . 1980 y . . . 1990).
1970 1980 1990
Categoras (reas de investigacin)
f
i
h
i
f
i
h
i
f
i
h
i
Sociologa 330 0

3075 414 0

2562 547 0

4422
Economa 299 0

2787 393 0

2432 295 0

2385
Poltica 115 0

1072 357 0

2209 137 0

1108
Psicologa 329 0

3066 452 0

2797 258 0

2086
suma 1 073 1

0000 1 616 1

0000 1 237 1

0000
Estadstica 15
Diagrama de barras conjunto de frecuencias relativas: se sitan en el eje horizontal las cuatro
categoras y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia
relativa, h
i
, con distinto color o trama de relleno para cada uno de los tres aos.
Solucin del problema 1.6. La variable estadstica es el nmero de descriptores o keywords. Es
cuantitativa discreta. Los individuos a los que se les observa la variable son todos y cada uno
de los 72 artculos de investigacin de la muestra.
x
i
3 4 5 6 7 8 9 10 11 12 13 14
f
i
5 8 12 7 9 9 10 5 3 2 1 1
Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal los x
i
y sobre cada
uno de ellos se levanta un segmento rectilneo de altura igual a la correspondiente frecuencia
absoluta, f
i
.
Solucin del problema 1.7. La variable estadstica es la altura de los libros. Es cuantitativa continua.
Los individuos a los que se les observa la variable son los 31 libros de la muestra.
x
i
15 16 17 18 19 20 21 22 23 24 25 26 27
f
i
1 0 3 4 4 2 4 5 2 2 2 1 1
h
i
0

032 0

000 0

097 0

129 0

129 0

065 0

129 0

161 0

065 0

065 0

065 0

032 0

032
Polgono de frecuencias relativas: se sitan los puntos que resultan de tomar en el eje horizontal
los distintos valores de la variable, x
i
, y en el eje vertical sus correspondientes frecuencias
relativas, h
i
, uniendo despus los puntos mediante segmentos rectilneos.
Solucin del problema 1.8. La variable estadstica es el nmero de palabras por lnea. Es cuantita-
tiva discreta. Los individuos a los que se les observa la variable son todas y cada una de las 48
lneas de la pgina del libro.
x
i
4 5 8 9 10 11 12 13 14 15 16 17
f
i
1 1 2 3 2 7 11 14 3 2 1 1
F
i
1 2 4 7 9 16 27 41 44 46 47 48
Grco de frecuencias acumuladas absolutas: es la representacin grca de las frecuencias
acumuladas absolutas, F, para todo valor numrico, x. Es una grca en forma de escalera".
Solucin del problema 1.9. La variable estadstica es el nmero de palabras por resumen. Es cuan-
titativa discreta. Los individuos a los que se les observa la variable son los artculos cientcos
de autores espaoles que han publicado en la determinada revista de investigacin durante el
determinado ao.
16 J. Marn Fernndez
x
i
f
i
h
i
F
i
H
i
10 1 0

025 1 0

025
11 1 0

025 2 0

050
12 3 0

075 5 0

125
13 2 0

050 7 0

175
14 3 0

075 10 0

250
15 6 0

150 16 0

400
16 2 0

050 18 0

450
17 6 0

150 24 0

600
18 3 0

075 27 0

675
19 4 0

100 31 0

775
20 4 0

100 35 0

875
21 2 0

050 37 0

925
22 2 0

050 39 0

975
23 1 0

025 40 1

000
Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal los x
i
, y sobre
cada uno de ellos se levanta un segmento rectilneo de altura igual a la correspondiente
frecuencia absoluta, f
i
.
Polgono de frecuencias relativas: se sitan los puntos que resultan de tomar en el eje
horizontal los distintos valores de la variable, x
i
, y en el eje vertical sus correspondientes
frecuencias relativas, h
i
, uniendo despus los puntos mediante segmentos rectilneos.
Grco de frecuencias acumuladas relativas: es la representacin grca de las frecuen-
cias acumuladas relativas, H, para todo valor numrico, x. Es una grca en forma de
escalera".
Solucin del problema 1.10. La variable estadstica es el nmero de llamadas telefnicas recibidas
en el servicio de informacin de una biblioteca pblica. Es cuantitativa discreta. Los individuos
a los que se les observa la variable son los das.
(
i
,
i+1
] (9,15] (15,21] (21,27] (27,33] (33,39] (39,45] (45,51]
f
i
2 4 8 14 10 6 1
x
i
12 18 24 30 36 42 48
F
i
2 6 14 28 38 44 45
Histograma: se sitan en el eje horizontal los intervalos de clase, (
i
,
i+1
], y sobre cada
uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. Como los
intervalos tienen la misma amplitud, basta con hacer las alturas de los rectngulos iguales
a las frecuencias absolutas, f
i
.
Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
las marcas de clase, x
i
, y en el eje vertical sus correspondientes frecuencias absolutas, f
i
,
uniendo despus los puntos mediante segmentos rectilneos.
Estadstica 17
Grco de frecuencias acumuladas absolutas: se sitan los puntos que resultan de tomar
en el eje horizontal los extremos superiores de los intervalos de clase,
i+1
, y en el eje ver-
tical sus correspondientes frecuencias acumuladas absolutas, F
i
, uniendo despus dichos
puntos mediante segmentos rectilneos.
Solucin del problema 1.11. La variable estadstica es el nmero de socios de la biblioteca. Es cuan-
titativa discreta. Los individuos a los que se les observa la variable son las bibliotecas pblicas.
(
i
,
i+1
] f
i
x
i
H
i
(675,1 375] 19 1 025 0

2262
(1 375,2 075] 22 1 725 0

4881
(2 075,2 775] 18 2 425 0

7024
(2 775,3 475] 14 3 125 0

8690
(3 475,4 175] 8 3 825 0

9643
(4 175,4 875] 2 4 525 0

9881
(4 875,5 575] 1 5 225 1

0000
Histograma: se sitan en el eje horizontal los intervalos de clase, (
i
,
i+1
], y sobre cada
uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. Como los
intervalos tienen la misma amplitud, basta con hacer las alturas de los rectngulos iguales
a las frecuencias absolutas, f
i
.
Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
las marcas de clase, x
i
, y en el eje vertical sus correspondientes frecuencias absolutas, f
i
,
uniendo despus los puntos mediante segmentos rectilneos.
Grco de frecuencias acumuladas relativas: se sitan los puntos que resultan de tomar en
el eje horizontal los extremos superiores de los intervalos de clase,
i+1
, y en el eje vertical
sus correspondientes frecuencias acumuladas relativas, H
i
, uniendo despus dichos puntos
mediante segmentos rectilneos.
2
Medidas descriptivas de los datos
Medidas descriptivas de los datos
Resumen del tema
2.1. Medidas de posicin
Son valores que nos sirven para indicar la posicin alrededor de la cual se distribuyen las observa-
ciones.
2.1.1. Mediana
La mediana es un valor que deja a su izquierda el 50 % de los datos de la muestra ordenada. La
denotaremos por M
e
. Su unidad de medida es la misma que la de la variable.
a) Clculo con datos no agrupados en intervalos:
n impar: M
e
es el valor central de la muestra ordenada.
n par: M
e
es el punto medio de los dos valores centrales de la muestra ordenada.
b) Clculo con datos agrupados en intervalos:
Intervalo mediano: es el que contiene a la mediana. Es el primer intervalo cuya frecuencia
absoluta acumulada es igual o mayor que
n
2
.
M
e
=
i
+
n
2
F
i1
f
i
(
i+1

i
) ,
donde (
i
,
i+1
] es el intervalo mediano, f
i
es su frecuencia absoluta y F
i1
es la frecuencia
absoluta acumulada del intervalo anterior al mediano.
19
20 J. Marn Fernndez
2.1.2. Cuantiles o percentiles
El cuantil o percentil al r % es un valor que deja por debajo el r % de los datos de la muestra
ordenada de menor a mayor. Lo denotaremos por C
r
. Su unidad de medida es la misma que la de la
variable.
CASOS PARTICULARES:
Cuartiles:
1
er
cuartil = Q
1
= C
25
2
o
cuartil = Q
2
= C
50
= M
e
3
er
cuartil = Q
3
= C
75
Deciles:
1
er
decil = D
1
= C
10
2
o
decil = D
2
= C
20
.
.
.
.
.
.
.
.
.
9
o
decil = D
9
= C
90
Si los datos estn agrupados en intervalos de clase, el intervalo que contiene a C
r
es el primero
cuya frecuencia acumulada absoluta es igual o mayor que
nr
100
y el cuantil al r % se determina mediante la frmula:
C
r
=
i
+
nr
100
F
i1
f
i
(
i+1

i
) ,
donde (
i
,
i+1
] es el intervalo que contiene a C
r
, f
i
es su frecuencia absoluta y F
i1
es la frecuencia
absoluta acumulada del intervalo anterior.
2.1.3. Media
Llamaremos media a la media aritmtica. (Hay otras medias, como, por ejemplo, la media geo-
mtrica, la media cuadrtica y la media armnica.)
Si la variable se denota por X, la media de los datos de una muestra ser denotada por x. (Si
tenemos los datos de toda la poblacin, entonces representaremos la media por .)
a) Clculo con datos no agrupados en intervalos:
Si x
1
, x
2
, . . . , x
n
son los n valores de la muestra, entonces:
x =
n

i=1
x
i
n
.
Estadstica 21
Si los datos son x
1
, x
2
, . . . , x
k
, y aparecen con frecuencias absolutas respectivas f
1
, f
2
, . . . , f
k
,
entonces:
x =
k

i=1
x
i
f
i
n
.
De las frmulas anteriores se deduce que la unidad de medida de x es la misma que la de la
variable.
b) Clculo con datos agrupados en intervalos:
La frmula es la misma que la anterior, siendo x
i
la marca de clase del intervalo (
i
,
i+1
] y f
i
su correspondiente frecuencia absoluta.
2.2. Medidas de dispersin
Miden el grado de separacin de las observaciones entre s o con respecto a ciertas medidas de
posicin, como la media o la mediana.
2.2.1. Recorrido, rango o amplitud total
La frmula del recorrido (tambin denominado rango o amplitud total) es:
R = x
max
x
min
.
De la frmula anterior se deduce que la unidad de medida de R es la misma que la de la variable.
El recorrido nos mide el grado de variabilidad de los datos de la muestra: cuanto ms grande sea
el resultado del recorrido, ms dispersos estn los datos.
2.2.2. Recorrido intercuartlico
La frmula del recorrido intercuartlico es:
R
I
= Q
3
Q
1
= C
75
C
25
.
De la frmula anterior se deduce que la unidad de medida de R
I
es la misma que la de la variable.
Cuanto ms pequeo sea el resultado del recorrido intercuartlico, menos dispersin respecto de la
mediana hay; es decir, los datos estn menos alejados de la mediana y, por tanto, la mediana es ms
representativa. Pero, cundo podramos decir que el valor del recorrido intercuartlico es pequeo?
. . . Como entre el primer cuartil, Q
1
, y el tercer cuartil, Q
3
, hay exactamente la mitad de los datos,
podramos comparar la mitad del recorrido total con el recorrido intercuartlico, y podramos decir
que la mediana es representativa si R
I
es menor o igual que R/2.
22 J. Marn Fernndez
2.2.3. Varianza y desviacin tpica
I) Varianza
Si la variable se denota por X, la varianza de los datos procedentes de una muestra ser denotada
por s
2
x
. (Si disponemos de los datos de toda la poblacin, entonces representaremos la varianza
por
2
.)
La frmula de la varianza es:
s
2
x
=
n

i=1
(x
i
x)
2
n
=
k

i=1
(x
i
x)
2
f
i
n
.
Una frmula equivalente es:
s
2
x
=
n

i=1
x
2
i
n
x
2
=
k

i=1
x
2
i
f
i
n
x
2
.
De las frmulas anteriores se deduce que la unidad de medida de s
2
x
es la unidad de la variable
elevada al cuadrado.
II) Desviacin tpica
Si la variable se denota por X, la desviacin tpica de los datos procedentes de una muestra ser
denotada por s
x
. (Si disponemos de los datos de toda la poblacin, entonces representaremos la
desviacin tpica por .)
La frmula de la desviacin tpica es:
s
x
=

Varianza .
De la frmula anterior se deduce que la unidad de medida de s
x
es la misma que la de la variable.
Cuanto ms pequeo sea el resultado de la desviacin tpica, menos dispersin respecto de
la media hay; es decir, los datos estn menos alejados de la media y, por tanto, la media es
ms representativa. Pero, cundo podramos decir que el resultado de la desviacin tpica es
pequeo? . . . Como entre x s y x + s hay, para la mayora de las variables, ms de las dos
terceras partes de los datos, podramos comparar la amplitud del intervalo (xs, x+s) con los
dos tercios del recorrido total; es decir, podramos comparar el resultado de 2 s con el resultado
de 2 R/3, lo que es lo mismo que comparar s con R/3. En consecuencia, podramos decir que
la media es representativa si s es menor o igual que R/3.
III) Cuasivarianza o varianza corregida
Se utiliza, sobre todo, en Estadstica Inferencial.
Si la variable se denota por X, la cuasivarianza o varianza corregida de los datos procedentes
de una muestra ser denotada por S
2
x
.
La frmula de la cuasivarianza es:
Estadstica 23
S
2
x
=
n

i=1
(x
i
x)
2
n 1
=
k

i=1
(x
i
x)
2
f
i
n 1
.
Una frmula equivalente es:
S
2
x
=
_
n

i=1
x
2
i
_
nx
2
n 1
=
_
k

i=1
x
2
i
f
i
_
nx
2
n 1
.
De las frmulas anteriores se deduce que la unidad de medida de S
2
x
es la unidad de la variable
elevada al cuadrado.
Relacin entre la varianza y la cuasivarianza:
ns
2
x
= (n 1) S
2
x
.
IV) Cuasidesviacin tpica o desviacin tpica corregida
Se utiliza, sobre todo, en Estadstica Inferencial.
La frmula de la cuasidesviacin tpica es:
S
x
=

Cuasivarianza .
De la frmula anterior se deduce que la unidad de medida de S
x
es la misma que la de la
variable.
24 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 2.1. Observamos la edad de 8 alumnos de clase y calculamos la mediana.
Ejemplo 2.2. Observamos la edad de 9 alumnos de clase y calculamos la mediana.
Ejemplo 2.3. La distribucin de frecuencias de las calicaciones de 13 alumnos en un determinado
examen viene dada por la tabla siguiente. Calcular la mediana.
Tabla 2.1
x
i
f
i
F
i
2 2 2
4 3 5
6 5 10
8 3 13
Ejemplo 2.4. La distribucin de frecuencias de las calicaciones de 12 alumnos en un determinado
examen viene dada por la tabla siguiente. Calcular la mediana.
Tabla 2.2
x
i
f
i
F
i
2 1 1
4 5 6
6 4 10
8 2 12
Ejemplo 2.5. En una biblioteca se observa el tiempo (en das) que tardan los proveedores en sumi-
nistrar las peticiones que la biblioteca les hace:
Tabla 2.3
N
o
de das 6 7 8 9 10 11 12 13 14
N
o
de proveedores 1 2 3 4 5 3 2 2 2
a) Cul es la variable estadstica que se observa? De qu tipo es dicha variable? Cules son
los individuos a los que se les observa dicha variable? Cul es el tamao muestral?
b) Calcular la mediana. Interpretar el resultado.
Ejemplo 2.6. En una muestra de libros se observa el nmero de referencias bibliogrcas que con-
tienen. Nos han proporcionado los datos agrupados en intervalos:
Estadstica 25
Tabla 2.4
N
o
de referencias N
o
de libros
(3,9] 7
(9,15] 17
(15,21] 12
(21,27] 7
(27,33] 5
(33,39] 2
a) Cul es la variable estadstica que se observa? De qu tipo es dicha variable? Cules son
los individuos a los que se les observa dicha variable? Cul es el tamao muestral?
b) Calcular el valor aproximado de la mediana a partir del grco de frecuencias acumuladas
absolutas.
c) Calcular la mediana mediante la frmula. Interpretar el resultado.
Ejemplo 2.7. Con los datos de la Tabla 2.3 calcular: el primer decil, el primer cuartil, el tercer cuartil
y el noveno decil. Interpretar los resultados.
Ejemplo 2.8. Con los datos de la Tabla 2.4 calcular el primer y el tercer cuartil. Interpretar los resul-
tados.
Ejemplo 2.9. Calcular la media de los datos de la Tabla 2.3.
Ejemplo 2.10. Calcular la media de los datos de la Tabla 2.4.
Ejemplo 2.11. Cul es el grado de dispersin de los datos de la Tabla 2.3? Razonar la respuesta.
Ejemplo 2.12. Cul es el grado de dispersin de los datos de la Tabla 2.4? Razonar la respuesta.
Ejemplo 2.13. Con los datos de la Tabla 2.3 cul es el grado de representatividad de la mediana:
muy fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.14. Con los datos de la Tabla 2.4 cul es el grado de representatividad de la mediana:
muy fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.15. Con los datos de la Tabla 2.3 cul es el grado de representatividad de la media: muy
fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.16. Con los datos de la Tabla 2.4 cul es el grado de representatividad de la media: muy
fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
26 J. Marn Fernndez
Problemas propuestos
Problema 2.1. Se pregunt a varias personas, elegidas al azar, el nmero de peridicos distintos que
lean trimestralmente, y se obtuvo las siguientes respuestas:
N
o
de peridicos 0 1 2 3 4 5 6 7
N
o
de lectores 7 13 18 15 11 6 4 2
a) Dibujar el grco de frecuencias acumuladas absolutas. Calcular la mediana.
b) Cul es el grado de representatividad de la mediana: muy poco representativa, poco,
regular, bastante o muy representativa?
Problema 2.2. El nmero de personas que visitan diariamente una biblioteca fue observado durante
74 das elegidos al azar, y los resultados fueron:
N
o
de personas 47 59 62 64 71 76 78 80
N
o
de das 4 6 10 17 16 10 7 4
a) Hallar la media y la mediana.
b) Calcular la medida de dispersin adecuada para medir el grado de representatividad de la
media. Interpretar su resultado.
c) Calcular la medida de dispersin adecuada para medir el grado de representatividad de la
mediana. Interpretar su resultado.
Problema 2.3. La edad de las personas que aprobaron la oposicin de auxiliar de biblioteca en Es-
paa en un determinado ao tiene la siguiente distribucin:
Edad [20,25] (25,30] (30,35] (35,40] (40,50] (50,60]
N
o
de personas 41 123 44 13 7 3
a) Dibujar el grco de frecuencias acumuladas absolutas. A partir de este grco, determi-
nar el valor aproximado de la mediana. Determinar, despus, el valor de la mediana con
la frmula estudiada.
b) Cul es el grado de representatividad de la mediana? Justicar la respuesta.
Problema 2.4. Los siguientes datos corresponden al nmero mensual de nuevos socios de una deter-
minada biblioteca:
27 40 12 3 30 16 20 21 30 12
45 18 25 22 35 24 37 12 21 7
35 17 21 27 14 15 25 45 12 24
a) Determinar la distribucin de frecuencias y dibujar el polgono de frecuencias absolutas.
b) Calcular la media y la mediana.
Estadstica 27
Problema 2.5. El nmero de veces que fueron consultados 60 artculos de investigacin archivados
en una hemeroteca, durante un determinado ao, viene dado por la siguiente tabla:
8 25 20 4 19 3 21 2 20 22
23 9 1 24 21 22 20 2 22 21
2 24 21 9 3 21 22 3 22 3
12 6 20 2 26 46 2 4 10 37
14 9 7 25 50 26 38 46 36 1
7 1 35 23 45 36 5 65 46 37
Agrupar los datos en intervalos de la misma amplitud, y calcular, a partir de esta clasicacin,
el valor de la medida de posicin que resulte ms representativa del conjunto total de los datos.
Problema 2.6. Acontinuacin se ofrecen los datos correspondientes al tiempo de espera (en minutos)
de 50 usuarios de una biblioteca hasta que son atendidos por algn miembro del personal de
sta.
1 3 5 20 21 4 7 9 10 12
20 18 6 4 13 11 10 13 15 9
4 20 2 22 8 6 11 4 8 6
5 18 19 20 7 15 16 13 12 14
7 10 5 24 11 8 9 10 11 7
a) Determinar la distribucin de frecuencias. Calcular la media y la mediana.
b) Agrupar los datos en intervalos de distinta amplitud, y calcular, a partir de esta nueva clasi-
cacin, las mismas medidas descriptivas del apartado anterior. Comparar los resultados.
28 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 2.1. La distribucin de frecuencias es:
x
i
f
i
F
i
0 7 7
1 13 20
2 18 38
3 15 53
4 11 64
5 6 70
6 4 74
7 2 76
a) Grco de frecuencias acumuladas absolutas: es la representacin grca de las fre-
cuencias acumuladas absolutas, F, para todo valor numrico, x. Es una grca en
forma de escalera".
Mediana=M
e
= 2

5 peridicos.
b) Como el recorrido intercuartlico es R
I
= 3 peridicos y la mitad del recorrido es R/2 =
3

5 peridicos, entonces se cumple que R


I
es un poco menor que R/2 y, como consecuen-
cia, la mediana es bastante representativa.
Solucin del problema 2.2.
a) Media=x = 67

7297 personas.
Mediana=M
e
= 67

5 personas.
b) La desviacin tpica es s
x
= 8

1677 personas. Como R/3 = 11, entonces se cumple que


s
x
es bastante menor que R/3 y, como consecuencia, la media es bastante representativa.
c) El recorrido intercuartlico es R
I
= 14 personas. Como R/2 = 16

5, entonces R
I
es
bastante menor que R/2 y, como consecuencia, la mediana es bastante representativa.
Solucin del problema 2.3.
a) Grco de frecuencias acumuladas absolutas: se sitan los puntos que resultan de
tomar en el eje horizontal los extremos superiores de los intervalos de clase, y en el
eje vertical sus correspondientes frecuencias acumuladas absolutas, uniendo despus
dichos puntos mediante segmentos rectilneos.
A partir del grco anterior se deduce que la mediana es aproximadamente igual a 28
aos.
Con la frmula se obtiene que la mediana es M
e
= 28

0285 aos.
b) El recorrido intercuartlico es R
I
= 5

37 aos. Como R/2 = 20 entonces R


I
es mucho
menor que R/2 y, como consecuencia, la mediana es muy representativa.
Estadstica 29
Solucin del problema 2.4.
a) La distribucin de frecuencias (conteniendo las columnas que posteriormente necesi-
taremos) es:
x
i
f
i
F
i
x
i
f
i
(x
i
x)
2
f
i
3 1 1 3 402

6711
7 1 2 7 258

1378
12 4 6 48 489

8844
14 1 7 14 82

2044
15 1 8 15 65

0711
16 1 9 16 49

9378
17 1 10 17 36

8044
18 1 11 18 25

6711
20 1 12 20 9

4044
21 3 15 63 12

8133
22 1 16 22 1

1378
24 2 18 48 1

7422
25 2 20 50 7

4756
27 2 22 54 30

9422
30 2 24 60 96

1422
35 2 26 70 284

8089
37 1 27 37 194

1378
40 1 28 40 286

7378
45 2 30 90 962

1422
suma 692 3297

6
Polgono de frecuencias absolutas: se sitan los puntos que resultan de tomar en el
eje horizontal los distintos valores de la variable, x
i
, y en el eje vertical sus corres-
pondientes frecuencias absolutas, f
i
, uniendo despus los puntos mediante segmentos
rectilneos.
b) Media=x = 23

6 socios.
Mediana=M
e
= 21

5 socios.
Solucin del problema 2.5. La distribucin de frecuencias con datos agrupados en intervalos de la
misma amplitud es:
30 J. Marn Fernndez
(
i
,
i+1
] x
i
f
i
F
i
(0

8, 10] 5

4 23 23
(10, 19

2] 14

6 3 26
(19

2, 28

4] 23

8 22 48
(28

4, 37

6] 33

0 5 53
(37

6, 46

8] 42

2 5 58
(46

8, 56] 51

4 1 59
(56, 65

2] 60

6 1 60
Como la dispersin es grande, la medida de posicin ms adecuada es la mediana. Con los datos
agrupados en estos intervalos de clase, el valor de la mediana es M
e
= 20

72 veces.
Solucin del problema 2.6.
a) La distribucin de frecuencias es:
x
i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 19 20 21 22 24
f
i
1 1 1 4 3 3 4 3 3 4 4 2 3 1 2 1 2 1 4 1 1 1
F
i
1 2 3 7 10 13 17 20 23 27 31 33 36 37 39 40 42 43 47 48 49 50
x
i
f
i
1 2 3 16 15 18 28 24 27 40 44 24 39 14 30 16 36 19 80 21 22 24
Media=x = 10

86 minutos.
Mediana=M
e
= 10 minutos.
b) Una posible agrupacin de los datos en intervalos de distinta amplitud es:
(
i
,
i+1
] f
i
x
i
x
i
f
i
F
i
(0,4] 7 2 14 7
(4,6] 6 5 30 13
(6,8] 7 7 49 20
(8,10] 7 9 63 27
(10,12] 6 11 66 33
(12,15] 6 13

5 81 39
(15,19] 4 17 68 43
(19,24] 7 21

5 150

5 50
suma 521

5
Con esta clasicacin en intervalos, los resultados de las medidas descriptivas anteriores
son:
Media=x = 10

43 minutos.
Mediana=M
e
= 9

4286 minutos.
Los verdaderos resultados de estas medidas descriptivas son los calculados en el apartado
anterior.
3
Relacin entre dos variables
cuantitativas
Relacin entre dos variables
cuantitativas
Resumen del tema
3.1. Diagrama de dispersin
Cuando sobre cada individuo de una poblacin se observan simultneamente dos caractersticas
cuantitativas X e Y , se dice que se est observando una variable estadstica bidimensional, que se
representa por (X, Y ).
La representacin grca ms usual es el diagrama de dispersin o nube de puntos, que consiste
en situar en un sistema de ejes coordenados los puntos que resultan de tomar en el eje horizontal los
valores de una de las variables y en el eje vertical los valores de la otra.
3.2. Coeciente de correlacin lineal
Covarianza entre X e Y :
s
xy
=
n

i=1
(x
i
x)(y
i
y)
n
=
n

i=1
x
i
y
i
n
x y .
De la frmula anterior se deduce que la unidad de medida de s
xy
es el producto de la unidad de X
por la unidad de Y .
Coeciente de correlacin lineal de Pearson entre X e Y :
r
xy
=
s
xy
s
x
s
y
.
De la frmula anterior se deduce que r
xy
no tiene unidad de medida.
31
32 J. Marn Fernndez
Propiedad del coeciente de correlacin lineal: el resultado de r
xy
siempre est comprendido entre
1 y 1; es decir,
1 r
xy
1 .
Interpretacin descriptiva del coeciente de correlacin lineal:
Si r
xy
> 0, existe relacin lineal directa entre X e Y ; es decir, al aumentar la variable X,
aumenta la variable Y .
Si r
xy
< 0, existe relacin lineal inversa entre X e Y ; es decir, al aumentar la variable X,
disminuye la variable Y .
Si r
xy
= 1, existe dependencia lineal directa exacta entre X e Y ; es decir, los puntos del
diagrama de dispersin estn situados sobre una lnea recta de pendiente positiva.
Si r
xy
= 1, existe dependencia lineal inversa exacta entre X e Y ; es decir, los puntos del
diagrama de dispersin estn situados sobre una lnea recta de pendiente negativa.
Si r
xy
= 0, no existe dependencia lineal entre X e Y .
Cuanto ms se aproxime r
xy
a 1 o a 1, ms dependencia lineal existe entre X e Y . Y cuanto
ms se aproxime r
xy
a 0, ms independencia lineal existe entre X e Y .
3.3. Recta de regresin
Recta de regresin de Y sobre X: aquella que permite predecir los resultados de la variable Y a
partir de los valores de la variable X.
Ecuacin de la recta de regresin (mnimo cuadrtica) de Y sobre X:

Y = A +BX ,
donde:
B =
s
xy
s
2
x
= r
xy
s
y
s
x
,
A = y Bx .
Recta de regresin de X sobre Y : aquella que permite predecir los resultados de la variable X a
partir de los valores de la variable Y .
Ecuacin de la recta de regresin (mnimo cuadrtica) de X sobre Y :

X = A

+B

Y ,
donde:
B

=
s
xy
s
2
y
= r
xy
s
x
s
y
,
A

= x B

y .
Estadstica 33
Ejemplos que se van a resolver en clase
Ejemplo 3.1. La tabla siguiente muestra la vejez (aos desde su publicacin) y la frecuencia de uso
(nmero de veces que se consulta en un ao) de ocho libros:
Tabla 3.1
Vejez del libro 1 3 2 4 3 5 4 3
Frecuencia de uso 40 18 30 21 26 10 13 35
Dibujar el diagrama de dispersin.
Ejemplo 3.2. Con los datos de la Tabla 3.1 calcular el coeciente de correlacin lineal entre ambas
variables. Cmo se puede calicar el grado de relacin lineal: muy fuerte, fuerte, moderado,
dbil o muy dbil? La relacin es directa o inversa? Razonar las respuestas.
Ejemplo 3.3. Con los datos de la Tabla 3.1 determinar la ecuacin de la recta de regresin de la
frecuencia de uso sobre la vejez del libro. Sobre el mismo grco en el que se ha hecho el
diagrama de dispersin, representar grcamente la recta de regresin. Estimar el nmero anual
de veces que se prestara un libro publicado hace 6 aos. Es able esta estimacin? Justicar
la respuesta.
Ejemplo 3.4. Con los datos de la Tabla 3.1 determinar la ecuacin de la recta de regresin de la
vejez del libro sobre la frecuencia de uso. Predecir la vejez de un libro que no fuese consultado
ninguna vez durante todo el ao. Es able esta prediccin? Por qu?
34 J. Marn Fernndez
Problemas propuestos
Problema 3.1. El nmero de libros prestados a los estudiantes y a los profesores de los diferentes
departamentos de una universidad en un curso acadmico determinado ha sido:
Departamento Estudiantes Profesores
Agricultura 396 70
Antropologa 1.122 340
Biologa 311 273
Botnica 562 181
Cristalografa 149 33
Fsica 1.446 704
Geologa 1.579 556
Informtica 557 233
Ingeniera 1.044 434
Matemticas 710 437
Mineraloga 52 22
Psicologa 1.153 495
Qumica 737 473
Zoologa 1.343 462
a) Dibujar el diagrama de dispersin.
b) Calcular el coeciente de correlacin lineal entre ambas variables. Cmo se puede cali-
car el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
c) Determinar la ecuacin de la recta de regresin del nmero de libros prestados a los estu-
diantes sobre el nmero de libros prestados a los profesores. Estimar el nmero de libros
prestados a los estudiantes que puede esperarse cuando el nmero de libros prestados a
los profesores sea de 400. Es able esta estimacin? Justicar la respuesta.
Problema 3.2. El tamao de la poblacin y el nmero de libros prestados por las bibliotecas de once
ciudades fue:
Poblacin N
o
de prstamos
100.000 100.000
114

5 86

0
25

9 35

8
4

2 51

3
7

5 47

3
6

7 7

5
6

5 94

7
6

0 77

0
5

9 39

9
4

6 18

0
4

5 36

0
4

3 68

9
Estadstica 35
a) Calcular el coeciente de correlacin lineal entre ambas variables. Cmo se puede cali-
car el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
b) Pronosticar el nmero de libros prestados por las bibliotecas de una ciudad de un milln
de habitantes. Decir si es able este pronstico, razonando la respuesta.
Problema 3.3. Los siguientes datos se reeren al nmero de libros y de revistas que reciben men-
sualmente doce bibliotecas elegidas al azar.
libros revistas
1.090 24
7.420 92
4.200 67
8.250 158
8.810 81
1.620 59
3.840 54
9.400 171
3.630 100
14.100 276
2.500 122
11.470 200
a) Calcular el coeciente de correlacin lineal entre ambas variables. Cmo se puede cali-
car el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
b) Estimar el nmero de revistas que recibira una biblioteca en un mes en el que le enviaran
5.000 libros. Es able esta estimacin? Justicar la respuesta.
36 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 3.1. Sea X =nmero de libros prestados a los estudiantes de cada departa-
mento de la determinada universidad, durante el determinado curso acadmico e Y =nmero
de libros prestados a los profesores de cada departamento de la determinada universidad, du-
rante el determinado curso acadmico.
(a) El diagrama de dispersin o nube de puntos consiste en situar en un sistema de ejes coorde-
nados los puntos que resultan de tomar en el eje horizontal los valores de una de las variables y
en el eje vertical los valores de la otra.
(b) El coeciente de correlacin lineal entre X e Y es r
xy
= 0

8851. Como este coeciente est


bastante prximo a 1, la relacin lineal entre ambas variables se puede calicar de fuerte.
(c) La recta de regresin del nmero de libros prestados a los estudiantes sobre el nmero
de libros prestados a los profesores es la recta de regresin de X sobre Y , cuya ecuacin es:

X = 95

9530 + 2

0831 Y
El nmero de libros prestados a los estudiantes que puede esperarse cuando el nmero de libros
prestados a los profesores sea de 400 es:

X = 95

9530 + 2

0831 400 = 929

193; es decir, 929


libros, aproximadamente.
Esta estimacin es bastante able ya que el coeciente de correlacin lineal est bastante prxi-
mo a 1 y, por tanto, los puntos de la recta de regresin y los puntos del diagrama de dispersin
estn bastante prximos.
Solucin del problema 3.2. Sea X =nmero de habitantes de cada ciudad, multiplicado por 100.000
e Y =nmero de libros prestados por la biblioteca de cada ciudad, multiplicado por 100.000.
(a) El coeciente de correlacin lineal entre X e Y es r
xy
= 0

3846. Como este coeciente est


prximo a cero, la relacin lineal entre ambas variables se puede calicar de dbil.
(b) Para hacer este pronstico hay que determinar la ecuacin de la recta de regresin de Y
sobre X, que es:

Y = 45

4902304 + 0

32532773 X.
El pronstico del nmero de libros prestados por las bibliotecas de una ciudad de un mi-
lln de habitantes es:

Y = 45

4902304 + 0

32532773 10 = 48

7435077 multiplicado por


100.000=4.874.350

77 libros; es decir, aproximadamente 4.874.351 libros.


Este pronstico es poco able ya que el valor del coeciente de correlacin lineal entre X e Y
est prximo a cero y, por tanto, los puntos de la recta de regresin y los puntos del diagrama
de dispersin estn bastante alejados.
Solucin del problema 3.3. Sea X =nmero de libros recibidos mensualmente por cada biblioteca
e Y =nmero de revistas recibidas mensualmente por cada biblioteca.
(a) El coeciente de correlacin lineal entre X e Y es r
xy
= 0

8605. Como este coeciente est


bastante prximo a 1, la relacin lineal entre ambas variables se puede calicar de fuerte.
(b) Para hacer esta estimacin hay que determinar la recta de regresin de Y sobre X, que es:

Y = 21

6844 + 0

0150 X.
La estimacin del nmero de revistas que recibira una biblioteca en un mes en el que le enviaran
5 000 libros es:

Y = 21

6844 +0

0150 5 000 = 96

6082; es decir, 97 libros, aproximadamente.


Estadstica 37
Esta prediccin es bastante able ya que el valor del coeciente de correlacin lineal entre X
e Y est bastante prximo a 1 y, por tanto, los puntos de la recta de regresin y los puntos del
diagrama de dispersin estn bastante prximos.
4
Probabilidad
Probabilidad
Resumen del tema
4.1. Introduccin a la Probabilidad
Experimento: cualquier proceso que permite asociar a cada individuo de una poblacin un sm-
bolo (numrico o no) entre los smbolos de un conjunto dado a priori.
Experimento determinista: es aquel en el que los resultados estn totalmente determinados
una vez que se jan las condiciones en las que se realiza el experimento.
Experimento aleatorio: est caracterizado por las tres propiedades siguientes:
Todos sus posibles resultados son conocidos con anterioridad.
No se puede predecir el resultado del experimento.
El experimento puede repetirse en condiciones idnticas.
Ensayo o prueba: es la realizacin concreta de un experimento aleatorio.
Dato, observacin o resultado: es el smbolo que se ha obtenido en un ensayo de un experimento
aleatorio.
Suceso elemental: cada resultado de un experimento aleatorio.
Espacio muestral (): conjunto de todos los sucesos elementales.
Suceso (A, B, . . .): conjunto de sucesos elementales.
Suceso seguro: es el espacio muestral.
Suceso imposible (): no consta de ningn suceso elemental.
39
40 J. Marn Fernndez
4.2. Operaciones con sucesos
Suceso contrario: Dado un suceso A, se denomina suceso contrario de A al suceso A que
ocurre cuando no ocurre A; es decir, A consta de los sucesos elementales de que no estn
incluidos en A.
Unin de sucesos: Dados dos sucesos A y B de un mismo experimento, se entiende por unin
de ambos, y se denota por A B, al suceso que ocurre cuando ocurre A, cuando ocurre B o
cuando ocurren ambos; es decir, al formado por todos los sucesos elementales que son de A o
de B.
Interseccin de sucesos: Dados dos sucesos A y B de un mismo experimento, se entiende por
interseccin de ambos, y se representa por A B, al suceso que ocurre cuando ocurren A y
B a la vez; es decir, al formado por todos los sucesos elementales que pertenecen a A y a B
simultneamente.
Sucesos incompatibles: A y B son dos sucesos incompatibles si no tienen ningn suceso ele-
mental en comn (A B = ).
Diferencia de sucesos: Dados dos sucesos A y B de un mismo experimento aleatorio, se en-
tiende por diferencia de ambos, y se denota por A B, al suceso que ocurre cuando ocurre A
pero no B; es decir, al que consta de los sucesos elementales de A que no estn en B.
4.3. Regla de Laplace
Si un experimento aleatorio da lugar a un nmero nito de sucesos elementales, todos ellos igual-
mente posibles (es decir, no se conoce razn alguna que favorezca la presentacin de uno respecto de
los otros), entonces la probabilidad de un suceso A es:
P(A) =
n
o
de casos favorables al suceso A
n
o
de casos posibles del experimento
.
4.4. Propiedades de la probabilidad
Propiedad fundamental de la probabilidad: La probabilidad de un suceso es un nmero
comprendido entre 0 y 1; es decir:
0 P(A) 1 , para todo suceso A.
Probabilidad del suceso seguro: La probabilidad del espacio muestral es 1; es decir:
P() = 1.
Probabilidad del suceso contrario: La probabilidad del suceso contrario de A es:
P(A) = 1 P(A) .
Probabilidad del suceso imposible: La probabilidad del suceso imposible es cero; es decir:
P() = 0 .
Estadstica 41
Probabilidad de la diferencia de sucesos: Si B est incluido en A entonces:
P(A B) = P(A) P(B) .
Probabilidad de la unin de dos sucesos incompatibles: Si A y B son dos sucesos incompa-
tibles entonces la probabilidad del suceso unin es la suma de las probabilidades de A y B; es
decir:
P(A B) = P(A) +P(B) , si A y B son incompatibles.
Probabilidad de la unin de n sucesos incompatibles: Si varios sucesos son incompatibles
dos a dos, la probabilidad de la unin de todos ellos es la suma de sus probabilidades; es decir:
P(A
1
A
2
. . . A
n
) = P(A
1
) +P(A
2
) +. . . +P(A
n
) ,
si A
1
, A
2
, . . . , A
n
son incompatibles dos a dos.
Probabilidad de la unin de dos sucesos cualesquiera: La probabilidad de la unin de dos
sucesos cualesquiera es igual a la probabilidad del primero, ms la probabilidad del segundo,
menos la probabilidad de la interseccin; es decir:
P(A B) = P(A) +P(B) P(A B) .
Probabilidad de la unin de tres sucesos cualesquiera: Si A, B y C son tres sucesos cuales-
quiera entonces la probabilidad de la unin de los tres sucesos es:
P(A B C) = P(A) +P(B) +P(C)
P(A B) P(A C) P(B C)
+P(A B C) .
42 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 4.1. Dar un ejemplo de experimento aleatorio. Determinar el espacio muestral. Poner dos
ejemplos de sucesos (A y B).
Ejemplo 4.2. Determinar los sucesos contrarios de los del Ejemplo 4.1 (A y B).
Ejemplo 4.3. Con los sucesos A y B del Ejemplo 4.1 determinar las siguientes uniones de sucesos:
A B y A B.
Ejemplo 4.4. Con los sucesos A y B del Ejemplo 4.1 determinar las siguientes intersecciones de
sucesos: A B y A B.
Ejemplo 4.5. Son incompatibles los sucesos A y B del Ejemplo 4.1?
Ejemplo 4.6. Con los sucesos A y B del Ejemplo 4.1 determinar las siguientes diferencias de suce-
sos: A B y B A.
Ejemplo 4.7. En una biblioteca que consta de 250 libros, 20 de ellos estn escritos en ingls y el
resto en espaol. Cul es la probabilidad de que un libro elegido al azar, entre los 250 de dicha
biblioteca, est escrito en ingls?
Ejemplo 4.8. Estamos investigando la calidad de las fotocopias hechas en una biblioteca. En una
muestra de 100 copias, se observa que 2 estn en blanco y manchadas, 3 estn en blanco pero
no estn manchadas y 25 no estn en blanco pero estn manchadas. Cul es la probabilidad de
que esta mquina fotocopiadora realice una copia que no est en blanco ni manchada?
Ejemplo 4.9. Una biblioteca dispone de tres empleados (A, B y C) para atender a los usuarios. El
20 % de las ocasiones est disponible (para atender a cualquier usuario) el empleado A, el
30 % de las veces est disponible el empleado B y el 25 % de las ocasiones est disponible el
empleado C. Adems, el 10 % de las veces estn disponibles A y B, el 12 % estn disponibles
A y C, el 14 % estn disponibles B y C, y el 8 % de las ocasiones estn disponibles los tres
empleados. Cul es la probabilidad de que una persona sea atendida en el mismo momento en
que llegue a la biblioteca?
Ejemplo 4.10. En un grupo de alumnos de una licenciatura en documentacin, el 25 % suspendi
la asignatura Anlisis Documental, el 15 % la asignatura Documentacin General y el 10 %
ambas asignaturas. Cul es la probabilidad de que un alumno suspenda Anlisis Documental
o Documentacin General?
Ejemplo 4.11. En un estudio realizado en un determinado pas sobre la participacin de la mujer en
trabajos sobre informacin y documentacin, antes y despus de ser madre, se selecciona una
muestra de 683 mujeres obtenindose los siguientes resultados:
Estadstica 43
Despus
NO S
Antes
NO 169 3
S 337 174
a) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes de ser
madre.
b) Calcular la probabilidad de que una mujer participe en dicho mercado laboral despus de
ser madre.
c) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes y
despus de ser madre.
d) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes o
despus de ser madre.
44 J. Marn Fernndez
Problemas propuestos
Problema 4.1. Un centro de informacin dispone de 10 ordenadores para consultar diversas bases
de datos. Se realiza el experimento que consiste en observar, en diferentes instantes del da,
el nmero de ordenadores que no estn ocupados. Determinar el espacio muestral. Poner dos
ejemplos de sucesos (A y B). Hallar los sucesos contrarios (A y B), el suceso unin (A B),
el suceso interseccin (A B), el suceso diferencia (A B), y los sucesos A B, A B y
A B.
Problema 4.2. El nmero de libros por estante de una biblioteca viene dado por:
N
o
de libros 19 20 21 22 23 24 25 26 27 28 29 30
N
o
de estantes 2 3 7 5 14 11 12 9 6 6 3 2
Calcular la probabilidad de que un estante elegido al azar tenga:
a) exactamente 24 libros.
b) 24 o 25 libros.
c) menos de 24 libros.
Problema 4.3. Los asistentes a un acto cultural preparado por una biblioteca se clasican de la si-
guiente manera:
menos de 18 aos entre 18 y 24 aos entre 25 y 40 aos ms de 40 aos
Hombre 17 28 31 52
Mujer 23 39 50 75
a) Calcular la probabilidad de que un asistente al acto, elegido al azar, tenga ms de 40 aos.
b) Calcular la probabilidad de que un asistente al acto, elegido al azar, sea mujer y tenga ms
de 40 aos.
c) Calcular la probabilidad de que una mujer asistente al acto, elegida al azar, tenga ms de
40 aos.
Problema 4.4. Se pregunta a todos los alumnos de una determinada facultad cuntas horas dedican
al estudio en la biblioteca, y los resultados son:
Curso de la licenciatura
1
o
2
o
3
o
4
o
5
o
menos de 1 hora 18 20 32 77 96
N
o
de horas entre 1 y 3 horas 22 35 90 83 50
ms de 3 horas 60 70 80 60 14
a) Determinar la probabilidad de que un alumno, elegido al azar, estudie ms de 3 horas
diarias en la biblioteca.
Estadstica 45
b) Hallar la probabilidad de que un alumno de quinto curso, elegido al azar, estudie ms de
3 horas diarias en la biblioteca.
c) Calcular la probabilidad de que un alumno, elegido al azar, sea de quinto curso o estudie
ms de 3 horas diarias en la biblioteca.
Problema 4.5. En la siguiente tabla aparece el nmero de hombres y de mujeres que se han llevado
prestados libros y vdeos de una biblioteca pblica.
Tipo de documento
suma
libro vdeo
Sexo
hombre 195 215 410
mujer 315 205 520
suma 510 420 930
a) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, sea mujer.
b) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, se lleve pres-
tado un vdeo.
c) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, sea mujer y se
lleve prestado un vdeo.
d) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, sea mujer o se
lleve prestado un vdeo.
Problema 4.6. El porcentaje de usuarios de la biblioteca G que trabajan en Murcia es del 55 %, y el
porcentaje de usuarios de dicha biblioteca que trabajan en Murcia y han nacido en Murcia es
del 35 %. Elegido un usuario de dicha biblioteca al azar, cul es la probabilidad de que trabaje
en Murcia pero no haya nacido en Murcia?
Problema 4.7. El 75 % de los estudiantes de la Universidad de Murcia son murcianos, el 15 % de
los estudiantes de la Universidad de Murcia tienen algn hijo y el 10 % de los estudiantes de la
Universidad de Murcia son murcianos y tienen algn hijo.
a) Si elegimos un estudiante de la Universidad de Murcia al azar cul es la probabilidad de
que sea murciano y no tenga ningn hijo?
b) Si elegimos un estudiante de la Universidad de Murcia al azar cul es la probabilidad de
que sea murciano o tenga algn hijo?
Problema 4.8. Se ha estudiado el uso de la biblioteca pblica por parte de los profesores universita-
rios, encontrndose que 42 de 113 psiclogos, 17 de 68 bilogos, 33 de 203 ingenieros y 20 de
78 profesores de ingls son usuarios de la biblioteca pblica (y el resto no).
a) Elegido un profesor universitario al azar, cul es la probabilidad de que sea profesor de
ingls?
b) Elegido un profesor universitario al azar, cul es la probabilidad de que sea usuario de la
biblioteca pblica?
46 J. Marn Fernndez
c) Elegido un profesor universitario al azar, cul es la probabilidad de que sea usuario de la
biblioteca pblica y profesor de ingls?
d) Elegido un profesor universitario al azar, cul es la probabilidad de que sea usuario de la
biblioteca pblica o profesor de ingls?
Estadstica 47
Soluciones de los problemas propuestos
Solucin del problema 4.1.
El espacio muestral es = = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. Los sucesos A y B podran ser:
A = {el nmero de ordenadores no ocupados es menor que 4} = {0, 1, 2, 3}
B = {el nmero de ordenadores no ocupados est comprendido entre 2 y 6} = {2, 3, 4, 5, 6}
Por tanto:
A = {4, 5, 6, 7, 8, 9, 10}
B = {0, 1, 7, 8, 9, 10}
A B = {0, 1, 2, 3, 4, 5, 6}
A B = {2, 3}
A B = {0, 1}
A B = {7, 8, 9, 10} = A B = A B
A B = {0, 1, 4, 5, 6, 7, 8, 9, 10} = A B = A B
A B = {2, 3, 4, 5, 6, 7, 8, 9.10} = A B
Solucin del problema 4.2. a) 0

1375, b) 0

2875, c) 0

3875.
Solucin del problema 4.3. a) 0

403174603, b) 0

238095238, c) 0

401069518.
Solucin del problema 4.4. a) 0

351920693, b) 0

0875, c) 0

53283767.
Solucin del problema 4.5. a) 0

559140, b) 0

451613, c) 0

220430, d) 0

790323.
Solucin del problema 4.6: 0

2
Solucin del problema 4.7. a) 0

65, b) 0

8.
Solucin del problema 4.8. a) 0

168831, b) 0


24, c) 0

043290, d) 0

367965.
5
Modelos de probabilidad
Modelos de probabilidad
Resumen del tema
5.1. Variables aleatorias discretas y continuas
5.1.1. Variables aleatorias
Una variable aleatoria es una funcin que asigna un nmero a cada suceso elemental de un
experimento aleatorio.
Cualquier variable estadstica cuantitativa estudiada en los temas 1 a 3 podra considerarse variable
aleatoria con la condicin de que est observada en todos los individuos de una poblacin.
La media de una variable aleatoria X se denota por
x
. En el caso en el que no exista la posibilidad
de confusin respecto de la variable aleatoria con la que estamos trabajando, la media se denotar
solamente por . A la media de una variable aleatoria X tambin se le llama esperanza matemtica
de X, denotndola entonces por E(X).
La varianza de una variable aleatoria X se denota por Var(X), por
2
x
o simplemente por
2
.
Por tanto, la desviacin tpica de una variable aleatoria X se denota por
x
o por .
La funcin de distribucin de una variable aleatoria X se denota por F
X
o simplemente por F y
se dene de la siguiente forma:
F
X
(t) = P(X t) para todo t .
CLASIFICACIN DE LAS VARIABLES ALEATORIAS:
Variable aleatoria discreta: slo puede tomar valores numricos aislados (jados dos conse-
cutivos, no puede existir ninguno intermedio).
Variable aleatoria continua: puede tomar cualquier valor numrico dentro de un intervalo, de
modo que entre cualesquiera dos de ellos siempre existe otro posible valor.
49
50 J. Marn Fernndez
5.1.2. Variables aleatorias continuas
Identicacin de una variable aleatoria continua X: es preciso conocer su funcin de densi-
dad, f(x), que debe vericar:
f(x) 0 para todo nmero real x.
El rea total bajo la curva y = f(x) vale 1.
La probabilidad de que la variable aleatoria X est comprendida entre a y b, P(a X
b), viene determinada por el rea bajo la curva y = f(x) entre x = a y x = b.
Los valores concretos de la funcin de densidad no tienen ningn signicado especial pues
las probabilidades vienen determinadas por reas bajo la curva determinada por la funcin de
densidad y no por valores de la funcin de densidad. En todo caso, este hecho nos informa de
que en las distribuciones continuas la probabilidad de que la variable aleatoria tome un valor
concreto, P(X = a), es cero, como corresponde al rea de un rectngulo de base un punto y
altura f(a). Resumiendo, si X es una variable aleatoria continua, entonces:
P(X = a) = 0 para todo a .
La representacin grca de la funcin de densidad de una variable aleatoria continua es
equivalente al polgono de frecuencias relativas de una variable estadstica continua cuando la
amplitud de los intervalos es innitesimal.
La media y la varianza de una variable aleatoria continua se determinan mediante una opera-
cin matemtica denominada integral.
La funcin de distribucin de una variable aleatoria continua X se dene igual que para cual-
quier variable aleatoria; es decir:
F
X
(t) = P(X t) para todo t .
El valor de F
X
(t) coincide con el rea bajo la curva y = f(x) desde el valor ms pequeo que
puede tomar la variable hasta el valor t.
Para algunas variables aleatorias continuas los resultados de la funcin de distribucin se pue-
den determinar con cualquier paquete estadstico, como MINITAB o SPSS.
Si X es una variable aleatoria continua, entonces:
P(X < a) = P(X a) = F
X
(a) para todo a.
P(X > a) = P(X a) = 1 F
X
(a) para todo a.
P(a < X < b) = P(a X b) = P(a X < b) = P(a < X b) = F
X
(b) F
X
(a)
para todo a y b.
Estadstica 51
5.2. La distribucin Normal
5.2.1. Distribucin Normal
Una variable aleatoria continua X tiene una distribucin Normal de parmetros y si su
funcin de densidad es:
f(x) =
1

2
exp
_

1
2
_
x

_
2
_
para todo x ,
donde es cualquier nmero, es cualquier nmero positivo y, en general, exp(t) signica e
t
, siendo
e la base de los logaritmos neperianos.
Son equivalentes las dos armaciones siguientes: X tiene una distribucin Normal de parmetros
y y X es una variable aleatoria Normal de parmetros y .
La variable aleatoria Normal de parmetros y ser denotada por:
N(, ) .
Se cumplen las siguientes propiedades:
La media, la mediana y la moda de una variable aleatoria N(, ) coinciden entre s y tienen
por valor al parmetro .
La desviacin tpica de la distribucin N(, ) es igual al parmetro .
La curva que representa a la funcin de densidad de la distribucin N(, ) es simtrica res-
pecto de la recta vertical de ecuacin x = .
El rea comprendida entre el eje horizontal y la curva que representa a la funcin de densidad
de la distribucin N(, ) vale 1 (como ocurre con cualquier distribucin continua).
5.2.2. Distribucin Normal Estndar
Ala variable aleatoria Normal de parmetros 0 y 1 se le llama variable aleatoria Normal Estndar,
o Normal Tpica, y se le denota por N(0, 1).
5.2.3. Uso de la tabla de la funcin de distribucin
La tabla de la funcin de distribucin de la variable aleatoria Normal Estndar, Z, da las probabili-
dades a la izquierda de nmeros positivos; es decir, P(Z t), con t > 0. A partir de las propiedades
de simetra y de que el rea total bajo la curva de densidad es la unidad, pueden deducirse todos los
casos: probabilidades a la izquierda o a la derecha de nmeros positivos o negativos.
5.2.4. Uso de la tabla de los cuantiles
Adems de tener tabulados los resultados de la funcin de distribucin de la variable aleatoria
Normal Estndar, tambin tenemos tabulados los valores inversos de la funcin de distribucin; es
decir, los cuantiles.
52 J. Marn Fernndez
El cuantil (o percentil) al 100p % de la variable aleatoria Normal Estndar se denota por Z
p
y es
el valor que verica:
P(N(0, 1) Z
p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin N(0, 1) y el eje horizontal,
a la izquierda de Z
p
, es igual a p.
Otra interpretacin es la siguiente: el valor Z
p
deja por debajo el 100p % de todos los resultados
de una variable aleatoria Normal Estndar.
El resultado de Z
p
se puede determinar con cualquier paquete estadstico, como MINITAB o SPSS
(para cualquier valor de p) y con las tablas de los cuantiles de N(0, 1) (para algunos valores de p).
5.2.5. Tipicacin
Se conoce por tipicacin a la transformacin realizada con una variable aleatoria cuando se le
resta su media y se divide por su desviacin tpica.
Si la variable aleatoria X es Normal de parmetros y , X N(, ), entonces la variable
aleatoria que resulta cuando tipicamos:
Z =
X

es una Normal Estndar; es decir, Z N(0, 1).


5.3. Otras distribuciones continuas importantes
5.3.1. Distribucin chi-cuadrado de Pearson
Si Z
1
, Z
2
, . . . , Z
n
son variables aleatorias independientes, todas ellas con distribucin Normal Es-
tndar, entonces la variable aleatoria Z
2
1
+ Z
2
2
+ + Z
2
n
sigue una distribucin denominada chi-
cuadrado de Pearson con n grados de libertad, que se denota por
2
n
.
El cuantil al 100p % de
2
n
se representa por
2
n, p
y es el valor que verica:
P(
2
n

2
n, p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin
2
n
y el eje horizontal, a la
izquierda de
2
n, p
, es igual a p.
Otra interpretacin es la siguiente: el valor
2
n, p
deja por debajo el 100p % de todos los resultados
de una variable aleatoria chi-cuadrado de Pearson con n grados de libertad.
El resultado de
2
n, p
se puede determinar con cualquier paquete estadstico, como MINITAB o
SPSS (para cualquier valor de n y p) y con las tablas de los cuantiles de
2
n
(para algunos valores de
n y p).
5.3.2. Distribucin t de Student
Si Z sigue una distribucin Normal Estndar y
2
n
es independiente de Z, entonces la variable
aleatoria
Z
_

2
n
n
Estadstica 53
sigue una distribucin denominada t de Student con n grados de libertad, que se denota por t
n
.
El cuantil al 100p % de t
n
se representa por t
n, p
y es el valor que verica:
P(t
n
t
n, p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin t
n
y el eje horizontal, a la
izquierda de t
n, p
, es igual a p.
Otra interpretacin es la siguiente: el valor t
n, p
deja por debajo el 100p % de todos los resultados
de una variable aleatoria t de Student con n grados de libertad.
El resultado de t
n, p
se puede determinar con cualquier paquete estadstico, como MINITAB o
SPSS (para cualquier valor de n y p) y con las tablas de los cuantiles de t
n
(para algunos valores de n
y p).
5.3.3. Distribucin F de Snedecor
Si tenemos dos variables aleatorias chi-cuadrado independientes,
2
m
y
2
n
, entonces la variable
aleatoria

2
m
m

2
n
n
sigue una distribucin denominada F de Snedecor con m grados de libertad en el numerador y n
grados de libertad en el denominador, que se denota por F
m, n
.
El cuantil al 100p % de F
m, n
se representa por F
m, n, p
y es el valor que verica:
P(F
m, n
F
m, n, p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin F
m, n
y el eje horizontal, a
la izquierda de F
m, n, p
, es igual a p.
Otra interpretacin es la siguiente: el valor F
m, n, p
deja por debajo el 100p % de todos los resulta-
dos de una variable aleatoria F de Snedecor con m grados de libertad en el numerador y n grados de
libertad en el denominador.
El resultado de F
m, n, p
se puede determinar con cualquier paquete estadstico, como MINITAB
o SPSS (para cualquier valor de m, n y p) y con las tablas de los cuantiles de F
m, n
(para algunos
valores de m, n y p).
54 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 5.1. Si Z N(0, 1) calcular las siguientes probabilidades:
a) P(Z < 0

321).
b) P(Z 1

275).
c) P(Z < 2

152).
d) P(Z 0

456).
e) P(1

434 Z 1

568).
Ejemplo 5.2. Si Z N(0, 1) determinar los siguientes cuantiles e interpretar los resultados.
a) Mediana de Z.
b) Tercer cuartil de Z.
c) Primer cuartil de Z.
Ejemplo 5.3. En una determinada asignatura de un Grado en Informacin y Documentacin se sabe
que las calicaciones siguen una distribucin Normal de media 5

5 y desviacin tpica 1

5. Si
en un ao acadmico hay 150 alumnos matriculados en esta asignatura, calcular el nmero de
alumnos que obtendrn una calicacin:
a) menor o igual que 3.
b) mayor o igual que 8.
c) comprendida entre 4 y 6.
Ejemplo 5.4. Determinar los siguientes cuantiles e interpretar los resultados.
a) Mediana de
2
10
.
b) Tercer cuartil de
2
30
.
Ejemplo 5.5. Determinar los siguientes cuantiles e interpretar los resultados.
a) Tercer cuartil de t
25
.
b) Primer cuartil de t
60
.
Ejemplo 5.6. Determinar los siguientes cuantiles e interpretar los resultados.
a) Cuantil al 95 % de F
20 , 10
.
b) Cuantil al 10 % de F
20 , 10
.
Estadstica 55
Problemas propuestos
Problema 5.1. Si Z es una variable Normal Estndar, determinar:
a) P(Z 2

21).
b) P(Z < 3

47).
c) P(Z 1

75).
d) P(Z > 2

46).
e) P(Z 3

24).
f) P(Z > 3

08).
g) P(1

12 Z 2

68).
h) P(0

85 < Z < 1

27).
i) P(2

97 < Z 1

33).
Problema 5.2. Si X es una variable Normal con media 8

46 y desviacin tpica 1

14, hallar:
a) P(X 9

11).
b) P(X < 12

33).
c) P(X 6

41).
d) P(X > 10

52).
e) P(X 12

61).
f) P(X > 4

01).
g) P(6

11 X 11

91).
h) P(7

53 < X < 10

33).
i) P(5

05 X < 6

83).
Problema 5.3. Hallar el valor de los siguientes cuantiles:
a) Z
0

58
.
b) Z
0

42
.
c) Z
0

999
.
d) Z
0

001
.
Problema 5.4. El cociente intelectual de 5.600 alumnos del Grado en Informacin y Documentacin
de diversas universidades sigue una distribucin Normal de media 130 y desviacin tpica 6.
Calcular cuntos de ellos tienen un cociente intelectual:
a) mayor que 140.
b) entre 125 y 135.
c) menor que 120.
Problema 5.5. Calcular el valor de los siguientes cuantiles:
56 J. Marn Fernndez
a)
2
6 , 0

01
.
b)
2
6 , 0

99
.
c)
2
72 , 0

975
.
Problema 5.6. Sea X una variable aleatoria que sigue una distribucin chi-cuadrado de Pearson con
15 grados de libertad. Determinar el valor de a que verica la siguiente igualdad:
a) P(X a) = 0

05.
b) P(X > a) = 0

99.
Problema 5.7. Calcular el valor de los siguientes cuantiles:
a) t
26 , 0

9
.
b) t
26 , 0

1
.
c) t
75 , 0

8
.
Problema 5.8. Sea X una variable aleatoria que sigue una distribucin t de Student con 20 grados
de libertad. Determinar el valor de a que verica la siguiente igualdad:
a) P(X a) = 0

99.
b) P(X a) = 0

25.
Problema 5.9. Calcular el valor de los siguientes cuantiles:
a) F
8 , 6 , 0

975
.
b) F
25 , 50 , 0

01
.
c) F
45 , 35 , 0

01
.
Problema 5.10. Sea X una variable aleatoria que sigue una distribucin F de Snedecor con 10 grados
de libertad en el numerador y 8 grados de libertad en el denominador. Determinar el valor de a
que verica la siguiente igualdad:
a) P(X < a) = 0

9.
b) P(X > a) = 0

05.
Estadstica 57
Soluciones de los problemas propuestos
Solucin del problema 5.1. a) 0

986447, b) 0

9997398, c) 0

040059, d) 0

006947, e) 0

0005976, f)
0

998965, g) 0

127676, h) 0

700295, i) 0

09027.
Solucin del problema 5.2. a) 0

715661, b) 0

9996505, c) 0

03593, d) 0

035148, e) 0

0001363, f)
0

9999519, g) 0

979078, h) 0

743389, i) 0

074964.
Solucin del problema 5.3. a) 0

20189, b) 0

20189, c) 3

09023231, d) 3

09023231.
Solucin del problema 5.4. a) 0

04746 5600 = 265

776 266 alumnos, b) 0

593462 5600 =
3323

3872 3323 alumnos, c) 0

04746 5600 = 265

776 266 alumnos.


Solucin del problema 5.5. a) 0

87209, b) 16

8119, c) 97

356547.
Solucin del problema 5.6. a) 7

26094, b) 5

22935.
Solucin del problema 5.7. a) 1

315, b) 1

315, c) 0

844772.
Solucin del problema 5.8. a) 2

528, b) 0

687.
Solucin del problema 5.9. a) 5

5996, b) 0

416684, c) 0

477478.
Solucin del problema 5.10. a) 2

538, b) 3

3472.
6
Contrastes no paramtricos en una
poblacin
Contrastes no paramtricos en una
poblacin
Resumen del tema
6.1. Introduccin a la Estadstica Inferencial
Estadstica inferencial: parte de la estadstica que se ocupa de llegar a conclusiones (inferencias)
acerca de las poblaciones a partir de los datos de las muestras extradas de ellas.
Hiptesis estadstica: armacin sobre la forma de una o ms distribuciones, o sobre el valor
de uno o ms parmetros de esas distribuciones.
Hiptesis nula: hiptesis estadstica que se somete a contraste. Se denota por H
0
.
Hiptesis alternativa: es la negacin de la hiptesis nula H
0
, e incluye todo lo que H
0
excluye.
Se denota por H
1
.
Contraste de hiptesis: procedimiento que nos capacita para determinar si las muestras obser-
vadas dieren signicativamente de los resultados esperados, y por tanto nos ayuda a decidir si
aceptamos o rechazamos la hiptesis nula.
Contraste paramtrico: la hiptesis nula es una armacin sobre el valor de uno o ms
parmetros de la variable aleatoria observada en la poblacin.
Contraste no paramtrico: la hiptesis nula no es una armacin sobre el valor de uno o
ms parmetros de la variable aleatoria observada en la poblacin.
Estadstico de contraste: estadstico que se observa al realizar un contraste de hiptesis, y que
nos sirve para aceptar o rechazar la hiptesis nula por poseer una distribucin muestral conoci-
da.
Regin crtica: zona de la distribucin muestral del estadstico de contraste que corresponde a
los valores que permiten rechazar la hiptesis nula, y por tanto aceptar la hiptesis alternativa.
59
60 J. Marn Fernndez
Regin de aceptacin: zona de la distribucin muestral del estadstico de contraste que corres-
ponde a los valores que permiten aceptar la hiptesis nula.
Contraste unilateral o de una cola: la regin crtica se encuentra en una sola zona de la distri-
bucin muestral del estadstico de contraste.
Contraste bilateral o de dos colas: la regin crtica se encuentra repartida entre dos zonas de la
distribucin muestral del estadstico de contraste.
Error de tipo I: error que se comete cuando se decide rechazar una hiptesis nula que en realidad
es verdadera.
Nivel de signicacin: probabilidad de cometer un error de tipo I al contrastar una hiptesis. Se
denota por .
Error de tipo II: error que se comete cuando se decide aceptar una hiptesis nula que en realidad
es falsa. La probabilidad de cometer dicho error se denota por .
Potencia de un contraste: probabilidad de rechazar la hiptesis nula cuando es falsa. Por tanto,
la potencia es igual a 1 .
p-valor (o nivel crtico): es el nivel de signicacin ms pequeo al que una hiptesis nula
puede ser rechazada con el estadstico de contraste obtenido. Se rechaza H
0
si el p-valor es
claramente menor que ; se acepta H
0
si el p-valor es claramente mayor que ; y se repite el
contraste con una muestra diferente si el p-valor tiene un resultado prximo a .
Estadstica 61
6.2. Contraste sobre aleatoriedad de la muestra
Contraste de las Rachas sobre aleatoriedad de la muestra
contraste
H
0
: la muestra es aleatoria
H
1
: la muestra no es aleatoria
condiciones
Los datos son slo de dos tipos o pueden reducirse a dos tipos.
N
1
=nmero de datos de un tipo N
2
=nmero de datos del otro tipo.
(a) Si N
1
N
2
20 se calcula R =nmero de rachas (secuencias de
datos del mismo tipo).
(b) Si N
1
> 20 N
2
> 20 se calcula Z =
(R E(R)) 0

5
_
V (R)
, donde
estadsticos
E(R) =
2N
1
N
2
N
1
+N
2
+ 1,
V (R) =
2N
1
N
2
(2N
1
N
2
N
1
N
2
)
(N
1
+N
2
)
2
(N
1
+N
2
1)
.
regin crtica
(a) Si N
1
N
2
20, rechazamos H
0
si el valor de R est fuera del
intervalo de la tabla de los puntos crticos del test de las rachas.
(b) Si N
1
> 20 N
2
> 20, rechazamos H
0
si Z < Z
1/2
Z >
Z
1/2
.
62 J. Marn Fernndez
6.3. Contraste sobre normalidad
Contraste de DAgostino sobre Normalidad
contraste
H
0
: la variable aleatoria X observada en la poblacin es Normal
H
1
: la variable aleatoria X observada en la poblacin no es Normal
condiciones
Se extrae una muestra aleatoria simple de tamao n.
Se ordena la muestra de menor a mayor: X
1
X
2
X
n
.
estadstico
D
exp
=
n

i=1
i X
i

n + 1
2
n

i=1
X
i
n

_
n
n

i=1
X
2
i

_
n

i=1
X
i
_
2
, donde
n

i=1
i X
i
signica 1X
1
+ 2X
2
+ 3X
3
+ +nX
n
.
regin crtica
Rechazamos H
0
si el valor de D
exp
est fuera del intervalo de la tabla
de los puntos crticos del test de DAgostino.
Estadstica 63
Ejemplos que se van a resolver en clase
Ejemplo 6.1. En la tabla siguiente aparecen los datos de 10 bibliotecas, en las cuales se ha observado
las siguientes variables: nmero total de ttulos catalogados en un ao (X), nmero de horas
totales al ao que emplea la biblioteca en catalogar sus ttulos (Y ) y costo, en euros, de una
hora de catalogacin (Z).
x
i
y
i
z
i
1550 220 1575
1640 230 1450
1000 140 1640
950 135 1670
750 110 1710
1700 255 1250
1650 228 1480
1860 270 1525
1900 280 1850
900 130 1730
10

i=1
z
i
= 158

8
10

i=1
z
2
i
= 2547

965
a) Se puede aceptar, con un nivel de signicacin de = 0

05, que la muestra de datos de


la variable Z es aleatoria?
b) Se puede aceptar, con un nivel de signicacin de = 0

02, que la variable aleatoria Z


es Normal?
Ejemplo 6.2. En la tabla siguiente aparecen los resultados del peso, en gramos, (X) y del precio, en
euros, (Y ) de una muestra de 12 libros.
64 J. Marn Fernndez
x
i
y
i
325 110
890 30
415 75
400 45
515 32
650 69
790 30
890 34
320 42
420 46
620 53
720 97
12

i=1
y
i
= 663
12

i=1
y
2
i
= 44589
a) Se puede aceptar, con un nivel de signicacin de = 0

05, que la muestra de datos de


la variable Y es aleatoria?
b) Se puede aceptar, con un nivel de signicacin de = 0

02, que la variable aleatoria Y


es Normal?
Estadstica 65
Problemas propuestos
Problema 6.1. Los siguientes datos corresponden a las edades de una muestra de 10 personas que
visitan una biblioteca.
19 24 83 30 17 23 33 19 68 56
a) Se puede aceptar, con un nivel de signicacin de = 0

05, que la muestra es aleatoria?


b) Se puede aceptar, con un nivel de signicacin de = 0

05, que la variable aleatoria


edad de las personas que visitan la biblioteca es Normal?
Problema 6.2. La tabla siguiente contiene el nmero mensual de materias buscadas por los usuarios
de una biblioteca (X) y el nmero mensual de materias localizadas por dichos usuarios (Y ):
mes materias buscadas (x
i
) materias localizadas (y
i
) x
2
i
y
2
i
x
i
y
i
1 42 22 1764 484 924
2 65 30 4225 900 1950
3 68 35 4624 1225 2380
4 55 30 3025 900 1650
5 35 20 1225 400 700
6 40 25 1600 625 1000
7 50 30 2500 900 1500
8 26 15 676 225 390
9 42 22 1764 484 924
10 56 38 3136 1444 2128
11 38 15 1444 225 570
12 50 34 2500 1156 1700
suma 567 316 28483 8968 15816
a) Se puede aceptar, con un nivel de signicacin de = 0

05, que la muestra de datos de


la variable X es aleatoria?
b) Se puede aceptar, con un nivel de signicacin de = 0

05, que la variable aleatoria X


es Normal?
66 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 6.1. X=Edad de las personas que visitan la biblioteca.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H
0
:La muestra de datos de la variable X es aleatoria. El valor del estadstico
de contraste es R = 6. Como el nivel de signicacin es = 0

05, entonces la regin de


aceptacin es el intervalo (2, 10). Por tanto, aceptamos H
0
. Finalmente, la respuesta a la
pregunta es S.
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H
0
:La variable aleatoria X es Normal. El valor del estadstico de contraste es D
exp
=
0

261150. Como el nivel de signicacin es = 0

05, entonces la regin de aceptacin


es el intervalo (0

2513, 0

2849). Por tanto, aceptamos H


0
. Finalmente, la respuesta a la
pregunta es S.
Solucin del problema 6.2. X=Nmero mensual de materias buscadas por los usuarios de una bi-
blioteca.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H
0
:La muestra de datos de la variable X es aleatoria. El valor del estadstico
de contraste es R = 7. Como el nivel de signicacin es = 0

05, entonces la regin


de aceptacin es el intervalo (3, +). En consecuencia, aceptamos H
0
. Finalmente, la
respuesta a la pregunta es S.
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H
0
:La variable aleatoria X es Normal. El valor del estadstico de contraste es D
exp
=
0

282159. Como el nivel de signicacin es = 0

05, entonces la regin de aceptacin


es el intervalo (0

2420, 0

2862). Por tanto, aceptamos H


0
. Finalmente, la respuesta a la
pregunta es S.
7
Contrastes paramtricos en una
poblacin
Contrastes paramtricos en una
poblacin
Resumen del tema
7.1. Contrastes sobre la media
7.1.1. Varianza poblacional conocida
condiciones estadstico contraste regin crtica
Muestra aleatoria
simple de tamao n.
conocida.
Poblacin Normal
poblacin cualquiera
siempre que n 30.
Z =
X
0
/

n
H
0
: =
0
Z < Z
1/2
H
1
: =
0
Z > Z
1/2
H
0
:
0
H
1
: <
0
Z < Z
1
H
0
:
0
H
1
: >
0
Z > Z
1
7.1.2. Varianza poblacional desconocida
condiciones estadstico contraste regin crtica
Muestra aleatoria
simple de tamao n.
desconocida.
Poblacin Normal
poblacin cualquiera
siempre que n 30.
T =
X
0
S/

n
H
0
: =
0
T < t
n1 , 1/2
H
1
: =
0
T > t
n1 , 1/2
H
0
:
0
H
1
: <
0
T < t
n1 , 1
H
0
:
0
H
1
: >
0
T > t
n1 , 1
67
68 J. Marn Fernndez
7.2. Contrastes sobre la varianza
7.2.1. Media poblacional conocida
condiciones estadstico contraste regin crtica
Muestra aleatoria simple:
X
1
, X
2
, . . . , X
n
.
conocida.
Poblacin Normal.
U =
n

i=1
(X
i
)
2

2
0
H
0
:
2
=
2
0
U <
2
n, /2
H
1
:
2
=
2
0
U >
2
n, 1/2
H
0
:
2

2
0
H
1
:
2
<
2
0
U <
2
n,
H
0
:
2

2
0
H
1
:
2
>
2
0
U >
2
n, 1
7.2.2. Media poblacional desconocida
condiciones estadstico contraste regin crtica
Muestra aleatoria
simple de tamao n.
desconocida.
Poblacin Normal.
V =
(n 1)S
2

2
0
=
ns
2

2
0
H
0
:
2
=
2
0
V <
2
n1 , /2
H
1
:
2
=
2
0
V >
2
n1 , 1/2
H
0
:
2

2
0
H
1
:
2
<
2
0
V <
2
n1 ,
H
0
:
2

2
0
H
1
:
2
>
2
0
V >
2
n1 , 1
Estadstica 69
Ejemplos que se van a resolver en clase
Ejemplo 7.1. Retomamos los datos del Ejemplo 6.1: En la tabla siguiente aparecen los datos de
10 bibliotecas, en las cuales se ha observado las siguientes variables: nmero total de ttulos
catalogados en un ao (X), nmero de horas totales al ao que emplea la biblioteca en catalogar
sus ttulos (Y ) y costo, en euros, de una hora de catalogacin (Z).
x
i
y
i
z
i
1550 220 1575
1640 230 1450
1000 140 1640
950 135 1670
750 110 1710
1700 255 1250
1650 228 1480
1860 270 1525
1900 280 1850
900 130 1730
10

i=1
z
i
= 158

8
10

i=1
z
2
i
= 2547

965
a) Se puede aceptar, con un nivel de signicacin de = 0

01, que la media poblacional


del costo de una hora de catalogacin es menor que 17 euros?
b) Se puede aceptar, con un nivel de signicacin de = 0

01, que la desviacin tpica


poblacional del costo de una hora de catalogacin es mayor que 2 euros?
Ejemplo 7.2. Retomamos los datos del Ejemplo 6.2: En la tabla siguiente aparecen los resultados del
peso, en gramos, (X) y del precio, en euros, (Y ) de una muestra de 12 libros.
70 J. Marn Fernndez
x
i
y
i
325 110
890 30
415 75
400 45
515 32
650 69
790 30
890 34
320 42
420 46
620 53
720 97
12

i=1
y
i
= 663
12

i=1
y
2
i
= 44589
a) Se puede aceptar, con un nivel de signicacin de = 0

01, que la media poblacional


del precio es igual a 55 euros?
b) Se puede aceptar, con un nivel de signicacin de = 0

01, que la desviacin tpica


poblacional del precio es igual a 24 euros?
Estadstica 71
Problemas propuestos
Problema 7.1. El nmero medio recomendado de usuarios servidos semanalmente por cada miembro
del personal de una biblioteca es de 100. En una muestra aleatoria simple de 81 miembros del
personal de las bibliotecas de una determinada regin se obtiene una media de 132

88 usuarios
servidos semanalmente, con una cuasidesviacin tpica de 55

19. Las bibliotecas de dicha


regin siguen la recomendacin mencionada?
Problema 7.2. El precio medio de los libros en rstica es de 63

4 euros, con una desviacin tpica de


14

8 euros. Una muestra aleatoria simple de 61 libros en rstica con ilustraciones en color tiene
un precio medio de 69

5 euros, con una cuasidesviacin tpica de 16

6 euros.
a) Permiten los datos armar que los libros en rstica con ilustraciones en color son ms
caros que el resto de libros en rstica?
b) La varianza del precio de los libros en rstica con ilustraciones en color es mayor que la
del precio de los libros en rstica?
Problema 7.3. Se sabe que el nmero medio de veces que un artculo cientco es citado durante los 5
siguientes aos a su publicacin es de 6

5. Se eligen aleatoria e independientemente 71 artculos


de medicina, obtenindose una media de 7

8 citas durante los 5 siguientes aos a su publicacin,


con una cuasidesviacin tpica de 2

3. Se puede armar que durante los 5 siguientes aos a su


publicacin se citan ms los artculos de medicina que el resto de artculos cientcos?
Problema 7.4. En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el
tiempo (en minutos) que estn utilizando el ordenador para realizar esta tarea es:
22 13 17 14 15 18 19 14 17 20 21 13 15 18 17
a) Se puede aceptar, con un nivel de signicacin de = 0

05, que la muestra es aleatoria?


b) Se puede aceptar, con un nivel de signicacin de = 0

05, que la variable aleatoria


tiempo empleado en consultar bases de datos por ordenador es Normal?
c) Se puede aceptar, con un nivel de signicacin de = 0

05, que la media poblacional


del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos?
d) Se puede aceptar, con un nivel de signicacin de = 0

05, que la desviacin tpica


poblacional del tiempo empleado en consultar bases de datos por ordenador es menor que
2 minutos?
72 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 7.1. Sea X=Nmero de usuarios servidos semanalmente por cada miembro
del personal de la biblioteca. Hacemos un contraste sobre , con desconocida. La hiptesis
nula es H
0
: = 100. El valor del estadstico de contraste es T = 5

3618. Si tomamos un
nivel de signicacin de = 0

05, entonces la regin crtica es T < 1

9901 T > 1

9901.
En consecuencia, rechazamos H
0
y, por tanto, las bibliotecas de dicha regin no siguen la
recomendacin. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 7.2. Sea X=Precio de los libros en rstica con ilustraciones color.
a) Hacemos un contraste sobre , con desconocida. La hiptesis nula es H
0
: 63

4. El
valor del estadstico de contraste es T = 2

8700. Si tomamos un nivel de signicacin de


= 0

05, entonces la regin crtica es T > 1

6706. En consecuencia, rechazamos H


0
y,
por tanto, los libros en rstica con ilustraciones en color son ms caros (tienen un precio
medio mayor) que el resto de los libros en rstica. Finalmente, la respuesta a la pregunta
es S.
b) Hacemos un contraste sobre
2
, con desconocida. La hiptesis nula es H
0
:
2

(14

8)
2
. El valor del estadstico de contraste es V = 75

4821. Si tomamos un nivel de


signicacin de = 0

05, entonces la regin crtica es V > 79

0819. En consecuencia,
aceptamos H
0
y, por tanto, no se puede aceptar que la varianza del precio de los libros en
rstica con ilustraciones en color sea mayor que la varianza del precio de todos los libros
en rstica. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 7.3. Sea X=Nmero de veces que los artculos de medicina son citados du-
rante los cinco siguientes aos a su publicacin. Hacemos un contraste sobre , con desco-
nocida. La hiptesis nula es H
0
: 6

5. El valor del estadstico de contraste es T = 4

7626.
Si tomamos un nivel de signicacin de = 0

05, entonces la regin crtica es T > 1

6669. En
consecuencia, rechazamos H
0
y, por tanto, se citan ms los artculos de medicina que el resto
de artculos cientcos (la media del nmero de citas es mayor). Finalmente, la respuesta a la
pregunta es S.
Solucin del problema 7.4. Sea X=Tiempo empleado en consultar bases de datos por ordenador.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H
0
:La muestra de datos de la variable X es aleatoria. El valor del estadstico de
contraste es R = 10. Como el nivel de signicacin es = 0

05, entonces la regin de


aceptacin es el intervalo (3, 10). Por tanto, aceptamos H
0
. Finalmente, la respuesta a la
pregunta es S.
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H
0
:La variable aleatoria X es Normal. El valor del estadstico de contraste es D
exp
=
0

284074. Como el nivel de signicacin es = 0

05, entonces la regin de aceptacin


es el intervalo (0

2568, 0

2858). Por tanto, aceptamos H


0
. Finalmente, la respuesta a la
pregunta es S.
c) Hacemos un contraste sobre , con desconocida. La hiptesis nula es H
0
: 15.
El valor del estadstico de contraste es T = 2

536486. Como el nivel de signicacin es


= 0

05, entonces la regin crtica es T > 1

7613. En consecuencia, rechazamos H


0
Estadstica 73
y, por tanto, la media del tiempo empleado en consultar bases de datos por ordenador es
mayor que 15 minutos. Finalmente, la respuesta a la pregunta es S.
d) La pregunta que se nos hace es < 2? Esta pregunta es equivalente a
2
< 2
2
? Por
tanto, hacemos un contraste sobre
2
, con desconocida. La hiptesis nula es H
0
:
2

2
2
. El valor del estadstico de contraste es V = 28

3. Como el nivel de signicacin


es = 0

05, entonces la regin crtica es V < 6

57063. En consecuencia, aceptamos


H
0
y, por tanto, no se puede aceptar que la desviacin tpica (poblacional) del tiempo
empleado en consultar bases de datos por ordenador es menor que 2 minutos. Finalmente,
la respuesta a la pregunta es NO.
8
Contrastes paramtricos en dos
poblaciones
Contrastes paramtricos en dos
poblaciones
Resumen del tema
8.1. Comparacin de dos varianzas
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales.

1
,
2
desconocidas.
estadstico F =
S
2
1
S
2
2
con S
2
1
S
2
2
contraste
H
0
:
2
1
=
2
2
H
0
:
2
1

2
2
H
0
:
2
1

2
2
H
1
:
2
1
=
2
2
H
1
:
2
1
<
2
2
H
1
:
2
1
>
2
2
regin crtica
F <
1
F
n
2
1,n
1
1,1/2
F <
1
F
n
2
1,n
1
1,1
F > F
n
1
1,n
2
1,1
F > F
n
1
1,n
2
1,1/2
75
76 J. Marn Fernndez
8.2. Comparacin de dos medias
8.2.1. Muestras independientes y varianzas poblacionales conocidas
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales (o cualesquiera si n
1
, n
2
30).

1
,
2
conocidas.
estadstico
Z =
X
1
X
2
_

2
1
n
1
+

2
2
n
2
contraste
H
0
:
1
=
2
H
0
:
1

2
H
0
:
1

2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
Z < Z
1/2
Z < Z
1
Z > Z
1
Z > Z
1/2
8.2.2. Muestras independientes y varianzas poblacionales desconocidas e iguales
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales (o cualesquiera si n
1
, n
2
30).

1
,
2
desconocidas pero iguales.
estadstico
T =
X
1
X
2

(n
1
1)S
2
1
+ (n
2
1)S
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
_
contraste
H
0
:
1
=
2
H
0
:
1

2
H
0
:
1

2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
T < t
n
1
+n
2
2 , 1/2
T < t
n
1
+n
2
2 , 1
T > t
n
1
+n
2
2 , 1
T > t
n
1
+n
2
2 , 1/2
Estadstica 77
8.2.3. Muestras independientes y varianzas poblacionales desconocidas y distintas
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales (o cualesquiera si n
1
, n
2
30).

1
,
2
desconocidas y distintas.
estadstico
T =
X
1
X
2
_
S
2
1
n
1
+
S
2
2
n
2
grados de libertad g=n
o
natural ms prximo a
_
S
2
1
n
1
+
S
2
2
n
2
_
2
_
S
2
1
n
1
_
2
n
1
1
+
_
S
2
2
n
2
_
2
n
2
1
contraste
H
0
:
1
=
2
H
0
:
1

2
H
0
:
1

2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
T < t
g , 1/2
T < t
g , 1
T > t
g , 1
T > t
g , 1/2
8.2.4. Muestras apareadas
condiciones
Muestras aleatorias simples apareadas de tamao n.
La variable aleatoria D = X
1
X
2
es Normal (o cualquiera si n 30).
estadstico
T =
D
S
D

n
donde D y S
D
son la media y la cuasidesviacin tpica de D
contraste
H
0
:
1
=
2
H
0
:
1

2
H
0
:
1

2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
T < t
n1 , 1/2
T < t
n1 , 1
T > t
n1 , 1
T > t
n1 , 1/2
78 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 8.1. En la tabla siguiente aparece el precio, en euros, de una muestra aleatoria de 15 libros
que se prestan pocas veces (X
1
) y el precio, en euros, de una muestra aleatoria de 15 libros que
se prestan muchas veces (X
2
).
x
1i
x
2i
75 110
32 30
30 45
34 69
42 46
57 53
51 97
36 43
82 42
45 37
58 48
66 45
40 105
35 61
51 57
15

i=1
x
1i
= 734
15

i=1
x
2
1i
= 39510
15

i=1
x
2i
= 888
15

i=1
x
2
2i
= 61426
a) Se puede aceptar, con un nivel de signicacin de 0

05, que la varianza poblacional del


precio de los libros que se prestan poco es igual a la varianza poblacional del precio de los
libros que se prestan mucho?
b) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


precio de los libros que se prestan poco es igual a la media poblacional del precio de los
libros que se prestan mucho?
Ejemplo 8.2. En la siguiente tabla aparece el nmero de palabras por resumen de una muestra alea-
toria de 30 artculos cientcos escritos en francs (X
1
) y el nmero de palabras por resumen
de una muestra aleatoria de 30 artculos cientcos escritos en ingls (X
2
).
70 65 68 74 79 67 75 80 62 69
x
1i
61 57 71 74 82 91 70 64 72 67
74 70 81 85 70 74 75 71 69 54
80 47 59 67 89 57 72 78 74 72
x
2i
104 118 89 87 79 78 101 120 107 95
85 87 90 98 89 75 90 101 85 94
Estadstica 79
30

i=1
x
1i
= 2141
30

i=1
x
2
1i
= 154627
30

i=1
x
2i
= 2567
30

i=1
x
2
2i
= 227713
a) Se puede aceptar, con un nivel de signicacin de 0

05, que la varianza poblacional de la


longitud de los resmenes de artculos escritos en francs es igual a la varianza poblacional
de la longitud de los resmenes de artculos escritos en ingls?
b) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional de la


longitud de los resmenes de artculos escritos en francs es igual a la media poblacional
de la longitud de los resmenes de artculos escritos en ingls?
Ejemplo 8.3. Se est estudiando el nmero de palabras por resumen de los artculos cientcos de
un determinado volumen de Economics Abstracts. La varianza poblacional es conocida e igual
a 615

04. Se extrae una muestra aleatoria simple de 30 resmenes escritos en alemn y se


observa que la media es 67

47, y otra muestra aleatoria simple de 32 resmenes escritos en


ingls, obtenindose una media de 72

5. Existe diferencia signicativa entre el nmero medio


de palabras por resumen en alemn y el nmero medio de palabras por resumen en ingls?
Ejemplo 8.4. Dos expertos calican una muestra aleatoria de 30 libros segn su calidad (1=muy
mala, 2=mala, 3=regular, 4=buena, 5=muy buena). En la tabla siguiente aparece la opinin del
primer experto (X
1
) y la opinin del segundo experto (X
2
).
x
1i
x
2i
d
i
= x
1i
x
2i
x
1i
x
2i
d
i
= x
1i
x
2i
2 1 1 4 4 0
5 4 1 4 3 1
4 5 -1 5 4 1
2 3 -1 5 3 2
3 3 0 1 2 -1
1 5 -4 2 5 -3
3 3 0 2 3 -1
1 3 -2 3 2 1
4 2 2 4 1 3
2 5 -3 4 2 2
3 2 1 1 3 -2
4 3 1 2 4 -2
3 3 0 1 2 -1
1 3 -2 5 5 0
2 5 -3 5 2 3
30

i=1
d
i
= 7
30

i=1
d
2
i
= 101
Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional de los resul-


tados de la opinin del primer experto es igual a la media poblacional de los resultados de la
opinin del segundo experto?
80 J. Marn Fernndez
Problemas propuestos
Problema 8.1. El precio de los libros de una biblioteca es una variable aleatoria Normal de media
63

3 euros y desviacin tpica 19

4 euros. Se sospecha que el precio medio de los libros de


ciencias fsicas es mayor que el precio medio de los libros de ciencias sociales. Para obtener
alguna evidencia sobre la sospecha, se selecciona una muestra aleatoria simple de 20 libros
de ciencias fsicas y otra de 30 libros de ciencias sociales, obtenindose una media de 57

5
euros para los primeros, y 52

6 euros para los segundos. Podemos armar, con un nivel de


signicacin de 0

05, que es cierta nuestra sospecha?


Problema 8.2. Se nos ha sealado la posibilidad de que se paguen sueldos distintos a documentalistas
segn el sexo. Presumiblemente, a los hombres se les ha pagado ms que a las mujeres. Un
estudio de los sueldos anuales durante los cinco aos anteriores al actual arroja los siguientes
resultados:
hombres mujeres
media muestral 21.980 20.470
cuasidesviacin tpica muestral 1.810 2.290
tamao muestral 25 50
A la vista de estos datos, y utilizando un nivel de signicacin de 0

01, podemos armar que


el sueldo de los hombres documentalistas es mayor que el de las mujeres documentalistas?
Problema 8.3. Elegimos al azar 30 matrimonios y observamos el nmero de veces que los hombres
han visitado alguna biblioteca en los tres ltimos meses (X
1
) y el nmero de veces que las mu-
jeres han visitado alguna biblioteca en los tres ltimos meses (X
2
). Los resultados se muestran
en la siguiente tabla.
x
1i
x
2i
d
i
= x
1i
x
2i
x
1i
x
2i
d
i
= x
1i
x
2i
x
1i
x
2i
d
i
= x
1i
x
2i
12 8 4 8 10 -2 25 14 11
30 11 19 14 15 -1 12 16 -4
10 12 -2 20 12 8 8 10 -2
20 16 4 13 19 -6 23 20 3
15 10 5 11 6 5 14 17 -3
14 9 5 7 7 0 8 10 -2
11 12 -1 6 7 -1 12 23 -11
9 10 -1 8 6 2 27 10 17
7 7 0 15 20 -5 32 27 5
5 4 1 42 35 7 14 18 -4
30

i=1
d
i
= 51
30

i=1
d
2
i
= 1273
Estadstica 81
Podemos armar que hay diferencia signicativa entre los hombres y las mujeres de los ma-
trimonios en cuanto al nmero de veces que van a la biblioteca?
Problema 8.4. En la siguiente tabla aparece el nmero de usuarios diarios de la biblioteca A (variable
X
1
) y el nmero de usuarios diarios de la biblioteca B (variable X
2
) en 10 das elegidos al azar.
x
1i
x
2i
d
i
= x
1i
x
2i
51 45 6
72 58 14
35 32 3
70 56 14
75 68 7
98 76 22
100 88 12
80 69 11
72 57 15
90 75 15
10

i=1
d
i
= 119
10

i=1
d
2
i
= 1685
a) Se puede aceptar, con un nivel de signicacin de 0

05, que la muestra de las diferencias


d
i
es aleatoria?
b) Se puede aceptar, con un nivel de signicacin de 0

05, que la variable diferencia D =


X
1
X
2
es Normal?
c) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


nmero de usuarios diarios de la biblioteca A es igual a la media poblacional del nmero
de usuarios diarios de la biblioteca B?
82 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 8.1. Sea X
1
=precio de los libros de ciencias fsicas y X
2
=precio de los li-
bros de ciencias sociales. Hacemos el contraste de comparacin de dos medias en el que la
hiptesis nula es H
0
:
1

2
. Las muestras son independientes y las varianzas poblacionales
se consideran conocidas:
2
1
=
2
2
= 19

4
2
. El valor del estadstico de contraste es Z = 0

8750.
Como el nivel de signicacin es = 0

05, entonces la regin crtica es Z > 1

6449. En con-
secuencia, aceptamos H
0
y, por tanto, no podemos aceptar que el precio medio de los libros de
ciencias fsicas sea mayor que el precio medio de los libros de ciencias sociales. Finalmente, la
respuesta a la pregunta es NO.
Solucin del problema 8.2.
1) En primer lugar tenemos que hacer un contraste de comparacin de dos varianzas pobla-
cionales ya que stas son desconocidas, y no sabemos si son iguales o distintas.
Debe ser X
1
=sueldo anual de las mujeres documentalistas y X
2
=sueldo anual de los
hombres documentalistas, pues la cuasidesviacin tpica muestral en las mujeres es mayor
que en los hombres.
Hacemos el contraste de comparacin de dos varianzas en el que la hiptesis nula es H
0
:

2
1
=
2
2
. Las muestras son independientes y se supone que las dos variables aleatorias
son normales. El valor del estadstico de contraste es F = 1

6007. Como el nivel de


signicacin es = 0

01, entonces la regin crtica es F < 0

4249 F > 2

6522. En
consecuencia, aceptamos H
0
y, por tanto, las varianzas poblacionales son desconocidas
pero iguales.
2) En segundo lugar hacemos un contraste de comparacin de dos medias en el que la hi-
ptesis nula es H
0
:
1

2
. Las muestras son independientes y las desviaciones tpi-
cas poblacionales son desconocidas pero iguales. El valor del estadstico de contraste es
T = 2

8751. Como el nivel de signicacin es = 0

01, entonces la regin crtica


es T < 2

3789. En consecuencia, rechazamos H


0
y, por tanto, aceptamos que el suel-
do medio de los hombres documentalistas es mayor que el sueldo medio de las mujeres
documentalistas. Finalmente, la respuesta a la pregunta es S.
Solucin del problema 8.3. Hacemos el contraste de comparacin de dos medias en el que la hi-
ptesis nula es H
0
:
1
=
2
. Las muestras son apareadas. El valor del estadstico de con-
traste es T = 1

455832. Si el nivel de signicacin es = 0

05, entonces la regin crtica


es T < 2

0452 T > 2

0452. En consecuencia, tenemos que aceptar H


0
. Por tanto, no hay
diferencia signicativa entre los hombres y las mujeres de los matrimonios en cuanto al nmero
de veces que van a la biblioteca. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 8.4. Sea D la variable aleatoria diferencia entre X
1
y X
2
; es decir D =
X
1
X
2
.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H
0
:La muestra de datos de la variable D es aleatoria. El valor del estadstico
de contraste es R = 8. Como el nivel de signicacin es = 0

05, entonces la regin de


aceptacin es el intervalo (2, 10). Por tanto, aceptamos H
0
. Finalmente, la respuesta a la
pregunta es S.
Estadstica 83
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H
0
:La variable aleatoria D es Normal. El valor del estadstico de contraste es D
exp
=
0

274802. Como el nivel de signicacin es = 0

05, entonces la regin de aceptacin


es el intervalo (0

2513, 0

2849). Por tanto, aceptamos H


0
. Finalmente, la respuesta a la
pregunta es S.
c) Hacemos el contraste de comparacin de dos medias en el que la hiptesis nula es H
0
:

1
=
2
. Las muestras son apareadas. El valor del estadstico de contraste es T =
6

884506. Como el nivel de signicacin es = 0

05, entonces la regin crtica es


T < 2

2622 T > 2

2622. En consecuencia, tenemos que rechazar H


0
. Por tanto, la
media poblacional del nmero de usuarios diarios de la biblioteca A no es igual a la media
poblacional del nmero de usuarios diarios de la biblioteca B. Finalmente, la respuesta a
la pregunta es NO.

También podría gustarte