Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Manual Teoria 2010 11
Manual Teoria 2010 11
i
.
Marca de clase del intervalo (
i
,
i+1
]: x
i
=
i
+
i+1
2
.
Frecuencia absoluta de la clase i-sima: f
i
=nmero de observaciones contenidas dentro de ella.
Frecuencia relativa de la clase i-sima: h
i
=
f
i
n
.
Porcentaje de la clase i-sima: %
i
= 100 h
i
.
Frecuencia absoluta acumulada de la clase i-sima: F
i
= f
1
+f
2
+ +f
i
.
Frecuencia relativa acumulada de la clase i-sima: H
i
= h
1
+h
2
+ +h
i
=
F
i
n
.
Distribucin de frecuencias: tabla conteniendo las distintas clases y las frecuencias correspon-
dientes a cada una de ellas.
1.3. Representaciones grcas
1. Variables cualitativas
a) Diagrama de barras: se sitan en el eje horizontal las clases y sobre cada una de ellas se
levanta un segmento rectilneo (o un rectngulo) de altura igual a la frecuencia (absoluta
o relativa) o al porcentaje de cada clase.
b) Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos pro-
porcionales a las frecuencias absolutas de las clases.
Estadstica 7
2. Variables cuantitativas con datos no agrupados en intervalos
a) Diagrama de barras: se sitan en el eje horizontal los diferentes resultados de la variable
y sobre cada uno de ellos se levanta un segmento rectilneo de altura igual a la frecuencia
(absoluta o relativa) o al porcentaje de cada resultado.
b) Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
los distintos valores de la variable y en el eje vertical sus correspondientes frecuencias (no
acumuladas), uniendo despus los puntos mediante segmentos rectilneos.
c) Grco de frecuencias acumuladas: es la representacin grca de las frecuencias acu-
muladas, para todo valor numrico. Siempre es una grca en forma de escalera.
3. Variables cuantitativas con datos agrupados en intervalos
a) Histograma: se sitan en el eje horizontal los intervalos de clase y sobre cada uno se
levanta un rectngulo de rea igual o proporcional a la frecuencia absoluta.
b) Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal las
marcas de clase de los intervalos y en el eje vertical sus correspondientes frecuencias (no
acumuladas), uniendo despus los puntos mediante segmentos rectilneos.
c) Grco de frecuencias acumuladas: es la representacin grca de las frecuencias acumu-
ladas para todo valor numrico, teniendo en cuenta que dentro de cada intervalo de clase
se supone que el nmero de observaciones se distribuye uniformemente. Siempre es un
polgono.
8 J. Marn Fernndez
Ejemplos que se van a resolver en clase
En este tema vamos a utilizar los resultados de las tres variables siguientes: sexo, edad y altura,
en metros, observadas en todos/as los/as alumnos/as que asisten hoy a clase.
Ejemplo 1.1. Con los datos de la variable sexo:
a) Determinar la distribucin de frecuencias absolutas.
b) Determinar la distribucin de frecuencias relativas (o proporciones).
c) Determinar la distribucin de porcentajes.
Ejemplo 1.2. Con los datos de la variable edad:
a) Determinar la distribucin de frecuencias absolutas, frecuencias relativas y porcentajes.
b) Determinar la distribucin de frecuencias acumuladas absolutas.
c) Determinar la distribucin de frecuencias acumuladas relativas (o proporciones acumula-
das).
d) Determinar la distribucin de porcentajes acumulados.
Ejemplo 1.3. Con los datos de la variable altura:
a) Agrupar los datos en intervalos de la misma amplitud.
b) A partir de la agrupacin anterior determinar la distribucin de frecuencias absolutas,
relativas, acumuladas absolutas y acumuladas relativas.
Ejemplo 1.4. Dibujar el diagrama de barras de frecuencias absolutas de los datos de la variable sexo.
Ejemplo 1.5. La siguiente tabla muestra el pas de procedencia de los documentos primarios de los
resmenes contenidos en un determinado volumen de las tres revistas siguientes: Computer
Abstracts, Lead Abstracts y Sociological Abstracts. Dibujar el diagrama de barras conjunto de
frecuencias absolutas.
Tabla 1.4
pas de Computer Lead Sociological
procedencia Abstracts Abstracts Abstracts
Pases Bajos 42 34 22
Francia 55 7 76
Alemania 162 37 14
Gran Bretaa 310 147 24
EEUU 966 265 552
Rusia 191 37 42
Otros 265 79 239
suma 1.991 606 969
Estadstica 9
Ejemplo 1.6. Dibujar el grco de sectores de los datos de la variable sexo.
Ejemplo 1.7. Dibujar el diagrama de barras de frecuencias absolutas de los datos de la variable edad.
Ejemplo 1.8. Dibujar el polgono de frecuencias relativas de los datos de la variable edad.
Ejemplo 1.9. Dibujar el grco de frecuencias acumuladas absolutas de los datos de la variable edad.
Ejemplo 1.10. Dibujar el histograma de los datos de la variable altura agrupados en intervalos de la
misma amplitud.
Ejemplo 1.11. Dibujar el polgono de frecuencias absolutas de los datos de la variable altura agrupa-
dos en intervalos de la misma amplitud.
Ejemplo 1.12. Dibujar el polgono de frecuencias acumuladas absolutas de los datos de la variable
altura agrupados en intervalos de la misma amplitud.
10 J. Marn Fernndez
Problemas propuestos
Problema 1.1. El gasto de una biblioteca, en euros, durante un ao determinado, es:
Gasto en personal 6.570
Gasto en libros 3.450
Otros gastos 2.380
Hacer un diagrama de barras de frecuencias absolutas y un grco de sectores.
Problema 1.2. Una biblioteca contiene una cantidad de estantes de libros en varios idiomas tal como
muestra la siguiente tabla:
Idioma N
o
de estantes
Francs 78
Alemn 47
Ruso 20
Espaol 30
Determinar la distribucin de frecuencias relativas. Hacer un diagrama de barras de frecuencias
relativas y un grco de sectores.
Problema 1.3. La estadstica de fotocopias de una biblioteca, durante un ao determinado, es la
siguiente:
Reproduccin de catlogos 16.110
Trabajo del personal de la biblioteca 63.350
Prstamo interbibliotecario 2.600
Copias para usuarios de la biblioteca 43.540
Determinar la distribucin de porcentajes. Hacer un diagrama de barras de porcentajes y un
grco de sectores.
Problema 1.4. La estadstica de fotocopias de 4 bibliotecas (A, B, C y D), durante un ao, est
recogida en la siguiente tabla:
A B C D
Reproduccin de catlogos 16.110 3.640 0 3.400
Trabajo del personal de la biblioteca 63.350 11.360 3.080 5.500
Prstamo interbibliotecario 2.600 1.090 560 250
Copias para usuarios de la biblioteca 43.540 58.040 1.980 0
Hacer un diagrama de barras conjunto de frecuencias absolutas.
Estadstica 11
Problema 1.5. El nmero de citas en diferentes campos de investigacin y en distintos aos viene
dado en la tabla siguiente:
1970 1980 1990
Sociologa 330 414 547
Economa 299 393 295
Poltica 115 357 137
Psicologa 329 452 258
Hacer un diagrama de barras conjunto de frecuencias relativas.
Problema 1.6. El nmero de descriptores (keywords) de 72 artculos de investigacin viene dado por:
N
o
de descriptores 3 4 5 6 7 8 9 10 11 12 13 14
N
o
de artculos 5 8 12 7 9 9 10 5 3 2 1 1
Hacer un diagrama de barras de frecuencias absolutas.
Problema 1.7. La altura, en centmetros, de una coleccin de libros es la siguiente:
Altura 15 16 17 18 19 20 21 22 23 24 25 26 27
N
o
de libros 1 0 3 4 4 2 4 5 2 2 2 1 1
Determinar la distribucin de frecuencias relativas y hacer un polgono de frecuencias relativas.
Problema 1.8. El nmero de palabras por lnea de una pgina de un libro viene dado por:
N
o
de palabras 4 5 8 9 10 11 12 13 14 15 16 17
N
o
de lneas 1 1 2 3 2 7 11 14 3 2 1 1
Determinar la distribucin de frecuencias acumuladas absolutas y hacer el grco de frecuen-
cias acumuladas absolutas.
Problema 1.9. Los siguientes datos corresponden al nmero de palabras por resumen de los artculos
cientcos de autores espaoles que han publicado en una determinada revista de investigacin
durante un ao concreto:
10 15 16 20 17 19 21 14 13 19
11 14 17 19 20 20 22 15 13 12
12 15 17 19 18 23 22 17 21 20
15 18 16 18 12 17 14 15 17 15
Determinar la distribucin de frecuencias absolutas, relativas, acumuladas absolutas y acumula-
das relativas. Hacer un diagrama de barras de frecuencias absolutas, un polgono de frecuencias
relativas y un grco de frecuencias acumuladas relativas.
12 J. Marn Fernndez
Problema 1.10. Los siguientes datos agrupados en intervalos se reeren al nmero de llamadas te-
lefnicas recibidas en el servicio de informacin de una biblioteca pblica durante 45 das
elegidos al azar:
N
o
de llamadas (9,15] (15,21] (21,27] (27,33] (33,39] (39,45] (45,51]
N
o
de das 2 4 8 14 10 6 1
Dibujar el histograma, el polgono de frecuencias y el grco de frecuencias acumuladas abso-
lutas.
Problema 1.11. El nmero de socios de 84 bibliotecas pblicas viene dado por:
1.995 1.050 2.500 3.000 3.000 1.500 2.500
995 995 3.000 3.000 1.200 1.450 2.500
2.750 3.000 1.600 3.000 2.250 2.750 1.800
1.250 3.250 1.800 1.750 3.250 2.100 4.500
2.100 995 3.500 2.500 1.700 2.100 1.250
3.500 3.250 1.200 950 3.250 1.700 3.000
1.500 3.500 1.500 995 2.750 3.500 2.150
1.750 2.000 2.200 1.750 2.800 750 2.000
1.500 3.500 4.500 1.950 3.000 2.200 1.600
1.200 2.400 750 1.850 2.400 1.250 3.000
800 2.750 4.000 2.050 5.500 3.750 950
995 3.750 1.500 1.800 1.200 2.500 1.250
Aunque la variable es cuantitativa discreta, se desea agrupar los datos en intervalos de la misma
amplitud. A partir de esta agrupacin, determinar la distribucin de frecuencias y dibujar el
histograma, el polgono de frecuencias y el grco de frecuencias acumuladas relativas.
Estadstica 13
Soluciones de los problemas propuestos
Solucin del problema 1.1. La variable estadstica es el tipo o modalidad de gasto. Es cualitativa
nominal. Tiene 3 categoras, clases o modalidades. Cada vez que se realiza un gasto en la
biblioteca se observa dicha variable (cada individuo es cada gasto que se hace).
Categoras (Tipos de gasto) f
i
ngulos
Gasto en personal 6570 190
74
o
Gasto en libros 3450 100
16
o
Otros gastos 2380 69
10
o
suma 12400 360
00
o
Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal las categoras
y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia absoluta,
f
i
.
Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos igua-
les a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.2. La variable estadstica es el idioma. Es cualitativa nominal. Tiene 4 ca-
tegoras, clases o modalidades. Los individuos a los que se les observa dicha variable son los
estantes (se supone que en cada estante slo hay libros en el mismo idioma; es decir, en un
estante no se mezclan dos idiomas).
Categoras (Idiomas) f
i
h
i
ngulos
Francs 78 0
4457 160
452
o
Alemn 47 0
2686 96
696
o
Ruso 20 0
1143 41
148
o
Espaol 30 0
1714 61
704
o
suma 175 1
0000 360
000
o
Diagrama de barras de frecuencias relativas: se sitan en el eje horizontal las categoras
y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia relativa,
h
i
.
Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos igua-
les a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.3. La variable estadstica es el tipo de fotocopia (con qu n est hecha?).
Es cualitativa nominal. Tiene 4 categoras, clases o modalidades. Los individuos a los que se les
observa dicha variable son todas y cada una de las fotocopias que se realizan en la mencionada
biblioteca durante el determinado ao.
14 J. Marn Fernndez
Categoras (Tipos de fotocopia) f
i
%
i
ngulos
Reproduccin de catlogos 16110 12
83 46
188
o
Trabajo del personal de la biblioteca 63350 50
44 181
584
o
Prstamo interbibliotecario 2600 2
07 7
452
o
Copias para usuarios de la biblioteca 43540 34
67 124
812
o
suma 125600 100
00 360
000
o
Diagrama de barras de porcentajes: se sitan en el eje horizontal las categoras y sobre
cada una de ellas se levanta un rectngulo de altura igual al porcentaje, %
i
.
Grco de sectores: se divide el rea de un crculo en sectores circulares de ngulos igua-
les a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.4. Tenemos 4 variables estadsticas cualitativas nominales cuyas categoras
son las mismas (Reproduccin de catlogos, Trabajo del personal de la biblioteca, Prstamo
interbibliotecario y Copias para usuarios de la biblioteca). Cada una de estas cuatro variables
es totalmente anloga a la variable denida en el problema anterior.
A B C D
Categoras (Tipos de fotocopia)
f
i
f
i
f
i
f
i
Reproduccin de catlogos 16 110 3 640 0 3 400
Trabajo del personal de la biblioteca 63 350 11 360 3 080 5 500
Prstamo interbibliotecario 2 600 1 090 560 250
Copias para usuarios de la biblioteca 43 540 58 040 1 980 0
Diagrama de barras conjunto de frecuencias absolutas: se sitan en el eje horizontal las cuatro
categoras y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia
absoluta, f
i
, con distinto color o trama de relleno para cada una de las cuatro bibliotecas.
Solucin del problema 1.5. Tenemos 3 variables estadsticas cualitativas nominales cuyas categoras
son las mismas (sociologa, economa, poltica y psicologa). Por ejemplo, la primera de las
variables es rea de investigacin de las citas que aparecen en los artculos publicados en
1970. Los individuos a los que se les observa dicha variable son todas y cada una de las citas
que aparecen en los artculos publicados en 1970. Las otras dos variables se denen de forma
anloga (. . . 1980 y . . . 1990).
1970 1980 1990
Categoras (reas de investigacin)
f
i
h
i
f
i
h
i
f
i
h
i
Sociologa 330 0
3075 414 0
2562 547 0
4422
Economa 299 0
2787 393 0
2432 295 0
2385
Poltica 115 0
1072 357 0
2209 137 0
1108
Psicologa 329 0
3066 452 0
2797 258 0
2086
suma 1 073 1
0000 1 616 1
0000 1 237 1
0000
Estadstica 15
Diagrama de barras conjunto de frecuencias relativas: se sitan en el eje horizontal las cuatro
categoras y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia
relativa, h
i
, con distinto color o trama de relleno para cada uno de los tres aos.
Solucin del problema 1.6. La variable estadstica es el nmero de descriptores o keywords. Es
cuantitativa discreta. Los individuos a los que se les observa la variable son todos y cada uno
de los 72 artculos de investigacin de la muestra.
x
i
3 4 5 6 7 8 9 10 11 12 13 14
f
i
5 8 12 7 9 9 10 5 3 2 1 1
Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal los x
i
y sobre cada
uno de ellos se levanta un segmento rectilneo de altura igual a la correspondiente frecuencia
absoluta, f
i
.
Solucin del problema 1.7. La variable estadstica es la altura de los libros. Es cuantitativa continua.
Los individuos a los que se les observa la variable son los 31 libros de la muestra.
x
i
15 16 17 18 19 20 21 22 23 24 25 26 27
f
i
1 0 3 4 4 2 4 5 2 2 2 1 1
h
i
0
032 0
000 0
097 0
129 0
129 0
065 0
129 0
161 0
065 0
065 0
065 0
032 0
032
Polgono de frecuencias relativas: se sitan los puntos que resultan de tomar en el eje horizontal
los distintos valores de la variable, x
i
, y en el eje vertical sus correspondientes frecuencias
relativas, h
i
, uniendo despus los puntos mediante segmentos rectilneos.
Solucin del problema 1.8. La variable estadstica es el nmero de palabras por lnea. Es cuantita-
tiva discreta. Los individuos a los que se les observa la variable son todas y cada una de las 48
lneas de la pgina del libro.
x
i
4 5 8 9 10 11 12 13 14 15 16 17
f
i
1 1 2 3 2 7 11 14 3 2 1 1
F
i
1 2 4 7 9 16 27 41 44 46 47 48
Grco de frecuencias acumuladas absolutas: es la representacin grca de las frecuencias
acumuladas absolutas, F, para todo valor numrico, x. Es una grca en forma de escalera".
Solucin del problema 1.9. La variable estadstica es el nmero de palabras por resumen. Es cuan-
titativa discreta. Los individuos a los que se les observa la variable son los artculos cientcos
de autores espaoles que han publicado en la determinada revista de investigacin durante el
determinado ao.
16 J. Marn Fernndez
x
i
f
i
h
i
F
i
H
i
10 1 0
025 1 0
025
11 1 0
025 2 0
050
12 3 0
075 5 0
125
13 2 0
050 7 0
175
14 3 0
075 10 0
250
15 6 0
150 16 0
400
16 2 0
050 18 0
450
17 6 0
150 24 0
600
18 3 0
075 27 0
675
19 4 0
100 31 0
775
20 4 0
100 35 0
875
21 2 0
050 37 0
925
22 2 0
050 39 0
975
23 1 0
025 40 1
000
Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal los x
i
, y sobre
cada uno de ellos se levanta un segmento rectilneo de altura igual a la correspondiente
frecuencia absoluta, f
i
.
Polgono de frecuencias relativas: se sitan los puntos que resultan de tomar en el eje
horizontal los distintos valores de la variable, x
i
, y en el eje vertical sus correspondientes
frecuencias relativas, h
i
, uniendo despus los puntos mediante segmentos rectilneos.
Grco de frecuencias acumuladas relativas: es la representacin grca de las frecuen-
cias acumuladas relativas, H, para todo valor numrico, x. Es una grca en forma de
escalera".
Solucin del problema 1.10. La variable estadstica es el nmero de llamadas telefnicas recibidas
en el servicio de informacin de una biblioteca pblica. Es cuantitativa discreta. Los individuos
a los que se les observa la variable son los das.
(
i
,
i+1
] (9,15] (15,21] (21,27] (27,33] (33,39] (39,45] (45,51]
f
i
2 4 8 14 10 6 1
x
i
12 18 24 30 36 42 48
F
i
2 6 14 28 38 44 45
Histograma: se sitan en el eje horizontal los intervalos de clase, (
i
,
i+1
], y sobre cada
uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. Como los
intervalos tienen la misma amplitud, basta con hacer las alturas de los rectngulos iguales
a las frecuencias absolutas, f
i
.
Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
las marcas de clase, x
i
, y en el eje vertical sus correspondientes frecuencias absolutas, f
i
,
uniendo despus los puntos mediante segmentos rectilneos.
Estadstica 17
Grco de frecuencias acumuladas absolutas: se sitan los puntos que resultan de tomar
en el eje horizontal los extremos superiores de los intervalos de clase,
i+1
, y en el eje ver-
tical sus correspondientes frecuencias acumuladas absolutas, F
i
, uniendo despus dichos
puntos mediante segmentos rectilneos.
Solucin del problema 1.11. La variable estadstica es el nmero de socios de la biblioteca. Es cuan-
titativa discreta. Los individuos a los que se les observa la variable son las bibliotecas pblicas.
(
i
,
i+1
] f
i
x
i
H
i
(675,1 375] 19 1 025 0
2262
(1 375,2 075] 22 1 725 0
4881
(2 075,2 775] 18 2 425 0
7024
(2 775,3 475] 14 3 125 0
8690
(3 475,4 175] 8 3 825 0
9643
(4 175,4 875] 2 4 525 0
9881
(4 875,5 575] 1 5 225 1
0000
Histograma: se sitan en el eje horizontal los intervalos de clase, (
i
,
i+1
], y sobre cada
uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. Como los
intervalos tienen la misma amplitud, basta con hacer las alturas de los rectngulos iguales
a las frecuencias absolutas, f
i
.
Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
las marcas de clase, x
i
, y en el eje vertical sus correspondientes frecuencias absolutas, f
i
,
uniendo despus los puntos mediante segmentos rectilneos.
Grco de frecuencias acumuladas relativas: se sitan los puntos que resultan de tomar en
el eje horizontal los extremos superiores de los intervalos de clase,
i+1
, y en el eje vertical
sus correspondientes frecuencias acumuladas relativas, H
i
, uniendo despus dichos puntos
mediante segmentos rectilneos.
2
Medidas descriptivas de los datos
Medidas descriptivas de los datos
Resumen del tema
2.1. Medidas de posicin
Son valores que nos sirven para indicar la posicin alrededor de la cual se distribuyen las observa-
ciones.
2.1.1. Mediana
La mediana es un valor que deja a su izquierda el 50 % de los datos de la muestra ordenada. La
denotaremos por M
e
. Su unidad de medida es la misma que la de la variable.
a) Clculo con datos no agrupados en intervalos:
n impar: M
e
es el valor central de la muestra ordenada.
n par: M
e
es el punto medio de los dos valores centrales de la muestra ordenada.
b) Clculo con datos agrupados en intervalos:
Intervalo mediano: es el que contiene a la mediana. Es el primer intervalo cuya frecuencia
absoluta acumulada es igual o mayor que
n
2
.
M
e
=
i
+
n
2
F
i1
f
i
(
i+1
i
) ,
donde (
i
,
i+1
] es el intervalo mediano, f
i
es su frecuencia absoluta y F
i1
es la frecuencia
absoluta acumulada del intervalo anterior al mediano.
19
20 J. Marn Fernndez
2.1.2. Cuantiles o percentiles
El cuantil o percentil al r % es un valor que deja por debajo el r % de los datos de la muestra
ordenada de menor a mayor. Lo denotaremos por C
r
. Su unidad de medida es la misma que la de la
variable.
CASOS PARTICULARES:
Cuartiles:
1
er
cuartil = Q
1
= C
25
2
o
cuartil = Q
2
= C
50
= M
e
3
er
cuartil = Q
3
= C
75
Deciles:
1
er
decil = D
1
= C
10
2
o
decil = D
2
= C
20
.
.
.
.
.
.
.
.
.
9
o
decil = D
9
= C
90
Si los datos estn agrupados en intervalos de clase, el intervalo que contiene a C
r
es el primero
cuya frecuencia acumulada absoluta es igual o mayor que
nr
100
y el cuantil al r % se determina mediante la frmula:
C
r
=
i
+
nr
100
F
i1
f
i
(
i+1
i
) ,
donde (
i
,
i+1
] es el intervalo que contiene a C
r
, f
i
es su frecuencia absoluta y F
i1
es la frecuencia
absoluta acumulada del intervalo anterior.
2.1.3. Media
Llamaremos media a la media aritmtica. (Hay otras medias, como, por ejemplo, la media geo-
mtrica, la media cuadrtica y la media armnica.)
Si la variable se denota por X, la media de los datos de una muestra ser denotada por x. (Si
tenemos los datos de toda la poblacin, entonces representaremos la media por .)
a) Clculo con datos no agrupados en intervalos:
Si x
1
, x
2
, . . . , x
n
son los n valores de la muestra, entonces:
x =
n
i=1
x
i
n
.
Estadstica 21
Si los datos son x
1
, x
2
, . . . , x
k
, y aparecen con frecuencias absolutas respectivas f
1
, f
2
, . . . , f
k
,
entonces:
x =
k
i=1
x
i
f
i
n
.
De las frmulas anteriores se deduce que la unidad de medida de x es la misma que la de la
variable.
b) Clculo con datos agrupados en intervalos:
La frmula es la misma que la anterior, siendo x
i
la marca de clase del intervalo (
i
,
i+1
] y f
i
su correspondiente frecuencia absoluta.
2.2. Medidas de dispersin
Miden el grado de separacin de las observaciones entre s o con respecto a ciertas medidas de
posicin, como la media o la mediana.
2.2.1. Recorrido, rango o amplitud total
La frmula del recorrido (tambin denominado rango o amplitud total) es:
R = x
max
x
min
.
De la frmula anterior se deduce que la unidad de medida de R es la misma que la de la variable.
El recorrido nos mide el grado de variabilidad de los datos de la muestra: cuanto ms grande sea
el resultado del recorrido, ms dispersos estn los datos.
2.2.2. Recorrido intercuartlico
La frmula del recorrido intercuartlico es:
R
I
= Q
3
Q
1
= C
75
C
25
.
De la frmula anterior se deduce que la unidad de medida de R
I
es la misma que la de la variable.
Cuanto ms pequeo sea el resultado del recorrido intercuartlico, menos dispersin respecto de la
mediana hay; es decir, los datos estn menos alejados de la mediana y, por tanto, la mediana es ms
representativa. Pero, cundo podramos decir que el valor del recorrido intercuartlico es pequeo?
. . . Como entre el primer cuartil, Q
1
, y el tercer cuartil, Q
3
, hay exactamente la mitad de los datos,
podramos comparar la mitad del recorrido total con el recorrido intercuartlico, y podramos decir
que la mediana es representativa si R
I
es menor o igual que R/2.
22 J. Marn Fernndez
2.2.3. Varianza y desviacin tpica
I) Varianza
Si la variable se denota por X, la varianza de los datos procedentes de una muestra ser denotada
por s
2
x
. (Si disponemos de los datos de toda la poblacin, entonces representaremos la varianza
por
2
.)
La frmula de la varianza es:
s
2
x
=
n
i=1
(x
i
x)
2
n
=
k
i=1
(x
i
x)
2
f
i
n
.
Una frmula equivalente es:
s
2
x
=
n
i=1
x
2
i
n
x
2
=
k
i=1
x
2
i
f
i
n
x
2
.
De las frmulas anteriores se deduce que la unidad de medida de s
2
x
es la unidad de la variable
elevada al cuadrado.
II) Desviacin tpica
Si la variable se denota por X, la desviacin tpica de los datos procedentes de una muestra ser
denotada por s
x
. (Si disponemos de los datos de toda la poblacin, entonces representaremos la
desviacin tpica por .)
La frmula de la desviacin tpica es:
s
x
=
Varianza .
De la frmula anterior se deduce que la unidad de medida de s
x
es la misma que la de la variable.
Cuanto ms pequeo sea el resultado de la desviacin tpica, menos dispersin respecto de
la media hay; es decir, los datos estn menos alejados de la media y, por tanto, la media es
ms representativa. Pero, cundo podramos decir que el resultado de la desviacin tpica es
pequeo? . . . Como entre x s y x + s hay, para la mayora de las variables, ms de las dos
terceras partes de los datos, podramos comparar la amplitud del intervalo (xs, x+s) con los
dos tercios del recorrido total; es decir, podramos comparar el resultado de 2 s con el resultado
de 2 R/3, lo que es lo mismo que comparar s con R/3. En consecuencia, podramos decir que
la media es representativa si s es menor o igual que R/3.
III) Cuasivarianza o varianza corregida
Se utiliza, sobre todo, en Estadstica Inferencial.
Si la variable se denota por X, la cuasivarianza o varianza corregida de los datos procedentes
de una muestra ser denotada por S
2
x
.
La frmula de la cuasivarianza es:
Estadstica 23
S
2
x
=
n
i=1
(x
i
x)
2
n 1
=
k
i=1
(x
i
x)
2
f
i
n 1
.
Una frmula equivalente es:
S
2
x
=
_
n
i=1
x
2
i
_
nx
2
n 1
=
_
k
i=1
x
2
i
f
i
_
nx
2
n 1
.
De las frmulas anteriores se deduce que la unidad de medida de S
2
x
es la unidad de la variable
elevada al cuadrado.
Relacin entre la varianza y la cuasivarianza:
ns
2
x
= (n 1) S
2
x
.
IV) Cuasidesviacin tpica o desviacin tpica corregida
Se utiliza, sobre todo, en Estadstica Inferencial.
La frmula de la cuasidesviacin tpica es:
S
x
=
Cuasivarianza .
De la frmula anterior se deduce que la unidad de medida de S
x
es la misma que la de la
variable.
24 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 2.1. Observamos la edad de 8 alumnos de clase y calculamos la mediana.
Ejemplo 2.2. Observamos la edad de 9 alumnos de clase y calculamos la mediana.
Ejemplo 2.3. La distribucin de frecuencias de las calicaciones de 13 alumnos en un determinado
examen viene dada por la tabla siguiente. Calcular la mediana.
Tabla 2.1
x
i
f
i
F
i
2 2 2
4 3 5
6 5 10
8 3 13
Ejemplo 2.4. La distribucin de frecuencias de las calicaciones de 12 alumnos en un determinado
examen viene dada por la tabla siguiente. Calcular la mediana.
Tabla 2.2
x
i
f
i
F
i
2 1 1
4 5 6
6 4 10
8 2 12
Ejemplo 2.5. En una biblioteca se observa el tiempo (en das) que tardan los proveedores en sumi-
nistrar las peticiones que la biblioteca les hace:
Tabla 2.3
N
o
de das 6 7 8 9 10 11 12 13 14
N
o
de proveedores 1 2 3 4 5 3 2 2 2
a) Cul es la variable estadstica que se observa? De qu tipo es dicha variable? Cules son
los individuos a los que se les observa dicha variable? Cul es el tamao muestral?
b) Calcular la mediana. Interpretar el resultado.
Ejemplo 2.6. En una muestra de libros se observa el nmero de referencias bibliogrcas que con-
tienen. Nos han proporcionado los datos agrupados en intervalos:
Estadstica 25
Tabla 2.4
N
o
de referencias N
o
de libros
(3,9] 7
(9,15] 17
(15,21] 12
(21,27] 7
(27,33] 5
(33,39] 2
a) Cul es la variable estadstica que se observa? De qu tipo es dicha variable? Cules son
los individuos a los que se les observa dicha variable? Cul es el tamao muestral?
b) Calcular el valor aproximado de la mediana a partir del grco de frecuencias acumuladas
absolutas.
c) Calcular la mediana mediante la frmula. Interpretar el resultado.
Ejemplo 2.7. Con los datos de la Tabla 2.3 calcular: el primer decil, el primer cuartil, el tercer cuartil
y el noveno decil. Interpretar los resultados.
Ejemplo 2.8. Con los datos de la Tabla 2.4 calcular el primer y el tercer cuartil. Interpretar los resul-
tados.
Ejemplo 2.9. Calcular la media de los datos de la Tabla 2.3.
Ejemplo 2.10. Calcular la media de los datos de la Tabla 2.4.
Ejemplo 2.11. Cul es el grado de dispersin de los datos de la Tabla 2.3? Razonar la respuesta.
Ejemplo 2.12. Cul es el grado de dispersin de los datos de la Tabla 2.4? Razonar la respuesta.
Ejemplo 2.13. Con los datos de la Tabla 2.3 cul es el grado de representatividad de la mediana:
muy fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.14. Con los datos de la Tabla 2.4 cul es el grado de representatividad de la mediana:
muy fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.15. Con los datos de la Tabla 2.3 cul es el grado de representatividad de la media: muy
fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.16. Con los datos de la Tabla 2.4 cul es el grado de representatividad de la media: muy
fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
26 J. Marn Fernndez
Problemas propuestos
Problema 2.1. Se pregunt a varias personas, elegidas al azar, el nmero de peridicos distintos que
lean trimestralmente, y se obtuvo las siguientes respuestas:
N
o
de peridicos 0 1 2 3 4 5 6 7
N
o
de lectores 7 13 18 15 11 6 4 2
a) Dibujar el grco de frecuencias acumuladas absolutas. Calcular la mediana.
b) Cul es el grado de representatividad de la mediana: muy poco representativa, poco,
regular, bastante o muy representativa?
Problema 2.2. El nmero de personas que visitan diariamente una biblioteca fue observado durante
74 das elegidos al azar, y los resultados fueron:
N
o
de personas 47 59 62 64 71 76 78 80
N
o
de das 4 6 10 17 16 10 7 4
a) Hallar la media y la mediana.
b) Calcular la medida de dispersin adecuada para medir el grado de representatividad de la
media. Interpretar su resultado.
c) Calcular la medida de dispersin adecuada para medir el grado de representatividad de la
mediana. Interpretar su resultado.
Problema 2.3. La edad de las personas que aprobaron la oposicin de auxiliar de biblioteca en Es-
paa en un determinado ao tiene la siguiente distribucin:
Edad [20,25] (25,30] (30,35] (35,40] (40,50] (50,60]
N
o
de personas 41 123 44 13 7 3
a) Dibujar el grco de frecuencias acumuladas absolutas. A partir de este grco, determi-
nar el valor aproximado de la mediana. Determinar, despus, el valor de la mediana con
la frmula estudiada.
b) Cul es el grado de representatividad de la mediana? Justicar la respuesta.
Problema 2.4. Los siguientes datos corresponden al nmero mensual de nuevos socios de una deter-
minada biblioteca:
27 40 12 3 30 16 20 21 30 12
45 18 25 22 35 24 37 12 21 7
35 17 21 27 14 15 25 45 12 24
a) Determinar la distribucin de frecuencias y dibujar el polgono de frecuencias absolutas.
b) Calcular la media y la mediana.
Estadstica 27
Problema 2.5. El nmero de veces que fueron consultados 60 artculos de investigacin archivados
en una hemeroteca, durante un determinado ao, viene dado por la siguiente tabla:
8 25 20 4 19 3 21 2 20 22
23 9 1 24 21 22 20 2 22 21
2 24 21 9 3 21 22 3 22 3
12 6 20 2 26 46 2 4 10 37
14 9 7 25 50 26 38 46 36 1
7 1 35 23 45 36 5 65 46 37
Agrupar los datos en intervalos de la misma amplitud, y calcular, a partir de esta clasicacin,
el valor de la medida de posicin que resulte ms representativa del conjunto total de los datos.
Problema 2.6. Acontinuacin se ofrecen los datos correspondientes al tiempo de espera (en minutos)
de 50 usuarios de una biblioteca hasta que son atendidos por algn miembro del personal de
sta.
1 3 5 20 21 4 7 9 10 12
20 18 6 4 13 11 10 13 15 9
4 20 2 22 8 6 11 4 8 6
5 18 19 20 7 15 16 13 12 14
7 10 5 24 11 8 9 10 11 7
a) Determinar la distribucin de frecuencias. Calcular la media y la mediana.
b) Agrupar los datos en intervalos de distinta amplitud, y calcular, a partir de esta nueva clasi-
cacin, las mismas medidas descriptivas del apartado anterior. Comparar los resultados.
28 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 2.1. La distribucin de frecuencias es:
x
i
f
i
F
i
0 7 7
1 13 20
2 18 38
3 15 53
4 11 64
5 6 70
6 4 74
7 2 76
a) Grco de frecuencias acumuladas absolutas: es la representacin grca de las fre-
cuencias acumuladas absolutas, F, para todo valor numrico, x. Es una grca en
forma de escalera".
Mediana=M
e
= 2
5 peridicos.
b) Como el recorrido intercuartlico es R
I
= 3 peridicos y la mitad del recorrido es R/2 =
3
7297 personas.
Mediana=M
e
= 67
5 personas.
b) La desviacin tpica es s
x
= 8
5, entonces R
I
es
bastante menor que R/2 y, como consecuencia, la mediana es bastante representativa.
Solucin del problema 2.3.
a) Grco de frecuencias acumuladas absolutas: se sitan los puntos que resultan de
tomar en el eje horizontal los extremos superiores de los intervalos de clase, y en el
eje vertical sus correspondientes frecuencias acumuladas absolutas, uniendo despus
dichos puntos mediante segmentos rectilneos.
A partir del grco anterior se deduce que la mediana es aproximadamente igual a 28
aos.
Con la frmula se obtiene que la mediana es M
e
= 28
0285 aos.
b) El recorrido intercuartlico es R
I
= 5
6711
7 1 2 7 258
1378
12 4 6 48 489
8844
14 1 7 14 82
2044
15 1 8 15 65
0711
16 1 9 16 49
9378
17 1 10 17 36
8044
18 1 11 18 25
6711
20 1 12 20 9
4044
21 3 15 63 12
8133
22 1 16 22 1
1378
24 2 18 48 1
7422
25 2 20 50 7
4756
27 2 22 54 30
9422
30 2 24 60 96
1422
35 2 26 70 284
8089
37 1 27 37 194
1378
40 1 28 40 286
7378
45 2 30 90 962
1422
suma 692 3297
6
Polgono de frecuencias absolutas: se sitan los puntos que resultan de tomar en el
eje horizontal los distintos valores de la variable, x
i
, y en el eje vertical sus corres-
pondientes frecuencias absolutas, f
i
, uniendo despus los puntos mediante segmentos
rectilneos.
b) Media=x = 23
6 socios.
Mediana=M
e
= 21
5 socios.
Solucin del problema 2.5. La distribucin de frecuencias con datos agrupados en intervalos de la
misma amplitud es:
30 J. Marn Fernndez
(
i
,
i+1
] x
i
f
i
F
i
(0
8, 10] 5
4 23 23
(10, 19
2] 14
6 3 26
(19
2, 28
4] 23
8 22 48
(28
4, 37
6] 33
0 5 53
(37
6, 46
8] 42
2 5 58
(46
8, 56] 51
4 1 59
(56, 65
2] 60
6 1 60
Como la dispersin es grande, la medida de posicin ms adecuada es la mediana. Con los datos
agrupados en estos intervalos de clase, el valor de la mediana es M
e
= 20
72 veces.
Solucin del problema 2.6.
a) La distribucin de frecuencias es:
x
i
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 18 19 20 21 22 24
f
i
1 1 1 4 3 3 4 3 3 4 4 2 3 1 2 1 2 1 4 1 1 1
F
i
1 2 3 7 10 13 17 20 23 27 31 33 36 37 39 40 42 43 47 48 49 50
x
i
f
i
1 2 3 16 15 18 28 24 27 40 44 24 39 14 30 16 36 19 80 21 22 24
Media=x = 10
86 minutos.
Mediana=M
e
= 10 minutos.
b) Una posible agrupacin de los datos en intervalos de distinta amplitud es:
(
i
,
i+1
] f
i
x
i
x
i
f
i
F
i
(0,4] 7 2 14 7
(4,6] 6 5 30 13
(6,8] 7 7 49 20
(8,10] 7 9 63 27
(10,12] 6 11 66 33
(12,15] 6 13
5 81 39
(15,19] 4 17 68 43
(19,24] 7 21
5 150
5 50
suma 521
5
Con esta clasicacin en intervalos, los resultados de las medidas descriptivas anteriores
son:
Media=x = 10
43 minutos.
Mediana=M
e
= 9
4286 minutos.
Los verdaderos resultados de estas medidas descriptivas son los calculados en el apartado
anterior.
3
Relacin entre dos variables
cuantitativas
Relacin entre dos variables
cuantitativas
Resumen del tema
3.1. Diagrama de dispersin
Cuando sobre cada individuo de una poblacin se observan simultneamente dos caractersticas
cuantitativas X e Y , se dice que se est observando una variable estadstica bidimensional, que se
representa por (X, Y ).
La representacin grca ms usual es el diagrama de dispersin o nube de puntos, que consiste
en situar en un sistema de ejes coordenados los puntos que resultan de tomar en el eje horizontal los
valores de una de las variables y en el eje vertical los valores de la otra.
3.2. Coeciente de correlacin lineal
Covarianza entre X e Y :
s
xy
=
n
i=1
(x
i
x)(y
i
y)
n
=
n
i=1
x
i
y
i
n
x y .
De la frmula anterior se deduce que la unidad de medida de s
xy
es el producto de la unidad de X
por la unidad de Y .
Coeciente de correlacin lineal de Pearson entre X e Y :
r
xy
=
s
xy
s
x
s
y
.
De la frmula anterior se deduce que r
xy
no tiene unidad de medida.
31
32 J. Marn Fernndez
Propiedad del coeciente de correlacin lineal: el resultado de r
xy
siempre est comprendido entre
1 y 1; es decir,
1 r
xy
1 .
Interpretacin descriptiva del coeciente de correlacin lineal:
Si r
xy
> 0, existe relacin lineal directa entre X e Y ; es decir, al aumentar la variable X,
aumenta la variable Y .
Si r
xy
< 0, existe relacin lineal inversa entre X e Y ; es decir, al aumentar la variable X,
disminuye la variable Y .
Si r
xy
= 1, existe dependencia lineal directa exacta entre X e Y ; es decir, los puntos del
diagrama de dispersin estn situados sobre una lnea recta de pendiente positiva.
Si r
xy
= 1, existe dependencia lineal inversa exacta entre X e Y ; es decir, los puntos del
diagrama de dispersin estn situados sobre una lnea recta de pendiente negativa.
Si r
xy
= 0, no existe dependencia lineal entre X e Y .
Cuanto ms se aproxime r
xy
a 1 o a 1, ms dependencia lineal existe entre X e Y . Y cuanto
ms se aproxime r
xy
a 0, ms independencia lineal existe entre X e Y .
3.3. Recta de regresin
Recta de regresin de Y sobre X: aquella que permite predecir los resultados de la variable Y a
partir de los valores de la variable X.
Ecuacin de la recta de regresin (mnimo cuadrtica) de Y sobre X:
Y = A +BX ,
donde:
B =
s
xy
s
2
x
= r
xy
s
y
s
x
,
A = y Bx .
Recta de regresin de X sobre Y : aquella que permite predecir los resultados de la variable X a
partir de los valores de la variable Y .
Ecuacin de la recta de regresin (mnimo cuadrtica) de X sobre Y :
X = A
+B
Y ,
donde:
B
=
s
xy
s
2
y
= r
xy
s
x
s
y
,
A
= x B
y .
Estadstica 33
Ejemplos que se van a resolver en clase
Ejemplo 3.1. La tabla siguiente muestra la vejez (aos desde su publicacin) y la frecuencia de uso
(nmero de veces que se consulta en un ao) de ocho libros:
Tabla 3.1
Vejez del libro 1 3 2 4 3 5 4 3
Frecuencia de uso 40 18 30 21 26 10 13 35
Dibujar el diagrama de dispersin.
Ejemplo 3.2. Con los datos de la Tabla 3.1 calcular el coeciente de correlacin lineal entre ambas
variables. Cmo se puede calicar el grado de relacin lineal: muy fuerte, fuerte, moderado,
dbil o muy dbil? La relacin es directa o inversa? Razonar las respuestas.
Ejemplo 3.3. Con los datos de la Tabla 3.1 determinar la ecuacin de la recta de regresin de la
frecuencia de uso sobre la vejez del libro. Sobre el mismo grco en el que se ha hecho el
diagrama de dispersin, representar grcamente la recta de regresin. Estimar el nmero anual
de veces que se prestara un libro publicado hace 6 aos. Es able esta estimacin? Justicar
la respuesta.
Ejemplo 3.4. Con los datos de la Tabla 3.1 determinar la ecuacin de la recta de regresin de la
vejez del libro sobre la frecuencia de uso. Predecir la vejez de un libro que no fuese consultado
ninguna vez durante todo el ao. Es able esta prediccin? Por qu?
34 J. Marn Fernndez
Problemas propuestos
Problema 3.1. El nmero de libros prestados a los estudiantes y a los profesores de los diferentes
departamentos de una universidad en un curso acadmico determinado ha sido:
Departamento Estudiantes Profesores
Agricultura 396 70
Antropologa 1.122 340
Biologa 311 273
Botnica 562 181
Cristalografa 149 33
Fsica 1.446 704
Geologa 1.579 556
Informtica 557 233
Ingeniera 1.044 434
Matemticas 710 437
Mineraloga 52 22
Psicologa 1.153 495
Qumica 737 473
Zoologa 1.343 462
a) Dibujar el diagrama de dispersin.
b) Calcular el coeciente de correlacin lineal entre ambas variables. Cmo se puede cali-
car el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
c) Determinar la ecuacin de la recta de regresin del nmero de libros prestados a los estu-
diantes sobre el nmero de libros prestados a los profesores. Estimar el nmero de libros
prestados a los estudiantes que puede esperarse cuando el nmero de libros prestados a
los profesores sea de 400. Es able esta estimacin? Justicar la respuesta.
Problema 3.2. El tamao de la poblacin y el nmero de libros prestados por las bibliotecas de once
ciudades fue:
Poblacin N
o
de prstamos
100.000 100.000
114
5 86
0
25
9 35
8
4
2 51
3
7
5 47
3
6
7 7
5
6
5 94
7
6
0 77
0
5
9 39
9
4
6 18
0
4
5 36
0
4
3 68
9
Estadstica 35
a) Calcular el coeciente de correlacin lineal entre ambas variables. Cmo se puede cali-
car el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
b) Pronosticar el nmero de libros prestados por las bibliotecas de una ciudad de un milln
de habitantes. Decir si es able este pronstico, razonando la respuesta.
Problema 3.3. Los siguientes datos se reeren al nmero de libros y de revistas que reciben men-
sualmente doce bibliotecas elegidas al azar.
libros revistas
1.090 24
7.420 92
4.200 67
8.250 158
8.810 81
1.620 59
3.840 54
9.400 171
3.630 100
14.100 276
2.500 122
11.470 200
a) Calcular el coeciente de correlacin lineal entre ambas variables. Cmo se puede cali-
car el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
b) Estimar el nmero de revistas que recibira una biblioteca en un mes en el que le enviaran
5.000 libros. Es able esta estimacin? Justicar la respuesta.
36 J. Marn Fernndez
Soluciones de los problemas propuestos
Solucin del problema 3.1. Sea X =nmero de libros prestados a los estudiantes de cada departa-
mento de la determinada universidad, durante el determinado curso acadmico e Y =nmero
de libros prestados a los profesores de cada departamento de la determinada universidad, du-
rante el determinado curso acadmico.
(a) El diagrama de dispersin o nube de puntos consiste en situar en un sistema de ejes coorde-
nados los puntos que resultan de tomar en el eje horizontal los valores de una de las variables y
en el eje vertical los valores de la otra.
(b) El coeciente de correlacin lineal entre X e Y es r
xy
= 0
X = 95
9530 + 2
0831 Y
El nmero de libros prestados a los estudiantes que puede esperarse cuando el nmero de libros
prestados a los profesores sea de 400 es:
X = 95
9530 + 2
Y = 45
4902304 + 0
32532773 X.
El pronstico del nmero de libros prestados por las bibliotecas de una ciudad de un mi-
lln de habitantes es:
Y = 45
4902304 + 0
32532773 10 = 48
Y = 21
6844 + 0
0150 X.
La estimacin del nmero de revistas que recibira una biblioteca en un mes en el que le enviaran
5 000 libros es:
Y = 21
6844 +0
0150 5 000 = 96
1375, b) 0
2875, c) 0
3875.
Solucin del problema 4.3. a) 0
403174603, b) 0
238095238, c) 0
401069518.
Solucin del problema 4.4. a) 0
351920693, b) 0
0875, c) 0
53283767.
Solucin del problema 4.5. a) 0
559140, b) 0
451613, c) 0
220430, d) 0
790323.
Solucin del problema 4.6: 0
2
Solucin del problema 4.7. a) 0
65, b) 0
8.
Solucin del problema 4.8. a) 0
168831, b) 0
24, c) 0
043290, d) 0
367965.
5
Modelos de probabilidad
Modelos de probabilidad
Resumen del tema
5.1. Variables aleatorias discretas y continuas
5.1.1. Variables aleatorias
Una variable aleatoria es una funcin que asigna un nmero a cada suceso elemental de un
experimento aleatorio.
Cualquier variable estadstica cuantitativa estudiada en los temas 1 a 3 podra considerarse variable
aleatoria con la condicin de que est observada en todos los individuos de una poblacin.
La media de una variable aleatoria X se denota por
x
. En el caso en el que no exista la posibilidad
de confusin respecto de la variable aleatoria con la que estamos trabajando, la media se denotar
solamente por . A la media de una variable aleatoria X tambin se le llama esperanza matemtica
de X, denotndola entonces por E(X).
La varianza de una variable aleatoria X se denota por Var(X), por
2
x
o simplemente por
2
.
Por tanto, la desviacin tpica de una variable aleatoria X se denota por
x
o por .
La funcin de distribucin de una variable aleatoria X se denota por F
X
o simplemente por F y
se dene de la siguiente forma:
F
X
(t) = P(X t) para todo t .
CLASIFICACIN DE LAS VARIABLES ALEATORIAS:
Variable aleatoria discreta: slo puede tomar valores numricos aislados (jados dos conse-
cutivos, no puede existir ninguno intermedio).
Variable aleatoria continua: puede tomar cualquier valor numrico dentro de un intervalo, de
modo que entre cualesquiera dos de ellos siempre existe otro posible valor.
49
50 J. Marn Fernndez
5.1.2. Variables aleatorias continuas
Identicacin de una variable aleatoria continua X: es preciso conocer su funcin de densi-
dad, f(x), que debe vericar:
f(x) 0 para todo nmero real x.
El rea total bajo la curva y = f(x) vale 1.
La probabilidad de que la variable aleatoria X est comprendida entre a y b, P(a X
b), viene determinada por el rea bajo la curva y = f(x) entre x = a y x = b.
Los valores concretos de la funcin de densidad no tienen ningn signicado especial pues
las probabilidades vienen determinadas por reas bajo la curva determinada por la funcin de
densidad y no por valores de la funcin de densidad. En todo caso, este hecho nos informa de
que en las distribuciones continuas la probabilidad de que la variable aleatoria tome un valor
concreto, P(X = a), es cero, como corresponde al rea de un rectngulo de base un punto y
altura f(a). Resumiendo, si X es una variable aleatoria continua, entonces:
P(X = a) = 0 para todo a .
La representacin grca de la funcin de densidad de una variable aleatoria continua es
equivalente al polgono de frecuencias relativas de una variable estadstica continua cuando la
amplitud de los intervalos es innitesimal.
La media y la varianza de una variable aleatoria continua se determinan mediante una opera-
cin matemtica denominada integral.
La funcin de distribucin de una variable aleatoria continua X se dene igual que para cual-
quier variable aleatoria; es decir:
F
X
(t) = P(X t) para todo t .
El valor de F
X
(t) coincide con el rea bajo la curva y = f(x) desde el valor ms pequeo que
puede tomar la variable hasta el valor t.
Para algunas variables aleatorias continuas los resultados de la funcin de distribucin se pue-
den determinar con cualquier paquete estadstico, como MINITAB o SPSS.
Si X es una variable aleatoria continua, entonces:
P(X < a) = P(X a) = F
X
(a) para todo a.
P(X > a) = P(X a) = 1 F
X
(a) para todo a.
P(a < X < b) = P(a X b) = P(a X < b) = P(a < X b) = F
X
(b) F
X
(a)
para todo a y b.
Estadstica 51
5.2. La distribucin Normal
5.2.1. Distribucin Normal
Una variable aleatoria continua X tiene una distribucin Normal de parmetros y si su
funcin de densidad es:
f(x) =
1
2
exp
_
1
2
_
x
_
2
_
para todo x ,
donde es cualquier nmero, es cualquier nmero positivo y, en general, exp(t) signica e
t
, siendo
e la base de los logaritmos neperianos.
Son equivalentes las dos armaciones siguientes: X tiene una distribucin Normal de parmetros
y y X es una variable aleatoria Normal de parmetros y .
La variable aleatoria Normal de parmetros y ser denotada por:
N(, ) .
Se cumplen las siguientes propiedades:
La media, la mediana y la moda de una variable aleatoria N(, ) coinciden entre s y tienen
por valor al parmetro .
La desviacin tpica de la distribucin N(, ) es igual al parmetro .
La curva que representa a la funcin de densidad de la distribucin N(, ) es simtrica res-
pecto de la recta vertical de ecuacin x = .
El rea comprendida entre el eje horizontal y la curva que representa a la funcin de densidad
de la distribucin N(, ) vale 1 (como ocurre con cualquier distribucin continua).
5.2.2. Distribucin Normal Estndar
Ala variable aleatoria Normal de parmetros 0 y 1 se le llama variable aleatoria Normal Estndar,
o Normal Tpica, y se le denota por N(0, 1).
5.2.3. Uso de la tabla de la funcin de distribucin
La tabla de la funcin de distribucin de la variable aleatoria Normal Estndar, Z, da las probabili-
dades a la izquierda de nmeros positivos; es decir, P(Z t), con t > 0. A partir de las propiedades
de simetra y de que el rea total bajo la curva de densidad es la unidad, pueden deducirse todos los
casos: probabilidades a la izquierda o a la derecha de nmeros positivos o negativos.
5.2.4. Uso de la tabla de los cuantiles
Adems de tener tabulados los resultados de la funcin de distribucin de la variable aleatoria
Normal Estndar, tambin tenemos tabulados los valores inversos de la funcin de distribucin; es
decir, los cuantiles.
52 J. Marn Fernndez
El cuantil (o percentil) al 100p % de la variable aleatoria Normal Estndar se denota por Z
p
y es
el valor que verica:
P(N(0, 1) Z
p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin N(0, 1) y el eje horizontal,
a la izquierda de Z
p
, es igual a p.
Otra interpretacin es la siguiente: el valor Z
p
deja por debajo el 100p % de todos los resultados
de una variable aleatoria Normal Estndar.
El resultado de Z
p
se puede determinar con cualquier paquete estadstico, como MINITAB o SPSS
(para cualquier valor de p) y con las tablas de los cuantiles de N(0, 1) (para algunos valores de p).
5.2.5. Tipicacin
Se conoce por tipicacin a la transformacin realizada con una variable aleatoria cuando se le
resta su media y se divide por su desviacin tpica.
Si la variable aleatoria X es Normal de parmetros y , X N(, ), entonces la variable
aleatoria que resulta cuando tipicamos:
Z =
X
2
n
n
Estadstica 53
sigue una distribucin denominada t de Student con n grados de libertad, que se denota por t
n
.
El cuantil al 100p % de t
n
se representa por t
n, p
y es el valor que verica:
P(t
n
t
n, p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin t
n
y el eje horizontal, a la
izquierda de t
n, p
, es igual a p.
Otra interpretacin es la siguiente: el valor t
n, p
deja por debajo el 100p % de todos los resultados
de una variable aleatoria t de Student con n grados de libertad.
El resultado de t
n, p
se puede determinar con cualquier paquete estadstico, como MINITAB o
SPSS (para cualquier valor de n y p) y con las tablas de los cuantiles de t
n
(para algunos valores de n
y p).
5.3.3. Distribucin F de Snedecor
Si tenemos dos variables aleatorias chi-cuadrado independientes,
2
m
y
2
n
, entonces la variable
aleatoria
2
m
m
2
n
n
sigue una distribucin denominada F de Snedecor con m grados de libertad en el numerador y n
grados de libertad en el denominador, que se denota por F
m, n
.
El cuantil al 100p % de F
m, n
se representa por F
m, n, p
y es el valor que verica:
P(F
m, n
F
m, n, p
) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin F
m, n
y el eje horizontal, a
la izquierda de F
m, n, p
, es igual a p.
Otra interpretacin es la siguiente: el valor F
m, n, p
deja por debajo el 100p % de todos los resulta-
dos de una variable aleatoria F de Snedecor con m grados de libertad en el numerador y n grados de
libertad en el denominador.
El resultado de F
m, n, p
se puede determinar con cualquier paquete estadstico, como MINITAB
o SPSS (para cualquier valor de m, n y p) y con las tablas de los cuantiles de F
m, n
(para algunos
valores de m, n y p).
54 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 5.1. Si Z N(0, 1) calcular las siguientes probabilidades:
a) P(Z < 0
321).
b) P(Z 1
275).
c) P(Z < 2
152).
d) P(Z 0
456).
e) P(1
434 Z 1
568).
Ejemplo 5.2. Si Z N(0, 1) determinar los siguientes cuantiles e interpretar los resultados.
a) Mediana de Z.
b) Tercer cuartil de Z.
c) Primer cuartil de Z.
Ejemplo 5.3. En una determinada asignatura de un Grado en Informacin y Documentacin se sabe
que las calicaciones siguen una distribucin Normal de media 5
5 y desviacin tpica 1
5. Si
en un ao acadmico hay 150 alumnos matriculados en esta asignatura, calcular el nmero de
alumnos que obtendrn una calicacin:
a) menor o igual que 3.
b) mayor o igual que 8.
c) comprendida entre 4 y 6.
Ejemplo 5.4. Determinar los siguientes cuantiles e interpretar los resultados.
a) Mediana de
2
10
.
b) Tercer cuartil de
2
30
.
Ejemplo 5.5. Determinar los siguientes cuantiles e interpretar los resultados.
a) Tercer cuartil de t
25
.
b) Primer cuartil de t
60
.
Ejemplo 5.6. Determinar los siguientes cuantiles e interpretar los resultados.
a) Cuantil al 95 % de F
20 , 10
.
b) Cuantil al 10 % de F
20 , 10
.
Estadstica 55
Problemas propuestos
Problema 5.1. Si Z es una variable Normal Estndar, determinar:
a) P(Z 2
21).
b) P(Z < 3
47).
c) P(Z 1
75).
d) P(Z > 2
46).
e) P(Z 3
24).
f) P(Z > 3
08).
g) P(1
12 Z 2
68).
h) P(0
85 < Z < 1
27).
i) P(2
97 < Z 1
33).
Problema 5.2. Si X es una variable Normal con media 8
46 y desviacin tpica 1
14, hallar:
a) P(X 9
11).
b) P(X < 12
33).
c) P(X 6
41).
d) P(X > 10
52).
e) P(X 12
61).
f) P(X > 4
01).
g) P(6
11 X 11
91).
h) P(7
53 < X < 10
33).
i) P(5
05 X < 6
83).
Problema 5.3. Hallar el valor de los siguientes cuantiles:
a) Z
0
58
.
b) Z
0
42
.
c) Z
0
999
.
d) Z
0
001
.
Problema 5.4. El cociente intelectual de 5.600 alumnos del Grado en Informacin y Documentacin
de diversas universidades sigue una distribucin Normal de media 130 y desviacin tpica 6.
Calcular cuntos de ellos tienen un cociente intelectual:
a) mayor que 140.
b) entre 125 y 135.
c) menor que 120.
Problema 5.5. Calcular el valor de los siguientes cuantiles:
56 J. Marn Fernndez
a)
2
6 , 0
01
.
b)
2
6 , 0
99
.
c)
2
72 , 0
975
.
Problema 5.6. Sea X una variable aleatoria que sigue una distribucin chi-cuadrado de Pearson con
15 grados de libertad. Determinar el valor de a que verica la siguiente igualdad:
a) P(X a) = 0
05.
b) P(X > a) = 0
99.
Problema 5.7. Calcular el valor de los siguientes cuantiles:
a) t
26 , 0
9
.
b) t
26 , 0
1
.
c) t
75 , 0
8
.
Problema 5.8. Sea X una variable aleatoria que sigue una distribucin t de Student con 20 grados
de libertad. Determinar el valor de a que verica la siguiente igualdad:
a) P(X a) = 0
99.
b) P(X a) = 0
25.
Problema 5.9. Calcular el valor de los siguientes cuantiles:
a) F
8 , 6 , 0
975
.
b) F
25 , 50 , 0
01
.
c) F
45 , 35 , 0
01
.
Problema 5.10. Sea X una variable aleatoria que sigue una distribucin F de Snedecor con 10 grados
de libertad en el numerador y 8 grados de libertad en el denominador. Determinar el valor de a
que verica la siguiente igualdad:
a) P(X < a) = 0
9.
b) P(X > a) = 0
05.
Estadstica 57
Soluciones de los problemas propuestos
Solucin del problema 5.1. a) 0
986447, b) 0
9997398, c) 0
040059, d) 0
006947, e) 0
0005976, f)
0
998965, g) 0
127676, h) 0
700295, i) 0
09027.
Solucin del problema 5.2. a) 0
715661, b) 0
9996505, c) 0
03593, d) 0
035148, e) 0
0001363, f)
0
9999519, g) 0
979078, h) 0
743389, i) 0
074964.
Solucin del problema 5.3. a) 0
20189, b) 0
20189, c) 3
09023231, d) 3
09023231.
Solucin del problema 5.4. a) 0
593462 5600 =
3323
87209, b) 16
8119, c) 97
356547.
Solucin del problema 5.6. a) 7
26094, b) 5
22935.
Solucin del problema 5.7. a) 1
315, b) 1
315, c) 0
844772.
Solucin del problema 5.8. a) 2
528, b) 0
687.
Solucin del problema 5.9. a) 5
5996, b) 0
416684, c) 0
477478.
Solucin del problema 5.10. a) 2
538, b) 3
3472.
6
Contrastes no paramtricos en una
poblacin
Contrastes no paramtricos en una
poblacin
Resumen del tema
6.1. Introduccin a la Estadstica Inferencial
Estadstica inferencial: parte de la estadstica que se ocupa de llegar a conclusiones (inferencias)
acerca de las poblaciones a partir de los datos de las muestras extradas de ellas.
Hiptesis estadstica: armacin sobre la forma de una o ms distribuciones, o sobre el valor
de uno o ms parmetros de esas distribuciones.
Hiptesis nula: hiptesis estadstica que se somete a contraste. Se denota por H
0
.
Hiptesis alternativa: es la negacin de la hiptesis nula H
0
, e incluye todo lo que H
0
excluye.
Se denota por H
1
.
Contraste de hiptesis: procedimiento que nos capacita para determinar si las muestras obser-
vadas dieren signicativamente de los resultados esperados, y por tanto nos ayuda a decidir si
aceptamos o rechazamos la hiptesis nula.
Contraste paramtrico: la hiptesis nula es una armacin sobre el valor de uno o ms
parmetros de la variable aleatoria observada en la poblacin.
Contraste no paramtrico: la hiptesis nula no es una armacin sobre el valor de uno o
ms parmetros de la variable aleatoria observada en la poblacin.
Estadstico de contraste: estadstico que se observa al realizar un contraste de hiptesis, y que
nos sirve para aceptar o rechazar la hiptesis nula por poseer una distribucin muestral conoci-
da.
Regin crtica: zona de la distribucin muestral del estadstico de contraste que corresponde a
los valores que permiten rechazar la hiptesis nula, y por tanto aceptar la hiptesis alternativa.
59
60 J. Marn Fernndez
Regin de aceptacin: zona de la distribucin muestral del estadstico de contraste que corres-
ponde a los valores que permiten aceptar la hiptesis nula.
Contraste unilateral o de una cola: la regin crtica se encuentra en una sola zona de la distri-
bucin muestral del estadstico de contraste.
Contraste bilateral o de dos colas: la regin crtica se encuentra repartida entre dos zonas de la
distribucin muestral del estadstico de contraste.
Error de tipo I: error que se comete cuando se decide rechazar una hiptesis nula que en realidad
es verdadera.
Nivel de signicacin: probabilidad de cometer un error de tipo I al contrastar una hiptesis. Se
denota por .
Error de tipo II: error que se comete cuando se decide aceptar una hiptesis nula que en realidad
es falsa. La probabilidad de cometer dicho error se denota por .
Potencia de un contraste: probabilidad de rechazar la hiptesis nula cuando es falsa. Por tanto,
la potencia es igual a 1 .
p-valor (o nivel crtico): es el nivel de signicacin ms pequeo al que una hiptesis nula
puede ser rechazada con el estadstico de contraste obtenido. Se rechaza H
0
si el p-valor es
claramente menor que ; se acepta H
0
si el p-valor es claramente mayor que ; y se repite el
contraste con una muestra diferente si el p-valor tiene un resultado prximo a .
Estadstica 61
6.2. Contraste sobre aleatoriedad de la muestra
Contraste de las Rachas sobre aleatoriedad de la muestra
contraste
H
0
: la muestra es aleatoria
H
1
: la muestra no es aleatoria
condiciones
Los datos son slo de dos tipos o pueden reducirse a dos tipos.
N
1
=nmero de datos de un tipo N
2
=nmero de datos del otro tipo.
(a) Si N
1
N
2
20 se calcula R =nmero de rachas (secuencias de
datos del mismo tipo).
(b) Si N
1
> 20 N
2
> 20 se calcula Z =
(R E(R)) 0
5
_
V (R)
, donde
estadsticos
E(R) =
2N
1
N
2
N
1
+N
2
+ 1,
V (R) =
2N
1
N
2
(2N
1
N
2
N
1
N
2
)
(N
1
+N
2
)
2
(N
1
+N
2
1)
.
regin crtica
(a) Si N
1
N
2
20, rechazamos H
0
si el valor de R est fuera del
intervalo de la tabla de los puntos crticos del test de las rachas.
(b) Si N
1
> 20 N
2
> 20, rechazamos H
0
si Z < Z
1/2
Z >
Z
1/2
.
62 J. Marn Fernndez
6.3. Contraste sobre normalidad
Contraste de DAgostino sobre Normalidad
contraste
H
0
: la variable aleatoria X observada en la poblacin es Normal
H
1
: la variable aleatoria X observada en la poblacin no es Normal
condiciones
Se extrae una muestra aleatoria simple de tamao n.
Se ordena la muestra de menor a mayor: X
1
X
2
X
n
.
estadstico
D
exp
=
n
i=1
i X
i
n + 1
2
n
i=1
X
i
n
_
n
n
i=1
X
2
i
_
n
i=1
X
i
_
2
, donde
n
i=1
i X
i
signica 1X
1
+ 2X
2
+ 3X
3
+ +nX
n
.
regin crtica
Rechazamos H
0
si el valor de D
exp
est fuera del intervalo de la tabla
de los puntos crticos del test de DAgostino.
Estadstica 63
Ejemplos que se van a resolver en clase
Ejemplo 6.1. En la tabla siguiente aparecen los datos de 10 bibliotecas, en las cuales se ha observado
las siguientes variables: nmero total de ttulos catalogados en un ao (X), nmero de horas
totales al ao que emplea la biblioteca en catalogar sus ttulos (Y ) y costo, en euros, de una
hora de catalogacin (Z).
x
i
y
i
z
i
1550 220 1575
1640 230 1450
1000 140 1640
950 135 1670
750 110 1710
1700 255 1250
1650 228 1480
1860 270 1525
1900 280 1850
900 130 1730
10
i=1
z
i
= 158
8
10
i=1
z
2
i
= 2547
965
a) Se puede aceptar, con un nivel de signicacin de = 0
i=1
y
i
= 663
12
i=1
y
2
i
= 44589
a) Se puede aceptar, con un nivel de signicacin de = 0
2513, 0
2420, 0
n
H
0
: =
0
Z < Z
1/2
H
1
: =
0
Z > Z
1/2
H
0
:
0
H
1
: <
0
Z < Z
1
H
0
:
0
H
1
: >
0
Z > Z
1
7.1.2. Varianza poblacional desconocida
condiciones estadstico contraste regin crtica
Muestra aleatoria
simple de tamao n.
desconocida.
Poblacin Normal
poblacin cualquiera
siempre que n 30.
T =
X
0
S/
n
H
0
: =
0
T < t
n1 , 1/2
H
1
: =
0
T > t
n1 , 1/2
H
0
:
0
H
1
: <
0
T < t
n1 , 1
H
0
:
0
H
1
: >
0
T > t
n1 , 1
67
68 J. Marn Fernndez
7.2. Contrastes sobre la varianza
7.2.1. Media poblacional conocida
condiciones estadstico contraste regin crtica
Muestra aleatoria simple:
X
1
, X
2
, . . . , X
n
.
conocida.
Poblacin Normal.
U =
n
i=1
(X
i
)
2
2
0
H
0
:
2
=
2
0
U <
2
n, /2
H
1
:
2
=
2
0
U >
2
n, 1/2
H
0
:
2
2
0
H
1
:
2
<
2
0
U <
2
n,
H
0
:
2
2
0
H
1
:
2
>
2
0
U >
2
n, 1
7.2.2. Media poblacional desconocida
condiciones estadstico contraste regin crtica
Muestra aleatoria
simple de tamao n.
desconocida.
Poblacin Normal.
V =
(n 1)S
2
2
0
=
ns
2
2
0
H
0
:
2
=
2
0
V <
2
n1 , /2
H
1
:
2
=
2
0
V >
2
n1 , 1/2
H
0
:
2
2
0
H
1
:
2
<
2
0
V <
2
n1 ,
H
0
:
2
2
0
H
1
:
2
>
2
0
V >
2
n1 , 1
Estadstica 69
Ejemplos que se van a resolver en clase
Ejemplo 7.1. Retomamos los datos del Ejemplo 6.1: En la tabla siguiente aparecen los datos de
10 bibliotecas, en las cuales se ha observado las siguientes variables: nmero total de ttulos
catalogados en un ao (X), nmero de horas totales al ao que emplea la biblioteca en catalogar
sus ttulos (Y ) y costo, en euros, de una hora de catalogacin (Z).
x
i
y
i
z
i
1550 220 1575
1640 230 1450
1000 140 1640
950 135 1670
750 110 1710
1700 255 1250
1650 228 1480
1860 270 1525
1900 280 1850
900 130 1730
10
i=1
z
i
= 158
8
10
i=1
z
2
i
= 2547
965
a) Se puede aceptar, con un nivel de signicacin de = 0
i=1
y
i
= 663
12
i=1
y
2
i
= 44589
a) Se puede aceptar, con un nivel de signicacin de = 0
88 usuarios
servidos semanalmente, con una cuasidesviacin tpica de 55
8 euros. Una muestra aleatoria simple de 61 libros en rstica con ilustraciones en color tiene
un precio medio de 69
6 euros.
a) Permiten los datos armar que los libros en rstica con ilustraciones en color son ms
caros que el resto de libros en rstica?
b) La varianza del precio de los libros en rstica con ilustraciones en color es mayor que la
del precio de los libros en rstica?
Problema 7.3. Se sabe que el nmero medio de veces que un artculo cientco es citado durante los 5
siguientes aos a su publicacin es de 6
3618. Si tomamos un
nivel de signicacin de = 0
9901 T > 1
9901.
En consecuencia, rechazamos H
0
y, por tanto, las bibliotecas de dicha regin no siguen la
recomendacin. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 7.2. Sea X=Precio de los libros en rstica con ilustraciones color.
a) Hacemos un contraste sobre , con desconocida. La hiptesis nula es H
0
: 63
4. El
valor del estadstico de contraste es T = 2
(14
8)
2
. El valor del estadstico de contraste es V = 75
0819. En consecuencia,
aceptamos H
0
y, por tanto, no se puede aceptar que la varianza del precio de los libros en
rstica con ilustraciones en color sea mayor que la varianza del precio de todos los libros
en rstica. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 7.3. Sea X=Nmero de veces que los artculos de medicina son citados du-
rante los cinco siguientes aos a su publicacin. Hacemos un contraste sobre , con desco-
nocida. La hiptesis nula es H
0
: 6
7626.
Si tomamos un nivel de signicacin de = 0
6669. En
consecuencia, rechazamos H
0
y, por tanto, se citan ms los artculos de medicina que el resto
de artculos cientcos (la media del nmero de citas es mayor). Finalmente, la respuesta a la
pregunta es S.
Solucin del problema 7.4. Sea X=Tiempo empleado en consultar bases de datos por ordenador.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H
0
:La muestra de datos de la variable X es aleatoria. El valor del estadstico de
contraste es R = 10. Como el nivel de signicacin es = 0
2568, 0
2
2
. El valor del estadstico de contraste es V = 28
1
,
2
desconocidas.
estadstico F =
S
2
1
S
2
2
con S
2
1
S
2
2
contraste
H
0
:
2
1
=
2
2
H
0
:
2
1
2
2
H
0
:
2
1
2
2
H
1
:
2
1
=
2
2
H
1
:
2
1
<
2
2
H
1
:
2
1
>
2
2
regin crtica
F <
1
F
n
2
1,n
1
1,1/2
F <
1
F
n
2
1,n
1
1,1
F > F
n
1
1,n
2
1,1
F > F
n
1
1,n
2
1,1/2
75
76 J. Marn Fernndez
8.2. Comparacin de dos medias
8.2.1. Muestras independientes y varianzas poblacionales conocidas
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales (o cualesquiera si n
1
, n
2
30).
1
,
2
conocidas.
estadstico
Z =
X
1
X
2
_
2
1
n
1
+
2
2
n
2
contraste
H
0
:
1
=
2
H
0
:
1
2
H
0
:
1
2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
Z < Z
1/2
Z < Z
1
Z > Z
1
Z > Z
1/2
8.2.2. Muestras independientes y varianzas poblacionales desconocidas e iguales
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales (o cualesquiera si n
1
, n
2
30).
1
,
2
desconocidas pero iguales.
estadstico
T =
X
1
X
2
(n
1
1)S
2
1
+ (n
2
1)S
2
2
n
1
+n
2
2
_
1
n
1
+
1
n
2
_
contraste
H
0
:
1
=
2
H
0
:
1
2
H
0
:
1
2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
T < t
n
1
+n
2
2 , 1/2
T < t
n
1
+n
2
2 , 1
T > t
n
1
+n
2
2 , 1
T > t
n
1
+n
2
2 , 1/2
Estadstica 77
8.2.3. Muestras independientes y varianzas poblacionales desconocidas y distintas
Muestras aleatorias simples independientes de tamaos n
1
y n
2
.
condiciones Poblaciones Normales (o cualesquiera si n
1
, n
2
30).
1
,
2
desconocidas y distintas.
estadstico
T =
X
1
X
2
_
S
2
1
n
1
+
S
2
2
n
2
grados de libertad g=n
o
natural ms prximo a
_
S
2
1
n
1
+
S
2
2
n
2
_
2
_
S
2
1
n
1
_
2
n
1
1
+
_
S
2
2
n
2
_
2
n
2
1
contraste
H
0
:
1
=
2
H
0
:
1
2
H
0
:
1
2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
T < t
g , 1/2
T < t
g , 1
T > t
g , 1
T > t
g , 1/2
8.2.4. Muestras apareadas
condiciones
Muestras aleatorias simples apareadas de tamao n.
La variable aleatoria D = X
1
X
2
es Normal (o cualquiera si n 30).
estadstico
T =
D
S
D
n
donde D y S
D
son la media y la cuasidesviacin tpica de D
contraste
H
0
:
1
=
2
H
0
:
1
2
H
0
:
1
2
H
1
:
1
=
2
H
1
:
1
<
2
H
1
:
1
>
2
regin crtica
T < t
n1 , 1/2
T < t
n1 , 1
T > t
n1 , 1
T > t
n1 , 1/2
78 J. Marn Fernndez
Ejemplos que se van a resolver en clase
Ejemplo 8.1. En la tabla siguiente aparece el precio, en euros, de una muestra aleatoria de 15 libros
que se prestan pocas veces (X
1
) y el precio, en euros, de una muestra aleatoria de 15 libros que
se prestan muchas veces (X
2
).
x
1i
x
2i
75 110
32 30
30 45
34 69
42 46
57 53
51 97
36 43
82 42
45 37
58 48
66 45
40 105
35 61
51 57
15
i=1
x
1i
= 734
15
i=1
x
2
1i
= 39510
15
i=1
x
2i
= 888
15
i=1
x
2
2i
= 61426
a) Se puede aceptar, con un nivel de signicacin de 0
i=1
x
1i
= 2141
30
i=1
x
2
1i
= 154627
30
i=1
x
2i
= 2567
30
i=1
x
2
2i
= 227713
a) Se puede aceptar, con un nivel de signicacin de 0
i=1
d
i
= 7
30
i=1
d
2
i
= 101
Se puede aceptar, con un nivel de signicacin de 0
5
euros para los primeros, y 52
i=1
d
i
= 51
30
i=1
d
2
i
= 1273
Estadstica 81
Podemos armar que hay diferencia signicativa entre los hombres y las mujeres de los ma-
trimonios en cuanto al nmero de veces que van a la biblioteca?
Problema 8.4. En la siguiente tabla aparece el nmero de usuarios diarios de la biblioteca A (variable
X
1
) y el nmero de usuarios diarios de la biblioteca B (variable X
2
) en 10 das elegidos al azar.
x
1i
x
2i
d
i
= x
1i
x
2i
51 45 6
72 58 14
35 32 3
70 56 14
75 68 7
98 76 22
100 88 12
80 69 11
72 57 15
90 75 15
10
i=1
d
i
= 119
10
i=1
d
2
i
= 1685
a) Se puede aceptar, con un nivel de signicacin de 0
4
2
. El valor del estadstico de contraste es Z = 0
8750.
Como el nivel de signicacin es = 0
6449. En con-
secuencia, aceptamos H
0
y, por tanto, no podemos aceptar que el precio medio de los libros de
ciencias fsicas sea mayor que el precio medio de los libros de ciencias sociales. Finalmente, la
respuesta a la pregunta es NO.
Solucin del problema 8.2.
1) En primer lugar tenemos que hacer un contraste de comparacin de dos varianzas pobla-
cionales ya que stas son desconocidas, y no sabemos si son iguales o distintas.
Debe ser X
1
=sueldo anual de las mujeres documentalistas y X
2
=sueldo anual de los
hombres documentalistas, pues la cuasidesviacin tpica muestral en las mujeres es mayor
que en los hombres.
Hacemos el contraste de comparacin de dos varianzas en el que la hiptesis nula es H
0
:
2
1
=
2
2
. Las muestras son independientes y se supone que las dos variables aleatorias
son normales. El valor del estadstico de contraste es F = 1
4249 F > 2
6522. En
consecuencia, aceptamos H
0
y, por tanto, las varianzas poblacionales son desconocidas
pero iguales.
2) En segundo lugar hacemos un contraste de comparacin de dos medias en el que la hi-
ptesis nula es H
0
:
1
2
. Las muestras son independientes y las desviaciones tpi-
cas poblacionales son desconocidas pero iguales. El valor del estadstico de contraste es
T = 2
0452 T > 2
2513, 0
1
=
2
. Las muestras son apareadas. El valor del estadstico de contraste es T =
6
2622 T > 2