Está en la página 1de 83

Dra.

Josefa Marn Fernndez


Departamento de Estadstica e Investigacin Operativa
Universidad de Murcia

Estadstica
Manual de teora y problemas

Licenciatura en Documentacin
Curso 2010-11

Contenidos

1. Tabulacin y representacin grfica de los datos

2. Medidas descriptivas de los datos

19

3. Relacin entre dos variables cuantitativas

31

4. Probabilidad

39

5. Modelos de probabilidad

49

6. Contrastes no paramtricos en una poblacin

59

7. Contrastes paramtricos en una poblacin

67

8. Contrastes paramtricos en dos poblaciones

75

1
Tabulacin y representacin grfica de
los datos

Resumen del tema


1.1. Introduccin a la Estadstica
Estadstica: ciencia que se ocupa de recoger, clasificar, representar y resumir los datos de muestras,
y de hacer inferencias (extraer conclusiones) acerca de las poblaciones de las que stas proceden.
1. Estadstica descriptiva: parte de la estadstica que se ocupa de recoger, clasificar, representar y
resumir los datos de las muestras.
2. Estadstica inferencial: parte de la estadstica que se ocupa de llegar a conclusiones (inferencias)
acerca de las poblaciones a partir de los datos de las muestras extradas de ellas.
CONCEPTOS GENERALES:

Poblacin: conjunto de individuos con propiedades comunes sobre los que se realiza una investigacin de tipo estadstico.
Muestra: subconjunto de la poblacin.
Tamao muestral: nmero de individuos que forman la muestra.
Muestreo: proceso de obtencin de muestras representativas de la poblacin.
Variable: propiedad o cualidad que puede manifestarse bajo dos o ms formas distintas en un
individuo de una poblacin.
Modalidades, categoras o clases: distintas formas en que se manifiesta una variable.
Las variables se clasifican en:
5

J. Marn Fernndez

1. Cuantitativas: se expresan numricamente. Se clasifican en:


a) Discretas: toman valores numricos aislados, por lo que, fijados dos consecutivos, no
pueden tomar ningn valor intermedio.
b) Continuas: pueden tomar cualquier valor dentro de unos lmites, por lo que entre
dos valores cualesquiera, por prximos que sean, siempre pueden encontrarse valores
intermedios.
2. Cualitativas: no se expresan numricamente. Se clasifican en:
a) Ordinales: admiten una ordenacin de menor a mayor aunque sus resultados no son
numricos.
b) Nominales: no admiten una ordenacin de menor a mayor.

1.2. Tabulacin de los datos


Los datos se agrupan en clases si son cualitativos o discretos, o en intervalos de clase (de igual
longitud, generalmente) si son continuos (o discretos con muchos valores distintos).
Nmero adecuado de intervalos: k = 1 + 30 322 log n, siendo n el nmero total de datos. Si los
datos no estn agrupados en intervalos, tambin denotaremos por k al nmero de datos (o de
categoras) diferentes.
Amplitud del intervalo de clase (`i , `i+1 ]: di = `i+1 `i .
Marca de clase del intervalo (`i , `i+1 ]: xi =

`i + `i+1
.
2

Frecuencia absoluta de la clase i-sima: fi =nmero de observaciones contenidas dentro de ella.


Frecuencia relativa de la clase i-sima: hi =

fi
.
n

Porcentaje de la clase i-sima: %i = 100 hi .


Frecuencia absoluta acumulada de la clase i-sima: Fi = f1 + f2 + + fi .
Frecuencia relativa acumulada de la clase i-sima: Hi = h1 + h2 + + hi =

Fi
.
n

Distribucin de frecuencias: tabla conteniendo las distintas clases y las frecuencias correspondientes a cada una de ellas.

1.3. Representaciones grficas


1. Variables cualitativas
a) Diagrama de barras: se sitan en el eje horizontal las clases y sobre cada una de ellas se
levanta un segmento rectilneo (o un rectngulo) de altura igual a la frecuencia (absoluta
o relativa) o al porcentaje de cada clase.
b) Grfico de sectores: se divide el rea de un crculo en sectores circulares de ngulos proporcionales a las frecuencias absolutas de las clases.

Estadstica

2. Variables cuantitativas con datos no agrupados en intervalos


a) Diagrama de barras: se sitan en el eje horizontal los diferentes resultados de la variable
y sobre cada uno de ellos se levanta un segmento rectilneo de altura igual a la frecuencia
(absoluta o relativa) o al porcentaje de cada resultado.
b) Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
los distintos valores de la variable y en el eje vertical sus correspondientes frecuencias (no
acumuladas), uniendo despus los puntos mediante segmentos rectilneos.
c) Grfico de frecuencias acumuladas: es la representacin grfica de las frecuencias acumuladas, para todo valor numrico. Siempre es una grfica en forma de escalera.
3. Variables cuantitativas con datos agrupados en intervalos
a) Histograma: se sitan en el eje horizontal los intervalos de clase y sobre cada uno se
levanta un rectngulo de rea igual o proporcional a la frecuencia absoluta.
b) Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal las
marcas de clase de los intervalos y en el eje vertical sus correspondientes frecuencias (no
acumuladas), uniendo despus los puntos mediante segmentos rectilneos.
c) Grfico de frecuencias acumuladas: es la representacin grfica de las frecuencias acumuladas para todo valor numrico, teniendo en cuenta que dentro de cada intervalo de clase
se supone que el nmero de observaciones se distribuye uniformemente. Siempre es un
polgono.

J. Marn Fernndez

Ejemplos que se van a resolver en clase


En este tema vamos a utilizar los resultados de las tres variables siguientes: sexo, edad y altura,
en metros, observadas en todos/as los/as alumnos/as que asisten hoy a clase.
Ejemplo 1.1. Con los datos de la variable sexo:
a) Determinar la distribucin de frecuencias absolutas.
b) Determinar la distribucin de frecuencias relativas (o proporciones).
c) Determinar la distribucin de porcentajes.
Ejemplo 1.2. Con los datos de la variable edad:
a) Determinar la distribucin de frecuencias absolutas, frecuencias relativas y porcentajes.
b) Determinar la distribucin de frecuencias acumuladas absolutas.
c) Determinar la distribucin de frecuencias acumuladas relativas (o proporciones acumuladas).
d) Determinar la distribucin de porcentajes acumulados.
Ejemplo 1.3. Con los datos de la variable altura:
a) Agrupar los datos en intervalos de la misma amplitud.
b) A partir de la agrupacin anterior determinar la distribucin de frecuencias absolutas,
relativas, acumuladas absolutas y acumuladas relativas.
Ejemplo 1.4. Dibujar el diagrama de barras de frecuencias absolutas de los datos de la variable sexo.
Ejemplo 1.5. La siguiente tabla muestra el pas de procedencia de los documentos primarios de los
resmenes contenidos en un determinado volumen de las tres revistas siguientes: Computer
Abstracts, Lead Abstracts y Sociological Abstracts. Dibujar el diagrama de barras conjunto de
frecuencias absolutas.
Tabla 1.4

pas de

Computer

Lead

Sociological

procedencia

Abstracts

Abstracts

Abstracts

Pases Bajos

42

34

22

Francia

55

76

Alemania

162

37

14

Gran Bretaa

310

147

24

EEUU

966

265

552

Rusia

191

37

42

Otros

265

79

239

1.991

606

969

suma

Estadstica

Ejemplo 1.6. Dibujar el grfico de sectores de los datos de la variable sexo.


Ejemplo 1.7. Dibujar el diagrama de barras de frecuencias absolutas de los datos de la variable edad.
Ejemplo 1.8. Dibujar el polgono de frecuencias relativas de los datos de la variable edad.
Ejemplo 1.9. Dibujar el grfico de frecuencias acumuladas absolutas de los datos de la variable edad.
Ejemplo 1.10. Dibujar el histograma de los datos de la variable altura agrupados en intervalos de la
misma amplitud.
Ejemplo 1.11. Dibujar el polgono de frecuencias absolutas de los datos de la variable altura agrupados en intervalos de la misma amplitud.
Ejemplo 1.12. Dibujar el polgono de frecuencias acumuladas absolutas de los datos de la variable
altura agrupados en intervalos de la misma amplitud.

10

J. Marn Fernndez

Problemas propuestos
Problema 1.1. El gasto de una biblioteca, en euros, durante un ao determinado, es:
Gasto en personal

6.570

Gasto en libros

3.450

Otros gastos

2.380

Hacer un diagrama de barras de frecuencias absolutas y un grfico de sectores.


Problema 1.2. Una biblioteca contiene una cantidad de estantes de libros en varios idiomas tal como
muestra la siguiente tabla:
Idioma

No de estantes

Francs

78

Alemn

47

Ruso

20

Espaol

30

Determinar la distribucin de frecuencias relativas. Hacer un diagrama de barras de frecuencias


relativas y un grfico de sectores.
Problema 1.3. La estadstica de fotocopias de una biblioteca, durante un ao determinado, es la
siguiente:
Reproduccin de catlogos

16.110

Trabajo del personal de la biblioteca

63.350

Prstamo interbibliotecario

2.600

Copias para usuarios de la biblioteca

43.540

Determinar la distribucin de porcentajes. Hacer un diagrama de barras de porcentajes y un


grfico de sectores.
Problema 1.4. La estadstica de fotocopias de 4 bibliotecas (A, B, C y D), durante un ao, est
recogida en la siguiente tabla:
A

Reproduccin de catlogos

16.110

3.640

3.400

Trabajo del personal de la biblioteca

63.350

11.360

3.080

5.500

2.600

1.090

560

250

43.540

58.040

1.980

Prstamo interbibliotecario
Copias para usuarios de la biblioteca

Hacer un diagrama de barras conjunto de frecuencias absolutas.

11

Estadstica

Problema 1.5. El nmero de citas en diferentes campos de investigacin y en distintos aos viene
dado en la tabla siguiente:
1970

1980

1990

Sociologa

330

414

547

Economa

299

393

295

Poltica

115

357

137

Psicologa

329

452

258

Hacer un diagrama de barras conjunto de frecuencias relativas.


Problema 1.6. El nmero de descriptores (keywords) de 72 artculos de investigacin viene dado por:
No de descriptores

10

11

12

13

14

No de artculos

12

10

Hacer un diagrama de barras de frecuencias absolutas.


Problema 1.7. La altura, en centmetros, de una coleccin de libros es la siguiente:
Altura

15

16

17

18

19

20

21

22

23

24

25

26

27

N de libros

Determinar la distribucin de frecuencias relativas y hacer un polgono de frecuencias relativas.


Problema 1.8. El nmero de palabras por lnea de una pgina de un libro viene dado por:
No de palabras
o

N de lneas

10

11

12

13

14

15

16

17

11

14

Determinar la distribucin de frecuencias acumuladas absolutas y hacer el grfico de frecuencias acumuladas absolutas.
Problema 1.9. Los siguientes datos corresponden al nmero de palabras por resumen de los artculos
cientficos de autores espaoles que han publicado en una determinada revista de investigacin
durante un ao concreto:
10

15

16

20

17

19

21

14

13

19

11

14

17

19

20

20

22

15

13

12

12

15

17

19

18

23

22

17

21

20

15

18

16

18

12

17

14

15

17

15

Determinar la distribucin de frecuencias absolutas, relativas, acumuladas absolutas y acumuladas relativas. Hacer un diagrama de barras de frecuencias absolutas, un polgono de frecuencias
relativas y un grfico de frecuencias acumuladas relativas.

12

J. Marn Fernndez

Problema 1.10. Los siguientes datos agrupados en intervalos se refieren al nmero de llamadas telefnicas recibidas en el servicio de informacin de una biblioteca pblica durante 45 das
elegidos al azar:
No de llamadas

(9,15]

(15,21]

(21,27]

(27,33]

(33,39]

(39,45]

(45,51]

14

10

No de das

Dibujar el histograma, el polgono de frecuencias y el grfico de frecuencias acumuladas absolutas.


Problema 1.11. El nmero de socios de 84 bibliotecas pblicas viene dado por:
1.995

1.050

2.500

3.000

3.000

1.500

2.500

995

995

3.000

3.000

1.200

1.450

2.500

2.750

3.000

1.600

3.000

2.250

2.750

1.800

1.250

3.250

1.800

1.750

3.250

2.100

4.500

2.100

995

3.500

2.500

1.700

2.100

1.250

3.500

3.250

1.200

950

3.250

1.700

3.000

1.500

3.500

1.500

995

2.750

3.500

2.150

1.750

2.000

2.200

1.750

2.800

750

2.000

1.500

3.500

4.500

1.950

3.000

2.200

1.600

1.200

2.400

750

1.850

2.400

1.250

3.000

800

2.750

4.000

2.050

5.500

3.750

950

995

3.750

1.500

1.800

1.200

2.500

1.250

Aunque la variable es cuantitativa discreta, se desea agrupar los datos en intervalos de la misma
amplitud. A partir de esta agrupacin, determinar la distribucin de frecuencias y dibujar el
histograma, el polgono de frecuencias y el grfico de frecuencias acumuladas relativas.

13

Estadstica

Soluciones de los problemas propuestos


Solucin del problema 1.1. La variable estadstica es el tipo o modalidad de gasto. Es cualitativa
nominal. Tiene 3 categoras, clases o modalidades. Cada vez que se realiza un gasto en la
biblioteca se observa dicha variable (cada individuo es cada gasto que se hace).
fi

ngulos

Gasto en personal

6570

1900 74o

Gasto en libros

3450

1000 16o

Otros gastos

2380

690 10o

12400

3600 00o

Categoras (Tipos de gasto)

suma

Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal las categoras


y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia absoluta,
fi .
Grfico de sectores: se divide el rea de un crculo en sectores circulares de ngulos iguales a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.2. La variable estadstica es el idioma. Es cualitativa nominal. Tiene 4 categoras, clases o modalidades. Los individuos a los que se les observa dicha variable son los
estantes (se supone que en cada estante slo hay libros en el mismo idioma; es decir, en un
estante no se mezclan dos idiomas).
Categoras (Idiomas)

fi

hi

ngulos

Francs

78

00 4457

1600 452o

Alemn

47

00 2686

960 696o

Ruso

20

00 1143

410 148o

Espaol

30

00 1714

610 704o

175

10 0000

3600 000o

suma

Diagrama de barras de frecuencias relativas: se sitan en el eje horizontal las categoras


y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia relativa,
hi .
Grfico de sectores: se divide el rea de un crculo en sectores circulares de ngulos iguales a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.3. La variable estadstica es el tipo de fotocopia (con qu fin est hecha?).
Es cualitativa nominal. Tiene 4 categoras, clases o modalidades. Los individuos a los que se les
observa dicha variable son todas y cada una de las fotocopias que se realizan en la mencionada
biblioteca durante el determinado ao.

14

J. Marn Fernndez

fi

%i

ngulos

Reproduccin de catlogos

16110

120 83

460 188o

Trabajo del personal de la biblioteca

63350

500 44

1810 584o

2600

20 07

70 452o

43540

340 67

1240 812o

125600

1000 00

3600 000o

Categoras (Tipos de fotocopia)

Prstamo interbibliotecario
Copias para usuarios de la biblioteca
suma

Diagrama de barras de porcentajes: se sitan en el eje horizontal las categoras y sobre


cada una de ellas se levanta un rectngulo de altura igual al porcentaje, %i .
Grfico de sectores: se divide el rea de un crculo en sectores circulares de ngulos iguales a los que aparecen en la ltima columna de la tabla anterior.
Solucin del problema 1.4. Tenemos 4 variables estadsticas cualitativas nominales cuyas categoras
son las mismas (Reproduccin de catlogos, Trabajo del personal de la biblioteca, Prstamo
interbibliotecario y Copias para usuarios de la biblioteca). Cada una de estas cuatro variables
es totalmente anloga a la variable definida en el problema anterior.
A

fi

fi

fi

fi

Reproduccin de catlogos

16 110

3 640

3 400

Trabajo del personal de la biblioteca

63 350

11 360

3 080

5 500

2 600

1 090

560

250

43 540

58 040

1 980

Categoras (Tipos de fotocopia)

Prstamo interbibliotecario
Copias para usuarios de la biblioteca

Diagrama de barras conjunto de frecuencias absolutas: se sitan en el eje horizontal las cuatro
categoras y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia
absoluta, fi , con distinto color o trama de relleno para cada una de las cuatro bibliotecas.
Solucin del problema 1.5. Tenemos 3 variables estadsticas cualitativas nominales cuyas categoras
son las mismas (sociologa, economa, poltica y psicologa). Por ejemplo, la primera de las
variables es rea de investigacin de las citas que aparecen en los artculos publicados en
1970. Los individuos a los que se les observa dicha variable son todas y cada una de las citas
que aparecen en los artculos publicados en 1970. Las otras dos variables se definen de forma
anloga (. . . 1980 y . . . 1990).
1970
Categoras (reas de investigacin)

1980

1990

fi

hi

fi

hi

fi

hi

Sociologa

330

00 3075

414

00 2562

547

00 4422

Economa

299

00 2787

393

00 2432

295

00 2385

Poltica

115

00 1072

357

00 2209

137

00 1108

Psicologa

329

00 3066

452

00 2797

258

00 2086

1 073

10 0000

1 616

10 0000

1 237

10 0000

suma

15

Estadstica

Diagrama de barras conjunto de frecuencias relativas: se sitan en el eje horizontal las cuatro
categoras y sobre cada una de ellas se levanta un rectngulo de altura igual a la frecuencia
relativa, hi , con distinto color o trama de relleno para cada uno de los tres aos.
Solucin del problema 1.6. La variable estadstica es el nmero de descriptores o keywords. Es
cuantitativa discreta. Los individuos a los que se les observa la variable son todos y cada uno
de los 72 artculos de investigacin de la muestra.
xi

10

11

12

13

14

fi

12

10

Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal los xi y sobre cada
uno de ellos se levanta un segmento rectilneo de altura igual a la correspondiente frecuencia
absoluta, fi .
Solucin del problema 1.7. La variable estadstica es la altura de los libros. Es cuantitativa continua.
Los individuos a los que se les observa la variable son los 31 libros de la muestra.

xi

15

16

17

18

19

20

21

22

23

24

25

26

27

fi

hi

0 032 0 000 0 097

0 129

0 129

0 065 0 129

0 161

0 065

0 065 0 065

0 032

00 032

Polgono de frecuencias relativas: se sitan los puntos que resultan de tomar en el eje horizontal
los distintos valores de la variable, xi , y en el eje vertical sus correspondientes frecuencias
relativas, hi , uniendo despus los puntos mediante segmentos rectilneos.
Solucin del problema 1.8. La variable estadstica es el nmero de palabras por lnea. Es cuantitativa discreta. Los individuos a los que se les observa la variable son todas y cada una de las 48
lneas de la pgina del libro.
xi

10

11

12

13

14

15

16

17

fi

11

14

Fi

16

27

41

44

46

47

48

Grfico de frecuencias acumuladas absolutas: es la representacin grfica de las frecuencias


acumuladas absolutas, F , para todo valor numrico, x. Es una grfica en forma de escalera".
Solucin del problema 1.9. La variable estadstica es el nmero de palabras por resumen. Es cuantitativa discreta. Los individuos a los que se les observa la variable son los artculos cientficos
de autores espaoles que han publicado en la determinada revista de investigacin durante el
determinado ao.

16

J. Marn Fernndez

xi

fi

hi

Fi

Hi

10

00 025

00 025

11

00 025

00 050

12

00 075

00 125

13

00 050

00 175

14

00 075

10

00 250

15

00 150

16

00 400

16

00 050

18

00 450

17

00 150

24

00 600

18

00 075

27

00 675

19

00 100

31

00 775

20

00 100

35

00 875

21

00 050

37

00 925

22

00 050

39

00 975

23

00 025

40

10 000

Diagrama de barras de frecuencias absolutas: se sitan en el eje horizontal los xi , y sobre


cada uno de ellos se levanta un segmento rectilneo de altura igual a la correspondiente
frecuencia absoluta, fi .
Polgono de frecuencias relativas: se sitan los puntos que resultan de tomar en el eje
horizontal los distintos valores de la variable, xi , y en el eje vertical sus correspondientes
frecuencias relativas, hi , uniendo despus los puntos mediante segmentos rectilneos.
Grfico de frecuencias acumuladas relativas: es la representacin grfica de las frecuencias acumuladas relativas, H, para todo valor numrico, x. Es una grfica en forma de
escalera".
Solucin del problema 1.10. La variable estadstica es el nmero de llamadas telefnicas recibidas
en el servicio de informacin de una biblioteca pblica. Es cuantitativa discreta. Los individuos
a los que se les observa la variable son los das.
(`i , `i+1 ]

(9,15]

(15,21]

(21,27]

(27,33]

(33,39]

(39,45]

(45,51]

fi

14

10

xi

12

18

24

30

36

42

48

Fi

14

28

38

44

45

Histograma: se sitan en el eje horizontal los intervalos de clase, (`i , `i+1 ], y sobre cada
uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. Como los
intervalos tienen la misma amplitud, basta con hacer las alturas de los rectngulos iguales
a las frecuencias absolutas, fi .
Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
las marcas de clase, xi , y en el eje vertical sus correspondientes frecuencias absolutas, fi ,
uniendo despus los puntos mediante segmentos rectilneos.

17

Estadstica

Grfico de frecuencias acumuladas absolutas: se sitan los puntos que resultan de tomar
en el eje horizontal los extremos superiores de los intervalos de clase, `i+1 , y en el eje vertical sus correspondientes frecuencias acumuladas absolutas, Fi , uniendo despus dichos
puntos mediante segmentos rectilneos.
Solucin del problema 1.11. La variable estadstica es el nmero de socios de la biblioteca. Es cuantitativa discreta. Los individuos a los que se les observa la variable son las bibliotecas pblicas.
(`i , `i+1 ]

fi

xi

Hi

(675,1 375]

19

1 025

00 2262

(1 375,2 075]

22

1 725

00 4881

(2 075,2 775]

18

2 425

00 7024

(2 775,3 475]

14

3 125

00 8690

(3 475,4 175]

3 825

00 9643

(4 175,4 875]

4 525

00 9881

(4 875,5 575]

5 225

10 0000

Histograma: se sitan en el eje horizontal los intervalos de clase, (`i , `i+1 ], y sobre cada
uno se levanta un rectngulo de rea proporcional a la frecuencia absoluta. Como los
intervalos tienen la misma amplitud, basta con hacer las alturas de los rectngulos iguales
a las frecuencias absolutas, fi .
Polgono de frecuencias: se sitan los puntos que resultan de tomar en el eje horizontal
las marcas de clase, xi , y en el eje vertical sus correspondientes frecuencias absolutas, fi ,
uniendo despus los puntos mediante segmentos rectilneos.
Grfico de frecuencias acumuladas relativas: se sitan los puntos que resultan de tomar en
el eje horizontal los extremos superiores de los intervalos de clase, `i+1 , y en el eje vertical
sus correspondientes frecuencias acumuladas relativas, Hi , uniendo despus dichos puntos
mediante segmentos rectilneos.

2
Medidas descriptivas de los datos

Resumen del tema


2.1. Medidas de posicin
Son valores que nos sirven para indicar la posicin alrededor de la cual se distribuyen las observaciones.
2.1.1. Mediana
La mediana es un valor que deja a su izquierda el 50 % de los datos de la muestra ordenada. La
denotaremos por Me . Su unidad de medida es la misma que la de la variable.
a) Clculo con datos no agrupados en intervalos:
n impar: Me es el valor central de la muestra ordenada.
n par: Me es el punto medio de los dos valores centrales de la muestra ordenada.
b) Clculo con datos agrupados en intervalos:
Intervalo mediano: es el que contiene a la mediana. Es el primer intervalo cuya frecuencia
n
absoluta acumulada es igual o mayor que .
2
n
Fi1
Me = `i + 2
(`i+1 `i ) ,
fi
donde (`i , `i+1 ] es el intervalo mediano, fi es su frecuencia absoluta y Fi1 es la frecuencia
absoluta acumulada del intervalo anterior al mediano.
19

20

J. Marn Fernndez

2.1.2. Cuantiles o percentiles


El cuantil o percentil al r % es un valor que deja por debajo el r % de los datos de la muestra
ordenada de menor a mayor. Lo denotaremos por Cr . Su unidad de medida es la misma que la de la
variable.
CASOS PARTICULARES:

Cuartiles:
1er cuartil
o

= Q1 = C25

2 cuartil

Q2 = C50 = Me

3er cuartil

= Q3 = C75

Deciles:
1er decil

= D1 = C10

2o decil
..
.

= D2
..
.

9o decil

= D9 = C90

= C20
..
.

Si los datos estn agrupados en intervalos de clase, el intervalo que contiene a Cr es el primero
cuya frecuencia acumulada absoluta es igual o mayor que
nr
100
y el cuantil al r % se determina mediante la frmula:
nr
Fi1
Cr = `i + 100
(`i+1 `i ) ,
fi
donde (`i , `i+1 ] es el intervalo que contiene a Cr , fi es su frecuencia absoluta y Fi1 es la frecuencia
absoluta acumulada del intervalo anterior.
2.1.3. Media
Llamaremos media a la media aritmtica. (Hay otras medias, como, por ejemplo, la media geomtrica, la media cuadrtica y la media armnica.)
Si la variable se denota por X, la media de los datos de una muestra ser denotada por x. (Si
tenemos los datos de toda la poblacin, entonces representaremos la media por .)
a) Clculo con datos no agrupados en intervalos:
Si x1 , x2 , . . . , xn son los n valores de la muestra, entonces:
n
X

x=

i=1

xi
.

21

Estadstica

Si los datos son x1 , x2 , . . . , xk , y aparecen con frecuencias absolutas respectivas f1 , f2 , . . . , fk ,


entonces:
k
X

x=

xi f i

i=1

De las frmulas anteriores se deduce que la unidad de medida de x es la misma que la de la


variable.
b) Clculo con datos agrupados en intervalos:
La frmula es la misma que la anterior, siendo xi la marca de clase del intervalo (`i , `i+1 ] y fi
su correspondiente frecuencia absoluta.

2.2. Medidas de dispersin


Miden el grado de separacin de las observaciones entre s o con respecto a ciertas medidas de
posicin, como la media o la mediana.
2.2.1. Recorrido, rango o amplitud total
La frmula del recorrido (tambin denominado rango o amplitud total) es:
R = xmax xmin .
De la frmula anterior se deduce que la unidad de medida de R es la misma que la de la variable.
El recorrido nos mide el grado de variabilidad de los datos de la muestra: cuanto ms grande sea
el resultado del recorrido, ms dispersos estn los datos.
2.2.2. Recorrido intercuartlico
La frmula del recorrido intercuartlico es:
RI = Q3 Q1 = C75 C25 .
De la frmula anterior se deduce que la unidad de medida de RI es la misma que la de la variable.
Cuanto ms pequeo sea el resultado del recorrido intercuartlico, menos dispersin respecto de la
mediana hay; es decir, los datos estn menos alejados de la mediana y, por tanto, la mediana es ms
representativa. Pero, cundo podramos decir que el valor del recorrido intercuartlico es pequeo?
. . . Como entre el primer cuartil, Q1 , y el tercer cuartil, Q3 , hay exactamente la mitad de los datos,
podramos comparar la mitad del recorrido total con el recorrido intercuartlico, y podramos decir
que la mediana es representativa si RI es menor o igual que R/2.

22

J. Marn Fernndez

2.2.3. Varianza y desviacin tpica


I) Varianza
Si la variable se denota por X, la varianza de los datos procedentes de una muestra ser denotada
por s2x . (Si disponemos de los datos de toda la poblacin, entonces representaremos la varianza
por 2 .)
La frmula de la varianza es:
n
X

s2x =

(xi x)

k
X

i=1

(xi x)2 fi

i=1

Una frmula equivalente es:


n
X

s2x =

k
X

x2i

i=1

x2 =

x2i fi

i=1

x2 .

De las frmulas anteriores se deduce que la unidad de medida de s2x es la unidad de la variable
elevada al cuadrado.
II) Desviacin tpica
Si la variable se denota por X, la desviacin tpica de los datos procedentes de una muestra ser
denotada por sx . (Si disponemos de los datos de toda la poblacin, entonces representaremos la
desviacin tpica por .)
La frmula de la desviacin tpica es:
sx =

Varianza .

De la frmula anterior se deduce que la unidad de medida de sx es la misma que la de la variable.


Cuanto ms pequeo sea el resultado de la desviacin tpica, menos dispersin respecto de
la media hay; es decir, los datos estn menos alejados de la media y, por tanto, la media es
ms representativa. Pero, cundo podramos decir que el resultado de la desviacin tpica es
pequeo? . . . Como entre x s y x + s hay, para la mayora de las variables, ms de las dos
terceras partes de los datos, podramos comparar la amplitud del intervalo (x s, x + s) con los
dos tercios del recorrido total; es decir, podramos comparar el resultado de 2 s con el resultado
de 2 R/3, lo que es lo mismo que comparar s con R/3. En consecuencia, podramos decir que
la media es representativa si s es menor o igual que R/3.
III) Cuasivarianza o varianza corregida
Se utiliza, sobre todo, en Estadstica Inferencial.
Si la variable se denota por X, la cuasivarianza o varianza corregida de los datos procedentes
de una muestra ser denotada por Sx2 .
La frmula de la cuasivarianza es:

23

Estadstica

n
X

Sx2 =

k
X

(xi x)

i=1

n1

(xi x)2 fi

i=1

n1

Una frmula equivalente es:


n
X

Sx2 =

!
x2i

k
X

nx2

i=1

n1

!
x2i fi

i=1

n1

nx2
.

De las frmulas anteriores se deduce que la unidad de medida de Sx2 es la unidad de la variable
elevada al cuadrado.
Relacin entre la varianza y la cuasivarianza:
n s2x = (n 1) Sx2 .
IV) Cuasidesviacin tpica o desviacin tpica corregida
Se utiliza, sobre todo, en Estadstica Inferencial.
La frmula de la cuasidesviacin tpica es:
Sx =

Cuasivarianza .

De la frmula anterior se deduce que la unidad de medida de Sx es la misma que la de la


variable.

24

J. Marn Fernndez

Ejemplos que se van a resolver en clase


Ejemplo 2.1. Observamos la edad de 8 alumnos de clase y calculamos la mediana.
Ejemplo 2.2. Observamos la edad de 9 alumnos de clase y calculamos la mediana.
Ejemplo 2.3. La distribucin de frecuencias de las calificaciones de 13 alumnos en un determinado
examen viene dada por la tabla siguiente. Calcular la mediana.
Tabla 2.1

xi

fi

Fi

10

13

Ejemplo 2.4. La distribucin de frecuencias de las calificaciones de 12 alumnos en un determinado


examen viene dada por la tabla siguiente. Calcular la mediana.
Tabla 2.2

xi

fi

Fi

10

12

Ejemplo 2.5. En una biblioteca se observa el tiempo (en das) que tardan los proveedores en suministrar las peticiones que la biblioteca les hace:
Tabla 2.3
No de das
No

6 7 8 9 10 11 12 13 14

de proveedores 1 2 3 4

a) Cul es la variable estadstica que se observa? De qu tipo es dicha variable? Cules son
los individuos a los que se les observa dicha variable? Cul es el tamao muestral?
b) Calcular la mediana. Interpretar el resultado.
Ejemplo 2.6. En una muestra de libros se observa el nmero de referencias bibliogrficas que contienen. Nos han proporcionado los datos agrupados en intervalos:

25

Estadstica

Tabla 2.4
No de referencias

No de libros

(3,9]

(9,15]

17

(15,21]

12

(21,27]

(27,33]

(33,39]

a) Cul es la variable estadstica que se observa? De qu tipo es dicha variable? Cules son
los individuos a los que se les observa dicha variable? Cul es el tamao muestral?
b) Calcular el valor aproximado de la mediana a partir del grfico de frecuencias acumuladas
absolutas.
c) Calcular la mediana mediante la frmula. Interpretar el resultado.
Ejemplo 2.7. Con los datos de la Tabla 2.3 calcular: el primer decil, el primer cuartil, el tercer cuartil
y el noveno decil. Interpretar los resultados.
Ejemplo 2.8. Con los datos de la Tabla 2.4 calcular el primer y el tercer cuartil. Interpretar los resultados.
Ejemplo 2.9. Calcular la media de los datos de la Tabla 2.3.
Ejemplo 2.10. Calcular la media de los datos de la Tabla 2.4.
Ejemplo 2.11. Cul es el grado de dispersin de los datos de la Tabla 2.3? Razonar la respuesta.
Ejemplo 2.12. Cul es el grado de dispersin de los datos de la Tabla 2.4? Razonar la respuesta.
Ejemplo 2.13. Con los datos de la Tabla 2.3 cul es el grado de representatividad de la mediana:
muy fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.14. Con los datos de la Tabla 2.4 cul es el grado de representatividad de la mediana:
muy fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.15. Con los datos de la Tabla 2.3 cul es el grado de representatividad de la media: muy
fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.
Ejemplo 2.16. Con los datos de la Tabla 2.4 cul es el grado de representatividad de la media: muy
fuerte, fuerte, regular, dbil o muy dbil? Razonar la respuesta.

26

J. Marn Fernndez

Problemas propuestos
Problema 2.1. Se pregunt a varias personas, elegidas al azar, el nmero de peridicos distintos que
lean trimestralmente, y se obtuvo las siguientes respuestas:
No de peridicos

No de lectores

13

18

15

11

a) Dibujar el grfico de frecuencias acumuladas absolutas. Calcular la mediana.


b) Cul es el grado de representatividad de la mediana: muy poco representativa, poco,
regular, bastante o muy representativa?
Problema 2.2. El nmero de personas que visitan diariamente una biblioteca fue observado durante
74 das elegidos al azar, y los resultados fueron:
No de personas
o

N de das

47

59

62

64

71

76

78

80

10

17

16

10

a) Hallar la media y la mediana.


b) Calcular la medida de dispersin adecuada para medir el grado de representatividad de la
media. Interpretar su resultado.
c) Calcular la medida de dispersin adecuada para medir el grado de representatividad de la
mediana. Interpretar su resultado.
Problema 2.3. La edad de las personas que aprobaron la oposicin de auxiliar de biblioteca en Espaa en un determinado ao tiene la siguiente distribucin:
Edad

[20,25]

(25,30]

(30,35]

(35,40]

(40,50]

(50,60]

41

123

44

13

No de personas

a) Dibujar el grfico de frecuencias acumuladas absolutas. A partir de este grfico, determinar el valor aproximado de la mediana. Determinar, despus, el valor de la mediana con
la frmula estudiada.
b) Cul es el grado de representatividad de la mediana? Justificar la respuesta.
Problema 2.4. Los siguientes datos corresponden al nmero mensual de nuevos socios de una determinada biblioteca:
27

40

12

30

16

20

21

30

12

45

18

25

22

35

24

37

12

21

35

17

21

27

14

15

25

45

12

24

a) Determinar la distribucin de frecuencias y dibujar el polgono de frecuencias absolutas.


b) Calcular la media y la mediana.

27

Estadstica

Problema 2.5. El nmero de veces que fueron consultados 60 artculos de investigacin archivados
en una hemeroteca, durante un determinado ao, viene dado por la siguiente tabla:
8

25

20

19

21

20

22

23

24

21

22

20

22

21

24

21

21

22

22

12

20

26

46

10

37

14

25

50

26

38

46

36

35

23

45

36

65

46

37

Agrupar los datos en intervalos de la misma amplitud, y calcular, a partir de esta clasificacin,
el valor de la medida de posicin que resulte ms representativa del conjunto total de los datos.
Problema 2.6. A continuacin se ofrecen los datos correspondientes al tiempo de espera (en minutos)
de 50 usuarios de una biblioteca hasta que son atendidos por algn miembro del personal de
sta.
1

20

21

10

12

20

18

13

11

10

13

15

20

22

11

18

19

20

15

16

13

12

14

10

24

11

10

11

a) Determinar la distribucin de frecuencias. Calcular la media y la mediana.


b) Agrupar los datos en intervalos de distinta amplitud, y calcular, a partir de esta nueva clasificacin, las mismas medidas descriptivas del apartado anterior. Comparar los resultados.

28

J. Marn Fernndez

Soluciones de los problemas propuestos


Solucin del problema 2.1. La distribucin de frecuencias es:

a)

xi

fi

Fi

13

20

18

38

15

53

11

64

70

74

76

Grfico de frecuencias acumuladas absolutas: es la representacin grfica de las frecuencias acumuladas absolutas, F , para todo valor numrico, x. Es una grfica en
forma de escalera".
Mediana=Me = 20 5 peridicos.

b) Como el recorrido intercuartlico es RI = 3 peridicos y la mitad del recorrido es R/2 =


30 5 peridicos, entonces se cumple que RI es un poco menor que R/2 y, como consecuencia, la mediana es bastante representativa.
Solucin del problema 2.2.
a)

Media=x = 670 7297 personas.


Mediana=Me = 670 5 personas.

b) La desviacin tpica es sx = 80 1677 personas. Como R/3 = 11, entonces se cumple que
sx es bastante menor que R/3 y, como consecuencia, la media es bastante representativa.
c) El recorrido intercuartlico es RI = 14 personas. Como R/2 = 160 5, entonces RI es
bastante menor que R/2 y, como consecuencia, la mediana es bastante representativa.
Solucin del problema 2.3.
a)

Grfico de frecuencias acumuladas absolutas: se sitan los puntos que resultan de


tomar en el eje horizontal los extremos superiores de los intervalos de clase, y en el
eje vertical sus correspondientes frecuencias acumuladas absolutas, uniendo despus
dichos puntos mediante segmentos rectilneos.
A partir del grfico anterior se deduce que la mediana es aproximadamente igual a 28
aos.
Con la frmula se obtiene que la mediana es Me = 280 0285 aos.

b) El recorrido intercuartlico es RI = 50 37 aos. Como R/2 = 20 entonces RI es mucho


menor que R/2 y, como consecuencia, la mediana es muy representativa.

29

Estadstica

Solucin del problema 2.4.

a)

La distribucin de frecuencias (conteniendo las columnas que posteriormente necesitaremos) es:


xi

fi

Fi

xi f i

(xi x)2 fi

4020 6711

2580 1378

12

48

4890 8844

14

14

820 2044

15

15

650 0711

16

16

490 9378

17

10

17

360 8044

18

11

18

250 6711

20

12

20

90 4044

21

15

63

120 8133

22

16

22

10 1378

24

18

48

10 7422

25

20

50

70 4756

27

22

54

300 9422

30

24

60

960 1422

35

26

70

2840 8089

37

27

37

1940 1378

40

28

40

2860 7378

45

30

90

9620 1422

692

32970 8 b
6

suma

Polgono de frecuencias absolutas: se sitan los puntos que resultan de tomar en el


eje horizontal los distintos valores de la variable, xi , y en el eje vertical sus correspondientes frecuencias absolutas, fi , uniendo despus los puntos mediante segmentos
rectilneos.
b)

Media=x = 230 0 b
6 socios.
Mediana=Me = 210 5 socios.

Solucin del problema 2.5. La distribucin de frecuencias con datos agrupados en intervalos de la
misma amplitud es:

30

J. Marn Fernndez

(`i , `i+1 ]

xi

fi

Fi

(00 8, 10]

50 4

23

23

(10, 190 2]

140 6

(19 2, 28 4]

26

22

48

23 8

(28 4, 37 6]

33 0

53

(370 6, 460 8]

420 2

58

(460 8, 56]

510 4

59

60

(56, 65 2]

60 6

Como la dispersin es grande, la medida de posicin ms adecuada es la mediana. Con los datos
b veces.
agrupados en estos intervalos de clase, el valor de la mediana es Me = 200 8 72
Solucin del problema 2.6.
a) La distribucin de frecuencias es:
xi

2 3

fi

1 1

Fi

2 3

7 10 13

17

20 23

xi f i

2 3

16 15 18

28

24 27

10 11
4

12 13
2

14

15 16
2

18 19
2

20

21

22

24

27 31

33 36

37

39 40

42 43

47

48

49

50

40 44

24 39

14

30 16

36 19

80

21

22

24

Media=x = 100 86 minutos.


Mediana=Me = 10 minutos.
b) Una posible agrupacin de los datos en intervalos de distinta amplitud es:
(`i , `i+1 ]

fi

xi

xi f i

Fi

(0,4]

14

(4,6]

30

13

(6,8]

49

20

(8,10]

63

27

(10,12]

11

66

33

(12,15]

130 5

81

39

(15,19]

17

68

43

50

(19,24]

suma

21 5

150 5
5210 5

Con esta clasificacin en intervalos, los resultados de las medidas descriptivas anteriores
son:
Media=x = 100 43 minutos.
Mediana=Me = 90 4286 minutos.
Los verdaderos resultados de estas medidas descriptivas son los calculados en el apartado
anterior.

3
Relacin entre dos variables
cuantitativas

Resumen del tema


3.1. Diagrama de dispersin
Cuando sobre cada individuo de una poblacin se observan simultneamente dos caractersticas
cuantitativas X e Y , se dice que se est observando una variable estadstica bidimensional, que se
representa por (X, Y ).
La representacin grfica ms usual es el diagrama de dispersin o nube de puntos, que consiste
en situar en un sistema de ejes coordenados los puntos que resultan de tomar en el eje horizontal los
valores de una de las variables y en el eje vertical los valores de la otra.

3.2. Coeficiente de correlacin lineal


Covarianza entre X e Y :

sxy =

n
X
(xi x)(yi y)

n
X

i=1

i=1

xi yi

xy.

De la frmula anterior se deduce que la unidad de medida de sxy es el producto de la unidad de X


por la unidad de Y .
Coeficiente de correlacin lineal de Pearson entre X e Y :
sxy
rxy =
.
sx sy
De la frmula anterior se deduce que rxy no tiene unidad de medida.
31

32

J. Marn Fernndez

Propiedad del coeficiente de correlacin lineal: el resultado de rxy siempre est comprendido entre
1 y 1; es decir,
1 rxy 1 .
Interpretacin descriptiva del coeficiente de correlacin lineal:
? Si rxy > 0, existe relacin lineal directa entre X e Y ; es decir, al aumentar la variable X,
aumenta la variable Y .
? Si rxy < 0, existe relacin lineal inversa entre X e Y ; es decir, al aumentar la variable X,
disminuye la variable Y .
? Si rxy = 1, existe dependencia lineal directa exacta entre X e Y ; es decir, los puntos del
diagrama de dispersin estn situados sobre una lnea recta de pendiente positiva.
? Si rxy = 1, existe dependencia lineal inversa exacta entre X e Y ; es decir, los puntos del
diagrama de dispersin estn situados sobre una lnea recta de pendiente negativa.
? Si rxy = 0, no existe dependencia lineal entre X e Y .
? Cuanto ms se aproxime rxy a 1 o a 1, ms dependencia lineal existe entre X e Y . Y cuanto
ms se aproxime rxy a 0, ms independencia lineal existe entre X e Y .

3.3. Recta de regresin


Recta de regresin de Y sobre X: aquella que permite predecir los resultados de la variable Y a
partir de los valores de la variable X.
Ecuacin de la recta de regresin (mnimo cuadrtica) de Y sobre X:
Y = A + B X ,
donde:
B =

sy
sxy
= rxy
,
2
sx
sx

A = y B x.
Recta de regresin de X sobre Y : aquella que permite predecir los resultados de la variable X a
partir de los valores de la variable Y .
Ecuacin de la recta de regresin (mnimo cuadrtica) de X sobre Y :
= A + B Y ,
X
donde:
B =

sxy
sx
= rxy
,
2
sy
sy

A = x B y .

33

Estadstica

Ejemplos que se van a resolver en clase


Ejemplo 3.1. La tabla siguiente muestra la vejez (aos desde su publicacin) y la frecuencia de uso
(nmero de veces que se consulta en un ao) de ocho libros:
Tabla 3.1

Vejez del libro

Frecuencia de uso

40

18

30

21

26

10

13

35

Dibujar el diagrama de dispersin.


Ejemplo 3.2. Con los datos de la Tabla 3.1 calcular el coeficiente de correlacin lineal entre ambas
variables. Cmo se puede calificar el grado de relacin lineal: muy fuerte, fuerte, moderado,
dbil o muy dbil? La relacin es directa o inversa? Razonar las respuestas.
Ejemplo 3.3. Con los datos de la Tabla 3.1 determinar la ecuacin de la recta de regresin de la
frecuencia de uso sobre la vejez del libro. Sobre el mismo grfico en el que se ha hecho el
diagrama de dispersin, representar grficamente la recta de regresin. Estimar el nmero anual
de veces que se prestara un libro publicado hace 6 aos. Es fiable esta estimacin? Justificar
la respuesta.
Ejemplo 3.4. Con los datos de la Tabla 3.1 determinar la ecuacin de la recta de regresin de la
vejez del libro sobre la frecuencia de uso. Predecir la vejez de un libro que no fuese consultado
ninguna vez durante todo el ao. Es fiable esta prediccin? Por qu?

34

J. Marn Fernndez

Problemas propuestos
Problema 3.1. El nmero de libros prestados a los estudiantes y a los profesores de los diferentes
departamentos de una universidad en un curso acadmico determinado ha sido:
Departamento
Agricultura
Antropologa

Estudiantes

Profesores

396

70

1.122

340

Biologa

311

273

Botnica

562

181

Cristalografa

149

33

Fsica

1.446

704

Geologa

1.579

556

557

233

1.044

434

710

437

Informtica
Ingeniera
Matemticas
Mineraloga

52

22

1.153

495

Qumica

737

473

Zoologa

1.343

462

Psicologa

a) Dibujar el diagrama de dispersin.


b) Calcular el coeficiente de correlacin lineal entre ambas variables. Cmo se puede calificar el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
c) Determinar la ecuacin de la recta de regresin del nmero de libros prestados a los estudiantes sobre el nmero de libros prestados a los profesores. Estimar el nmero de libros
prestados a los estudiantes que puede esperarse cuando el nmero de libros prestados a
los profesores sea de 400. Es fiable esta estimacin? Justificar la respuesta.
Problema 3.2. El tamao de la poblacin y el nmero de libros prestados por las bibliotecas de once
ciudades fue:
Poblacin

No de prstamos

100.000

100.000

1140 5

860 0

25 9

350 8

40 2

510 3

70 5

470 3

60 7

70 5

60 5

940 7

60 0

770 0

50 9

390 9

40 6

180 0

40 5

360 0

680 9

43

35

Estadstica

a) Calcular el coeficiente de correlacin lineal entre ambas variables. Cmo se puede calificar el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
b) Pronosticar el nmero de libros prestados por las bibliotecas de una ciudad de un milln
de habitantes. Decir si es fiable este pronstico, razonando la respuesta.
Problema 3.3. Los siguientes datos se refieren al nmero de libros y de revistas que reciben mensualmente doce bibliotecas elegidas al azar.
libros

revistas

1.090

24

7.420

92

4.200

67

8.250

158

8.810

81

1.620

59

3.840

54

9.400

171

3.630

100

14.100

276

2.500

122

11.470

200

a) Calcular el coeficiente de correlacin lineal entre ambas variables. Cmo se puede calificar el grado de relacin lineal entre ambas variables: muy fuerte, fuerte, moderado, dbil
o muy dbil? Razonar la respuesta.
b) Estimar el nmero de revistas que recibira una biblioteca en un mes en el que le enviaran
5.000 libros. Es fiable esta estimacin? Justificar la respuesta.

36

J. Marn Fernndez

Soluciones de los problemas propuestos


Solucin del problema 3.1. Sea X =nmero de libros prestados a los estudiantes de cada departamento de la determinada universidad, durante el determinado curso acadmico e Y =nmero
de libros prestados a los profesores de cada departamento de la determinada universidad, durante el determinado curso acadmico.
(a) El diagrama de dispersin o nube de puntos consiste en situar en un sistema de ejes coordenados los puntos que resultan de tomar en el eje horizontal los valores de una de las variables y
en el eje vertical los valores de la otra.
(b) El coeficiente de correlacin lineal entre X e Y es rxy = 00 8851. Como este coeficiente est
bastante prximo a 1, la relacin lineal entre ambas variables se puede calificar de fuerte.
(c) La recta de regresin del nmero de libros prestados a los estudiantes sobre el nmero
de libros prestados a los profesores es la recta de regresin de X sobre Y , cuya ecuacin es:
b = 950 9530 + 20 0831 Y
X
El nmero de libros prestados a los estudiantes que puede esperarse cuando el nmero de libros
b = 950 9530 + 20 0831 400 = 9290 193; es decir, 929
prestados a los profesores sea de 400 es: X
libros, aproximadamente.
Esta estimacin es bastante fiable ya que el coeficiente de correlacin lineal est bastante prximo a 1 y, por tanto, los puntos de la recta de regresin y los puntos del diagrama de dispersin
estn bastante prximos.
Solucin del problema 3.2. Sea X =nmero de habitantes de cada ciudad, multiplicado por 100.000
e Y =nmero de libros prestados por la biblioteca de cada ciudad, multiplicado por 100.000.
(a) El coeficiente de correlacin lineal entre X e Y es rxy = 00 3846. Como este coeficiente est
prximo a cero, la relacin lineal entre ambas variables se puede calificar de dbil.
(b) Para hacer este pronstico hay que determinar la ecuacin de la recta de regresin de Y
sobre X, que es: Yb = 450 4902304 + 00 32532773 X.
El pronstico del nmero de libros prestados por las bibliotecas de una ciudad de un milln de habitantes es: Yb = 450 4902304 + 00 32532773 10 = 480 7435077 multiplicado por
100.000=4.874.3500 77 libros; es decir, aproximadamente 4.874.351 libros.
Este pronstico es poco fiable ya que el valor del coeficiente de correlacin lineal entre X e Y
est prximo a cero y, por tanto, los puntos de la recta de regresin y los puntos del diagrama
de dispersin estn bastante alejados.
Solucin del problema 3.3. Sea X =nmero de libros recibidos mensualmente por cada biblioteca
e Y =nmero de revistas recibidas mensualmente por cada biblioteca.
(a) El coeficiente de correlacin lineal entre X e Y es rxy = 00 8605. Como este coeficiente est
bastante prximo a 1, la relacin lineal entre ambas variables se puede calificar de fuerte.
(b) Para hacer esta estimacin hay que determinar la recta de regresin de Y sobre X, que es:
Yb = 210 6844 + 00 0150 X.
La estimacin del nmero de revistas que recibira una biblioteca en un mes en el que le enviaran
5 000 libros es: Yb = 210 6844 + 00 0150 5 000 = 960 6082; es decir, 97 libros, aproximadamente.

Estadstica

37

Esta prediccin es bastante fiable ya que el valor del coeficiente de correlacin lineal entre X
e Y est bastante prximo a 1 y, por tanto, los puntos de la recta de regresin y los puntos del
diagrama de dispersin estn bastante prximos.

4
Probabilidad

Resumen del tema


4.1. Introduccin a la Probabilidad
Experimento: cualquier proceso que permite asociar a cada individuo de una poblacin un smbolo (numrico o no) entre los smbolos de un conjunto dado a priori.
? Experimento determinista: es aquel en el que los resultados estn totalmente determinados
una vez que se fijan las condiciones en las que se realiza el experimento.
? Experimento aleatorio: est caracterizado por las tres propiedades siguientes:
Todos sus posibles resultados son conocidos con anterioridad.
No se puede predecir el resultado del experimento.
El experimento puede repetirse en condiciones idnticas.
Ensayo o prueba: es la realizacin concreta de un experimento aleatorio.
Dato, observacin o resultado: es el smbolo que se ha obtenido en un ensayo de un experimento
aleatorio.
Suceso elemental: cada resultado de un experimento aleatorio.
Espacio muestral (): conjunto de todos los sucesos elementales.
Suceso (A, B, . . .): conjunto de sucesos elementales.
Suceso seguro: es el espacio muestral.
Suceso imposible (): no consta de ningn suceso elemental.
39

40

J. Marn Fernndez

4.2. Operaciones con sucesos


Suceso contrario: Dado un suceso A, se denomina suceso contrario de A al suceso A que
ocurre cuando no ocurre A; es decir, A consta de los sucesos elementales de que no estn
incluidos en A.
Unin de sucesos: Dados dos sucesos A y B de un mismo experimento, se entiende por unin
de ambos, y se denota por A B, al suceso que ocurre cuando ocurre A, cuando ocurre B o
cuando ocurren ambos; es decir, al formado por todos los sucesos elementales que son de A o
de B.
Interseccin de sucesos: Dados dos sucesos A y B de un mismo experimento, se entiende por
interseccin de ambos, y se representa por A B, al suceso que ocurre cuando ocurren A y
B a la vez; es decir, al formado por todos los sucesos elementales que pertenecen a A y a B
simultneamente.
Sucesos incompatibles: A y B son dos sucesos incompatibles si no tienen ningn suceso elemental en comn (A B = ).
Diferencia de sucesos: Dados dos sucesos A y B de un mismo experimento aleatorio, se entiende por diferencia de ambos, y se denota por A B, al suceso que ocurre cuando ocurre A
pero no B; es decir, al que consta de los sucesos elementales de A que no estn en B.

4.3. Regla de Laplace


Si un experimento aleatorio da lugar a un nmero finito de sucesos elementales, todos ellos igualmente posibles (es decir, no se conoce razn alguna que favorezca la presentacin de uno respecto de
los otros), entonces la probabilidad de un suceso A es:
P (A) =

no de casos favorables al suceso A


.
no de casos posibles del experimento

4.4. Propiedades de la probabilidad


Propiedad fundamental de la probabilidad: La probabilidad de un suceso es un nmero
comprendido entre 0 y 1; es decir:
0 P (A) 1 ,

para todo suceso A .

Probabilidad del suceso seguro: La probabilidad del espacio muestral es 1; es decir:


P () = 1.
Probabilidad del suceso contrario: La probabilidad del suceso contrario de A es:
P (A) = 1 P (A) .
Probabilidad del suceso imposible: La probabilidad del suceso imposible es cero; es decir:
P () = 0 .

41

Estadstica

Probabilidad de la diferencia de sucesos: Si B est incluido en A entonces:


P (A B) = P (A) P (B) .
Probabilidad de la unin de dos sucesos incompatibles: Si A y B son dos sucesos incompatibles entonces la probabilidad del suceso unin es la suma de las probabilidades de A y B; es
decir:
P (A B) = P (A) + P (B) , si A y B son incompatibles.
Probabilidad de la unin de n sucesos incompatibles: Si varios sucesos son incompatibles
dos a dos, la probabilidad de la unin de todos ellos es la suma de sus probabilidades; es decir:
P (A1 A2 . . . An ) = P (A1 ) + P (A2 ) + . . . + P (An ) ,
si A1 , A2 , . . . , An son incompatibles dos a dos.
Probabilidad de la unin de dos sucesos cualesquiera: La probabilidad de la unin de dos
sucesos cualesquiera es igual a la probabilidad del primero, ms la probabilidad del segundo,
menos la probabilidad de la interseccin; es decir:
P (A B) = P (A) + P (B) P (A B) .
Probabilidad de la unin de tres sucesos cualesquiera: Si A, B y C son tres sucesos cualesquiera entonces la probabilidad de la unin de los tres sucesos es:
P (A B C) = P (A) + P (B) + P (C)
P (A B) P (A C) P (B C)
+P (A B C) .

42

J. Marn Fernndez

Ejemplos que se van a resolver en clase


Ejemplo 4.1. Dar un ejemplo de experimento aleatorio. Determinar el espacio muestral. Poner dos
ejemplos de sucesos (A y B).
Ejemplo 4.2. Determinar los sucesos contrarios de los del Ejemplo 4.1 (A y B).
Ejemplo 4.3. Con los sucesos A y B del Ejemplo 4.1 determinar las siguientes uniones de sucesos:
A B y A B.
Ejemplo 4.4. Con los sucesos A y B del Ejemplo 4.1 determinar las siguientes intersecciones de
sucesos: A B y A B.
Ejemplo 4.5. Son incompatibles los sucesos A y B del Ejemplo 4.1?
Ejemplo 4.6. Con los sucesos A y B del Ejemplo 4.1 determinar las siguientes diferencias de sucesos: A B y B A.
Ejemplo 4.7. En una biblioteca que consta de 250 libros, 20 de ellos estn escritos en ingls y el
resto en espaol. Cul es la probabilidad de que un libro elegido al azar, entre los 250 de dicha
biblioteca, est escrito en ingls?
Ejemplo 4.8. Estamos investigando la calidad de las fotocopias hechas en una biblioteca. En una
muestra de 100 copias, se observa que 2 estn en blanco y manchadas, 3 estn en blanco pero
no estn manchadas y 25 no estn en blanco pero estn manchadas. Cul es la probabilidad de
que esta mquina fotocopiadora realice una copia que no est en blanco ni manchada?
Ejemplo 4.9. Una biblioteca dispone de tres empleados (A, B y C) para atender a los usuarios. El
20 % de las ocasiones est disponible (para atender a cualquier usuario) el empleado A, el
30 % de las veces est disponible el empleado B y el 25 % de las ocasiones est disponible el
empleado C. Adems, el 10 % de las veces estn disponibles A y B, el 12 % estn disponibles
A y C, el 14 % estn disponibles B y C, y el 8 % de las ocasiones estn disponibles los tres
empleados. Cul es la probabilidad de que una persona sea atendida en el mismo momento en
que llegue a la biblioteca?
Ejemplo 4.10. En un grupo de alumnos de una licenciatura en documentacin, el 25 % suspendi
la asignatura Anlisis Documental, el 15 % la asignatura Documentacin General y el 10 %
ambas asignaturas. Cul es la probabilidad de que un alumno suspenda Anlisis Documental
o Documentacin General?
Ejemplo 4.11. En un estudio realizado en un determinado pas sobre la participacin de la mujer en
trabajos sobre informacin y documentacin, antes y despus de ser madre, se selecciona una
muestra de 683 mujeres obtenindose los siguientes resultados:

43

Estadstica

Despus

Antes

NO

NO

169

337

174

a) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes de ser
madre.
b) Calcular la probabilidad de que una mujer participe en dicho mercado laboral despus de
ser madre.
c) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes y
despus de ser madre.
d) Calcular la probabilidad de que una mujer participe en dicho mercado laboral antes o
despus de ser madre.

44

J. Marn Fernndez

Problemas propuestos
Problema 4.1. Un centro de informacin dispone de 10 ordenadores para consultar diversas bases
de datos. Se realiza el experimento que consiste en observar, en diferentes instantes del da,
el nmero de ordenadores que no estn ocupados. Determinar el espacio muestral. Poner dos
ejemplos de sucesos (A y B). Hallar los sucesos contrarios (A y B), el suceso unin (A B),
el suceso interseccin (A B), el suceso diferencia (A B), y los sucesos A B, A B y
A B.
Problema 4.2. El nmero de libros por estante de una biblioteca viene dado por:
No de libros

19

20

21

22

23

24

25

26

27

28

29

30

14

11

12

No de estantes

Calcular la probabilidad de que un estante elegido al azar tenga:


a) exactamente 24 libros.
b) 24 o 25 libros.
c) menos de 24 libros.
Problema 4.3. Los asistentes a un acto cultural preparado por una biblioteca se clasifican de la siguiente manera:
menos de 18 aos entre 18 y 24 aos entre 25 y 40 aos ms de 40 aos
Hombre

17

28

31

52

Mujer

23

39

50

75

a) Calcular la probabilidad de que un asistente al acto, elegido al azar, tenga ms de 40 aos.


b) Calcular la probabilidad de que un asistente al acto, elegido al azar, sea mujer y tenga ms
de 40 aos.
c) Calcular la probabilidad de que una mujer asistente al acto, elegida al azar, tenga ms de
40 aos.
Problema 4.4. Se pregunta a todos los alumnos de una determinada facultad cuntas horas dedican
al estudio en la biblioteca, y los resultados son:
Curso de la licenciatura

No de horas

1o

2o

3o

4o

5o

menos de 1 hora

18

20

32

77

96

entre 1 y 3 horas

22

35

90

83

50

ms de 3 horas

60

70

80

60

14

a) Determinar la probabilidad de que un alumno, elegido al azar, estudie ms de 3 horas


diarias en la biblioteca.

45

Estadstica

b) Hallar la probabilidad de que un alumno de quinto curso, elegido al azar, estudie ms de


3 horas diarias en la biblioteca.
c) Calcular la probabilidad de que un alumno, elegido al azar, sea de quinto curso o estudie
ms de 3 horas diarias en la biblioteca.
Problema 4.5. En la siguiente tabla aparece el nmero de hombres y de mujeres que se han llevado
prestados libros y vdeos de una biblioteca pblica.
Tipo de documento

Sexo

suma

libro

vdeo

hombre

195

215

410

mujer

315

205

520

510

420

930

suma

a) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, sea mujer.


b) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, se lleve prestado un vdeo.
c) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, sea mujer y se
lleve prestado un vdeo.
d) Calcular la probabilidad de que un usuario de la biblioteca, elegido al azar, sea mujer o se
lleve prestado un vdeo.
Problema 4.6. El porcentaje de usuarios de la biblioteca G que trabajan en Murcia es del 55 %, y el
porcentaje de usuarios de dicha biblioteca que trabajan en Murcia y han nacido en Murcia es
del 35 %. Elegido un usuario de dicha biblioteca al azar, cul es la probabilidad de que trabaje
en Murcia pero no haya nacido en Murcia?
Problema 4.7. El 75 % de los estudiantes de la Universidad de Murcia son murcianos, el 15 % de
los estudiantes de la Universidad de Murcia tienen algn hijo y el 10 % de los estudiantes de la
Universidad de Murcia son murcianos y tienen algn hijo.
a) Si elegimos un estudiante de la Universidad de Murcia al azar cul es la probabilidad de
que sea murciano y no tenga ningn hijo?
b) Si elegimos un estudiante de la Universidad de Murcia al azar cul es la probabilidad de
que sea murciano o tenga algn hijo?
Problema 4.8. Se ha estudiado el uso de la biblioteca pblica por parte de los profesores universitarios, encontrndose que 42 de 113 psiclogos, 17 de 68 bilogos, 33 de 203 ingenieros y 20 de
78 profesores de ingls son usuarios de la biblioteca pblica (y el resto no).
a) Elegido un profesor universitario al azar, cul es la probabilidad de que sea profesor de
ingls?
b) Elegido un profesor universitario al azar, cul es la probabilidad de que sea usuario de la
biblioteca pblica?

46

J. Marn Fernndez

c) Elegido un profesor universitario al azar, cul es la probabilidad de que sea usuario de la


biblioteca pblica y profesor de ingls?
d) Elegido un profesor universitario al azar, cul es la probabilidad de que sea usuario de la
biblioteca pblica o profesor de ingls?

Estadstica

47

Soluciones de los problemas propuestos


Solucin del problema 4.1.
El espacio muestral es = = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}. Los sucesos A y B podran ser:
A = {el nmero de ordenadores no ocupados es menor que 4} = {0, 1, 2, 3}
B = {el nmero de ordenadores no ocupados est comprendido entre 2 y 6} = {2, 3, 4, 5, 6}
Por tanto:
A = {4, 5, 6, 7, 8, 9, 10}
B = {0, 1, 7, 8, 9, 10}
A B = {0, 1, 2, 3, 4, 5, 6}
A B = {2, 3}
A B = {0, 1}
A B = {7, 8, 9, 10} = A B 6= A B
A B = {0, 1, 4, 5, 6, 7, 8, 9, 10} = A B 6= A B
A B = {2, 3, 4, 5, 6, 7, 8, 9.10} =
6 AB
Solucin del problema 4.2. a) 00 1375, b) 00 2875, c) 00 3875.
Solucin del problema 4.3. a) 00 403174603, b) 00 238095238, c) 00 401069518.
Solucin del problema 4.4. a) 00 351920693, b) 00 0875, c) 00 53283767.
Solucin del problema 4.5. a) 00 559140, b) 00 451613, c) 00 220430, d) 00 790323.
Solucin del problema 4.6: 00 2
Solucin del problema 4.7. a) 00 65, b) 00 8.
b c) 00 043290, d) 00 367965.
Solucin del problema 4.8. a) 00 168831, b) 00 24,

5
Modelos de probabilidad

Resumen del tema


5.1. Variables aleatorias discretas y continuas
5.1.1. Variables aleatorias
Una variable aleatoria es una funcin que asigna un nmero a cada suceso elemental de un
experimento aleatorio.
Cualquier variable estadstica cuantitativa estudiada en los temas 1 a 3 podra considerarse variable
aleatoria con la condicin de que est observada en todos los individuos de una poblacin.
La media de una variable aleatoria X se denota por x . En el caso en el que no exista la posibilidad
de confusin respecto de la variable aleatoria con la que estamos trabajando, la media se denotar
solamente por . A la media de una variable aleatoria X tambin se le llama esperanza matemtica
de X, denotndola entonces por E(X).
La varianza de una variable aleatoria X se denota por Var(X), por x2 o simplemente por 2 .
Por tanto, la desviacin tpica de una variable aleatoria X se denota por x o por .
La funcin de distribucin de una variable aleatoria X se denota por FX o simplemente por F y
se define de la siguiente forma:
FX (t) = P (X t) para todo t .
CLASIFICACIN DE LAS VARIABLES ALEATORIAS:

? Variable aleatoria discreta: slo puede tomar valores numricos aislados (fijados dos consecutivos, no puede existir ninguno intermedio).
? Variable aleatoria continua: puede tomar cualquier valor numrico dentro de un intervalo, de
modo que entre cualesquiera dos de ellos siempre existe otro posible valor.
49

50

J. Marn Fernndez

5.1.2. Variables aleatorias continuas


Identificacin de una variable aleatoria continua X: es preciso conocer su funcin de densidad, f (x), que debe verificar:
? f (x) 0 para todo nmero real x.
? El rea total bajo la curva y = f (x) vale 1.
? La probabilidad de que la variable aleatoria X est comprendida entre a y b, P (a X
b), viene determinada por el rea bajo la curva y = f (x) entre x = a y x = b.
Los valores concretos de la funcin de densidad no tienen ningn significado especial pues
las probabilidades vienen determinadas por reas bajo la curva determinada por la funcin de
densidad y no por valores de la funcin de densidad. En todo caso, este hecho nos informa de
que en las distribuciones continuas la probabilidad de que la variable aleatoria tome un valor
concreto, P (X = a), es cero, como corresponde al rea de un rectngulo de base un punto y
altura f (a). Resumiendo, si X es una variable aleatoria continua, entonces:
P (X = a) = 0 para todo a .
La representacin grfica de la funcin de densidad de una variable aleatoria continua es
equivalente al polgono de frecuencias relativas de una variable estadstica continua cuando la
amplitud de los intervalos es infinitesimal.
La media y la varianza de una variable aleatoria continua se determinan mediante una operacin matemtica denominada integral.
La funcin de distribucin de una variable aleatoria continua X se define igual que para cualquier variable aleatoria; es decir:
FX (t) = P (X t)

para todo t .

El valor de FX (t) coincide con el rea bajo la curva y = f (x) desde el valor ms pequeo que
puede tomar la variable hasta el valor t.
Para algunas variables aleatorias continuas los resultados de la funcin de distribucin se pueden determinar con cualquier paquete estadstico, como MINITAB o SPSS.
Si X es una variable aleatoria continua, entonces:
? P (X < a) = P (X a) = FX (a) para todo a.
? P (X > a) = P (X a) = 1 FX (a) para todo a.
? P (a < X < b) = P (a X b) = P (a X < b) = P (a < X b) = FX (b) FX (a)
para todo a y b.

51

Estadstica

5.2. La distribucin Normal


5.2.1. Distribucin Normal
Una variable aleatoria continua X tiene una distribucin Normal de parmetros y si su
funcin de densidad es:

2 !
1
1 x
para todo x ,
f (x) =
exp
2

2
donde es cualquier nmero, es cualquier nmero positivo y, en general, exp(t) significa et , siendo
e la base de los logaritmos neperianos.
Son equivalentes las dos afirmaciones siguientes: X tiene una distribucin Normal de parmetros
y y X es una variable aleatoria Normal de parmetros y .
La variable aleatoria Normal de parmetros y ser denotada por:
N (, ) .
Se cumplen las siguientes propiedades:
La media, la mediana y la moda de una variable aleatoria N (, ) coinciden entre s y tienen
por valor al parmetro .
La desviacin tpica de la distribucin N (, ) es igual al parmetro .
La curva que representa a la funcin de densidad de la distribucin N (, ) es simtrica respecto de la recta vertical de ecuacin x = .
El rea comprendida entre el eje horizontal y la curva que representa a la funcin de densidad
de la distribucin N (, ) vale 1 (como ocurre con cualquier distribucin continua).
5.2.2. Distribucin Normal Estndar
A la variable aleatoria Normal de parmetros 0 y 1 se le llama variable aleatoria Normal Estndar,
o Normal Tpica, y se le denota por N (0, 1).
5.2.3. Uso de la tabla de la funcin de distribucin
La tabla de la funcin de distribucin de la variable aleatoria Normal Estndar, Z, da las probabilidades a la izquierda de nmeros positivos; es decir, P (Z t), con t > 0. A partir de las propiedades
de simetra y de que el rea total bajo la curva de densidad es la unidad, pueden deducirse todos los
casos: probabilidades a la izquierda o a la derecha de nmeros positivos o negativos.
5.2.4. Uso de la tabla de los cuantiles
Adems de tener tabulados los resultados de la funcin de distribucin de la variable aleatoria
Normal Estndar, tambin tenemos tabulados los valores inversos de la funcin de distribucin; es
decir, los cuantiles.

52

J. Marn Fernndez

El cuantil (o percentil) al 100p % de la variable aleatoria Normal Estndar se denota por Zp y es


el valor que verifica:
P (N (0, 1) Zp ) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin N (0, 1) y el eje horizontal,
a la izquierda de Zp , es igual a p.
Otra interpretacin es la siguiente: el valor Zp deja por debajo el 100p % de todos los resultados
de una variable aleatoria Normal Estndar.
El resultado de Zp se puede determinar con cualquier paquete estadstico, como MINITAB o SPSS
(para cualquier valor de p) y con las tablas de los cuantiles de N (0, 1) (para algunos valores de p).
5.2.5. Tipificacin
Se conoce por tipificacin a la transformacin realizada con una variable aleatoria cuando se le
resta su media y se divide por su desviacin tpica.
Si la variable aleatoria X es Normal de parmetros y , X N (, ), entonces la variable
aleatoria que resulta cuando tipificamos:
Z=

es una Normal Estndar; es decir, Z N (0, 1).

5.3. Otras distribuciones continuas importantes


5.3.1. Distribucin chi-cuadrado de Pearson
Si Z1 , Z2 , . . . , Zn son variables aleatorias independientes, todas ellas con distribucin Normal Estndar, entonces la variable aleatoria Z12 + Z22 + + Zn2 sigue una distribucin denominada chicuadrado de Pearson con n grados de libertad, que se denota por 2n .
El cuantil al 100p % de 2n se representa por 2n , p y es el valor que verifica:
P (2n 2n , p ) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin 2n y el eje horizontal, a la
izquierda de 2n , p , es igual a p.
Otra interpretacin es la siguiente: el valor 2n , p deja por debajo el 100p % de todos los resultados
de una variable aleatoria chi-cuadrado de Pearson con n grados de libertad.
El resultado de 2n , p se puede determinar con cualquier paquete estadstico, como MINITAB o
SPSS (para cualquier valor de n y p) y con las tablas de los cuantiles de 2n (para algunos valores de
n y p).
5.3.2. Distribucin t de Student
Si Z sigue una distribucin Normal Estndar y 2n es independiente de Z, entonces la variable
aleatoria
Z
r
2n
n

53

Estadstica

sigue una distribucin denominada t de Student con n grados de libertad, que se denota por tn .
El cuantil al 100p % de tn se representa por tn , p y es el valor que verifica:
P (tn tn , p ) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin tn y el eje horizontal, a la
izquierda de tn , p , es igual a p.
Otra interpretacin es la siguiente: el valor tn , p deja por debajo el 100p % de todos los resultados
de una variable aleatoria t de Student con n grados de libertad.
El resultado de tn , p se puede determinar con cualquier paquete estadstico, como MINITAB o
SPSS (para cualquier valor de n y p) y con las tablas de los cuantiles de tn (para algunos valores de n
y p).
5.3.3. Distribucin F de Snedecor
Si tenemos dos variables aleatorias chi-cuadrado independientes, 2m y 2n , entonces la variable
aleatoria
2m
m
2n
n
sigue una distribucin denominada F de Snedecor con m grados de libertad en el numerador y n
grados de libertad en el denominador, que se denota por Fm , n .
El cuantil al 100p % de Fm , n se representa por Fm , n , p y es el valor que verifica:
P (Fm , n Fm , n , p ) = p ,
es decir, el rea comprendida entre la curva de densidad de la distribucin Fm , n y el eje horizontal, a
la izquierda de Fm , n , p , es igual a p.
Otra interpretacin es la siguiente: el valor Fm , n , p deja por debajo el 100p % de todos los resultados de una variable aleatoria F de Snedecor con m grados de libertad en el numerador y n grados de
libertad en el denominador.
El resultado de Fm , n , p se puede determinar con cualquier paquete estadstico, como MINITAB
o SPSS (para cualquier valor de m, n y p) y con las tablas de los cuantiles de Fm , n (para algunos
valores de m, n y p).

54

J. Marn Fernndez

Ejemplos que se van a resolver en clase


Ejemplo 5.1. Si Z N (0, 1) calcular las siguientes probabilidades:
a) P (Z < 00 321).
b) P (Z 10 275).
c) P (Z < 20 152).
d) P (Z 00 456).
e) P (10 434 Z 10 568).
Ejemplo 5.2. Si Z N (0, 1) determinar los siguientes cuantiles e interpretar los resultados.
a) Mediana de Z.
b) Tercer cuartil de Z.
c) Primer cuartil de Z.
Ejemplo 5.3. En una determinada asignatura de un Grado en Informacin y Documentacin se sabe
que las calificaciones siguen una distribucin Normal de media 50 5 y desviacin tpica 10 5. Si
en un ao acadmico hay 150 alumnos matriculados en esta asignatura, calcular el nmero de
alumnos que obtendrn una calificacin:
a) menor o igual que 3.
b) mayor o igual que 8.
c) comprendida entre 4 y 6.
Ejemplo 5.4. Determinar los siguientes cuantiles e interpretar los resultados.
a) Mediana de 210 .
b) Tercer cuartil de 230 .
Ejemplo 5.5. Determinar los siguientes cuantiles e interpretar los resultados.
a) Tercer cuartil de t25 .
b) Primer cuartil de t60 .
Ejemplo 5.6. Determinar los siguientes cuantiles e interpretar los resultados.
a) Cuantil al 95 % de F20 , 10 .
b) Cuantil al 10 % de F20 , 10 .

Estadstica

55

Problemas propuestos
Problema 5.1. Si Z es una variable Normal Estndar, determinar:
a) P (Z 20 21).
b) P (Z < 30 47).
c) P (Z 10 75).
d) P (Z > 20 46).
e) P (Z 30 24).
f) P (Z > 30 08).
g) P (10 12 Z 20 68).
h) P (00 85 < Z < 10 27).
i) P (20 97 < Z 10 33).
Problema 5.2. Si X es una variable Normal con media 80 46 y desviacin tpica 10 14, hallar:
a) P (X 90 11).
b) P (X < 120 33).
c) P (X 60 41).
d) P (X > 100 52).
e) P (X 120 61).
f) P (X > 40 01).
g) P (60 11 X 110 91).
h) P (70 53 < X < 100 33).
i) P (50 05 X < 60 83).
Problema 5.3. Hallar el valor de los siguientes cuantiles:
a) Z00 58 .
b) Z00 42 .
c) Z00 999 .
d) Z00 001 .
Problema 5.4. El cociente intelectual de 5.600 alumnos del Grado en Informacin y Documentacin
de diversas universidades sigue una distribucin Normal de media 130 y desviacin tpica 6.
Calcular cuntos de ellos tienen un cociente intelectual:
a) mayor que 140.
b) entre 125 y 135.
c) menor que 120.
Problema 5.5. Calcular el valor de los siguientes cuantiles:

56

J. Marn Fernndez

a) 26 , 00 01 .
b) 26 , 00 99 .
c) 272 , 00 975 .
Problema 5.6. Sea X una variable aleatoria que sigue una distribucin chi-cuadrado de Pearson con
15 grados de libertad. Determinar el valor de a que verifica la siguiente igualdad:
a) P (X a) = 00 05.
b) P (X > a) = 00 99.
Problema 5.7. Calcular el valor de los siguientes cuantiles:
a) t26 , 00 9 .
b) t26 , 00 1 .
c) t75 , 00 8 .
Problema 5.8. Sea X una variable aleatoria que sigue una distribucin t de Student con 20 grados
de libertad. Determinar el valor de a que verifica la siguiente igualdad:
a) P (X a) = 00 99.
b) P (X a) = 00 25.
Problema 5.9. Calcular el valor de los siguientes cuantiles:
a) F8 , 6 , 00 975 .
b) F25 , 50 , 00 01 .
c) F45 , 35 , 00 01 .
Problema 5.10. Sea X una variable aleatoria que sigue una distribucin F de Snedecor con 10 grados
de libertad en el numerador y 8 grados de libertad en el denominador. Determinar el valor de a
que verifica la siguiente igualdad:
a) P (X < a) = 00 9.
b) P (X > a) = 00 05.

Estadstica

57

Soluciones de los problemas propuestos


Solucin del problema 5.1. a) 00 986447, b) 00 9997398, c) 00 040059, d) 00 006947, e) 00 0005976, f)
00 998965, g) 00 127676, h) 00 700295, i) 00 09027.
Solucin del problema 5.2. a) 00 715661, b) 00 9996505, c) 00 03593, d) 00 035148, e) 00 0001363, f)
00 9999519, g) 00 979078, h) 00 743389, i) 00 074964.
Solucin del problema 5.3. a) 00 20189, b) 00 20189, c) 30 09023231, d) 30 09023231.
Solucin del problema 5.4. a) 00 04746 5600 = 2650 776 ' 266 alumnos, b) 00 593462 5600 =
33230 3872 ' 3323 alumnos, c) 00 04746 5600 = 2650 776 ' 266 alumnos.
Solucin del problema 5.5. a) 00 87209, b) 160 8119, c) 970 356547.
Solucin del problema 5.6. a) 70 26094, b) 50 22935.
Solucin del problema 5.7. a) 10 315, b) 10 315, c) 00 844772.
Solucin del problema 5.8. a) 20 528, b) 00 687.
Solucin del problema 5.9. a) 50 5996, b) 00 416684, c) 00 477478.
Solucin del problema 5.10. a) 20 538, b) 30 3472.

6
Contrastes no paramtricos en una
poblacin

Resumen del tema


6.1. Introduccin a la Estadstica Inferencial
Estadstica inferencial: parte de la estadstica que se ocupa de llegar a conclusiones (inferencias)
acerca de las poblaciones a partir de los datos de las muestras extradas de ellas.
Hiptesis estadstica: afirmacin sobre la forma de una o ms distribuciones, o sobre el valor
de uno o ms parmetros de esas distribuciones.
Hiptesis nula: hiptesis estadstica que se somete a contraste. Se denota por H0 .
Hiptesis alternativa: es la negacin de la hiptesis nula H0 , e incluye todo lo que H0 excluye.
Se denota por H1 .
Contraste de hiptesis: procedimiento que nos capacita para determinar si las muestras observadas difieren significativamente de los resultados esperados, y por tanto nos ayuda a decidir si
aceptamos o rechazamos la hiptesis nula.
Contraste paramtrico: la hiptesis nula es una afirmacin sobre el valor de uno o ms
parmetros de la variable aleatoria observada en la poblacin.
Contraste no paramtrico: la hiptesis nula no es una afirmacin sobre el valor de uno o
ms parmetros de la variable aleatoria observada en la poblacin.
Estadstico de contraste: estadstico que se observa al realizar un contraste de hiptesis, y que
nos sirve para aceptar o rechazar la hiptesis nula por poseer una distribucin muestral conocida.
Regin crtica: zona de la distribucin muestral del estadstico de contraste que corresponde a
los valores que permiten rechazar la hiptesis nula, y por tanto aceptar la hiptesis alternativa.
59

60

J. Marn Fernndez

Regin de aceptacin: zona de la distribucin muestral del estadstico de contraste que corresponde a los valores que permiten aceptar la hiptesis nula.
Contraste unilateral o de una cola: la regin crtica se encuentra en una sola zona de la distribucin muestral del estadstico de contraste.
Contraste bilateral o de dos colas: la regin crtica se encuentra repartida entre dos zonas de la
distribucin muestral del estadstico de contraste.
Error de tipo I: error que se comete cuando se decide rechazar una hiptesis nula que en realidad
es verdadera.
Nivel de significacin: probabilidad de cometer un error de tipo I al contrastar una hiptesis. Se
denota por .
Error de tipo II: error que se comete cuando se decide aceptar una hiptesis nula que en realidad
es falsa. La probabilidad de cometer dicho error se denota por .
Potencia de un contraste: probabilidad de rechazar la hiptesis nula cuando es falsa. Por tanto,
la potencia es igual a 1 .
p-valor (o nivel crtico): es el nivel de significacin ms pequeo al que una hiptesis nula
puede ser rechazada con el estadstico de contraste obtenido. Se rechaza H0 si el p-valor es
claramente menor que ; se acepta H0 si el p-valor es claramente mayor que ; y se repite el
contraste con una muestra diferente si el p-valor tiene un resultado prximo a .

61

Estadstica

6.2. Contraste sobre aleatoriedad de la muestra


Contraste de las Rachas sobre aleatoriedad de la muestra
contraste

H0 : la muestra es aleatoria
H1 : la muestra no es aleatoria

condiciones

Los datos son slo de dos tipos o pueden reducirse a dos tipos.
N1 =nmero de datos de un tipo N2 =nmero de datos del otro tipo.

(a) Si N1 N2 20 se calcula R =nmero de rachas (secuencias de


datos del mismo tipo).

(b) Si N1 > 20 N2 > 20 se calcula Z =

(R E(R)) 00 5
p
,
V (R)

donde

estadsticos
E(R) =

2N1 N2
+ 1,
N1 + N2

V (R) =

2N1 N2 (2N1 N2 N1 N2 )
.
(N1 + N2 )2 (N1 + N2 1)

(a) Si N1 N2 20, rechazamos H0 si el valor de R est fuera del


intervalo de la tabla de los puntos crticos del test de las rachas.
regin crtica
(b) Si N1 > 20 N2 > 20, rechazamos H0 si Z < Z1/2 Z >
Z1/2 .

62

J. Marn Fernndez

6.3. Contraste sobre normalidad


Contraste de DAgostino sobre Normalidad

contraste

H0 : la variable aleatoria X observada en la poblacin es Normal


H1 : la variable aleatoria X observada en la poblacin no es Normal

condiciones

Se extrae una muestra aleatoria simple de tamao n.


Se ordena la muestra de menor a mayor: X1 X2 Xn .

n
X

Dexp
estadstico

n
n+1 X
Xi
2
i=1
i=1
= v
!2 ,
u n
n
u X
X
n tn
Xi2
Xi

i Xi

i=1
n
X

donde

i=1

i Xi significa 1X1 + 2X2 + 3X3 + + nXn .

i=1

regin crtica

Rechazamos H0 si el valor de Dexp est fuera del intervalo de la tabla


de los puntos crticos del test de DAgostino.

63

Estadstica

Ejemplos que se van a resolver en clase


Ejemplo 6.1. En la tabla siguiente aparecen los datos de 10 bibliotecas, en las cuales se ha observado
las siguientes variables: nmero total de ttulos catalogados en un ao (X), nmero de horas
totales al ao que emplea la biblioteca en catalogar sus ttulos (Y ) y costo, en euros, de una
hora de catalogacin (Z).

10
X
i=1

xi

yi

zi

1550

220

1575

1640

230

1450

1000

140

1640

950

135

1670

750

110

1710

1700

255

1250

1650

228

1480

1860

270

1525

1900

280

1850

900

130

1730

zi = 158 8

10
X

zi2 = 25470 965

i=1

a) Se puede aceptar, con un nivel de significacin de = 00 05, que la muestra de datos de


la variable Z es aleatoria?
b) Se puede aceptar, con un nivel de significacin de = 00 02, que la variable aleatoria Z
es Normal?

Ejemplo 6.2. En la tabla siguiente aparecen los resultados del peso, en gramos, (X) y del precio, en
euros, (Y ) de una muestra de 12 libros.

64

J. Marn Fernndez

12
X
i=1

xi

yi

325

110

890

30

415

75

400

45

515

32

650

69

790

30

890

34

320

42

420

46

620

53

720

97

yi = 663

12
X

yi2 = 44589

i=1

a) Se puede aceptar, con un nivel de significacin de = 00 05, que la muestra de datos de


la variable Y es aleatoria?
b) Se puede aceptar, con un nivel de significacin de = 00 02, que la variable aleatoria Y
es Normal?

65

Estadstica

Problemas propuestos
Problema 6.1. Los siguientes datos corresponden a las edades de una muestra de 10 personas que
visitan una biblioteca.
19

24

83

30

17

23

33

19

68

56

a) Se puede aceptar, con un nivel de significacin de = 00 05, que la muestra es aleatoria?


b) Se puede aceptar, con un nivel de significacin de = 00 05, que la variable aleatoria
edad de las personas que visitan la biblioteca es Normal?
Problema 6.2. La tabla siguiente contiene el nmero mensual de materias buscadas por los usuarios
de una biblioteca (X) y el nmero mensual de materias localizadas por dichos usuarios (Y ):
mes

materias buscadas (xi )

materias localizadas (yi )

x2i

yi2

xi y i

42

22

1764

484

924

65

30

4225

900

1950

68

35

4624

1225

2380

55

30

3025

900

1650

35

20

1225

400

700

40

25

1600

625

1000

50

30

2500

900

1500

26

15

676

225

390

42

22

1764

484

924

10

56

38

3136

1444

2128

11

38

15

1444

225

570

12

50

34

2500

1156

1700

suma

567

316

28483

8968

15816

a) Se puede aceptar, con un nivel de significacin de = 00 05, que la muestra de datos de


la variable X es aleatoria?
b) Se puede aceptar, con un nivel de significacin de = 00 05, que la variable aleatoria X
es Normal?

66

J. Marn Fernndez

Soluciones de los problemas propuestos


Solucin del problema 6.1. X=Edad de las personas que visitan la biblioteca.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H0 :La muestra de datos de la variable X es aleatoria. El valor del estadstico
de contraste es R = 6. Como el nivel de significacin es = 00 05, entonces la regin de
aceptacin es el intervalo (2, 10). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H0 :La variable aleatoria X es Normal. El valor del estadstico de contraste es Dexp =
00 261150. Como el nivel de significacin es = 00 05, entonces la regin de aceptacin
es el intervalo (00 2513, 00 2849). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.

Solucin del problema 6.2. X=Nmero mensual de materias buscadas por los usuarios de una biblioteca.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H0 :La muestra de datos de la variable X es aleatoria. El valor del estadstico
de contraste es R = 7. Como el nivel de significacin es = 00 05, entonces la regin
de aceptacin es el intervalo (3, +). En consecuencia, aceptamos H0 . Finalmente, la
respuesta a la pregunta es S.
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H0 :La variable aleatoria X es Normal. El valor del estadstico de contraste es Dexp =
00 282159. Como el nivel de significacin es = 00 05, entonces la regin de aceptacin
es el intervalo (00 2420, 00 2862). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.

7
Contrastes paramtricos en una
poblacin

Resumen del tema


7.1. Contrastes sobre la media
7.1.1. Varianza poblacional conocida
condiciones
Muestra aleatoria
simple de tamao n.
conocida.
Poblacin Normal
poblacin cualquiera
siempre que n 30.

estadstico

Z=

X 0

/ n

contraste

regin crtica

H0 : = 0

Z < Z1/2

H1 : 6= 0

Z > Z1/2

H0 : 0
H1 : < 0
H0 : 0
H1 : > 0

Z < Z1
Z > Z1

7.1.2. Varianza poblacional desconocida


condiciones
Muestra aleatoria
simple de tamao n.
desconocida.
Poblacin Normal
poblacin cualquiera
siempre que n 30.

estadstico

T =

X 0

S/ n

contraste

regin crtica

H0 : = 0

T < tn1 , 1/2

H1 : 6= 0

T > tn1 , 1/2

H0 : 0
H1 : < 0
H0 : 0
H1 : > 0

67

T < tn1 , 1
T > tn1 , 1

68

J. Marn Fernndez

7.2. Contrastes sobre la varianza


7.2.1. Media poblacional conocida
condiciones

estadstico

Muestra aleatoria simple:


X1 , X2 , . . . , Xn .
conocida.
Poblacin Normal.

n
X

U=

(Xi )2

i=1

02

contraste

regin crtica

H0 : 2 = 02

U < 2n , /2

H1 : 2 6= 02

U > 2n , 1/2

H0 : 2 02
H1 : 2 < 02
H0 : 2 02
H1 : 2 > 02

U < 2n ,
U > 2n , 1

7.2.2. Media poblacional desconocida


condiciones

Muestra aleatoria
simple de tamao n.
desconocida.
Poblacin Normal.

estadstico

V =

(n 1)S 2
ns2
=
02
02

contraste

regin crtica

H0 : 2 = 02

V < 2n1 , /2

H1 : 2 6= 02

V > 2n1 , 1/2

H0 : 2 02
H1 : 2 < 02
H0 : 2 02
H1 : 2 > 02

V < 2n1 ,
V > 2n1 , 1

69

Estadstica

Ejemplos que se van a resolver en clase


Ejemplo 7.1. Retomamos los datos del Ejemplo 6.1: En la tabla siguiente aparecen los datos de
10 bibliotecas, en las cuales se ha observado las siguientes variables: nmero total de ttulos
catalogados en un ao (X), nmero de horas totales al ao que emplea la biblioteca en catalogar
sus ttulos (Y ) y costo, en euros, de una hora de catalogacin (Z).

10
X
i=1

xi

yi

zi

1550

220

1575

1640

230

1450

1000

140

1640

950

135

1670

750

110

1710

1700

255

1250

1650

228

1480

1860

270

1525

1900

280

1850

900

130

1730

zi = 158 8

10
X

zi2 = 25470 965

i=1

a) Se puede aceptar, con un nivel de significacin de = 00 01, que la media poblacional


del costo de una hora de catalogacin es menor que 17 euros?
b) Se puede aceptar, con un nivel de significacin de = 00 01, que la desviacin tpica
poblacional del costo de una hora de catalogacin es mayor que 2 euros?

Ejemplo 7.2. Retomamos los datos del Ejemplo 6.2: En la tabla siguiente aparecen los resultados del
peso, en gramos, (X) y del precio, en euros, (Y ) de una muestra de 12 libros.

70

J. Marn Fernndez

12
X
i=1

xi

yi

325

110

890

30

415

75

400

45

515

32

650

69

790

30

890

34

320

42

420

46

620

53

720

97

yi = 663

12
X

yi2 = 44589

i=1

a) Se puede aceptar, con un nivel de significacin de = 00 01, que la media poblacional


del precio es igual a 55 euros?
b) Se puede aceptar, con un nivel de significacin de = 00 01, que la desviacin tpica
poblacional del precio es igual a 24 euros?

71

Estadstica

Problemas propuestos
Problema 7.1. El nmero medio recomendado de usuarios servidos semanalmente por cada miembro
del personal de una biblioteca es de 100. En una muestra aleatoria simple de 81 miembros del
personal de las bibliotecas de una determinada regin se obtiene una media de 1320 88 usuarios
servidos semanalmente, con una cuasidesviacin tpica de 550 19. Las bibliotecas de dicha
regin siguen la recomendacin mencionada?
Problema 7.2. El precio medio de los libros en rstica es de 630 4 euros, con una desviacin tpica de
140 8 euros. Una muestra aleatoria simple de 61 libros en rstica con ilustraciones en color tiene
un precio medio de 690 5 euros, con una cuasidesviacin tpica de 160 6 euros.
a) Permiten los datos afirmar que los libros en rstica con ilustraciones en color son ms
caros que el resto de libros en rstica?
b) La varianza del precio de los libros en rstica con ilustraciones en color es mayor que la
del precio de los libros en rstica?
Problema 7.3. Se sabe que el nmero medio de veces que un artculo cientfico es citado durante los 5
siguientes aos a su publicacin es de 60 5. Se eligen aleatoria e independientemente 71 artculos
de medicina, obtenindose una media de 70 8 citas durante los 5 siguientes aos a su publicacin,
con una cuasidesviacin tpica de 20 3. Se puede afirmar que durante los 5 siguientes aos a su
publicacin se citan ms los artculos de medicina que el resto de artculos cientficos?
Problema 7.4. En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el
tiempo (en minutos) que estn utilizando el ordenador para realizar esta tarea es:
22

13

17

14

15

18

19

14

17

20

21

13

15

18

17

a) Se puede aceptar, con un nivel de significacin de = 00 05, que la muestra es aleatoria?


b) Se puede aceptar, con un nivel de significacin de = 00 05, que la variable aleatoria
tiempo empleado en consultar bases de datos por ordenador es Normal?
c) Se puede aceptar, con un nivel de significacin de = 00 05, que la media poblacional
del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos?
d) Se puede aceptar, con un nivel de significacin de = 00 05, que la desviacin tpica
poblacional del tiempo empleado en consultar bases de datos por ordenador es menor que
2 minutos?

72

J. Marn Fernndez

Soluciones de los problemas propuestos


Solucin del problema 7.1. Sea X=Nmero de usuarios servidos semanalmente por cada miembro
del personal de la biblioteca. Hacemos un contraste sobre , con desconocida. La hiptesis
nula es H0 : = 100. El valor del estadstico de contraste es T = 50 3618. Si tomamos un
nivel de significacin de = 00 05, entonces la regin crtica es T < 10 9901 T > 10 9901.
En consecuencia, rechazamos H0 y, por tanto, las bibliotecas de dicha regin no siguen la
recomendacin. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 7.2. Sea X=Precio de los libros en rstica con ilustraciones color.
a) Hacemos un contraste sobre , con desconocida. La hiptesis nula es H0 : 630 4. El
valor del estadstico de contraste es T = 20 8700. Si tomamos un nivel de significacin de
= 00 05, entonces la regin crtica es T > 10 6706. En consecuencia, rechazamos H0 y,
por tanto, los libros en rstica con ilustraciones en color son ms caros (tienen un precio
medio mayor) que el resto de los libros en rstica. Finalmente, la respuesta a la pregunta
es S.
b) Hacemos un contraste sobre 2 , con desconocida. La hiptesis nula es H0 : 2
(140 8)2 . El valor del estadstico de contraste es V = 750 4821. Si tomamos un nivel de
significacin de = 00 05, entonces la regin crtica es V > 790 0819. En consecuencia,
aceptamos H0 y, por tanto, no se puede aceptar que la varianza del precio de los libros en
rstica con ilustraciones en color sea mayor que la varianza del precio de todos los libros
en rstica. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 7.3. Sea X=Nmero de veces que los artculos de medicina son citados durante los cinco siguientes aos a su publicacin. Hacemos un contraste sobre , con desconocida. La hiptesis nula es H0 : 60 5. El valor del estadstico de contraste es T = 40 7626.
Si tomamos un nivel de significacin de = 00 05, entonces la regin crtica es T > 10 6669. En
consecuencia, rechazamos H0 y, por tanto, se citan ms los artculos de medicina que el resto
de artculos cientficos (la media del nmero de citas es mayor). Finalmente, la respuesta a la
pregunta es S.
Solucin del problema 7.4. Sea X=Tiempo empleado en consultar bases de datos por ordenador.
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H0 :La muestra de datos de la variable X es aleatoria. El valor del estadstico de
contraste es R = 10. Como el nivel de significacin es = 00 05, entonces la regin de
aceptacin es el intervalo (3, 10). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.
b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es
H0 :La variable aleatoria X es Normal. El valor del estadstico de contraste es Dexp =
00 284074. Como el nivel de significacin es = 00 05, entonces la regin de aceptacin
es el intervalo (00 2568, 00 2858). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.
c) Hacemos un contraste sobre , con desconocida. La hiptesis nula es H0 : 15.
El valor del estadstico de contraste es T = 20 536486. Como el nivel de significacin es
= 00 05, entonces la regin crtica es T > 10 7613. En consecuencia, rechazamos H0

Estadstica

73

y, por tanto, la media del tiempo empleado en consultar bases de datos por ordenador es
mayor que 15 minutos. Finalmente, la respuesta a la pregunta es S.
d) La pregunta que se nos hace es < 2? Esta pregunta es equivalente a 2 < 22 ? Por
tanto, hacemos un contraste sobre 2 , con desconocida. La hiptesis nula es H0 : 2
22 . El valor del estadstico de contraste es V = 280 4 3. Como el nivel de significacin
es = 00 05, entonces la regin crtica es V < 60 57063. En consecuencia, aceptamos
H0 y, por tanto, no se puede aceptar que la desviacin tpica (poblacional) del tiempo
empleado en consultar bases de datos por ordenador es menor que 2 minutos. Finalmente,
la respuesta a la pregunta es NO.

8
Contrastes paramtricos en dos
poblaciones

Resumen del tema


8.1. Comparacin de dos varianzas
Muestras aleatorias simples independientes de tamaos n1 y n2 .
condiciones

Poblaciones Normales.
1 , 2 desconocidas.

estadstico

contraste

regin crtica

S12
F = 2
S2

con S12 S22

H0 : 12 = 22

H0 : 12 22

H0 : 12 22

H1 : 12 6= 22

H1 : 12 < 22

H1 : 12 > 22

F <

Fn2 1,n1 1,1/2


F > Fn1 1,n2 1,1/2

F <

75

1
Fn2 1,n1 1,1

F > Fn1 1,n2 1,1

76

J. Marn Fernndez

8.2. Comparacin de dos medias


8.2.1. Muestras independientes y varianzas poblacionales conocidas

Muestras aleatorias simples independientes de tamaos n1 y n2 .


condiciones

Poblaciones Normales (o cualesquiera si n1 , n2 30).


1 , 2 conocidas.

estadstico

contraste
regin crtica

X1 X2
Z=r 2
1 22
+
n1 n2
H0 : 1 = 2

H0 : 1 2

H0 : 1 2

H1 : 1 6= 2

H1 : 1 < 2

H1 : 1 > 2

Z < Z1

Z > Z1

Z < Z1/2
Z > Z1/2

8.2.2. Muestras independientes y varianzas poblacionales desconocidas e iguales

Muestras aleatorias simples independientes de tamaos n1 y n2 .


condiciones

Poblaciones Normales (o cualesquiera si n1 , n2 30).


1 , 2 desconocidas pero iguales.

estadstico

contraste
regin crtica

T =s

X1 X2
(n1 1)S12 + (n2 1)S22
n1 + n2 2

1
1
+
n1 n2

H0 : 1 = 2

H0 : 1 2

H0 : 1 2

H1 : 1 6= 2

H1 : 1 < 2

H1 : 1 > 2

T < tn1 +n2 2 , 1

T > tn1 +n2 2 , 1

T < tn1 +n2 2 , 1/2


T > tn1 +n2 2 , 1/2

77

Estadstica

8.2.3. Muestras independientes y varianzas poblacionales desconocidas y distintas

Muestras aleatorias simples independientes de tamaos n1 y n2 .


Poblaciones Normales (o cualesquiera si n1 , n2 30).

condiciones

1 , 2 desconocidas y distintas.
X1 X2
T =r 2
S2
S1
+ 2
n1
n2

estadstico

2
S12 S22
+
n1
n2
o
g=n natural ms prximo a  2 2  2 2
S2
S1
n1
n2
+
n1 1
n2 1


grados de libertad

contraste

H0 : 1 = 2

H0 : 1 2

H0 : 1 2

H1 : 1 6= 2

H1 : 1 < 2

H1 : 1 > 2

T < tg , 1

T > tg , 1

T < tg , 1/2

regin crtica

T > tg , 1/2

8.2.4. Muestras apareadas

condiciones

estadstico

contraste
regin crtica

Muestras aleatorias simples apareadas de tamao n.


La variable aleatoria D = X1 X2 es Normal (o cualquiera si n 30).

T =

D
donde D y SD son la media y la cuasidesviacin tpica de D
SD

H0 : 1 = 2

H0 : 1 2

H0 : 1 2

H1 : 1 6= 2

H1 : 1 < 2

H1 : 1 > 2

T < tn1 , 1

T > tn1 , 1

T < tn1 , 1/2


T > tn1 , 1/2

78

J. Marn Fernndez

Ejemplos que se van a resolver en clase


Ejemplo 8.1. En la tabla siguiente aparece el precio, en euros, de una muestra aleatoria de 15 libros
que se prestan pocas veces (X1 ) y el precio, en euros, de una muestra aleatoria de 15 libros que
se prestan muchas veces (X2 ).

15
X

x1i = 734

i=1

15
X

x21i

x1i

x2i

75

110

32

30

30

45

34

69

42

46

57

53

51

97

36

43

82

42

45

37

58

48

66

45

40

105

35

61

51

57

= 39510

i=1

15
X

x2i = 888

i=1

15
X

x22i = 61426

i=1

a) Se puede aceptar, con un nivel de significacin de 00 05, que la varianza poblacional del
precio de los libros que se prestan poco es igual a la varianza poblacional del precio de los
libros que se prestan mucho?
b) Se puede aceptar, con un nivel de significacin de 00 05, que la media poblacional del
precio de los libros que se prestan poco es igual a la media poblacional del precio de los
libros que se prestan mucho?
Ejemplo 8.2. En la siguiente tabla aparece el nmero de palabras por resumen de una muestra aleatoria de 30 artculos cientficos escritos en francs (X1 ) y el nmero de palabras por resumen
de una muestra aleatoria de 30 artculos cientficos escritos en ingls (X2 ).

x1i

x2i

70

65

68

74

79

67

75

80

62

69

61

57

71

74

82

91

70

64

72

67

74

70

81

85

70

74

75

71

69

54

80

47

59

67

89

57

72

78

74

72

104

118

89

87

79

78

101

120

107

95

85

87

90

98

89

75

90

101

85

94

79

Estadstica

30
X

x1i = 2141

i=1

30
X

x21i = 154627

i=1

30
X

x2i = 2567

i=1

30
X

x22i = 227713

i=1
0

a) Se puede aceptar, con un nivel de significacin de 0 05, que la varianza poblacional de la


longitud de los resmenes de artculos escritos en francs es igual a la varianza poblacional
de la longitud de los resmenes de artculos escritos en ingls?
b) Se puede aceptar, con un nivel de significacin de 00 05, que la media poblacional de la
longitud de los resmenes de artculos escritos en francs es igual a la media poblacional
de la longitud de los resmenes de artculos escritos en ingls?
Ejemplo 8.3. Se est estudiando el nmero de palabras por resumen de los artculos cientficos de
un determinado volumen de Economics Abstracts. La varianza poblacional es conocida e igual
a 6150 04. Se extrae una muestra aleatoria simple de 30 resmenes escritos en alemn y se
observa que la media es 670 47, y otra muestra aleatoria simple de 32 resmenes escritos en
ingls, obtenindose una media de 720 5. Existe diferencia significativa entre el nmero medio
de palabras por resumen en alemn y el nmero medio de palabras por resumen en ingls?
Ejemplo 8.4. Dos expertos califican una muestra aleatoria de 30 libros segn su calidad (1=muy
mala, 2=mala, 3=regular, 4=buena, 5=muy buena). En la tabla siguiente aparece la opinin del
primer experto (X1 ) y la opinin del segundo experto (X2 ).
x1i

x2i

di = x1i x2i

x1i

x2i

di = x1i x2i

-1

-1

-1

-4

-3

-1

-2

-3

-2

-2

-1

-2

-3

30
X
i=1

di = 7

30
X

d2i = 101

i=1

Se puede aceptar, con un nivel de significacin de 00 05, que la media poblacional de los resultados de la opinin del primer experto es igual a la media poblacional de los resultados de la
opinin del segundo experto?

80

J. Marn Fernndez

Problemas propuestos
Problema 8.1. El precio de los libros de una biblioteca es una variable aleatoria Normal de media
630 3 euros y desviacin tpica 190 4 euros. Se sospecha que el precio medio de los libros de
ciencias fsicas es mayor que el precio medio de los libros de ciencias sociales. Para obtener
alguna evidencia sobre la sospecha, se selecciona una muestra aleatoria simple de 20 libros
de ciencias fsicas y otra de 30 libros de ciencias sociales, obtenindose una media de 570 5
euros para los primeros, y 520 6 euros para los segundos. Podemos afirmar, con un nivel de
significacin de 00 05, que es cierta nuestra sospecha?
Problema 8.2. Se nos ha sealado la posibilidad de que se paguen sueldos distintos a documentalistas
segn el sexo. Presumiblemente, a los hombres se les ha pagado ms que a las mujeres. Un
estudio de los sueldos anuales durante los cinco aos anteriores al actual arroja los siguientes
resultados:

media muestral
cuasidesviacin tpica muestral

hombres

mujeres

21.980

20.470

1.810

2.290

25

50

tamao muestral

A la vista de estos datos, y utilizando un nivel de significacin de 00 01, podemos afirmar que
el sueldo de los hombres documentalistas es mayor que el de las mujeres documentalistas?
Problema 8.3. Elegimos al azar 30 matrimonios y observamos el nmero de veces que los hombres
han visitado alguna biblioteca en los tres ltimos meses (X1 ) y el nmero de veces que las mujeres han visitado alguna biblioteca en los tres ltimos meses (X2 ). Los resultados se muestran
en la siguiente tabla.
x1i

x2i

di = x1i x2i

x1i

x2i

di = x1i x2i

x1i

x2i

di = x1i x2i

12

10

-2

25

14

11

30

11

19

14

15

-1

12

16

-4

10

12

-2

20

12

10

-2

20

16

13

19

-6

23

20

15

10

11

14

17

-3

14

10

-2

11

12

-1

-1

12

23

-11

10

-1

27

10

17

15

20

-5

32

27

42

35

14

18

-4

30
X
i=1

di = 51

30
X
i=1

d2i = 1273

81

Estadstica

Podemos afirmar que hay diferencia significativa entre los hombres y las mujeres de los matrimonios en cuanto al nmero de veces que van a la biblioteca?
Problema 8.4. En la siguiente tabla aparece el nmero de usuarios diarios de la biblioteca A (variable
X1 ) y el nmero de usuarios diarios de la biblioteca B (variable X2 ) en 10 das elegidos al azar.
x1i

x2i

di = x1i x2i

51

45

72

58

14

35

32

70

56

14

75

68

98

76

22

100

88

12

80

69

11

72

57

15

90

75

15

10
X
i=1

di = 119

10
X

d2i = 1685

i=1

a) Se puede aceptar, con un nivel de significacin de 00 05, que la muestra de las diferencias
di es aleatoria?
b) Se puede aceptar, con un nivel de significacin de 00 05, que la variable diferencia D =
X1 X2 es Normal?
c) Se puede aceptar, con un nivel de significacin de 00 05, que la media poblacional del
nmero de usuarios diarios de la biblioteca A es igual a la media poblacional del nmero
de usuarios diarios de la biblioteca B?

82

J. Marn Fernndez

Soluciones de los problemas propuestos


Solucin del problema 8.1. Sea X1 =precio de los libros de ciencias fsicas y X2 =precio de los libros de ciencias sociales. Hacemos el contraste de comparacin de dos medias en el que la
hiptesis nula es H0 : 1 2 . Las muestras son independientes y las varianzas poblacionales
se consideran conocidas: 12 = 22 = 190 42 . El valor del estadstico de contraste es Z = 00 8750.
Como el nivel de significacin es = 00 05, entonces la regin crtica es Z > 10 6449. En consecuencia, aceptamos H0 y, por tanto, no podemos aceptar que el precio medio de los libros de
ciencias fsicas sea mayor que el precio medio de los libros de ciencias sociales. Finalmente, la
respuesta a la pregunta es NO.
Solucin del problema 8.2.
1) En primer lugar tenemos que hacer un contraste de comparacin de dos varianzas poblacionales ya que stas son desconocidas, y no sabemos si son iguales o distintas.
Debe ser X1 =sueldo anual de las mujeres documentalistas y X2 =sueldo anual de los
hombres documentalistas, pues la cuasidesviacin tpica muestral en las mujeres es mayor
que en los hombres.
Hacemos el contraste de comparacin de dos varianzas en el que la hiptesis nula es H0 :
12 = 22 . Las muestras son independientes y se supone que las dos variables aleatorias
son normales. El valor del estadstico de contraste es F = 10 6007. Como el nivel de
significacin es = 00 01, entonces la regin crtica es F < 00 4249 F > 20 6522. En
consecuencia, aceptamos H0 y, por tanto, las varianzas poblacionales son desconocidas
pero iguales.
2) En segundo lugar hacemos un contraste de comparacin de dos medias en el que la hiptesis nula es H0 : 1 2 . Las muestras son independientes y las desviaciones tpicas poblacionales son desconocidas pero iguales. El valor del estadstico de contraste es
T = 20 8751. Como el nivel de significacin es = 00 01, entonces la regin crtica
es T < 20 3789. En consecuencia, rechazamos H0 y, por tanto, aceptamos que el sueldo medio de los hombres documentalistas es mayor que el sueldo medio de las mujeres
documentalistas. Finalmente, la respuesta a la pregunta es S.
Solucin del problema 8.3. Hacemos el contraste de comparacin de dos medias en el que la hiptesis nula es H0 : 1 = 2 . Las muestras son apareadas. El valor del estadstico de contraste es T = 10 455832. Si el nivel de significacin es = 00 05, entonces la regin crtica
es T < 20 0452 T > 20 0452. En consecuencia, tenemos que aceptar H0 . Por tanto, no hay
diferencia significativa entre los hombres y las mujeres de los matrimonios en cuanto al nmero
de veces que van a la biblioteca. Finalmente, la respuesta a la pregunta es NO.
Solucin del problema 8.4. Sea D la variable aleatoria diferencia entre X1 y X2 ; es decir D =
X1 X 2 .
a) Hacemos el contraste de las rachas sobre aleatoriedad de la muestra en el que la hiptesis
nula es H0 :La muestra de datos de la variable D es aleatoria. El valor del estadstico
de contraste es R = 8. Como el nivel de significacin es = 00 05, entonces la regin de
aceptacin es el intervalo (2, 10). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.

Estadstica

83

b) Hacemos el contraste de DAgostino sobre normalidad en el que la hiptesis nula es


H0 :La variable aleatoria D es Normal. El valor del estadstico de contraste es Dexp =
00 274802. Como el nivel de significacin es = 00 05, entonces la regin de aceptacin
es el intervalo (00 2513, 00 2849). Por tanto, aceptamos H0 . Finalmente, la respuesta a la
pregunta es S.
c) Hacemos el contraste de comparacin de dos medias en el que la hiptesis nula es H0 :
1 = 2 . Las muestras son apareadas. El valor del estadstico de contraste es T =
60 884506. Como el nivel de significacin es = 00 05, entonces la regin crtica es
T < 20 2622 T > 20 2622. En consecuencia, tenemos que rechazar H0 . Por tanto, la
media poblacional del nmero de usuarios diarios de la biblioteca A no es igual a la media
poblacional del nmero de usuarios diarios de la biblioteca B. Finalmente, la respuesta a
la pregunta es NO.

También podría gustarte