Métodos

Estadísticos
de la Ingeniería
Mathieu Kessler
• Los métodos estadísticos persiguen extraer   de la manera más eficiente 
posible  la  información  presente  en  conjuntos  de  datos.     Su  uso  se  ha 
generalizado   en   todos   los   campos   de   la   ingeniería   y   son   varias   las 
asignaturas   aplicadas   en   las   titulaciones   de   Ingeniero   Industrial   o 
Ingeniero  Técnico  Industrial   que  presuponen  por   parte  del   alumno  el 
manejo  básico  de  técnicas  estadísticas  sencillas.   Este  manual   recorre  el 
camino   desde   la   exploración   previa   de   un   conjunto   de   datos,     la 
formulación de un modelo aleatorio para el mecanismo de generación de 
éstos, hasta la introducción a las técnicas de inferencia que formalizan el 
carácter significativo o no de las conclusiones que se puede extraer de los 
datos resultantes de un experimento. 
Se ha optado por una presentación intuitiva de los conceptos intentando 
en la medida de lo posible relacionarlos con la experiencia práctica o el 
sentido común…
• Mathieu   Kessler   es   Catedrático   de   Universidad   en   el   área   de 
Estadística e Investigación Operativa en el Departamento de Matemática 
Aplicada  y  Estadística  de  la  Universidad  Politécnica  de   Cartagena.   Es 
doctor en Estadística por la Universidad de Paris VI y autor de numerosas 
publicaciones tanto sobre estadística teórica como sobre aplicaciones de la 
estadística en revistas internacionales.
Autor: Mathieu Kessler
ISBN: 978­84­96997­07­3
D. Legal: MU­1949­2008
M´etodos Estad´ısticos de la Ingenier´ıa
Mathieu Kessler
Departamento de Matem´atica Aplicada y Estad´ıstica
Universidad Polit´ecnica de Cartagena
mathieu.kessler@upct.es
i
Pr´ologo
Este manual se ha desarrollado a partir de los apuntes que el autor usa como so-
porte para sus clases en la asignatura de “M´etodos Estad´ısticos de la Ingenier´ıa” que
ha impartido en numerosas ocasiones, tanto en la titulaci´on de Ingeniero Industrial
como en la de Ingeniero T´ecnico Industrial de varias especialidades.
Se pueden destacar tres objetivos para esta asignatura:
capacitar al alumno para extraer, resumir y comunicar informaci´on a partir de
conjuntos de datos experimentales,
proporcionarle las herramientas para la construcci´on de modelos para estos
datos a trav´es de variables aleatorias,
finalmente, introducir al alumno en los conceptos de la inferencia estad´ıstica,
permiti´endole llegar a conclusiones significativas a partir de una muestra.
El temario de la asignatura recorre estos objetivos, escogiendo deliberadamente
una presentaci´on intuitiva de los conceptos e intentando en la medida de lo posible
relacionarlos con la experiencia pr´actica o el sentido com´ un de los alumnos. En
la primera parte, se pone especial ´enfasis en el uso intensivo de gr´aficas para la
exploraci´on de datos.
Quiero dar las gracias aqu´ı en primer lugar, a todos los alumnos que he tenido y
que, por sus preguntas y dudas me han obligado a precisar y pulir mis explicaciones,
e incluso mi propia comprensi´on de los conceptos. Muchos de ellos me han regalado
su atenci´on, su ilusi´on, su inter´es, y por ello, me han hecho disfrutar con mi trabajo.
Tambi´en estoy agradecido a mis compa˜ neros del ´area de Estad´ıstica e I.O y
del Departamento de Matem´atica Aplicada y Estad´ıstica, por contribuir a crear un
ambiente de trabajo agradable y estimulante, asi como a la Escuela T´ecnica Superior
de Ingenieros Industriales de la UPCT por su apoyo en una primera edici´on de este
manual.
Finalmente dedico este libro a Graci, Quique y David por ser la alegr´ıa de mis
d´ıas, por su admiraci´on ciega y en absoluto fundamentada en sus conocimientos
estad´ısticos, y por estar siempre all´ı cuando vuelvo a casa...
´
Indice general
I Exploraci´on de datos 1
I.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2 Unos cuantos t´erminos . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.3 Tabulaci´on y representaciones gr´aficas . . . . . . . . . . . . . . . . . 2
I.3.1 Gr´aficas para variable cualitativa . . . . . . . . . . . . . . . 2
I.3.2 Gr´aficas para una variable cuantitativa . . . . . . . . . . . . 3
I.4 Medidas num´ericas . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.4.1 Medidas de centro . . . . . . . . . . . . . . . . . . . . . . . . 9
I.4.2 Medidas de dispersi´on . . . . . . . . . . . . . . . . . . . . . 10
I.4.3 Un resumen gr´afico: el diagrama de caja-bigotes . . . . . . . 11
I.5 Ajuste por m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . 12
I.5.1 Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 12
I.5.2 Criterio de m´ınimos cuadrados . . . . . . . . . . . . . . . . . 13
I.5.3 Casos concretos . . . . . . . . . . . . . . . . . . . . . . . . . 16
II Fundamentos de la teor´ıa de la probabilidad. 25
II.1 Conceptos b´asicos relacionados con un experimento . . . . . . . . . 25
II.1.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . 25
II.1.2 Suceso elemental . . . . . . . . . . . . . . . . . . . . . . . . 26
II.1.3 Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . 26
II.1.4 Suceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.1.5 Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . 27
II.1.6 Leyes de Morgan . . . . . . . . . . . . . . . . . . . . . . . . 27
II.2 Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 28
II.2.1 Definici´on informal de la probabilidad - propiedades. . . . . 28
II.2.2 El caso de un espacio muestral finito y la definici´on de Laplace. 29
II.3 La probabilidad condicionada. . . . . . . . . . . . . . . . . . . . . . 31
II.3.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
II.3.2 Regla del producto. . . . . . . . . . . . . . . . . . . . . . . . 32
II.3.3 Propiedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
II.4 Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . 32
II.4.1 Definici´on para dos sucesos . . . . . . . . . . . . . . . . . . . 32
II.4.2 Definici´on para n sucesos . . . . . . . . . . . . . . . . . . . . 33
II.5 Ejemplos de probabilidades condicionadas en la vida diaria . . . . . 33
II.5.1 Eslogan publicitario para la loter´ıa . . . . . . . . . . . . . . 33
II.5.2 Tabaquismo y c´ancer de pulm´on . . . . . . . . . . . . . . . . 33
II.5.3 Tabaquismo y esperanza de vida . . . . . . . . . . . . . . . . 34
II.6 F´ormula de la probabilidad total y teorema de Bayes . . . . . . . . 34
2
´
INDICE GENERAL
II.6.1 Condiciones de aplicaci´on . . . . . . . . . . . . . . . . . . . 34
II.6.2 Los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 34
II.6.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
III Variable aleatoria I 37
III.1 Concepto de variable aleatoria . . . . . . . . . . . . . . . . . . . . . 37
III.1.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.2 Distribuci´on de una variable aleatoria . . . . . . . . . . . . . 38
III.2 Funci´on de distribuci´on de una v.a . . . . . . . . . . . . . . . . . . 39
III.2.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.2.2 C´alculo para el ejemplo de las tres monedas . . . . . . . . . 39
III.2.3 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.3 Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 40
III.3.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.3.2 Funci´on puntual de probabilidad . . . . . . . . . . . . . . . 40
III.3.3 Caracter´ısticas de una variable discreta . . . . . . . . . . . . 41
III.3.4 Modelos m´as usados de v.a. discretas . . . . . . . . . . . . . 43
III.4 Variable continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.4.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.4.2 Funci´on de densidad . . . . . . . . . . . . . . . . . . . . . . 47
III.4.3 Medidas num´ericas asociadas a una v.a continua . . . . . . . 50
III.4.4 Modelos m´as comunes de v.a continua . . . . . . . . . . . . 52
III.5 Algunas propiedades ´ utiles de la esperanza y la varianza . . . . . . 59
IV Variable Aleatoria II 61
IV.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.2 Variable bidimensional discreta . . . . . . . . . . . . . . . . . . . . . 61
IV.2.1 Funci´on puntual de probabilidad conjunta . . . . . . . . . . 62
IV.2.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
IV.3 Variable bidimensional continua . . . . . . . . . . . . . . . . . . . . 63
IV.3.1 Funci´on de densidad conjunta . . . . . . . . . . . . . . . . . 63
IV.3.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
IV.4 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . 65
IV.4.1 V.a bidimensional discreta . . . . . . . . . . . . . . . . . . . 65
IV.4.2 Para una v.a bidimensional continua . . . . . . . . . . . . . 66
IV.4.3 Esperanza condicionada . . . . . . . . . . . . . . . . . . . . 67
IV.5 Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . 67
IV.5.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
IV.5.2 Consecuencias pr´acticas . . . . . . . . . . . . . . . . . . . . 68
IV.6 Medidas num´ericas para una v.a bidimensional . . . . . . . . . . . . 68
IV.6.1 Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
IV.6.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
IV.7 Algunos modelos de v.a. multidimensional . . . . . . . . . . . . . . 70
IV.7.1 Modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . 70
IV.7.2 El modelo Normal multidimensional . . . . . . . . . . . . . 71
V Muestreo y distribuciones muestrales 75
V.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
´
INDICE GENERAL 3
V.2 Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
V.3 La media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
V.3.1 Esperanza y varianza de
¯
X . . . . . . . . . . . . . . . . . . . 79
V.3.2 Distribuci´on de la media muestral . . . . . . . . . . . . . . . 81
V.4 La varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . 82
V.5 Distribuci´on t de Student . . . . . . . . . . . . . . . . . . . . . . . . 82
V.6 La proporci´on muestral . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.6.1 C´alculos exactos para la distribuci´on de ˆ p . . . . . . . . . . 85
V.6.2 Distribuci´on aproximada de ˆ p . . . . . . . . . . . . . . . . . 85
V.7 Introducci´on a las gr´aficas de control . . . . . . . . . . . . . . . . . 86
V.7.1 Gr´afica de control
¯
X. . . . . . . . . . . . . . . . . . . . . . . 86
V.7.2 Gr´afica de control ˆ p . . . . . . . . . . . . . . . . . . . . . . . 87
V.7.3 Otra se˜ nal de alarma . . . . . . . . . . . . . . . . . . . . . . 88
VI Introducci´on a la teor´ıa de la estimaci´on 89
VI.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.2 Estimaci´on puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.2.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.2.2 Propiedades deseables para un estimador . . . . . . . . . . . 90
VI.2.3 M´etodos de construcci´on de estimadores . . . . . . . . . . . 91
VI.3 Estimaci´on por intervalos . . . . . . . . . . . . . . . . . . . . . . . . 95
VI.3.1 Idea b´asica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
VI.3.2 Intervalo de confianza para la media µ de una distribuci´on
Normal con varianza conocida . . . . . . . . . . . . . . . . . 95
VI.3.3 Comentarios importantes . . . . . . . . . . . . . . . . . . . . 98
VI.3.4 Determinaci´on del tama˜ no muestral . . . . . . . . . . . . . . 99
VII Introducci´on a los contrastes de hip´otesis 103
VII.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
VII.2 Planteamiento general . . . . . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.1 Hip´otesis estad´ıstica . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.2 Regla de decisi´on . . . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.3 Evaluaci´on del error . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.4 Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . 105
VII.3 Contraste de hip´ otesis para la media µ de una distribuci´on Normal
con varianza conocida. . . . . . . . . . . . . . . . . . . . . . . . . . 106
VII.3.1 Hip´otesis bilateral . . . . . . . . . . . . . . . . . . . . . . . . 106
VII.3.2 Hip´otesis unilateral . . . . . . . . . . . . . . . . . . . . . . . 107
VII.3.3 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
VII.4 Concepto de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
VII.5 Potencia del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
VII.5.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
VII.5.2 C´alculo de la potencia . . . . . . . . . . . . . . . . . . . . . 111
VII.5.3 Ejemplo de c´alculo de la potencia . . . . . . . . . . . . . . . 112
VII.5.4 Factores que influyen la potencia . . . . . . . . . . . . . . . 113
VII.6 Inferencia para la media . . . . . . . . . . . . . . . . . . . . . . . . 113
VII.6.1 Contraste de hip´otesis para la media µ de una distribuci´on
Normal con varianza desconocida . . . . . . . . . . . . . . . 113
4
´
INDICE GENERAL
VII.7 Inferencia para dos medias . . . . . . . . . . . . . . . . . . . . . . . 115
VII.7.1 Estad´ısticos muestrales . . . . . . . . . . . . . . . . . . . . . 116
VII.7.2 Intervalos y contrastes . . . . . . . . . . . . . . . . . . . . . 117
TEMA I
Exploraci´ on de datos
I.1. Introducci´on
La estad´ıstica utiliza datos para conseguir comprensi´on sobre un fen´omeno. B´asi-
camente, esta comprensi´on es una consecuencia de la combinaci´on entre conocimien-
tos previos sobre el fen´omeno y nuestra capacidad para utilizar gr´aficos y c´alculos
para extraer informaci´on de los datos.
En contextos industriales se recogen a menudo grandes conjuntos de datos cor-
respondientes a un gran n´ umero de variables. Un efecto contradictorio aparece: por
una parte, cuanto m´as datos, m´as informaci´on podemos extraer sobre las variables
de inter´es, pero a la vez es m´as dif´ıcil su extracci´on.
En este contexto aparece una primera etapa fundamental frente a un conjunto
de datos: la exploraci´on, que se realiza a trav´es de representaciones gr´aficas y del
c´alculo de unas cuantas medidas num´ericas bien escogidas.
Para tener las ideas claras, unos cuantos gr´aficos pueden proporcionarnos in-
formaci´on m´as valiosa que procedimientos sofisticados que no dominamos. En esta
asignatura, veremos en temas posteriores m´etodos m´as sofisticados de an´alisis pero
dedicamos ahora un cap´ıtulo a recordar las t´ecnicas elementales con el objetivo de
fomentar reacciones sanas frente a un conjunto de datos.
Aun cuando el conjunto de datos presenta varias variables, se debe empezar por
el estudio individual de cada una.
I.2. Unos cuantos t´erminos
Un conjunto de datos describe individuos, que pueden ser personas pero
tambi´en objetos. Por ejemplo, asociados a esta clase, podemos considerar que
los individuos son los alumnos.
Consideramos variables asociadas a este conjunto de datos, distinguiremos en-
tre variable cuantitativa , que asocia un n´ umero a cada individuo, o vari-
2 Mathieu Kessler: M´etodos Estad´ısticos
able cualitativa , que coloca cada individuo en una categor´ıa. Ejemplos de
variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el
grupo sangu´ıneo son en cambio variables cualitativas.
Un concepto fundamental que utilizaremos con frecuencia corresponde a la
distribuci´on de una variable X asociada a un conjunto de datos. Describir la
distribuci´on de X corresponde a establecer la lista de los valores que toma X
junto con la frecuencia con la que toma cada valor. Hablaremos de frecuencia
absoluta de un valor para denotar el n´ umero de veces que aparece este valor
en el conjunto de datos, mientras que la frecuencia relativa corresponde a
la proporci´on (o el porcentaje) de veces que aparece este valor.
En particular, una de las caracter´ısticas interesantes de un conjunto de datos
consiste en determinar si presenta mucha o poca variabilidad.
Ejemplo I.2.1 Consideremos por ejemplo la distribuci´on del grupo sangu´ıneo en
una clase presentada en la tabla siguiente:
Grupo Frec. absoluta Frec. relativa
A 51 51/145=0.35
B 19 0.13
O 5 0.03
AB 70 0.49
¿Qu´e representa la suma de la segunda columna (Frec. absoluta)? ¿Cuanto vale la
suma de la tercera columna?
I.3. Tabulaci´on y representaciones gr´aficas
Las representaciones gr´aficas son una herramienta fundamental para extraer in-
formaci´on de forma visual de un conjunto de datos. Pueden ser mucho m´as ´ utiles
que procedimientos sofisticados que uno no domina...
I.3.1. Gr´aficas para variable cualitativa
Para un conjunto de datos descritos por una variable cualitativa, podemos re-
alizar dos tipos de gr´aficas:
I.3.1.1. Diagrama de barras
Para cada valor que toma la variable en el conjunto y que indicamos en el eje
horizontal, representamos en el eje vertical su frecuencia absoluta o relativa, en forma
de una barra. En el caso del ejemplo I.2.1, obtenemos el diagrama de barra de la
figura I.1. Cabe destacar que se suelen ordenar los valores de la variable por orden
decreciente de frecuencias.
I.3.1.2. Diagrama de sectores
Si el conjunto no presenta demasiados valores distintos, tambi´en podemos utilizar
el diagrama de sectores, donde cada valor ocupa un sector circular cuya ´area es
proporcional a su frecuencia.
I.3 Tabulaci´on y representaciones gr´aficas 3
AB A B O
0
2
0
4
0
6
0
8
0
Figura I.1: Diagrama de barras, frecuencias absolutas, para el ejemplo I.2.1 del grupo
sangu´ıneo,
Para el ejemplo I.2.1, calculemos el ´angulo que ocupar´a el sector para cada uno
de los valores AB, A, B, O. Por una regla de tres, deducimos que si el c´ırculo entero
(360 grados) representar´a el n´ umero total de datos en el conjunto, es decir 145
individuos, el valor AB con una frecuencia de 70 individuos deber´a ocupar un sector
de 70/145360 = 174
o
. Asimismo, el valor A ocupar´a 126
o
, el valor B 48
o
, mientras
que el valor O ocupar´a solamente 12
o
. El diagrama de sectores correspondiente se
representa en la figura I.2.
I.3.2. Gr´aficas para una variable cuantitativa
Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos
se presentar´an o bien en forma bruta: un fichero con una columna para cada variable,
donde cada fila representa un individuo, o bien en forma ya tabulada, es decir donde
los datos est´an agrupados.
Para datos agrupados, consideremos mediciones del contenido en nitrato de una
muestra de agua:
Valor Frecuencia Valor Frecuencia
0.45 1 0.49 8
0.46 2 0.50 10
0.47 4 0.51 5
0.48 8 0.51 8
Tambi´en se puede representar gr´aficamente mediante un diagrama de barras esta
distribuci´on de frecuencias, indicando en el eje Ox los valores que puede tomar la
4 Mathieu Kessler: M´etodos Estad´ısticos
AB
A
B
O
Figura I.2: Diagrama de sectores para el ejemplo I.2.1 del grupo sangu´ıneo,
variable y en el eje Oy sus frecuencias. Obtenemos as´ı un diagrama de barras en el
ejemplo de las mediciones de la concentraci´on en nitrato, ver figura I.3.
0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52
2
4
6
8
1
0
Mediciones de nitrato
F
r
e
c
u
e
n
c
i
a
s
Figura I.3: Diagrama de barras para las concentraciones de nitrato
En el caso en que el conjunto presente muchas valores pr´oximos pero distintos,
I.3 Tabulaci´on y representaciones gr´aficas 5
agrupamos los datos por clases, tal como lo veremos en los apartados siguientes.
I.3.2.1. Ejemplo: mediciones de la velocidad de la luz
Consideramos para ilustrar los conceptos que introduciremos en el resto del tema
el conjunto de datos de Newcomb (http://www.dmae.upct.es/∼mathieu). Newcomb
fue el primero en conseguir ¡en 1882! una estimaci´on bastante precisa de la veloci-
dad de la luz. Las mediciones recogidas a continuaci´on corresponden a los tiempos
codificados que tard´o un rayo de luz en recorrer el camino de ida y vuelta desde el
laboratorio de Simon Newcomb situado en el R´ıo Potomac hasta un espejo situa-
do en la base del “Washington Monument”, en total una distancia de 7400m. Para
obtener los tiempos en nano segundos (10
−9
s) no codificados, hay que a˜ nadir 24800
a cada dato.
1
Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23,
29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30, 22,
36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28,
29, 16, 23
Al observar estos datos, podemos realizar dos comentarios:
1. ¿Por qu´e Newcomb repiti´o tantas veces las mediciones, y no se limit´o a realizar
el experimento una vez? Porque los datos resultados del experimento presentan
una cierta variabilidad: por mucho que haya intentado controlar las condiciones
experimentales para mantenerlas constantes, el resultado es imprevisible. La
medici´on est´a siempre perturbada por un “ruido” incontrolable...
2. ¿Qu´e hacer con estos datos? A la vista de estos datos, ¿cu´al es el valor que
podr´ıamos tomar como la velocidad de la luz? Debemos encontrar un valor
que sea representativo de las 66 mediciones realizadas. Se suele escoger la
media, pero para asegurarnos de que ´esta es representativa del conjunto, es
´ util establecer la tabla de frecuencias y visualizar el conjunto a trav´es de un
histograma, tal como lo vemos en la secci´on siguiente...
I.3.2.2. Tabla de frecuencias y histograma
En el caso en que el conjunto presente muchas valores pr´oximos pero distintos,
empezamos por agrupar los datos por clases: ordenamos los datos por orden cre-
ciente, dividimos el rango de los valores en clases de igual amplitud, y colocamos
cada dato en la clase que le toca. A continuaci´on podemos realizar el recuento de
las frecuencias de cada clase.
¿Cu´antas clases escoger?La elecci´on del n´ umero de clases es una problema que
no admite una soluci´on perfecta que sirva para todos los conjuntos de datos. Una
regla aproximada llamada regla de Sturges consiste en escoger 1+log
2
(n) clases para
un conjunto con n datos.
Para le ejemplo de las mediciones de Newcomb, los datos ordenados se presentan
como:
1
Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statis-
tics, W. H. Freeman and Company: New York, NY, pp 3-16.
6 Mathieu Kessler: M´etodos Estad´ısticos
Pos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Dato -44 -2 16 16 19 20 21 21 22 22 23 23 23 24 24
Pos 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Dato 24 24 24 25 25 25 25 25 26 26 26 26 26 27 27
Pos 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Dato 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29
Pos 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Dato 29 30 30 30 31 31 32 32 32 32 32 33 33 34 36
Pos 61 62 63 64 65 66
Dato 36 36 36 37 39 40
Utilizamos por ejemplo clases de amplitud 5 empezando en -45 y acabando en
40, y realizamos el recuento de las frecuencias de cada clase:
Clase Frecuencia Clase Frecuencia Clase Frecuencia
] −45, −40] 1 ] −15, −10] 0 ]15, 20] 4
] −40, −35] 0 ] −10, −5] 0 ]20, 25] 17
] −35, −30] 0 ] −5, 0] 1 ]25, 30] 26
] −30, −25] 0 ]0, 5] 0 ]30, 35] 10
] −25, −20] 0 ]5, 10] 0 ]35, 40] 7
] −20, −15] 0 ]10, 15] 0
Cuando establecemos la tabla de frecuencias de una variable cuantitativa, in-
dicamos tambi´en las frecuencias acumuladas de cada clase: la frecuencia absoluta
(relativa) acumulada de una clase es el n´ umero (proporci´on) de datos que pertenecen
a esta clase o a alguna clase anterior.
La tabla completa de frecuencias tal como nos la suele presentar un programa
de estad´ıstica incluye las frecuencias absolutas y relativas as´ı como las frecuencias
acumuladas absolutas y relativas. Para el ejemplo de las mediciones de Newcomb,
la tabla completa se puede ver en la Tabla I.1 m´as abajo.
Por otra parte, los datos tabulados se examinan con m´as comodidad a trav´es
de representaciones gr´aficas. En el eje Ox aparecen las clases y en el eje Oy las
frecuencias, el diagrama resultante se llama histograma. En la figura I.4, aparece el
histograma para las mediciones de Newcomb. Se pueden representar histogramas de
frecuencias absolutas, relativas, absolutas acumuladas o relativas acumuladas.
I.3.2.3. C´omo interpretar un histograma
Las representaciones gr´aficas describen la distribuci´on de la variable en el con-
junto. Al examinarlos hay que que intentar contestar a las siguientes preguntas, para
resumir las caracter´ısticas de la distribuci´on.
1. ¿ Es el histograma sim´etrico? Es decir, ¿aparece un punto central, respecto
al cual, los valores se van repartiendo de manera aproximadamente sim´etrica?
Esta es la situaci´on cl´asica para un conjunto de mediciones: el valor central
ser´ıa lo m´as representativo de lo que intentamos medir, y las mediciones van
sobrevalorando e infravalorando de manera sim´etrica este valor. Si no consid-
eramos los valores -44 y -2 en el conjunto de Newcomb, por ser muy diferentes
I.3 Tabulaci´on y representaciones gr´aficas 7
Clase Frecuencias Frec. Acumuladas
Absolutas Relativas( %) Absolutas Relativas( %)
] −45, −40] 1 1.5 1 1.5
] −40, −35] 0 0.0 1 1.5
] −35, −30] 0 0.0 1 1.5
] −30, −25] 0 0.0 1 1.5
] −25, −20] 0 0.0 1 1.5
] −20, −15] 0 0.0 1 1.5
] −15, −10] 0 0.0 1 1.5
] −10, −5] 0 0.0 1 1.5
] −5, 0] 1 1.5 2 3.0
]0, 5] 0 0.0 2 3.0
]5, 10] 0 0.0 2 3.0
]10, 15] 0 0.0 2 3.0
]15, 20] 4 6 6 9
]20, 25] 17 25.7 23 34.7
]25, 30] 26 39.3 49 74
]30, 35] 10 15.3 59 89.3
]35, 40] 7 10.7 66 100
TOTAL 66 100.0
Tabla I.1: Tabla de frecuencias, mediciones de Newcomb.
Mediciones
F
r
e
c
u
e
n
c
i
a
s
0
10
20
30
40
−40 −20 0 20 40
Figura I.4: Histograma para las mediciones de Newcomb
del resto del conjunto, podemos decir que la distribuci´on de las mediciones es
aproximadamente sim´etrica.
2. ¿Posee la distribuci´on colas largas?
8 Mathieu Kessler: M´etodos Estad´ısticos
3. ¿Posee el histograma un m´aximo claro ´ unico? En este caso hablamos de his-
tograma unimodal.
4. ¿Aparecen datos at´ıpicos?, es decir datos que se alejan del patr´on global de los
datos. Para el conjunto de Newcomb, dos datos aparecen claramente at´ıpicos: -
44 y -2, mientras que las 64 mediciones restantes est´an entre 15 y 40. Al detectar
datos at´ıpicos, debemos comprobar que no se deban a errores tipogr´aficos,
y buscar si est´an asociados a unas circunstancias experimentales especiales.
Podremos entonces decidir corregirlos u omitirlos del estudio.
5. ¿Donde localizamos el centro aproximado de los datos?
6. ¿Presentan los datos mucha dispersi´on?, lo que se traduce en la forma punti-
aguda o chata del histograma. En el caso de mediciones, el hecho de que los
datos est´en concentrados revela que se consigui´o una buena regularidad en el
proceso de medici´on...
En la figura I.5, presentamos varios patrones de histogramas.
Histograma aprox. simétrico, unimodal, con colas cortas.
x1
F
re
c
.
1.5 2.0 2.5 3.0 3.5 4.0 4.5
0
1
0
2
0
3
0
4
0
Histograma asimétrico
x00
F
re
c
.
0 2 4 6 8 10
0
1
0
2
0
3
0
4
0
Cola larga a la derecha
x0
F
re
c
.
0 5 10 15
0
1
0
2
0
3
0
Histograma bimodal
x12
F
re
c
.
2 3 4 5 6 7
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
Figura I.5: Distintos patrones de histogramas.
I.4. Medidas num´ericas
Para variables cuantitativas, se suele acompa˜ nar las representaciones gr´aficas de
las distribuciones con medidas num´ericas que proporcionen un resumen de sus car-
acter´ısticas principales. Existen medidas num´ericas para contestar a cada pregunta
I.4 Medidas num´ericas 9
(y alguna m´as...) planteadas en el apartado anterior a la hora de examinar el his-
tograma. Nos limitaremos a las medidas de centro y de dispersi´on, es decir las que
proporcionen una respuesta a las preguntas 5 y 6.
I.4.1. Medidas de centro
Buscamos ahora medidas num´ericas que sean representativas del centro del con-
junto de dato.
I.4.1.1. La media:
Si x
1
, . . . , x
n
son los datos, sabemos todos que la media es
¯ x =
x
1
+ +x
n
n
.
En el caso en que los datos ya est´an tabulados y tenemos los valores distintos
x
1
, . . . , x
m
junto con sus frecuencias n
1
, . . . , n
m
, deberemos tener en cuenta estas
frecuencias para el c´alculo de la media:
¯ x =
n
1
x
1
+ +n
m
x
m
(n
1
+. . . +n
m
)
.
En este caso, ¿cu´antos individuos tenemos en el conjunto?
Nota: Representa el centro de gravedad de los datos, es decir que si a cada dato
le damos un peso unidad, la media representa el punto en el que el conjunto est´a en
equilibrio.
En particular, deducimos que la media es muy sensible a datos at´ıpicos en el con-
junto de datos: si a˜ nado un dato (peso) alejado del centro de gravedad, el punto de
equilibrio debe desplazarse mucho hacia ´este para que se mantenga el equilibrio.
Para paliar estos inconvenientes, se considera tambi´en la mediana:
I.4.1.2. La mediana:
La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 %
a su derecha. Es una medida de centralizaci´on m´as adecuada que la media en el caso
en que la distribuci´on de los datos es asim´etrica ( lo que se ve en el histograma) o si
hay datos at´ıpicos. Si la distribuci´on es sim´etrica, la media y la mediana coinciden.
Para calcular la mediana de un conjunto de n datos, x
1
, x
2
, . . . , x
n
, empiezo por
ordenar los datos por orden creciente. La mediana es el dato ordenado n
o
(n+1)/2.
Ejemplo: 125, 129, 134, 185, 200. La mediana es el dato ordenado n
o
3, y es igual
a 134.
11, 15, 20, 23: la mediana es el dato ordenado n
o
2.5, que tomamos por convenci´on
igual al punto medio entre el dato n
o
2 y el dato n
o
3. En este caso, la mediana es
igual a 17.5.
La mediana no es sensible a datos at´ıpicos, para convencerse de ello, se puede
considerar el ejemplo anterior donde se sustituye el valor 23 por 1000... La mediana
no cambia... Por lo tanto, la mediana es m´as representativa del centro del conjunto
si hay alg´ un dato at´ıpico o si la distribuci´on es algo asim´etrica...
10 Mathieu Kessler: M´etodos Estad´ısticos
I.4.2. Medidas de dispersi´on
I.4.2.1. La desviaci´on t´ıpica
Mide lo lejos que est´an situados los datos respecto de su centro de gravedad, la
media. Empezamos por definir la varianza:
s
2
=
(x
1
− ¯ x)
2
+ + (x
n
− ¯ x)
2
n −1
, (I.1)
que representa aproximadamente el promedio de las distancias al cuadrado entre los
datos y su media. La desviaci´on t´ıpica s es la ra´ız cuadrada de s
2
.
Para calcularla en la pr´actica se suele preferir la f´ormula siguiente
s
2
=
n
n −1
(x
2
−(¯ x)
2
), (I.2)
donde x
2
representa la media de los datos que hemos previamente elevado al cuadra-
do, mientras que (¯ x)
2
representa el cuadrado del valor de la media. Como ejemplo,
supongamos que quiero calcular la varianza de los datos siguientes 4, 5,5, 6,5, 8.
Necesito por una parte ¯ x, que calculo como ¯ x = (4 + 5,5 + 6,5 + 8)/4 = 6, y por
otra parte x
2
que calculo como x
2
= (4
2
+5,5
2
+6,5
2
+8
2
)/4 = 38,125. Por lo tanto,
deduzco
s
2
=
4
3
[38,125 −(6)
2
] = 2,8333.
Naturalmente, la desviaci´on t´ıpica es representativa de la dispersi´on del conjunto de
datos solo si la media es representativa de su centro.
Es bueno ser consciente de que la desviaci´on t´ıpica, al igual que la media, se ex-
presa en las mismas unidades que los datos, mientras que la varianza en (unidades)
2
.
Una medida alternativa de dispersi´on que puede ser m´as representativa en el caso
en que la distribuci´on es asim´etrica o en presencia de datos at´ıpicos, es el rango
intercuart´ılico.
I.4.2.2. El rango intercuart´ılico (RIC)
Hemos definido la mediana como el punto que separa el conjunto en dos partes
de mismo tama˜ no. Definimos de la misma manera los cuartiles como los puntos que
separan el conjunto en cuatro partes de mismo tama˜ no. El primer cuartil Q
1
deja
el 25 % de los datos ordenados a su izquierda, y el otro 75 % a su derecha, mientras
que el tercer cuartil Q
3
deja el 75 % de los datos ordenados a su izquierda, y el
otro 25 % a su derecha. Por lo tanto el par (Q
1
, Q
3
) nos proporciona informaci´on
sobre la dispersi´on presente en los datos: cuanto m´as alejados est´en los cuartiles, m´as
dispersos est´an los datos. Por ello, calculamos el rango intercuart´ılico RIC como la
diferencia entre Q
3
y Q
1
.
Para calcular los cuartiles, empezamos por calcular la mediana Me de los datos.
El primer cuartil es la mediana del grupo de datos que queda a la izquierda de Me
(Me excluida), mientras que el tercer cuartil se calcula como la mediana del grupo
que queda a su derecha (Me excluida).
El RIC tambi´en se utiliza para detectar datos at´ıpicos:
Regla: Se consideran como at´ıpicos los datos que son menores de Q
1
−1,5 RIC,
o mayores de Q
3
+ 1,5 RIC.
I.4 Medidas num´ericas 11
I.4.3. Un resumen gr´afico: el diagrama de caja-bigotes
El diagrama de caja-bigotes es un resumen gr´afico que permite visualizar, para
un conjunto de datos, la tendencia central, la dispersi´on y la presencia posible de
datos at´ıpicos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el
tercer cuartil de los datos:
El diagrama de caja-bigotes presenta de manera gr´afica estas informaciones, tal
como est´a recogida en la figura I.6.
8
9
1
0
1
1
1
2
Dato atpico
Q3
Me
Q1
Bigote
Figura I.6: Componentes del diagrama caja-bigotes
Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta : el dato del con-
junto inmediatamente superior a Q
1
− 1,5 RIC para el bigote inferior, y el dato
inmediatamente inferior a Q
3
+ 1,5 RIC, para el bigote superior.
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o m´as
conjuntos de datos.
Ejemplo
La puntuaci´on de los equipos de la liga espa˜ nola al final de las temporadas 01/02
y 02/03 en primera divisi´on se pueden comparar con un diagrama caja-bigotes, como
aparece en la figura I.7
Comentarios: No hay datos at´ıpicos, es decir que no hay equipo que se haya
destacado por arriba o por abajo del resto de los equipos. Hay m´as diferencia de
puntos entre el primer y el ´ ultimo clasificado para la liga 02/03 que en la liga anterior.
Los equipos del tercer cuarto de la clasificaci´on est´an muy apelotonados en la liga
02/03.
12 Mathieu Kessler: M´etodos Estad´ısticos
102 203
4
0
5
0
6
0
7
0
Figura I.7: Comparaci´on puntuaci´on final, temporadas 01/02 y 02/03
I.5. Ajuste por m´ınimos cuadrados
I.5.1. Planteamiento
Es muy normal considerar m´as de una variable asociada a un experimento. En
este caso, m´as que la distribuci´on de cada variable por separado, nos puede interesar
en particular las relaciones que existan entre ellas. Nos centraremos aqu´ı en el caso
en que distinguimos una variable llamada “respuesta”, cuya amplitud depende de los
valores de otras variables llamadas “explicativas”, y aprenderemos c´omo deducir un
modelo para la evoluci´on de la primera en funci´on de estas ´ ultimas.
Hay dos utilidades principales al disponer de un modelo: podemos primero ex-
plicar la manera en la que cambios en los valores de una variable explicativa induce
cambios en el valor de la variable respuesta. Por ejemplo, si pienso que la tem-
peratura media Y en agosto en San Javier evoluciona en funci´on del a˜ no seg´ un el
modelo:
Temperatura = −582,5 + 0,31a˜ no,
deducir´e que en promedio, la temperatura media en agosto aumenta de 0.3 grados
cada a˜ no.
Por otra parte, si dispongo de un modelo para la evoluci´on de la variable re-
spuesta, me permite tambi´en realizar predicciones del valor que tomar´a para valores
de las explicativas que no hemos observado.
Acabamos esta secci´on de presentaci´on con cuatro ejemplos con datos reales
tomados de campos diferentes. Las nubes de puntos correspondientes est´an presen-
tadas en la figura I.8
Estudio de la resistencia del cemento en funci´on del tiempo de fraguado en
d´ıas. Fuente: Hald, A. (1952) Statistical theory for engineering applications,
Wiley & Sons New-York, p´ag 541. ¿C´omo evoluciona la resistencia de piezas de
cemento en funci´on del tiempo de fraguado? ¿Cu´anto tiempo hay que esperar
para conseguir el 90 % de la resistencia m´axima? Este es el tipo de preguntas
a las que podemos contestar con el estudio de este conjunto de datos.
I.5 Ajuste por m´ınimos cuadrados 13
Todos los a˜ nos Venecia se inunda durante las “acqua alta”. Sin embargo, parece
que el nivel m´aximo al que llega el mar est´a cada a˜ no m´as alto, haciendo
temer por la conservaci´on de la ciudad y de sus monumentos. Es por lo tanto
de inter´es estudiar la evoluci´on del nivel m´aximo del mar en funci´on del a˜ no.
Fuente: Smith, R.L (1986) “Extreme value theory based on the r largest annual
events”, Journal of Hydrology, 86.
Evoluci´on de la producci´on mundial de petr´oleo desde 1880. Fuente: Data and
Stories Library http://lib.stat.cmu.edu/DASL/.
En 1929, Edwin Hubble investig´o la relaci´on entre la distancia de una galaxia
a la tierra y la velocidad con la que est´a alej´andose. En efecto se piensa que
las galaxias se alejan como consecuencia del “Big Bang”. Hubble pens´o que
disponiendo de un modelo que relacionara la velocidad de recesi´on con la dis-
tancia a la tierra proporcionar´ıa informaci´on sobre la formaci´on del universo
y sobre lo que podr´ıa pasar en el futuro. Los datos recogidos incluyen distan-
cias en megaparsecs (1 megaparsec= 3.26 a˜ nos luz) y velocidad de recesi´on en
km/s. Fuente: Data and Stories Library, http://lib.stat.cmu.edu/DASL.
Figura I.8: Cuatro ejemplos de conjuntos de datos
I.5.2. Criterio de m´ınimos cuadrados
Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta
que llamaremos Y y una variable explicativa que llamaremos X.
Los datos se presenta en forma de pares:
14 Mathieu Kessler: M´etodos Estad´ısticos
X x
1
x
2
x
n
Y y
1
y
2
y
n
es decir que, para varios valores X observamos los valores correspondientes de Y .
Para visualizar el conjunto recurrimos a la nube de puntos, tambi´en llamada diagra-
ma de dispersi´on, en el que representamos los pares (x
i
, y
i
), i = 1, , n, en unos
ejes Ox, Oy, ver figura I.9
0 1 2 3 4
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
X
Y
(x
1
,y
1
)
(x
2
,y
2
)
(x
3
,y
3
)
Figura I.9: Ejemplo de nube de puntos
Por conocimientos previos sobre el fen´omeno que estudiamos o por la propia
nube de puntos, decidimos ajustar a ´esta una curva de una determinada forma
funcional: podr´ıa ser por ejemplo una recta, de ecuaci´on Y = aX+b, o una par´abola
Y = a
0
+ a
1
X + a
2
X
2
. La forma de la curva est´a fijada pero intervienen en la
ecuaci´on constantes, tambi´en llamadas par´ametros, cuyo valor tenemos que ajustar
para obtener el “mejor” ajuste posible: en el caso de la recta, debemos encontrar los
valores de la pendiente b y de la ordenada en el origen a.
En una formulaci´on general, escogemos una familia param´etrica de funciones
x → f(θ, x) θ = (θ
1
, . . . , θ
k
), (I.3)
donde θ es el vector de par´ametros. Buscar la funci´on de la familia que mejor se ajusta
a la nube de puntos es equivalente a encontrar el valor
ˆ
θ de θ, que corresponde a
esta funci´on.
Debemos ahora dar sentido a la noci´on de “mejor”; debemos fijarnos un criterio
que nos permita decidir que una funci´on de la familia se ajusta mejor a la nube de
puntos que otra. El criterio que seguimos en este tema es el de m´ınimos cuadrados.
I.5 Ajuste por m´ınimos cuadrados 15
Definimos la suma de cuadrados asociada a una funci´on de la familia como la
suma de los cuadrados de las distancias verticales entre la curva correspondiente y
los datos observados de la nube de puntos. Tal como viene reflejado en la figura I.10,
la distancia vertical entre por ejemplo el punto (x
3
, y
3
) y la curva es y
3
− f(θ, x
3
),
por lo tanto la suma de cuadrados se escribe
SC(θ) = (y
1
−f(θ, x
1
))
2
+ (y
2
−f(θ, x
2
))
2
+ + (y
n
−f(θ, x
n
))
2
. (I.4)
X
Y
y=f(θ, x)
(x
3
,y
3
)
x
3
y
3
f(θ, x
3
)
Figura I.10: Ajuste de una curva a la nube de puntos.
Buscamos el valor
ˆ
θ de θ que minimiza la cantidad θ → θ, en muchos casos, es
imposible encontrar este m´ınimo expl´ıcitamente y tenemos que recurrir a algoritmos
num´ericos. Nos centraremos en este tema en el caso en que la forma param´etrica de
f es particularmente simple y permite el c´alculo expl´ıcito de
ˆ
θ.
Supongamos que hemos ajustado la curva, es decir que hemos encontrado el valor
ˆ
θ de θ que minimiza la suma de cuadrados, introduzcamos unos cuantos t´erminos:
La curva de ecuaci´on y = f(
ˆ
θ, x) se llama la curva ajustada.
Los ordenadas de la curva ajustada correspondientes a los datos observados,
es decir los valores ˆ y
1
= f(
ˆ
θ, x
1
), . . . , y
n
= f(
ˆ
θ, x
n
) se llaman los valores
ajustados.
Las distancias verticales entre los puntos observados y la curva ajustada se
llaman los residuos e
1
, . . . , e
n
. Tenemos
e
i
= y
i
− ˆ y
i
, i = 1, . . . , n.
16 Mathieu Kessler: M´etodos Estad´ısticos
La suma de cuadrados
SC(
ˆ
θ) =
n
¸
i=1
e
2
i
se llama suma de cuadrados residuales.
Calcularemos en algunas ocasiones la varianza de los residuos, tambi´en llamada
varianza residual
s
2
e
=
1
n −1
n
¸
i=1
(e
i
− ¯ e)
2
.
I.5.3. Casos concretos
Describimos ahora con m´as detalle unos pocos casos concretos en los que es
posible obtener de manera expl´ıcita la expresi´on de
ˆ
θ, que minimiza la suma de
cuadrados residuales. Estos casos corresponden todos a la llamada regresi´on lineal:
son casos para los cuales los par´ametros (θ
1
, . . . , θ
k
) intervienen de manera lineal en
la ecuaci´on (I.3).
I.5.3.1. Recta y = ax +b
El caso m´as utilizado de ajuste por m´ınimo por m´ınimos cuadrados al ajuste
por una recta, es decir cuando consideramos una variable explicativa X y buscamos
ajustar un modelo de la forma
Y = aX +b.
Corresponde al caso en que θ consta de dos par´ametros a y b, y la funci´on f descrita
en la secci´on I.5.2 es f(θ, x) = ax+b. En este caso, decimos que el ajuste corresponde
a la regresi´on lineal simple.
En el caso en que la pendiente a es positiva, hablamos de asociaci´on positiva
entre X e Y : cuando crece X, crece Y , cuando decrece X, decrece Y , y viceversa.
En cambio, si la pendiente a es negativa, hablamos de asociaci´on negativa entre X
e Y (cuando crece una variable, decrece la otra).
a). Obtenci´on de la recta ajustada La suma de cuadrados se escribe
SC(θ) = SC(a, b) =
n
¸
i=1
(y
i
−(ax
i
+b))
2
,
Los candidatos a alcanzar el m´ınimo de esta funci´on satisfacen

∂a
SC(a, b) = 0

∂b
SC(a, b) = 0.
Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este
sistema de ecuaciones son
ˆ a =
xy−¯ x¯ y
x
2
−(¯ x)
2
ˆ
b = ¯ y − ˆ a¯ x.
I.5 Ajuste por m´ınimos cuadrados 17
Introducimos la cantidad
s
xy
=
n
n −1
(xy − ¯ x¯ y), (I.5)
que llamamos la covarianza de X e Y . El coeficiente ˆ a se puede por lo tanto escribir
como
ˆ a =
s
xy
s
2
x
,
donde s
2
x
es la varianza de X que introdujimos en la secci´on I.4.2.1. Con estas
notaciones, se puede escribir la ecuaci´on de la recta ajustada en una forma compacta:
y − ¯ y =
s
xy
s
2
x
(x − ¯ x).
Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene
el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza
es positiva, Y y X presentan una asociaci´on positiva mientras que, si la covarianza
es negativa Y y X presentan una asociaci´on negativa.
b). Bondad del ajuste Para la regresi´on lineal simple, los residuos son
e
1
= y
1
−f(
ˆ
θ, x
1
) = y
1
− ˆ ax
1

ˆ
b
.
.
. =
.
.
.
e
n
= y
n
−f(
ˆ
θ, x
n
) = y
n
− ˆ ax
n

ˆ
b,
y tienen las siguientes propiedades
Propiedades de los residuos
La media de los residuos es nula.
Demostraci´on:
¯ e =
e
1
+ +e
n
n
=
1
n
[(y
1
+. . . +y
n
) − ˆ a(x
1
+. . . +x
n
) −n
ˆ
b]
= ¯ y − ˆ a¯ x −
ˆ
b = 0
Se puede demostrar sin dificultad que la varianza residual se escribe como
s
2
e
= s
2
y

1 −
(s
xy
)
2
s
2
x
s
2
y

. (I.6)
De esta ecuaci´on deducimos que la cantidad
(s
xy
)
2
s
2
x
s
2
y
puede medir la calidad del
ajuste. De hecho le damos un nombre especial:
Definici´on I.5.1 La cantidad r =
s
xy
s
x
s
y
se llama coeficiente de correlaci´on (de
Pearson) de X e Y .
La cantidad R
2
=
(s
xy
)
2
s
2
x
s
2
y
se llama coeficiente de determinaci´on.
18 Mathieu Kessler: M´etodos Estad´ısticos
Propiedades de r y R
2
De la f´ormula s
2
e
= s
2
y
(1 −R
2
), ver (I.6), deducimos
R
2
est´a siempre comprendido entre 0 y 1, y cuanto m´as cercano est´e de 1,
mejor es el ajuste, puesto que corresponder´a a una varianza residual menor.
En particular, deducimos que si R
2
= 1, la varianza residual s
2
e
es nula, lo que
quiere decir que la dispersi´on de los residuos es nula: todos los residuos son
iguales, y por lo tanto iguales a su media, que vale 0, todos los puntos de la
nube est´an situados en la recta, el ajuste es perfecto. Se suela considerar un
valor de R
2
mayor que 0.8 como correspondiente a un ajuste bueno, mientras
que un valor mayor que 0.9 corresponde a un ajuste muy bueno.
Puesto que R
2
= r
2
y 0 ≤ R
2
≤ 1, deducimos que el coeficiente de correlaci´on
r est´a siempre comprendido entre −1 y 1. Si r = ±1, el ajuste de los puntos
observados por una recta es perfecto. El coeficiente de correlaci´on se interpreta
en general como una cantidad que cuantifica la asociaci´on lineal que existe entre
dos variables: cuanto m´as cerca de ±1, m´as se aproxima la nube de puntos a
una recta.
Adem´as por la definici´on de r, sabemos que r es del mismo signo de la covari-
anza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia
de una asociaci´on lineal positiva entre las dos variables, mientras que si es
negativo y cercano a −1, presentan una asociaci´on lineal negativa.
Sin embargo, es necesario tener precauci´on a la hora de interpretar valores del
coeficiente de correlaci´on: s´olo es un resumen, fiable en el caso en que est´a
pr´oximo a ±1 para indicar que existe una fuerte asociaci´on lineal entre las
variables pero mucho menos fiable si toma un valor alejado de ±1. Anscombe
(1973), ”Graphs in statistical analysis”, American Statistician, 27, pp 17-21,
construy´o cuatro conjuntos de datos artificiales que dan lugar al mismo coefi-
ciente de correlaci´on y a las mismas rectas de regresi´on, pero cuyos aspectos
son completamente diferentes. Los datos se presentan en el ap´endice, y se deja
su estudio en ejercicio.
c). Un ejemplo Para ilustrar el procedimiento que se sigue para calcular los
valores de ˆ a y
ˆ
b, consideremos el ejemplo muy sencillo a continuaci´on:
Queremos estudiar la relaci´on entre el peso y la altura en un grupo de individuos.
Los datos son
Peso(kg) 54 70 65 78 68 85 Y
Altura(cm) 160 170 172 185 160 175 X
Se deja en ejercicio al lector la representaci´on de este conjunto a trav´es de una nube
de puntos... Buscamos ajustar una recta a la nube y pasamos a calcular la ecuaci´on
de la recta de regresi´on que en su forma compacta se escribe
y − ¯ y =
s
xy
s
2
x
(x − ¯ x).
Para calcular s
xy
y s
2
x
utilizaremos las f´ormulas (I.2) y (I.5), necesitamos por lo tanto
¯ x, x
2
, ¯ y, y
2
y xy. Tenemos
I.5 Ajuste por m´ınimos cuadrados 19
¯ x =
160+170+...+175
6
= 170,33, ¯ y =
54+70+...+85
6
= 70,
x
2
=
160
2
+170
2
+...+175
2
6
= 29089, y
2
=
54
2
+70
2
+...+85
2
6
= 4995,7,
xy =
160×54+170×70+...+175×85
6
= 11984,2
Deducimos que
s
2
x
=
n
n −1
(x
2
−(¯ x)
2
) =
6
5
[29089 −(170,33)
2
] · 90,7,
s
2
y
=
n
n −1
(y
2
−(¯ y)
2
) =
6
5
[4995,7 −(70)
2
] · 144,8,
s
xy
=
n
n −1
(xy −(¯ x)(¯ y)) =
6
5
[11984,2 −170,33 70] · 73.
La ecuaci´on de la recta es por lo tanto y −70 =
73
90,7
(x −170,33), es decir
y = 0,80x −67,1.
El modelo te´orico propuesto para relacionar el peso y la altura es Peso · 0,8Altura−
67,1.
En cuanto a la bondad del ajuste, tenemos que
R =
s
xy
s
x
s
y
=
73

90,7

114,8
· 0,715,
lo que implica que R
2
· 0,51, un ajuste malo.
d). Predicci´on Tal como lo mencionamos en la introducci´on del tema, si disponemos
del modelo ajustado podemos utilizarlo para predecir el valor de la respuesta para
valores no observados de X:
Si x
0
es un valor no observado, nuestra predicci´on del valor de Y ser´a
y
x
0
= ˆ a x
0
+
ˆ
b.
Si consideramos el ejemplo de la relaci´on entre peso y altura del apartado anterior,
podemos contestar a la pregunta ¿a qu´e peso corresponder´ıa una altura de 180cm?
Sustituimos x por 180 en la ecuaci´on de la recta ajustada, y encontramos que el peso
asociado ser´ıa 0,80 180 −67,1 · 76,9kg.
Sin embargo, debemos tener mucho cuidado al extrapolar nuestro modelo fuera
del rango de valores de X que hemos observado, al no disponer de valores fuera de este
rango, tampoco sabemos si el modelo deducido seguir´a valido. Para el ejemplo de los
pesos, si queremos utilizar el modelo ajustado para saber a qu´e peso corresponder´ıa
la altura de un ni˜ no de 80cm por ejemplo, obtenemos 0,80 80 −67,1 · −3,1kg, ¡lo
que no tiene sentido!
Nota. El motivo por el cual, muy a menudo una recta suele ajustarse bastante
bien a una nube de puntos, corresponde a que la f´ormula de Taylor nos dice que
localmente, cualquier funci´on derivable se puede aproximar por una recta: aunque
la relaci´on entre Y y X no sea lineal sino de la forma Y = f(θ, X), f general, si f
es derivable y observamos valores de X no muy dispersos alrededor, f se comporta
aproximadamente como la tangente en un X central.
20 Mathieu Kessler: M´etodos Estad´ısticos
I.5.3.2. Recta forzada por el origen
Hay situaciones en las que pensamos recurrir a un ajuste lineal, pero sabemos
por motivos f´ısicos que un valor de X nulo corresponde necesariamente a un valor
de Y nulo tambi´en. En este caso, no tenemos por que considerar todas las rectas,
sino podemos restringirnos a las rectas que pasan por el origen (0, 0). La ecuaci´on
de una recta forzada por el origen es
y = ax.
Dos ejemplos de situaciones en las que un valor nulo de X implica un valor nulo de
Y :
Medimos la evoluci´on en funci´on del tiempo (X) de la concentraci´on (Y ) de
un producto que se va creando en una reacci´on qu´ımica. Cuando empezamos
la reacci´on X = 0, todav´ıa no puede haber producto, por lo tanto Y = 0.
Queremos medir el tiempo t que tarda un objeto que soltamos desde una altura
h, en alcanzar el suelo. La relaci´on f´ısica proporcionada por la teor´ıa es h = gt
2
,
donde g es la constante de la gravedad. Si queremos comprobar que los datos
emp´ıricos confirman esta relaci´on, buscaremos si es cierto que
t =
1

g

h.
Consideraremos X =

h, Y = t, y buscaremos ajustar una recta y = ax.
Las f´ormulas que vimos para el caso de una recta general ya no son v´alidas. Calcule-
mos la ecuaci´on de la recta forzada por el origen: disponemos de n pares de datos
(x
1
, y
1
), . . . , (x
n
, y
n
), puesto que la funci´on que buscamos ajustar es f(θ, x) = ax,
θ = a y la suma de cuadrados de la f´ormula (I.4) se escribe
SC(θ) = SC(a) =
n
¸
i=1
(y
i
−ax
i
)
2
.
El candidato a minimizar SC(a) satisface la ecuaci´on
dSC(a)
da
= 0. Calculamos
dSC(a)
da
=
¸
i=1
−x
i
2(y
i
−ax
i
) = 2[−
¸
i=1
x
i
y
i
+a
n
¸
i=1
x
2
i
].
Por lo tanto, la soluci´on a la ecuaci´on
dSC(a)
da
= 0 es
ˆ a =
¸
n
i=1
x
i
y
i
¸
n
i=1
x
2
i
=
xy
x
2
.
Puesto que la derivada segunda de SC(a) es positiva, se trata efectivamente de un
m´ınimo.
I.5.3.3. Algunas transformaciones ´ utiles
S´olo hemos descrito c´omo calcular la curva ajustada para dos familias espec´ıficas
de funciones y = ax e y = ax +b. Para una especificaci´on m´as general de la funci´on
f que queremos ajustar, se recurre a algoritmos num´ericos para encontrar el valor
de los par´ametros que minimicen la suma de cuadrados SC(θ).
Sin embargo, hay algunos tipos de modelos no lineales que se pueden abordar con
los resultados del caso lineal despu´es de realizar unas transformaciones convenientes.
I.5 Ajuste por m´ınimos cuadrados 21
a). Modelo exponencial Supongamos que queremos ajustar un modelo expo-
nencial a una nube de puntos. La ecuaci´on de las funciones que consideramos son
y = be
ax
, con b > 0. En el caso en que a es positivo, modelizamos un crecimiento
exponencial, mientras que, si a es negativa, modelizamos un decrecimiento exponen-
cial.
La relaci´on entre Y y X es altamente no lineal, sin embargo una simple trans-
formaci´on puede llevarlo a un modelo lineal:
Modelo te´orico original Modelo transformado
y = be
ax
cojo ln
−−−−−→ ln(y) = ln(b) +ax
y

= b

+a

x

Si introducimos las variables transformadas Y

= ln(Y ), y X

= X, ´estas satisfacen
una relaci´on lineal: Y

= a

X

+b

.
Nuestro procedimiento para ajustar un modelo exponencial consistir´a por lo
tanto en
1. Calculamos los datos transformados, es decir pasar de
X x
1
x
2
. . . x
n
Y y
1
y
2
. . . y
n
y = be
ax
a
X

x
1
x
2
. . . x
n
Y

ln(y
1
) ln(y
2
) . . . ln(y
n
)
y

= a

x

+b

2. Ajustamos una recta a las variables transformadas, encontramos y

= ˆ a

x

+
ˆ
b

.
3. Volvemos al modelo original, haciendo la transformaci´on inversa (en este caso
exponencial)
y

= ˆ a

x

+
ˆ
b

cojo exp
−−−−−−→ y = e
ˆ a

x

+
ˆ
b

= e
ˆ
b

e
ˆ a

x

.
Ejemplo 1. Queremos ajustar un modelo exponencial a los siguientes datos
X 2.3 5 7.1 8
Y 2.92 3.69 6.19 6.36
Transformamos los datos:
X

2.3 5 7.1 8
Y

= ln(Y ) 1.07 1.31 1.82 1.85
Ajustamos una recta a los datos transformados, calculando
¯
x

, x
2
,
¯
y

, y
2
y x

y

,
para obtener
ˆ
a

y
ˆ
b

: y

= 0,148x

+0,682, es decir que ln(y) = 0,148x+0,682, lo que
implica que
y = e
0,148x
e
0,682
= 1,18e
0,148x
.
Ejemplo 2. El Ministerio de la Vivienda publica los datos de precios del metro
cuadrado de las viviendas en Espa˜ na. En la gr´afica siguiente, figura I.11, se ha
representado la evoluci´on del precio del metro cuadrado en la Regi´on de Murcia
22 Mathieu Kessler: M´etodos Estad´ısticos
por cuatrimestres entre 1995 y 2006. Aparece una tendencia exponencial, podemos
representar tambi´en el logaritmo del precio para ver si la evoluci´on es entonces lineal.
La gr´afica correspondiente aparece en la figura I.12. Notar que entre 1996 y 2002, la
curva del logaritmo sigue presentando una curvatura, lo que implica que ¡la subida
fue m´as que exponencial!
Año
P
r
e
c
i
o
1996 1998 2000 2002 2004 2006
4
0
0
6
0
0
8
0
0
1
0
0
0
1
2
0
0
1
4
0
0
Figura I.11: Evoluci´on del precio en euros del metro cuadrado de la vivienda en la
regi´on de Murcia, datos cuatrimestrales, 1995-2006.
b). Modelo potencial El modelo potencial es de la forma y = bX
a
. La forma
de la nube de puntos correspondiente depende del valor de a. La transformaci´on que
utilizamos es la misma que para el modelo exponencial: aplicamos los logaritmos.
Modelo te´orico original Modelo transformado
y = bx
a
cojo ln
−−−−−→ ln(y) = ln(b) +a ln(x)
y

= b

+a

x

Introducimos las variables transformadas Y

= ln(Y ), y X

= ln(X), ´estas satisfacen
una relaci´on lineal: Y

= a

X

+ b

. Seguimos los mismos pasos que en el apartado
anterior con los datos transformados.
Ejemplo. Queremos ajustar un modelo potencial a los siguientes datos
X 3 7.34 20.1 54.6
Y 10.3 13.5 18.2 24.5
Transformamos los datos:
I.5 Ajuste por m´ınimos cuadrados 23
Año
l
o
g
(
P
r
e
c
i
o
)
1996 1998 2000 2002 2004 2006
6
.
0
6
.
2
6
.
4
6
.
6
6
.
8
7
.
0
7
.
2
Figura I.12: Evoluci´on del logaritmo del precio en euros del metro cuadrado de la
vivienda en la regi´on de Murcia, datos cuatrimestrales, 1995-2006.
X

= ln(X) 1.1 2 3 4
Y

= ln(Y ) 2.3 2.6 2.9 3.2
Ajustamos una recta a los datos transformados, calculando
¯
x

, x
2
,
¯
y

, y
2
y x

y

,
para obtener
ˆ
a

y
ˆ
b

: y

= 0,298x

+ 2,006, es decir que ln(y) = 0,298 ln(x) + 2,006,
lo que implica que
y = e
0,298 ln(x)
e
2,006
= 7,433x
0,298
.
24 Mathieu Kessler: M´etodos Estad´ısticos
Ap´endice
A continuaci´on se presentan los datos de Anscombe (1973), ”Graphs in statistical
analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de
X
1
, X
2
, X
3
, y X
4
as´ı como de Y
1
, Y
2
, Y
3
y Y
4
y a continuaci´on calcular las rectas de
regresi´on de Y
i
sobre X
i
para i=1, 2, 3, 4. Finalmente, realizar las cuatro gr´aficas
de Y
i
en funci´on de X
i
para i=1, 2, 3, 4.
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.1 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.1 4 5.39 19 12.5
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6
TEMA II
Fundamentos de la teor´ıa de la probabilidad.
En el tema anterior, hemos estudiado algunos conjuntos de datos reales que
presentan variabilidad aun cuando son generados por un experimento realizado en
condiciones que nos esforzamos por mantener constantes. Es m´as, si consideramos
el ejemplo de una reacci´on qu´ımica de primer orden visto en la secci´on sobre ajuste
de curvas, disponemos de una teor´ıa qu´ımica que describe la evoluci´on de la con-
centraci´on de los reactivos en funci´on del tiempo como soluci´on de un sistema de
ecuaciones diferenciales y sin embargo, los datos provenientes de un experimento
nunca se ajustan perfectamente a la curva te´orica esperada. ¿Qu´e tipo de afirma-
ciones sobre el resultado de tal experimento podr´ıamos entonces realizar? Estas
afirmaciones tendr´an que tener en cuenta la incertidumbre ligada al experimento.
La teor´ıa de la probabilidad es una teor´ıa matem´atica que permite modelizar ex-
perimentos aleatorios, es decir experimentos cuyo resultado es imposible predecir de
manera exacta. Son los cimientos sobre los que est´a construida toda la estad´ıstica.
II.1. Conceptos b´asicos relacionados con un experimen-
to
Empecemos por introducir unos t´erminos y conceptos relacionados con un ex-
perimento
II.1.1. Experimento aleatorio
Un experimento aleatorio es aquel que, aun realizado en las mismas condiciones,
produce resultados posiblemente distintos.
Se opone a la noci´on de experimento determin´ıstico, en el que conociendo las
condiciones iniciales, se puede prever de manera exacta el resultado. En la pr´acti-
ca, aunque muchos experimentos son verdaderamente aleatorios, en muchos casos se
puede tener por despreciable la variabilidad en los resultados y el considerar el ex-
perimento como determin´ıstico proporciona conclusiones satisfactorias. Sin embargo,
26 Mathieu Kessler: M´etodos Estad´ısticos
hay muchas situaciones en las que es s´olo al tener en cuenta el car´acter aleatorio de
un fen´omeno que se llega a conclusiones v´alidas.
Un ejemplo sencillo de experimento aleatorio consiste en tirar un dado.
II.1.2. Suceso elemental
Un resultado posible del experimento se llama un suceso elemental.
II.1.3. Espacio muestral
El conjunto S de todos los resultados posibles de un experimento aleatorio se
llama el espacio muestral de este experimento.
Si consideramos el experimento que consiste en tirar el dado, el espacio muestral
es ¦1, 2, 3, 4, 5, 6¦.
II.1.4. Suceso
Cualquiera colecci´on de resultados posibles, es decir cualquier subconjunto de S,
se llama un suceso posible asociado al experimento considerado.
Un suceso siempre se podr´a describir de dos formas: utilizando palabras, o de
forma matem´atica, utilizando el formalismo de los conjuntos:
Ejemplo. Asociado al experimento que consiste en tirar un dado, podemos con-
siderar el suceso A : ”Sacar un n´ umero par”. A se puede tambi´en describir como
A = ¦2, 4, 6¦.
Consideremos un suceso A, y llevamos a cabo una realizaci´on del experimento,
se dice que ”Ocurre A” si el resultado del experimento pertenece a A. En el ejemplo
anterior, donde A es “sacar un n´ umero par”, si llevamos a cabo el experimento y sale
un 4, diremos que ha ocurrido A.
Podemos para describir sucesos de inter´es, utilizar el formalismo de la teor´ıa de
conjuntos :
II.1.4.1. Operaciones elementales con sucesos
Uni´on de dos sucesos A y B: la uni´on de A y B es el suceso formado por todos
los elementos de A y todos los elementos de B.
A∪ B = ¦x ∈ S : x ∈ A o x ∈ B¦,
Notar que ”Ocurre A ∪ B” si y s´olo si ”Ocurre A” o ”Ocurre B”. Por ejemplo,
si B es el suceso ”Sale un n´ umero mayor o igual a 5”, es decir B = ¦5, 6¦,
A∪ B = ¦2, 4, 5, 6¦.
Intersecci´on de dos sucesos A y B: la intersecci´on de A y B est´a formada por
los elementos comunes a A y a B.
A∩ B = ¦x ∈ S : x ∈ A y x ∈ B¦
”Ocurre A ∩ B” si y s´olo si ”Ocurre A” y ”Ocurre B”. En el ejemplo anterior,
A∩ B = ¦6¦
Disponemos tambi´en de las propiedades siguientes de las operaciones con sucesos:
II.1 Conceptos b´asicos relacionados con un experimento 27
• Comutatividad A∪ B = B ∪ A
A∩ B = B ∩ A
• Asociatividad A∪ (B ∪ C) = (A∪ B) ∪ C
A∩ (B ∩ C) = (A∩ B) ∩ C
• Distributividad A∪ (B ∩ C) = (A∪ B) ∩ (A∪ C)
A∩ (B ∪ C) = (A∩ B) ∪ (A∩ C)
II.1.4.2. Algunos t´erminos m´as.
El suceso seguro es S, el espacio muestral entero.
El suceso imposible es el conjunto vac´ıo
Diremos que dos sucesos A y B son incompatibles, si no pueden ocurrir a la vez,
es decir A∩ B = ∅ y diremos que los sucesos A
1
, A
2
, A
3
, . . . son incompatibles
dos a dos, si para todos i = j, A
i
∩ A
j
= ∅.
Suceso complementario de A (A
c
= ¦x ∈ S : x / ∈ A¦ ). Notar que “Ocurre A
c

si y s´olo si “No Ocurre A”. En nuestro ejemplo, A
c
= ¦1, 3, 5¦.
II.1.5. Diagrama de Venn
Es una manera gr´afica de representar los sucesos: un rect´angulo representa S el
espacio muestral entero, y vamos agrupando los sucesos elementales en sucesos. Por
ejemplo, volviendo al ejemplo del dado:
II.1.6. Leyes de Morgan
Para dos sucesos A y B,
(A∩ B)
c
= A
c
∪ B
c
,
28 Mathieu Kessler: M´etodos Estad´ısticos
es decir que, afirmar que“no ha ocurrido (A y B)” es lo mismo que decir “o bien no
ha ocurrido A o bien no ha ocurrido B”.
(A∪ B)
c
= A
c
∩ B
c
,
es decir que, afirmar que“no ha ocurrido (A o B)” es lo mismo que decir “no ha
ocurrido A y tampoco ha ocurrido B”.
II.2. Concepto de Probabilidad
Al llevar a cabo una realizaci´on de un experimento aleatorio, somos conscientes
de que no podemos predecir el resultado, sin embargo tenemos a menudo informa-
ci´on sobre las ”posibilidades” que tiene un determinado suceso de ocurrir. Queremos
cuantificar de alguna manera esta informaci´on que llamar´ıamos la probabilidad del
suceso.
II.2.1. Definici´ on informal de la probabilidad - propiedades.
M´as que formalizar una definici´on, preferimos indicar qu´e propiedades tendr´a
que tener la cantidad escogida para que refleje la creencia que tenemos de que un
determinado suceso ocurra.
Dados todos los sucesos asociados a un experimento aleatorio, asignaremos a cada
suceso A, una cantidad que denotaremos por P(A) y que llamaremos la“probabilidad
del suceso A.” Pero al realizar esta asignaci´on deberemos tener en cuenta que se
deber´a cumplir:
1. La probabilidad de un suceso es un n´ umero entre 0 y 1:
0 ≤ P(A) ≤ 1,
2. considerando que la probabilidad asociada al suceso imposible es nula:
P(∅) = 0,
mientras que la probabilidad asociada al suceso seguro es 1 :
P(S) = 1.
3. La probabilidad de que un suceso no ocurra es 1− la probabilidad de que
ocurra:
P(A) = 1 −P(A
C
).
4. Si un suceso tiene m´as resultados posibles que otro, su probabilidad ser´a mayor,
es decir,
Si A y B son dos sucesos tales que A ⊂ B, entonces
P(A) ≤ P(B).
5. Reglas de adici´on:
II.2 Concepto de Probabilidad 29
a) Si A y B son dos sucesos incompatibles, es decir que no pueden ocurrir
a la vez, la probabilidad de que ocurra uno o el otro es la suma de las
probabilidades de cada suceso:
Si A∩ B = ∅, P(A∪ B) = P(A) +P(B).
Esta f´ormula seguir´a v´alida si se trata de la uni´on de tres o m´as sucesos.
b) En cambio si A y B son dos sucesos cualesquiera (en particular, podr´ıan
ocurrir a la vez), un diagrama de Venn nos convence de que la f´ormula
correcta es
P(A∪ B) = P(A) +P(B) −P(A∩ B),
puesto que, al sumar P(A) y P(B), hemos contabilizado dos veces la prob-
abilidad de la intersecci´on P(A ∩ B), y debemos restarla una vez para
obtener P(A∪ B).
c) Esta ´ ultima f´ormula se puede generalizar a m´as de dos sucesos, nos lim-
itaremos a enunciar el caso de tres:
P(A∪ B ∪ C) = P(A) +P(B) +P(C)
−P(A∩ B) −P(A∩ C) −P(B ∩ C)
+P(A∩ B ∩ C).
En todo lo que sigue, entenderemos como probabilidad la asignaci´on de un
n´ umero a cada suceso posible asociado a un experimento aleatorio, que cumpla
con las cinco propiedades que acabamos de enumerar.
II.2.2. El caso de un espacio muestral finito y la definici´on de
Laplace.
II.2.2.1. Espacio muestral finito
En el caso en que hay un n´ umero finito de resultados posibles del experimento, es
decir el caso de un espacio muestral finito, la definici´on de una probabilidad asociada
al experimento pasar´a por la asignaci´on de la probabilidad de cada suceso elemental.
En particular, diremos que los sucesos elementales son equiprobables si todos tienen
la misma probabilidad de ocurrir. Para cumplir con las propiedades anteriores, est´a
claro que si hay n sucesos elementales que son adem´as equiprobables, la probabilidad
de cada uno de ellos es 1/n. En este caso, la probabilidad de un suceso A se podr´a
siempre calcular como (Regla de Laplace)
P(A) =
n
o
de elementos en A
n
o
de elementos totales
=
n
o
de casos favorables
n
o
de casos posibles.
.
Para ilustrar esta manera de calcular la probabilidad de un suceso, nos pregun-
tamos ¿qu´e es m´as f´acil acertar, el gordo de la loter´ıa, la primitiva, o una quiniela
de catorce resultados?
El gordo de la loter´ıa, el experimento consiste en escoger al azar un n´ umero entre
100000 posibles, si A designa el suceso ”acierto”, la probabilidad de acertar es de una
entre 100000,
P(A) =
1
100000.
30 Mathieu Kessler: M´etodos Estad´ısticos
La primitiva, el experimento consiste en extraer 6 n´ umeros sin reposici´on entre
49. El n´ umero de casos posibles se calcula como las combinaciones sin repetici´on de
49 elementos tomados de 6 en 6 (en el anexo pod´eis encontrar un breve recordatorio
sobre reglas de conteo), es

49
6

= 13984000. La probabilidad de acertar es una entre
casi 14 millones:
P(A) =
1
13984000.
· 7. 15 10
−8
.
La quiniela, el experimento consiste en escoger quince veces uno de los tres resul-
tados posibles 1, X, 2. El n´ umero de casos posibles es 33 3 = 3
15
= 14348907.
La probabilidad de acertar es de una entre 14 millones.
P(A) =
1
14348907
· 6. 97 10
−8
.
Por supuesto, aqu´ı no hemos tenido en cuenta que no se suele rellenar las quinielas
escogiendo al azar una de las tres posibilidades 1, X, 2...
Euro-mill´on, el juego consiste en acertar 5 n´ umeros de una tabla de 50 (Del n
o
1 al n
o
50) y adem´as acertar 2 n´ umeros (estrellas) de una tabla de 9 (Del n
o
1 al n
o
9). Es decir, para tener derecho al primer premio hay que acertar 7 n´ umeros (5 +
2). Para calcular el n´ umero de casos posibles, tenemos en cuenta que para escoger
los 5 primeros n´ umeros de la tabla de 50, tenemos

50
5

posibilidades, y para cada
una de estas combinaciones, tenemos

9
2

posibilidades para escoger las dos estrellas.
En total tenemos por lo tanto

50
5

9
2

= 76275360
casos posibles, es decir que la probabilidad de acertar es de una entre m´as de 76
millones.
En cuanto a premios, en 2006, un acertante del euro-mill´on podr´ıa haber ganado
hasta 180 millones de euros! El mayor premio que se gan´o con la primitiva fue de
casi 25 millones de euros, y fue en el 2005, mientras que en la quiniela, el mayor
premio fue de 9 millones de euros (fue en la temporada 05/06)
Por ´ ultimo, hay un participante que siempre gana: el estado. En 2005 por ejem-
plo, Loter´ıas y Apuestas del Estado, la sociedad que gestiona los juegos estatales,
ingres´o al Tesoro P´ ublico casi 2300 millones de euros (fuente: Memoria de Loter´ıas
y Apuestas del Estado 2005). Hay que decir que los espa˜ noles se gastaron en juegos
en 2005, sumando los de gesti´on privada (casino, bingo, m´aquinas), la ONCE, y los
de gesti´on p´ ublica, ¡una cantidad de 28 000 millones de euros!
II.2.2.2. Interpretaci´on “frecuentista” de la probabilidad
En cuanto dejamos el marco de los sucesos elementales equiprobables, la asig-
naci´on de una probabilidad a cada suceso es mucho m´as complicada. Muchas inter-
pretaciones de resultados ligados a probabilidades est´an relacionadas con la defini-
ci´on de Laplace, llamada la ”interpretaci´on frecuentista” de la probabilidad:
Para un suceso A, realizamos un gran n´ umero de veces n el experimento, y
consideramos que
P(A) = l´ım
n→∞
n
o
de veces que ha ocurrido A entre las n realizaciones
n
.
II.3 La probabilidad condicionada. 31
II.3. La probabilidad condicionada.
Corresponde a una re-asignaci´on o actualizaci´on de la probabilidad de un suceso
cuando tenemos informaci´ on sobre el resultado del experimento.
II.3.1. Definici´ on
Si A y B son dos sucesos tales que P(B) > 0, la probabilidad de A condicionada
a B se denota por P(A[B) y es igual a
P(A[B) =
P(A∩ B)
P(B)
.
Su interpretaci´on es: realizamos el experimento, y sabemos que ha ocurrido B, ¿cu´al
es la probabilidad de que haya ocurrido A tambi´en? Por ejemplo, en una tirada de
un dado he apostado por el ”6”. Tiran el dado sin que yo pueda ver el resultado,
pero me dicen que ha salido un n´ umero par. Teniendo esta informaci´on, ¿cu´al es
la probabilidad de que haya ganado la apuesta? Es intuitivamente claro que es de
un tercio (un caso favorable, el ”6” entre tres posibles, el “2,”, el “4” y el “6”.) Si
introduzco los sucesos A = “sale un 6”, y B =”sale un n´ umero par”, quiero calcular
P(A[B), utilizo la definici´on para encontrar:
P(A[B) =
P(A∩ B)
P(B)
=
P(¦6¦)
P¦2, 4, 6¦
=
1/6
3/6
= 1/3,
lo que coincide con nuestra intuici´on.
Al considerar el siguiente diagrama de Venn,
32 Mathieu Kessler: M´etodos Estad´ısticos
nos convencemos de que la definici´on P(A[B) =
P(A∩B)
P(B)
es intuitivamente razon-
able: realizamos el experimento y sabemos que el resultado pertenece a B, y nos
preguntamos cu´al es la probabilidad de que el resultado pertenezca tambi´en a A :
B es nuestro nuevo espacio muestral puesto que sabemos que los resultados posibles
pertenecen a B, y la probabilidad de que pertenezca a A es el cociente P(A∩B)/P(B).
II.3.2. Regla del producto.
(i) Si A y B son dos sucesos con P(B) > 0,
P(A∩ B) = P(A[B)P(B)
= P(B[A)P(A)
(ii) En el caso de tres sucesos, A, B y C, tenemos
P(A∩ B ∩ C) = P(A[B ∩ C)P(B[C)P(C),
siempre que las probabilidades que aparecen est´en bien definidas, es decir P(B∩
C) > 0 y P(C) > 0.
II.3.3. Propiedad
Para un suceso B fijado, la probabilidad condicionada a B, P(.[B) satisface to-
das las propiedades de una probabilidad. En particular cumple por ejemplo, para
cualquier suceso A, 0 ≤ P(A[B) ≤ 1, P(A
c
[B) = 1 − P(A[B); y para dos sucesos A
y C, P(A∪ C[B) = P(A[B) +P(C[B) −P(A∩ C[B).
II.4. Sucesos independientes
Una de las situaciones m´as importantes en probabilidad aparece cuando, con-
siderando dos sucesos, el hecho de que uno ocurra no influye la probabilidad de que
el otro ocurra. Este concepto se llama independencia de dos sucesos y pasamos a
definirlo.
II.4.1. Definici´ on para dos sucesos
A y B son dos sucesos independientes si se cumple
P(A∩ B) = P(A)P(B).
Notar que esta definici´on es equivalente, por la definici´on de la probabilidad
condicionada, a que P(A[B) = P(A) y P(B[A) = P(B). Es decir A y B son in-
dependientes si el hecho de saber que, por ejemplo, B ha ocurrido, no cambia la
probabilidad que asignamos a A, y vice versa.
Una buena ilustraci´on de este concepto: “¿Sab´eis por qu´e un matem´atico siempre
se lleva una bomba cuando viaja en avi´on? - Porque es mucho menos probable que
haya dos bombas en un mismo avi´on que s´olo una...”
¿Qu´e os parece este argumento?
II.5 Ejemplos de probabilidades condicionadas en la vida diaria 33
II.4.2. Definici´ on para n sucesos
Los n sucesos A
1
, A
2
, . . . , A
n
son independientes si para cualquier subfamilia
A
i
1
, A
i
2
, . . . , A
i
k
, se cumple
P(A
i
1
∩ A
i
2
∩ ∩ A
i
k
) = P(A
i
1
)P(A
i
2
) P(A
i
k
).
En particular se cumple que P(A
i
∩ A
j
) = P(A
i
)P(A
j
) para todo i y j entre 1 y n.
II.5. Ejemplos de probabilidades condicionadas en la vi-
da diaria
II.5.1. Eslogan publicitario para la loter´ıa
En Francia, hubo hace unos a˜ nos, un eslogan publicitario para un juego de loter´ıa
que rezaba:
El 100 % de los acertantes probaron suerte...
Los creadores de este eslogan jugaron con el efecto causado al usar una probabil-
idad condicionada: si P denota el suceso “probar suerte” y A el suceso “acertar”, el
eslogan est´a diciendo P(P[A) = 1, pero la gente piensa en P(A[P) que es much´ısima
m´as baja por supuesto...
II.5.2. Tabaquismo y c´ancer de pulm´on
Del informe “La situaci´on del c´ancer en Espa˜ na, 2005”, elaborado por el Centro
nacional de Epidemiolog´ıa, se deduce en particular los datos siguientes: el c´ancer es
la primera causa de muerte en t´erminos absolutos (p9), y en particular. el c´ancer de
pulm´on es el tumor de mayor incidencia y de mayor mortalidad entre los hombres.
Por otra parte, en la informaci´on publicada por la Asociaci´on Espa˜ nola contra el
C´ancer (AECC) en su p´agina web, se indica que el 90 % de los pacientes con c´ancer
de pulm´on son fumadores.
¿Se puede deducir de est´a ´ ultima estad´ıstica de que el tabaquismo es un factor
de riesgo para el c´ancer de pulm´on? En principio, parece que s´ı, pero en realidad
¡depende de la tasa de fumadores en la poblaci´on!
Traduzcamos estos datos con sucesos: consideramos el experimento “escoger una
persona al azar en la poblaci´on espa˜ nola”. Introducimos los sucesos T=”tiene un
tumor asociado a un c´ancer de pulm´on”, F=”es fumador”. Nos dicen que
P(F[T) = 0,9
pero en realidad, para saber si el hecho de ser fumador incrementa el riesgo de
desarrollar un c´ancer de pulm´on, queremos saber si P(T[F) es mayor que P(T).
Para relacionar P(T[F) y P(T), podemos utilizar la definici´on de la probabilidad
condicionada:
P(T[F) =
P(T ∩ F)
P(F)
=
P(F[T)P(T)
P(F)
=
P(F[T)
P(F)
P(T).
34 Mathieu Kessler: M´etodos Estad´ısticos
Por lo tanto, el concluir si el tabaquismo incrementa el riesgo de desarrollar un
c´ancer de pulm´on depender´a del cociente P(F[T)/P(F).
Seg´ un la Encuesta Nacional de Salud 2003, que se puede obtener del Instituto
Nacional de Estad´ıstica, aproximadamente el 30 % de la poblaci´on espa˜ nola son
fumadores diarios. El cociente P(F[T)/P(F) es por lo tanto igual aproximadamente
a 0.9/0.3=3. Deducimos que el hecho de ser un fumador diario multiplica
por tres el riesgo de padecer un c´ancer de pulm´on.
Pero, se puede enfatizar que la ´ unica afirmaci´on “El 90 % de los pacientes con
c´ancer de pulm´on son fumadores” no implica de por s´ı que el tabaquismo sea un
factor de riesgo para el c´ancer de pulm´ on.
II.5.3. Tabaquismo y esperanza de vida
Un dato cl´asico en epidemiolog´ıa es muy sorprendente en primera lectura:
Si nos limitamos a la gente mayor de 70 a˜ nos, ¡la esperanza de vida de los
fumadores es mayor que la de los no fumadores!
¿C´omo puede ser esto cierto? En realidad este dato no es tan sorprendente si
uno se lo piensa un poco: muy poca gente llega a los 70 a˜ nos fumando... De hecho,
seg´ un la AECC, la edad media de fallecimiento por c´ancer de pulm´on es de 68 a˜ nos
para los hombres y 66 a˜ nos para las mujeres. La gente que llega a los 70 a˜ nos y
son fumadores tienen un sistema inmunol´ogico muy resistente y un mecanismo de
control de c´elulas tumorosas muy eficiente, lo que implica que, de todas maneras,
tendr´ıan una vida muy larga...
II.6. F´ormula de la probabilidad total y teorema de
Bayes
II.6.1. Condiciones de aplicaci´on
Tenemos n sucesos A
1
, A
2
, . . . , A
n
que forman una partici´on del espacio
muestral S, es decir que son mutuamente incompatibles (A
i
∩ A
j
= ∅, para
1 ≤ i, j ≤ n), y cuya uni´on es el espacio muestral entero, i.e. A
1
∪ A
2

A
n
= S. Adem´as conocemos la probabilidad de cada uno de ellos, es decir
P(A
1
), P(A
2
), . . . P(A
n
).
Nota: A menudo nos encontraremos con la situaci´on en la que s´olo son dos
sucesos, i.e n = 2, en este caso tenemos A
1
= A y A
2
= A
c
.
Tenemos otro suceso B y, para cada i = 1, . . . , n, conocemos, en el caso de que
ocurra A
i
, la probabilidad de B, es decir conocemos P(B[A
1
), . . . , P(B[A
n
).
II.6.2. Los resultados
Si se cumplen las condiciones de aplicaci´on del apartado anterior,
F´ormula de la probabilidad total Se puede calcular P(B) descomponiendo
B sobre cada uno de los sucesos de la partici´on:
P(B) = P(B[A
1
)P(A
1
) + +P(B[A
n
)P(A
n
).
II.6 F´ormula de la probabilidad total y teorema de Bayes 35
Teorema de Bayes Para cualquier i = 1, . . . , n, tenemos
P(A
i
[B) =
P(B[A
i
)P(A
i
)
P(B[A
1
)P(A
1
) + +P(B[A
n
)P(A
n
)
.
Demostraci´on. Utilizamos, al formar A
1
, A
2
, . . . , A
n
una partici´on del espacio
muestral, la descomposici´on del suceso B
B = (B ∩ A
1
) ∪ (B ∩ A
2
) ∪ (B ∩ A
n
).
Los sucesos (B∩A
1
), . . . , (B∩A
n
) son incompatibles dos a dos, y aplicamos la regla
de la adici´on
P(B) = P(B ∩ A
1
) +P(B ∩ A
2
) + P(B ∩ A
n
).
Utilizamos ahora la regla del producto P(B ∩ A
i
) = P(B[A
i
)P(A
i
) para todo i =
1, . . . , n para la f´ormula de la probabilidad total
P(B) = P(B[A
1
)P(A
1
) + +P(B[A
n
)P(A
n
).
Por otra parte por la definici´on de la probabilidad condicionada P(A
i
[B) = P(A
i

B)/P(B), para todo 1 ≤ i ≤ n. Si sustituimos en el numerador P(A
i
∩ B) por
P(B[A
i
)P(A
i
) y en el numerador P(B) por la f´ormula de la probabilidad total, obten-
emos el teorema de Bayes.
II.6.3. Ejemplo
En un la transmisi´on de un mensaje por correo electr´onico, la calidad de la recep-
ci´on de un fichero depende de la sobrecarga de la red. Si la red est´a sobrecargada, la
proporci´on de ficheros da˜ nados es de 1 %, mientras que si no lo est´a, esta proporci´on
s´olo es del 0.01 %. Estimamos que la probabilidad de que la red est´e sobrecargada
es igual a 0.02. ¿Cu´al es la proporci´on total de ficheros da˜ nados en la transmisi´on?
Suponiendo que recibo un fichero da˜ nado, ¿cu´al es la probabilidad de que la red
estuviera sobrecargada durante la transmisi´on?
Empecemos por introducir los sucesos convenientes para traducir los datos que
se nos proporciona. Sea RS el suceso “La red est´a sobrecargada”, y D el suceso “El
archivo est´a da˜ nado”. Se nos pide calcular P(D) y P(RS[D). Nos damos cuenta de
que si A
1
= RS y A
2
= RS
C
, los sucesos A
1
y A
2
son incompatibles y su reuni´on es
el espacio muestral entero, por lo tanto forman una partici´on del espacio muestral.
Adem´as conocemos sus probabilidades: P(A
1
) = 0,02 y P(A
2
) = 0,98. Por otra
parte conocemos P(D[A
1
), y P(D[A
2
), estamos por lo tanto en las condiciones de
aplicaci´on de la f´ormula de la probabilidad total y del teorema de Bayes. Deducimos
P(D) = P(D[RS)P(RS) +P(D[RS
C
)P(RS
C
)
= 0,01 0,02 + 0,0001 0,98 = 0,000298 · 0,0003,
es decir que la proporci´on total de ficheros da˜ nados es de 3 por 10000. Por otra
parte, por el teorema de Bayes,
P(RS[D) =
P(D[RS)P(RS)
P(D[RS)P(RS) +P(D[RS
C
)P(RS
C
)
=
0,01 0,02
0,000298
· 0,67,
por lo tanto, sabiendo que recibo un fichero da˜ nado, la probabilidad de que la red
estuviera sobrecargada es igual a 0.67.
TEMA III
Variable aleatoria I
Las nociones te´oricas que hemos introducido responden a la necesidad de constru-
ir modelos matem´aticos que den cuenta del car´acter aleatorio de los fen´omenos que
nos interesan. Hemos puesto en el tema anterior las primeras piedras en este senti-
do describiendo experimento aleatorio, sucesos y probabilidad asociada a un suceso,
pero nos falta la noci´on fundamental de variable aleatoria: en problemas concretos,
estamos interesados en funciones definidas sobre el espacio de los resultados posibles
del experimento aleatorio, y los sucesos que queremos estudiar se expresan a trav´es
de estas funciones. Puesto que nos es imposible predecir de manera exacta el valor
de una variable aleatoria al realizar el experimento, nuestro modelo consistir´a en de-
scribir las probabilidades asociadas a cualquier suceso relacionado con esta variable,
descripci´on que conseguiremos gracias a la funci´on de distribuci´on.
III.1. Concepto de variable aleatoria
Consideramos un experimento aleatorio y su espacio muestral asociado.
III.1.1. Definici´ on
Una variable aleatoria- de ahora en adelante v.a.- asocia un n´ umero o m´as gen-
eralmente una caracter´ıstica a todo resultado posible del experimento.
Por ejemplo, si consideramos el experimento que consiste en realizar una medi-
ci´on de la concentraci´on de un producto en una soluci´on, nos interesa la v.a X=
“valor medido de la concentraci´on.” Otro ejemplo de variable aleatoria se asocia, en
un proceso de fabricaci´on, al experimento de escoger un dispositivo producido, y
considerar la v.a. X= “duraci´on hasta el fallo”.
Finalmente ilustraremos algunos conceptos de este tema con un ejemplo sencillo:
el experimento consiste en lanzar tres veces una moneda no trucada. Si denotamos
por + el resultado “cruz” y por c el resultado “cara” al lanzar una moneda, el espacio
38 Variable aleatoria I
muestral se describe como
S = ¦ccc, cc+, c +c, c + +, +cc, +c+, + +c, + + +¦.
Consideraremos la v.a. X= “n´ umero de veces que ha salido cruz en los tres lanza-
mientos”. Puede tomar cualquiera de los valores 0, 1, 2 y 3.
III.1.2. Distribuci´ on de una variable aleatoria
Conocer la distribuci´on de los valores de una v.a. X consiste en saber asignar a
cualquier suceso relacionado con X una probabilidad. Decidir de una distribuci´on
para una v.a de inter´es en un problema concreto es por lo tanto escoger un modelo
para describir el comportamiento de esta variable.
Para el ejemplo de los tres lanzamientos de una moneda, la distribuci´on de X =
“n´ umero de veces que ha salido cruz en los tres lanzamientos” est´a completamente
determinada por la lista de los valores posibles junto con la probabilidad con la que
X toma cada valor. Al ser la moneda no trucada, escogemos un modelo en el que los
sucesos elementales de S son equiprobables, calculamos P(X = i) para i = 0, 1, 2, 3
con la regla casos favorables / casos posibles y obtenemos
Valor Probabilidad
0 1/8
1 3/8
2 3/8
3 1/8
Se puede representar de manera gr´afica la distribuci´on de X:
Podremos fijarnos en las caracter´ısticas principales de esta distribuci´on (simetr´ıa,
m´aximo, colas...)
III.2 Funci´on de distribuci´on de una v.a 39
III.2. Funci´ on de distribuci´on de una v.a
Se trata de una manera de describir la distribuci´on de una variable X.
III.2.1. Definici´ on
La funci´on de distribuci´on de una v.a. X es la funci´on F
X
que asocia a cualquier
n´ umero real t la probabilidad de que X sea menor o igual a t, i.e.
F
X
(t) = P(X ≤ t).
III.2.2. C´alculo para el ejemplo de las tres monedas
Para calcular F
X
(t) = P(X ≤ t), debemos considerar los intervalos definidos por
los valores posibles de X es decir 0, 1, 2 y 3 que inducen los cinco intervalos para t:
t < 0, 0 ≤ t < 1, 1 ≤ t < 2, 2 ≤ t < 3 y t > 3.
Si t < 0, el suceso (X ≤ t) es el suceso imposible puesto que todos los valores
que puede tomar X son mayores o igual que 0. Por lo tanto, F
X
(t) = P(X ≤ t) = 0.
Si 0 ≤ t < 1, el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0.
Deducimos F
X
(t) = P(X ≤ t) = P(X = 0) = 1/8.
Si 1 ≤ t < 2, el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0 ´o
1, es decir F
X
(t) = P(X ≤ t) = P[(X = 0) ∪ (X = 1)] = P[X = 0] + P[X = 1] =
1/8 + 3/8 = 1/2.
Si 2 ≤ t < 3, el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0, 1 ´o 2,
es decir F
X
(t) = P(X ≤ t) = P[X = 0] +P[X = 1] +P[X = 2] = 1/2 + 3/8 = 7/8.
Finalmente, si t > 3, el suceso (X ≤ t) es el suceso seguro puesto que todos los valores
que puede tomar X son menores o igual que 3. Por lo tanto F
X
(t) = P(X ≤ t) = 1.
La gr´afica de F
X
en este ejemplo es
x
F
(
x
)
0.125
0.250
0.375
0.500
0.625
0.750
0.875
1.000
0 1 2 3
q
q
q
q
III.2.3. Propiedades
La funci´on de distribuci´on de una v.a. X cumple las propiedades siguientes:
40 Variable aleatoria I
0 ≤ F
X
(t) ≤ 1, para todo t ∈ R.
l´ım
t→−∞
F
X
(t) = 0 mientras que l´ım
t→+∞
F
X
(t) = 1.
F
X
es una funci´on creciente, puesto que si a ≤ b, tenemos (X ≤ a) ⊂ (X ≤ b)
lo que implica que P(X ≤ a) ≤ P(X ≤ b).
F
X
es una funci´on continua por la derecha.
Finalmente la propiedad m´as importante que utilizaremos muy a menudo: para
todos n´ umeros reales a ≤ b,
P(a < X ≤ b) = F
X
(b) −F
X
(a).
La demostraci´on de esta propiedad es inmediata si utilizamos la descomposi-
ci´on (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) junto con la regla de la adici´on.
III.3. Variable aleatoria discreta
III.3.1. Definici´ on
En el caso en que la v.a. X puede tomar un n´ umero finito o infinito numerable
1
de valores. En el ejemplo de los tres lanzamientos de una moneda, la v.a. X=
“N´ umero de veces que ha salido cruz” es una v.a discreta puesto que s´olo puede
tomar cuatro valores.
III.3.2. Funci´ on puntual de probabilidad
III.3.2.1. Definici´on
Si X es una v.a. discreta, y x
1
, x
2
, . . . , x
n
, . . . representan sus valores posibles,
la funci´on puntual de probabilidad de X es la funci´on f
X
que asocia a cada x
i
la
probabilidad P(X = x
i
), para i = 1, . . . , n. . .
f
X
: x
i
→ f
X
(x
i
) = P(X = x
i
).
Ejemplo. En el experimento del lanzamiento de las tres monedas, hemos calculado
la distribuci´on de X, el n´ umero de veces que ha salido cruz en el apartado 1.2. Los
valores posibles de X son 0, 1, 2 y 3; por lo tanto
Valor f
X
0 1/8
1 3/8
2 3/8
3 1/8
1
Un conjunto infinito numerable es un conjunto del que se puede enumerar todos los elementos. N,
Z y Q son ejemplos de conjuntos infinitos numerables. En cambio un conjunto infinito no numerable
es un conjunto que no se puede poner en biyecci´ on con N, es decir para el cual es imposible enumerar
los elementos. El intervalo de n´ umeros reales [0, 1] es infinito no numerable por ejemplo.
III.3 Variable aleatoria discreta 41
III.3.2.2. Propiedades
La funci´on puntual de probabilidad de una v.a. discreta permite calcular la
funci´on de distribuci´on: si notamos que
(X ≤ t) = ∪
x
i
≤t
(X = x
i
),
obtenemos que
P(X ≤ t) =
¸
x
i
≤t
P(X = x
i
) =
¸
x
i
≤t
f
X
(x
i
).
Adem´as, si consideremos dada una funci´on f definida en un conjunto discreto
de valores ¦x
1
, . . . , x
n
, . . .¦, se puede demostrar que f es una funci´on puntual
de probabilidad de una v.a. X si y solamente si cumple
• 0 ≤ f(x) para x = x
1
, . . . , x
n
, . . .

¸
x
i
f
X
(x
i
) = 1.
III.3.3. Caracter´ısticas de una variable discreta
Al igual que en el tema 1 para un conjunto de datos, queremos disponer de
herramientas para describir la distribuci´on de valores de una v.a. De hecho, todos
las medidas descriptivas de un conjunto de datos tienen su contra-parte para la
distribuci´on de una v.a. Nos limitaremos por razones de tiempo a una medida de
centralizaci´on y otra de dispersi´on: la esperanza y la varianza.
III.3.3.1. Esperanza
Si queremos considerar el valor medio de la distribuci´on de valores de una v.a.,
es natural calcular la suma de estos valores ponderados por la probabilidad que se
le asigna.
Definici´on III.3.1 La media, o esperanza, o valor esperado, o promedio, de una
v.a. discreta X se define como
E[X] =
¸
x
i
x
i
P(X = x
i
).
Representa una medida de centralizaci´on de la distribuci´on de valores de X pero
con la misma puntualizaci´on que en el tema 1: es representativa del centro de la
distribuci´on si ´esta es aproximadamente sim´etrica pero puede ser una mala medida
de centralizaci´on si la distribuci´on es asim´etrica y/o presenta colas pronunciadas.
Por supuesto, la esperanza de una v.a. X se expresa en las mismas unidades que
X.
Ser´a ´ util para una distribuci´on de valores ser capaz de calcular el valor medio
no solamente de X sino tambi´en de una funci´on de X; est´a claro por ejemplo que
el valor medio de la distancia al cuadrado de X a su media ser´a una medida de
dispersi´on de la distribuci´on de valores de X. Por ello, definimos la esperanza de
una funci´on cualquiera f(X) de X.
42 Variable aleatoria I
Definici´on III.3.2 Sea X una v.a. discreta y f una funci´on de R en R. La esper-
anza de f(X) es la suma de los valores de f(X) ponderados por la probabilidad de
que X tome cada valor, es decir,
E[f(X)] =
¸
x
i
f(x
i
)P(X = x
i
).
III.3.3.2. Varianza
Para disponer de una medida num´erica de la dispersi´on de valores de una v.a
X, calcularemos el valor promedio de la distancia al cuadrado de X a su media. Al
igual que en el tema 1, llamamos esta cantidad la varianza de X.
Definici´on III.3.3 La varianza de una v.a. discreta X, designada por var X o σ
2
X
,
est´a definida por
var(X) = E[(X −E[X])
2
].
Por la definici´on III.3.2 deducimos que var(X) se puede calcular como
var(X) =
¸
x
i
(x
i
−E[X])
2
P(X = x
i
).
Por otra parte, se suele calcular la varianza utilizando la f´ormula equivalente sigu-
iente:
F´ormula equivalente para el c´alculo de la varianza. Tenemos
var(X) = E[X
2
] −(E[X])
2
.
Demostraci´on:
var(X) =
¸
x
i
(x
i
−E[X])
2
P(X = x
i
)
=
¸
x
i
(x
2
i
−2x
i
E[X] +E[X]
2
)P(X = x
i
)
=
¸
x
i
x
2
i
P(X = x
i
) −
¸
x
i
2x
i
E[X]P(X = x
i
) +
¸
x
i
E[X]
2
P(X = x
i
)
=
¸
x
i
x
2
i
P(X = x
i
) −2E[X]
¸
x
i
x
i
P(X = x
i
) +E[X]
2
¸
x
i
P(X = x
i
)
= E[X
2
] −2E[X]E[X] +E[X]
2
= E[X
2
] −E[X]
2

Finalmente, la desviaci´on t´ıpica se define como la ra´ız cuadrada de la varianza
σ
X
=

σ
2
X
.
Ser´a la medida que calcularemos para dar cuenta de la dispersi´on de la distribuci´on:
cuanto m´as peque˜ na sea la desviaci´on t´ıpica, m´as concentrada estar´a la distribuci´on
alrededor de su media. En particular, si la desviaci´on t´ıpica de X es nula, deducimos
III.3 Variable aleatoria discreta 43
por la primera f´ormula para el c´alculo de la varianza, que todos los valores de X son
iguales: X s´olo puede tomar un valor, y lo toma con probabilidad 1.
Por otra parte, es bueno resaltar que la desviaci´on t´ıpica se expresa en las mismas
unidades que la variable X.
Nota III.3.1 En la f´ormula equivalente para la varianza aparecen las cantidades
E[X
2
] y E[X]. En general para un entero k, llamamos a E[X
k
] el momento de orden
k. As´ı la media es el momento de orden 1. Tambi´en hablamos de momento centrado
de orden k para la cantidad E[(X−E[X])
k
]. La varianza es por lo tanto el momento
centrado de orden 2.
III.3.3.3. Ejemplo
Calculemos para el ejemplo del lanzamiento de tres monedas la esperanza y la
varianza de la v.a X ”n´ umero de cruces”.
Por una parte,
E[X] =
¸
x
i
x
i
P(X = x
i
) = 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8
= 3/2
y por otra parte
var(X) = E[X
2
] −(E[X])
2
=
¸
x
i
x
2
i
P(X = x
i
) −(3/2)
2
= 0
2
1/8 + 1
2
3/8 + 2
2
3/8 + 3
2
1/8 −(3/2)
2
= 3/4
La desviaci´on t´ıpica es por lo tanto
σ
X
=

3/2.
III.3.4. Modelos m´as usados de v.a. discretas
No debemos olvidar que nuestro objetivo es modelizar un fen´omeno. Proponer un
modelo no consiste en proporcionar una descripci´on de la realidad, sino disponer de
una aproximaci´on que d´e cuenta de los resultados observados del experimento para
unas condiciones experimentales dadas. Ning´ un modelo se ajusta perfectamente al
fen´omeno observado, as´ı que considerarlo adecuado o v´alido es equivalente a consid-
erar que el grado de precisi´on conseguido es satisfactorio para el uso que queremos
hacer del modelo.
En este contexto, hay situaciones t´ıpicas de modelizaci´on que presentan las mis-
mas caracter´ısticas y para las cuales se han propuesto modelos de distribuciones bien
estudiados y conocidos.
III.3.4.1. Variable de Bernoulli
Se trata de una variable que s´olo puede tomar dos valores, 0 ´o 1. Llamamos p la
probabilidad de que tome el valor 1. Varios valores de p, (comprendidos entre 0 y 1,
44 Variable aleatoria I
puesto que p es una probabilidad) dan varias distribuciones de Bernoulli. Para un
valor p concreto, hablamos de la distribuci´on de Bernoulli de par´ametro p.
Propiedades
Valores posibles: ¦0, 1¦,
P(X = 0) = 1 −p P(X = 1) = p.
Esperanza:
E[X] =
¸
x
i
P(X = x
i
) = 0 (1 −p) + 1 p = p
Varianza:
Tenemos: E[X
2
] =
¸
x
2
i
P(X = x
i
) = 0
2
(1 −p) + 1
2
p = p, por lo tanto
var(X) = p −p
2
= p(1 −p).
Ejemplo. Transmito un fichero por la red, en promedio 3 de cada 10000 ficheros
transmitidos resultan da˜ nados. Al experimento aleatorio: “transmitir un fichero por
la red”, asocio la variable X que toma el valor 1 si el fichero se transmite correcta-
mente y 0 si resulta da˜ nado. La variable X sigue una distribuci´on de Bernoulli de
par´ametro 0,9997.
III.3.4.2. Distribuci´on binomial
a). Definici´on La distribuci´on binomial aparece cuando se dan las condiciones
siguientes:
Tenemos un primer experimento aleatorio simple, con una situaci´on dicot´omi-
ca, es decir una situaci´on con dos sucesos posibles A y A
c
(o ocurre A o no
ocurre A).
Repetimos este experimento simple n veces de manera independiente.
Consideramos la variable X=”N´ umero de veces que ha ocurrido A en las n
realizaciones del experimento simple.
En esta situaci´on, la variable X sigue una distribuci´on Binomial, de par´ametros
n ( el n´ umero de veces que repetimos el experimento simple) y p (la probabilidad de
que, en una realizaci´on del experimento simple, ocurra A). Lo denotamos por
X ∼ B(n, p),
donde el s´ımbolo ∼ se utiliza para “sigue una distribuci´on”...
b). Ejemplo Una empresa produce piezas con 1 % de defectuosas. Las piezas se
empaquetan en cajas de 10 unidades. Si consideramos el experimento aleatorio que
consiste en escoger al azar una caja entre la producci´on, ¿cu´al es la distribuci´on de
la variable X=”n´ umero de piezas defectuosas en la caja”.
Para completar una caja, se ha repetido 10 veces el experimento aleatorio simple
“escojo una pieza en la producci´on” al que va asociado una situaci´on dicot´omica:
o bien ocurre A=“la pieza escogida es defectuosa”, o bien ocurre A
c
= “la pieza
III.3 Variable aleatoria discreta 45
escogida es correcta”. Contar el n´ umero de piezas defectuosas en la caja es por
lo tanto equivalente a contar el n´ umero de veces que ha ocurrido A entre las 10
realizaciones del experimento simple. Deducimos que la distribuci´on de X es una
distribuci´on Binomial con par´ametros n = 10, y p = P(A), la probabilidad de que
ocurra A en el experimento simple. Concluimos
X ∼ B(10, 0,01).
c). Propiedades
Valores posibles: 0, 1, 2, . . . , n.
Distribuci´on - Funci´on puntual de probabilidad. i = 0, 1, . . . , n f
X
(i) =
P(X = i). Para calcular estas probabilidades, introduzcamos los sucesos:
A
1
= “ha ocurrido A en la primera realizaci´on del exp. simple”
A
2
= “ha ocurrido A en la segunda realizaci´on del exp. simple”
.
.
.
.
.
.
A
n
= “ha ocurrido A en la n-´esima realizaci´on del exp. simple”
Estos sucesos son independientes.
Empecemos por calcular P(X = 0):
El suceso X = 0 se puede escribir A
c
1
∩ A
c
2
∩ . . . ∩ A
c
n
, por lo tanto
P(X = 0) = P(A
c
1
∩ A
c
2
∩ . . . ∩ A
c
n
) = P(A
c
1
) . . . P(A
c
n
) = (1 −p)
n
,
por la regla del producto para sucesos independientes.
De manera similar, calculamos P(X = 1) :
El suceso (X = 1) se escribe como
(X = 1) = (A
1
∩ A
c
2
∩ . . . ∩ A
c
n
) ∪ (A
c
1
∩ A
2
∩ . . . ∩ A
c
n
) ∪ . . .
∪ (A
c
1
∩ A
c
2
∩ . . . ∩ A
n
)
Aplicando la regla de la adici´on para sucesos incompatibles y a continuaci´on
la regla del producto para sucesos independientes, obtenemos
P(X = 1) = P(A
1
∩ A
c
2
∩ . . . ∩ A
c
n
) +P(A
c
1
∩ A
2
∩ . . . ∩ A
c
n
) +. . .
+P(A
c
1
∩ A
c
2
∩ . . . ∩ A
n
)
= p(1 −p)
n−1
+p(1 −p)
n−1
+. . . +p(1 −p)
n−1
= np(1 −p)
n−1
De la misma manera, podemos demostrar que, para un i cualquiera entre 0 y
n, la probabilidad P(X = i) se descompone como la suma de t´erminos todos
iguales, siendo el primero de ellos P(A
1
∩A
2
∩. . . ∩A
i
∩A
c
i+1
∩. . . ∩A
c
n
), que es
igual a p
i
(1−P)
n−i
. S´olo nos queda determinar el n´ umero de t´erminos en esta
suma, corresponde al n´ umero de maneras de escoger i sucesos diferentes entre
n: es una cantidad b´asica en combinatoria, se llama el n´ umero de combinaciones
de n elementos tomados de i en i, y se denota por (
n
i
). En resumen, para
i = 0, 1, . . . , n,
f
X
(i) = P(X = i) = (
n
i
)p
i
(1 −p)
n−i
,
46 Variable aleatoria I
donde
(
n
i
) =
n!
i! (n −i)!
,
y se utiliza la convenci´on 0! = 1.
Nota: ¿se cumple que
¸
n
i=1
(
n
i
)p
i
(1 − p)
n−i
= 1? La respuesta es s´ı, por el
binomio de Newton: (a +b)
n
=
¸
n
i=1
(
n
i
)a
i
(b)
n−i
, y por lo tanto
n
¸
i=1
(
n
i
)p
i
(1 −p)
n−i
= (p + 1 −p)
n
= 1.
Esperanza y varianza:
Es posible demostrar que, si X ∼ B(n, p),
E[X] = n p, var(X) = n p (1 −p).
III.3.4.3. Distribuci´on Geom´etrica
a). Definici´on Es el modelo m´as sencillo para un tiempo de espera discreto:
consideramos, al igual que para una distribuci´on binomial, un experimento simple
con una situaci´on dicot´omica, ocurre A o A
C
con probabilidades p y 1 −p respecti-
vamente. Estamos dispuestos a realizar este experimento simple un cierto n´ umero de
veces hasta que ocurra A. Introducimos la variable X:”N´ umero de veces que debe-
mos realizar el experimento simple hasta que ocurra A por primera vez”.
La variable X sigue una distribuci´on geom´etrica de par´ametro p. Escribimos
X ∼ (eo(p)
b). Propiedades .
X puede tomar los valores 1, 2, . . ..
Funci´on puntual de probabilidad de X: queremos calcular P(X = i) para
i ∈ N

.
Introducimos los sucesos: A
1
=”ocurre A en la primera realizaci´on del experi-
mento simple”, A
2
=”ocurre A en la segunda realizaci´on del experimento sim-
ple”, etc....
Est´a claro que
P(X = i) = P(A
c
1
∩ A
c
2
∩ . . . A
c
i−1
∩ A
i
),
y, por la regla del producto para sucesos independientes, deducimos
P(X = i) = (1 −p)
i−1
p.
Esperanza y varianza de X ∼ (eo(p).
Utilizando resultados cl´asicos sobre suma de series geom´etricas, obtenemos
E[X] = 1/p,
V ar(X) =
1 −p
p
2
.
III.4 Variable continua 47
III.3.4.4. Distribuci´on de Poisson
a). Definici´on La distribuci´on de Poisson aparece en situaciones en las que se
cuenta el n´ umero de apariciones de un determinado suceso o bien en un intervalo de
tiempo dado (como el n´ umero de part´ıculas emitidas en un segundo por un material
radioactivo, o el n´ umero de clientes que llegan a una cola en un intervalo de tiempo
dado) o bien en un recinto f´ısico (como el n´ umero de fallos en un metro de alambre
de hierro producido.
Si λ es el n´ umero medio de apariciones del suceso de inter´es por intervalo de
tiempo, la variable X=“n´ umero de veces que ha aparecido el suceso en un intervalo
de tiempo escogido al azar”, sigue una distribuci´on de Poisson de par´ametro λ.
Escribimos
X ∼ {(λ).
b). Propiedades
Valores posibles: 0, 1, . . . , n, . . ., es decir todos los n´ umeros enteros...
Funci´on puntual de probabilidad: para i = 0, 1, . . . ,
f
X
(i) = P(X = i) =
λ
i
e
−λ
i!
.
Podemos comprobar que
¸
+∞
i=0
λ
i
e
−λ
i!
= 1, si utilizamos el hecho de que la suma
de la serie de potencias
¸
+∞
i=0
x
i
i!
= e
x
.
Esperanza y varianza.
Es f´acil comprobar repitiendo c´alculos similares a los del punto anterior, que
la esperanza de una distribuci´on de Poisson de par´ametro λ, es, tal como se
anunci´o en la definici´on, λ. Por otra parte, se puede demostrar que su varianza
es λ tambi´en: si X ∼ {(λ)
E[X] = λ, var(X) = λ.
III.4. Variable continua
III.4.1. Definici´ on
Si una v.a X puede tomar un n´ umero infinito no numerable de valores, se le
llama v.a continua.
III.4.2. Funci´ on de densidad
III.4.2.1. Presentaci´on
Queremos disponer de una manera de describir la distribuci´on de una v.a con-
tinua, es decir que nos permita calcular la probabilidad asignada a cualquier suceso
relacionado con X. Para una v.a discreta, hemos visto que utilizamos la funci´on
puntual de probabilidad que asocia a cada valor posible la probabilidad de que X
tome este valor: el c´alculo de la probabilidad de un suceso involucra entonces una
suma de valores de la funci´on puntual de probabilidad. Puesto que una v.a continua
48 Variable aleatoria I
puede tomar un n´ umero infinito no numerable de valores, no asignaremos una prob-
abilidad a cada valor posible, sino que definiremos una “densidad” de probabilidad,
que indique en qu´e zonas del espacio de los valores posibles de X es m´as probable
que se encuentre X.
III.4.2.2. Definici´on
Para una v.a continua X existe una funci´on f
X
positiva, tal que, para todos a y
b, a ≤ b,
P(a ≤ X ≤ b) =

b
a
f
X
(x)dx.
La funci´on f
X
se llama la funci´on de densidad de la v.a X. Notar que se trata de una
terminolog´ıa coherente con la analog´ıa mencionada anteriormente entre probabilidad
y peso: para un cuerpo no homog´eneo, el peso de una parte de este cuerpo se calcula
integrando la densidad en el volumen correspondiente.
Nota:
Al ser f
X
una funci´on positiva, y P(a ≤ X ≤ b) =

b
a
f
X
(x)dx., la probabili-
dad de que X est´e entre a y b corresponde al ´area debajo de la curva de f
X
comprendida entre a y b, tal como est´a ilustrado en la figura siguiente:
Valores de X
f
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
a b
Si disponemos de un conjunto de datos con una variable X, generados a partir
de realizaciones de un experimento, y si nuestra descripci´on del mecanismo
de generaci´on de los datos a trav´es de un modelo para X, es adecuada, la
funci´on de densidad de X tiene mucha relaci´on con el histograma. En efecto,
la probabilidad de que X pertenezca a una clase debe explicar la frecuencia de
datos que aparecen en esta clase, y por lo tanto la forma del histograma debe
corresponder a la forma de la densidad, tal como viene reflejado en la figura:
III.4 Variable continua 49
Densidad y histograma
x
D
e
n
s
i
d
a
d
−2 −1 0 1 2
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
El ´area total debajo de la curva de f
X
debe corresponder a la probabilidad de
que X tome un valor real, y es igual a 1:

+∞
−∞
f
X
(x)dx = 1.
Si X es una v.a continua, la probabilidad de que tome un valor dado a es
nula, puesto que la integral de f
X
entre a y a es cero: la distribuci´on de una
v.a continua s´olo asigna probabilidades positivas a intervalos de valores y no
a puntos individuales. En particular deducimos por la regla de la adici´on que,
si X es una v.a continua,
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a < X < b) = P(a ≤ X < b).
!Por supuesto este tipo de igualdades no es v´alida en general para una v.a
discreta!
III.4.2.3. Propiedades
a). Relaciones entre f
X
y F
X
. La funci´on de distribuci´on acumulada de X es,
ver secci´on III.2 calcula para todo real t la probabilidad de que X tome un valor
menor o igual que t: F
X
(t) = P(X ≤ t). Por la definici´on de la funci´on de densidad
f
X
deducimos que
F
X
(t) =

t
−∞
f
X
(x)dx.
Por lo tanto, F
X
es una primitiva de f
X
, o equivalentemente, f
X
se puede calcular
como la derivada, en los puntos donde existe, de la funci´on de distribuci´on acumulada
t → F
X
(t).
50 Variable aleatoria I
b). Condiciones para que una funci´on f sea la funci´on de densidad de
una v.a continua X. Est´a claro que, para que una funci´on f sea la funci´on de
densidad de una v.a continua X, es necesario que se cumplan las dos condiciones:
1. f(x) ≥ 0, para todo x ∈ R,
2.

+∞
−∞
f(x)dx = 1.
Se puede demostrar que son tambi´en condiciones suficientes para que exista una v.a
X con funci´on de densidad igual a f.
III.4.2.4. Ejemplo
El tiempo de vida expresado en miles de horas de un dispositivo electr´onico
escogido al azar en la producci´on de una f´abrica es una v.a X. Despu´es de un
estudio, se opta por modelizar esta v.a como una v.a continua con una funci´on de
densidad dada por
f
X
(x) =

e
−x
si x > 0
0 en otro caso.
La representaci´on gr´afica de f
X
es
Notar que por la gr´afica de esta funci´on de densidad, comprobamos que la probabili-
dad de que X pertenezca a un intervalo de n´ umeros negativos, por ejemplo [−2, −3]
es nula (la densidad de probabilidad es nula en R

), o que es mucho menos probable
que un dispositivo dure entre 4000 y 5000 horas que dure entre 1000 y 2000h.
Si nos preguntamos precisamente cu´al es la proporci´on de dispositivos en la
producci´on que duran entre 1000 y 2000h, debemos calcular
P(1 ≤ X ≤ 2) =

2
1
f
X
(x)dx =

2
1
e
−x
dx = [−e
−x
]
2
1
· 0,235.
Seg´ un nuestro modelo, alrededor del 23 % de la producci´on tendr´a una duraci´on
entre 1000 y 2000 horas.
III.4.3. Medidas num´ericas asociadas a una v.a continua
De la misma manera que para distribuciones de variables en un conjunto de
datos, se pueden resumir algunas caracter´ısticas de las distribuciones de variables
asociadas a experimentos aleatorios.
III.4 Variable continua 51
III.4.3.1. Esperanza
Sea X una variable con densidad f, definimos la media de X, tambi´en llamada
esperanza o valor esperado, como
µ
X
= E[X] =

+∞
−∞
x f(x)dx.
Es una medida de centro de la distribuci´on si ´esta es relativamente sim´etrica, se
interpreta como el centro de gravedad de la distribuci´on, ver figura III.1. Otra vez
es coherente con la analog´ıa entre el peso y la probabilidad.
E[X]
E[X]
Figura III.1: La esperanza es el centro de gravedad
Tal como lo hicimos para una v.a discreta, es conveniente definir para una funci´on
g de X la esperanza de g(X):
E[g(X)] =

+∞
−∞
g(x)f
X
(x)dx.
III.4.3.2. Varianza - Desviaci´on t´ıpica
La varianza se define como el promedio de la distancia al cuadrado entre X y su
media:
σ
2
X
= var(X) = E[(X −µ
X
)
2
] =

+∞
−∞
(x −µ
X
)
2
f(x)dx.
Al desarrollar la integral, es f´acil obtener la f´ormula alternativa, m´as pr´actica para
el c´alculo:
σ
2
X
= E[X
2
] −(E[X])
2
=

+∞
−∞
x
2
f
X
(x)dx −(E[X])
2
.
52 Variable aleatoria I
y la desviaci´on t´ıpica es σ
X
=

σ
2
X
.
La desviaci´on t´ıpica mide la dispersi´on de la distribuci´on de los valores de X
respecto a su media.
III.4.3.3. Un ejemplo
Calculemos la duraci´on media y la desviaci´on t´ıpica en el ejemplo de la duraci´on
de los dispositivos electr´onicos de la secci´on III.4.2.4. Tenemos que
E[X] =

+∞
−∞
x f
X
(x)dx =

0
−∞
x f
X
(x)dx +

+∞
0
x f
X
(x)dx
= 0 +

+∞
0
x e
−x
dx
= 1,
hemos descompuesto la integral inicial seg´ un los intervalos de definici´on de f
X
, susti-
tuido la expresi´on de f
X
en las integrales resultantes, y calculado por partes la ´ ultima
integral que aparece. La duraci´on media de los dispositivos es por lo tanto de 1000h.
De la misma manera, calculamos la varianza de X:
var(X) = E[X
2
] −(E[X])
2
= 0 +

+∞
0
x
2
e
−x
dx −1 = 1.
III.4.4. Modelos m´as comunes de v.a continua
Algunas situaciones de modelizaci´on presentan rasgos comunes y se han estable-
cido modelos “est´andar” que resultan adecuados para distintos contextos.
III.4.4.1. Variable aleatoria uniforme
El modelo de v.a. continua m´as sencillo corresponde a la situaci´on en la que X
puede tomar cualquier valor entre dos n´ umeros a y b, sin que favorezca ninguna zona
del intervalo [a, b]. La probabilidad de que X est´e entre a y b ser´a igual a 1, mientras
que la probabilidad de que est´e en un subintervalo de [a, b] ser´a sencillamente pro-
porcional a su longitud. Intuitivamente, queremos que la funci´on de densidad de X
sea nula fuera de [a, b], y constante en el intervalo [a, b]. Para que el ´area total debajo
de la curva de densidad sea igual a 1, esta constante deber´a ser igual a 1/(b −a). La
funci´on de densidad ser´a por lo tanto dada por:
f
X
(x) =

1
(b−a)
si a ≤ x ≤ b,
0 en otro caso.
La representaci´on gr´afica de f
X
se encuentra en la figura III.2. Una v.a X que tenga
esta funci´on de densidad se llama una v.a uniforme entre a y b. Lo denotaremos por
X ∼ |([a, b]).
El comando“RANDOM”de varios lenguajes de programaci´on, que tambi´en aparece
en casi todas las calculadoras cient´ıficas, simula una variable uniforme entre 0 y 1.
¿Puede ser realmente una v.a uniforme?
III.4 Variable continua 53
Figura III.2: Densidad de una v.a uniforme
Por otra parte calculemos la esperanza y la varianza de una v.a X ∼ |([a, b]).
Antes de llevar a cabo los c´alculos, y examinando la gr´afica de la densidad de X,
¿cu´anto piensa que vale E[X]?.
E[X] =

+∞
−∞
x f
X
(x)dx = 0 +

b
a
x
1
b−a
dx + 0
=
b
2
−a
2
2

1
b−a
=
a+b
2
¿Corresponde con su intuici´on?. Se deja en ejercicio al lector comprobar que la
varianza de una v.a X ∼ |([a, b]) es
var(X) =
(b −a)
2
12
,
es decir que la desviaci´on t´ıpica es sencillamente proporcional a (b−a), otro resultado
natural, ¿no?
III.4.4.2. Modelo exponencial
a). Definici´on En el mismo contexto que para una v.a de Poisson (ocurrencias
de sucesos aleatorios en el tiempo), denotando por λ el n´ umero medio de ocurren-
cias por intervalo de tiempo, consideramos la v.a X que mide el tiempo entre dos
ocurrencias consecutivas del suceso, la distribuci´on de la v.a X se llama distribuci´on
exponencial de par´ametro λ y se denota por
X ∼ cxp(λ).
Dos ejemplos corresponden al tiempo entre dos emisiones consecutivas de una
part´ıcula por un material radioactivo, o entre dos llegadas de clientes en una cola.
54 Variable aleatoria I
b). Propiedades
La funci´on de densidad de una v.a X ∼ cxp(λ) es
f
X
(x) =

λe
−λx
si x > 0
0 en otro caso.
Su gr´afica es parecida a la del ejemplo de la secci´on III.4.2.4. De hecho, resulta
que la densidad de este ejemplo es la densidad de una distribuci´on exponencial
de par´ametro λ.
Funci´on de distribuci´on acumulada. Para todo t,
F
X
(t) =

t
−∞
f
X
(x)dx.
Deducimos que, si t < 0, F
X
(t) es nula, mientras que, si t ≥ 0,
F
X
(t) = 0 +

t
0
λe
−λx
dx = 1 −e
−λt
.
En particular, tenemos que P(X > t) = e
−λt
.
Esperanza y varianza. Demostramos de la misma manera que para el ejemplo
de la secci´on III.4.2.4, utilizando la integraci´on por partes que
E[X] = 1/λ, var(X) = 1/λ
2
.
Propiedad de falta de memoria de la distribuci´on exponencial. La distribuci´on
exponencial tiene una propiedad particular: “olvida su pasado”... M´as concre-
tamente, supongamos que X ∼ cxp(λ) y modeliza el tiempo entre dos llegadas
sucesivas de clientes en una cola. Llega un cliente, y espero hasta que llegue el
siguiente cliente... Han pasado tres minutos y no ha llegado, la probabilidad de
que tenga que esperar por lo menos otro minuto m´as (es decir que el tiempo
transcurrido entre las dos llegadas sea mayor que cuatro minutos) es la misma
que la probabilidad de que X sea mayor que 1 minuto: ¡el hecho de saber que
ya he esperado 3 minutos no cambia la probabilidad de que todav´ıa tenga que
esperar otro minuto m´as! Es decir, para todos t
1
> 0, t
2
> 0,
P(X > t
1
+t
2
[X > t
1
) = P(X > t
2
).
Demostraci´on: Por la definici´on de la probabilidad condicionada,
P(X > t
1
+t
2
[X > t
1
) =
P((X > t
1
+t
2
) ∩ (X > t
1
))
P(X > t
1
)
.
Por otra parte, puesto que el suceso (X > t
1
+ t
2
) est´a incluido en el suceso
(X > t
1
), el denominador es sencillamente P(X > t
1
+ t
2
). Pero al calcular
un poco m´as arriba la funci´on de distribuci´on acumulada de una distribuci´on
exponencial, hemos notado que P(X > t) = e
−λt
. Por lo tanto
P(X > t
1
+t
2
[X > t
1
) =
e
−λ(t
1
+t
2
)
e
−λt
1
= e
−λt
2
= P(X > t
2
).

III.4 Variable continua 55
III.4.4.3. La distribuci´on Normal
a). Definici´on Sea µ un n´ umero real y σ
2
un n´ umero real positivo, la v.a X
sigue una distribuci´on Normal de par´ametros µ y σ
2
si su densidad es
f(x) =
1

2πσ
2
e

(x−µ)
2

2
,
cuya representaci´on gr´afica es la famosa “campana de Gauss”, ver Figura III.3.
Figura III.3: Densidad Normal
Si X sigue una distribuci´on Normal de par´ametros µ y σ
2
, escribiremos X ∼
A(µ, σ
2
).
La distribuci´on Normal es, sin dudas, la distribuci´on m´as utilizada en situaciones
pr´acticas: aparece en la inmensa mayor´ıa de los procedimientos estad´ısticos que
se llevan a cabo de manera rutinaria (control de calidad, mediciones, etc...) En
particular, est´a t´ıpicamente presente cuando se modeliza los valores proporcionados
por un aparato de medici´on. De hecho, si consideramos los datos de las mediciones
de la luz por S. Newcomb que estudiamos en el Tema 1, ver secci´on I.3.2.1, podemos
comprobar que las frecuencias de aparici´on de los datos experimentales se ajustan
bastante bien a un modelo Normal. En la figura III.4, se ha ajustado una curva
Normal al histograma de los datos recogidos por Newcomb, despu´es de omitir los
dos datos at´ıpicos −44 y −2. Para ello, hemos fijado el valor de µ y σ
2
bas´andonos
en el centro y la dispersi´on de la distribuci´on de los datos experimentales.
b). Propiedades
La curva de la densidad Normal es sim´etrica respecto al eje vertical x = µ. En
particular deducimos que P(X ≥ µ) = P(X ≤ µ) = 1/2.
La curva de la densidad Normal nunca se cruza con el eje Ox.
56 Variable aleatoria I
Histograma, mediciones de Newcomb
Mediciones
F
r
e
c
u
e
n
c
i
a
s
−40 −20 0 20 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
Figura III.4: Ajuste de una densidad Normal al histograma de Newcomb
Esperanza y varianza: Es posible comprobar que, si X ∼ A(µ, σ
2
),
E[X] = µ, var(X) = σ
2
.
Funci´on de distribuci´on acumulada. La funci´on f
X
no admite primitiva en
una forma cerrada, y por lo tanto no hay expresi´on simple para calcular la
probabilidad de que una variable Normal pertenezca a un intervalo dado, o en
general para su funci´on de distribuci´on. Se debe por lo tanto recurrir por lo
tanto a aproximaciones num´ericas de la integral

b
a
1

2πσ
2
e

(x−µ)
2

2
dx,
para obtener P(a < X ≤ b). Los programas inform´aticos de an´alisis de datos
como R disponen de algoritmos que permitan calcular para cualquier t la prob-
abilidad P(X ≤ t). Tambi´en existen calculadoras estad´ısticas.
A pesar de que no exista una expresi´on simple para las probabilidades asociadas
a una distribuci´on Normal, es muy ´ util conocer la regla siguiente: si X es una
Normal A(µ, σ
2
), tenemos
P(µ −σ ≤ X ≤ µ +σ) · 0,68
P(µ −2σ ≤ X ≤ µ + 2σ) · 0,95
P(µ −3σ ≤ X ≤ µ + 3σ) · 0,997,
lo que queda reflejado en la figura III.5: el 68 % del ´area debajo de la curva
Normal est´a comprendida entre µ −σ y µ +σ, el 95 % entre µ −2σ y µ + 2σ,
y el 99.7 % entre µ −3σ y µ + 3σ.
III.4 Variable continua 57
µ
68%
µ − σ µ + σ
95%
µ − 2σ µ + 2σ
99.7%
µ − 3σ µ + 3σ
Figura III.5: Regla del 68 % - 95 % - 99.7 %
c). ¿C´omo calcular probabilidades asociadas a una distribuci´on Normal
(i) Para una distribuci´on Z ∼ A(0, 1).
La distribuci´on Normal con par´ametros µ = 0 y σ
2
= 1 se llama distribuci´on
Normal est´andar. Su funci´on de distribuci´on acumulada se denota por φ y los
valores de φ est´an tabulados. La tabla para valores de φ est´a incluida en el
ap´endice de este tema.
Notar que en la tabla s´olo aparece valores de φ(t) para valores positivos de
t. Para deducir φ(t) para valores negativos de t, utilizamos la simetr´ıa de la
distribuci´on normal que implica que, para todo t,
φ(−t) = 1 −φ(t).
Comprobar con la tabla que sabeis calcular las probabilidades siguientes:
P(Z ≤ 2,68) · 0,9963 P(Z ≤ 1,12) · 0,8686 P(Z ≤ −0,9) · 0,1841
P(1,1 ≤ Z ≤ 1,3) · 0,04 P(−0,9 ≤ Z ≤ −0,5) · 0,13 P(−1 ≤ Z ≤ 1) · 0,68
(ii) Para una distribuci´on X ∼ A(µ, σ
2
).
El c´alculo de probabilidades para una distribuci´on Normal con par´ametros µ
y σ
2
se basa en la siguiente propiedad que no demostraremos:
Propiedad: Si X ∼ A(µ, σ
2
), la variable
Z =
X −µ
σ
sigue una distribuci´on Normal con media 0 y varianza 1.
Pasar de X ∼ A(µ, σ
2
) a Z =
X−µ
σ
∼ A(0, 1) se llama tipificar la variable X,
y la variable Z se llama la v.a X tipificada.
58 Variable aleatoria I
Para calcular una probabilidad relacionada con X, reescribiremos el suceso de
inter´es, tipificando la v.a.
Supongamos por ejemplo que X ∼ A(µ = 1, σ
2
= 0,25). Tenemos
P(X ≤ 1,25) = P(
X −µ
σ

1,25 −µ
σ
) = P(Z ≤
1,25 −1
0,5
) = P(Z ≤ 0,5) · 0,69.
y
P(0,5 ≤ X ≤ 1,5) = P(
0,5 −µ
σ

X −µ
σ

1,5 −µ
σ
) = P(
0,5−1
0,5
≤ Z ≤
1,5−1
0,5
)
= P(−1 ≤ Z ≤ 1) · 0,68.
III.4.4.4. Aproximaci´on de una distribuci´on Binomial por una distribu-
ci´on Normal
En el caso en que s´olo disponemos de una calculadora sencilla, el c´alculo de
probabilidades asociadas a una distribuci´on Binomial X puede resultar laborioso si
´estas requieren evaluar la funci´on puntual de X en muchos valores. Por ejemplo,
supongamos que X ∼ B(100, 0,1), el c´alculo de P(X ≥ 15) implica que calculemos
86 probabilidades individuales (P(X = 16), P(X = 17), . . . , P(X = 100)) o pasando
al suceso complementario 15 probabilidades, que siguen siendo muchos c´alculos...
Para algunas combinaciones de valores de n y p, resulta que la distribuci´on
Binomial se puede aproximar de manera satisfactoria por una distribuci´on normal,
es decir que para calcular la probabilidad de un suceso relacionado con una v.a
Binomial X ∼ B(n, p), podremos hacer como si X tuviera una distribuci´on normal.
Propiedad. Consideramos una v.a X ∼ B(n, p). Si n p ≥ 5 y n(1 − p) ≥ 5, se
puede aproximar de manera satisfactoria la distribuci´on de X por la distribuci´on de
W ∼ A(µ, σ), con µ = n p y σ = n p(1 −p), con la f´ormula
para todo x, P(X ≤ x) · P(W ≤ x + 0,5).
El t´ermino “+0.5” que aparece en el t´ermino de la derecha de la f´ormula corresponde
a la llamada “correcci´on por continuidad”: aproximamos la distribuci´on de una v.a
discreta, X, que s´olo puede tomar valores enteros por una v.a continua W que puede
tomar cualquier valor real. Para conseguir una equivalencia, podemos considerar que
un valor entero x para la v.a. Binomial X corresponde al intervalo ]x −0,5, x + 0,5]
para la v.a Normal W, tal como est´a ilustrado en la Figura III.6, para unos pocos
valores de X.
Figura III.6: Aproximaci´on de una distribuci´on Binomial por una distribuci´on Nor-
mal
III.5 Algunas propiedades ´ utiles de la esperanza y la varianza 59
En particular deducimos de esta figura que aproximaremos las probabilidades
relacionadas con X de la manera siguiente:
P(X = 15) · P(14,5 < W ≤ 15,5)
P(X > 15) · P(W ≥ 15,5)
P(X ≥ 15) · P(W ≥ 14,5)
P(X ≤ 16) · P(W ≤ 16,5)
P(X < 16) · P(W ≤ 15,5)
P(13 ≤ X < 15) · P(12,5 ≤ W ≤ 14,5)
III.5. Algunas propiedades ´ utiles de la esperanza y la
varianza
Acabamos el cap´ıtulo con una secci´on “caj´on de sastre” en la que mencionamos
algunos resultados sobre esperanza y varianza.
Sean a y b dos n´ umeros reales, y X una variable aleatoria. No es dif´ıcil demostrar,
utilizando las definiciones de esperanza y varianza tanto para v.a discreta como para
v.a continua que se cumplen las siguientes propiedades:
E[aX +b] = aE[X] +b
var(aX +b) = a
2
var(X)
σ
aX+b
= [a[σ
X
Intuitivamente son resultados naturales: si multiplico todos los valores de una v.a
por a y traslado el resultado de b unidades, el centro de gravedad de los datos (la
esperanza) se multiplica por a y se traslada de b unidades, mientras que la dispersi´on
(la desviaci´on t´ıpica) s´olo se multiplica por [a[, puesto que la traslaci´on de los datos
no cambia su dispersi´on.
Finalizamos con un ´ ultimo resultado asociado a la varianza de una variable: la
desigualdad de Chebichev:
Propiedad:Sea cual sea la distribuci´on de X, si conocemos el valor de la varianza
de X, tenemos la siguiente cota para la probabilidad de que X est´e en un intervalo
centrado en su media µ
X
:
Para cualquier a > 0, P([X −µ
X
[ ≤ a) ≥ 1 −
V ar(X)
a
2
.
Deducimos tambi´en una cota para el suceso complementario:
Para cualquier a > 0, P([X −µ
X
[ ≥ a) ≤
V ar(X)
a
2
.
La primera desigualdad se interpreta de la manera siguiente: sabemos que una
proporci´on de los datos de al menos V ar(X)/a
2
se encuentra en el intervalo µ
X
±a,
mientras que la segunda desiguald se lee: una proporci´on de los datos de como mucho
V ar(X)/a
2
se encuentra fuera del intervalo µ
X
±a.
60 Variable aleatoria I
Distribuci´on Normal:
P(Z ≤ t) = φ(t) =

t
−∞
1


e
−x
2
2
dx
t P(Z ≤ t) t P(Z ≤ t) t P(Z ≤ t) t P(Z ≤ t)
0.00 0.5000 0.80 0.7881 1.60 0.9452 2.40 0.9918
0.02 0.5080 0.82 0.7939 1.62 0.9474 2.42 0.9922
0.04 0.5160 0.84 0.7995 1.64 0.9495 2.44 0.9927
0.06 0.5239 0.86 0.8051 1.66 0.9515 2.46 0.9931
0.08 0.5319 0.88 0.8106 1.68 0.9535 2.48 0.9934
0.10 0.5398 0.90 0.8159 1.70 0.9554 2.50 0.9938
0.12 0.5478 0.92 0.8212 1.72 0.9573 2.52 0.9941
0.14 0.5557 0.94 0.8264 1.74 0.9591 2.54 0.9945
0.16 0.5636 0.96 0.8315 1.76 0.9608 2.56 0.9948
0.18 0.5714 0.98 0.8365 1.78 0.9625 2.58 0.9951
0.20 0.5793 1.00 0.8413 1.80 0.9641 2.60 0.9953
0.22 0.5871 1.02 0.8461 1.82 0.9656 2.62 0.9956
0.24 0.5948 1.04 0.8508 1.84 0.9671 2.64 0.9959
0.26 0.6026 1.06 0.8554 1.86 0.9686 2.66 0.9961
0.28 0.6103 1.08 0.8599 1.88 0.9699 2.68 0.9963
0.30 0.6179 1.10 0.8643 1.90 0.9713 2.70 0.9965
0.32 0.6255 1.12 0.8686 1.92 0.9726 2.72 0.9967
0.34 0.6331 1.14 0.8729 1.94 0.9738 2.74 0.9969
0.36 0.6406 1.16 0.8770 1.96 0.9750 2.76 0.9971
0.38 0.6480 1.18 0.8810 1.98 0.9761 2.78 0.9973
0.40 0.6554 1.20 0.8849 2.00 0.9772 2.80 0.9974
0.42 0.6628 1.22 0.8888 2.02 0.9783 2.82 0.9976
0.44 0.6700 1.24 0.8925 2.04 0.9793 2.84 0.9977
0.46 0.6772 1.26 0.8962 2.06 0.9803 2.86 0.9979
0.48 0.6844 1.28 0.8997 2.08 0.9812 2.88 0.9980
0.50 0.6915 1.30 0.9032 2.10 0.9821 2.90 0.9981
0.52 0.6985 1.32 0.9066 2.12 0.9830 2.92 0.9982
0.54 0.7054 1.34 0.9099 2.14 0.9838 2.94 0.9984
0.56 0.7123 1.36 0.9131 2.16 0.9846 2.96 0.9985
0.58 0.7190 1.38 0.9162 2.18 0.9854 2.98 0.9986
0.60 0.7257 1.40 0.9192 2.20 0.9861 3.00 0.9987
0.62 0.7324 1.42 0.9222 2.22 0.9868 3.10 0.9990
0.64 0.7389 1.44 0.9251 2.24 0.9875 3.20 0.9993
0.66 0.7454 1.46 0.9279 2.26 0.9881 3.30 0.9995
0.68 0.7517 1.48 0.9306 2.28 0.9887 3.40 0.9997
0.70 0.7580 1.50 0.9332 2.30 0.9893 3.50 0.9998
0.72 0.7642 1.52 0.9357 2.32 0.9898 3.60 0.9998
0.74 0.7704 1.54 0.9382 2.34 0.9904 3.80 0.9999
0.76 0.7764 1.56 0.9406 2.36 0.9909 4.00 1.0000
0.78 0.7823 1.58 0.9429 2.38 0.9913 4.50 1.0000
TEMA IV
Variable Aleatoria II
IV.1. Introducci´ on
Es frecuente que haya m´as de una variable aleatoria de inter´es asociada a un
experimento aleatorio. Supongamos por ejemplo que consideramos n variables X
1
,
X
2
, . . . X
n
, formaremos el vector aleatorio X = (X
1
, X
2
, . . . , X
n
). Diremos que X
es una variable aleatoria multidimensional. Para el caso particular en que n = 2,
hablaremos de variable aleatoria bidimensional.
Describir la distribuci´on de una v.a. multidimensional consiste en asignar una
probabilidad a sucesos conjuntos, es decir sucesos que involucren X
1
, X
2
, . . ., X
n
.
En este caso hablamos de distribuci´on conjunta de (X, Y ), mientras que si con-
sideramos las distribuciones de X e Y por separadas, hablamos de distribuciones
marginales de X y de Y respectivamente.
Un ejemplo de suceso asociado a la distribuci´on conjunta de X e Y es (X+Y > 3)
o (X = 1 ∩ Y > 2) mientras que el suceso (X > 5) y el suceso (Y = 4) hacen
referencia a las distribuciones marginales de X y de Y respectivamente.
En este tema nos centraremos sobre todo en el caso de una variable bidimensional.
IV.2. Variable bidimensional discreta
Si tanto X como Y son variables discretas, basta con describir la probabilidad
de los sucesos (X = x) ∩(Y = y). Lo realizaremos a trav´es de la funci´on puntual de
probabilidad conjunta de X e Y :
62 Mathieu Kessler: M´etodos Estad´ısticos
IV.2.1. Funci´on puntual de probabilidad conjunta
IV.2.1.1. Definici´on
La funci´on puntual de probabilidad conjunta de (X, Y ) asocia a cualquier par de
valores (x, y) la probabilidad del suceso ((X = x) ∩ (Y = y)). La denotamos
f
XY
(x, y) = P((X = x) ∩ (Y = y)) .
Los valores que toma una funci´on puntual de probabilidad conjunta se pueden
presentar en una tabla:
X Y
120 130 140 150
0 0.03 0.1 0.15 0.2
1 0.05 0.06 0.1 0.1
2 0.21 0 0 0
Deducimos en particular de esta tabla que la probabilidad que X tome el valor
0 y a la vez Y tome el valor 140 es igual a 140.
IV.2.1.2. Propiedad
Para que una funci´on f : (x, y) → f(x, y) sea la funci´on puntual de probabilidad
conjunta de una variable bidimensional discreta (X, Y ) es necesario y suficiente que
cumpla
1. f
XY
(x
i
, y
j
) ≥ 0, ∀x
i
, y
j
.
2.
¸
x
i
¸
y
j
f
XY
(x
i
, y
j
) = 1.
IV.2.1.3. Relaci´on entre funciones puntuales de probabilidad conjunta
y marginales
Si conocemos la distribuci´on conjunta de (X, Y ) a trav´es de una tabla como
la descrita en el apartado IV.2.1.1, podemos calcular la distribuci´on de X o de Y
por separado: ´estas se llaman las distribuciones marginales. En efecto, para calcular
P(X = 0) por ejemplo, basta con utilizar
P(X = 0) = P(X = 0 ∩ Y = 120) +P(X = 0 ∩ Y = 130)
+P(X = 0 ∩ Y = 140) +P(X = 0 ∩ Y = 150) = 0,48.
Tenemos por lo tanto las relaciones siguientes:
∀x
i
, f
X
(x
i
) =
¸
y
j
f
XY
(x
i
, y
j
),
∀y
j
, f
Y
(y
j
) =
¸
x
i
f
XY
(x
i
, y
j
).
Se suele representar en la misma tabla de la f.p.p. conjunta de la manera siguiente:
IV.3 Variable bidimensional continua 63
X Y f
X
120 130 140 150
0 0.03 0.1 0.15 0.2 0.48
1 0.05 0.06 0.1 0.1 0.31
2 0.21 0 0 0 0.21
f
Y
0.29 0.16 0.25 0.3
IV.2.2. Esperanza
Sea g : (x, y) → g(x, y) una funci´on de dos variables que toma sus valores en R.
Definimos la esperanza ( o media, o valor esperado, o valor promedio) de g(X, Y )
como
E[g(X, Y )] =
¸
x
i
¸
y
j
g(x
i
, y
j
)P(X = x
i
∩ Y = y
j
)
=
¸
x
i
¸
y
j
g(x
i
, y
j
)f
XY
(x
i
, y
j
).
IV.3. Variable bidimensional continua
Consideramos ahora el par (X, Y ) donde X e Y son ambas v.a continuas. Para
describir la distribuci´on conjunta de (X, Y ), introducimos la funci´on de densidad
conjunta.
IV.3.1. Funci´on de densidad conjunta
IV.3.1.1. Definici´on.
La funci´ on de densidad conjunta de (X, Y ) es una funci´on f
XY
que permite
calcular la probabilidad de cualquier suceso de la forma (a ≤ X ≤ b) ∩ (c ≤ Y ≤ d)
a trav´es de la f´ormula:
P((a ≤ X ≤ b) ∩ (c ≤ Y ≤ d)) =

x∈[a,b]

y∈[c,d]
f
XY
(x, y)dxdy.
IV.3.1.2. Ejemplo
Consideremos un experimento que consista en producir dos componentes de dos
tipos, y denotamos por X e Y el tiempo de vida en miles de horas del primer
y segundo componente respectivamente. Modelizamos su distribuci´on conjunta a
trav´es de la funci´on de densidad siguiente
f
XY
(x, y) =

2e
−x
e
−2y
si x > 0 y y > 0,
0 en otro caso.
64 Mathieu Kessler: M´etodos Estad´ısticos
Para calcular la probabilidad de que ambos componentes duren menos de 1000
horas, por ejemplo,
P((X < 1) ∩ (Y ≤ 1)) =

1
−∞

1
−∞
f
XY
(x, y)dxdy
=

1
0

1
0
2e
−x
e
−2y
dxdy = (1 −e
−1
)(1 −e
−2
) · 0,54.
IV.3.1.3. Propiedades
Para que una funci´on f : (x, y) → f(x, y) con valores en R sea la funci´on de
densidad conjunta de una v.a bidimensional continua, es necesario y suficiente que
cumpla
1. f(x, y) ≥ 0, ∀x, y,
2.

+∞
−∞

+∞
−∞
f(x, y)dxdy = 1.
IV.3.1.4. Relaci´on entre funciones de densidad conjunta y marginales
Al igual que para una v.a discreta, se puede obtener de la funci´on de densidad
conjunta las funciones marginales, pero ahora en lugar de sumar, debemos integrar
respecto de la otra variable.
Tenemos por lo tanto las relaciones siguientes:
∀x, f
X
(x) =

+∞
−∞
f
XY
(x, y)dy,
∀y, f
Y
(y) =

+∞
−∞
f
XY
(x, y)dx.
Calculemos para ilustrar estas f´ormulas las densidades marginales de X y de Y
para el ejemplo del apartado IV.3.1.2. La funci´on de densidad conjunta es
f
XY
(x, y) =

2e
−x
e
−2y
si x > 0 y y > 0,
0 en otro caso.
Deducimos la densidad marginal de X:
∀x, f
X
(x) =

+∞
−∞
f
XY
(x, y)dy.
Si x ≤ 0, f
XY
(x, y) = 0 para todo y, y por lo tanto f
X
(x) = 0 tambi´en.
Si x > 0,
f
X
(x) =

+∞
0
2e
−x
e
−2y
dy = e
−x

−e
−2x

+∞
0
= e
−x
.
IV.4 Distribuciones condicionadas 65
IV.3.2. Esperanza
Al disponer de una funci´on de densidad conjunta f
XY
para la v.a. bidimensional
(X, Y ), podemos calcular el valor esperado de una funci´on de las dos variables X e
Y : Definici´on. Sea una funci´on g : R
2
→R, la esperanza de g(X, Y ) se define como
E[g(X, Y )] =

+∞
−∞

+∞
−∞
g(x, y)f
XY
(x, y)dxdy.
En particular podemos calcular por ejemplo la esperanza de la suma de dos variables:
E[X +Y ] =

+∞
−∞

+∞
−∞
(x +y)f
XY
(x, y)dxdy
=

+∞
−∞

+∞
−∞
xf
XY
(x, y)dxdy +

+∞
−∞

+∞
−∞
y f
XY
(x, y)dxdy
=

+∞
−∞
x

+∞
−∞
f
XY
(x, y)dy

dx +

+∞
−∞
y

+∞
−∞
f
XY
(x, y)dx

dy
=

+∞
−∞
xf
X
(x)dx +

+∞
−∞
yf
Y
(y)dy = E[X] +E[Y ],
donde hemos utilizado para el ´ ultimo paso la relaci´on entre funciones de densidades
marginales y conjunta del apartado IV.3.1.4. Hemos por lo tanto demostrado una
relaci´on por otra parte muy intuitiva: la media de la suma de dos variables aleatorias
es la suma de las dos medias...
IV.4. Distribuciones condicionadas
Consideremos un experimento al que va asociada una v.a bidimensional (X, Y ).
Por alg´ un motivo, al realizar el experimento, s´olo observamos el valor de Y y no
´el de X. ¿Qu´e informaci´on puedo deducir, bas´andome en el valor de Y , sobre la
distribuci´on de los posibles valores de X?
Un contexto t´ıpico en ingenier´ıa en la que se da esta situaci´on es el siguiente: me
interesa un se˜ nal X
1
, X
2
, . . . , X
n
, pero no puedo observar directamente los valores de
X sino a trav´es de un aparato de medici´on que induce una perturbaci´on aleatoria,
que denotaremos por ε. Como resultado observo
Y
1
= X
1

1
,
.
.
.
.
.
.
.
.
.
Y
n
= X
n

n
.
Disponiendo de los valores de Y
1
, . . . , Y
n
, persigo deducir la distribuci´on de X
1
, . . . , X
n
condicionada a Y
1
, . . . , Y
n
. Obtener esta distribuci´on condicionada se llama realizar
el filtrado de la se˜ nal Y
1
, . . . , Y
n
. De los filtros basados en modelos probabil´ısticos,
el m´as usado en pr´actica se llama el filtro de Kalman.
IV.4.1. V.a bidimensional discreta
Sea (X, Y ) una v.a. bidimensional discreta.
66 Mathieu Kessler: M´etodos Estad´ısticos
IV.4.1.1. Definici´on de la funci´on puntual de probabilidad condicionada
Sea y un valor de Y tal que P(Y = y) > 0, la funci´on puntual de probabilidad
de X condicionada a Y = y asocia a cada valor posible x de X la probabilidad del
suceso X = x condicionada a (X = x).
f
X|Y =y
(x) = P(X = x[Y = y) =
f
XY
(x, y)
f
Y
(y)
.
Para ilustrar este concepto, calculemos para el ejemplo de v.a bidimensional
introducido anteriormente la funci´on puntual de probabilidad de X condicionada a
Y = 130. Recordemos que la tabla de las f.p.p conjunta y marginales de (X, Y ) era
X Y f
X
120 130 140 150
0 0.03 0.1 0.15 0.2 0.48
1 0.05 0.06 0.1 0.1 0.31
2 0.21 0 0 0 0.21
f
Y
0.29 0.16 0.25 0.3
Por lo tanto f
X|Y =130
toma los valores:
Valores posibles de X 0 1 2
f
X|Y =130
0,1/0,16 = 0,625 0,06/0,16 = 0,375 0/0,16 = 0
IV.4.2. Para una v.a bidimensional continua
Consideramos ahora una v.a. bidimensional continua (X, Y ).
IV.4.2.1. Definici´on
Sea (X, Y ) una v.a continua con densidad conjunta f
XY
. Consideramos un valor
y para el cual f
Y
(y) > 0. La funci´on de densidad de X condicionada a Y = y est´a
definida por
f
X|Y =y
(x) =
f
XY
(x, y)
f
Y
(y)
.
Nota: la densidad de Y condicionada a X se obtiene intercambiando los papeles de
X e Y en la f´ormula anterior.
IV.4.2.2. Ejemplo
Consideremos el ejemplo de la subsecci´on IV.3.1.2. Calculemos, para un valor
y > 0 gen´erico, la funci´on de densidad de X condicionada a Y = y. Obtuvimos que
la densidad marginal de Y , si y > 0 es f
Y
(y)2e
−2y
. Deducimos que la densidad que
buscamos es
f
X|Y =y
(x) =

2e
−x
e
−2y
2e
−2y
= e
−x
si x > 0,
0 en otro caso.
Observamos que, en este caso, coincide con la densidad marginal de X.
IV.5 Variables independientes 67
IV.4.3. Esperanza condicionada
Es f´acil comprobar que, para un valor y tal que f
Y
(y) > 0, x → f
X|Y =y
(x)
cumple con los dos requisitos (ver secciones III.3.2.2 y b)) que permiten deducir
que se trata de una funci´on de densidad (caso continuo) o puntual de probabilidad
(caso discreto). Por ello, hablamos de distribuci´on de X condicionada a Y = y,
aunque s´olo podemos interpretar las probabilidades asociadas como probabilidades
condicionadas en el caso de una v.a discreta.
Tambi´en podemos por lo tanto definir la esperanza condicionada de una funci´on
g(X) dado Y = y.
Definici´on IV.4.1 Sea una funci´on g : R →R, la esperanza condicionada de g(X)
dado Y = y se define como
Si (X, Y ) es una v.a. discreta
E[g(X)[Y = y] =
¸
x
g(x)f
X|Y =y
(x).
Si (X, Y ) es una v.a continua
E[g(X)[Y = y] =

+∞
−∞
g(x)f
X|Y =y
(x)dx.
La noci´on de esperanza condicionada permite en particular obtener res´ umenes de
las caracter´ısticas principales de la distribuci´on condicionada de X dado Y = y. Si
consideramos el problema de predecir el valor de X dado que hemos observado el
valor y para Y , se puede demostrar que la esperanza condicionada de X dado Y = y
es el mejor predictor posible en el sentido siguiente:
Llamamos predictor a cualquier funci´on de Y , h(Y ) dise˜ nada para aproximar el
valor de X que no hemos observado. Denotamos, para todo y, por h

(y) la esperanza
condicionada E[X[Y = y]. Consideramos la funci´on de Y , h

(Y ), se trata de un
predictor de X. Se puede probar que para cualquier predictor h(Y ) de X se cumple
E[(X −h(Y ))
2
] ≥ E[(X −h

(Y ))
2
],
es decir que el error cuadr´atico medio que se comete al predecir X por h

(Y ) es el
menor de los errores posibles.
IV.5. Variables independientes
En el tema 2 hemos definido el concepto de sucesos independientes. Introducimos
ahora el concepto de variables aleatorias independientes:
IV.5.1. Definici´on
Definici´on IV.5.1 Dos variables X e Y son independientes si se cumple
para todo x e y, f
XY
(x, y) = f
X
(x)f
Y
(y).
Las funciones f
XY
, f
X
y f
Y
se refieren a funciones de densidad o funciones pun-
tuales de probabilidad seg´ un si la v.a. (X, Y ) es continua o discreta respectivamente.
68 Mathieu Kessler: M´etodos Estad´ısticos
Deducimos en particular que, si X e Y son independientes, la distribuci´on condi-
cionada de X (resp. Y ) no depende del valor de Y (resp. X): el hecho de conocer
el valor de una de las variables no proporciona informaci´on sobre la distribuci´on
de valores de la otra. En particular, deducimos que si X e Y son independientes,
podemos describir completamente su distribuci´on conjunta si conocemos sus dos
distribuciones marginales.
En el ejemplo de la v.a discreta de la secci´on IV.2.1.1, notamos que f
XY
(0, 120) =
0,03 = f
X
(0)f
Y
(120). Por lo tanto X e Y no son independientes. En cambio, es f´acil
comprobar para el ejemplo de v.a continua de la secci´on IV.3.1.2, que se cumple que,
para todo x e y, f
XY
(x, y) = f
X
(x)f
Y
(y): en este caso, las variables X e Y s´ı son
independientes.
IV.5.2. Consecuencias pr´acticas
Si X e Y son independientes, es f´acil comprobar que cualquier suceso asociado
con X es independiente de cualquier suceso asociado con Y . Es decir que
P(a ≤ X ≤ b) ∩ (c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d).
Si X e Y son independientes, se puede calcular de manera sencilla la esperanza
de una funci´on de X y de una funci´on de Y :
E[g(X)h(Y )] = E[g(X)]E[h(Y )].
La noci´on de variables independientes se generaliza a m´as de dos variables de man-
era natural: X
1
, X
2
, . . ., X
n
son v.a independientes si los sucesos asociados son
independientes.
IV.6. Medidas num´ericas para una v.a bidimensional
Al disponer de un modelo para la distribuci´on conjunta de X e Y , es ´ util poder
recurrir a alguna medida num´erica que nos permita por ejemplo cuantificar el grado
de asociaci´on entre las dos variables.
IV.6.1. Definiciones
IV.6.1.1. Covarianza
La covarianza de X e Y se define como
cov(X, Y ) = E[(X −E[X])(Y −E[Y ])].
Utilizando la definici´on de la esperanza de una funci´on de X e Y en el caso discreto
y en el caso continuo, obtenemos la f´ormula equivalente para la covarianza
cov(X, Y ) = E[XY ] −E[X]E[Y ].
Notar que el c´alculo de cov(X, Y ) se realiza por lo tanto de la manera siguiente
IV.6 Medidas num´ericas para una v.a bidimensional 69
(X, Y ) v.a discreta:
cov(X, Y ) =
¸
x
¸
y
xyf
XY
(x, y) −E[X]E[Y ],
donde los sumatorios se realizan sobre los valores posibles de X e Y .
(X, Y ) es una v.a. continua:
cov(X, Y ) =

+∞
−∞

+∞
−∞
xyf
XY
(x, y)dxdy −E[X]E[Y ].
Notar tambi´en que la covarianza de una variable X consigo mismo es igual a la
varianza de X: cov(X, X) = σ
2
X
.
IV.6.1.2. Correlaci´on
La correlaci´on de X e Y se define como
ρ
XY
=
cov(X, Y )
σ
X
σ
Y
.
La correlaci´on de X e Y corresponde por lo tanto a la covarianza de las versiones
tipificadas de X e Y . En particular la correlaci´on de una variable X consigo mismo
es igual a 1.
IV.6.1.3. Ejemplo para una v.a. (X, Y ) discreta
Volvamos al ejemplo de la secci´on IV.2.1.1, su funci´on puntual de probabilidad
es
X Y f
X
120 130 140 150
0 0.03 0.1 0.15 0.2 0.48
1 0.05 0.06 0.1 0.1 0.31
2 0.21 0 0 0 0.21
f
Y
0.29 0.16 0.25 0.3
Para calcular la covarianza de X e Y necesitamos por una parte E[X] y E[Y ] y por
otra parte E[XY ]. Obtenemos utilizando las distribuciones marginales de X e Y :
E[X] = 0 0,48 + 1 0,31 + 2 0,21 = 0,73
E[Y ] = 120 0,29 + 130 0,16 + 140 0,25 + 150 0,3 = 135,6
Nos queda calcular E[XY ].
E[XY ] = 0 120 0,03 + 0 130 0,1 + 0 140 0,15 + 0 150 0,2
+ 1 120 0,05 + 1 130 0,06 + 1 140 0,1 + 1 150 0,1
+ 2 120 0,21 + 2 130 0 + 2 140 0 + 2 150 0
= 93,2
70 Mathieu Kessler: M´etodos Estad´ısticos
Deducimos que cov(X, Y ) = 93,2 −0,73 135,6 = −5,78. Para calcular la correlaci´on
de X e Y nos hacen falta adem´as las desviaciones t´ıpicas de X e Y . Se comprueba
que σ
2
X
= 0,617 mientras que σ
2
Y
= 142,64. Por lo tanto
ρ
XY
=
−5, 78

0,617

142,64
= −0,62.
IV.6.1.4. Matriz de covarianzas y matriz de correlaci´on
En el caso en que consideramos varias variables aleatorias X
1
, X
2
, . . . , X
n
, pode-
mos calcular las covarianzas y las correlaciones de cada par posible de variables, se
suele presentar los resultados en forma de una matriz: la matriz de covarianzas de
X
1
, . . . , X
n
es la matriz n n,Σ cuyo elemento Σ
ij
es igual a la covarianza de X
i
y
X
j
, mientras que la matriz de correlaciones de X
1
, . . . , X
n
es la matriz n n, Corr
cuyo elemento Corr
ij
es igual a la correlaci´on de X
i
y X
j
.
IV.6.2. Propiedades
1. Se puede demostrar (ver problema n´ umero 14 de la hoja de problemas de este
tema) que
[cov(X, Y )[ ≤ σ
X
σ
Y
,
es decir que, para dos variables cualesquiera X e Y ,
−1 ≤ ρ
XY
≤ 1.
2. Si X e Y son independientes,
cov(X, Y ) = E[(X −E[X])]E[(Y −E[Y ])] = 0.
Tambi´en implica que ρ
XY
= 0. En cambio si ρ
XY
= ±1, se puede demostrar
que existe dos constantes a y b tal que Y = ax + b: existe una relaci´on lineal
determinista entre X e Y . De ah´ı que la correlaci´on es una medida del grado
de asociaci´on lineal entre dos variables.
3. Usando la propiedad de linealidad de la esperanza es f´acil obtener que
V ar(X +Y ) = V ar(X) +V ar(Y ) + 2cov(X, Y ).
En el caso particular en el que X e Y son independientes, esta relaci´on se
simplifica, dando lugar a la f´ormula de propagaci´on de los errores:
V ar(X +Y ) = V ar(X) +V ar(Y ),
puesto que cov(X, Y ) = 0.
IV.7. Algunos modelos de v.a. multidimensional
IV.7.1. Modelo multinomial
El modelo multinomial aparece como una generalizaci´on del modelo binomial:
consideremos
IV.7 Algunos modelos de v.a. multidimensional 71
Tenemos un primer experimento aleatorio simple, con un k sucesos posibles
A
1
, . . . , A
k
, que forman una partici´on del espacio muestral. Denotamos por
p
1
= P(A
1
), . . . p
k
= P(A
k
).
Repetimos este experimento simple n veces de manera independiente.
Consideramos la variable X
1
=”N´ umero de veces que ha ocurrido A
1
en las n
realizaciones del experimento simple, X
2
=”N´ umero de veces que ha ocurrido
A
2
en las n realizaciones del experimento simple, etc hasta X
k
=”N´ umero de
veces que ha ocurrido A
k
en las n realizaciones del experimento simple.
Proposici´on IV.7.1 Se cumple que, para todos n
1
, . . . , n
k
enteros positivos o nulos
tal que n
1
+n
2
+. . . +n
k
= n,
P(X
1
= n
1
, X
2
= n
2
, . . . X
k
= n
k
) =
n!
n
1
! . . . n
k
!
p
n
1
1
. . . p
n
k
k
.
Se dice que (X
1
, . . . , X
k
) sigue una distribuci´on multinomial de par´ametros p
1
, . . . , p
k
y n.
Es f´acil comprobar que todos las distribuciones marginales de una multinomial son
binomiales, ¿con qu´e par´ametros?
IV.7.2. El modelo Normal multidimensional
IV.7.2.1. Caso bidimensional
Definici´on IV.7.1 Consideremos un par de n´ umeros reales µ = (µ
1
, µ
2
) ∈ R
2
y
una matriz Σ 2 2 sim´etrica y definida positiva (es decir que, para todo x en R
2
,
x
T
Σx ≥ 0). La variable (X
1
, , X
2
) sigue una distribuci´on Normal bidimensional con
par´ametros (µ
1
, µ
2
) y Σ si su densidad es
x = (x
1
, x
2
) →
1
2π[Σ[
e

1
2
(x− µ)
T
Σ
−1
(x− µ)
.
En este caso escribimos (X
1
, X
2
) ∼ A( µ, Σ).
Se puede comprobar que, si (X
1
, X
2
) ∼ A( µ, Σ),
E[X
1
] = µ
1
, E[X
2
] = µ
2
, Σ es la matriz de covarianzas de (X
1
, X
2
).
De la forma de la densidad Normal bidimensional, deducimos en particular la sigu-
iente propiedad:
Propiedad: Si (X
1
, X
2
) sigue una distribuci´on normal bidimensional, se cumple que
X
1
y X
2
son independientes, si y solamente si su covarianza es nula.
Las curvas de nivel de la densidad bidimensional Normal son muy ilustrativas a
la hora de visualizar las campanas de Gauss asociadas (estas campanas son en tres
dimensiones). En la figura IV.1, las dos componentes X
1
y X
2
son independientes
y adem´as sus varianzas son iguales, m´as concretamente µ
1
= 1, µ
2
= 3, Σ
11
= 1,
Σ
22
= 1 y Σ
12
= 0.
En la figura IV.2, las dos componentes X
1
y X
2
siguen siendo independientes
pero ahora sus varianzas son distintas, m´as concretamente µ
1
= 1, µ
2
= 3, Σ
11
= 1,
72 Mathieu Kessler: M´etodos Estad´ısticos
Σ
22
= 0,25 y Σ
12
= 0. Las curvas de nivel aparecen como elipses, cuyos ejes coinciden
con los ejes del sistema de coordenadas.
Finalmente, si las dos componentes no son independientes, las curvas de nivel
siguen formando elipses pero sus ejes presenten un ´angulo respecto a los ejes del
sistema de coordenada. En la figura IV.3, se representan las curvas de nivel para
la densidad Normal bidimensional si µ
1
= 1, µ
2
= 3, Σ
11
= 1,125, Σ
22
= 0,5 y
Σ
12
= 0,375. Esto implica en particular que su correlaci´on es ρ
X
1
X
2
= 0,5.
−2 −1 0 1 2 3 4
0
1
2
3
4
5
6
X1
X
2
Figura IV.1: Curvas de nivel de la densidad Normal bidimensional si los dos compo-
nentes son independientes con varianzas iguales, µ
1
= 1, µ
2
= 3, Σ
11
= 1, Σ
22
= 1 y
Σ
12
= 0.
IV.7 Algunos modelos de v.a. multidimensional 73
−2 −1 0 1 2 3 4
0
1
2
3
4
5
6
X1
X
2
Figura IV.2: Curvas de nivel de la densidad Normal bidimensional si los dos compo-
nentes son independientes, pero sus varianzas son distintas, µ
1
= 1, µ
2
= 3, Σ
11
= 1,
Σ
22
= 0,25 y Σ
12
= 0.
IV.7.2.2. Caso n-dimensional
Definici´on IV.7.2 Consideremos µ = (µ
1
, . . . , µ
n
) en R
n
y una matriz Σ n n
sim´etrica y definida positiva.
La variable n-dimensional X = (X
1
, . . . , X
n
) sigue una distribuci´on Normal n-
dimensional con par´ametros µ y Σ si su densidad es
x ∈ R
n

1
(2π[Σ[)
n/2
e

1
2
(x− µ)
T
Σ
−1
(x− µ)
.
Se puede comprobar que la media de cada X
i
es µ
i
y que Σ es la matriz de
covarianza de X.
74 Mathieu Kessler: M´etodos Estad´ısticos
−2 −1 0 1 2 3 4
0
1
2
3
4
5
6
X1
X
2
Figura IV.3: Curvas de nivel de la densidad Normal bidimensional si los dos compo-
nentes no son independientes, µ
1
= 1, µ
2
= 3, Σ
11
= 1,125, Σ
22
= 0,5 y Σ
12
= 0,375,
lo que implica ρ
X
1
X
2
= 0,5.
Acabamos el tema con una propiedad fundamental de la distribuci´on Normal
n-dimensional, llamada propiedad de reproductividad de la distribuci´on Normal.
Proposici´on IV.7.2 Si X = (X
1
, . . . , X
n
) ∼ A( µ, Σ), para todos n´ umeros reales
a
1
, . . . , a
n
, se cumple que
a
1
X
1
+a
2
X
2
+. . . +a
n
X
n
sigue una distribuci´on Normal.
¿Podr´ıais caracterizar su media y su varianza?
Se deduce en particular de la proposici´on que las distribuciones marginales de
una variable Normal n-dimensional son todas normales.
TEMA V
Muestreo y distribuciones muestrales
V.1. Introducci´ on
Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger
un modelo, posiblemente con uno o varios par´ametros que tendremos que ajustar.
Ejemplos
Me interesa una moneda para tirar a cara o cruz. El experimento es “Tirar la
moneda” y la variable X corresponde al resultado, su distribuci´on se describe
como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades:
P[X = c] = p y P[X = +] = 1 − p. p es por lo tanto la probabilidad de que
salga cara, y es un par´ametro de nuestro modelo. En el caso en que confiamos
en que la moneda no est´a trucada, nuestro modelo considerar´a que p = 1/2.
Para sacar informaci´on sobre p y comprobar en particular que la moneda no
est´a trucada, repetiremos un cierto n´ umero de veces el experimento.
Para las pr´oximas elecciones generales, queremos determinar la proporci´on
de gente que tiene intenci´on de ir a votar, es decir queremos estimar la tasa
de participaci´on. El censo electoral para Espa˜ na tiene unos 32 millones de
personas. Es claramente imposible entrevistar a todas las personas del censo.
En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas
3000 personas entre el censo y pregunt´andoles si tienen intenci´on de ir a votar.
El ´ındice de audiencias manda en la programaci´on de televisi´on. Pero ¿c´omo
saben cu´antos espectadores vieron un partido dado o un programa determina-
do? A m´ı nunca me han preguntado... En realidad, una encuesta se realiza de
manera autom´atica y continua: una empresa especializada llamada SOFRES
(http://www.sofresam.com) ha escogido al azar unos 3300 hogares que repre-
sentan unas 10000 personas de entre un total de aproximadamente 39 500 000
espectadores potenciales. En cada uno de estos hogares, instala un aparato
76 Mathieu Kessler: M´etodos Estad´ısticos
llamado “aud´ımetro” que graba cu´al es el programa que se est´a viendo en cada
momento.
Quiero conocer la concentraci´on de un determinado producto en una soluci´on.
Pienso que es razonable que la distribuci´on de los valores proporcionados por
mi aparato de medici´on sea una normal con media µ y desviaci´on t´ıpica σ
desconocidas. El centro de esta distribuci´on, es decir µ, ser´a por lo tanto lo
m´as representativo de la concentraci´on que intento determinar. Para estimar
µ, repetir´e la medici´on varias veces.
Pero surge una pregunta evidente:
Pregunta: ¿C´omo sabemos que nuestra estimaci´on es fiable? ¿Por qu´e limit´andose
a unas 3000 personas, se puede extrapolar el resultado con confianza a una poblaci´on
de 30 millones? Adem´as est´a claro que el resultado que obtengo depende de la
muestra particular que haya escogido, si escojo otra muestra me sale otro resultado.
Este hecho se llama la variabilidad muestral.
Intento de respuesta: Consideremos el caso del sondeo en el que se busca estimar
la tasa de participaci´on antes de unas elecciones. Para intentar convencer al lector
de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas
a la poblaci´on de 32 millones no es excesivo, llevo a cabo un estudio de simulaci´on:
Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que
representar´a el censo electoral. Los unos representar´an a las personas que s´ı
tienen la intenci´on de ir a votar, mientras que los ceros a los que no piensan ir a
votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos,
mientras que el 30 % son ceros. (70 % es una tasa razonable de participaci´on
en unas elecciones)
Extraigo al azar una muestra de 3000 datos del fichero completo, hago el
recuento de los unos, y encuentro que la proporci´on de unos en esta muestra
es de 0.71. Por lo tanto, en este caso, mi estimaci´on es muy buena: estimo
la tasa de participaci´on en 71 % mientras que la aut´entica, es decir, la de
la poblaci´on (el fichero) es de 70 %. ¿Os he convencido? Seguro que alg´ un
lector desconfiado dir´a: “ no demuestra nada, ha tenido suerte de que en la
muestra que ha escogido, la proporci´on de unos sea pr´oxima a la proporci´on
poblacional, pero con otra muestra podr´ıa salir otro resultado peor.”De acuerdo,
el argumento es v´alido... Pero para convencerle, voy a coger otra muestra al
azar de 3000 datos, y encuentro que la proporci´on muestral de unos es 0.72.
Sigue estando muy bien, ¿no? ¿Sigue sin convencerle? Bueno, puedo repetir la
extracci´on de muestras hasta 10 000 veces por ejemplo, y guardo los valores
que encuentro para la proporci´on de 1 en cada una de estas 10000 muestras
en una variable llamada ˆ p.
Realizo un histograma de los 10000 valores de ˆ p, el resultado aparece en la
figura V.1. Una primera conclusi´on se impone: la gran mayor´ıa de las muestras
han proporcionado un valor de ˆ p entre 0.68 y 0.72, lo que corresponde a una
muy buena estimaci´on del valor de la proporci´on poblacional. Por lo tanto este
estudio simulado demuestra que al escoger una muestra de 3000 personas, es
muy probable que el valor de la proporci´on de 1 en la muestra est´e bastante
V.1 Introducci´on 77
p
^
F
r
e
c
u
e
n
c
i
a
s
0.67 0.68 0.69 0.70 0.71 0.72 0.73
0
5
0
0
1
0
0
0
1
5
0
0
2
0
0
0
Figura V.1: Histograma de los valores de ˆ p para 10000 muestras extra´ıdas
pr´oxima (menos de dos puntos) de la proporci´on de 1 en la poblaci´on, aunque
´esta sea much´ısimo m´as grande que la muestra.
Podemos dar un paso m´as en la utilizaci´on de este estudio simulado: si considero
ahora el experimento “extraer una muestra de tama˜ no 3000 en la poblaci´on”, ˆ p es la
variable “proporci´on de 1 en la muestra extra´ıda”. Quiero formular un modelo para
su distribuci´on. El histograma en la figura V.1 me sugiere que puedo escoger una
distribuci´on normal para ˆ p. De hecho en la figura V.2, se aprecia que el ajuste por una
normal con media µ = 0,70 y desviaci´on t´ıpica σ = 0,008 es muy bueno. Utilizando
entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar
en la poblaci´on una muestra de tama˜ no 3000, la probabilidad de que la proporci´on
muestral ˆ p se encuentre entre 0,7 −2 0,008 = 0,694 y 0,07 + 2 0,008 = 0,716 es
del 95 %.
Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado,
podr´ıamos preguntarnos si podr´ıamos ahorrarnos algo y extraer una muestra m´as
peque˜ na. Repitamos por ejemplo el estudio simulado con muestras de s´olo 100 per-
sonas. El histograma que obtenemos aparece en la figura V.3. Observamos que en
este caso el histograma es much´ısimo m´as chato, y que la dispersi´on de los valores de
ˆ p es mucho mayor: es m´as probable, al escoger una muestra de 100, que la proporci´on
78 Mathieu Kessler: M´etodos Estad´ısticos
phat
D
e
n
s
i
d
a
d
0.67 0.68 0.69 0.70 0.71 0.72 0.73
0
1
0
2
0
3
0
4
0
Figura V.2: Ajuste de una normal al histograma de los valores de ˆ p
muestral est´e bastante alejado del objetivo 0.7.
p
^
F
r
e
c
u
e
n
c
i
a
s
0.6 0.7 0.8 0.9
0
5
0
0
1
0
0
0
1
5
0
0
Figura V.3: Histograma de los valores de ˆ p para 10000 muestras de tama˜ no 100
extra´ıdas
Toda la teor´ıa desarrollada acerca de los sondeos utiliza de manera crucial el he-
cho de que antes de extraer la muestra, se dispone de un modelo para la distribuci´on
de ˆ p por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este
V.2 Muestra 79
modelo permite en particular decidir si, fijado el error m´aximo que se est´a dispuesto
a cometer respecto a la proporci´on poblacional, el tama˜ no de la muestra es suficiente
como para que el riesgo de cometer un error mayor es lo suficientemente peque˜ no.
Introducimos dos t´erminos fundamentales en estad´ıstica:
Definici´on. Cualquier cantidad calculada a partir de las observaciones de una mues-
tra se llama estad´ıstico. La distribuci´on de los valores que puede tomar un estad´ıs-
tico respecto a todas las muestras de tama˜ no n que se podr´ıa extraer se llama
distribuci´on muestral de este estad´ıstico.
V.2. Muestra
Formalizamos el contexto y introducimos el concepto de muestra:
Consideramos un experimento aleatorio y una v.a X.
1
. Al querer obtener infor-
maci´on sobre alg´ un par´ametro del modelo que hemos escogido para la distribuci´on
de los valores de X, vamos a repetir el experimento n veces de manera independiente
y consideramos las variables X
1
“valor de X obtenido en la primera realizaci´on del
experimento”, . . ., X
n
“valor de X obtenido en la n-´esima realizaci´on del experimen-
to”. Las variables X
1
, X
2
, . . . , X
n
son independientes y claramente la distribuci´on
de cada variable X
i
coincide con la distribuci´on de X. En este caso decimos que
(X
1
, X
2
, . . . , X
n
) constituye una muestra aleatoria simple de la distribuci´on de X.
V.3. La media muestral
Supongamos que nos interesamos por el valor µ, la media de la v.a X. Escogere-
mos una muestra, y calcularemos la media de esta muestra, llamada media muestral.
Para controlar lo pr´oximo que estar´a su valor de µ, consideramos el experimento que
consiste en extraer una muestra aleatoria simple de la distribuci´on de X, la media
muestral es la variable aleatoria (su valor depende de la muestra escogida)
¯
X =
X
1
+. . . +X
n
n
.
¿Qu´e podemos decir de la distribuci´on de los valores que puede tomar
¯
X? Empezare-
mos por estudiar cu´al ser´a el centro y la dispersi´on de esta distribuci´on.
V.3.1. Esperanza y varianza de
¯
X
V.3.1.1. Esperanza
Tenemos que
E[
¯
X] = E[
X
1
+. . . +X
n
n
] =
1
n
E[X
1
+. . . +X
n
] =
1
n
(E[X
1
] +. . . +E[X
n
]).
Puesto que la distribuci´on de cada X
i
es la misma que la distribuci´on de X, deduci-
mos que E[X
1
] = . . . = E[X
n
] = µ, y
E[
¯
X] =
1
n
(n µ) = µ,
1
En algunos casos, este experimento aleatorio consistir´ a en escoger al azar un individuo de una
poblaci´ on muy grande, y X ser´ a el valor de la variable de inter´es para este individuo concreto.
Llamaremos entonces media de X la media poblacional y su varianza, la varianza poblacional
80 Mathieu Kessler: M´etodos Estad´ısticos
es decir que el centro de la distribuci´on de la media muestral coincide con el centro
de la distribuci´on de X.
V.3.1.2. Varianza
Utilizando la f´ormula de propagaci´on de los errores, ver Tema 4, obtenemos que
var[
¯
X] = var[
X
1
+. . . +X
n
n
] =
1
n
2
var[X
1
+. . .+X
n
] =
1
n
2
(var[X
1
]+. . .+var[X
n
]),
lo que implica que
var(
¯
X) =

2
n
2
=
σ
2
n
,
o de forma equivalente
σ ¯
X
=
σ

n
.
¡La dispersi´on que presentan los valores de
¯
X es

n m´as peque˜ na que la dispersi´on
de X!
V.3.1.3. Consecuencia pr´actica
Quiero realizar una medici´on con un aparato. El experimento aleatorio es “llevar
a cabo una medici´on”, mientras que la variable X es “valor proporcionado por el
aparato”.
Los valores de X variar´an pero lo deseable es que su centro µ coincida con el
valor exacto de la cantidad que busco determinar: si E[X] = valor exacto, decimos
que el aparato es exacto.
Por otra parte, queremos que los valores proporcionen presenten la menor disper-
si´on posible: si σ = σ
X
es peque˜ na, decimos que el aparato es preciso. Tenemos en-
tonces varios casos posibles, tal como est´a ilustrado en la Figura V.4, con la analog´ıa
de la medici´on con un disparo en una diana: el centro de la diana representa el valor
exacto de lo que buscamos determinar...
Figura V.4: Analog´ıa de la medici´on con un disparo en una diana
Si nuestro aparato de medici´on no es exacto, podemos intentar calibrarlo para
corregir la desviaci´on sistem´atica que presenta. En cambio, si no es preciso, tiene
dif´ıcil arreglo. Sin embargo exista una manera de mejorar la precisi´on de un aparato
V.3 La media muestral 81
de medici´on: basta con repetir un n´ umero suficiente de veces la medici´on y pro-
porcionar la media de los valores obtenidos: la desviaci´on t´ıpica de los valores que
proporcionar´ıa con este m´etodo es

n veces m´as peque˜ na que la de los valores pro-
porcionados si me limito a una medici´on.
V.3.2. Distribuci´on de la media muestral
En la subsecci´on anterior, hemos caracterizado la media y la desviaci´on t´ıpica
de la distribuci´on de los valores de la media muestral
¯
X. Hay que enfatizar el hecho
de que estos resultados se obtienen sin hip´otesis sobre la forma de la distribuci´on
de X. ¿Podemos decir algo m´as sobre la distribuci´on de los valores de
¯
X, ahora que
sabemos cu´ales son su centro y su dispersi´on?
V.3.2.1. Si la distribuci´on de X es Normal
Si hemos modelizado la v.a X por una distribuci´on Normal A(µ, σ
2
) y consid-
eramos una muestra aleatoria simple de X, sabemos por la reproductividad de la
distribuci´on Normal que X
1
+X
2
+. . . +X
n
sigue tambi´en una distribuci´on normal.
Se cumple por lo tanto
Proposici´on V.3.1 Si X ∼ A(µ, σ
2
), y si
¯
X es la media muestral basada en una
muestra aleatoria simple de la distribuci´on de X,
¯
X ∼ A(µ,
σ
2
n
),
o, de manera equivalente,
¯
X −µ
σ/

n
∼ A(0, 1).
Como ejemplo, consideremos un aparato de medici´on que proporciona valores que
se distribuyen seg´ un una Normal, con una media de 120 y una desviaci´on t´ıpica de
12. Por la propiedad de la distribuci´on Normal, el 95 % de los valores est´an entre
µ −2σ y µ −2σ, es decir entre 96 y 144. En cambio, si repito 9 veces la medici´on y
proporciono la media de estas nueve mediciones, el 95 % de los valores que obtendr´ıa
con este procedimiento se encontrar´ıan entre µ−2σ/

n y µ−2σ/

n, es decir entre
112 y 128, lo que implica una precisi´on mucho mayor.
V.3.2.2. Si la distribuci´on de X es desconocida o no es normal
Si la distribuci´on de X es desconocida, no podemos hacer milagros: no podemos
decir nada exacto sobre la distribuci´on de
¯
X, exepto sobre su media y su desviaci´on
t´ıpica, ver secci´on V.3.1. Sin embargo, si el tama˜ no muestral n es grande, se sabe
que esta distribuci´on se puede aproximar por una distribuci´on Normal.
Teorema V.3.1 Teorema Central del L´ımite Consideremos (X
1
, . . . , X
n
) una mues-
tra aleatoria simple de la distribuci´on de X con media µ y varianza σ
2
. Si n es
“suficientemente” grande, se puede aproximar la distribuci´on de
¯
X por una Normal
con media µ y varianza σ
2
/n:
¯
X ∼ A(µ,
σ
2
n
) aproximadamente.
82 Mathieu Kessler: M´etodos Estad´ısticos
¿Cuando se considera que n es“suficientemente”grande? No hay por desgracia ningu-
na respuesta universal, depende de la forma de la distribuci´on de X: si ´esta no es
muy diferente de una distribuci´on Normal, no hace falta un n muy grande para que
la aproximaci´on de la distribuci´on de la media muestral por una Normal sea satisfac-
toria. En cambio, si es muy distinta de una distribuci´on Normal, ser´a necesario una
muestra grande. Se suele considerar como indicaci´on que n mayor de 30 es suficiente
en la mayor´ıa de los casos (pero no es m´as que una indicaci´on...)
Por otra parte, este teorema, fundamental en estad´ıstica, explica la importancia
de la distribuci´on Normal: aparece de manera natural, asociada a cualquier dis-
tribuci´on, si consideramos la distribuci´on de la media muestral, o de la suma de
realizaciones independientes. En particular, si un error de medici´on se puede consid-
erar como la suma de muchas peque˜ nas perturbaciones independientes, el Teorema
Central del L´ımite implica que la distribuci´on de sus valores es aproximadamente
Normal.
V.4. La varianza muestral
Consideremos ahora un experimento al que asociamos una v.a X cuya distribu-
ci´on de valores modelizamos por una Normal con media µ y varianza σ
2
. Repetimos
n veces el experimento y obtenemos una m.a.s (X
1
, X
2
, . . . , X
n
) de la distribuci´on
de X. ¿Qu´e podemos decir de la distribuci´on de la varianza muestral
s
2
=
n
n −1
(X
2
−(
¯
X)
2
)?
Es posible demostrar la proposici´on siguiente
Proposici´on V.4.1 1. Las v.a
¯
X y s
2
son independientes.
2. La densidad de (n −1)s
2

2
es proporcional a
x
(n−1)/2
e
−x/2
, si x > 0.
La distribuci´on correspondiente se llama χ
2
(ji-cuadrado) con (n − 1) grados
de libertad. Escribimos
(n −1)s
2
σ
2
∼ χ
2
n−1
.
En general, una v.a. X sigue una distribuci´on χ
2
con k ∈ N grados de libertad
si su densidad es proporcional a
x → x
k/2
e
−x/2
, si x > 0.
En la figura V.5, se representa la densidad de una distribuci´on χ
2
con distintos
grados de libertad.
V.5. Distribuci´on t de Student
En la secci´on 3, hemos utilizado el estad´ıstico
Z =
¯
X −µ
σ/

n
, (V.1)
V.5 Distribuci´on t de Student 83
0 10 20 30 40 50
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
Densidad de la Ji cuadrado con k grados de libertad
x
f
_
X
(
x
)
Figura V.5: Densidad de la distribuci´on χ
2
con k = 3, 10 y 30 grados de libertad
(respectivamente de izquierda a derecha)
que sigue una distribuci´on Normal est´andar si
¯
X es la media de una muestra aleatoria
simple de una distribuci´on Normal A(µ, σ
2
).
Si desconocemos el valor de σ, lo estimaremos por S la desviaci´on t´ıpica muestral
S =

n
n −1
(X
2
−(
¯
X)
2
).
El estad´ıstico que resulta de sustituir en (V.1) σ por S es
T =
¯
X −µ
S/

n
.
Definici´on V.5.1 Consideramos (X
1
, . . . , X
n
) una muestra aleatoria simple de una
distribuci´on A(µ, σ
2
), sea
¯
X la media muestral, la distribuci´on de los valores de
T =
¯
X −µ
S/

n
se llama distribuci´on t de Student con n−1 grados de libertad. Escribimos T ∼ t
n−1
.
La distribuci´on de T depende por lo tanto del tama˜ no n de la muestra, a trav´es
de los llamados “grados de libertad”. Se puede demostrar que la densidad F
t
k
de la
distribuci´on t de Student con k grados de libertad admite la siguiente expresi´on:
f
t
k
(t) ∝
1
(1 +t
2
/p)
(p+1)/2
, −∞ < t < ∞,
donde el s´ımbolo ∝ significa “es proporcional a”, es decir que existe una constante
K tal que f
t
k
(t) = K
1
(1+t
2
/p)
(p+1)/2
. Por las propiedades de una funci´on de densidad
84 Mathieu Kessler: M´etodos Estad´ısticos
Densidad de la t de Student con k grados de libertad
x
f
_
X
(
x
)
Figura V.6: Densidad de la distribuci´on t de Student con 1, 3, 10 y 150 grados de
libertad respectivamente (de la densidad m´as chata a la m´as puntiaguda)
se puede deducir que la constante es
K =
Γ(
p+1
2
)
Γ(
p
2
)
1


,
donde Γ denota la funci´on Gamma
2
.
La distribuci´on t tiene colas m´as pesadas que la distribuci´on Normal, lo que es
intuitivamente natural puesto que, al obtenerse T sustituyendo σ por S, el denom-
inador de T presenta ahora tambi´en variabilidad. Esta variabilidad en el denomi-
nador resulta en que T puede tomar con m´as probabilidad valores m´as extremos.
Sin embargo, si los grados de libertad aumentan, la variabilidad de S disminuye, y
la distribuci´on t de Student asociada se parece m´as a una Normal.
En la figura V.6, se representa la densidad de la distribuci´on T de Student para
varios valores de los grados de libertad.
V.6. La proporci´ on muestral
Hay situaciones en las que la v.a X de inter´es tan s´olo puede tomar el valor 0
´o 1, ´este ´ ultimo con la probabilidad p, pensamos por ejemplo, en el experimento
que consiste en producir una pieza con una m´aquina que produce una proporci´on
p de defectuosos, X toma el valor 1 si la pieza es defectuosa, y 0 si la pieza es
correcta, o en el ejemplo del sondeo para estimar la tasa de participaci´on antes de
unas elecciones. Para sacar informaci´on sobre p, repetiremos el experimento n veces
de manera independiente, contaremos el n´ umero N de veces que la v.a X ha tomado
el valor 1, es decir que fabricamos n piezas con la m´aquina y contamos el n´ umero
2
La funci´ on Gamma tiene la expresi´ on siguiente: para cualquier real α > 0, Γ(α) =


0
t
α−1
e
−t
dt.
V.6 La proporci´on muestral 85
N de defectuosas, o preguntaremos a n personas si tienen intenci´on de ir a votar,
para los dos ejemplos concretos que hemos mencionado. La proporci´on de “Unos”
en la muestra se llama la proporci´on muestral y la denotamos por ˆ p. Est´a claro que
tenemos
ˆ p =
N
n
.
V.6.1. C´alculos exactos para la distribuci´on de ˆ p
El n´ umero de “Unos” en la muestra es el n´ umero de veces que ha salido “1”
en n realizaciones independientes del experimento, su distribuci´on es por lo tanto
Binomial de par´ametros n y p, la probabilidad de que salga “1” en una realizaci´on
del experimento:
N ∼ B(n, p).
C´alculos exactos para la distribuci´on de ˆ p se podr´an realizar utilizando que ˆ p = N/n
y el hecho que N ∼ B(n, p), tal como viene ilustrado en el ejemplo siguiente:
Ejemplo V.6.1 Cuando est´a bien ajustada, una m´ aquina produce piezas con s´olo
1 % de defectuosos. Para realizar un control de la calidad de la producci´on, se extrae
diariamente una muestra de 100 piezas, y se calcula la proporci´on muestral de de-
fectuosos. Si la m´aquina est´a bien ajustada, ¿cu´al es la probabilidad de que, en una
de estas muestras, haya m´as de 2 % de defectuosos?
Queremos calcular
P(ˆ p > 0,02) = P(
N
100
> 0,02) = P(N > 2),
siendo N ∼ B(100, 0,01) si la m´aquina est´a bien ajustada. Tenemos
P(N > 2) = 1 −P(N ≤ 2) = 1 −[P(N = 0) +P(N = 2) +P(N = 3)]
1 −[

100
0

0,01
0
0,99
100
+

100
1

0,01
1
0,99
99
+

100
2

0,01
2
0,99
98
] · 0,08
Por lo tanto, si la m´ aquina est´a bien ajustada, s´olo hay una probabilidad de 0.08 de
observar 3 o m´as piezas defectuosas en una muestra de 100.
En particular, si un d´ıa observo 3 piezas defectuosas en la muestra que he ex-
tra´ıdo, hay dos posibilidades: a) la m´aquina est´a bien ajustada pero he tenido mala
suerte (s´olo hab´ıa 8 posibilidades entre 100 de que esto ocurriera), b) en realidad
es un s´ıntoma de que la m´aquina est´a mal ajustada... Este simple ejemplo ilustra la
idea b´asica del control estad´ıstico de calidad.
V.6.2. Distribuci´on aproximada de ˆ p
Los c´alculos exactos que hemos descrito en el apartado anterior se pueden volver
muy laboriosos si se necesita evaluar un gran n´ umero de probabilidades individuales.
En el caso en que se cumplen las condiciones de aproximaci´on de la distribuci´on
Binomial, la distribuci´on de N se puede aproximar por una Normal A(np, np(1−p)),
86 Mathieu Kessler: M´etodos Estad´ısticos
y por lo tanto ˆ p sigue aproximadamente una distribuci´on Normal con media np/n = p
y varianza np(1 −p)/n
2
= p(1 −p)/n:
Si np > 5, n(1 −p) > 5 ˆ p ∼ A(p,
p(1 −p)
n
), aproximadamente
Esta propiedad de aproximaci´on justifica en particular las formas de campanas de
Gauss que aparecen para los histogramas de ˆ p en la introducci´on, ver Figuras V.2 y
V.3.
Notar por otra parte que para el ejemplo del apartado anterior no se cumplen
las condiciones de aproximaci´on...
V.7. Introducci´ on a las gr´aficas de control
Conocer las distribuciones muestrales de algunos estad´ısticos destacados como la
media muestral, la varianza muestral o la proporci´on muestral ha propiciado que se
propongan procedimientos de control estad´ıstico de calidad en contextos industriales.
Veremos en esta secci´on una introducci´on a las gr´aficas de control, en una versi´on
algo simplificada, pero que permite ilustrar sus fundamentos.
Las gr´aficas de control permiten comprobar de manera continua que se mantiene
constante la calidad de una producci´on, favoreciendo la intervenci´on r´apida en el
caso en que se detecta que ´esta se deteriora.
V.7.1. Gr´afica de control
¯
X.
Consideremos el contexto siguiente: una empresa identifica la concentraci´on en
CaCO3 como una caracter´ıstica importante de la calidad de su producto. Idealmente
esta concentraci´on deber´ıa ser igual a 55, pero la variabilidad es inevitable. Sin
embargo se asume que, en condiciones normales de producci´on los valores de la
concentraci´on se distribuyen seg´ un una distribuci´on aproximadamente Normal con
desviaci´on t´ıpica σ = 8. Para controlar la calidad de la producci´on, analiza 4 envases
de producto, calculando a continuaci´on la media de los cuatro valores obtenidos. En
la tabla siguiente, se recogen los datos correspondientes a veinte controles.
Muestra n
o
¯ x Muestra n
o
¯ x
1 54.0 11 53.1
2 59.1 12 61.1
3 54.0 13 61.5
4 56.5 14 67.7
5 60.5 15 64.9
6 56.0 16 67.6
7 47.3 17 66.9
8 51.7 18 67.1
9 62.9 19 73.5
10 64.7 20 66.4
¿C´omo comprobar que la calidad de la producci´on sigue conforme con los criterios
fijados? es decir, ¿c´omo detectar que el instrumento de producci´on se ha desajustado
por ejemplo? Si representamos la secuencia de los valores calculados para ¯ x en los
V.7 Introducci´on a las gr´aficas de control 87
controles consecutivos, obtenemos la gr´afica de la Figura V.7, donde tambi´en se ha
dibujado una l´ınea horizontal para indicar la concentraci´on ideal 55. Parece sin duda
que la tensi´on de los monitores va aumentando y alej´andose del objetivo 55, pero
¿c´omo definir una regla que nos sirva de se˜ nal de alarma?
5 10 15 20
3
0
4
0
5
0
6
0
7
0
8
0
m
e
d
ia
d
e
la
m
u
e
s
tra
Figura V.7: Valores consecutivos de ¯ x, ejemplo de la concentraci´on en NaCO3.
Formalicemos el contexto: consideramos la v.a X= “concentraci´on de NaCO3”.
Sabemos que X ∼ A(µ, σ
2
) con σ = 8. Tambi´en sabemos que en condiciones nor-
males de producci´on, se debe cumplir que µ = 55. Si escojemos al azar cuatro
monitores en la producci´on de una hora, y llamamos
¯
X la media de las tensiones
correspondientes, sabemos que los valores de
¯
X se distribuyen seg´ un una Normal de
media µ y de desviaci´on t´ıpica σ ¯
X
= σ/

n, es decir 8/2 = 4. En particular si µ es
efectivamente igual a 55, se espera que el 99,7 % de los valores de
¯
X se encontrar´an
entre µ −3σ ¯
X
y µ + 3σ ¯
X
, es decir entre 60.4 y 49.6.
Por consiguiente, si para una muestra, observamos un valor de
¯
X fuera de este
rango de valores, es razonable pensar que el proceso de producci´on se ha desajustado,
puesto que s´olo hab´ıa una probabilidad de 3 entre 1000 que esto ocurriera, siendo el
proceso bien ajustado (es decir siendo µ igual a 55).
Realizar una gr´afica de control
¯
X consiste por lo tanto, suponiendo que los valores
de la variable que queremos controlar siguen aproximadamente una Normal y que
conocemos su desviaci´on t´ıpica, en representar en una gr´afica los valores de
¯
X que
vamos obteniendo, junto con tres l´ıneas horizontales:
la l´ınea objetivo, en nuestro caso µ = 55,
el l´ımite de control superior en µ + 3σ/

n, en nuestro caso, 60.4.
el l´ımite de control superior en µ −3σ/

n, en nuestro caso, 49.6.
En la Figura V.8, se representa la gr´afica de control para este ejemplo. A partir de la
muestra n´ umero 14 se detecta que el proceso est´a fuero de control, y que la calidad
se ha deteriorado.
V.7.2. Gr´afica de control ˆ p
En algunas situaciones, la calidad de la producci´on no se mide a tr´aves de una
variable X sino a trav´es de la proporci´on de defectuosos producidos. En estos casos
se monitora la calidad utilizando una gr´afica de control ˆ p.
88 Mathieu Kessler: M´etodos Estad´ısticos
5 10 15 20
3
0
4
0
5
0
6
0
7
0
8
0
muestra
m
e
d
ia

d
e

la

m
u
e
s
t
r
a
Figura V.8: Ejemplo de gr´afica de control ¯ x.
Para llevar a cabo el control utilizando las mismas ideas que para la gr´afica de
control
¯
X, recurrimos a la distribuci´on muestral de ˆ p. Sabemos que si np > 5 y
n(1 −p) > 5, ´esta se puede aproximar por una Normal:
ˆ p ∼ A(p,
p(1 −p)
n
, aproximadamente.
La gr´afica de control ˆ p se realizar´a por lo tanto dibujando en la gr´afica tres l´ıneas
horizontales:
la l´ınea objetivo,
el l´ımite de control superior en p + 3

p(1−p)

n
,
el l´ımite de control superior en p −3

p(1−p)

n
, en nuestro caso.
V.7.3. Otra se˜ nal de alarma
Existen otras posibles se˜ nales de alarma para decidir si un proceso est´a fuera
de control. Una de ellas corresponde a dibujar la l´ınea objetivo y concluir que la
m´aquina est´a mal ajustada si se observan nueve puntos consecutivos por debajo(o
por encima) de la l´ınea objetivo. La probabilidad de falsa alarma, es decir concluir
err´oneamente que el proceso est´a fuera de control es del orden de 2 entre 1000.
TEMA VI
Introducci´ on a la teor´ıa de la estimaci´on
VI.1. Introducci´ on
Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger
un modelo, posiblemente con uno o varios par´ametros que tendremos que ajustar.
Por ejemplo, queremos realizar una medici´on con un aparato, la variable que nos
interesa es X “valor proporcionado por el aparato”, pensamos que la distribuci´on de
los valores que puede tomar X se puede aproximar por una distribuci´on Normal.
Nos falta “ajustar” los valores de la media y de la varianza de esta distribuci´on
normal, para disponer de un modelo completamente especificado que nos permitir´a
realizar c´alculos de probabilidad, predicciones etc... Para ajustar los par´ametros que
nos faltan, repetiremos el experimento varias veces y sacaremos informaci´on - se dice
inferir - sobre estos par´ametros a partir de los valores obtenidos de X. El primer
tipo de informaci´on que podemos intentar sacar es acerca de su valor. Estimar un
par´ametro consiste en obtener una aproximaci´on de su valor en base a los datos de la
variable correspondientes a varias realizaciones del experimento. Recordar que vimos
en el tema anterior que los datos provenientes de varias realizaciones del experimento
constituyen una muestra de la distribuci´on de X.
VI.2. Estimaci´ on puntual
VI.2.1. Definici´on
Consideramos un experimento aleatorio, con una v.a X, y un modelo para la
distribuci´on de X. Este modelo incluye par´ametros desconocidos. Disponemos de
una muestra de la distribuci´on de X.
Definici´on VI.2.1 Cualquier estad´ıstico (es decir, cualquier funci´on de las obser-
vaciones de la muestra) dise˜ nado para aproximar el valor de un par´ametro θ del
modelo, se llama estimador puntual del par´ ametro θ.
90 Mathieu Kessler: M´etodos Estad´ısticos
En la tabla siguiente se presentan algunos par´ametros usuales y los estimadores
asociados:
θ Estimador
µ
¯
X, media muestral
σ
2
S
2
, varianza muestral
p ˆ p, proporci´on muestral
Un aspecto fundamental de un estimador es que es una variable aleatoria: su valor
concreto depende de la muestra escogida. Utilizaremos los resultados del tema ante-
rior sobre distribuciones muestrales para deducir propiedades de las distribuciones
de los estimadores m´as usados.
VI.2.2. Propiedades deseables para un estimador
VI.2.2.1. Estimador insesgado
Una primera propiedad deseable para un estimador es que el centro de la dis-
tribuci´on de los valores que puede tomar coincida con el valor del par´ametro que
queremos aproximar. Si ´este es el caso, decimos que el estimador es insesgado. As´ı,
si
ˆ
θ es un estimador del par´ametro θ, decimos que
ˆ
θ es un estimador insesgado de θ
si
E[
ˆ
θ] = θ.
Comprobemos si los estimadores m´ as usados son insesgados:
La media muestral
¯
X: hemos visto en el tema 5 que, sea cual sea la distribuci´on
de X, se cumple que E[
¯
X] = µ
X
. Deducimos que
¯
X es un estimador insesgado
de µ
X
.
La varianza muestral S
2
. Tenemos que
S
2
=
n
n −1
[X
2
−(
¯
X)
2
].
Por lo tanto,
E[S
2
] =
n
n −1
[E[X
2
] −E[(
¯
X)
2
]].
Necesitamos calcular por una parte E[X
2
] y por otra parte E[(
¯
X)
2
]. Al ser
X
2
la media muestral de la variable X
2
, sabemos por el tema 5 que E[X
2
=
E[X
2
] = var(X)+µ
2
X
.. Por otra parte, E[(
¯
X)
2
]] = var(
¯
X)+(E[
¯
X])
2
=
σ
2
n

2
X
.
Deducimos que
E[S
2
] =
n
n −1

2

σ
2
n
] = σ
2
.
Hemos por lo tanto comprobado que la varianza muestral es un estimador
insesgado de la varianza. De hecho, este resultado constituye la justificaci´on
de que la varianza muestral se defina con el factor n/(n − 1), para que el
estimador resulte insesgado.
Proporci´on muestral ˆ p: en el tema 5, hemos obtenido la caracterizaci´on de ˆ p co-
mo N/n donde N es el n´ umero de elementos en la muestra con la caracter´ıstica
de inter´es, y hemos visto que N ∼ B(n, p). Deducimos que
E[ ˆ p] =
E[N]
n
=
np
n
= p.
VI.2 Estimaci´on puntual 91
En este caso tambi´en, la proporci´on muestral resulta ser un estimador inses-
gado de la proporci´on.
VI.2.2.2. Estimador consistente
Si un estimador es insesgado, nos interesa que la dispersi´on de los valores que
puede tomar sea la m´as peque˜ na posible, para que la precisi´on de la estimaci´on sea
la mayor posible. Por consiguiente, una buena propiedad adicional de un estimador
insesgado es que su varianza tienda a cero si el n´ umero de observaciones n crece
hacia infinito. En este caso, se dice que el estimador es consistente.
De la misma manera que en el apartado anterior, podemos deducir, utilizando
los resultados del tema 5, que
var(
¯
X) =
σ
2
n
, var(ˆ p) = var(
N
n
) =
1
n
2
var(N) =
p(1 −p)
n
.
Es f´acil comprobar que, en efecto tanto var(
¯
X) como var(ˆ p) tienden a cero si n
tiende a infinito, es decir que son dos estimadores consistentes.
VI.2.3. M´etodos de construcci´ on de estimadores
En los ejemplos de las secciones anteriores, los estimadores propuestos est´an
basados en estad´ısticos naturales para los par´ametros de inter´es: la media muestral
para estimar la media, la proporci´on muestral para estimar la proporci´on, etc... En
modelos m´as sofisticados es ´ util disponer de m´etodos generales de construcci´on de
estimadores razonables.
VI.2.3.1. Estimadores de momentos
Es el m´etodo m´as antiguo de construcci´on de estimadores y se debe a Karl
Pearson a principios del siglo XX.
Consideremos una v.a. X y un modelo para la distribuci´on de sus valores, que
consiste en la especificaci´on de x → f
X
(x; θ), siendo f
X
la funci´on puntual de prob-
abilidad, o la funci´on de densidad seg´ un si X es una variable discreta o continua.
El par´ametro θ es posiblemente multidimensional, llamamos p su dimensi´on, es
decir que p es el n´ umero de par´ametros desconocidos en el modelo. Para un entero
k, consideramos el momento µ
k
de orden k de la distribuci´on de X:
µ
k
= E[X
k
].
Cabe destacar que la expresi´on de µ
k
depende del par´ametro θ. Para enfatizar esta
dependencia, escribiremos µ
k
(θ) para denotar el momento de orden k del modelo
descrito por x → f
X
(x; θ). De manera paralela, definimos el momento muestral de
orden k:
m
k
= X
k
=
X
k
1
+. . . +X
k
n
n
.
Para un par´ametro de dimensi´on p, los estimadores de los momentos se obtienen
igualando los p primeros momentos del modelo para la distribuci´on de X con sus
92 Mathieu Kessler: M´etodos Estad´ısticos
equivalentes muestrales:
µ
1
(θ) = X,
µ
2
(θ) = X
2
,
.
.
. =
.
.
.,
µ
k
(θ) = X
k
.
Calculemos para ilustrar el m´etodo los estimadores de momentos en los modelos
siguientes:
X ∼ A(µ, σ
2
)., donde θ = (µ, σ
2
). Necesitamos igualar los dos primeros mo-
mentos con sus equivalentes muestrales. Los dos primeros momentos de la
distribuci´on A(µ, σ
2
) son
µ
1
(θ) = µ
µ
2
(θ) = E[X
2
] = V ar(X) + (E[X])
2
= σ
2

2
.
Deducimos que los estimadores de los momentos son soluci´on del sistema:
µ = X
σ
2

2
= X
2
,
es decir
ˆ µ = X,
ˆ
σ
2
= X
2
−(X)
2
.
Modelo de Bernoulli: X ∼ Bernoulli(p), donde desconocemos p. S´olo necesi-
tamos igualar el primer momento con su equivalente muestral, obtenemos
ˆ p =
¯
X,
puesto que X
1
, . . . , X
n
s´olo pueden tomar el valor 1 o el valor 0, su media es
igual a la proporci´on muestral de 1. El estimador de momentos de la proporci´on
p en un modelo de Bernoulli es la proporci´on muestral.
VI.2.3.2. M´etodo de m´axima verosimilitud
El m´etodo de m´axima verosimilitud es sin dudas el m´etodo m´as utilizado de
construcci´on de un estimador puntual.
a). Verosimilitud Sea X una v.a, con distribuci´on especificada por x → f
X
(x; θ),
donde θ es el vector de par´ametros, de dimensi´on p. Repetimos el experimento n veces
y consideramos la muestra aleatoria simple de la distribuci´on de X: (X
1
, . . . , X
n
).
La distribuci´on de la v.a n-dimensional (X
1
, . . . , X
n
) est´a descrita a trav´es de la
relaci´on
f
X
1
,...,X
n
(x
1
, . . . , x
n
; θ) = f
X
1
(x
1
, θ) . . . f
X
n
(x
n
, θ),
puesto que las v.a X
1
, . . . , X
n
son independientes. En esta ´ ultima igualdad, f rep-
resenta o bien la funci´on puntual de probabilidad o bien la funci´on de densidad.
VI.2 Estimaci´on puntual 93
Para un valor concreto de (X
1
, . . . , X
n
), que denotamos por (x
1
, . . . , x
n
), consid-
eramos la funci´on de θ:
L
n
:

R
p
→R
θ → L
n
(θ) = f
X
1
,...,X
n
(x
1
, . . . , x
n
; θ).
La funci´on L
n
asocia a cada valor de θ el valor de la densidad (o de la funci´on
puntual de probabilidad) de las observaciones (X
1
, . . . , X
n
) evaluada en (x
1
, . . . , x
n
),
los valores concretos observados.
Ejemplo. Consideremos la tirada de una moneda y asociamos la v.a. X que valga 1
si sale cara y 0 si sale cruz. Utilizamos un modelo de Bernoulli de par´ametro p entre
0 y 1. Tiramos 10 veces la moneda y obtenemos la secuencia de valores siguiente: 0,
0, 1, 0, 1, 1, 1, 1, 1, 1. La verosimilitud asocia a cada valor posible de p, la cantidad
P(X
1
= 0; X
2
= 0; X
3
= 1; X
4
= 0; X
5
= 1; X
6
= 1; X
7
= 1; X
8
= 1; X
9
= 1; X
10
= 1).
Deducimos que L
n
(p) = (1 −p)(1 −p)p(1 −p)(1 −p)
6
= (1 −p)
3
p
7
. Se representa
la gr´afica de la funci´on L
n
(p) en la Figura VI.1
La verosimilitud nos indica para qu´e valor de p, la probabilidad de haber obser-
vado la secuencia 0, 0, 1, 0, 1, 1, 1, 1, 1, 1 es la m´as alta.
b). Estimador de m´axima verosimilitud
Definici´on VI.2.2 Dados (x
1
, . . . , x
n
) los valores observados de una muestra, con-
sideramos la verosimilitud θ → L
n
(θ).
El estimador de m´axima verosimilitud
ˆ
θ de θ es cualquier valor de θ que maximiza
θ → L
n
(θ),
ˆ
θ = argmax
θ
L
n
(θ).
La maximizaci´on se realiza sobre todos los valores admisibles para el par´ametro θ.
Ejemplo. Consideramos X ∼ Bernoulli(p). Observamos x
1
, . . . , x
n
una realizaci´on
de la muestra aleatoria simple (X
1
, . . . , X
n
). Puesto que si x = 0, 1, f
X
(x) = P(X =
x) = p
x
(1 −p)
(1−x)
, la verosimilitud es
L
n
(p) = p
x
1
(1 −p)
(1−x
1
)
. . . p
x
n
(1 −p)
(1−x
n
)
= p

x
i
(1 −p)
n−

x
i
.
Los candidatos a alcanzar el m´aximo se obtienen derivando la verosimilitud, o de
manera equivalente y m´as sencilla, su logaritmo (llamado log-verosimilitud):
d log L
n
dp
(p) = (n −
¸
x
i
)


1
1 −p

+
¸
x
i
p
= 0.
Despejamos p y encontramos ˆ p = (
¸
x
i
)/n. Comprobamos adem´as que la derivada
segunda de L
n
es negativa, lo que implica que ˆ p es efectivamente un m´aximo global.
Deducimos que el estimador de m´axima verosimilitud de p es la proporci´on muestral.
Ejemplo. Consideramos X ∼ A(µ, σ
2
). Observamos x
1
, . . . , x
n
una realizaci´on de
la muestra aleatoria simple (X
1
, . . . , X
n
). La verosimilitud se obtiene a partir de la
expresi´on de la densidad de X:
L
n
(µ, σ
2
) =
n
¸
i=1
1

2πσ
2
e

(x
i
−µ)
2

2
=
1
(2πσ
2
)
n/2
e

n
i=1
(x
i
−µ)
2

2
.
94 Mathieu Kessler: M´etodos Estad´ısticos
Figura VI.1: Verosimilitud correspondiente al ejemplo de 10 tiradas de una moneda.
La log-verosimilitud es
log L
n
(µ, σ
2
) = −
n
2
log(2πσ
2
) −
¸
n
i=1
(x
i
−µ)
2

2
.
Para encontrar el m´aximo, calculamos las derivadas parciales de log L
n
respeto de
µ y σ
2
:

∂µ
log L
n
(θ) =
¸
n
i=1
(x
i
−µ)
2
σ
2

∂σ
2
log L
n
(θ) = −
n
2
1
σ
2
+
¸
n
i=1
(x
i
−µ)
2
2(σ
2
)
2
.
Resolvemos

∂µ
L
n
= 0 y

∂σ
2
L
n
= 0, y encontramos que los dos candidatos a m´aximo
son
ˆ µ =
¸
n
i=1
x
i
n
,
´
σ
2
=
¸
n
i=1
(x
i
− ˆ µ)
2
n
=
n
n −1
s
2
.
VI.3 Estimaci´on por intervalos 95
Para comprobar que son efectivamente m´aximos globales, podemos fijarnos en la
expresi´on de la log-verosimilitud:
log L
n
(µ, σ
2
) = −
n
2
log(2πσ
2
) −
¸
n
i=1
(x
i
−µ)
2

2
.
Sea cual sea el valor de σ
2
, la funci´on µ → log L
n
(µ, σ
2
) alcanza su m´aximo cuando
¸
n
i=1
(x
i
−µ) es m´ınimo, es decir cuando µ = (
¸
n
i=1
x
i
)/n. El m´aximo de (µ, σ
2
) →
log L
n
(µ, σ
2
) corresponder´a por lo tanto al m´aximo de la funci´on σ
2
→ log L
n
(ˆ µ, σ
2
).
Es f´acil comprobar que σ
2
→ log L
n
(ˆ µ, σ
2
) alcanza su m´aximo en
´
σ
2
=

n
i=1
(x
i
−ˆ µ)
2
n
=
n
n−1
s
2
.
Los estimadores de m´axima verosimilitud de µ y σ
2
son por lo tanto la media
muestral y la llamada varianza muestral sesgada
´
σ
2
=

n
i=1
(x
i
−ˆ µ)
2
n
=
n
n−1
s
2
. En
un apartado anterior hemos visto como la varianza muestral s
2
es un estimador
insesgado, por lo tanto E[
´
σ
2
] =
n−1
n
σ
2
. Es un ejemplo en ´el que el m´etodo de m´axima
verosimilitud proporciona un estimador sesgado.
VI.3. Estimaci´ on por intervalos
No queremos limitarnos a dar un valor para aproximar un par´ametro sino propor-
cionar tambi´en una medida del error que pensamos cometer. Para ello, calcularemos
un intervalo en ´el que pensamos que se encuentra el par´ametro.
VI.3.1. Idea b´asica
Supongamos que queremos estimar la media µ de una v.a. X cuya distribuci´on
es Normal con una desviaci´on t´ıpica igual a 2 unidades, es decir X ∼ A(µ, 4). Para
ello, extraigo una muestra de tama˜ no 4, y estimo µ por el valor de
¯
X. Por el tema 5,
ver V.3.2.1, sabemos que la distribuci´on de
¯
X es A(µ, σ
2
/n) es decir A(µ, 1). Por la
propiedad de la distribuci´on Normal, ver b), deducimos que el 95 % de las muestras
proporcionan un valor de
¯
X que se encuentra a menos de 2 unidades de la media µ.
Invertamos ahora la situaci´on: s´e donde est´a
¯
X, ¿donde est´a µ? Por la misma
regla, se encuentra, para el 95 % de las muestras, a menos de 2 unidades de
¯
X, es
decir que µ se encuentra en el intervalo [
¯
X −2,
¯
X + 2]. Dicho de otra manera, para
el 95 % de las muestras, el intervalo aleatorio [
¯
X − 2,
¯
X + 2] captura el valor del
par´ametro µ.
VI.3.2. Intervalo de confianza para la media µ de una distribuci´ on
Normal con varianza conocida
VI.3.2.1. Construcci´on
Consideramos la variable X ∼ A(µ, σ
2
). Suponemos que conocemos el valor de
σ
2
. La construcci´on del intervalo de confianza para la media µ se realiza siguiendo
los siguientes pasos.
Nos fijamos el llamado “nivel de riesgo”, α un n´ umero entre 0 y 1. La cantidad
1 −α expresada en porcentaje se llama nivel de confianza.
Los valores m´as utilizados de α son 0,1, 0,05, y 0,01, lo que corresponde con
niveles de confianza del 90 % ,95 % y 99 % respectivamente.
96 Mathieu Kessler: M´etodos Estad´ısticos
Escogemos el estad´ıstico
¯
X para estimar µ. Su distribuci´on en su forma tipifi-
cada es
¯
X −µ
σ/

n
∼ A(0, 1).
Para 0 ≤ u ≤ 1, utilizamos la notaci´on z
u
para denotar el cuantil u de la
distribuci´on Normal est´andar, es decir el valor que cumple P(Z ≤ z
u
) = u,
o dicho de otra manera, el valor que deja a su izquierda un ´area igual a u
debajo de la curva de la densidad Normal est´andar. En particular usaremos de
manera repetida los cuantiles siguientes: z
0,95
, z
0,975
y z
0,995
. Para conocer sus
valores, podemos buscar en la tabla de la Normal est´andar, los valores 0,95,
0,975 y 0,995 en la columna de las probabilidades φ(t) y apuntar los valores
correspondientes de t. Encontramos z
0,95
= 1,64, z
0,975
= 1,96 y z
0,995
= 2,56.
Dibujo en la densidad del estad´ıstico
¯
X−µ
σ/

n
, una regi´on central que represente
el 100(1 −α) % del ´area total, tal como viene ilustrado en la figura siguiente
Deducimos
P(−z
1−α/2

¯
X −µ
σ/

n
≤ z
1−α/2
) = 1 −α.
Despejamos µ en las desigualdades
P(−z
1−α/2
σ/

n ≤
¯
X −µ ≤ z
1−α/2
σ/

n) = 1 −α
⇔P(−
¯
X −z
1−α/2
σ/

n ≤ −µ ≤ −
¯
X +z
1−α/2
σ/

n) = 1 −α
⇔P(
¯
X +z
1−α/2
σ/

n ≥ µ ≥
¯
X −z
1−α/2
σ/

n) = 1 −α
⇔P(
¯
X −z
1−α/2
σ/

n ≤ µ ≤
¯
X +z
1−α/2
σ/

n) = 1 −α
El intervalo de confianza al 100(1 −α) % para µ es
µ ∈ [
¯
X −z
1−α/2
σ/

n;
¯
X +z
1−α/2
σ/

n].
Se escribe tambi´en de otra manera equivalente:
µ =
¯
X ±z
1−α/2
σ/

n,
el t´ermino z
1−α/2
σ/

n se llama t´ermino de error.
VI.3 Estimaci´on por intervalos 97
VI.3.2.2. Interpretaci´on
El intervalo [
¯
X−z
1−α/2
σ/

n;
¯
X+z
1−α/2
σ/

n] es un intervalo aleatorio, puesto
que sus extremos dependen de la muestra escogida. Por su construcci´on, sabemos
que este intervalo aleatorio tiene una probabilidad de 100(1 − α) % de capturar el
valor de µ. Es decir que, al extraer una muestra, tengo una probabilidad igual a
1 − α de que el intervalo que calcular´e efectivamente capture el valor µ que busco.
Tambi´en tengo una probabilidad α de que, al afirmar que µ se encuentra en [
¯
X −
z
1−α/2
σ/

n;
¯
X +z
1−α/2
σ/

n], me equivoque. Sin embargo, esta probabilidad α, el
riesgo de equivocarme, se fija en general bastante peque˜ no, por ejemplo α = 0,05.
Para ilustrar esta interpretaci´on, he simulado 20 veces el proceso de extraer una
muestra de tama˜ no 4 de una distribuci´on X ∼ A(µ
X
, 1). He representado en la
Figura VI.2 en el eje Ox el n´ umero de la muestra y en el eje Oy el intervalo de
confianza asociado. Adem´as una l´ınea horizontal representa el valor de µ que se
pretende estimar, en este caso µ = 2. La gran mayor´ıa de los intervalos capturan el
valor correcto de µ, pero hay un intervalo, el correspondiente a la muestra n´ umero
13 que no lo hace: este intervalo es err´oneo, y esta muestra forma parte del 5 % de
las muestras “malas”, es decir las que proporcionan intervalos equivocados.
5 10 15 20
0
1
2
3
4
Número de la muestra
I
n
t
e
r
v
a
l
o
s

d
e

c
o
n
f
i
a
n
z
a


q


q


q −

q


q


q


q


q


q


q


q


q


q


q


q


q


q


q


q


q
Figura VI.2: Los intervalos de confianza al 95 % correspondientes a 20 muestras de
tama˜ no 4. La media que se busca estimar es µ = 2.
VI.3.2.3. Ejemplo
Supongamos que queremos estimar la longitud media de un art´ıculo producido
por una m´aquina. Por experiencia, sabemos que es razonable modelizar la distribu-
ci´on de los valores de la longitud de los art´ıculos producidos por una distribuci´on
Normal con media µ y desviaci´on t´ıpica igual a 0.05. Para estimar µ extraemos una
muestra de 5 art´ıculos y construimos un intervalo de confianza al 90 %. Supongamos
que los datos que se obtienen son los siguientes:
20.1, 20.05, 20.01, 19.95, 19.99.
98 Mathieu Kessler: M´etodos Estad´ısticos
El intervalo de confianza es µ ∈ [
¯
X − z
1−α/2
σ/

n,
¯
X + z
1−α/2
σ/

n]. Necesitamos
¯
X, es f´acil comprobar que
¯
X = 20,02, por otra parte, al haber escogido 90 % de
confianza, fijamos α = 0,1. Deducimos de la tabla Normal que z
1−α/2
= z
0,95
= 1,64.
Concluimos que el intervalo buscado ser´a
[20,02 −1,64
0,05

5
, 20,02 + 1,64
0,05

5
],
es decir µ ∈ [19,98, 20,06], o de forma equivalente µ = 20,02 ±0,04.
VI.3.3. Comentarios importantes
a) La construcci´on del intervalo de confianza est´a basada en la hip´otesis de que la
distribuci´on de la v.a. X es Normal, puesto que utilizamos
¯
X −µ
σ/

n
∼ A(0, 1).
Si la distribuci´on de X no es Normal, el intervalo no es v´alido, es decir que no
podemos garantizar que la confianza especificada sea cierta. Sin embargo, en
el caso en que la muestra es grande, podemos recurrir al Teorema Central del
L´ımite, ver V.3.1, y sabemos que
aproximadamente,
¯
X −µ
σ/

n
∼ A(0, 1),
lo que posibilita que los intervalos sean aproximadamente v´alidos: la confianza
especificada no ser´a exacta pero casi...
¿A partir de cuantas observaciones consideramos una muestra como grande?
No hay respuesta universal, depende mucho de lo alejado que est´a la dis-
tribuci´on de X de una distribuci´on Normal. En general, se suele considerar
en pr´actica que n ≥ 30 es suficiente para que los intervalos construidos sean
aproximadamente v´alidos.
b) Factores que afectan a la precisi´on de la estimaci´on.
Recordar que en la estimaci´on por un intervalo, el margen de error es ±z
1.α/2
σ/

n.
Deducimos en particular que
cuanto mayor sea n, m´as precisa ser´a la estimaci´on, es decir que m´as
peque˜ no ser´a el intervalo de confianza.
cuanto menor sea σ, mayor precisi´on en la estimaci´on.
cuanto mayor sea la confianza, peor ser´a la precisi´on de la estimaci´on: si
queremos garantizar con gran confianza que el intervalo proporcionado
captura µ, no hay m´as remedio que proporcionar un intervalo grande...
c) La hip´otesis de que σ es conocida no es realista: en general tambi´en hay que
estimarla a partir de la muestra. La distribuci´on del estad´ıstico que resulta
de sustituir σ por S, la desviaci´on t´ıpica muestral,
¯
X−µ
S/

n
es una t de Student
con n − 1 grados de libertad. Podemos repetir los pasos de construcci´on del
intervalo de confianza para µ bas´andonos en el estad´ıstico
¯
X−µ
S/

n
:
VI.3 Estimaci´on por intervalos 99
Nos fijamos el “nivel de riesgo”, α.
Escogemos el estad´ıstico
T =
¯
X −µ
S/

n
∼ t
n−1
Dibujo en la densidad del estad´ıstico T una regi´on central que represente
el 100(1−α) % del ´area total, tal como viene ilustrado en la figura siguiente
Deducimos
P(−t
n−1,1−α/2

¯
X −µ
S/

n
≤ t
n−1,1−α/2
) = 1 −α,
donde hemos utilizado la notaci´on t
n−1,1−α/2
para denotar el cuantil 1 −
α/2 de la distribuci´on t
n−1
, es decir el punto que deja un ´area igual
a 1 − α/2 a su izquierda. Los valores de los cuantiles m´as usados de la
distribuci´on t est´an recogidos en una tabla en el ap´endice de este cap´ıtulo.
Despejamos µ en las desigualdades y obtenemos
P(
¯
X −t
n−1,1−α/2
S/

n ≤ µ ≤
¯
X +t
n−1,1−α/2
S/

n) = 1 −α.
El intervalo de confianza al 100(1 −α) % para µ es
µ ∈ [
¯
X −t
n−1,1−α/2
S/

n;
¯
X +t
n−1,1−α/2
S/

n].
Se escribe tambi´en
µ =
¯
X ±t
n−1,1−α/2
S/

n,
el t´ermino t
n−1,1−α/2
S/

n es el t´ermino de error.
VI.3.4. Determinaci´ on del tama˜ no muestral
VI.3.4.1. Planteamiento
Si estoy en condiciones de dise˜ nar el experimento que quiero realizar para estimar
la media µ, puedo intentar decidir del n´ umero de observaciones en la muestra que
100 Mathieu Kessler: M´etodos Estad´ısticos
ser´an necesarias para garantizar, con una confianza dada, que el margen de error
sea menor que una cantidad prefijada. Es decir, que me fijo una cantidad max, y
me pregunto cu´al deber´a de ser el valor de n para que
z
1−α/2
σ

n
≤ max.
Es f´acil obtener n despej´andolo de la desigualdad.
VI.3.4.2. Ejemplo
La medici´on de la conductividad de un material sigue una distribuci´on que mod-
elizamos por una Normal con desviaci´on t´ıpica σ = 0,5. Quiero construir un intervalo
de confianza al 95 % para el valor promedio proporcionado de la conductividad pero
quiero que el error cometido sea menor de 0.3. ¿cu´antas veces deber´e repetir la
medici´on?
Busco n tal que z
1−α/2
σ/

n ≤ 0,3, sabiendo que σ = 0,5, y α = 0,05. Obtengo
1,96
0,5

n
≤ 0,3,
es decir que
n ≥

1,96 0,5
0,3

2
· 10,67.
Habr´a por lo tanto que realizar 11 mediciones.
VI.3 Estimaci´on por intervalos 101
Cuantiles de la distribuci´ on t de Student
Valores de los cuantiles de la distribuci´on t de Student con k grados de libertad:
para un 0 ≤ p ≤ 1, el valor t
k,p
satisface P(t ≤ t
k,p
) = p.
k t
k,0,995
t
k,0,99
t
k,0,975
t
k,0,95
t
k,0,90
t
k,0,80
t
k,0,70
t
k,0,60
t
k,0,50
1 63,657 31,821 12,706 6,314 3,078 1,376 0,727 0,325 0,158
2 9,925 6,965 4,303 2,92 1,886 1,061 0,617 0,289 0,142
3 5,841 4,541 3,182 2,353 1,638 0,978 0,584 0,277 0,137
4 4,604 3,747 2,776 2,132 1,533 0,941 0,569 0,271 0,134
5 4,032 3,365 2,571 2,015 1,476 0,92 0,559 0,267 0,132
6 3,707 3,143 2,447 1,943 1,44 0,906 0,553 0,265 0,131
7 3,499 2,998 2,365 1,895 1,415 0,896 0,549 0,263 0,13
8 3,355 2,896 2,306 1,86 1,397 0,889 0,546 0,262 0,13
9 3,25 2,821 2,262 1,833 1,383 0,883 0,543 0,261 0,129
10 3,169 2,764 2,228 1,812 1,372 0,879 0,542 0,26 0,129
11 3,106 2,718 2,201 1,796 1,363 0,876 0,54 0,26 0,129
12 3,055 2,681 2,179 1,782 1,356 0,873 0,539 0,259 0,128
13 3,012 2,65 2,16 1,771 1,35 0,87 0,538 0,259 0,128
14 2,977 2,624 2,145 1,761 1,345 0,868 0,537 0,258 0,128
15 2,947 2,602 2,131 1,753 1,341 0,866 0,536 0,258 0,128
16 2,921 2,583 2,12 1,746 1,337 0,865 0,535 0,258 0,128
17 2,898 2,567 2,11 1,74 1,333 0,863 0,534 0,257 0,128
18 2,878 2,552 2,101 1,734 1,33 0,862 0,534 0,257 0,127
19 2,861 2,539 2,093 1,729 1,328 0,861 0,533 0,257 0,127
20 2,845 2,528 2,086 1,725 1,325 0,86 0,533 0,257 0,127
21 2,831 2,518 2,08 1,721 1,323 0,859 0,532 0,257 0,127
22 2,819 2,508 2,074 1,717 1,321 0,858 0,532 0,256 0,127
23 2,807 2,5 2,069 1,714 1,319 0,858 0,532 0,256 0,127
24 2,797 2,492 2,064 1,711 1,318 0,857 0,531 0,256 0,127
25 2,787 2,485 2,06 1,708 1,316 0,856 0,531 0,256 0,127
26 2,779 2,479 2,056 1,706 1,315 0,856 0,531 0,256 0,127
27 2,771 2,473 2,052 1,703 1,314 0,855 0,531 0,256 0,127
28 2,763 2,467 2,048 1,701 1,313 0,855 0,53 0,256 0,127
29 2,756 2,462 2,045 1,699 1,311 0,854 0,53 0,256 0,127
30 2,75 2,457 2,042 1,697 1,31 0,854 0,53 0,256 0,127
40 2,704 2,423 2,021 1,684 1,303 0,851 0,529 0,255 0,126
60 2,66 2,39 2 1,671 1,296 0,848 0,527 0,254 0,126
120 2,617 2,358 1,98 1,658 1,289 0,845 0,526 0,254 0,126
>120 2.576 2.326 1.960 1.645 1.282 0.842 0.524 0.253 0.126
TEMA VII
Introducci´ on a los contrastes de hip´ otesis
VII.1. Introducci´ on
En el tema anterior, hemos aprendido c´omo estimar, es decir, aproximar el valor
de un par´ametro bas´andonos en las observaciones de una muestra. Hay situaciones
en las que m´as que conocer el valor concreto del par´ametro, queremos tomar una
decisi´on acerca de ´este. Formularemos una hip´otesis sobre el valor del par´ametro y
la contrastaremos con los datos de la muestra para comprobar si ´estos la apoyan o
la desmienten.
Para ilustrar los conceptos relacionados con los contrastes de hip´otesis, retomamos
el ejemplo visto al final del tema 5 cuando describimos la gr´afica de control
¯
X: una
empresa controla la concentraci´on de CaCO3 en su producto. El valor ideal de esta
concentraci´on es 55. Si llamamos X la concentraci´on de CaCO3 medida en un en-
vase, sabemos que es razonable modelizar la distribuci´on de X por una distribuci´on
Normal de media µ y desviaci´on t´ıpica 8. En el tema 5, vimos c´omo la empresa
puede realizar un control de la calidad de su producci´on gracias a una gr´afica
¯
X:
cada hora toma una muestra de 4 envases, mide la concentraci´on de CaCO3 en cada
caso y calcula su media. Bas´andose en este valor decide si el proceso de producci´on
est´a en condiciones de correcto funcionamiento, es decir si µ = 55.
Para decidir si µ = 55 o µ = 55, la empresa se fija una regla: si
¯
X > 60,4
´o
¯
X < 49,6, decide que µ = 55 y para la producci´on para ajustar el proceso de
fabricaci´on.
Este ejemplo contiene todos los ingredientes del contraste de hip´otesis y pasamos
a describirlos en un contexto m´as general.
104 Mathieu Kessler: M´etodos Estad´ısticos
VII.2. Planteamiento general
VII.2.1. Hip´ otesis estad´ıstica
Una hip´otesis estad´ıstica es una proposici´on acerca del valor de un par´ametro
en el modelo considerado. La formulaci´ on de un contraste de hip´otesis pasa siempre
por el planteamiento de dos hip´otesis:

H
0
: µ = 55, Hip´otesis nula
H
1
: µ = 55, Hip´otesis alternativa
Habr´a casos en los que nos interesar´a decidir si el par´ametro es mayor (o menor)
que un valor dado, entonces cambiaremos la formulaci´on de la hip´otesis alternativa,
pero seguiremos, para simplificar, considerando la igualdad en la hip´otesis nula. Por
ejemplo si queremos contrastar si µ es mayor que 55, plantearemos el contraste:

H
0
: µ = 55,
H
1
: µ > 55,
mientras que si queremos decidir si µ es menor que 55, plantearemos

H
0
: µ = 55,
H
1
: µ < 55,
De los tres contrastes, el primero se llama contraste bilateral, puesto que la
hip´otesis alternativa comprende tanto valores mayores como valores menores que
55, mientras que los dos ´ ultimos se llaman contrastes unilaterales.
VII.2.2. Regla de decisi´on
Bas´andonos en un estad´ıstico T(X
1
, . . . , X
n
), es decir en una funci´on de las
observaciones, determinaremos una regi´on de rechazo R. Para mi muestra calcular´e
el valor concreto de T(X
1
, . . . , X
n
); si este valor pertenece a R, rechazaremos H
0
, es
decir afirmaremos que los datos apoyan la hip´otesis alternativa H
1
.
En cambio si el valor de T(X
1
, . . . , X
n
) no pertenece a R, aceptaremos H
0
,
diremos que los datos no presentan argumentos en contra de la hip´otesis nula.
En el ejemplo de los monitores de ordenador, la regla de decisi´on que se hab´ıa
fijado la empresa es: bas´andose en el estad´ıstico T(X
1
, . . . , X
n
) =
¯
X, la regi´on de
rechazo es R = ¦x < 49,6¦ ∪ ¦x > 60,4¦.
VII.2.3. Evaluaci´ on del error
Al tomar la decisi´on acerca de la veracidad de H
0
, podemos cometer dos tipos
de error:
VII.2.3.1. Error de tipo I
Podemos afirmar que H
0
es falsa, cuando en realidad es cierta, es decir que los
datos nos llevan a rechazar H
0
cuando ´esta es cierta. Este tipo de error se llama
error de tipo I, y, una vez fijada una regla de decisi´on, la probabilidad de cometerlo
se denota por α, (la letra griega “alfa”). Tenemos por lo tanto
α = P
H
0
(Rechazar H
0
) = P
H
0
(T(X
1
, . . . , X
n
) ∈ R)),
VII.2 Planteamiento general 105
donde con la notaci´on P
H
0
, nos referimos a la probabilidad suponiendo que H
0
es
cierta.
En el ejemplo de la concentraci´on de CaCO3, podemos calcular la probabilidad
de error de tipo I:
α = P
H
0
(Rechazar H
0
) = P
µ=55
((
¯
X < 49,6) ∪ (
¯
X > 60,4)).
Pero, precisamente, los l´ımites de control en la gr´afica
¯
X se fijaron para que, si la
m´aquina est´a bien ajustada, es decir si µ = 55, s´olo el 3 por 1000 de las muestras
deben llevar a un valor de
¯
X fuera de los l´ımites. Deducimos que α = 0,003.
VII.2.3.2. Error de tipo II
El segundo tipo de error se comete cuando admitimos H
0
cuando en realidad es
falsa. Una vez fijada la regla de decisi´on, la probabilidad de cometer un error de tipo
II se denota por β ( la letra griega “beta”). Tenemos
β = P
H
1
(Aceptar H
0
) = P
H
1
(T(X
1
, . . . , X
n
) / ∈ R).
El c´alculo de β s´olo se puede hacer si especificamos un valor concreto de µ en la
hip´otesis alternativa. Para el ejemplo de la concentraci´on de CaCO3, podemos por
ejemplo calcular β cuando en realidad µ = 65. Tenemos β = P
µ=65
(49,6 ≤
¯
X ≤
60,4), y sabemos que
¯
X ∼ A(µ, σ
2
/n) es decir
¯
X ∼ A(µ, (4)
2
). Tipificamos
¯
X para
calcular β:
β = P
µ=65
(
49,6 −65
4

¯
X −65
4

60,4 −65
4
) · φ(−2,3) −φ(−7,7) · 0,13.
VII.2.4. Procedimiento
Para llevar a cabo un contraste de hip´otesis, tendremos que
Formular las hip´otesis H
0
y H
1
.
Fijarnos la probabilidad de error de tipo I, α. Al igual que para los contrastes
de hip´otesis, los valores de α m´as comunes son 0.05, 0.01 o 0.1. (95 %, 99 % ´o
90 % de confianza respectivamente).
Escogemos el estad´ıstico de prueba T(X
1
, . . . , X
n
) basado generalmente en un
estimador del par´ametro. Describimos su distribuci´on muestral bajo la hip´ote-
sis de que H
0
es cierta.
Determinamos la regi´on de rechazo R de tal manera que la probabilidad de
rechazar H
0
cuando ´esta es cierta coincida con el valor prefijado de α, es decir
P
H
0
(T(X
1
, . . . , X
n
) ∈ R) = α.
Para nuestra muestra, calculamos el valor concreto del estad´ıstico de prueba
T(X
1
, . . . , X
n
). Si este valor cae en la regi´on R, rechazamos H
0
y afirmamos
H
1
, mientras que si no cae en la regi´on R, admitimos H
0
.
106 Mathieu Kessler: M´etodos Estad´ısticos
VII.3. Contraste de hip´ otesis para la media µ de una
distribuci´ on Normal con varianza conocida.
Consideramos una variable X, suponemos que su distribuci´on ha sido modelizada
por una Normal con media µ y varianza σ
2
. Suponemos adem´as que conocemos el
valor de la varianza σ
2
.
Queremos llevar a cabo un contraste sobre µ, para ello, extraeremos una muestra
de tama˜ no n de la distribuci´on de X: X
1
, . . . , X
n
.
VII.3.1. Hip´ otesis bilateral
Para construir el contraste para µ en el caso en que formulamos una hip´otesis al-
ternativa bilateral, ver el apartado VII.2.1, seguimos los pasos descritos en la secci´on
VII.2.4:
Formulamos las hip´otesis:

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
donde µ
0
representa el valor concreto con ´el que queremos comparar µ. En el
ejemplo de los monitores, µ
0
vale 55.
Nos fijamos el valor de α.
El estad´ıstico de prueba es la versi´on tipificada de
¯
X, sabemos por el tema 5
que
Z
0
=
¯
X −µ
0
σ/

n
∼ A(0, 1) si H
0
es cierto.
Podemos ahora especificar la regi´on de rechazo. La probabilidad de que el
estad´ıstico de prueba Z
0
caiga en R cuando H
0
es cierta debe coincidir con el
valor de α que nos hemos fijado. Adem´as queremos que Z
0
caiga en R cuando
µ es distinto de µ
0
( H
1
cierta), es decir que corresponder´a a valores grandes
positivos o negativos de Z
0
. Por consiguiente fijamos la regi´on de rechazo de
la manera siguiente:
VII.3 Contraste de hip´otesis para la media µ de una distribuci´on Normal con
varianza conocida. 107
La regi´on R est´a formada por los valores menores que −z
1−α/2
o mayores que
z
1−α/2
.
Nos queda calcular, para nuestra muestra, el valor concreto del estad´ıstico de
prueba Z
0
. Si pertenece a R, rechazaremos H
0
y afirmaremos H
1
, mientras
que si no pertenece a R, admitiremos H
1
.
VII.3.2. Hip´ otesis unilateral
En el caso en que hemos planteado una hip´otesis unilateral, los pasos que seguimos
son los mismos que en el apartado anterior con la salvedad de la determinaci´on de
R:
Si la hip´otesis alternativa es H
1
: µ > µ
0
, la regi´on de rechazo ser´a
es decir que se rechazar´a H
0
si el valor del estad´ıstico de prueba Z
0
es mayor
de z
1−α/2
.
Si la hip´otesis alternativa es H
1
: µ < µ
0
, la regi´on de rechazo ser´a
es decir que se rechazar´a H
0
si el valor del estad´ıstico de prueba Z
0
es menor
de −z
1−α/2
.
108 Mathieu Kessler: M´etodos Estad´ısticos
VII.3.3. Ejemplos
VII.3.3.1. Hip´otesis alternativa bilateral
En un proceso de producci´on, la longitud de los art´ıculos producidos se modeliza
a trav´es de una distribuci´on Normal con media µ. Por experiencia acerca del proceso,
se cuantifica su desviaci´on t´ıpica en σ = 1. En condiciones de funcionamiento cor-
recto, se espera que la longitud media de los art´ıculos sea 50mm. Para comprobar la
calidad se decide tomar una muestra de 10 art´ıculos que resultan tener una longitud
media
¯
X igual a 51mm. Bas´andonos en esta muestra, ¿qu´e podemos decir acerca del
funcionamiento del proceso?
La variable que introducimos asociada al experimento “producir una pieza”, es
X=”longitud de la pieza producida”. Planteamos las hip´otesis

H
0
: µ = 50,
H
1
: µ = 50.
Decidimos trabajar al 95 % de confianza, que es el nivel est´andar de confianza, es
decir que nos fijamos α = 0,05.
El estad´ıstico de prueba es Z
0
=
¯
X−µ
0
σ/

n
, que sigue una distribuci´on Normal es-
t´andar si H
0
es cierta.
Las fronteras de la regi´on de rechazo son −z
1−α/2
= −z
0,975
= −1,96 y −z
1−α/2
=
1,96.
Bas´andonos en la muestra, calculamos el valor de Z
0
:
Z
0
=
51 −50
1/

10
· 3,162.
Puesto que Z
0
pertenece a R, rechazamos H
0
y afirmamos al 95 % de confianza que
el proceso est´a desajustado.
VII.3.3.2. Hip´otesis alternativa unilateral
Creo que un aparato de medici´on de una se˜ nal sobrevalora su valor real. Para
comprobarlo pienso realizar 5 mediciones de una se˜ nal simple cuyo valor s´e es igual
a 10000. Considerando que la distribuci´on de los valores medidos se puede mod-
elizar por una Normal con desviaci´on t´ıpica igual a 500, llevar a cabo el contraste
para comprobar si el valor central de los valores medidos es superior a 10000, si he
encontrado un valor promedio de 10300 para las 5 mediciones de la muestra.
El experimento aleatorio es “realizar la medici´on de la se˜ nal”, y la v.a X=”valor
proporcionado por el aparato”. Modelizamos X por una distribuci´on A(µ, σ
2
) con
σ = 500.
Planteamos las hip´otesis

H
0
: µ = 10000,
H
1
: µ > 10000,
El estad´ıstico es Z
0
, al igual que en el ejemplo anterior, pero la regi´on de rechazo
est´a constituida por los valores mayores que z
1−α
= z
0,95
= 1,64.
Para mi muestra, el valor de Z
0
es
Z
0
=
10300 −10000
500/

5
· 1,34.
VII.4 Concepto de p-valor 109
Deducimos que Z
0
no pertenece a R, por lo que no podemos rechazar H
0
: los
datos no contradicen H
0
.
VII.4. Concepto de p-valor
En el ejemplo VII.3.3.1, para el contraste

H
0
: µ = 50,
H
1
: µ = 50,
Hemos encontrado que el valor del estad´ıstico de prueba era z
0
= 3,162, y hemos
rechazado al 95 % de confianza la hip´otesis nula.
¿Cu´al habr´ıa sido nuestra decisi´on si, en lugar de habernos fijado el 95 % de
confianza, hubieramos escogido 90 % de confianza?
Por la forma en la que hemos construido la regi´on de rechazo, ´esta contiene el 5 %
del ´area total, y la regi´on de aceptaci´on, es decir el complementario de R, contiene el
95 % del ´area total. Deducimos por lo tanto que la regi´on de rechazo que corresponde
al 90 % de confianza es m´as grande que la regi´on de rechazo que corresponde la 95 %
de confianza. Ser´a m´as f´acil rechazar H
0
al 90 % que al 95 % de confianza.
Esto corresponde a un hecho general: si rechazamos H
0
a un nivel de confianza
dado, tambi´en la rechazaremos para cualquier nivel de confianza menor...
En cambio, si nos preguntamos cu´al habr´ıa sido nuestra decisi´on al 99 % de con-
fianza? La regi´on de rechazo mengua, y para saber si seguimos rechazando H
0
nece-
sitamos comprobar si el valor de nuestro estad´ıstico de prueba sigue encontr´andose
dentro de la nueva regi´on de rechazo. En nuestro ejemplo VII.3.3.1, las fronteras
de la regi´on de rechazo al 99 % de confianza son −z
1−α/2
= −z
0,995
= −2,56 y
z
0,995
= 2,56, puesto que Z
0
toma el valor 3.162, tambi´en rechazamos H
0
al 99 % de
confianza.
Planteado un contraste, y para un valor concreto del estad´ıstico de prueba, pode-
mos preguntarnos cu´al habr´ıa sido la confianza m´axima con la que rechazar´ıamos
H
0
para estos datos. Equivalentemente, podemos calcular el valor m´as peque˜ no de
α que nos lleve a rechazar H
0
.
Definici´on VII.4.1 El valor de α m´as peque˜ no que nos lleve a rechazar H
0
se llama
el p-valor de la prueba, y lo denotaremos por α
0
.
Para determinar α
0
, tendremos que considerar la regi´on de rechazo que haga
de frontera entre las dos decisiones: rechazar H
0
y aceptar H
0
. Si en la gr´afica de
la distribuci´on del estad´ıstico Z
0
, empezamos primero por se˜ nalar el valor de z
0
obtenido para la muestra, esta regi´on de rechazo se obtendr´a al hacer coincidir una
de sus fronteras con z
0
: para una regi´on de rechazo m´as grande (es decir un α m´as
grande) se rechazar´a H
0
mientras que para una regi´on de rechazo m´as peque˜ na (es
decir un α m´as peque˜ no) tendremos que aceptar H
0
. El valor de α correspondiente
a esta regi´on R es α
0
.
Lo ilustramos para el ejemplo en ´el que z
0
= 3,162 en la gr´afica siguiente:
110 Mathieu Kessler: M´etodos Estad´ısticos
−z
0
z
0
Para calcular α
0
, deducimos del dibujo anterior que
α
0
/2 = P(Z ≥ 3,162),
es decir que α
0
= 2(1 −φ(3,162)) · 0,00156..
Deducimos que para el ejemplo, la confianza m´axima con la que podr´ıamos haber
rechazado es
100(1 −α
0
) = 100(0,99844) = 99,84 %.
Este resultado es coherente con las decisiones que hemos tomado al 95 % y al 99 %
de confianza.
Cualquier programa de estad´ıstica que permita llevar a cabo un contraste de
hip´otesis no solicita del usuario que especifique la confianza, sino que directamente
le proporciona el p-valor, dejando en sus manos la decisi´on de rechazar o aceptar
H
0
. En general se suele considerar que un p-valor menor de 0.1 nos lleva a rechazar
H
0
aunque el est´andar corresponder´ıa realmente a un p-valor menor que 0,05. Si el
p-valor es mayor de 0.2, se admite H
0
. Si el p-valor est´a comprendido entre 0.1 y
0.2, no permite concluir de manera muy segura y deber´ıamos intentar colectar m´as
datos.
VII.5. Potencia del test
VII.5.1. Definici´on
Hemos visto que, a la hora de construir un contraste de hip´otesis, lo m´as f´acil es
controlar la probabilidad de error de tipo I, puesto que la regi´on de rechazo se define
para que esta probabilidad coincida con el valor fijado de α. Sin embargo, tambi´en
es importante saber que, si H
0
es falsa, nuestro contraste lo detectar´a con bastante
probabilidad, es decir que nos llevar´a a concluir de manera correcta que H
0
es falsa.
Definici´on VII.5.1 Consideremos H
1
la hip´otesis alternativa, y µ
1
un valor con-
creto de µ incluido en los valores contemplados en H
1
.
La potencia de un test (contraste de hip´ otesis) contra la alternativa µ = µ
1
, es
la probabilidad de rechazar H
0
cuando ´esta es falsa y en realidad µ = µ
1
. Es decir
Pot(µ
1
) = P
µ=µ
1
(Rechazar H
0
).
VII.5 Potencia del test 111
Cuanto mayor ser´a la potencia, mejor ser´a el contraste. Se suele considerar suficiente
una potencia de al menos 0.8
Recordar que el error de tipo II consiste en aceptar H
0
cuando en realidad ´esta
es falsa, la relaci´on entre la probabilidad β de error de tipo II y la potencia es por
lo tanto
β = 1 −Pot(µ
1
).
VII.5.2. C´alculo de la potencia
Queremos plantear un contraste sobre la media, por ejemplo en su versi´on bilat-
eral,

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
,
con un cierto nivel de confianza, y planificamos tomar una muestra de n observa-
ciones.
Para calcular la potencia de este contraste contra la alternativa µ = µ
1
, seguimos
los pasos de la realizaci´on del contraste hasta la definici´on de la regi´on de rechazo
R incluida:
Por ejemplo

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
,
pero podr´ıa ser con hip´otesis alternativa unilateral tambi´en.
Nos fijamos α.
El estad´ıstico de prueba es Z
0
=
¯
X−µ
0
σ/

n
, que sigue una distribuci´on Normal
est´andar si H
0
es cierta.
Construimos la regi´on de rechazo seg´ un el tipo de hip´otesis alternativa que nos
hemos planteado. Por ejemplo si es bilateral, la regi´on es
A partir de aqu´ı, podemos pasar al c´alculo de la potencia: sabemos que
Pot(µ
1
) = P
µ=µ
1
(Rechazar H
0
),
112 Mathieu Kessler: M´etodos Estad´ısticos
es decir que
Pot(µ
1
) = P
µ=µ
1
(Z
0
∈ R). (VII.1)
En el caso de una hip´otesis alternativa bilateral, esta probabilidad es
Pot(µ
1
) = P
µ=µ
1
((Z
0
≤ −z
1−α/2
) ∪ (Z
0
≥ z
1−α/2
)).
Para calcular la potencia necesitamos por lo tanto conocer la distribuci´on de Z
0
cuando H
0
no es cierta, sino µ = µ
1
. Para ello, utilizamos la relaci´on siguiente
Z
0
=
¯
X −µ
0
σ/

n
=
¯
X −µ
1
σ/

n
+
µ
1
−µ
0
σ/

n
.
Si µ = µ
1
, la variable
¯
X−µ
1
σ/

n
sigue una distribuci´on Normal est´andar. Deducimos
por lo tanto que
Si µ = µ
1
, Z
0
∼ A(δ, 1),
donde δ se llama el par´ametro de no-centralidad y se define como
δ =
µ
1
−µ
0
σ/

n
.
´
Esta es la distribuci´on que utilizaremos para calcular la potencia a partir de la
expresi´on en (VII.1). Para ello bastar´a con tipificar la variable Z
0
para expresar
la probabilidad buscada en t´erminos de φ.
VII.5.3. Ejemplo de c´alculo de la potencia
Volvamos al ejemplo del apartado VII.3.3.1, en ´el que estudiamos la longitud
media de los art´ıculos producidos. La v.a introducida es X=”longitud de un art´ıculo
producido” y hemos supuesto que X ∼ A(µ, σ
2
), con σ = 1.
Queremos comprobar que la longitud media de los art´ıculos producidos no es
significativamente distinta de 50mm. Para ello, planificamos llevar a cabo el contraste

H
0
: µ = 50,
H
1
: µ = 50,
,
cogiendo una muestra de 10 piezas, y fijando una confianza del 95 %.
¿Cu´al es la probabilidad de que, si en realidad µ = 50,5, y por lo tanto H
0
es
falsa, el contraste que hemos planeado nos permita detectar que H
0
es falsa, es decir
que nos lleve a rechazar H
0
.
Queremos calcular Pot(50,5). Desarrollamos el contraste hasta la determinaci´on
de R.

H
0
: µ = 50,
H
1
: µ = 50,
Nos fijamos α = 0,05.
El estad´ıstico Z
0
=
¯
X−µ
0
σ/

n
sigue una distribuci´on Normal est´andar si H
0
es
cierta.
VII.6 Inferencia para la media 113
La regi´on de rechazo es R = ¦z : z < −z
1−α/2
o z > z
1−α/2
¦ es decir
R = ¦z : z < −1,96 o z > 1,96¦.
Ahora
Pot(50,5) = P
µ=µ
1
(Z
0
∈ R) = P
µ=µ
1
((Z
0
≤ −1,96) ∪ (Z
0
≥ 1,96)).
Sabemos que, si µ = µ
1
, Z
0
∼ A(δ, 1). Calculemos δ:
δ =
µ
1
−µ
0
σ/

n
=
50,5 −50
1/

10
· 1,58.
Deducimos tipificando que
Pot(50,5) = P
µ=µ
1
(Z
0
≤ −1,96) +P
µ=µ
1
(Z
0
≥ 1,96)
= P
µ=µ
1
(
Z
0
−δ
1

−1,96 −δ
1
) +P
µ=µ
1
(
Z
0
−δ
1

1,96 −δ
1
)
= P(Z ≤ −3,54) +P(Z ≥ 0,38)
= φ(−3,54) + (1 −φ(0,38)) = 1 −φ(3,54) −(1 −φ(0,38)) · 0,35.
Esta potencia es insuficiente, para mejorarla, tendremos que planificar un experi-
mento con m´as observaciones.
VII.5.4. Factores que influyen la potencia
Cuanto mayor sea n, mayor ser´a la potencia.
Cuanto menor sea σ, mayor ser´a la potencia.
Cuanto mayor sea el nivel de confianza, menor ser´a la potencia: si exigimos
m´as confianza, pagamos un precio...
Cuanto m´as diferencia haya entre µ
1
y µ
0
, m´as f´acil ser´a detectar cuando µ no
es igual a µ
0
sino a µ
1
, por lo tanto, mayor ser´a la potencia.
VII.6. Inferencia para la media
En la presentaci´on del contraste de hip´otesis, hemos considerado el caso en que
el modelo es normal con varianza conocida. En el caso m´as realista en que no se
especifica el valor de la varianza como parte del modelo, lo estimaremos a partir de
la muestra. A continuaci´on construimos contrastes de hip´otesis para la media de una
distribuci´on Normal con varianza desconocida.
VII.6.1. Contraste de hip´ otesis para la media µ de una distribuci´ on
Normal con varianza desconocida
VII.6.1.1. Construcci´on
Seguimos los mismos pasos que en el caso en que la varianza es conocida.
114 Mathieu Kessler: M´etodos Estad´ısticos
Planteamos las hip´otesis. Por ejemplo para una hip´otesis alternativa bilateral:

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
donde µ
0
representa el valor concreto con ´el que queremos comparar µ.
Nos fijamos el valor de α.
El estad´ıstico de prueba es
T
0
=
¯
X −µ
0
S/

n
∼ t
n−1
si H
0
es cierto.
Podemos ahora especificar la regi´on de rechazo.
La regi´on R est´a formada por los valores menores que −t
n−1,1−α/2
o mayores
que t
n−1,1−α/2
.
Nos queda calcular, para nuestra muestra, el valor concreto del estad´ıstico de
prueba T
0
. Si pertenece a R, rechazaremos H
0
y afirmaremos H
1
, mientras que
si no pertenece a R, admitiremos H
1
.
En el caso en que la hip´otesis alternativa es unilateral lo ´ unico que cambia es la
regi´on de rechazo:

H
0
: µ = µ
0
,
H
1
: µ < µ
0
,

H
0
: µ = µ
0
,
H
1
: µ > µ
0
,
VII.7 Inferencia para dos medias 115
VII.6.1.2. Ejemplo
Volvamos al ejemplo de las mediciones visto en la secci´on anterior, queremos
contrastar si el centro de los valores proporcionados por el aparato es mayor que
10.2, bas´andonos en las mismas tres mediciones.
Planteamos las hip´otesis

H
0
: µ = 10,2,
H
1
: µ > 10,2,
Nos fijamos α = 0,05, suponiendo que trabajamos con 95 % de confianza. El estad´ıs-
tico de prueba es
T
0
=
¯
X −µ
0
S/

n
∼ t
n−1
si H
0
es cierto.
La regi´on de rechazo es unilateral : R = ¦t : t > t
n−1,1−α
¦, la frontera siendo
t
2,0,95
= 2,92.
Para la muestra escogida, el valor del estad´ıstico de prueba es
t
0
=
¯
X −µ
0
S/

n
=
10,24333 −10,2

0,0002333/

3
· 4,913.
Este valor pertenece a la regi´on de rechazo por lo que deducimos que al 95 % de
confianza rechazamos H
0
.
Notar en particular que deducimos en particular, puesto que hemos rechazado
H
0
al 95 % de confianza, que el p-valor es menor que 0.05. En realidad, al igual que
en el tema 7, caracterizamos el p-valor como
α
0
= P(t > 4,913),
donde t es una distribuci´on t de Student con 2 grados de libertad. Podemos utilizar
una calculadora estad´ıstica para calcular α
0
de manera precisa. Si s´olo tenemos una
tabla a mano, podemos ir probando con distintos niveles de confianza para obtener
cuotas razonablemente precisas de α
0
.
Por ejemplo, de la tabla de los cuantiles de la distribuci´on t que se encuentra
en el ap´endice, deduzco que el valor del estad´ıstico de prueba, T
0
= 4,913 es mayor
que t
2,0,975
pero menor que t
2,0,99
. Deduzco que rechazar´ıa H
0
al 97.5 % de confianza
pero la aceptar´ıa al 99 % de confianza: el p-valor α
0
est´a comprendido entre 0,025 y
0,01.
VII.7. Inferencia para dos medias
Consideramos ahora situaciones en las que modelizamos dos variables X
1
y X
2
y
nos interesa posiblemente comparar sus dos medias, que denotamos respectivamente
por µ
1
y µ
2
.
Extraeremos dos muestras: una correspondiente a la primera variable X
1
y otra
correspondiente a X
2
. Utilizamos la notaci´on siguiente para designar los valores de
estas muestras:
Muestra 1: x
11
, x
12
, . . . , x
1,n
1
Muestra 2: x
11
, x
12
, . . . , x
1,n
1
116 Mathieu Kessler: M´etodos Estad´ısticos
En particular, hemos supuesto que el tama˜ no de la muestra 1 es n
1
, mientras que el
tama˜ no de la muestra 2 es n
2
.
Supondremos que hemos modelizado tanto la distribuci´on de X
1
como la dis-
tribuci´on de X
2
por Normales,
X
1
∼ A(µ
1
, σ
2
1
), X
2
∼ A(µ
2
, σ
2
2
).
VII.7.1. Estad´ısticos muestrales
Al pretender comparar µ
1
y µ
2
, nos basaremos en la cantidad µ
1
− µ
2
. El es-
tad´ıstico que utilizaremos para estimar esta cantidad es X
1
− X
2
, donde X
1
y X
2
denotan la media de la primera y de la segunda muestra respectivamente. Introduci-
mos tambi´en la notaci´on S
2
1
y S
2
2
para designar las varianzas respectivas de las dos
muestras.
Pasamos ahora a presentar distintos estad´ısticos relacionados con X
1
−X
2
entre
los que tendremos que escoger seg´ un la situaci´on de modelizaci´on en la que nos
encontremos: ¿conocemos σ
2
1
y σ
2
2
?, ¿las desconocemos pero las suponemos iguales?
etc...
VII.7.1.1. Caso de varianzas conocidas
Se cumple
X
1
−X
2
−(µ
1
−µ
2
)

σ
2
1
n
1
+
σ
2
2
n
2
∼ A(0, 1).
VII.7.1.2. Caso de varianzas desconocidas
a) Si se suponen las varianzas iguales
Si a la hora de la modelizaci´on hemos supuesto σ
2
1
= σ
2
2
, podemos estimar la
varianza com´ un σ
2
utilizando las dos muestras. Introducimos
S
2
0
=
(n
1
−1)S
2
1
+ (n
2
−1)S
2
2
n
1
+n
2
−2
Utilizaremos la distribuci´on
X
1
−X
2
−(µ
1
−µ
2
)

S
2
0
(
1
n
1
+
1
n
2
)
∼ t
n
1
+n
2
−2
.
b) Si NO se suponen iguales
En este caso, no se conoce de manera exacta la distribuci´on muestral del
estad´ıstico natural
X
1
−X
2
−(µ
1
−µ
2
)

S
2
1
n
1
+
S
2
2
n
2
. Sin embargo, se puede utilizar la aproxi-
maci´on siguiente:
X
1
−X
2
−(µ
1
−µ
2
)

S
2
1
n
1
+
S
2
2
n
2
∼ t
k
, donde k =´ınf(n
1
−1, n
2
−1).
VII.7 Inferencia para dos medias 117
VII.7.2. Intervalos y contrastes
La construcci´on de los intervalos y contrastes para µ
1
− µ
2
se realiza siguiendo
los mismos principios que para el caso de una media s´olo.
Para ilustrar esta construcci´on, nos limitamos por lo tanto a tratar dos ejemplos
extraidos de problemas de examenes
a). Ejemplo I. Dos disciplinas de cola para servicio de CPU han sido propuestas
por dos dise˜ nadores de sistemas operativos. Para compararlas se instalaron en dos
m´aquinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8
tareas aleatoriamente elegidas:
A 2.41 6.50 3.29 1.22 2.59 2.81 5.35 1.78
B 2.30 5.86 3.71 1.10 2.34 2.24 5.00 1.95
Suponiendo que la distribuci´on que sigue cada variable se puede aproximar por
una Normal, calcular el intervalo de confianza para la diferencia entre el tiempo
promedio de espera con la disciplina A y el tiempo promedio de espera con la disci-
plina B.
Soluci´on.Introduzcamos las variables
X
A
: tiempo de espera de una tarea escogida al azar, procesada por la disciplina A
X
B
: tiempo de espera de una tarea escogida al azar, procesada por la disciplina B
La hip´otesis de modelizaci´on sobre las distribuciones de X
A
y X
B
es
X
A
∼ A(µ
A
, σ
2
A
), X
B
∼ A(µ
B
, σ
2
B
).
y que son independientes.
Queremos construir un intervalo de confianza para µ
A
−µ
B
.
Nos fijamos el nivel de riesgo α = 0,05, es decir una confianza de 95 %.
El estad´ıstico de prueba, puesto que desconocemos las dos varianzas de X
A
y
X
B
es el descrito en el apartado VII.7.1.2 b)
X
A
−X
B
−(µ
A
−µ
B
)

S
2
A
n
A
+
S
2
B
n
B
∼ t
k
, donde k =´ınf(n
A
−1, n
B
−1).
Dibujamos una regi´on central con ´area 1−α en la representaci´on de la densidad
del estad´ıstico:
118 Mathieu Kessler: M´etodos Estad´ısticos
−t
k,1−α 2
t
k,1−α 2
Deducimos que
P(−t
k,1−α/2

X
A
−X
B
−(µ
A
−µ
B
)

S
2
A
n
A
+
S
2
B
n
B
≤ t
k,1−α/2
) = 1 −α.
Despejamos µ
A
−µ
B
y obtenemos
µ
A
−µ
B
= X
A
−X
B
±t
k,1−α/2

S
2
A
n
A
+
S
2
B
n
B
.
Por otra parte, calculamos
X
A
= 3,24375 S
2
A
= 3,227
X
B
= 3,0625 S
2
B
= 2,695
Tenemos n
A
= n
B
= 8, y finalmente necesitamos t
k,1−α/2
= t
7,0,975
= 2,365
Al sustituir obtenemos
µ
A
−µ
B
= 0,18125 ±2,0349.
b). Ejemplo II. Una determinada empresa de material fungible puede adquirir
los cartuchos de t´oner de impresora de dos proveedores distintos. Con el fin de
determinar a que proveedor comprar se toma una muestra de tama˜ no 12 de cada uno
de los proveedores obteniendo los siguientes resultados (n´ umero de hojas impresas):
Media muestral varianza muestral
Proveedor A 5459 111736
Proveedor B 5162 145258
Si suponemos que las poblaciones son normales con varianzas iguales:
(a) Construir un intervalo de confianza para la diferencia entre el n´ umero medio
de hojas que imprime el cartucho de cada proveedor. (tomar α = 0,05).
Soluci´on: Introducimos las variables
VII.7 Inferencia para dos medias 119
X
A
: duraci´on de un cartucho de t´oner del proveedor A.
X
B
: duraci´on de un cartucho de t´oner del proveedor B
Del enunciado sabemos que
X
A
∼ A(µ
A
, σ
2
), X
B
∼ A(µ
B
, σ
2
),
es decir que las dos variables son Normales con varianzas desconocidas pero
igules.
Para construir el intervalo de confianza al 95 %, seguimos los mismos pasos
que en el ejemplo anterior, pero ahora el estad´ıstico es
X
A
−X
B
−(µ
A
−µ
B
)

S
2
0
(
1
n
A
+
1
n
B
∼ t
n
A
+n
B
−2
,
con S
2
0
=
(n
A
−1)S
2
A
+(n
B
−1)S
2
B
n
A
+n
B
−2
. Obtenemos por lo tanto que el intervalo de con-
fianza para µ
A
−µ
B
es
µ
A
−µ
B
= X
A
−X
B
±t
n
A
+n
B
−2,1−α/2

S
2
0
(
1
n
A
+
1
n
B
).
Necesitamos calcular S
2
0
:
S
2
0
=
(n
1
−1)S
2
1
+ (n
2
−1)S
2
2
n
1
+n
2
−2
=
(11)111736 + 11 145258
22
· 128497
Deducimos sustituyendo que el intervalo al 95 % de confianza es
µ
A
−µ
B
= 297 ±302,9.
(b) Razonar qu´e tipo de contraste se debe de realizar con el fin de decidir si
la duraci´on media de los cartuchos del proveedor A es mayor que la de los
cartuchos del proveedor B. Realizar este contraste. (tomar α = 0,05).
Soluci´on:Queremos plantear el contraste

H
0
: µ
A
= µ
B
,
H
1
: µ
A
> µ
B
,
es decir

H
0
: µ
A
−µ
B
= 0,
H
1
: µ
A
−µ
B
> 0,
Nos fijamos α = 0,05, el estad´ıstico de contraste es
X
A
−X
B
−(µ
A
−µ
B
)

S
2
0
(
1
n
A
+
1
n
B
,
bajo H
0
, µ
A
−µ
B
= 0, y este estad´ıstico se simplifica:
T
0
=
X
A
−X
B

S
2
0
(
1
n
A
+
1
n
B
∼ t
n
A
+n
B
−2
, si H
0
es cierta.
La regi´on de rechazo es unilateral y es de la forma
120 Mathieu Kessler: M´etodos Estad´ısticos
Su frontera es t
n
A
+n
B
−2,1−α/2
= t
22,0,95
= 1,717.. Nos falta calcular el valor
concreto del estad´ıstico de contraste
T
0
=
X
A
−X
B

S
2
0
(
1
n
A
+
1
n
B
=
5459 −5162

128497(
1
12
+
1
12
)
= 2,0295.
El valor de T
0
no pertenece a la regi´on de rechazo, deducimos que no podemos
rechazar H
0
al 95 % de confianza.
VII.7 Inferencia para dos medias 121
Ap´endice
Distribuci´on t de Student
Valores de los cuantiles de la distribuci´on t de Student con k grados de libertad:
para un 0 ≤ p ≤ 1, el valor t
k,p
satisface P(t ≤ t
k,p
) = p.
k t
k,0,995
t
k,0,99
t
k,0,975
t
k,0,95
t
k,0,90
t
k,0,80
t
k,0,70
t
k,0,60
t
k,0,50
1 63,657 31,821 12,706 6,314 3,078 1,376 0,727 0,325 0,158
2 9,925 6,965 4,303 2,92 1,886 1,061 0,617 0,289 0,142
3 5,841 4,541 3,182 2,353 1,638 0,978 0,584 0,277 0,137
4 4,604 3,747 2,776 2,132 1,533 0,941 0,569 0,271 0,134
5 4,032 3,365 2,571 2,015 1,476 0,92 0,559 0,267 0,132
6 3,707 3,143 2,447 1,943 1,44 0,906 0,553 0,265 0,131
7 3,499 2,998 2,365 1,895 1,415 0,896 0,549 0,263 0,13
8 3,355 2,896 2,306 1,86 1,397 0,889 0,546 0,262 0,13
9 3,25 2,821 2,262 1,833 1,383 0,883 0,543 0,261 0,129
10 3,169 2,764 2,228 1,812 1,372 0,879 0,542 0,26 0,129
11 3,106 2,718 2,201 1,796 1,363 0,876 0,54 0,26 0,129
12 3,055 2,681 2,179 1,782 1,356 0,873 0,539 0,259 0,128
13 3,012 2,65 2,16 1,771 1,35 0,87 0,538 0,259 0,128
14 2,977 2,624 2,145 1,761 1,345 0,868 0,537 0,258 0,128
15 2,947 2,602 2,131 1,753 1,341 0,866 0,536 0,258 0,128
16 2,921 2,583 2,12 1,746 1,337 0,865 0,535 0,258 0,128
17 2,898 2,567 2,11 1,74 1,333 0,863 0,534 0,257 0,128
18 2,878 2,552 2,101 1,734 1,33 0,862 0,534 0,257 0,127
19 2,861 2,539 2,093 1,729 1,328 0,861 0,533 0,257 0,127
20 2,845 2,528 2,086 1,725 1,325 0,86 0,533 0,257 0,127
21 2,831 2,518 2,08 1,721 1,323 0,859 0,532 0,257 0,127
22 2,819 2,508 2,074 1,717 1,321 0,858 0,532 0,256 0,127
23 2,807 2,5 2,069 1,714 1,319 0,858 0,532 0,256 0,127
24 2,797 2,492 2,064 1,711 1,318 0,857 0,531 0,256 0,127
25 2,787 2,485 2,06 1,708 1,316 0,856 0,531 0,256 0,127
26 2,779 2,479 2,056 1,706 1,315 0,856 0,531 0,256 0,127
27 2,771 2,473 2,052 1,703 1,314 0,855 0,531 0,256 0,127
28 2,763 2,467 2,048 1,701 1,313 0,855 0,53 0,256 0,127
29 2,756 2,462 2,045 1,699 1,311 0,854 0,53 0,256 0,127
30 2,75 2,457 2,042 1,697 1,31 0,854 0,53 0,256 0,127
40 2,704 2,423 2,021 1,684 1,303 0,851 0,529 0,255 0,126
60 2,66 2,39 2 1,671 1,296 0,848 0,527 0,254 0,126
120 2,617 2,358 1,98 1,658 1,289 0,845 0,526 0,254 0,126
> 120 2.576 2.326 1.960 1.645 1.282 0.842 0.524 0.253 0.126

Los métodos estadísticos persiguen extraer   de la manera más eficiente  posible   la   información   presente   en   conjuntos   de   datos.     Su   uso   se   ha  generalizado   en   todos   los   campos   de   la   ingeniería   y   son   varias   las  asignaturas   aplicadas   en   las   titulaciones   de   Ingeniero   Industrial   o  Ingeniero   Técnico   Industrial   que   presuponen   por   parte   del   alumno   el  manejo básico de técnicas estadísticas sencillas. Este manual recorre el  camino   desde   la   exploración   previa   de   un   conjunto   de   datos,     la  formulación de un modelo aleatorio para el mecanismo de generación de  éstos, hasta la introducción a las técnicas de inferencia que formalizan el  carácter significativo o no de las conclusiones que se puede extraer de los  datos resultantes de un experimento.  Se ha optado por una presentación intuitiva de los conceptos intentando  en la medida de lo posible relacionarlos con la experiencia práctica o el  sentido común…

Mathieu   Kessler   es   Catedrático   de   Universidad   en   el   área   de  Estadística e Investigación Operativa en el Departamento de Matemática  Aplicada   y   Estadística   de   la   Universidad   Politécnica   de   Cartagena.   Es  doctor en Estadística por la Universidad de Paris VI y autor de numerosas  publicaciones tanto sobre estadística teórica como sobre aplicaciones de la  estadística en revistas internacionales.

Autor: Mathieu Kessler ISBN: 978­84­96997­07­3 D. Legal: MU­1949­2008

es .kessler@upct.M´todos Estad´sticos de la Ingenier´a e ı ı Mathieu Kessler Departamento de Matem´tica Aplicada y Estad´ a ıstica Universidad Polit´cnica de Cartagena e mathieu.

o Quiero dar las gracias aqu´ en primer lugar. e Se pueden destacar tres objetivos para esta asignatura: capacitar al alumno para extraer. Muchos de ellos me han regalado o su atenci´n. permiti´ndole llegar a conclusiones significativas a partir de una muestra.. introducir al alumno en los conceptos de la inferencia estad´ ıstica. por contribuir a crear un ambiente de trabajo agradable y estimulante. y por estar siempre all´ cuando vuelvo a casa. me han hecho disfrutar con mi trabajo. su inter´s. asi como a la Escuela T´cnica Superior e de Ingenieros Industriales de la UPCT por su apoyo en una primera edici´n de este o manual. e incluso mi propia comprensi´n de los conceptos. y por ello. a todos los alumnos que he tenido y ı que. En a u la primera parte. o o e Tambi´n estoy agradecido a mis compa˜eros del ´rea de Estad´ e n a ıstica e I. e finalmente. ı .O y del Departamento de Matem´tica Aplicada y Estad´ a ıstica. e El temario de la asignatura recorre estos objetivos.i Pr´logo o Este manual se ha desarrollado a partir de los apuntes que el autor usa como soporte para sus clases en la asignatura de “M´todos Estad´ e ısticos de la Ingenier´ que ıa” ha impartido en numerosas ocasiones. Quique y David por ser la alegr´ de mis ıa d´ ıas. por sus preguntas y dudas me han obligado a precisar y pulir mis explicaciones. su ilusi´n. se pone especial ´nfasis en el uso intensivo de gr´ficas para la e a exploraci´n de datos.. tanto en la titulaci´n de Ingeniero Industrial o como en la de Ingeniero T´cnico Industrial de varias especialidades. resumir y comunicar informaci´n a partir de o conjuntos de datos experimentales. por su admiraci´n ciega y en absoluto fundamentada en sus conocimientos o estad´ ısticos. escogiendo deliberadamente una presentaci´n intuitiva de los conceptos e intentando en la medida de lo posible o relacionarlos con la experiencia pr´ctica o el sentido com´n de los alumnos. Finalmente dedico este libro a Graci. proporcionarle las herramientas para la construcci´n de modelos para estos o datos a trav´s de variables aleatorias.

. . . . . . II.4. . . . . . . . .5.1. . . . . . . . . . . . . .2. .4. . . . . ıa II. . . . . . . . . . . . . . . . . . . . . . . . .5. . . . . .1 Definici´n para dos sucesos . . .1. . . . . . II. o II. . . . . .4 Medidas num´ricas . . a I. .propiedades. . . . . . . . . . . . . . . . . . .3. II. . . .2 El caso de un espacio muestral finito y la definici´n de Laplace. o II. . . . o . . . . . II. . .1 Planteamiento . .3 Tabaquismo y esperanza de vida . . . . .´ Indice general I Exploraci´n de datos o I.3 Espacio muestral . . . . . . . .4. . . .2 Unos cuantos t´rminos . . II. . .1. . . . . . . . . . . . . .2 Criterio de m´ ınimos cuadrados . . . . . . . . . . . e I. . . . . . . . . . . . . . I. . o II. . . . . . . . . . . .1. . . . .4. . . . . . . . . . . .1 Definici´n . . a o II. . . . . . . . . 1 1 1 2 2 3 8 9 10 11 12 12 13 16 25 25 25 26 26 26 27 27 28 28 29 31 31 32 32 32 32 33 33 33 33 34 34 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . I. . . . . . . . .1 Gr´ficas para variable cualitativa . . . . . . . . . . .3 Casos concretos . . .1 Medidas de centro .1 Definici´n informal de la probabilidad . . . . . . . II. . . . . . . . . . . . . . I. . . o a I. . a II. . . . II. . . . . . . . . . . . . . .1 Eslogan publicitario para la loter´ . . .4 Sucesos independientes . . o II. . . . .3 Propiedad . . . .2 Gr´ficas para una variable cuantitativa . . . . . . . . . . . . . . . . . . . . . .2 Regla del producto. . . . .5.3 La probabilidad condicionada. . . . .5 Ejemplos de probabilidades condicionadas en la vida diaria . . . . . . . . . . .4 Suceso . . . . .5. . .1 Experimento aleatorio .3. . . . . . o I. . . . . . II. . . . . . . . . . . . . .5. . . . . .5 Ajuste por m´ ınimos cuadrados . . II. . . . . . . II. . . . . II Fundamentos de la teor´ de la probabilidad. . .1. . . . . . . . . . . . . . . . . . . o I. . .3. . . .2 Suceso elemental . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a I. . . . . . . .6 F´rmula de la probabilidad total y teorema de Bayes . .3 Tabulaci´n y representaciones gr´ficas . . . .3 Un resumen gr´fico: el diagrama de caja-bigotes a I. . . .1. . . . . . . . . . . . .2 Definici´n para n sucesos . . . ıa II. . . . . . . . . . . . . .2 Medidas de dispersi´n . .1 Introducci´n . . . . . . . . . . . II. . . . . . .4. . . . . . . I. . . . . . . . II. . . . . . . . . . . . .6 Leyes de Morgan . . . . . . . . . . . .3. . . . . .2 Tabaquismo y c´ncer de pulm´n . . . . e I. .2. . . . . .2 Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . .1 Conceptos b´sicos relacionados con un experimento . . . . . . . . . . . . .5. . . . . . o II. . . . . . . . . . . . . . . . . . . . II.5 Diagrama de Venn . . . . . . . . . . . .

. . . . . . . . . . . .4. . . . . . . . . . . .1. . . . o IV. o o III. . . . . a III. .1 V. . .4. . . . . . . . .a . . . . . . . . . . . . . . IV. . . .3 Esperanza condicionada . . . . . . . . . . . . III.2.5 Variables independientes . . . . . . . a III. IV. .1. . . . . .7. . IV. . . . . . .2 Esperanza . . . . .2. . .5. . . . . . . . . . . . . . . . . . . . . .3. . . IV. . . . . . . . . . . . . .2 Funci´n de densidad . . . . . . . . . . . . . . . . . . . . . . IV. . . . . . . IV. . . . . . . .4.3 Variable bidimensional continua . . . . . . . . . . . . . . . . . . . IV. . . . . . . .3 III ´ INDICE GENERAL Condiciones de aplicaci´n . . . IV. . . . . . . . IV. . . . . . . .2 Para una v. . . . III. . . . . . . . . . . . . . . . . . .4 Modelos m´s usados de v. .4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6 Medidas num´ricas para una v. . . . . . . . . o III. .2 C´lculo para el ejemplo de las tres monedas .1 Funci´n puntual de probabilidad conjunta o IV. . . . . . . . .1 Definici´n . . . . . . . . . . . . . . . . . . . IV . . .1 Definici´n . . . . .3 Medidas num´ricas asociadas a una v. . . . IV. . . .5. . . . IV. . . . .2 Esperanza . . . . . .3 Variable aleatoria discreta . . . . . .1 Definici´n . . . . . . . . . .6.3 Propiedades .1 Introducci´n . . . .4 Modelos m´s comunes de v. . III. . . . a III. . . . discretas .2 II. . . . . . . . . . . . . . . . . .1 Concepto de variable aleatoria . . . . . . . . . V Muestreo y distribuciones muestrales V. . . . . . .2.2 Variable bidimensional discreta . . . . . . . . . a IV. . .7 Algunos modelos de v. . . . . . . multidimensional . . . . . . . . .1 Definici´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o III.3. . . . . . . . . . . . . . . . . . . . .2 Funci´n de distribuci´n de una v. . . .a bidimensional discreta . . . . . o . . .1 Modelo multinomial . IV.4. . . . . . . . . o Los resultados . . . . . .2. . . . . e III. . . .6. . . III. . . . . . . . . . . . . . .3. . . . . . . . . . . . .1 Definiciones . . . . . . . .4. .7. . . . . . .2. . .3. . . . . . o III. . . .4 Variable continua . . . . . . . Ejemplo . . . o IV. . . . . . . . . .a. . . . . . . . . . . . .6. . .2 II.a continua . . . . . . o III. . . . . . . . III.6.4. . . . . . . . . . . . . . . . 34 34 35 37 37 37 38 39 39 39 39 40 40 40 41 43 47 47 47 50 52 59 61 61 61 62 63 63 63 65 65 65 66 67 67 67 68 68 68 70 70 70 71 75 75 Variable aleatoria I III. o III. . o IV. . . .a bidimensional continua .6. . . . . . . . . . . . . . . . IV. . . o III. . . . . . . . . . . . . . . . . . . . . .3 Caracter´ ısticas de una variable discreta . . . . . . . .2 Distribuci´n de una variable aleatoria . .2 Propiedades . . . . . . .1 Introducci´n . . . . . . . .2 Funci´n puntual de probabilidad . . . . . . . . . . . . . . . . . .5 Algunas propiedades utiles de la esperanza y la varianza ´ Variable Aleatoria II IV. . . . . . . . . . . . . . .1 Definici´n . . . . . . . .3. . . . . . . . . .2 El modelo Normal multidimensional . .a. . . . . . . . . . . . .1 Funci´n de densidad conjunta .1 II. . . . . . . . . . . . . . .a bidimensional . .3. . . . . e IV. . . . . . . . . . . . . . . . .a continua . . . . . . . . . o III. . . . . . . . . . . . . . . . . . .2 Consecuencias pr´cticas . . . . . . . . . .4 Distribuciones condicionadas .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Ejemplos . . . . . . . . .3 Contraste de hip´tesis para la media µ de una distribuci´n Normal o o con varianza conocida. . . . . .2 V. . . . . Distribuci´n t de Student . . . . . . . . . . .3 M´todos de construcci´n de estimadores .1 Definici´n . . . . . . . . . .5. . VII. . . .5 Potencia del test . . . . VI. . . . o VI. . . . . . . . . . . . . . o La proporci´n muestral . . . . . . . o VI. . .4 Concepto de p-valor . . . . . . . . . . .´ INDICE GENERAL V. . . . . . . . . . . .3. . . . . . . . . . . . . .3. . . . . . . . . . .5. . . . . . . . o VII. . . . . . . . . . . . . . . . . . . . . . . . . VI. . . . . . . . . . .1 Introducci´n . . . . VII. . . . . . . . . . . o n . . . .1 Hip´tesis estad´ o ıstica . . . . .2. . . . . . . . . . . . . . . . . . . . . . . . . .2 Intervalo de confianza para la media µ de Normal con varianza conocida . . . .3 Otra se˜al de alarma . . . . .2 Estimaci´n puntual . . . . . . . . VII. . .3. . . . . . . . . . . . . . . .3.2. . .4 V. . . . . . . . . . . . . . . . . . . . . . o VII. . .2 Hip´tesis unilateral . . . . . . . . . . . . . . . . . . . . .3 Muestra . . . .1 Idea b´sica . . . . . . . . . . . . . .6. VII. . . . . . . . . . . . . . . . . VII. . . . . . . . . . . . . . . o VII. . . . . . . . . . . . . . . . .3.5. . . . . . . .3 Evaluaci´n del error . . . . . . .3 Ejemplo de c´lculo de la potencia . . . . o VII. .2 Propiedades deseables para un estimador . . . . . . . . . . o VI. . . . . . .1 C´lculos exactos para la distribuci´n de p a o ˆ V. . . VII Introducci´n a los contrastes de hip´tesis o o VII. . . . . . . . . . . . . . . . . . .7. . . . . VII. . . una distribuci´n o . . . . . . . . . . . . . . n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7 VI Introducci´n a la teor´ de la estimaci´n o ıa o VI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .4 Determinaci´n del tama˜o muestral . . . .2.1 Definici´n . o VII. . . . . . . . . . . . . . VII. . . . . . . . . . 79 79 79 81 82 82 84 85 85 86 86 87 88 89 89 89 89 90 91 95 95 95 98 99 103 103 104 104 104 104 105 106 106 107 108 109 110 110 111 112 113 113 113 3 V. . . . . a ˆ V. . . . . .1 Hip´tesis bilateral . . . o VI.6 V. a VII. . . . . . . . . . .4 Procedimiento . . . . . . . .3. o ˆ Introducci´n a las gr´ficas de control . . . . . . . . . . a V. . . . . . . . . .2 C´lculo de la potencia . . . . . . . . . . .7. . . . . . . a VII. . . . . . . . . . . . . . . . .2 Regla de decisi´n . . . . . . . . . . . . . . VI.2 Planteamiento general . . . . . . . . . . . . e o VI. . . . . . . . . . . a VI. . . . . . . . . .1 Contraste de hip´tesis para la media µ de una distribuci´n o o Normal con varianza desconocida . ¯ V. . . .2 Distribuci´n aproximada de p . . . . . . . . . . .6. . . . . . . . . . . . . .3 Comentarios importantes . . . VII. .5 V. . . V. . . . . . . . .4 Factores que influyen la potencia . . . . . . .7. . . . . . . . . . . . . . . . . . . . . . . . . .1 Introducci´n . . . . . . . o V. . .2. . . o VII. . . . . . . . . . . . . . . . . . . . . .6. . . . . . . . . . . .3. .1 Esperanza y varianza de X .3 Estimaci´n por intervalos . .3. .2. . . . . . . La media muestral .2 Gr´fica de control p . . . . . . . . .6 Inferencia para la media . . . . . . . . . . . . . . . . . .2. . . . . . .2 Distribuci´n de la media muestral . . . . . . . . . o La varianza muestral . . . . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . . . .5. . . . . . . . o a ¯ V. . . . . . . . VII. . . . .1 Gr´fica de control X. .

. . . . . . . . . .7 Inferencia para dos medias . . . . .4 ´ INDICE GENERAL VII. . . . . . . 115 VII. . .1 Estad´ ısticos muestrales . . . . . . 117 . . . . . 116 VII. . .2 Intervalos y contrastes . . . . . . . .7. . . . . . . . . . . . . . . . . . . . . .7. .

1. Unos cuantos t´rminos e Un conjunto de datos describe individuos. o variu . distinguiremos entre variable cuantitativa . Introducci´n o La estad´ ıstica utiliza datos para conseguir comprensi´n sobre un fen´meno. asociados a esta clase. pero a la vez es m´s dif´ su extracci´n. En esta o a asignatura. I. esta comprensi´n es una consecuencia de la combinaci´n entre conocimieno o tos previos sobre el fen´meno y nuestra capacidad para utilizar gr´ficos y c´lculos o a a para extraer informaci´n de los datos. a e Para tener las ideas claras. Aun cuando el conjunto de datos presenta varias variables. se debe empezar por el estudio individual de cada una. Un efecto contradictorio aparece: por u una parte.TEMA I Exploraci´n de datos o I. Por ejemplo. Consideramos variables asociadas a este conjunto de datos. B´sio o a camente. unos cuantos gr´ficos pueden proporcionarnos ina formaci´n m´s valiosa que procedimientos sofisticados que no dominamos. m´s informaci´n podemos extraer sobre las variables a a o de inter´s. que asocia un n´mero a cada individuo. cuanto m´s datos.2. o En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran n´mero de variables. podemos considerar que e los individuos son los alumnos. veremos en temas posteriores m´todos m´s sofisticados de an´lisis pero e a a dedicamos ahora un cap´ ıtulo a recordar las t´cnicas elementales con el objetivo de e fomentar reacciones sanas frente a un conjunto de datos. que se realiza a trav´s de representaciones gr´ficas y del o e a c´lculo de unas cuantas medidas num´ricas bien escogidas. que pueden ser personas pero tambi´n objetos. e a ıcil o En este contexto aparece una primera etapa fundamental frente a un conjunto de datos: la exploraci´n.

El sexo o el grupo sangu´ ıneo son en cambio variables cualitativas.2.2 Mathieu Kessler: M´todos Estad´ e ısticos able cualitativa . una de las caracter´ ısticas interesantes de un conjunto de datos consiste en determinar si presenta mucha o poca variabilidad. absoluta 51 19 5 70 Frec. representamos en el eje vertical su frecuencia absoluta o relativa. tambi´n podemos utilizar e el diagrama de sectores. variables cuantitativas asociadas a la clase: peso. Diagrama de barras Para cada valor que toma la variable en el conjunto y que indicamos en el eje horizontal. o En particular. relativa 51/145=0. Describir la o distribuci´n de X corresponde a establecer la lista de los valores que toma X o junto con la frecuencia con la que toma cada valor. Gr´ficas para variable cualitativa a Para un conjunto de datos descritos por una variable cualitativa. En el caso del ejemplo I. Ejemplo I.3.35 0.1 Consideremos por ejemplo la distribuci´n del grupo sangu´ o ıneo en una clase presentada en la tabla siguiente: Grupo A B O AB Frec. altura o edad.3.49 ¿Qu´ representa la suma de la segunda columna (Frec. absoluta)? ¿Cuanto vale la e suma de la tercera columna? I.03 0.3. I.1.3.1.. Cabe destacar que se suelen ordenar los valores de la variable por orden decreciente de frecuencias.2. donde cada valor ocupa un sector circular cuya ´rea es a proporcional a su frecuencia. podemos realizar dos tipos de gr´ficas: a I. . Hablaremos de frecuencia absoluta de un valor para denotar el n´mero de veces que aparece este valor u en el conjunto de datos.2. mientras que la frecuencia relativa corresponde a la proporci´n (o el porcentaje) de veces que aparece este valor.1. I. Tabulaci´n y representaciones gr´ficas o a Las representaciones gr´ficas son una herramienta fundamental para extraer ina formaci´n de forma visual de un conjunto de datos. Un concepto fundamental que utilizaremos con frecuencia corresponde a la distribuci´n de una variable X asociada a un conjunto de datos. en forma de una barra.1.1. obtenemos el diagrama de barra de la figura I.13 0. que coloca cada individuo en una categor´ Ejemplos de ıa. Pueden ser mucho m´s utiles o a ´ que procedimientos sofisticados que uno no domina. Diagrama de sectores Si el conjunto no presenta demasiados valores distintos.1..

B.I.2. A.3 Tabulaci´n y representaciones gr´ficas o a 3 0 20 40 60 80 AB A B O Figura I. es decir 145 a u individuos. consideremos mediciones del contenido en nitrato de una muestra de agua: Valor 0. frecuencias absolutas.1: Diagrama de barras. El diagrama de sectores correspondiente se a representa en la figura I. el valor A ocupar´ 126o . es decir donde los datos est´n agrupados.51 Frecuencia 8 10 5 8 Tambi´n se puede representar gr´ficamente mediante un diagrama de barras esta e a distribuci´n de frecuencias.2.51 0. Para el ejemplo I. Asimismo. calculemos el ´ngulo que ocupar´ el sector para cada uno a a de los valores AB. Gr´ficas para una variable cuantitativa a Nos centramos ahora en variables cuantitativas. a Para datos agrupados. a donde cada fila representa un individuo.50 0. I.47 0.45 0.1.2.2.1 del grupo sangu´ ıneo. para el ejemplo I. el valor B 48o . Por una regla de tres. O.3.48 Frecuencia 1 2 4 8 Valor 0. deducimos que si el c´ ırculo entero (360 grados) representar´ el n´mero total de datos en el conjunto. indicando en el eje Ox los valores que puede tomar la o . o bien en forma ya tabulada. el valor AB con una frecuencia de 70 individuos deber´ ocupar un sector a o . Los conjuntos que examinaremos se presentar´n o bien en forma bruta: un fichero con una columna para cada variable. mientras de 70/145 × 360 = 174 a que el valor O ocupar´ solamente 12o .49 0.46 0.

47 0.51 0. o Frecuencias 2 0.3: Diagrama de barras para las concentraciones de nitrato En el caso en que el conjunto presente muchas valores pr´ximos pero distintos.4 Mathieu Kessler: M´todos Estad´ e ısticos AB O B A Figura I.52 Mediciones de nitrato Figura I.3.48 0.50 0.49 0.2.1 del grupo sangu´ ıneo.46 0.45 4 6 8 10 0. o .2: Diagrama de sectores para el ejemplo I. variable y en el eje Oy sus frecuencias. ver figura I. Obtenemos as´ un diagrama de barras en el ı ejemplo de las mediciones de la concentraci´n en nitrato.

A continuaci´n podemos realizar el recuento de o las frecuencias de cada clase.3. Tabla de frecuencias y histograma En el caso en que el conjunto presente muchas valores pr´ximos pero distintos. 30. 20. 24. 27. 33. 23. 28. -44. Las mediciones recogidas a continuaci´n corresponden a los tiempos o codificados que tard´ un rayo de luz en recorrer el camino de ida y vuelta desde el o laboratorio de Simon Newcomb situado en el R´ Potomac hasta un espejo situaıo do en la base del “Washington Monument”. 26.es/∼mathieu). W. 19. Newcomb fue el primero en conseguir ¡en 1882! una estimaci´n bastante precisa de la velocio dad de la luz. 31. dividimos el rango de los valores en clases de igual amplitud. 25.. o empezamos por agrupar los datos por clases: ordenamos los datos por orden creciente. 1 . el resultado es imprevisible. 26. los datos ordenados se presentan como: Fuente: Moore. 29. 16. 27.I. es e util establecer la tabla de frecuencias y visualizar el conjunto a trav´s de un ´ e histograma. 25. 36. 21. 32.3. and McCabe. 28. tal como lo vemos en la secci´n siguiente. o a 2. 36. (1989). Para obtener los tiempos en nano segundos (10−9 s) no codificados. Introduction to the Practice of Statistics. 26. 27.upct. 37. pero para asegurarnos de que ´sta es representativa del conjunto. 22. 32. 33. hay que a˜adir 24800 n a cada dato. Para le ejemplo de las mediciones de Newcomb. 34. 24. 32. David S. 27. George P.dmae. 36. ¿Cu´ntas clases escoger?La elecci´n del n´mero de clases es una problema que a o u no admite una soluci´n perfecta que sirva para todos los conjuntos de datos. 39.3 Tabulaci´n y representaciones gr´ficas o a agrupamos los datos por clases. 28. tal como lo veremos en los apartados siguientes. 29. H. o I. 21.2. 29. 30. 25. 36. en total una distancia de 7400m. ¿Por qu´ Newcomb repiti´ tantas veces las mediciones. NY. 22.2. 27. 25. 23.. 27. -2. 28. Se suele escoger la media. 24. 24.1. 23 Al observar estos datos. 24. I. pp 3-16. 28. 32. 26. y colocamos cada dato en la clase que le toca.1 Tiempos codificados: 28. 25... 16. podemos realizar dos comentarios: 1. 29. 31. 28. 29. Freeman and Company: New York. Una o regla aproximada llamada regla de Sturges consiste en escoger 1 + log2 (n) clases para un conjunto con n datos. y no se limit´ a realizar e o o el experimento una vez? Porque los datos resultados del experimento presentan una cierta variabilidad: por mucho que haya intentado controlar las condiciones experimentales para mantenerlas constantes. 26. ¿cu´l es el valor que e a podr´ ıamos tomar como la velocidad de la luz? Debemos encontrar un valor que sea representativo de las 66 mediciones realizadas. 40. ¿Qu´ hacer con estos datos? A la vista de estos datos. Ejemplo: mediciones de la velocidad de la luz 5 Consideramos para ilustrar los conceptos que introduciremos en el resto del tema el conjunto de datos de Newcomb (http://www. La medici´n est´ siempre perturbada por un “ruido” incontrolable.2. 32. 30.

La tabla completa de frecuencias tal como nos la suele presentar un programa de estad´ ıstica incluye las frecuencias absolutas y relativas as´ como las frecuencias ı acumuladas absolutas y relativas.3.3. −35] ] − 35. −40] ] − 40.4. el diagrama resultante se llama histograma. aparece el histograma para las mediciones de Newcomb.6 Pos Dato Pos Dato Pos Dato Pos Dato Pos Dato 1 -44 16 24 31 27 46 29 61 36 2 -2 17 24 32 27 47 30 62 36 3 16 18 24 33 27 48 30 63 36 4 16 19 25 34 27 49 30 64 37 5 19 20 25 35 28 50 31 65 39 Mathieu Kessler: M´todos Estad´ e ısticos 6 20 21 25 36 28 51 31 66 40 7 21 22 25 37 28 52 32 8 21 23 25 38 28 53 32 9 22 24 26 39 28 54 32 10 22 25 26 40 28 55 32 11 23 26 26 41 28 56 32 12 23 27 26 42 29 57 33 13 23 28 26 43 29 58 33 14 24 29 27 44 29 59 34 15 24 30 27 45 29 60 36 Utilizamos por ejemplo clases de amplitud 5 empezando en -45 y acabando en 40. −15] Frecuencia 1 0 0 0 0 0 Clase ] − 15. la tabla completa se puede ver en la Tabla I. indicamos tambi´n las frecuencias acumuladas de cada clase: la frecuencia absoluta e (relativa) acumulada de una clase es el n´mero (proporci´n) de datos que pertenecen u o a esta clase o a alguna clase anterior. 15] Frecuencia 0 0 1 0 0 0 Clase ]15. −25] ] − 25. En el eje Ox aparecen las clases y en el eje Oy las a frecuencias. y las mediciones van ıa a sobrevalorando e infravalorando de manera sim´trica este valor. 35] ]35. 5] ]5. ¿ Es el histograma sim´trico? Es decir. Se pueden representar histogramas de frecuencias absolutas. relativas. los valores se van repartiendo de manera aproximadamente sim´trica? e Esta es la situaci´n cl´sica para un conjunto de mediciones: el valor central o a ser´ lo m´s representativo de lo que intentamos medir. para resumir las caracter´ ısticas de la distribuci´n. Al examinarlos hay que que intentar contestar a las siguientes preguntas. respecto e al cual. 25] ]25. Para el ejemplo de las mediciones de Newcomb. absolutas acumuladas o relativas acumuladas. En la figura I. 10] ]10. −20] ] − 20. 40] Frecuencia 4 17 26 10 7 Cuando establecemos la tabla de frecuencias de una variable cuantitativa. 20] ]20. por ser muy diferentes . −10] ] − 10. a Por otra parte.2. y realizamos el recuento de las frecuencias de cada clase: Clase ] − 45. ¿aparece un punto central. C´mo interpretar un histograma o Las representaciones gr´ficas describen la distribuci´n de la variable en el cona o junto. I. −5] ] − 5.1 m´s abajo. los datos tabulados se examinan con m´s comodidad a trav´s a e de representaciones gr´ficas. −30] ] − 30. Si no conside eramos los valores -44 y -2 en el conjunto de Newcomb. 30] ]30. 0] ]0. o 1.

0 0 0. −35] ] − 35. e 2.3 7 10.3 10 15.0 0 0.5 0 0. 0] ]0.5 1 1.5 1 1.0 0 0.0 0 0.0 1 1.7 66 100. −10] ] − 10.0 Frec.5 1 1. −25] ] − 25. −20] ] − 20. 30] ]30. 5] ]5. 40 30 Frecuencias 20 10 0 −40 −20 0 20 40 Mediciones Figura I. 35] ]35.0 0 0.7 49 74 59 89.4: Histograma para las mediciones de Newcomb del resto del conjunto.5 1 1.0 4 6 17 25.5 1 1.1: Tabla de frecuencias. −40] ] − 40. 40] TOTAL Frecuencias Absolutas Relativas( %) 1 1. −5] ] − 5. ¿Posee la distribuci´n colas largas? o .0 0 0.5 1 1. 10] ]10.0 0 0. podemos decir que la distribuci´n de las mediciones es o aproximadamente sim´trica.I. 15] ]15.5 0 0. −30] ] − 30. 20] ]20. −15] ] − 15.0 6 9 23 34.0 2 3.7 26 39.5 1 1. Acumuladas Absolutas Relativas( %) 1 1.0 2 3.0 0 0.5 2 3.0 2 3. mediciones de Newcomb.3 66 100 7 Tabla I.3 Tabulaci´n y representaciones gr´ficas o a Clase ] − 45. 25] ]25.

5 20 10 0 0 10 20 30 0 2 4 x00 6 8 10 Cola larga a la derecha 30 60 70 Histograma bimodal Frec. 40 40 Histograma asimétrico 30 Frec. Medidas num´ricas e Para variables cuantitativas. ¿Posee el histograma un m´ximo claro unico? En este caso hablamos de hisa ´ tograma unimodal. simétrico.0 x1 3. a Podremos entonces decidir corregirlos u omitirlos del estudio.5 4. Al detectar a datos at´ ıpicos. ¿Presentan los datos mucha dispersi´n?. 4. 20 Frec. dos datos aparecen claramente at´ ıpicos: 44 y -2.8 Mathieu Kessler: M´todos Estad´ e ısticos 3.. mientras que las 64 mediciones restantes est´n entre 15 y 40. Frec. a y buscar si est´n asociados a unas circunstancias experimentales especiales.0 2. Existen medidas num´ricas para contestar a cada pregunta e . con colas cortas. Histograma aprox. unimodal. presentamos varios patrones de histogramas.4. el hecho de que los datos est´n concentrados revela que se consigui´ una buena regularidad en el e o proceso de medici´n. o En la figura I. debemos comprobar que no se deban a errores tipogr´ficos. 1.5: Distintos patrones de histogramas. 0 5 x0 10 15 0 10 20 30 0 10 40 50 2 3 4 x12 5 6 7 Figura I. En el caso de mediciones. lo que se traduce en la forma puntio aguda o chata del histograma. 5.. ¿Donde localizamos el centro aproximado de los datos? 6.0 4. ¿Aparecen datos at´ ıpicos?.5 3. es decir datos que se alejan del patr´n global de los o datos. I. se suele acompa˜ar las representaciones gr´ficas de n a las distribuciones con medidas num´ricas que proporcionen un resumen de sus care acter´ ısticas principales.5. Para el conjunto de Newcomb.5 2.

que tomamos por convenci´n o o 2 y el dato no 3. . es decir las que o proporcionen una respuesta a las preguntas 5 y 6. Nos limitaremos a las medidas de centro y de dispersi´n. .1. .5. . 23: la mediana es el dato ordenado no 2.4. nm .2. 11. (n1 + . n En el caso en que los datos ya est´n tabulados y tenemos los valores distintos a x1 . ¿cu´ntos individuos tenemos en el conjunto? a Nota: Representa el centro de gravedad de los datos..I. x1 . I.. y es igual a 134.4.4 Medidas num´ricas e (y alguna m´s. La media: Si x1 . Ejemplo: 125.) planteadas en el apartado anterior a la hora de examinar el hisa tograma. 129. deducimos que la media es muy sensible a datos at´ ıpicos en el conjunto de datos: si a˜ado un dato (peso) alejado del centro de gravedad. o e . . . 20. .. xm junto con sus frecuencias n1 . 134. En este caso. o e Para calcular la mediana de un conjunto de n datos. 9 I. Si la distribuci´n es sim´trica.1.1. 15. se puede considerar el ejemplo anterior donde se sustituye el valor 23 por 1000. Por lo tanto. .5. se considera tambi´n la mediana: e I. . Es una medida de centralizaci´n m´s adecuada que la media en el caso o a en que la distribuci´n de los datos es asim´trica ( lo que se ve en el histograma) o si o e hay datos at´ ıpicos. la mediana es igual al punto medio entre el dato n igual a 17. La mediana no cambia. ..1. 200. xn son los datos. . .. es decir que si a cada dato le damos un peso unidad. la mediana es m´s representativa del centro del conjunto a si hay alg´n dato at´ u ıpico o si la distribuci´n es algo asim´trica. sabemos todos que la media es x= ¯ x1 + · · · + xn . x2 . 185. Medidas de centro Buscamos ahora medidas num´ricas que sean representativas del centro del cone junto de dato. La mediana no es sensible a datos at´ ıpicos. La mediana: La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 % a su derecha.. e Para paliar estos inconvenientes. para convencerse de ello. La mediana es el dato ordenado no (n + 1)/2. la media y la mediana coinciden.. . + nm ) En este caso. . . empiezo por ordenar los datos por orden creciente. En particular. La mediana es el dato ordenado no 3..4. deberemos tener en cuenta estas frecuencias para el c´lculo de la media: a x= ¯ n1 x1 + · · · + nm xm . el punto de n equilibrio debe desplazarse mucho hacia ´ste para que se mantenga el equilibrio. la media representa el punto en el que el conjunto est´ en a equilibrio. . . xn . .

Para calcular los cuartiles. Medidas de dispersi´n o La desviaci´n t´ o ıpica Mide lo lejos que est´n situados los datos respecto de su centro de gravedad.52 + 82 )/4 = 38. que calculo como x = (4 + 5. la desviaci´n t´ o ıpica es representativa de la dispersi´n del conjunto de o datos solo si la media es representativa de su centro. empezamos por calcular la mediana M e de los datos.2. mientras que (¯)2 representa el cuadrado del valor de la media.2) donde x2 representa la media de los datos que hemos previamente elevado al cuadrado. m´s o a e a dispersos est´n los datos. mientras que el tercer cuartil Q3 deja el 75 % de los datos ordenados a su izquierda. 6.1. Es bueno ser consciente de que la desviaci´n t´ o ıpica. y el otro 75 % a su derecha.2.5 × RIC. calculamos el rango intercuart´ a ılico RIC como la diferencia entre Q3 y Q1 . La desviaci´n t´ o ıpica s es la ra´ cuadrada de s2 . y por ¯ ¯ 2 que calculo como x2 = (42 + 5. n−1 (I.5 + 6. Como ejemplo.52 + 6. x supongamos que quiero calcular la varianza de los datos siguientes 4. al igual que la media. El RIC tambi´n se utiliza para detectar datos at´ e ıpicos: Regla: Se consideran como at´ ıpicos los datos que son menores de Q1 − 1. 8.4.2.125.4.1) que representa aproximadamente el promedio de las distancias al cuadrado entre los datos y su media. I.2. El primer cuartil es la mediana del grupo de datos que queda a la izquierda de M e (M e excluida). es el rango intercuart´ ılico. El primer cuartil Q1 deja n el 25 % de los datos ordenados a su izquierda.5 × RIC. mientras que la varianza en (unidades)2 .5. Por ello. Q3 ) nos proporciona informaci´n o sobre la dispersi´n presente en los datos: cuanto m´s alejados est´n los cuartiles. 5.125 − (6)2 ] = 2. otra parte x deduzco 4 s2 = [38. Definimos de la misma manera los cuartiles como los puntos que n separan el conjunto en cuatro partes de mismo tama˜o. . n−1 (I.4. ız Para calcularla en la pr´ctica se suele preferir la f´rmula siguiente a o s2 = n x (x2 − (¯)2 ).8333. y el otro 25 % a su derecha. El rango intercuart´ ılico (RIC) Hemos definido la mediana como el punto que separa el conjunto en dos partes de mismo tama˜o.10 Mathieu Kessler: M´todos Estad´ e ısticos I. Por lo tanto. o mayores de Q3 + 1. 3 Naturalmente. la a media. I.5. Por lo tanto el par (Q1 . Necesito por una parte x. Una medida alternativa de dispersi´n que puede ser m´s representativa en el caso o a en que la distribuci´n es asim´trica o en presencia de datos at´ o e ıpicos.5 + 8)/4 = 6. Empezamos por definir la varianza: s2 = (x1 − x)2 + · · · + (xn − x)2 ¯ ¯ . se expresa en las mismas unidades que los datos. mientras que el tercer cuartil se calcula como la mediana del grupo que queda a su derecha (M e excluida).

7 Comentarios: No hay datos at´ ıpicos. Para realizarlo se necesita calcular la mediana. para el bigote superior.5 × RIC para el bigote inferior. la tendencia central.3. Un resumen gr´fico: el diagrama de caja-bigotes a El diagrama de caja-bigotes es un resumen gr´fico que permite visualizar. Ejemplo La puntuaci´n de los equipos de la liga espa˜ola al final de las temporadas 01/02 o n y 02/03 en primera divisi´n se pueden comparar con un diagrama caja-bigotes.6: Componentes del diagrama caja-bigotes Los segmentos 1.5 × RIC. La mayor utilidad de los diagramas caja-bigotes es para comparar dos o m´s a conjuntos de datos. como o aparece en la figura I. y el tercer cuartil de los datos: El diagrama de caja-bigotes presenta de manera gr´fica estas informaciones. ´ Los equipos del tercer cuarto de la clasificaci´n est´n muy apelotonados en la liga o a 02/03.4 Medidas num´ricas e 11 I. y el dato inmediatamente inferior a Q3 + 1. es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos.I. para a un conjunto de datos. . tal a como est´ recogida en la figura I. el primer cuartil.4. a 12 q Dato atpico 11 Bigote Q3 10 Me Q1 9 q q 8 Figura I. la dispersi´n y la presencia posible de o datos at´ ıpicos. Hay m´s diferencia de a puntos entre el primer y el ultimo clasificado para la liga 02/03 que en la liga anterior.6.5 RIC (llamados bigotes) se recortan hasta : el dato del conjunto inmediatamente superior a Q1 − 1.

Wiley & Sons New-York. I. ıas.8 Estudio de la resistencia del cemento en funci´n del tiempo de fraguado en o d´ Fuente: Hald. n Por otra parte. temporadas 01/02 y 02/03 o o I.5. Nos centraremos aqu´ en el caso ı en que distinguimos una variable llamada “respuesta”. n deducir´ que en promedio. o o ´ Hay dos utilidades principales al disponer de un modelo: podemos primero explicar la manera en la que cambios en los valores de una variable explicativa induce cambios en el valor de la variable respuesta. Por ejemplo. Ajuste por m´ ınimos cuadrados Planteamiento Es muy normal considerar m´s de una variable asociada a un experimento.5. p´g 541. En a este caso.1. cuya amplitud depende de los valores de otras variables llamadas “explicativas”. y aprenderemos c´mo deducir un o modelo para la evoluci´n de la primera en funci´n de estas ultimas. si pienso que la temperatura media Y en agosto en San Javier evoluciona en funci´n del a˜o seg´n el o n u modelo: T emperatura = −582. me permite tambi´n realizar predicciones del valor que tomar´ para valores e a de las explicativas que no hemos observado. Acabamos esta secci´n de presentaci´n con cuatro ejemplos con datos reales o o tomados de campos diferentes. (1952) Statistical theory for engineering applications. si dispongo de un modelo para la evoluci´n de la variable reo spuesta. Las nubes de puntos correspondientes est´n presena tadas en la figura I.31a˜ o. . m´s que la distribuci´n de cada variable por separado.7: Comparaci´n puntuaci´n final. A. nos puede interesar a o en particular las relaciones que existan entre ellas. la temperatura media en agosto aumenta de 0.5 + 0.3 grados e cada a˜o. ¿C´mo evoluciona la resistencia de piezas de a o cemento en funci´n del tiempo de fraguado? ¿Cu´nto tiempo hay que esperar o a para conseguir el 90 % de la resistencia m´xima? Este es el tipo de preguntas a a las que podemos contestar con el estudio de este conjunto de datos.12 Mathieu Kessler: M´todos Estad´ e ısticos 40 50 60 70 102 203 Figura I.

Los datos recogidos incluyen distanıa cias en megaparsecs (1 megaparsec= 3.cmu.edu/DASL. Evoluci´n de la producci´n mundial de petr´leo desde 1880. Fuente: Data and o o o Stories Library http://lib. haciendo a a n a temer por la conservaci´n de la ciudad y de sus monumentos. Fuente: Data and Stories Library. R.5. Journal of Hydrology. parece n que el nivel m´ximo al que llega el mar est´ cada a˜o m´s alto. http://lib. Sin embargo.I.stat.5 Ajuste por m´ ınimos cuadrados Todos los a˜os Venecia se inunda durante las “acqua alta”.L (1986) “Extreme value theory based on the r largest annual events”. e o a o n Fuente: Smith. Criterio de m´ ınimos cuadrados Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta que llamaremos Y y una variable explicativa que llamaremos X. 13 Figura I. Es por lo tanto o de inter´s estudiar la evoluci´n del nivel m´ximo del mar en funci´n del a˜o. Los datos se presenta en forma de pares: .26 a˜os luz) y velocidad de recesi´n en n o km/s.8: Cuatro ejemplos de conjuntos de datos I.stat.cmu.2. 86. Edwin Hubble investig´ la relaci´n entre la distancia de una galaxia o o a la tierra y la velocidad con la que est´ alej´ndose.edu/DASL/. En 1929. En efecto se piensa que a a las galaxias se alejan como consecuencia del “Big Bang”. Hubble pens´ que o disponiendo de un modelo que relacionara la velocidad de recesi´n con la diso tancia a la tierra proporcionar´ informaci´n sobre la formaci´n del universo ıa o o y sobre lo que podr´ pasar en el futuro.

. Buscar la funci´n de la familia que mejor se ajusta a o ˆ a la nube de puntos es equivalente a encontrar el valor θ de θ. escogemos una familia param´trica de funciones o e x → f (θ. En una formulaci´n general. yi ). El criterio que seguimos en este tema es el de m´ ınimos cuadrados. en el que representamos los pares (xi . debemos encontrar los valores de la pendiente b y de la ordenada en el origen a. .9 Y 1. decidimos ajustar a ´sta una curva de una determinada forma e funcional: podr´ ser por ejemplo una recta. en unos o ejes Ox. n. tambi´n llamadas par´metros.14 X Y x1 y1 Mathieu Kessler: M´todos Estad´ e ısticos x2 y2 ··· ··· xn yn es decir que. cuyo valor tenemos que ajustar o e a para obtener el “mejor” ajuste posible: en el caso de la recta. i = 1. ver figura I. Para visualizar el conjunto recurrimos a la nube de puntos. .0 (x3. que corresponde a esta funci´n.y2) 1. x) θ = (θ1 . · · · .9: Ejemplo de nube de puntos Por conocimientos previos sobre el fen´meno que estudiamos o por la propia o nube de puntos. debemos fijarnos un criterio o que nos permita decidir que una funci´n de la familia se ajusta mejor a la nube de o puntos que otra. o Debemos ahora dar sentido a la noci´n de “mejor”. tambi´n llamada diagrae ma de dispersi´n.y1) 0 1 2 X 3 4 Figura I.0 (x2. Oy.5 2.5 (x1.5 3. . o una par´bola ıa o a Y = a0 + a1 X + a2 X 2 . θk ). (I. La forma de la curva est´ fijada pero intervienen en la a ecuaci´n constantes. para varios valores X observamos los valores correspondientes de Y . .y3) 0. de ecuaci´n Y = aX + b.3) donde θ es el vector de par´metros.0 2.

x2 ))2 + · · · + (yn − f (θ. x) x3 X Figura I. Supongamos que hemos ajustado la curva. Tenemos e i = yi − yi . es decir que hemos encontrado el valor ˆ θ de θ que minimiza la suma de cuadrados. . yn = f (θ. x) se llama la curva ajustada. . x3) (x3. ˆ ˆ es decir los valores y1 = f (θ. x3 ). . . Nos centraremos en este tema en el caso en que la forma param´trica de e e ˆ f es particularmente simple y permite el c´lculo expl´ a ıcito de θ. . ˆ i = 1.y3) Y y=f(θ. en muchos casos. . introduzcamos unos cuantos t´rminos: e ˆ La curva de ecuaci´n y = f (θ. . xn ))2 . .I. por lo tanto la suma de cuadrados se escribe SC(θ) = (y1 − f (θ. es imposible encontrar este m´ ınimo expl´ ıcitamente y tenemos que recurrir a algoritmos num´ricos. x1 ))2 + (y2 − f (θ.4) 15 y3 f(θ. Las distancias verticales entre los puntos observados y la curva ajustada se llaman los residuos e1 . o Los ordenadas de la curva ajustada correspondientes a los datos observados.5 Ajuste por m´ ınimos cuadrados Definimos la suma de cuadrados asociada a una funci´n de la familia como la o suma de los cuadrados de las distancias verticales entre la curva correspondiente y los datos observados de la nube de puntos. la distancia vertical entre por ejemplo el punto (x3 .10: Ajuste de una curva a la nube de puntos. x1 ). xn ) se llaman los valores ˆ ajustados. . en . . y3 ) y la curva es y3 − f (θ. . (I. Tal como viene reflejado en la figura I. ˆ Buscamos el valor θ de θ que minimiza la cantidad θ → θ. n. .10. .

3. Obtenci´n de la recta ajustada o SC(θ) = SC(a.5. En este caso.5. crece Y . . b) = i=1 La suma de cuadrados se escribe n (yi − (axi + b))2 .16 La suma de cuadrados Mathieu Kessler: M´todos Estad´ e ısticos n ˆ SC(θ) = i=1 e2 i se llama suma de cuadrados residuales. ¯ e n−1 i=1 I.1. hablamos de asociaci´n positiva o entre X e Y : cuando crece X. decrece la otra). Calcularemos en algunas ocasiones la varianza de los residuos. o En el caso en que la pendiente a es positiva. tambi´n llamada e varianza residual n 1 s2 = (ei − e)2 . .3. y viceversa. b) = 0 ∂a ∂ SC(a. b) = 0. a). θk ) intervienen de manera lineal en a la ecuaci´n (I.2 es f (θ. y la funci´n f descrita a o en la secci´n I. x) = ax+b.3).5. Recta y = ax + b El caso m´s utilizado de ajuste por m´ a ınimo por m´ ınimos cuadrados al ajuste por una recta. . decimos que el ajuste corresponde o a la regresi´n lineal simple. . que minimiza la suma de o cuadrados residuales. b ¯ ˆ¯ . si la pendiente a es negativa. Casos concretos Describimos ahora con m´s detalle unos pocos casos concretos en los que es a ˆ posible obtener de manera expl´ ıcita la expresi´n de θ. o I. Estos casos corresponden todos a la llamada regresi´n lineal: o son casos para los cuales los par´metros (θ1 . Corresponde al caso en que θ consta de dos par´metros a y b. hablamos de asociaci´n negativa entre X o e Y (cuando crece una variable. cuando decrece X. es decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo de la forma Y = aX + b. En cambio. decrece Y . Los candidatos a alcanzar el m´ ınimo de esta funci´n satisfacen o ∂ SC(a. ∂b Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este sistema de ecuaciones son a = ˆ xy−¯y x¯ x2 −(¯)2 x ˆ = y − ax.

+ yn ) − a(x1 + .5 Ajuste por m´ ınimos cuadrados Introducimos la cantidad 17 n (xy − xy ).6) xy De esta ecuaci´n deducimos que la cantidad s2 s2 puede medir la calidad del o x y ajuste. . De hecho tiene el mismo signo que la pendiente de la recta ajustada. + xn ) − nˆ ˆ b] n = y − ax − ˆ = 0 ¯ ˆ¯ b = Se puede demostrar sin dificultad que la varianza residual se escribe como s2 = s2 1 − e y (sxy )2 s2 s2 x y (s . El coeficiente a se puede por lo tanto escribir ˆ como sxy a= 2 . = . Y y X presentan una asociaci´n positiva mientras que. Bondad del ajuste Para la regresi´n lineal simple.4. y tienen las siguientes propiedades Propiedades de los residuos La media de los residuos es nula.1. . De hecho le damos un nombre especial: Definici´n I.5. )2 (I. . si la covarianza o es negativa Y y X presentan una asociaci´n negativa.5) n−1 que llamamos la covarianza de X e Y .2. . o b). ˆ sx sxy = donde s2 es la varianza de X que introdujimos en la secci´n I. . . Por lo tanto. se puede escribir la ecuaci´n de la recta ajustada en una forma compacta: o y−y = ¯ sxy (x − x). . xn ) = yn − axn − ˆ ˆ b. ¯¯ (I. (sxy )2 o La cantidad R2 = s2 s2 se llama coeficiente de determinaci´n. ¯ s2 x Nota La covarianza es una cantidad que puede ser positiva o negativa. . x1 ) = y1 − ax1 − ˆ ˆ b . si la covarianza es positiva. los residuos son o ˆ e1 = y1 − f (θ. Demostraci´n: o e= ¯ e1 + · · · + en n 1 [(y1 + . Con estas o x notaciones. x y s .I. ˆ en = yn − f (θ.1 La cantidad r = sxxyy se llama coeficiente de correlaci´n (de o o s Pearson) de X e Y .

Puesto que R2 = r2 y 0 ≤ R2 ≤ 1. Se suela considerar un a valor de R2 mayor que 0.. sabemos que r es del mismo signo de la covaria o anza. y cuanto m´s cercano est´ de 1. Si r = ±1. Tenemos x. y . Un ejemplo Para ilustrar el procedimiento que se sigue para calcular los valores de a y ˆ consideremos el ejemplo muy sencillo a continuaci´n: ˆ b. 27. American Statistician. m´s se aproxima la nube de puntos a a a una recta. Anscombe (1973). mientras que si es o negativo y cercano a −1. deducimos que si R2 = 1. puesto que corresponder´ a una varianza residual menor. o Los datos son Peso(kg) Altura(cm) 54 160 70 170 65 172 78 185 68 160 85 175 Y X Se deja en ejercicio al lector la representaci´n de este conjunto a trav´s de una nube o e de puntos.2) y (I. es necesario tener precauci´n a la hora de interpretar valores del o coeficiente de correlaci´n: s´lo es un resumen. Buscamos ajustar una recta a la nube y pasamos a calcular la ecuaci´n o de la recta de regresi´n que en su forma compacta se escribe o y−y = ¯ sxy (x − x). necesitamos por lo tanto o x 2 . pero cuyos aspectos o o son completamente diferentes. o Queremos estudiar la relaci´n entre el peso y la altura en un grupo de individuos. a a e mejor es el ajuste. el ajuste es perfecto. lo que e quiere decir que la dispersi´n de los residuos es nula: todos los residuos son o iguales.6). pp 17-21. y 2 y xy. c). y por lo tanto iguales a su media.9 corresponde a un ajuste muy bueno. x ¯ ¯ . ver (I. ”Graphs in statistical analysis”. mientras que un valor mayor que 0.8 como correspondiente a un ajuste bueno. los datos apoyan la existencia de una asociaci´n lineal positiva entre las dos variables. a En particular. deducimos o e y R2 est´ siempre comprendido entre 0 y 1. la varianza residual s2 es nula. Por lo tanto. Los datos se presentan en el ap´ndice. Adem´s por la definici´n de r. ¯ s2 x Para calcular sxy y s2 utilizaremos las f´rmulas (I. construy´ cuatro conjuntos de datos artificiales que dan lugar al mismo coefio ciente de correlaci´n y a las mismas rectas de regresi´n.18 Propiedades de r y R2 Mathieu Kessler: M´todos Estad´ e ısticos De la f´rmula s2 = s2 (1 − R2 ).5). presentan una asociaci´n lineal negativa. el ajuste de los puntos a observados por una recta es perfecto. que vale 0. o Sin embargo. si r es positivo y cercano a 1.. deducimos que el coeficiente de correlaci´n o r est´ siempre comprendido entre −1 y 1. El coeficiente de correlaci´n se interpreta o en general como una cantidad que cuantifica la asociaci´n lineal que existe entre o dos variables: cuanto m´s cerca de ±1. fiable en el caso en que est´ o o a pr´ximo a ±1 para indicar que existe una fuerte asociaci´n lineal entre las o o variables pero mucho menos fiable si toma un valor alejado de ±1. y se deja e su estudio en ejercicio. todos los puntos de la nube est´n situados en la recta.

8 0. y encontramos que el peso o asociado ser´ 0.. si f o es derivable y observamos valores de X no muy dispersos alrededor. es decir y = 0. o podemos contestar a la pregunta ¿a qu´ peso corresponder´ una altura de 180cm? e ıa Sustituimos x por 180 en la ecuaci´n de la recta ajustada.715.33)2 ] 90. cualquier funci´n derivable se puede aproximar por una recta: aunque o la relaci´n entre Y y X no sea lineal sino de la forma Y = f (θ.+1752 6 y2 = 542 +702 +.8Altura− 0.. Si consideramos el ejemplo de la relaci´n entre peso y altura del apartado anterior. obtenemos 0.. muy a menudo una recta suele ajustarse bastante bien a una nube de puntos. x2 = xy = 1602 +1702 +. 0.+85 6 = 170. = 29089. Para el ejemplo de los a pesos. = 4995. = 11984. d).I. al no disponer de valores fuera de este rango.51.9kg. El modelo te´rico propuesto para relacionar el peso y la altura es P eso o 67. f se comporta aproximadamente como la tangente en un X central. n−1 5 73 90.33.+175×85 6 Deducimos que s2 = x s2 = y sxy = n 6 x (x2 − (¯)2 ) = [29089 − (170. .1. si queremos utilizar el modelo ajustado para saber a qu´ peso corresponder´ e ıa la altura de un ni˜o de 80cm por ejemplo.1kg.7 114.7 (x La ecuaci´n de la recta es por lo tanto y − 70 = o − 170.2 = 70. nuestra predicci´n del valor de Y ser´ o a yx0 = a x0 + ˆ ˆ b. X).7.. un ajuste malo.. En cuanto a la bondad del ajuste.33 × 70] 73.80 × 180 − 67. debemos tener mucho cuidado al extrapolar nuestro modelo fuera del rango de valores de X que hemos observado. tampoco sabemos si el modelo deducido seguir´ valido.80 × 80 − 67. El motivo por el cual. corresponde a que la f´rmula de Taylor nos dice que o localmente.80x − 67.8.. ıa Sin embargo.1 76. n−1 5 n 6 2 (y 2 − (¯) ) = [4995.1.7 − (70)2 ] 144. f general. tenemos que R= lo que implica que R2 sxy 73 √ =√ sx sy 90. ¡lo n que no tiene sentido! Nota.2 − 170..+852 6 160×54+170×70+.. y n−1 5 6 n x y (xy − (¯)(¯)) = [11984.5 Ajuste por m´ ınimos cuadrados x= ¯ 160+170+.. si disponemos o o del modelo ajustado podemos utilizarlo para predecir el valor de la respuesta para valores no observados de X: Si x0 es un valor no observado..7.33).+175 6 19 y= ¯ 54+70+.1 −3. Predicci´n Tal como lo mencionamos en la introducci´n del tema.

20 I.5.3.2.

Mathieu Kessler: M´todos Estad´ e ısticos Recta forzada por el origen

Hay situaciones en las que pensamos recurrir a un ajuste lineal, pero sabemos por motivos f´ ısicos que un valor de X nulo corresponde necesariamente a un valor de Y nulo tambi´n. En este caso, no tenemos por que considerar todas las rectas, e sino podemos restringirnos a las rectas que pasan por el origen (0, 0). La ecuaci´n o de una recta forzada por el origen es y = ax. Dos ejemplos de situaciones en las que un valor nulo de X implica un valor nulo de Y: Medimos la evoluci´n en funci´n del tiempo (X) de la concentraci´n (Y ) de o o o un producto que se va creando en una reacci´n qu´ o ımica. Cuando empezamos la reacci´n X = 0, todav´ no puede haber producto, por lo tanto Y = 0. o ıa Queremos medir el tiempo t que tarda un objeto que soltamos desde una altura h, en alcanzar el suelo. La relaci´n f´ o ısica proporcionada por la teor´ es h = gt2 , ıa donde g es la constante de la gravedad. Si queremos comprobar que los datos emp´ ıricos confirman esta relaci´n, buscaremos si es cierto que o 1 √ t = √ h. g √ Consideraremos X = h, Y = t, y buscaremos ajustar una recta y = ax. Las f´rmulas que vimos para el caso de una recta general ya no son v´lidas. Calculeo a mos la ecuaci´n de la recta forzada por el origen: disponemos de n pares de datos o (x1 , y1 ), . . . , (xn , yn ), puesto que la funci´n que buscamos ajustar es f (θ, x) = ax, o θ = a y la suma de cuadrados de la f´rmula (I.4) se escribe o
n

SC(θ) = SC(a) =
i=1

(yi − axi )2 .
dSC(a) da

El candidato a minimizar SC(a) satisface la ecuaci´n o dSC(a) = da −xi 2(yi − axi ) = 2[−
i=1 i=1

= 0. Calculamos
n

x i yi + a
i=1

x2 ]. i

Por lo tanto, la soluci´n a la o

ecuaci´n dSC(a) = 0 es o da n xi yi xy a = i=1 2 = ˆ . n x2 i=1 xi

Puesto que la derivada segunda de SC(a) es positiva, se trata efectivamente de un m´ ınimo. I.5.3.3. Algunas transformaciones utiles ´

S´lo hemos descrito c´mo calcular la curva ajustada para dos familias espec´ o o ıficas de funciones y = ax e y = ax + b. Para una especificaci´n m´s general de la funci´n o a o f que queremos ajustar, se recurre a algoritmos num´ricos para encontrar el valor e de los par´metros que minimicen la suma de cuadrados SC(θ). a Sin embargo, hay algunos tipos de modelos no lineales que se pueden abordar con los resultados del caso lineal despu´s de realizar unas transformaciones convenientes. e

I.5 Ajuste por m´ ınimos cuadrados a). Modelo exponencial Supongamos que queremos ajustar un modelo exponencial a una nube de puntos. La ecuaci´n de las funciones que consideramos son o y = beax , con b > 0. En el caso en que a es positivo, modelizamos un crecimiento exponencial, mientras que, si a es negativa, modelizamos un decrecimiento exponencial. La relaci´n entre Y y X es altamente no lineal, sin embargo una simple transo formaci´n puede llevarlo a un modelo lineal: o Modelo te´rico original o y = beax cojo ln −− − − −→ Modelo transformado ln(y) = ln(b) + ax y =b +ax

21

Si introducimos las variables transformadas Y = ln(Y ), y X = X, ´stas satisfacen e una relaci´n lineal: Y = a X + b . o Nuestro procedimiento para ajustar un modelo exponencial consistir´ por lo a tanto en 1. Calculamos los datos transformados, es decir pasar de X Y a X Y x1 ln(y1 ) x2 ln(y2 ) ... ... xn ln(yn ) y =ax +b x1 y1 x2 y2 ... ... xn yn y = beax

2. Ajustamos una recta a las variables transformadas, encontramos y = a x + ˆ . ˆ b 3. Volvemos al modelo original, haciendo la transformaci´n inversa (en este caso o exponencial) cojo exp ˆ ˆ ˆ ˆ y = a x + ˆ − − − → y = ea x +b = eb ea x . ˆ b −−− Ejemplo 1. Queremos ajustar un modelo exponencial a los siguientes datos X Y Transformamos los datos: X Y = ln(Y ) 2.3 1.07 5 1.31 7.1 1.82 8 1.85 2.3 2.92 5 3.69 7.1 6.19 8 6.36

¯ ¯ Ajustamos una recta a los datos transformados, calculando x , x 2 , y , y 2 y x y , ˆ y b : y = 0,148x + 0,682, es decir que ln(y) = 0,148x + 0,682, lo que ˆ para obtener a implica que y = e0,148x e0,682 = 1,18e0,148x . Ejemplo 2. El Ministerio de la Vivienda publica los datos de precios del metro cuadrado de las viviendas en Espa˜a. En la gr´fica siguiente, figura I.11, se ha n a representado la evoluci´n del precio del metro cuadrado en la Regi´n de Murcia o o

22

Mathieu Kessler: M´todos Estad´ e ısticos por cuatrimestres entre 1995 y 2006. Aparece una tendencia exponencial, podemos representar tambi´n el logaritmo del precio para ver si la evoluci´n es entonces lineal. e o La gr´fica correspondiente aparece en la figura I.12. Notar que entre 1996 y 2002, la a curva del logaritmo sigue presentando una curvatura, lo que implica que ¡la subida fue m´s que exponencial! a

1400

q q q q q

1200

q q q

q q

1000

Precio

q q

q q q

800

q q q q q q

600

q q q q q q q q q q q q q q q q q q q q q q q q q

400

1996

1998

2000

2002

2004

2006

Año

Figura I.11: Evoluci´n del precio en euros del metro cuadrado de la vivienda en la o regi´n de Murcia, datos cuatrimestrales, 1995-2006. o

b). Modelo potencial El modelo potencial es de la forma y = bX a . La forma de la nube de puntos correspondiente depende del valor de a. La transformaci´n que o utilizamos es la misma que para el modelo exponencial: aplicamos los logaritmos. Modelo te´rico original o y = bxa cojo ln −− − − −→ Modelo transformado ln(y) = ln(b) + a ln(x) y =b +ax

Introducimos las variables transformadas Y = ln(Y ), y X = ln(X), ´stas satisfacen e una relaci´n lineal: Y = a X + b . Seguimos los mismos pasos que en el apartado o anterior con los datos transformados. Ejemplo. Queremos ajustar un modelo potencial a los siguientes datos X Y Transformamos los datos: 3 10.3 7.34 13.5 20.1 18.2 54.6 24.5

298 ln(x) + 2. calculando x .0 q q q q log(Precio) 6.006 = 7. y 2 y x y .006.2 q q q q q 7.0 1996 1998 2000 2002 2004 2006 Año Figura I.298 ln(x) e2. ˆ y b : y = 0.6 q q q q q 6.I.298 .5 Ajuste por m´ ınimos cuadrados 23 q q q 7.6 3 2.12: Evoluci´n del logaritmo del precio en euros del metro cuadrado de la o vivienda en la regi´n de Murcia.4 q q q q q q q q 6. y . 1995-2006.8 q q q q 6. datos cuatrimestrales.006.3 2 2. o X = ln(X) Y = ln(Y ) 1.9 4 3. x 2 .1 2.433x0.2 q q q q q q q q q q q q q q q q q 6.2 ¯ ¯ Ajustamos una recta a los datos transformados. es decir que ln(y) = 0. .298x + 2. ˆ para obtener a lo que implica que y = e0.

24

Mathieu Kessler: M´todos Estad´ e ısticos

Ap´ndice e
A continuaci´n se presentan los datos de Anscombe (1973), ”Graphs in statistical o analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de X1 , X2 , X3 , y X4 as´ como de Y1 , Y2 , Y3 y Y4 y a continuaci´n calcular las rectas de ı o regresi´n de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro gr´ficas o a de Yi en funci´n de Xi para i=1, 2, 3, 4. o X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 X2 10 8 13 9 11 14 6 4 12 7 5 Y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74 X3 10 8 13 9 11 14 6 4 12 7 5 Y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 X4 8 8 8 8 8 8 8 19 8 8 8 Y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 6

TEMA

II

Fundamentos de la teor´ de la probabilidad. ıa

En el tema anterior, hemos estudiado algunos conjuntos de datos reales que presentan variabilidad aun cuando son generados por un experimento realizado en condiciones que nos esforzamos por mantener constantes. Es m´s, si consideramos a el ejemplo de una reacci´n qu´ o ımica de primer orden visto en la secci´n sobre ajuste o de curvas, disponemos de una teor´ qu´ ıa ımica que describe la evoluci´n de la cono centraci´n de los reactivos en funci´n del tiempo como soluci´n de un sistema de o o o ecuaciones diferenciales y sin embargo, los datos provenientes de un experimento nunca se ajustan perfectamente a la curva te´rica esperada. ¿Qu´ tipo de afirmao e ciones sobre el resultado de tal experimento podr´ ıamos entonces realizar? Estas afirmaciones tendr´n que tener en cuenta la incertidumbre ligada al experimento. a La teor´ de la probabilidad es una teor´ matem´tica que permite modelizar exıa ıa a perimentos aleatorios, es decir experimentos cuyo resultado es imposible predecir de manera exacta. Son los cimientos sobre los que est´ construida toda la estad´ a ıstica.

II.1.

Conceptos b´sicos relacionados con un experimena to

Empecemos por introducir unos t´rminos y conceptos relacionados con un exe perimento

II.1.1.

Experimento aleatorio

Un experimento aleatorio es aquel que, aun realizado en las mismas condiciones, produce resultados posiblemente distintos. Se opone a la noci´n de experimento determin´ o ıstico, en el que conociendo las condiciones iniciales, se puede prever de manera exacta el resultado. En la pr´ctia ca, aunque muchos experimentos son verdaderamente aleatorios, en muchos casos se puede tener por despreciable la variabilidad en los resultados y el considerar el experimento como determin´ ıstico proporciona conclusiones satisfactorias. Sin embargo,

26

Mathieu Kessler: M´todos Estad´ e ısticos hay muchas situaciones en las que es s´lo al tener en cuenta el car´cter aleatorio de o a un fen´meno que se llega a conclusiones v´lidas. o a Un ejemplo sencillo de experimento aleatorio consiste en tirar un dado.

II.1.2.

Suceso elemental

Un resultado posible del experimento se llama un suceso elemental.

II.1.3.

Espacio muestral

El conjunto S de todos los resultados posibles de un experimento aleatorio se llama el espacio muestral de este experimento. Si consideramos el experimento que consiste en tirar el dado, el espacio muestral es {1, 2, 3, 4, 5, 6}.

II.1.4.

Suceso

Cualquiera colecci´n de resultados posibles, es decir cualquier subconjunto de S, o se llama un suceso posible asociado al experimento considerado. Un suceso siempre se podr´ describir de dos formas: utilizando palabras, o de a forma matem´tica, utilizando el formalismo de los conjuntos: a Ejemplo. Asociado al experimento que consiste en tirar un dado, podemos considerar el suceso A : ”Sacar un n´mero par”. A se puede tambi´n describir como u e A = {2, 4, 6}. Consideremos un suceso A, y llevamos a cabo una realizaci´n del experimento, o se dice que ”Ocurre A” si el resultado del experimento pertenece a A. En el ejemplo anterior, donde A es “sacar un n´mero par”, si llevamos a cabo el experimento y sale u un 4, diremos que ha ocurrido A. Podemos para describir sucesos de inter´s, utilizar el formalismo de la teor´ de e ıa conjuntos : II.1.4.1. Operaciones elementales con sucesos

Uni´n de dos sucesos A y B: la uni´n de A y B es el suceso formado por todos o o los elementos de A y todos los elementos de B. A ∪ B = {x ∈ S : x ∈ A o x ∈ B}, Notar que ”Ocurre A ∪ B” si y s´lo si ”Ocurre A” o ”Ocurre B”. Por ejemplo, o si B es el suceso ”Sale un n´mero mayor o igual a 5”, es decir B = {5, 6}, u A ∪ B = {2, 4, 5, 6}. Intersecci´n de dos sucesos A y B: la intersecci´n de A y B est´ formada por o o a los elementos comunes a A y a B. A ∩ B = {x ∈ S : x ∈ A y x ∈ B} ”Ocurre A ∩ B” si y s´lo si ”Ocurre A” y ”Ocurre B”. En el ejemplo anterior, o A ∩ B = {6} Disponemos tambi´n de las propiedades siguientes de las operaciones con sucesos: e

Diagrama de Venn Es una manera gr´fica de representar los sucesos: un rect´ngulo representa S el a a espacio muestral entero.II. Suceso complementario de A (Ac = {x ∈ S : x ∈ A} ).1. En nuestro ejemplo. Ai ∩ Aj = ∅. 5}. si no pueden ocurrir a la vez. (A ∩ B)c = Ac ∪ B c . El suceso imposible es el conjunto vac´ ıo Diremos que dos sucesos A y B son incompatibles.5. el espacio muestral entero. es decir A ∩ B = ∅ y diremos que los sucesos A1 .2. Algunos t´rminos m´s.1. 3. e a El suceso seguro es S. Ac = {1.4. o II. . si para todos i = j.6. y vamos agrupando los sucesos elementales en sucesos. A3 . Notar que “Ocurre Ac ” / si y s´lo si “No Ocurre A”.1. volviendo al ejemplo del dado: II. . . son incompatibles dos a dos. A2 . . Leyes de Morgan Para dos sucesos A y B. Por ejemplo.1 Conceptos b´sicos relacionados con un experimento a • Comutatividad • Asociatividad • Distributividad A∪B =B∪A A∩B =B∩A A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) 27 II.

Concepto de Probabilidad Al llevar a cabo una realizaci´n de un experimento aleatorio. Reglas de adici´n: o .2. Si A y B son dos sucesos tales que A ⊂ B.propiedades. II. entonces P(A) ≤ P(B). su probabilidad ser´ mayor. Dados todos los sucesos asociados a un experimento aleatorio. sin embargo tenemos a menudo informaci´n sobre las ”posibilidades” que tiene un determinado suceso de ocurrir. 4.28 Mathieu Kessler: M´todos Estad´ e ısticos es decir que. una cantidad que denotaremos por P(A) y que llamaremos la “probabilidad del suceso A. o M´s que formalizar una definici´n. mientras que la probabilidad asociada al suceso seguro es 1 : P(S) = 1. La probabilidad de que un suceso no ocurra es 1− la probabilidad de que ocurra: P(A) = 1 − P(AC ). es decir que.2. (A ∪ B)c = Ac ∩ B c . preferimos indicar qu´ propiedades tendr´ a o e a que tener la cantidad escogida para que refleje la creencia que tenemos de que un determinado suceso ocurra. asignaremos a cada suceso A. 2.1. La probabilidad de un suceso es un n´mero entre 0 y 1: u 0 ≤ P(A) ≤ 1. Queremos o cuantificar de alguna manera esta informaci´n que llamar´ o ıamos la probabilidad del suceso. II. a a es decir. considerando que la probabilidad asociada al suceso imposible es nula: P(∅) = 0. 3.” Pero al realizar esta asignaci´n deberemos tener en cuenta que se o deber´ cumplir: a 1. 5. Si un suceso tiene m´s resultados posibles que otro. afirmar que“no ha ocurrido (A o B)” es lo mismo que decir “no ha ocurrido A y tampoco ha ocurrido B”. somos conscientes o de que no podemos predecir el resultado. afirmar que“no ha ocurrido (A y B)” es lo mismo que decir “o bien no ha ocurrido A o bien no ha ocurrido B”. Definici´n informal de la probabilidad .

2 Concepto de Probabilidad a) Si A y B son dos sucesos incompatibles. diremos que los sucesos elementales son equiprobables si todos tienen la misma probabilidad de ocurrir. la probabilidad de un suceso A se podr´ a siempre calcular como (Regla de Laplace) P(A) = no de elementos en A no de casos favorables = o . el gordo de la loter´ la primitiva. 1 P(A) = 100000. c) Esta ultima f´rmula se puede generalizar a m´s de dos sucesos. la probabilidad de acertar es de una entre 100000. En todo lo que sigue. est´ a claro que si hay n sucesos elementales que son adem´s equiprobables. o una quiniela e a a ıa. la definici´n de una probabilidad asociada o al experimento pasar´ por la asignaci´n de la probabilidad de cada suceso elemental. II. o a a o a b) En cambio si A y B son dos sucesos cualesquiera (en particular. de catorce resultados? El gordo de la loter´ el experimento consiste en escoger al azar un n´mero entre ıa. es decir que no pueden ocurrir a la vez.2. 29 Esta f´rmula seguir´ v´lida si se trata de la uni´n de tres o m´s sucesos. El caso de un espacio muestral finito y la definici´n de o Laplace. . puesto que. a o En particular. la probabilidad de que ocurra uno o el otro es la suma de las probabilidades de cada suceso: Si A ∩ B = ∅. la probabilidad a de cada uno de ellos es 1/n. si A designa el suceso ”acierto”. Para ilustrar esta manera de calcular la probabilidad de un suceso. nos lim´ o a itaremos a enunciar el caso de tres: P(A ∪ B ∪ C) = P(A) + P(B) + P(C) −P(A ∩ B) − P(A ∩ C) − P(B ∩ C) +P(A ∩ B ∩ C). no de elementos totales n de casos posibles. entenderemos como probabilidad la asignaci´n de un o n´mero a cada suceso posible asociado a un experimento aleatorio. P(A ∪ B) = P(A) + P(B). hemos contabilizado dos veces la probabilidad de la intersecci´n P(A ∩ B). II.2. al sumar P(A) y P(B).1. que cumpla u con las cinco propiedades que acabamos de enumerar. nos preguntamos ¿qu´ es m´s f´cil acertar. u 100000 posibles. En este caso.2. es u decir el caso de un espacio muestral finito. podr´ ıan ocurrir a la vez). un diagrama de Venn nos convence de que la f´rmula o correcta es P(A ∪ B) = P(A) + P(B) − P(A ∩ B).II. y debemos restarla una vez para o obtener P(A ∪ B). Para cumplir con las propiedades anteriores. Espacio muestral finito En el caso en que hay un n´mero finito de resultados posibles del experimento.2.

13984000. X.. Hay que decir que los espa˜oles se gastaron en juegos n en 2005. Por supuesto. n→∞ n . es decir que la probabilidad de acertar es de una entre m´s de 76 a millones.2. y u consideramos que P(A) = l´ ım no de veces que ha ocurrido A entre las n realizaciones . 2. u La probabilidad de acertar es de una entre 14 millones. el juego consiste en acertar 5 n´meros de una tabla de 50 (Del no o u o 50) y adem´s acertar 2 n´ meros (estrellas) de una tabla de 9 (Del no 1 al no 1 al n a u 9). y para cada u 5 una de estas combinaciones. es 49 = 13984000. un acertante del euro-mill´n podr´ haber ganado o ıa hasta 180 millones de euros! El mayor premio que se gan´ con la primitiva fue de o casi 25 millones de euros. hay un participante que siempre gana: el estado. 97 × 10−8 . llamada la ”interpretaci´n frecuentista” de la probabilidad: o o Para un suceso A. tenemos 50 posibilidades. el mayor premio fue de 9 millones de euros (fue en la temporada 05/06) Por ultimo. bingo. tenemos 9 posibilidades para escoger las dos estrellas. m´quinas). tenemos en cuenta que para escoger u los 5 primeros n´meros de la tabla de 50. 2 En total tenemos por lo tanto 50 9 × 5 2 = 76275360 casos posibles. Interpretaci´n “frecuentista” de la probabilidad o En cuanto dejamos el marco de los sucesos elementales equiprobables. En 2005 por ejem´ plo. sumando los de gesti´n privada (casino. Es decir. El n´mero de casos posibles se calcula como las combinaciones sin repetici´n de u o 49 elementos tomados de 6 en 6 (en el anexo pod´is encontrar un breve recordatorio e sobre reglas de conteo). en 2006. y los o a de gesti´n p´blica. y fue en el 2005.2. La probabilidad de acertar es una entre 6 casi 14 millones: 1 P(A) = 7. la sociedad que gestiona los juegos estatales. El n´mero de casos posibles es 3×3×· · ·×3 = 315 = 14348907. En cuanto a premios. el experimento consiste en escoger quince veces uno de los tres resultados posibles 1. P(A) = 1 14348907 6. el experimento consiste en extraer 6 n´meros sin reposici´n entre u o 49. Loter´ y Apuestas del Estado. la ONCE. realizamos un gran n´mero de veces n el experimento. 15 × 10−8 .2. la asignaci´n de una probabilidad a cada suceso es mucho m´s complicada.30 Mathieu Kessler: M´todos Estad´ e ısticos La primitiva. ıas ingres´ al Tesoro P´blico casi 2300 millones de euros (fuente: Memoria de Loter´ o u ıas y Apuestas del Estado 2005). mientras que en la quiniela. X. Para calcular el n´mero de casos posibles. Euro-mill´n. La quiniela.. 2. ¡una cantidad de 28 000 millones de euros! o u II. para tener derecho al primer premio hay que acertar 7 n´meros (5 + u 2). Muchas intero a pretaciones de resultados ligados a probabilidades est´n relacionadas con la definia ci´n de Laplace. aqu´ no hemos tenido en cuenta que no se suele rellenar las quinielas ı escogiendo al azar una de las tres posibilidades 1.

6} 3/6 lo que coincide con nuestra intuici´n. P(B) Su interpretaci´n es: realizamos el experimento. utilizo la definici´n para encontrar: o P(A|B) = P(A ∩ B) P({6}) 1/6 = = = 1/3.3 La probabilidad condicionada. o Al considerar el siguiente diagrama de Venn. .) Si introduzco los sucesos A = “sale un 6”. Definici´n o Si A y B son dos sucesos tales que P(B) > 0.1. pero me dicen que ha salido un n´mero par. Corresponde a una re-asignaci´n o actualizaci´n de la probabilidad de un suceso o o cuando tenemos informaci´n sobre el resultado del experimento. la probabilidad de A condicionada a B se denota por P(A|B) y es igual a P(A|B) = P(A ∩ B) .3. ¿cu´l o a es la probabilidad de que haya ocurrido A tambi´n? Por ejemplo.II. La probabilidad condicionada. P(B) P {2. el “4” y el “6”. Tiran el dado sin que yo pueda ver el resultado. y sabemos que ha ocurrido B. el “2. ¿cu´l es u o a la probabilidad de que haya ganado la apuesta? Es intuitivamente claro que es de un tercio (un caso favorable. y B =”sale un n´mero par”.3. 31 II. quiero calcular u P(A|B). o II. en una tirada de e un dado he apostado por el ”6”. 4. el ”6” entre tres posibles. Teniendo esta informaci´n.”.

para cualquier suceso A. II. tenemos P(A ∩ B ∩ C) = P(A|B ∩ C)P(B|C)P(C). A. B y C. Es decir A y B son independientes si el hecho de saber que. B ha ocurrido. P(. II. y nos preguntamos cu´l es la probabilidad de que el resultado pertenezca tambi´n a A : a e B es nuestro nuevo espacio muestral puesto que sabemos que los resultados posibles pertenecen a B. Este concepto se llama independencia de dos sucesos y pasamos a definirlo.” o o ¿Qu´ os parece este argumento? e .|B) satisface todas las propiedades de una probabilidad.. Propiedad Para un suceso B fijado. (i) Si A y B son dos sucesos con P(B) > 0. a que P(A|B) = P(A) y P(B|A) = P(B).Porque es mucho menos probable que o haya dos bombas en un mismo avi´n que s´lo una..32 Mathieu Kessler: M´todos Estad´ e ısticos nos convencemos de que la definici´n P(A|B) = P(A∩B) es intuitivamente razono P(B) able: realizamos el experimento y sabemos que el resultado pertenece a B. es decir P(B∩ e C) > 0 y P(C) > 0. el hecho de que uno ocurra no influye la probabilidad de que el otro ocurra. Una buena ilustraci´n de este concepto: “¿Sab´is por qu´ un matem´tico siempre o e e a se lleva una bomba cuando viaja en avi´n? . por la definici´n de la probabilidad o o condicionada. cona siderando dos sucesos.3. y vice versa. Definici´n para dos sucesos o A y B son dos sucesos independientes si se cumple P(A ∩ B) = P(A)P(B). Regla del producto. Notar que esta definici´n es equivalente.2.3. En particular cumple por ejemplo. P(Ac |B) = 1 − P(A|B). 0 ≤ P(A|B) ≤ 1. y para dos sucesos A y C. II. la probabilidad condicionada a B. siempre que las probabilidades que aparecen est´n bien definidas.4.3.4. por ejemplo. II. P(A ∪ C|B) = P(A|B) + P(C|B) − P(A ∩ C|B). no cambia la probabilidad que asignamos a A. y la probabilidad de que pertenezca a A es el cociente P(A∩B)/P(B).1. Sucesos independientes Una de las situaciones m´s importantes en probabilidad aparece cuando. P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) (ii) En el caso de tres sucesos.

En particular se cumple que P(Ai ∩ Aj ) = P(Ai )P(Aj ) para todo i y j entre 1 y n. II.4. P(F ) P(F ) P(F ) . . . Ejemplos de probabilidades condicionadas en la vida diaria Eslogan publicitario para la loter´ ıa En Francia. Definici´n para n sucesos o Los n sucesos A1 . parece que s´ pero en realidad a o ı.5... se indica que el 90 % de los pacientes con c´ncer a a a de pulm´n son fumadores. Aik .1. . . para saber si el hecho de ser fumador incrementa el riesgo de desarrollar un c´ncer de pulm´n. 2005”.5 Ejemplos de probabilidades condicionadas en la vida diaria 33 II. o ¿Se puede deducir de est´ ultima estad´ a´ ıstica de que el tabaquismo es un factor de riesgo para el c´ncer de pulm´n? En principio. y en particular.5.5.9 pero en realidad. An son independientes si para cualquier subfamilia Ai1 . pero la gente piensa en P(A|P ) que es much´ a ısima m´s baja por supuesto. . un eslogan publicitario para un juego de loter´ n ıa que rezaba: El 100 % de los acertantes probaron suerte. se cumple P(Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).. .2. en la informaci´n publicada por la Asociaci´n Espa˜ola contra el o o n C´ncer (AECC) en su p´gina web. a o Para relacionar P(T |F ) y P(T ). elaborado por el Centro o a n nacional de Epidemiolog´ se deduce en particular los datos siguientes: el c´ncer es ıa. ¡depende de la tasa de fumadores en la poblaci´n! o Traduzcamos estos datos con sucesos: consideramos el experimento “escoger una persona al azar en la poblaci´n espa˜ola”. A2 . Ai2 . queremos saber si P(T |F ) es mayor que P(T ). Los creadores de este eslogan jugaron con el efecto causado al usar una probabilidad condicionada: si P denota el suceso “probar suerte” y A el suceso “acertar”. F =”es fumador”. el c´ncer de e a pulm´n es el tumor de mayor incidencia y de mayor mortalidad entre los hombres. Tabaquismo y c´ncer de pulm´n a o Del informe “La situaci´n del c´ncer en Espa˜a. a la primera causa de muerte en t´rminos absolutos (p9). Nos dicen que a o P (F |T ) = 0. podemos utilizar la definici´n de la probabilidad o condicionada: P(T |F ) = P(T ∩ F ) P(F |T )P(T ) P(F |T ) = = × P(T ). Introducimos los sucesos T =”tiene un o n tumor asociado a un c´ncer de pulm´n”. hubo hace unos a˜os. el eslogan est´ diciendo P(P |A) = 1.II. . o Por otra parte. . a II.2.. II.

ıan II. que se puede obtener del Instituto u Nacional de Estad´ ıstica. A2 .6. . . . . conocemos. i. e tendr´ una vida muy larga. n seg´n la AECC. .3=3.1. F´rmula de la probabilidad total y teorema de o Bayes Condiciones de aplicaci´n o Tenemos n sucesos A1 . la probabilidad de B. P(An ). i. Los resultados Si se cumplen las condiciones de aplicaci´n del apartado anterior. . j ≤ n). El cociente P(F |T )/P(F ) es por lo tanto igual aproximadamente a 0.3. . para cada i = 1. a o II. . la edad media de fallecimiento por c´ncer de pulm´n es de 68 a˜os u a o n para los hombres y 66 a˜os para las mujeres.5. La gente que llega a los 70 a˜os y n n son fumadores tienen un sistema inmunol´gico muy resistente y un mecanismo de o control de c´lulas tumorosas muy eficiente.. An que forman una partici´n del espacio o muestral S.e n = 2. Adem´s conocemos la probabilidad de cada uno de ellos. y cuya uni´n es el espacio muestral entero. Deducimos que el hecho de ser un fumador diario multiplica por tres el riesgo de padecer un c´ncer de pulm´n.6. a o a Seg´n la Encuesta Nacional de Salud 2003. . . P(A2 ). .. lo que implica que. II.2. es decir a P(A1 ). es decir conocemos P(B|A1 ).e. a o Pero. . se puede enfatizar que la unica afirmaci´n “El 90 % de los pacientes con ´ o c´ncer de pulm´n son fumadores” no implica de por s´ que el tabaquismo sea un a o ı factor de riesgo para el c´ncer de pulm´n. Tabaquismo y esperanza de vida Un dato cl´sico en epidemiolog´ es muy sorprendente en primera lectura: a ıa Si nos limitamos a la gente mayor de 70 a˜os. en este caso tenemos A1 = A y A2 = Ac .34 Mathieu Kessler: M´todos Estad´ e ısticos Por lo tanto. P(B|An ). de todas maneras. o F´rmula de la probabilidad total Se puede calcular P(B) descomponiendo o B sobre cada uno de los sucesos de la partici´n: o P(B) = P(B|A1 )P(A1 ) + · · · + P(B|An )P(An ).6. A1 ∪ A2 ∪ o · · · An = S. en el caso de que ocurra Ai .9/0. II.. aproximadamente el 30 % de la poblaci´n espa˜ola son o n fumadores diarios. el concluir si el tabaquismo incrementa el riesgo de desarrollar un c´ncer de pulm´n depender´ del cociente P(F |T )/P(F ). es decir que son mutuamente incompatibles (Ai ∩ Aj = ∅. . De hecho. para 1 ≤ i. . . ¡la esperanza de vida de los n fumadores es mayor que la de los no fumadores! ¿C´mo puede ser esto cierto? En realidad este dato no es tan sorprendente si o uno se lo piensa un poco: muy poca gente llega a los 70 a˜os fumando. Nota: A menudo nos encontraremos con la situaci´n en la que s´lo son dos o o sucesos. . Tenemos otro suceso B y. n..

Se nos pide calcular P(D) y P(RS|D). An una partici´n del espacio o o muestral. (B ∩ An ) son incompatibles dos a dos. Estimamos que la probabilidad de que la red est´ sobrecargada o e es igual a 0. P(B|A1 )P(A1 ) + · · · + P(B|An )P(An ) 35 Demostraci´n. Si sustituimos en el numerador P(Ai ∩ B) por P(B|Ai )P(Ai ) y en el numerador P(B) por la f´rmula de la probabilidad total. Nos damos cuenta de a n que si A1 = RS y A2 = RS C .01 · 0. P(D|RS)P(RS) P(D|RS)P(RS) + P(D|RS C )P(RS C ) 0. por el teorema de Bayes. Los sucesos (B ∩ A1 ). tenemos P(Ai |B) = P(B|Ai )P(Ai ) . . . .02 = 0. Ejemplo En un la transmisi´n de un mensaje por correo electr´nico.0001 · 0. Deducimos o o P(D) = P(D|RS)P(RS) + P(D|RS C )P(RS C ) = 0. Por otra parte por la definici´n de la probabilidad condicionada P(Ai |B) = P(Ai ∩ o B)/P(B). o Adem´s conocemos sus probabilidades: P(A1 ) = 0.3.02 + 0. . . .II.02. por lo tanto forman una partici´n del espacio muestral.67. Por otra a parte conocemos P(D|A1 ). la probabilidad de que la red n estuviera sobrecargada es igual a 0. P(RS|D) = . ¿cu´l es la probabilidad de que la red n a estuviera sobrecargada durante la transmisi´n? o Empecemos por introducir los sucesos convenientes para traducir los datos que se nos proporciona. esta proporci´n o n a o s´lo es del 0.6.67. .6 F´rmula de la probabilidad total y teorema de Bayes o Teorema de Bayes Para cualquier i = 1. y D el suceso “El a archivo est´ da˜ado”. sabiendo que recibo un fichero da˜ado. A2 . y aplicamos la regla de la adici´n o P(B) = P(B ∩ A1 ) + P(B ∩ A2 ) + · · · P(B ∩ An ). . es decir que la proporci´n total de ficheros da˜ados es de 3 por 10000. y P(D|A2 ). la descomposici´n del suceso B o B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ · · · (B ∩ An ). ¿Cu´l es la proporci´n total de ficheros da˜ados en la transmisi´n? a o n o Suponiendo que recibo un fichero da˜ado. . n para la f´rmula de la probabilidad total o P(B) = P(B|A1 )P(A1 ) + · · · + P(B|An )P(An ). . .98. estamos por lo tanto en las condiciones de aplicaci´n de la f´rmula de la probabilidad total y del teorema de Bayes. los sucesos A1 y A2 son incompatibles y su reuni´n es o el espacio muestral entero.0003. mientras que si no lo est´. Utilizamos. . obteno emos el teorema de Bayes. . Sea RS el suceso “La red est´ sobrecargada”. Utilizamos ahora la regla del producto P(B ∩ Ai ) = P(B|Ai )P(Ai ) para todo i = 1. Por otra o n parte.000298 0.01 · 0. 0.000298 por lo tanto. II.01 %. al formar A1 . n.98 = 0.02 y P(A2 ) = 0. . . la o a proporci´n de ficheros da˜ados es de 1 %. para todo 1 ≤ i ≤ n. Si la red est´ sobrecargada. la calidad de la recepo o ci´n de un fichero depende de la sobrecarga de la red. .

.

el espacio . X= “duraci´n hasta el fallo”. Si denotamos por + el resultado “cruz” y por c el resultado “cara” al lanzar una moneda.. Por ejemplo. Puesto que nos es imposible predecir de manera exacta el valor de una variable aleatoria al realizar el experimento. sucesos y probabilidad asociada a un suceso. pero nos falta la noci´n fundamental de variable aleatoria: en problemas concretos. Definici´n o Una variable aleatoria.1.” Otro ejemplo de variable aleatoria se asocia.1. Concepto de variable aleatoria Consideramos un experimento aleatorio y su espacio muestral asociado. o estamos interesados en funciones definidas sobre el espacio de los resultados posibles del experimento aleatorio.TEMA III Variable aleatoria I Las nociones te´ricas que hemos introducido responden a la necesidad de construo ir modelos matem´ticos que den cuenta del car´cter aleatorio de los fen´menos que a a o nos interesan.1. o Finalmente ilustraremos algunos conceptos de este tema con un ejemplo sencillo: el experimento consiste en lanzar tres veces una moneda no trucada.asocia un n´mero o m´s genu a eralmente una caracter´ ıstica a todo resultado posible del experimento. descripci´n que conseguiremos gracias a la funci´n de distribuci´n.de ahora en adelante v. al experimento de escoger un dispositivo producido. Hemos puesto en el tema anterior las primeras piedras en este sentido describiendo experimento aleatorio. y o considerar la v. en o un proceso de fabricaci´n. III.a. si consideramos el experimento que consiste en realizar una medici´n de la concentraci´n de un producto en una soluci´n.a X= o o o “valor medido de la concentraci´n. y los sucesos que queremos estudiar se expresan a trav´s e de estas funciones. nos interesa la v. nuestro modelo consistir´ en dea scribir las probabilidades asociadas a cualquier suceso relacionado con esta variable. o o o III.a.

Para el ejemplo de los tres lanzamientos de una moneda. Puede tomar cualquiera de los valores 0. 2 y 3. Al ser la moneda no trucada. escogemos un modelo en el que los sucesos elementales de S son equiprobables. c + c.. 2. 3 con la regla casos favorables / casos posibles y obtenemos Valor 0 1 2 3 Probabilidad 1/8 3/8 3/8 1/8 Se puede representar de manera gr´fica la distribuci´n de X: a o Podremos fijarnos en las caracter´ ısticas principales de esta distribuci´n (simetr´ o ıa. colas. + + +}. X= “n´mero de veces que ha salido cruz en los tres lanzau mientos”. 1. m´ximo.1. +c+. la distribuci´n de X = o “n´mero de veces que ha salido cruz en los tres lanzamientos” est´ completamente u a determinada por la lista de los valores posibles junto con la probabilidad con la que X toma cada valor. 1. Decidir de una distribuci´n o para una v.a de inter´s en un problema concreto es por lo tanto escoger un modelo e para describir el comportamiento de esta variable. cc+. c + +.2.38 muestral se describe como Variable aleatoria I S = {ccc.) a . Consideraremos la v. +cc. X consiste en saber asignar a o cualquier suceso relacionado con X una probabilidad.. III.a.a. Distribuci´n de una variable aleatoria o Conocer la distribuci´n de los valores de una v. calculamos P(X = i) para i = 0. + + c.

500 q 0.III.a o o Se trata de una manera de describir la distribuci´n de una variable X.1. u FX (t) = P(X ≤ t). i. es decir FX (t) = P(X ≤ t) = P[(X = 0) ∪ (X = 1)] = P[X = 0] + P[X = 1] = 1/8 + 3/8 = 1/2. Deducimos FX (t) = P(X ≤ t) = P(X = 0) = 1/8. La gr´fica de FX en este ejemplo es a 1.2.2. 0 ≤ t < 1. el suceso (X ≤ t) es el suceso imposible puesto que todos los valores que puede tomar X son mayores o igual que 0. el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0.2 Funci´n de distribuci´n de una v.125 q 0 1 2 3 x III.000 q 0. si t > 3. el suceso (X ≤ t) es el suceso seguro puesto que todos los valores que puede tomar X son menores o igual que 3. Si 2 ≤ t < 3.a. III. el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0. Por lo tanto FX (t) = P(X ≤ t) = 1. X es la funci´n FX que asocia a cualquier o o o n´mero real t la probabilidad de que X sea menor o igual a t. debemos considerar los intervalos definidos por los valores posibles de X es decir 0. Definici´n o La funci´n de distribuci´n de una v. 1 ´ 2.a. 1 ≤ t < 2.2.3. 1. Por lo tanto. FX (t) = P(X ≤ t) = 0.2. X cumple las propiedades siguientes: o o . Funci´n de distribuci´n de una v.375 0. C´lculo para el ejemplo de las tres monedas a Para calcular FX (t) = P(X ≤ t).2. 2 y 3 que inducen los cinco intervalos para t: t < 0.250 0.e. Propiedades La funci´n de distribuci´n de una v. 2 ≤ t < 3 y t > 3.625 F(x) 0. Si 1 ≤ t < 2.a o o 39 III. Si t < 0. o III.875 q 0. Si 0 ≤ t < 1. el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0 ´ o 1. Finalmente. o es decir FX (t) = P(X ≤ t) = P[X = 0] + P[X = 1] + P[X = 2] = 1/2 + 3/8 = 7/8.750 0.

la funci´n puntual de probabilidad de X es la funci´n fX que asocia a cada xi la o o probabilidad P(X = xi ). o o III. . Funci´n puntual de probabilidad o Definici´n o Si X es una v. n .3. . . . .1. El intervalo de n´meros reales [0. Los o u valores posibles de X son 0.a. 1 Variable aleatoria discreta Definici´n o En el caso en que la v. . En cambio un conjunto infinito no numerable es un conjunto que no se puede poner en biyecci´n con N.2. La demostraci´n de esta propiedad es inmediata si utilizamos la descomposio ci´n (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) junto con la regla de la adici´n. puesto que si a ≤ b. discreta.2.a discreta puesto que s´lo puede u o tomar cuatro valores. x2 . .3.3. o Finalmente la propiedad m´s importante que utilizaremos muy a menudo: para a todos n´meros reales a ≤ b. es decir para el cual es imposible enumerar o los elementos. xn . En el ejemplo de los tres lanzamientos de una moneda. ım ım Variable aleatoria I FX es una funci´n creciente. para i = 1. En el experimento del lanzamiento de las tres monedas. FX es una funci´n continua por la derecha.a. III. .40 0 ≤ FX (t) ≤ 1.2. . Z y Q son ejemplos de conjuntos infinitos numerables. representan sus valores posibles. hemos calculado la distribuci´n de X. para todo t ∈ R. . X puede tomar un n´mero finito o infinito numerable u de valores. 2 y 3. u P(a < X ≤ b) = FX (b) − FX (a). Ejemplo. u . . III.a. X= “N´mero de veces que ha salido cruz” es una v. fX : xi → fX (xi ) = P(X = xi ). . por lo tanto Valor 0 1 2 3 fX 1/8 3/8 3/8 1/8 1 Un conjunto infinito numerable es un conjunto del que se puede enumerar todos los elementos. l´ t→−∞ FX (t) = 0 mientras que l´ t→+∞ FX (t) = 1. . y x1 . 1.1. tenemos (X ≤ a) ⊂ (X ≤ b) o lo que implica que P(X ≤ a) ≤ P(X ≤ b).3. 1] es infinito no numerable por ejemplo. el n´mero de veces que ha salido cruz en el apartado 1. N. III. la v.

si consideremos dada una funci´n f definida en un conjunto discreto a o de valores {x1 . . Esperanza Si queremos considerar el valor medio de la distribuci´n de valores de una v. o promedio. Nos limitaremos por razones de tiempo a una medida de o centralizaci´n y otra de dispersi´n: la esperanza y la varianza.1 La media. xn . definimos la esperanza de o o una funci´n cualquiera f (X) de X.3 Variable aleatoria discreta III. Adem´s. . . . xi fX (xi ) = 1. Representa una medida de centralizaci´n de la distribuci´n de valores de X pero o o con la misma puntualizaci´n que en el tema 1: es representativa del centro de la o distribuci´n si ´sta es aproximadamente sim´trica pero puede ser una mala medida o e e de centralizaci´n si la distribuci´n es asim´trica y/o presenta colas pronunciadas.a. Propiedades 41 La funci´n puntual de probabilidad de una v. est´ claro por ejemplo que e o a el valor medio de la distancia al cuadrado de X a su media ser´ una medida de a dispersi´n de la distribuci´n de valores de X. De hecho.III. Por ello. .3. X si y solamente si cumple • 0 ≤ f (x) • para x = x1 . o esperanza. o o e Por supuesto. o es natural calcular la suma de estos valores ponderados por la probabilidad que se le asigna..3. se puede demostrar que f es una funci´n puntual o de probabilidad de una v.a.3. .a. discreta permite calcular la o funci´n de distribuci´n: si notamos que o o (X ≤ t) = ∪xi ≤t (X = xi ).2. . o o III. todos o las medidas descriptivas de un conjunto de datos tienen su contra-parte para la distribuci´n de una v.1.}.a. de una o v. X se expresa en las mismas unidades que X. . queremos disponer de herramientas para describir la distribuci´n de valores de una v. .a.a. la esperanza de una v. .3.2. . . Definici´n III. . discreta X se define como E[X] = xi xi P(X = xi ). o valor esperado. III. Caracter´ ısticas de una variable discreta Al igual que en el tema 1 para un conjunto de datos. Ser´ util para una distribuci´n de valores ser capaz de calcular el valor medio a ´ o no solamente de X sino tambi´n de una funci´n de X.3. . o . obtenemos que P(X ≤ t) = xi ≤t P(X = xi ) = xi ≤t fX (xi ).a.3. xn .

Al igual que en el tema 1. Por otra parte. Varianza Para disponer de una medida num´rica de la dispersi´n de valores de una v. designada por var X o σX . E[f (X)] = xi f (xi )P(X = xi ). La espero o anza de f (X) es la suma de los valores de f (X) ponderados por la probabilidad de que X tome cada valor. la desviaci´n t´ o ıpica se define como la ra´ cuadrada de la varianza ız σX = 2 σX .3. Ser´ la medida que calcularemos para dar cuenta de la dispersi´n de la distribuci´n: a o o cuanto m´s peque˜a sea la desviaci´n t´ a n o ıpica.2 Sea X una v. 2 Definici´n III.42 Variable aleatoria I Definici´n III.a. si la desviaci´n t´ o ıpica de X es nula.3 La varianza de una v. es decir.3. discreta X.a. III. Tenemos o a var(X) = E[X 2 ] − (E[X])2 .3. llamamos esta cantidad la varianza de X. En particular.3.2 deducimos que var(X) se puede calcular como o var(X) = xi (xi − E[X])2 P(X = xi ). o est´ definida por a var(X) = E[(X − E[X])2 ]. deducimos . se suele calcular la varianza utilizando la f´rmula equivalente siguo iente: F´rmula equivalente para el c´lculo de la varianza. Por la definici´n III.3. Demostraci´n: o var(X) = xi (xi − E[X])2 P(X = xi ) (x2 − 2xi E[X] + E[X]2 )P(X = xi ) i xi = = xi x2 P(X = xi ) − i xi 2xi E[X]P(X = xi ) + xi E[X]2 P(X = xi ) P(X = xi ) xi = xi x2 P(X = xi ) − 2E[X] i xi 2 xi P(X = xi ) + E[X]2 = E[X 2 ] − 2E[X]E[X] + E[X] = E[X 2 ] − E[X]2 Finalmente. calcularemos el valor promedio de la distancia al cuadrado de X a su media.a e o X. discreta y f una funci´n de R en R. m´s concentrada estar´ la distribuci´n a a o alrededor de su media.2.

3. Llamamos p la o o probabilidad de que tome el valor 1. Variable de Bernoulli Se trata de una variable que s´lo puede tomar dos valores. 0 ´ 1. As´ la media es el momento de orden 1. Nota III. sino disponer de o una aproximaci´n que d´ cuenta de los resultados observados del experimento para o e unas condiciones experimentales dadas. o Por otra parte. Modelos m´s usados de v.3. llamamos a E[X k ] el momento de orden k. En este contexto.3.1 En la f´rmula equivalente para la varianza aparecen las cantidades o E[X 2 ] y E[X]. es bueno resaltar que la desviaci´n t´ o ıpica se expresa en las mismas unidades que la variable X.a X ”n´mero de cruces”.3. III.1. discretas a No debemos olvidar que nuestro objetivo es modelizar un fen´meno. (comprendidos entre 0 y 1. hay situaciones t´ ıpicas de modelizaci´n que presentan las miso mas caracter´ ısticas y para las cuales se han propuesto modelos de distribuciones bien estudiados y conocidos. Ning´n modelo se ajusta perfectamente al u fen´meno observado. E[X] = xi xi P(X = xi ) = 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8 = 3/2 y por otra parte var(X) = E[X 2 ] − (E[X])2 = xi 2 2 2 x2 P(X = xi ) − (3/2)2 i = 0 1/8 + 1 3/8 + 2 3/8 + 32 1/8 − (3/2)2 = 3/4 La desviaci´n t´ o ıpica es por lo tanto σX = √ 3/2.4. . III. Ejemplo 43 Calculemos para el ejemplo del lanzamiento de tres monedas la esperanza y la varianza de la v.3. y lo toma con probabilidad 1.3. Proponer un o modelo no consiste en proporcionar una descripci´n de la realidad. III. En general para un entero k. u Por una parte.a.III. La varianza es por lo tanto el momento centrado de orden 2. Tambi´n hablamos de momento centrado ı e de orden k para la cantidad E[(X − E[X])k ]. as´ que considerarlo adecuado o v´lido es equivalente a consido ı a erar que el grado de precisi´n conseguido es satisfactorio para el uso que queremos o hacer del modelo.4.3 Variable aleatoria discreta por la primera f´rmula para el c´lculo de la varianza. Varios valores de p. que todos los valores de X son o a iguales: X s´lo puede tomar un valor.

u Para completar una caja. Lo denotamos por o X ∼ B(n. Repetimos este experimento simple n veces de manera independiente. En esta situaci´n.3.4. hablamos de la distribuci´n de Bernoulli de par´metro p. o a Propiedades Valores posibles: {0. o b). ocurra A). la variable X sigue una distribuci´n Binomial. Las piezas se empaquetan en cajas de 10 unidades.. Para un valor p concreto. Al experimento aleatorio: “transmitir un fichero por n la red”.9997. 1}. Esperanza: E[X] = Varianza: Tenemos: E[X 2 ] = xi P(X = xi ) = 0 × (1 − p) + 1 × p = p x2 P(X = xi ) = 02 × (1 − p) + 12 × p = p. con una situaci´n dicot´mio o ca. o bien ocurre A . ¿cu´l es la distribuci´n de o a o la variable X=”n´mero de piezas defectuosas en la caja”. de par´metros o o a n ( el n´mero de veces que repetimos el experimento simple) y p (la probabilidad de u que. en una realizaci´n del experimento simple.. Consideramos la variable X=”N´mero de veces que ha ocurrido A en las n u realizaciones del experimento simple. Ejemplo Una empresa produce piezas con 1 % de defectuosas. a III.44 Variable aleatoria I puesto que p es una probabilidad) dan varias distribuciones de Bernoulli. por lo tanto i var(X) = p − p2 = p(1 − p). Transmito un fichero por la red. Distribuci´n binomial o a). La variable X sigue una distribuci´n de Bernoulli de n o par´metro 0. Definici´n La distribuci´n binomial aparece cuando se dan las condiciones o o siguientes: Tenemos un primer experimento aleatorio simple. donde el s´ ımbolo ∼ se utiliza para “sigue una distribuci´n”. es decir una situaci´n con dos sucesos posibles A y Ac (o ocurre A o no o ocurre A). p). se ha repetido 10 veces el experimento aleatorio simple “escojo una pieza en la producci´n” al que va asociado una situaci´n dicot´mica: o o o c = “la pieza o bien ocurre A=“la pieza escogida es defectuosa”. asocio la variable X que toma el valor 1 si el fichero se transmite correctamente y 0 si resulta da˜ado. en promedio 3 de cada 10000 ficheros transmitidos resultan da˜ados. Ejemplo. P(X = 0) = 1 − p P(X = 1) = p.2. Si consideramos el experimento aleatorio que consiste en escoger al azar una caja entre la producci´n.

. . ∩ An ) 1 2 = p(1 − p)n−1 + p(1 − p)n−1 + . n. n i fX (i) = P(X = i) = ( )p (1 − p)n−i . . podemos demostrar que. ∩ Ai ∩ Ai+1 n igual a pi (1 − P )n−i . 0. que es iguales. siendo el primero de ellos P(A1 ∩ A2 ∩ . . . .Funci´n puntual de probabilidad. Empecemos por calcular P(X = 0): El suceso X = 0 se puede escribir Ac ∩ Ac ∩ . + p(1 − p)n−1 = np(1 − p)n−1 De la misma manera. . . . . calculamos P(X = 1) : El suceso (X = 1) se escribe como (X = 1) = (A1 ∩ Ac ∩ . simple” o “ha ocurrido A en la segunda realizaci´n del exp. para i i = 0. . . i . . . y se denota por ( ). 1. obtenemos P(X = 1) = P(A1 ∩ Ac ∩ . la probabilidad de que o a ocurra A en el experimento simple. ∩ Ac ) ∪ (Ac ∩ A2 ∩ . . corresponde al n´mero de maneras de escoger i sucesos diferentes entre u n: es una cantidad b´sica en combinatoria. . . Propiedades Valores posibles: 0. la probabilidad P(X = i) se descompone como la suma de t´rminos todos e c ∩ . Concluimos X ∼ B(10. . . “ha ocurrido A en la primera realizaci´n del exp. n. . ∩ Ac ) ∪ . De manera similar. i = 0. . por lo tanto n 1 2 P(X = 0) = P(Ac ∩ Ac ∩ . . simple” e o Estos sucesos son independientes. . ∩ Ac . P(Ac ) = (1 − p)n . c). . y p = P(A). . . ∩ An ) 1 2 Aplicando la regla de la adici´n para sucesos incompatibles y a continuaci´n o o la regla del producto para sucesos independientes. ∩ Ac ) + . para un i cualquiera entre 0 y n. . . . . ∩ Ac ) + P(Ac ∩ A2 ∩ .3 Variable aleatoria discreta escogida es correcta”. introduzcamos los sucesos: A1 = A2 = . . . Contar el n´mero de piezas defectuosas en la caja es por u lo tanto equivalente a contar el n´mero de veces que ha ocurrido A entre las 10 u realizaciones del experimento simple. 2. simple” o . . 1. 2 n 1 n + P(Ac ∩ Ac ∩ . ∩ Ac ) = P(Ac ) . Distribuci´n . . En resumen. 45 An = “ha ocurrido A en la n-´sima realizaci´n del exp. . 1. . n fX (i) = o o P(X = i). Deducimos que la distribuci´n de X es una o distribuci´n Binomial con par´metros n = 10.01). . 1 2 n 1 n por la regla del producto para sucesos independientes. . se llama el n´mero de combinaciones a u n de n elementos tomados de i en i. ∩ Ac ). . S´lo nos queda determinar el n´mero de t´rminos en esta o u e suma. . . 2 n 1 n ∪ (Ac ∩ Ac ∩ . . Para calcular estas probabilidades.III. . .

. 1−p .3. La variable X sigue una distribuci´n geom´trica de par´metro p. ocurre A o A o o vamente. . A2 =”ocurre A en la segunda realizaci´n del experimento simo ple”.4. por la regla del producto para sucesos independientes. Utilizando resultados cl´sicos sobre suma de series geom´tricas.3. E[X] = n · p. Funci´n puntual de probabilidad de X: queremos calcular P(X = i) para o i ∈ N∗ . X puede tomar los valores 1. . III. Definici´n Es el modelo m´s sencillo para un tiempo de espera discreto: o a consideramos. etc. 1 2 i−1 y. 2. p).. i i! · (n − i)! Variable aleatoria I y se utiliza la convenci´n 0! = 1. Propiedades .46 donde ( n! n )= . deducimos P(X = i) = (1 − p)i−1 p. . V ar(X) = p2 . Escribimos o e a X ∼ Geo(p) b). Distribuci´n Geom´trica o e a).. Estamos dispuestos a realizar este experimento simple un cierto n´mero de u veces hasta que ocurra A. si X ∼ B(n. al igual que para una distribuci´n binomial. Introducimos los sucesos: A1 =”ocurre A en la primera realizaci´n del experio mento simple”. obtenemos a e E[X] = 1/p. un experimento simple o C con probabilidades p y 1 − p respecticon una situaci´n dicot´mica. o n i n−i = 1? La respuesta es s´ por el Nota: ¿se cumple que n ( ı. Introducimos la variable X:”N´mero de veces que debeu mos realizar el experimento simple hasta que ocurra A por primera vez”. Est´ claro que a P(X = i) = P(Ac ∩ Ac ∩ . Esperanza y varianza de X ∼ Geo(p). y por lo tanto binomio de Newton: (a + b)n = n ( i=1 i )a (b) n ( i=1 n i )p (1 − p)n−i = (p + 1 − p)n = 1. . var(X) = n · p · (1 − p). Ac ∩ Ai ). i Esperanza y varianza: Es posible demostrar que. i=1 i )p (1 − p) n i n−i . ..

Distribuci´n de Poisson o 47 a). sigue una distribuci´n de Poisson de par´metro λ. tal como se o a anunci´ en la definici´n.3. si utilizamos el hecho de que la suma Esperanza y varianza. Es f´cil comprobar repitiendo c´lculos similares a los del punto anterior. .a discreta. Variable continua Definici´n o Si una v. n. . . Funci´n de densidad o Presentaci´n o Queremos disponer de una manera de describir la distribuci´n de una v.a continua o . i! 1. 1.4. Propiedades Valores posibles: 0.2. III. III.a continua. Definici´n La distribuci´n de Poisson aparece en situaciones en las que se o o cuenta el n´mero de apariciones de un determinado suceso o bien en un intervalo de u tiempo dado (como el n´mero de part´ u ıculas emitidas en un segundo por un material radioactivo. Puesto que una v. . que a a la esperanza de una distribuci´n de Poisson de par´metro λ.4 Variable continua III. la variable X= “n´mero de veces que ha aparecido el suceso en un intervalo u de tiempo escogido al azar”. b). u Funci´n puntual de probabilidad: para i = 0.4. . Por otra parte. . Para una v. III. es. .4. III. hemos visto que utilizamos la funci´n o puntual de probabilidad que asocia a cada valor posible la probabilidad de que X tome este valor: el c´lculo de la probabilidad de un suceso involucra entonces una a suma de valores de la funci´n puntual de probabilidad. es decir que nos permita calcular la probabilidad asignada a cualquier suceso relacionado con X. var(X) = λ.2.4. 1.a cono tinua. λ.a X puede tomar un n´mero infinito no numerable de valores.1.4. o el n´mero de clientes que llegan a una cola en un intervalo de tiempo u dado) o bien en un recinto f´ ısico (como el n´mero de fallos en un metro de alambre u de hierro producido.4. Si λ es el n´mero medio de apariciones del suceso de inter´s por intervalo de u e tiempo. ..III. i=0 i! = e λi e−λ . es decir todos los n´meros enteros. . se puede demostrar que su varianza o o es λ tambi´n: si X ∼ P(λ) e E[X] = λ... . o a Escribimos X ∼ P(λ). . o fX (i) = P(X = i) = Podemos comprobar que de la serie de potencias +∞ λi e−λ = i=0 i! +∞ xi x. se le u llama v.1.

2 f 0..a X. que indique en qu´ zonas del espacio de los valores posibles de X es m´s probable e a que se encuentre X. para todos a y o b. La funci´n fX se llama la funci´n de densidad de la v.1 0. b P(a ≤ X ≤ b) = a fX (x)dx. III. Notar que se trata de una o o terminolog´ coherente con la analog´ mencionada anteriormente entre probabilidad ıa ıa y peso: para un cuerpo no homog´neo. En efecto. tal como est´ ilustrado en la figura siguiente: a b 0. y por lo tanto la forma del histograma debe corresponder a la forma de la densidad. a ≤ b. es adecuada. generados a partir de realizaciones de un experimento. y si nuestra descripci´n del mecanismo o de generaci´n de los datos a trav´s de un modelo para X. tal que. o o la probabilidad de que X pertenezca a una clase debe explicar la frecuencia de datos que aparecen en esta clase.48 Variable aleatoria I puede tomar un n´mero infinito no numerable de valores. Nota: Al ser fX una funci´n positiva.4 a b Valores de X Si disponemos de un conjunto de datos con una variable X. Definici´n o Para una v.2.2.4.3 0. y P(a ≤ X ≤ b) = a fX (x)dx. la o e funci´n de densidad de X tiene mucha relaci´n con el histograma. no asignaremos una probu abilidad a cada valor posible. el peso de una parte de este cuerpo se calcula e integrando la densidad en el volumen correspondiente. tal como viene reflejado en la figura: . sino que definiremos una “densidad” de probabilidad.a continua X existe una funci´n fX positiva.0 0. la probabilio dad de que X est´ entre a y b corresponde al ´rea debajo de la curva de fX e a comprendida entre a y b.

Por lo tanto. .2 calcula para todo real t la probabilidad de que X tome un valor o menor o igual que t: FX (t) = P(X ≤ t). en los puntos donde existe.a continua. Propiedades a). de la funci´n de distribuci´n acumulada o o t → FX (t). o si X es una v.2 0. puesto que la integral de fX entre a y a es cero: la distribuci´n de una o v.0 0.1 0. !Por supuesto este tipo de igualdades no es v´lida en general para una v. la probabilidad de que tome un valor dado a es nula. P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a < X < b) = P(a ≤ X < b). y es igual a 1: +∞ fX (x)dx = 1.a a discreta! III.3 −2 −1 0 x 1 2 El ´rea total debajo de la curva de fX debe corresponder a la probabilidad de a que X tome un valor real. −∞ Si X es una v. Relaciones entre fX y FX . o o ver secci´n III.a continua s´lo asigna probabilidades positivas a intervalos de valores y no o a puntos individuales. o equivalentemente.a continua.3.2. FX es una primitiva de fX . fX se puede calcular como la derivada.III. En particular deducimos por la regla de la adici´n que.4 Densidad 0.4.4 Variable continua 49 Densidad y histograma 0. La funci´n de distribuci´n acumulada de X es. Por la definici´n de la funci´n de densidad o o fX deducimos que t FX (t) = −∞ fX (x)dx.

Condiciones para que una funci´n f sea la funci´n de densidad de o o una v. Si nos preguntamos precisamente cu´l es la proporci´n de dispositivos en la a o producci´n que duran entre 1000 y 2000h.a continua con una funci´n de o densidad dada por e−x si x > 0 fX (x) = 0 en otro caso.a e X con funci´n de densidad igual a f . Medidas num´ricas asociadas a una v. Seg´n nuestro modelo. La representaci´n gr´fica de fX es o a Notar que por la gr´fica de esta funci´n de densidad.50 Variable aleatoria I b).a continua e De la misma manera que para distribuciones de variables en un conjunto de datos. o III. Despu´s de un o a e estudio. por ejemplo [−2. 2. .2. Est´ claro que. o que es mucho menos probable que un dispositivo dure entre 4000 y 5000 horas que dure entre 1000 y 2000h. +∞ −∞ f (x)dx Se puede demostrar que son tambi´n condiciones suficientes para que exista una v.a X. debemos calcular o 2 2 P(1 ≤ X ≤ 2) = 1 fX (x)dx = 1 e−x dx = [−e−x ]2 1 0.a como una v.4. alrededor del 23 % de la producci´n tendr´ una duraci´n u o a o entre 1000 y 2000 horas. se pueden resumir algunas caracter´ ısticas de las distribuciones de variables asociadas a experimentos aleatorios. −3] u es nula (la densidad de probabilidad es nula en R− ).235. para que una funci´n f sea la funci´n de a o o densidad de una v. para todo x ∈ R.4.3.a continua X. se opta por modelizar esta v.4. Ejemplo El tiempo de vida expresado en miles de horas de un dispositivo electr´nico o escogido al azar en la producci´n de una f´brica es una v. f (x) ≥ 0. es necesario que se cumplan las dos condiciones: 1. = 1. III.a continua X. comprobamos que la probabilia o dad de que X pertenezca a un intervalo de n´meros negativos.

es conveniente definir para una funci´n o g de X la esperanza de g(X): +∞ E[g(X)] = −∞ g(x)fX (x)dx. Varianza . Esperanza 51 Sea X una variable con densidad f . definimos la media de X.4.III. m´s pr´ctica para a o a a el c´lculo: a +∞ 2 σX = E[X 2 ] − (E[X])2 = x2 · fX (x)dx − (E[X])2 . se o e e interpreta como el centro de gravedad de la distribuci´n. −∞ Al desarrollar la integral. es f´cil obtener la f´rmula alternativa. III. ver figura III.1: La esperanza es el centro de gravedad Tal como lo hicimos para una v. Es una medida de centro de la distribuci´n si ´sta es relativamente sim´trica.3. Otra vez o es coherente con la analog´ entre el peso y la probabilidad.2.4.4 Variable continua III.a discreta.Desviaci´n t´ o ıpica La varianza se define como el promedio de la distancia al cuadrado entre X y su media: +∞ 2 σX = var(X) = E[(X − µX )2 ] = (x − µX )2 f (x)dx. ıa E[X] E[X] Figura III.1.3. −∞ .1. como +∞ µX = E[X] = −∞ x · f (x)dx. tambi´n llamada e esperanza o valor esperado.

a.a X que tenga o a esta funci´n de densidad se llama una v.a uniforme entre a y b. El comando “RANDOM” de varios lenguajes de programaci´n. b].4. esta constante deber´ ser igual a 1/(b − a). hemos descompuesto la integral inicial seg´n los intervalos de definici´n de fX . Variable aleatoria uniforme El modelo de v.1.3. sustiu o tuido la expresi´n de fX en las integrales resultantes.4.4. III. b].52 Variable aleatoria I 2 y la desviaci´n t´ o ıpica es σX = σX . sin que favorezca ninguna zona u del intervalo [a. III. y constante en el intervalo [a. calculamos la varianza de X: +∞ var(X) = E[X 2 ] − (E[X])2 = 0 + 0 x2 · e−x dx − 1 = 1. b]). b] ser´ sencillamente proe a porcional a su longitud. Tenemos que o o +∞ E[X] = −∞ x · fX (x)dx = 0 −∞ x · fX (x)dx + =0+ +∞ x 0 +∞ x 0 · fX (x)dx · e−x dx = 1. Una v.2. continua m´s sencillo corresponde a la situaci´n en la que X a o puede tomar cualquier valor entre dos n´meros a y b.a uniforme? .a continua a Algunas situaciones de modelizaci´n presentan rasgos comunes y se han estableo cido modelos “est´ndar” que resultan adecuados para distintos contextos.4. Para que el ´rea total debajo a de la curva de densidad sea igual a 1. o De la misma manera.4. Lo denotaremos por o X ∼ U([a. simula una variable uniforme entre 0 y 1.4.2. queremos que la funci´n de densidad de X o sea nula fuera de [a. Intuitivamente.3. La probabilidad de que X est´ entre a y b ser´ igual a 1. Un ejemplo Calculemos la duraci´n media y la desviaci´n t´ o o ıpica en el ejemplo de la duraci´n o de los dispositivos electr´nicos de la secci´n III.4. y calculado por partes la ultima o ´ integral que aparece. La desviaci´n t´ o ıpica mide la dispersi´n de la distribuci´n de los valores de X o o respecto a su media. b]. La a funci´n de densidad ser´ por lo tanto dada por: o a fX (x) = 1 (b−a) 0 si a ≤ x ≤ b. La representaci´n gr´fica de fX se encuentra en la figura III. que tambi´n aparece o e en casi todas las calculadoras cient´ ıficas. mientras e a que la probabilidad de que est´ en un subintervalo de [a. Modelos m´s comunes de v. La duraci´n media de los dispositivos es por lo tanto de 1000h. ¿Puede ser realmente una v. a III. en otro caso.

consideramos la v.2. . la distribuci´n de la v.III.2: Densidad de una v.a X ∼ U([a.4.4 Variable continua 53 Figura III. a a ¿cu´nto piensa que vale E[X]?. Modelo exponencial a).a X que mide el tiempo entre dos ocurrencias consecutivas del suceso. Antes de llevar a cabo los c´lculos. y examinando la gr´fica de la densidad de X. o entre dos llegadas de clientes en una cola.a de Poisson (ocurrencias o de sucesos aleatorios en el tiempo). b]) es var(X) = (b − a)2 .a uniforme Por otra parte calculemos la esperanza y la varianza de una v. b]).a X se llama distribuci´n o o exponencial de par´metro λ y se denota por a X ∼ Exp(λ).a X ∼ U([a. 12 es decir que la desviaci´n t´ o ıpica es sencillamente proporcional a (b−a). Definici´n En el mismo contexto que para una v. otro resultado natural. Dos ejemplos corresponden al tiempo entre dos emisiones consecutivas de una part´ ıcula por un material radioactivo.4. Se deja en ejercicio al lector comprobar que la o varianza de una v. a +∞ E[X] = −∞ x · fX (x)dx = 0 + = b a x · 1 b−a dx +0 b2 −a2 2 · 1 b−a = a+b 2 ¿Corresponde con su intuici´n?. denotando por λ el n´mero medio de ocurrenu cias por intervalo de tiempo. ¿no? III.

Propiedad de falta de memoria de la distribuci´n exponencial. hemos notado que P(X > t) = e−λt .4. Variable aleatoria I Su gr´fica es parecida a la del ejemplo de la secci´n III. Demostraci´n: Por la definici´n de la probabilidad condicionada. FX (t) es nula. Propiedades La funci´n de densidad de una v. La distribuci´n o o exponencial tiene una propiedad particular: “olvida su pasado”. P(X > t1 ) Por otra parte.54 b)... Llega un cliente. Deducimos que.a X ∼ Exp(λ) es o fX (x) = λe−λx si x > 0 0 en otro caso. En particular. Esperanza y varianza. si t ≥ 0. Han pasado tres minutos y no ha llegado. e−λt1 . o o t FX (t) = −∞ fX (x)dx. supongamos que X ∼ Exp(λ) y modeliza el tiempo entre dos llegadas sucesivas de clientes en una cola. var(X) = 1/λ2 . si t < 0.4. De hecho. tenemos que P(X > t) = e−λt .. a P(X > t1 + t2 |X > t1 ) = P(X > t2 ). a Funci´n de distribuci´n acumulada. puesto que el suceso (X > t1 + t2 ) est´ incluido en el suceso a (X > t1 ). utilizando la integraci´n por partes que o o E[X] = 1/λ. Por lo tanto P(X > t1 + t2 |X > t1 ) = e−λ(t1 +t2 ) = e−λt2 = P(X > t2 ). o o P(X > t1 + t2 |X > t1 ) = P((X > t1 + t2 ) ∩ (X > t1 )) . la probabilidad de que tenga que esperar por lo menos otro minuto m´s (es decir que el tiempo a transcurrido entre las dos llegadas sea mayor que cuatro minutos) es la misma que la probabilidad de que X sea mayor que 1 minuto: ¡el hecho de saber que ya he esperado 3 minutos no cambia la probabilidad de que todav´ tenga que ıa esperar otro minuto m´s! Es decir. Pero al calcular un poco m´s arriba la funci´n de distribuci´n acumulada de una distribuci´n a o o o exponencial. mientras que.4. t2 > 0. para todos t1 > 0.2. y espero hasta que llegue el siguiente cliente. resulta a o que la densidad de este ejemplo es la densidad de una distribuci´n exponencial o de par´metro λ. Para todo t. Demostramos de la misma manera que para el ejemplo de la secci´n III. el denominador es sencillamente P(X > t1 + t2 ).2.4. t FX (t) = 0 + 0 λe−λx dx = 1 − e−λt .. M´s concrea tamente.

La distribuci´n Normal es.4. En e particular deducimos que P(X ≥ µ) = P(X ≤ µ) = 1/2. est´ t´ a ıpicamente presente cuando se modeliza los valores proporcionados por un aparato de medici´n.3. Para ello. o a Figura III. o o b).4. . etc.III.3.) En particular. ver secci´n I. La curva de la densidad Normal nunca se cruza con el eje Ox.3: Densidad Normal Si X sigue una distribuci´n Normal de par´metros µ y σ 2 .4 Variable continua III.2. Newcomb que estudiamos en el Tema 1. En la figura III.3. sin dudas.a X o u u sigue una distribuci´n Normal de par´metros µ y σ 2 si su densidad es o a f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 . la v. despu´s de omitir los e dos datos at´ ıpicos −44 y −2. la distribuci´n m´s utilizada en situaciones o o a pr´cticas: aparece en la inmensa mayor´ de los procedimientos estad´ a ıa ısticos que se llevan a cabo de manera rutinaria (control de calidad. Definici´n Sea µ un n´mero real y σ 2 un n´mero real positivo. ver Figura III. se ha ajustado una curva Normal al histograma de los datos recogidos por Newcomb. cuya representaci´n gr´fica es la famosa “campana de Gauss”. escribiremos X ∼ o a N (µ.4.1. hemos fijado el valor de µ y σ 2 bas´ndonos a en el centro y la dispersi´n de la distribuci´n de los datos experimentales. De hecho. La distribuci´n Normal o 55 a).. si consideramos los datos de las mediciones o de la luz por S. Propiedades La curva de la densidad Normal es sim´trica respecto al eje vertical x = µ. podemos o comprobar que las frecuencias de aparici´n de los datos experimentales se ajustan o bastante bien a un modelo Normal. mediciones. σ 2 )..

997. E[X] = µ. 2πσ 2 para obtener P(a < X ≤ b).04 0. lo que queda reflejado en la figura III. σ 2 ).95 0. Tambi´n existen calculadoras estad´ e ısticas.06 −40 −20 0 Mediciones 20 40 Figura III. Se debe por lo tanto recurrir por lo o o tanto a aproximaciones num´ricas de la integral e b dx. a √ 1 e− (x−µ)2 2σ 2 A pesar de que no exista una expresi´n simple para las probabilidades asociadas o a una distribuci´n Normal. el 95 % entre µ − 2σ y µ + 2σ. o en general para su funci´n de distribuci´n.00 0. . Los programas inform´ticos de an´lisis de datos a a como R disponen de algoritmos que permitan calcular para cualquier t la probabilidad P(X ≤ t).7 % entre µ − 3σ y µ + 3σ.5: el 68 % del ´rea debajo de la curva a Normal est´ comprendida entre µ − σ y µ + σ. es muy util conocer la regla siguiente: si X es una o ´ 2 ). mediciones de Newcomb 0. a y el 99.4: Ajuste de una densidad Normal al histograma de Newcomb Esperanza y varianza: Es posible comprobar que. tenemos Normal N (µ.08 Frecuencias 0.02 0.68 0.56 Variable aleatoria I Histograma. y por lo tanto no hay expresi´n simple para calcular la o probabilidad de que una variable Normal pertenezca a un intervalo dado. σ P(µ − σ ≤ X ≤ µ + σ) P(µ − 2σ ≤ X ≤ µ + 2σ) P(µ − 3σ ≤ X ≤ µ + 3σ) 0. La funci´n fX no admite primitiva en o o o una forma cerrada. Funci´n de distribuci´n acumulada. var(X) = σ 2 . si X ∼ N (µ.

. o El c´lculo de probabilidades para una distribuci´n Normal con par´metros µ a o a 2 se basa en la siguiente propiedad que no demostraremos: yσ Propiedad: Si X ∼ N (µ.9) 0. para todo t.13 P(−1 ≤ Z ≤ 1) 0. 1) se llama tipificar la variable X. 1). σ 2 ). utilizamos la simetr´ de la ıa distribuci´n normal que implica que.7 % c).a X tipificada.68) 0. e Notar que en la tabla s´lo aparece valores de φ(t) para valores positivos de o t.5: Regla del 68 % .7% µ − 3σ µ + 3σ µ + 2σ µ+σ Figura III. σ 2 ) a Z = X−µ ∼ N (0. σ y la variable Z se llama la v. ¿C´mo calcular probabilidades asociadas a una distribuci´n Normal o o (i) Para una distribuci´n Z ∼ N (0. La tabla para valores de φ est´ incluida en el a a ap´ndice de este tema.4 Variable continua 57 µ 68% µ−σ 95% µ − 2σ 99. o La distribuci´n Normal con par´metros µ = 0 y σ 2 = 1 se llama distribuci´n o a o Normal est´ndar.5) 0. o Pasar de X ∼ N (µ.9963 P(Z ≤ 1. Su funci´n de distribuci´n acumulada se denota por φ y los a o o valores de φ est´n tabulados.3) 0.1 ≤ Z ≤ 1.9 ≤ Z ≤ −0.04 P(−0. σ 2 ).1841 P(1.III. Comprobar con la tabla que sabeis calcular las probabilidades siguientes: P(Z ≤ 2.68 (ii) Para una distribuci´n X ∼ N (µ.95 % .12) 0. Para deducir φ(t) para valores negativos de t. o φ(−t) = 1 − φ(t).99. la variable Z= X −µ σ sigue una distribuci´n Normal con media 0 y varianza 1.8686 P(Z ≤ −0.

p). e Supongamos por ejemplo que X ∼ N (µ = 1.4. Si n · p ≥ 5 y n(1 − p) ≥ 5. con la f´rmula o para todo x. Por ejemplo.a.5) = P( X −µ 1.5. Para conseguir una equivalencia. tal como est´ ilustrado en la Figura III.5] para la v. a Para algunas combinaciones de valores de n y p.5” que aparece en el t´rmino de la derecha de la f´rmula corresponde e e o a la llamada “correcci´n por continuidad”: aproximamos la distribuci´n de una v. 0. Consideramos una v. resulta que la distribuci´n o Binomial se puede aproximar de manera satisfactoria por una distribuci´n normal. e o supongamos que X ∼ B(100. . 0. que siguen siendo muchos c´lculos. Binomial X corresponde al intervalo ]x − 0. se puede aproximar de manera satisfactoria la distribuci´n de X por la distribuci´n de o o W ∼ N (µ.25 − 1 ≤ ) = P(Z ≤ ) = P(Z ≤ 0.25 − µ 1. Tenemos P(X ≤ 1.68.a X ∼ B(n.5 − µ ≤ ≤ ) σ σ σ = P( 0. .5−1 0. podemos considerar que un valor entero x para la v. el c´lculo de o a probabilidades asociadas a una distribuci´n Binomial X puede resultar laborioso si o ´stas requieren evaluar la funci´n puntual de X en muchos valores. Aproximaci´n de una distribuci´n Binomial por una distribuo o ci´n Normal o En el caso en que s´lo disponemos de una calculadora sencilla.4. .69. que s´lo puede tomar valores enteros por una v.25).5 − µ 0. 1.a.25) = P( y P(0. tipificando la v.5−1 ≤ Z ≤ 0. X.6.a continua W que puede o tomar cualquier valor real. reescribiremos el suceso de inter´s.5 ) X −µ 1.5 = P(−1 ≤ Z ≤ 1) III. P(X = 100)) o pasando al suceso complementario 15 probabilidades. el c´lculo de P(X ≥ 15) implica que calculemos a 86 probabilidades individuales (P(X = 16). Figura III. con µ = n · p y σ = n · p(1 − p).5) σ σ 0..a Binomial X ∼ B(n. o Propiedad. σ).1).4. σ 2 = 0.6: Aproximaci´n de una distribuci´n Binomial por una distribuci´n Noro o o mal .a Normal W . podremos hacer como si X tuviera una distribuci´n normal.5 ≤ X ≤ 1.. x + 0. . P(X = 17). p).a o o discreta. El t´rmino “+0.5 0. para unos pocos a valores de X. P(X ≤ x) P(W ≤ x + 0.58 Variable aleatoria I Para calcular una probabilidad relacionada con X.5). o es decir que para calcular la probabilidad de un suceso relacionado con una v.

a continua que se cumplen las siguientes propiedades: E[aX + b] = aE[X] + b var(aX + b) = a2 var(X) σaX+b = |a|σX Intuitivamente son resultados naturales: si multiplico todos los valores de una v.5 ≤ W ≤ 14. a2 La primera desigualdad se interpreta de la manera siguiente: sabemos que una proporci´n de los datos de al menos V ar(X)/a2 se encuentra en el intervalo µX ± a.5) 59 III. o mientras que la segunda desiguald se lee: una proporci´n de los datos de como mucho o V ar(X)/a2 se encuentra fuera del intervalo µX ± a. P(|X − µX | ≤ a) ≥ 1 − V ar(X) . a2 Deducimos tambi´n una cota para el suceso complementario: e Para cualquier a > 0. u ıcil utilizando las definiciones de esperanza y varianza tanto para v.5 < W ≤ 15. o Finalizamos con un ultimo resultado asociado a la varianza de una variable: la ´ desigualdad de Chebichev: Propiedad:Sea cual sea la distribuci´n de X. P(|X − µX | ≥ a) ≤ V ar(X) . tenemos la siguiente cota para la probabilidad de que X est´ en un intervalo e centrado en su media µX : Para cualquier a > 0.5.5) P(W ≤ 16. Sean a y b dos n´meros reales.5 Algunas propiedades utiles de la esperanza y la varianza ´ En particular deducimos de esta figura que aproximaremos las probabilidades relacionadas con X de la manera siguiente: P(X = 15) P(X > 15) P(X ≥ 15) P(X ≤ 16) P(X < 16) P(13 ≤ X < 15) P(14. si conocemos el valor de la varianza o de X. No es dif´ demostrar. puesto que la traslaci´n de los datos o o no cambia su dispersi´n. y X una variable aleatoria.a discreta como para v. Algunas propiedades utiles de la esperanza y la ´ varianza Acabamos el cap´ ıtulo con una secci´n “caj´n de sastre” en la que mencionamos o o algunos resultados sobre esperanza y varianza.a por a y traslado el resultado de b unidades.5) P(W ≤ 15.5) P(12.III.5) P(W ≥ 15. mientras que la dispersi´n o (la desviaci´n t´ o ıpica) s´lo se multiplica por |a|.5) P(W ≥ 14. el centro de gravedad de los datos (la esperanza) se multiplica por a y se traslada de b unidades. .

9971 0.26 0.64 1.66 2.96 1.16 2.9941 0.9452 0.9990 0.9846 0.6628 0.00 0.08 2.74 0.9306 0.50 2.62 1.30 3.34 1.44 1.78 1.9838 0.8051 0.9904 0.82 1.7704 0.9699 0.9750 0.9963 0.9032 0.7324 0.9222 0.08 1.82 2.74 1.9686 0.52 0.06 2.9192 0.9951 0.9641 0.54 1.02 2.9671 0.8554 0.76 2.6255 0.54 2.40 2.8264 0.9608 0.9332 0.62 0.5557 0.14 1.56 1.86 0.02 0.5000 0.9913 t 2.86 2.9980 0.64 2.20 3.02 1.7881 0.16 0.5080 0.6915 0.9985 0.9993 0.5398 0.9066 0.24 0.18 0.36 2.66 1.30 2.9918 0.80 1.8925 0.12 1.8599 0.44 0.7123 0.28 2.9495 0.9934 0.52 1.9881 0.94 2.9948 0.6480 0.9591 0.56 2.9812 0.34 2.6844 0.20 0.04 2.72 2.58 0.32 0.8413 0.96 2.38 .9830 0.9357 0.94 0.78 P(Z ≤ t) 0.68 1.90 1.60 2.84 2.8212 0.9931 0.9554 0.9959 0.50 1.8159 0.46 0.6103 0.60 1.22 1.9909 0.9783 0.68 0.70 1.10 3.38 1.42 2.9406 0.78 2.5160 0.9986 0.9953 0.26 1.8770 0.9893 0.32 1.9976 0.10 1.6406 0.8365 0.10 2.30 0.08 0.8888 0.8643 0.90 0.9974 0.62 2.0000 1.52 2.7054 0.9793 0.48 2.64 0.5714 0.88 2.92 0.70 0.7257 0.34 0.9987 0.8962 0.9945 0.5871 0.40 0.7764 0.8729 0.96 0.9997 0.9979 0.9868 0.76 1.6700 0.9279 0.9984 0.10 0.9099 0.36 1.20 1.7823 t 0.00 1.9875 0.80 2.72 1.22 2.72 0.84 1.9898 0.9726 0.98 3.5319 0.82 0.76 0.9961 0.9625 0.9973 0.24 1.66 0.8508 0.9969 0.9995 0.7580 0.68 2.7939 0.70 2.6554 0.9738 0.9998 0.50 3.00 2.80 4.6772 0.8461 0.42 0.9999 1.58 P(Z ≤ t) 0.9251 0.9938 0.9887 0.14 2.7517 0.18 2.8106 0.44 2.7995 0.9772 0.9861 0.8315 0.9967 0.26 2.00 4.28 0.9927 0.38 0.16 1.9821 0.60 0.06 1.8810 0.94 1.9922 0.9998 0.9131 0.6026 0.40 3.28 1.9803 0.9761 0.88 0.98 1.88 1.60 3.9656 0.7642 0.8686 0.9474 0.74 2.7389 0.58 2.9429 t 1.30 1.98 2.06 0.50 0.56 0.9981 0.8997 0.00 3.9854 0.0000 t 0.9382 0.9573 0.60 Distribuci´n Normal: o t Variable aleatoria I P(Z ≤ t) = φ(t) = −∞ 1 −x2 √ e 2 dx 2π P(Z ≤ t) 0.9956 0.22 0.5478 0.92 2.46 2.5239 0.48 1.90 2.54 0.9535 0.6985 0.9713 0.9977 0.12 2.86 1.40 1.12 0.9162 0.7454 0.46 1.84 0.32 2.80 0.9515 0.6331 0.6179 0.5793 0.9965 0.14 0.9982 0.50 P(Z ≤ t) 0.92 1.04 0.24 2.5948 0.04 1.42 1.48 0.18 1.8849 0.20 2.36 0.5636 0.7190 0.

Introducci´n o Es frecuente que haya m´s de una variable aleatoria de inter´s asociada a un a e experimento aleatorio. Para el caso particular en que n = 2. . X2 . . . multidimensional consiste en asignar una o probabilidad a sucesos conjuntos. IV. . mientras que si cono sideramos las distribuciones de X e Y por separadas. . . . es decir sucesos que involucren X1 . Describir la distribuci´n de una v.. Y ). . En este tema nos centraremos sobre todo en el caso de una variable bidimensional. hablamos de distribuciones marginales de X y de Y respectivamente.a. formaremos el vector aleatorio X = (X1 . Supongamos por ejemplo que consideramos n variables X1 . .1. En este caso hablamos de distribuci´n conjunta de (X. Un ejemplo de suceso asociado a la distribuci´n conjunta de X e Y es (X +Y > 3) o o (X = 1 ∩ Y > 2) mientras que el suceso (X > 5) y el suceso (Y = 4) hacen referencia a las distribuciones marginales de X y de Y respectivamente. X2 . basta con describir la probabilidad de los sucesos (X = x) ∩ (Y = y). . hablaremos de variable aleatoria bidimensional. X2 .TEMA IV Variable Aleatoria II IV. Xn .2. Xn ). Diremos que X es una variable aleatoria multidimensional. Variable bidimensional discreta Si tanto X como Y son variables discretas. Xn . Lo realizaremos a trav´s de la funci´n puntual de e o probabilidad conjunta de X e Y : .

IV.2. Los valores que toma una funci´n puntual de probabilidad conjunta se pueden o presentar en una tabla: X 0 1 2 120 0.1.1. fX (xi ) = yj fXY (xi .p. Y ) a trav´s de una tabla como o e la descrita en el apartado IV. En efecto. fXY (xi .1. yj ). xi fY (yj ) = Se suele representar en la misma tabla de la f. Tenemos por lo tanto las relaciones siguientes: ∀xi . Y ) asocia a cualquier par de o valores (x.62 Mathieu Kessler: M´todos Estad´ e ısticos IV.1.03 0.06 0 Y 140 0.1 0 Deducimos en particular de esta tabla que la probabilidad que X tome el valor 0 y a la vez Y tome el valor 140 es igual a 140. IV. yj ) ≥ 0.2. IV.2. yj ).21 130 0.3. y) sea la funci´n puntual de probabilidad o o conjunta de una variable bidimensional discreta (X. Y ) es necesario y suficiente que cumpla 1. y) = P ((X = x) ∩ (Y = y)) .1. yj . y) la probabilidad del suceso ((X = x) ∩ (Y = y)).2. podemos calcular la distribuci´n de X o de Y o por separado: ´stas se llaman las distribuciones marginales. ∀yj .p.2.1 0. Funci´n puntual de probabilidad conjunta o Definici´n o La funci´n puntual de probabilidad conjunta de (X. Relaci´n entre funciones puntuales de probabilidad conjunta o y marginales Si conocemos la distribuci´n conjunta de (X.15 0. La denotamos fXY (x. fXY (xi .05 0.1.1 0 150 0. 2. xi yj fXY (xi . para calcular e P(X = 0) por ejemplo.2. y) → f (x. conjunta de la manera siguiente: .1. basta con utilizar P(X = 0) = P(X = 0 ∩ Y = 120) + P(X = 0 ∩ Y = 130) + P(X = 0 ∩ Y = 140) + P(X = 0 ∩ Y = 150) = 0. ∀xi .48.2 0. Propiedad Para que una funci´n f : (x. yj ) = 1.

Y )] = xi yj g(xi . yj ). y) = 2e−x e−2y si x > 0 y y > 0.d] fXY (x. IV.1 0.2 0.2.1. Modelizamos su distribuci´n conjunta a o trav´s de la funci´n de densidad siguiente e o fXY (x.1. y) una funci´n de dos variables que toma sus valores en R.29 130 0.IV. o Definimos la esperanza ( o media.48 0.06 0 0.3 Variable bidimensional continua X 0 1 2 fY 120 0. yj )fXY (xi .1.2.21 0.05 0.3 fX 0. o valor promedio) de g(X.3. Y ) es una funci´n fXY que permite o o calcular la probabilidad de cualquier suceso de la forma (a ≤ X ≤ b) ∩ (c ≤ Y ≤ d) a trav´s de la f´rmula: e o P ((a ≤ X ≤ b) ∩ (c ≤ Y ≤ d)) = x∈[a.1 0 0. Y ). 0 en otro caso.25 150 0. o valor esperado.1 0 0.2.16 Y 140 0. Variable bidimensional continua Consideramos ahora el par (X.21 63 IV. IV.a continuas. Y ) donde X e Y son ambas v. introducimos la funci´n de densidad o o conjunta. .31 0. IV.15 0. Y ) como E[g(X.b] y∈[c.1. Funci´n de densidad conjunta o Definici´n. y)dxdy.3. o La funci´n de densidad conjunta de (X. Ejemplo Consideremos un experimento que consista en producir dos componentes de dos tipos. y denotamos por X e Y el tiempo de vida en miles de horas del primer y segundo componente respectivamente.3.3. y) → g(x.03 0. xi yj = IV. Esperanza Sea g : (x. yj )P(X = xi ∩ Y = yj ) g(xi . Para describir la distribuci´n conjunta de (X.

+∞ −∞ +∞ f (x. y por lo tanto fX (x) = 0 tambi´n.54. Relaci´n entre funciones de densidad conjunta y marginales o Al igual que para una v. por ejemplo. y) = 0 para todo y.1. fX (x) = −∞ +∞ fXY (x. y) ≥ 0. y)dxdy = 1. f (x.2. La funci´n de densidad conjunta es o fXY (x.64 Mathieu Kessler: M´todos Estad´ e ısticos Para calcular la probabilidad de que ambos componentes duren menos de 1000 horas. ∀x. debemos integrar respecto de la otra variable. fXY (x.a discreta. 1 1 P((X < 1) ∩ (Y ≤ 1)) = −∞ −∞ 1 1 fXY (x. ∀y.1.4. y)dxdy 2e−x e−2y dxdy = (1 − e−1 )(1 − e−2 ) 0. fXY (x. y)dy. pero ahora en lugar de sumar. 0 en otro caso. Tenemos por lo tanto las relaciones siguientes: +∞ ∀x. y) con valores en R sea la funci´n de o o densidad conjunta de una v. = 0 0 IV. −∞ fY (y) = Calculemos para ilustrar estas f´rmulas las densidades marginales de X y de Y o para el ejemplo del apartado IV. −∞ IV.3. y)dy.3.3. es necesario y suficiente que cumpla 1. y. y) = 2e−x e−2y si x > 0 y y > 0. fX (x) = −∞ fXY (x. y) → f (x. Si x ≤ 0. Deducimos la densidad marginal de X: +∞ ∀x.3. e Si x > 0. y)dx.1. se puede obtener de la funci´n de densidad o conjunta las funciones marginales. 2. .a bidimensional continua. +∞ fX (x) = = e 0 −x 2e−x e−2y dy = e−x −e−2x +∞ 0 . Propiedades Para que una funci´n f : (x.

bidimensional discreta. . Distribuciones condicionadas Consideremos un experimento al que va asociada una v. . .. y)dy dx + −∞ +∞ y −∞ fXY (x. En particular podemos calcular por ejemplo la esperanza de la suma de dos variables: +∞ +∞ E[X + Y ] = −∞ +∞ −∞ +∞ (x + y)fXY (x. donde hemos utilizado para el ultimo paso la relaci´n entre funciones de densidades ´ o marginales y conjunta del apartado IV. y)dxdy. Yn = Xn + εn .3. Como resultado observo Y1 = X1 + ε1 .a. pero no puedo observar directamente los valores de n X sino a trav´s de un aparato de medici´n que induce una perturbaci´n aleatoria. . . Yn . sobre la e e o a distribuci´n de los posibles valores de X? o Un contexto t´ ıpico en ingenier´ en la que se da esta situaci´n es el siguiente: me ıa o interesa un se˜al X1 .3. Y ). . . Obtener esta distribuci´n condicionada se llama realizar o el filtrado de la se˜al Y1 .a bidimensional discreta Sea (X. . . bidimensional o (X. Hemos por lo tanto demostrado una relaci´n por otra parte muy intuitiva: la media de la suma de dos variables aleatorias o es la suma de las dos medias. .IV. Por alg´n motivo. y)dxdy +∞ = −∞ +∞ x −∞ fXY (x. e o o que denotaremos por ε. s´lo observamos el valor de Y y no u o ´l de X. IV. a a IV. el m´s usado en pr´ctica se llama el filtro de Kalman. Y ) se define como o o +∞ +∞ E[g(X. Yn . Y )] = −∞ −∞ g(x. . . y)dx dy = −∞ xfX (x)dx + −∞ yfY (y)dy = E[X] + E[Y ]. y)fXY (x. . . Esperanza Al disponer de una funci´n de densidad conjunta fXY para la v.a. .1. Disponiendo de los valores de Y1 . Y ) una v. persigo deducir la distribuci´n de X1 .4 Distribuciones condicionadas 65 IV. bas´ndome en el valor de Y . . Sea una funci´n g : R2 → R. . podemos calcular el valor esperado de una funci´n de las dos variables X e o Y : Definici´n.1. . . la esperanza de g(X. . ¿Qu´ informaci´n puedo deducir.2. . . . . De los filtros basados en modelos probabil´ n ısticos. .4. V. Yn . X2 . Y ).a bidimensional (X. y)dxdy + −∞ +∞ −∞ +∞ y fXY (x. . . .4. al realizar el experimento. Xn o condicionada a Y1 .4.. . . Xn . y)dxdy +∞ +∞ = −∞ +∞ −∞ x fXY (x.

25 150 0. y) fX|Y =y (x) = .21 0.a bidimensional introducido anteriormente la funci´n puntual de probabilidad de X condicionada a o Y = 130.2 0.1/0. la funci´n de densidad de X condicionada a Y = y.1 0 0.a. para un valor o y > 0 gen´rico.29 130 0.2.06 0 0.375 2 0/0. Obtuvimos que e o la densidad marginal de Y . Mathieu Kessler: M´todos Estad´ e ısticos Definici´n de la funci´n puntual de probabilidad condicionada o o Sea y un valor de Y tal que P(Y = y) > 0. si y > 0 es fY (y)2e−2y . Ejemplo Consideremos el ejemplo de la subsecci´n IV.4. Y ) una v. Calculemos. calculemos para el ejemplo de v. Consideramos un valor y para el cual fY (y) > 0. Recordemos que la tabla de las f. coincide con la densidad marginal de X.1. bidimensional continua (X.1.48 0.3 fX 0.2. Para una v.16 Y 140 0.p conjunta y marginales de (X.05 0. La funci´n de densidad de X condicionada a Y = y est´ o a definida por fXY (x.625 1 0.66 IV.2.21 Por lo tanto fX|Y =130 toma los valores: Valores posibles de X fX|Y =130 0 0.4.1.31 0. IV. Y ). en este caso.p. fY (y) Nota: la densidad de Y condicionada a X se obtiene intercambiando los papeles de X e Y en la f´rmula anterior. fX|Y =y (x) = P(X = x|Y = y) = fXY (x.16 = 0. 2e−2y fX|Y =y (x) = 0 en otro caso.3. Definici´n o Sea (X. Deducimos que la densidad que buscamos es 2e−x e−2y = e−x si x > 0.2.16 = 0 IV.2.16 = 0.1. fY (y) Para ilustrar este concepto. Observamos que.4. la funci´n puntual de probabilidad o de X condicionada a Y = y asocia a cada valor posible x de X la probabilidad del suceso X = x condicionada a (X = x).03 0. o IV.1 0 0. y) .1 0.a continua con densidad conjunta fXY .15 0. Y ) era X 0 1 2 fY 120 0.4.06/0. .a bidimensional continua Consideramos ahora una v.

5. (X. se trata de un o predictor de X.2 y b)) que permiten deducir que se trata de una funci´n de densidad (caso continuo) o puntual de probabilidad o (caso discreto). Si (X. Definici´n IV. discreta E[g(X)|Y = y] = x g(x)fX|Y =y (x). Se puede probar que para cualquier predictor h(Y ) de X se cumple E[(X − h(Y ))2 ] ≥ E[(X − h∗ (Y ))2 ]. la esperanza condicionada de g(X) o o dado Y = y se define como Si (X.3. Introducimos ahora el concepto de variables aleatorias independientes: IV. es decir que el error cuadr´tico medio que se comete al predecir X por h∗ (Y ) es el a menor de los errores posibles. para todo y. Consideramos la funci´n de Y .1. para un valor y tal que fY (y) > 0.4. Definici´n o Definici´n IV. Esperanza condicionada Es f´cil comprobar que.5 Variables independientes 67 IV. u .a.a continua +∞ E[g(X)|Y = y] = −∞ g(x)fX|Y =y (x)dx. x → fX|Y =y (x) a cumple con los dos requisitos (ver secciones III.2.4.3.a. y) = fX (x)fY (y). Las funciones fXY . hablamos de distribuci´n de X condicionada a Y = y.1 Sea una funci´n g : R → R. Y ) es una v. Si o consideramos el problema de predecir el valor de X dado que hemos observado el valor y para Y . o aunque s´lo podemos interpretar las probabilidades asociadas como probabilidades o condicionadas en el caso de una v. Denotamos.a discreta. h(Y ) dise˜ada para aproximar el o n valor de X que no hemos observado. se puede demostrar que la esperanza condicionada de X dado Y = y es el mejor predictor posible en el sentido siguiente: Llamamos predictor a cualquier funci´n de Y .5.IV.5. Por ello. La noci´n de esperanza condicionada permite en particular obtener res´menes de o u las caracter´ ısticas principales de la distribuci´n condicionada de X dado Y = y.1 Dos variables X e Y son independientes si se cumple o para todo x e y. fXY (x. Variables independientes En el tema 2 hemos definido el concepto de sucesos independientes. IV. Y ) es continua o discreta respectivamente. h∗ (Y ). por h∗ (y) la esperanza condicionada E[X|Y = y]. Tambi´n podemos por lo tanto definir la esperanza condicionada de una funci´n e o g(X) dado Y = y. Y ) es una v. fX y fY se refieren a funciones de densidad o funciones puntuales de probabilidad seg´n si la v.

IV. IV. Consecuencias pr´cticas a Si X e Y son independientes. X): el hecho de conocer el valor de una de las variables no proporciona informaci´n sobre la distribuci´n o o de valores de la otra. Y ) no depende del valor de Y (resp.2. Y ) = E[(X − E[X])(Y − E[Y ])]. o para todo x e y. y) = fX (x)fY (y): en este caso.a discreta de la secci´n IV.a bidimensional e Al disponer de un modelo para la distribuci´n conjunta de X e Y . o IV. que se cumple que. Notar que el c´lculo de cov(X. En particular. Si X e Y son independientes. Utilizando la definici´n de la esperanza de una funci´n de X e Y en el caso discreto o o y en el caso continuo.2. las variables X e Y s´ son ı independientes. IV. Por lo tanto X e Y no son independientes.1. En cambio. La noci´n de variables independientes se generaliza a m´s de dos variables de mano a era natural: X1 . Y ) = E[XY ] − E[X]E[Y ]. es f´cil a comprobar para el ejemplo de v. En el ejemplo de la v. Medidas num´ricas para una v.6.1.6. podemos describir completamente su distribuci´n conjunta si conocemos sus dos o distribuciones marginales. se puede calcular de manera sencilla la esperanza de una funci´n de X y de una funci´n de Y : o o E[g(X)h(Y )] = E[g(X)]E[h(Y )]. obtenemos la f´rmula equivalente para la covarianza o cov(X. Y ) se realiza por lo tanto de la manera siguiente a . X2 .3. 120) = o 0.1. si X e Y son independientes. Es decir que P(a ≤ X ≤ b) ∩ (c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d). deducimos que si X e Y son independientes. es f´cil comprobar que cualquier suceso asociado a con X es independiente de cualquier suceso asociado con Y .68 Mathieu Kessler: M´todos Estad´ e ısticos Deducimos en particular que.6..1.a independientes si los sucesos asociados son independientes. la distribuci´n condio cionada de X (resp.1.1. Xn son v. fXY (x. . notamos que fXY (0.03 = fX (0)fY (120). .5. es util poder o ´ recurrir a alguna medida num´rica que nos permita por ejemplo cuantificar el grado e de asociaci´n entre las dos variables.a continua de la secci´n IV. . Definiciones Covarianza La covarianza de X e Y se define como cov(X.2.

15 + 0 · 150 · 0.21 Ejemplo para una v.48 0.21 + 2 · 130 · 0 + 2 · 140 · 0 + 2 · 150 · 0 = 93.73 E[Y ] = 120 0.6.3. σX σY La correlaci´n de X e Y corresponde por lo tanto a la covarianza de las versiones o tipificadas de X e Y . X) = σX .6 Nos queda calcular E[XY ]. En particular la correlaci´n de una variable X consigo mismo o es igual a 1. IV. es X 0 1 2 fY 120 0.31 + 2 0.6. E[XY ] = 0 · 120 · 0.21 0.a bidimensional e (X.3 = 135. Y ) v. Correlaci´n o La correlaci´n de X e Y se define como o ρXY = cov(X.03 + 0 · 130 · 0. (X.1.05 0. su funci´n puntual de probabilidad o o Para calcular la covarianza de X e Y necesitamos por una parte E[X] y E[Y ] y por otra parte E[XY ].31 0.16 Y 140 0. Y ) discreta Volvamos al ejemplo de la secci´n IV.1 0 0.2.03 0. donde los sumatorios se realizan sobre los valores posibles de X e Y .IV. Y ) es una v.2 + 1 · 120 · 0. Y ) .a.2 0.2 .1 + 0 · 140 · 0.3 fX 0.06 0 0.25 + 150 0.1 0 0. continua: +∞ +∞ cov(X.1 + 1 · 150 · 0. Obtenemos utilizando las distribuciones marginales de X e Y : E[X] = 0 0.16 + 140 0. Notar tambi´n que la covarianza de una variable X consigo mismo es igual a la e 2 varianza de X: cov(X.1 + 2 · 120 · 0. y)dxdy − E[X]E[Y ].1. Y ) = x y 69 xyfXY (x.48 + 1 0.a.2.a discreta: cov(X.15 0. (X.29 + 130 0.25 150 0.21 = 0.6 Medidas num´ricas para una v.1.29 130 0. y) − E[X]E[Y ].1.06 + 1 · 140 · 0. Y ) = −∞ −∞ xyfXY (x. IV.05 + 1 · 130 · 0.1 0.

62. Algunos modelos de v. De ah´ que la correlaci´n es una medida del grado ı o de asociaci´n lineal entre dos variables. .4. Y ). Y ) = E[(X − E[X])]E[(Y − E[Y ])] = 0. Para calcular la correlaci´n o de X e Y nos hacen falta adem´s las desviaciones t´ a ıpicas de X e Y . IV.70 Mathieu Kessler: M´todos Estad´ e ısticos Deducimos que cov(X. podemos calcular las covarianzas y las correlaciones de cada par posible de variables. En cambio si ρXY = ±1. Si X e Y son independientes. dando lugar a la f´rmula de propagaci´n de los errores: o o V ar(X + Y ) = V ar(X) + V ar(Y ). se puede demostrar e que existe dos constantes a y b tal que Y = ax + b: existe una relaci´n lineal o determinista entre X e Y . .2.6 = −5.64 Matriz de covarianzas y matriz de correlaci´n o En el caso en que consideramos varias variables aleatorias X1 . IV. −5. .1.617 mientras que σY = 142. . . Xn . 2. . .7. esta relaci´n se o simplifica.1. . X2 . Se puede demostrar (ver problema n´mero 14 de la hoja de problemas de este u tema) que |cov(X.73 · 135. para dos variables cualesquiera X e Y . se suele presentar los resultados en forma de una matriz: la matriz de covarianzas de X1 .617 142.a. . Xn es la matriz n × n.78. Se comprueba 2 2 que σX = 0. multidimensional Modelo multinomial El modelo multinomial aparece como una generalizaci´n del modelo binomial: o consideremos . Y ) = 0. Usando la propiedad de linealidad de la esperanza es f´cil obtener que a V ar(X + Y ) = V ar(X) + V ar(Y ) + 2cov(X. Tambi´n implica que ρXY = 0. es decir que. cov(X.Σ cuyo elemento Σij es igual a la covarianza de Xi y Xj .6. Propiedades 1.6.64. Corr cuyo elemento Corrij es igual a la correlaci´n de Xi y Xj . En el caso particular en el que X e Y son independientes. mientras que la matriz de correlaciones de X1 . o 3. .7. . Y ) = 93. puesto que cov(X. Xn es la matriz n × n. −1 ≤ ρXY ≤ 1. Por lo tanto ρXY = √ IV. 0.2 − 0. Y )| ≤ σX σY . o IV. . 78 √ = −0.

Consideramos la variable X1 =”N´mero de veces que ha ocurrido A1 en las n u realizaciones del experimento simple.7. pnk .2. De la forma de la densidad Normal bidimensional. pk o a y n. E[X2 ] = µ2 . si (X1 .a. . . que forman una partici´n del espacio muestral. . .2. Repetimos este experimento simple n veces de manera independiente.1. µ2 ) y Σ si su densidad es a x = (x1 . ¿con qu´ par´metros? e a IV. . Σ11 = 1. . X2 ). . En la figura IV. X2 ) ∼ N (µ. etc hasta Xk =”N´mero de u veces que ha ocurrido Ak en las n realizaciones del experimento simple. . Σ). las dos componentes X1 y X2 son independientes y adem´s sus varianzas son iguales. . Proposici´n IV. . . + nk = n. Las curvas de nivel de la densidad bidimensional Normal son muy ilustrativas a la hora de visualizar las campanas de Gauss asociadas (estas campanas son en tres dimensiones). . nk ! 1 71 Se dice que (X1 . .7.1 Se cumple que. Σ es la matriz de covarianzas de (X1 . . Es f´cil comprobar que todos las distribuciones marginales de una multinomial son a binomiales. IV. X2 = n2 . . pk = P(Ak ).1. µ2 = 3. e xT Σx ≥ 0). . . Σ11 = 1. . Se puede comprobar que.IV.1 Consideremos un par de n´meros reales µ = (µ1 . Xk ) sigue una distribuci´n multinomial de par´metros p1 . . X2 ) ∼ N (µ. µ2 = 3. deducimos en particular la siguiente propiedad: Propiedad: Si (X1 .7 Algunos modelos de v. con un k sucesos posibles A1 . x2 ) → 1 1 T −1 e− 2 (x−µ) Σ (x−µ) . X2 ) sigue una distribuci´n normal bidimensional.7. m´s concretamente µ1 = 1. En la figura IV. Σ). se cumple que o X1 y X2 son independientes. . Ak . a . . . si y solamente si su covarianza es nula.2. X2 =”N´mero de veces que ha ocurrido u A2 en las n realizaciones del experimento simple. nk enteros positivos o nulos o tal que n1 + n2 + .7. para todos n1 . k n1 ! . . Xk = nk ) = n! pn1 . 2π|Σ| En este caso escribimos (X1 . multidimensional Tenemos un primer experimento aleatorio simple. . µ2 ) ∈ R2 y o u una matriz Σ 2 × 2 sim´trica y definida positiva (es decir que. a a Σ22 = 1 y Σ12 = 0. X2 ) sigue una distribuci´n Normal bidimensional con o par´metros (µ1 . . . . E[X1 ] = µ1 . El modelo Normal multidimensional Caso bidimensional Definici´n IV. . . las dos componentes X1 y X2 siguen siendo independientes pero ahora sus varianzas son distintas. m´s concretamente µ1 = 1. La variable (X1 . P(X1 = n1 . para todo x en R2 . Denotamos por o p1 = P(A1 ).

Σ11 = 1. Finalmente. µ2 = 3. si las dos componentes no son independientes. En la figura IV. Esto implica en particular que su correlaci´n es ρX1 X2 = 0. µ1 = 1. o X2 0 1 2 3 4 5 6 −2 −1 0 1 X1 2 3 4 Figura IV. . Σ11 = 1. se representan las curvas de nivel para la densidad Normal bidimensional si µ1 = 1.5 y Σ12 = 0.1: Curvas de nivel de la densidad Normal bidimensional si los dos componentes son independientes con varianzas iguales.375. Las curvas de nivel aparecen como elipses. las curvas de nivel siguen formando elipses pero sus ejes presenten un ´ngulo respecto a los ejes del a sistema de coordenada.5.3. µ2 = 3.72 Mathieu Kessler: M´todos Estad´ e ısticos Σ22 = 0.125. Σ22 = 0.25 y Σ12 = 0. Σ22 = 1 y Σ12 = 0. cuyos ejes coinciden con los ejes del sistema de coordenadas.

Σ11 = 1. . Σ22 = 0.2: Curvas de nivel de la densidad Normal bidimensional si los dos componentes son independientes. µ2 = 3. IV.25 y Σ12 = 0. . . .2.7. e La variable n-dimensional X = (X1 . multidimensional 73 X2 0 1 2 3 4 5 6 −2 −1 0 1 X1 2 3 4 Figura IV. µn ) en Rn y una matriz Σ n × n o sim´trica y definida positiva.2 Consideremos µ = (µ1 . . Caso n-dimensional Definici´n IV.7.7 Algunos modelos de v. n/2 (2π|Σ|) Se puede comprobar que la media de cada Xi es µi y que Σ es la matriz de covarianza de X.2. . pero sus varianzas son distintas. µ1 = 1.a. .IV. Xn ) sigue una distribuci´n Normal no dimensional con par´metros µ y Σ si su densidad es a x ∈ Rn → 1 1 T −1 e− 2 (x−µ) Σ (x−µ) . . .

Σ22 = 0. . µ1 = 1. . lo que implica ρX1 X2 = 0. Σ11 = 1. Acabamos el tema con una propiedad fundamental de la distribuci´n Normal o n-dimensional. µ2 = 3. llamada propiedad de reproductividad de la distribuci´n Normal. .125. . . .7.2 Si X = (X1 .5. Σ).74 Mathieu Kessler: M´todos Estad´ e ısticos X2 0 1 2 3 4 5 6 −2 −1 0 1 X1 2 3 4 Figura IV. . o ¿Podr´ caracterizar su media y su varianza? ıais Se deduce en particular de la proposici´n que las distribuciones marginales de o una variable Normal n-dimensional son todas normales. an . .375. + an Xn sigue una distribuci´n Normal. o Proposici´n IV. . se cumple que a1 X1 + a2 X2 + . para todos n´meros reales o u a1 . . . Xn ) ∼ N (µ.5 y Σ12 = 0.3: Curvas de nivel de la densidad Normal bidimensional si los dos componentes no son independientes.

. queremos determinar la proporci´n o o de gente que tiene intenci´n de ir a votar. a u Para las pr´ximas elecciones generales. Introducci´n o Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo.1. y es un par´metro de nuestro modelo. su distribuci´n se describe o como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. a Ejemplos Me interesa una moneda para tirar a cara o cruz.sofresam. Pero ¿c´mo o o o saben cu´ntos espectadores vieron un partido dado o un programa determinaa do? A m´ nunca me han preguntado. Es claramente imposible entrevistar a todas las personas del censo. a a Para sacar informaci´n sobre p y comprobar en particular que la moneda no o est´ trucada. En realidad. instala un aparato .TEMA V Muestreo y distribuciones muestrales V.. El censo electoral para Espa˜a tiene unos 32 millones de o n personas. a o El ´ ındice de audiencias manda en la programaci´n de televisi´n. escogiendo al azar una muestra de unas 3000 personas entre el censo y pregunt´ndoles si tienen intenci´n de ir a votar. posiblemente con uno o varios par´metros que tendremos que ajustar. una encuesta se realiza de ı manera autom´tica y continua: una empresa especializada llamada SOFRES a (http://www. nuestro modelo considerar´ que p = 1/2. En el caso en que confiamos a en que la moneda no est´ trucada. El experimento es “Tirar la moneda” y la variable X corresponde al resultado. p es por lo tanto la probabilidad de que salga cara. repetiremos un cierto n´mero de veces el experimento. En cambio realizaremos una encuesta.com) ha escogido al azar unos 3300 hogares que representan unas 10000 personas de entre un total de aproximadamente 39 500 000 espectadores potenciales. es decir queremos estimar la tasa o de participaci´n. En cada uno de estos hogares.

76 Mathieu Kessler: M´todos Estad´ e ısticos llamado “aud´ ımetro” que graba cu´l es el programa que se est´ viendo en cada a a momento. el resultado aparece en la ˆ figura V. ha tenido suerte de que en la a muestra que ha escogido. Por lo tanto. y encuentro que la proporci´n muestral de unos es 0. Para estimar a o µ. es decir µ.. Intento de respuesta: Consideremos el caso del sondeo en el que se busca estimar la tasa de participaci´n antes de unas elecciones. es decir. en este caso. El centro de esta distribuci´n. que representar´ el censo electoral. ser´ por lo tanto lo o a m´s representativo de la concentraci´n que intento determinar. mi estimaci´n es muy buena: estimo o la tasa de participaci´n en 71 % mientras que la aut´ntica. Para intentar convencer al lector o de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas a la poblaci´n de 32 millones no es excesivo. hago el recuento de los unos. Los unos representar´n a las personas que s´ a a ı tienen la intenci´n de ir a votar. voy a coger otra muestra al a azar de 3000 datos.1. repetir´ la medici´n varias veces. Por lo tanto este o o estudio simulado demuestra que al escoger una muestra de 3000 personas. lo que corresponde a una ˆ muy buena estimaci´n del valor de la proporci´n poblacional. se puede extrapolar el resultado con confianza a una poblaci´n o de 30 millones? Adem´s est´ claro que el resultado que obtengo depende de la a a muestra particular que haya escogido. Este hecho se llama la variabilidad muestral.72. ˆ Realizo un histograma de los 10000 valores de p. ¿no? ¿Sigue sin convencerle? Bueno. En el fichero que construyo.72. la de o e la poblaci´n (el fichero) es de 70 %.” De acuerdo. Pero para convencerle. Quiero conocer la concentraci´n de un determinado producto en una soluci´n. la proporci´n de unos sea pr´xima a la proporci´n o o o poblacional. Una primera conclusi´n se impone: la gran mayor´ de las muestras o ıa han proporcionado un valor de p entre 0. e o Pero surge una pregunta evidente: Pregunta: ¿C´mo sabemos que nuestra estimaci´n es fiable? ¿Por qu´ limit´ndose o o e a a unas 3000 personas.71. y encuentro que la proporci´n de unos en esta muestra o es de 0. o Sigue estando muy bien. ıa el argumento es v´lido. (70 % es una tasa razonable de participaci´n o en unas elecciones) Extraigo al azar una muestra de 3000 datos del fichero completo. ¿Os he convencido? Seguro que alg´n o u lector desconfiado dir´: “ no demuestra nada.. puedo repetir la extracci´n de muestras hasta 10 000 veces por ejemplo. es muy probable que el valor de la proporci´n de 1 en la muestra est´ bastante o e . si escojo otra muestra me sale otro resultado. llevo a cabo un estudio de simulaci´n: o o Construyo en mi ordenador un fichero con 32 millones de ceros y unos. pero con otra muestra podr´ salir otro resultado peor. o o Pienso que es razonable que la distribuci´n de los valores proporcionados por o mi aparato de medici´n sea una normal con media µ y desviaci´n t´ o o ıpica σ desconocidas. y guardo los valores o que encuentro para la proporci´n de 1 en cada una de estas 10000 muestras o en una variable llamada p. mientras que los ceros a los que no piensan ir a o votar. el 70 % de los 32 millones de datos son unos. mientras que el 30 % son ceros.68 y 0.

99.71 0. Quiero formular un modelo para su distribuci´n.07 + 2 × 0.70 ^ p 0.008 = 0.694 y 0. a Podemos dar un paso m´s en la utilizaci´n de este estudio simulado: si considero a o ahora el experimento “extraer una muestra de tama˜o 3000 en la poblaci´n”. Puesto que escoger una muestra de 3000 personas da tan buen resultado. se aprecia que el ajuste por una o ˆ normal con media µ = 0. De hecho en la figura V. deduzco en particular que al escoger al azar en la poblaci´n una muestra de tama˜o 3000. aunque o o o ´sta sea much´ e ısimo m´s grande que la muestra. y que la dispersi´n de los valores de a o p es mucho mayor: es m´s probable.68 0.1 Introducci´n o 77 Frecuencias 0 500 1000 1500 2000 0.72 0.7 − 2 × 0. que la proporci´n ˆ a o .70 y desviaci´n t´ o ıpica σ = 0.V. Utilizando entonces la regla de 68 % . la probabilidad de que la proporci´n o n o muestral p se encuentre entre 0.69 0. El histograma en la figura V. Repitamos por ejemplo el estudio simulado con muestras de s´lo 100 pern o sonas.2.008 = 0.716 es ˆ del 95 %.7 %.3. El histograma que obtenemos aparece en la figura V. al escoger una muestra de 100. podr´ ıamos preguntarnos si podr´ ıamos ahorrarnos algo y extraer una muestra m´s a peque˜a.67 0. Nota. Observamos que en este caso el histograma es much´ ısimo m´s chato.1: Histograma de los valores de p para 10000 muestras extra´ ˆ ıdas pr´xima (menos de dos puntos) de la proporci´n de 1 en la poblaci´n.008 es muy bueno.1 me sugiere que puedo escoger una o distribuci´n normal para p.73 Figura V.95 % . p es la n o ˆ variable “proporci´n de 1 en la muestra extra´ o ıda”.

2: Ajuste de una normal al histograma de los valores de p ˆ muestral est´ bastante alejado del objetivo 0.6 0.8 0. se dispone de un modelo para la distribuci´n o de p por ejemplo. Este ˆ .68 0.72 0.71 0.67 0.3: Histograma de los valores de p para 10000 muestras de tama˜o 100 ˆ n extra´ ıdas Toda la teor´ desarrollada acerca de los sondeos utiliza de manera crucial el heıa cho de que antes de extraer la muestra.70 phat 0.73 Figura V. e Frecuencias 0 500 1000 1500 0.7.78 Mathieu Kessler: M´todos Estad´ e ısticos Densidad 0 10 20 30 40 0.69 0. tal como lo hemos ilustrado con nuestro ejemplo simulado.9 Figura V.7 ^ p 0.

¯ Esperanza y varianza de X Esperanza Tenemos que 1 1 X1 + . llamada media muestral. la varianza poblacional . . . . o V. Al querer obtener informaci´n sobre alg´n par´metro del modelo que hemos escogido para la distribuci´n o u a o de los valores de X.1.2 Muestra modelo permite en particular decidir si. + Xn ] = (E[X1 ] + .a X. . el tama˜o de la muestra es suficiente o n como para que el riesgo de cometer un error mayor es lo suficientemente peque˜o. . Escogeremos una muestra.3. . . Cualquier cantidad calculada a partir de las observaciones de una mueso tra se llama estad´ ıstico. .3. Xn “valor de X obtenido en la n-´sima realizaci´n del experimene o to”. Xn son independientes y claramente la distribuci´n o de cada variable Xi coincide con la distribuci´n de X. . 79 V. X2 . Xn ) constituye una muestra aleatoria simple de la distribuci´n de X. . deducio o mos que E[X1 ] = . y calcularemos la media de esta muestra. a a o o V. En este caso decimos que o (X1 . = E[Xn ] = µ. consideramos el experimento que o a consiste en extraer una muestra aleatoria simple de la distribuci´n de X. n ¯ ¿Qu´ podemos decir de la distribuci´n de los valores que puede tomar X? Empezaree o mos por estudiar cu´l ser´ el centro y la dispersi´n de esta distribuci´n. . este experimento aleatorio consistir´ en escoger al azar un individuo de una a poblaci´n muy grande. La media muestral Supongamos que nos interesamos por el valor µ. Muestra Formalizamos el contexto y introducimos el concepto de muestra: Consideramos un experimento aleatorio y una v. + E[Xn ]). fijado el error m´ximo que se est´ dispuesto a a a cometer respecto a la proporci´n poblacional. n En algunos casos. . Las variables X1 . La distribuci´n de los valores que puede tomar un estad´ o ıstico respecto a todas las muestras de tama˜o n que se podr´ extraer se llama n ıa distribuci´n muestral de este estad´ o ıstico. n Introducimos dos t´rminos fundamentales en estad´ e ıstica: Definici´n. . . o a e Llamaremos entonces media de X la media poblacional y su varianza. + Xn ] = E[X1 + . . la media de la v. n n n Puesto que la distribuci´n de cada Xi es la misma que la distribuci´n de X.1 . . .1. . y X ser´ el valor de la variable de inter´s para este individuo concreto.1. + Xn ¯ X= . .V. . X2 .. la media o muestral es la variable aleatoria (su valor depende de la muestra escogida) X1 + .3. . V.2. Para controlar lo pr´ximo que estar´ su valor de µ. y ¯ E[X] = E[ ¯ E[X] = 1 1 (n · µ) = µ.a X. vamos a repetir el experimento n veces de manera independiente y consideramos las variables X1 “valor de X obtenido en la primera realizaci´n del o experimento”.

con la analog´ a ıa de la medici´n con un disparo en una diana: el centro de la diana representa el valor o exacto de lo que buscamos determinar. ver Tema 4.. . . tal como est´ ilustrado en la Figura V. .1. Figura V. .+var[Xn ]).4.3.3.. En cambio. + Xn 1 ] = 2 var[X1 +. n2 n lo que implica que ¯ var(X) = o de forma equivalente σ σX = √ .+Xn ] = 2 (var[X1 ]+.80 Mathieu Kessler: M´todos Estad´ e ısticos es decir que el centro de la distribuci´n de la media muestral coincide con el centro o de la distribuci´n de X. si no es preciso. decimos que el aparato es preciso. El experimento aleatorio es “llevar o a cabo una medici´n”. Consecuencia pr´ctica a Quiero realizar una medici´n con un aparato. decimos que el aparato es exacto. obtenemos que o o ¯ var[X] = var[ 1 X1 + . Los valores de X variar´n pero lo deseable es que su centro µ coincida con el a valor exacto de la cantidad que busco determinar: si E[X] = valor exacto. queremos que los valores proporcionen presenten la menor dispersi´n posible: si σ = σX es peque˜a. tiene o a dif´ arreglo. ¯ n √ ¯ ¡La dispersi´n que presentan los valores de X es n m´s peque˜a que la dispersi´n o a n o de X! V. mientras que la variable X es “valor proporcionado por el o aparato”. podemos intentar calibrarlo para o corregir la desviaci´n sistem´tica que presenta.1.3.4: Analog´ de la medici´n con un disparo en una diana ıa o Si nuestro aparato de medici´n no es exacto. n n n nσ 2 σ2 = . Tenemos eno n tonces varios casos posibles. Sin embargo exista una manera de mejorar la precisi´n de un aparato ıcil o . Varianza Utilizando la f´rmula de propagaci´n de los errores.2. . Por otra parte. . o V.

consideremos un aparato de medici´n que proporciona valores que o se distribuyen seg´n una Normal. Sin embargo. sabemos por la reproductividad de la distribuci´n Normal que X1 + X2 + . Si la distribuci´n de X es Normal o Si hemos modelizado la v. o e o Se cumple por lo tanto ¯ Proposici´n V. En cambio. o V. si repito 9 veces la medici´n y o proporciono la media de estas nueve mediciones. con una media de 120 y una desviaci´n t´ u o ıpica de 12. σ 2 ).3. n o.1 Teorema Central del L´ ımite Consideremos (X1 . hemos caracterizado la media y la desviaci´n t´ o o ıpica ¯ de la distribuci´n de los valores de la media muestral X. el 95 % de los valores est´n entre o a µ − 2σ y µ − 2σ. ) aproximadamente. .3 La media muestral de medici´n: basta con repetir un n´mero suficiente de veces la medici´n y proo u o porcionar la media de los valores obtenidos: la desviaci´n t´ o ıpica de los valores que √ proporcionar´ con este m´todo es n veces m´s peque˜a que la de los valores proıa e a n porcionados si me limito a una medici´n. Distribuci´n de la media muestral o En la subsecci´n anterior. si el tama˜o muestral n es grande.1. ). el 95 % de los valores que obtendr´ ıa √ √ con este procedimiento se encontrar´ entre µ − 2σ/ n y µ − 2σ/ n. se puede aproximar la distribuci´n de X por una Normal o 2 /n: con media µ y varianza σ σ ¯ X ∼ N (µ. es decir entre 96 y 144. o σ ¯ X ∼ N (µ.a X por una distribuci´n Normal N (µ. ¯ X −µ √ ∼ N (0.2. + Xn sigue tambi´n una distribuci´n normal. ahora que a o sabemos cu´les son su centro y su dispersi´n? a o V. . no podemos hacer milagros: no podemos o ¯ decir nada exacto sobre la distribuci´n de X. y si X es la media muestral basada en una o muestra aleatoria simple de la distribuci´n de X. Si la distribuci´n de X es desconocida o no es normal o Si la distribuci´n de X es desconocida. lo que implica una precisi´n mucho mayor. exepto sobre su media y su desviaci´n o o t´ ıpica. Xn ) una muestra aleatoria simple de la distribuci´n de X con media µ y varianza σ 2 .1. Si n es o ¯ “suficientemente” grande. Por la propiedad de la distribuci´n Normal. Hay que enfatizar el hecho o de que estos resultados se obtienen sin hip´tesis sobre la forma de la distribuci´n o o ¯ de X.3.3. . n 2 . σ/ n 2 Como ejemplo.V.3.2. es decir entre ıan 112 y 128. de manera equivalente. se sabe o n que esta distribuci´n se puede aproximar por una distribuci´n Normal. . o o Teorema V. 1). .2.3. σ 2 ) y consido eramos una muestra aleatoria simple de X. ver secci´n V.3. . ¿Podemos decir algo m´s sobre la distribuci´n de los valores de X.1 Si X ∼ N (µ.2. o 81 V.

a X y s2 son independientes.. depende de la forma de la distribuci´n de X: si ´sta no es o e muy diferente de una distribuci´n Normal. V. La varianza muestral Consideremos ahora un experimento al que asociamos una v. X sigue una distribuci´n χ2 con k ∈ N grados de libertad o si su densidad es proporcional a x → xk/2 e−x/2 . σ/ n En la secci´n 3. 2.) ıa a o Por otra parte. Repetimos o n veces el experimento y obtenemos una m. n−1 σ2 En general. hemos utilizado el estad´ o ıstico Z= (V.5. explica la importancia de la distribuci´n Normal: aparece de manera natural. . si consideramos la distribuci´n de la media muestral.a X cuya distribuci´n de valores modelizamos por una Normal con media µ y varianza σ 2 . asociada a cualquier diso tribuci´n. La densidad de (n − 1)s2 /σ 2 es proporcional a x(n−1)/2 e−x/2 . se representa la densidad de una distribuci´n χ2 con distintos o grados de libertad..5.a. En particular. Las v. . La distribuci´n correspondiente se llama χ2 (ji-cuadrado) con (n − 1) grados o de libertad. o de la suma de o o realizaciones independientes.4. Distribuci´n t de Student o ¯ X −µ √ . no hace falta un n muy grande para que o la aproximaci´n de la distribuci´n de la media muestral por una Normal sea satisfaco o toria. Se suele considerar como indicaci´n que n mayor de 30 es suficiente o en la mayor´ de los casos (pero no es m´s que una indicaci´n. .1) .4. V. Escribimos (n − 1)s2 ∼ χ2 . este teorema.a. . ¿Qu´ podemos decir de la distribuci´n de la varianza muestral e o s2 = n ¯ (X 2 − (X)2 )? n−1 Es posible demostrar la proposici´n siguiente o Proposici´n V. X2 .s (X1 . fundamental en estad´ ıstica. si un error de medici´n se puede consido erar como la suma de muchas peque˜as perturbaciones independientes.1 o ¯ 1. Xn ) de la distribuci´n o de X. si es muy distinta de una distribuci´n Normal. el Teorema n Central del L´ ımite implica que la distribuci´n de sus valores es aproximadamente o Normal. si x > 0. En cambio. si x > 0. ser´ necesario una o a muestra grande. una v. En la figura V.82 Mathieu Kessler: M´todos Estad´ e ısticos ¿Cuando se considera que n es “suficientemente” grande? No hay por desgracia ninguna respuesta universal.

a trav´s o n e de los llamados “grados de libertad”.1 Consideramos (X1 . 10 y 30 grados de libertad o (respectivamente de izquierda a derecha) ¯ que sigue una distribuci´n Normal est´ndar si X es la media de una muestra aleatoria o a 2 ). . . −∞ < t < ∞. Xn ) una muestra aleatoria simple de una o ¯ distribuci´n N (µ.05 0.25 f_X(x) 0. o La distribuci´n de T depende por lo tanto del tama˜o n de la muestra.10 0. simple de una distribuci´n Normal N (µ.15 0. Se puede demostrar que la densidad Ftk de la distribuci´n t de Student con k grados de libertad admite la siguiente expresi´n: o o ftk (t) ∝ 1 (1 + t2 /p)(p+1)/2 . n−1 El estad´ ıstico que resulta de sustituir en (V.5: Densidad de la distribuci´n χ2 con k = 3.5. Escribimos T ∼ tn−1 .20 0 10 20 x 30 40 50 Figura V. sea X la media muestral. donde el s´ ımbolo ∝ significa “es proporcional a”.1) σ por S es T = ¯ X −µ √ . es decir que existe una constante 1 K tal que ftk (t) = K (1+t2 /p)(p+1)/2 . . S/ n Definici´n V. la distribuci´n de los valores de o o T = ¯ X −µ √ S/ n se llama distribuci´n t de Student con n−1 grados de libertad. . lo estimaremos por S la desviaci´n t´ o ıpica muestral S= n ¯ (X 2 − (X)2 ).5 Distribuci´n t de Student o 83 Densidad de la Ji cuadrado con k grados de libertad 0. σ o Si desconocemos el valor de σ.00 0.V. σ 2 ). Por las propiedades de una funci´n de densidad o .

el denominador de T presenta ahora tambi´n variabilidad. 3. contaremos el n´mero N de veces que la v. en el experimento e ´ que consiste en producir una pieza con una m´quina que produce una proporci´n a o p de defectuosos. X toma el valor 1 si la pieza es defectuosa. repetiremos el experimento n veces o de manera independiente. pensamos por ejemplo. se representa la densidad de la distribuci´n T de Student para o varios valores de los grados de libertad. a a Sin embargo. o a En la figura V. y la distribuci´n t de Student asociada se parece m´s a una Normal. lo que es o a o intuitivamente natural puesto que. Esta variabilidad en el denomie nador resulta en que T puede tomar con m´s probabilidad valores m´s extremos.84 Mathieu Kessler: M´todos Estad´ e ısticos Densidad de la t de Student con k grados de libertad f_X(x) x Figura V. o en el ejemplo del sondeo para estimar la tasa de participaci´n antes de o unas elecciones.6. Para sacar informaci´n sobre p. Γ(α) = o o ∞ α−1 −t t e dt. si los grados de libertad aumentan. y 0 si la pieza es correcta. ´ste ultimo con la probabilidad p. o La distribuci´n t tiene colas m´s pesadas que la distribuci´n Normal. al obtenerse T sustituyendo σ por S.6. la variabilidad de S disminuye.a X ha tomado u el valor 1. es decir que fabricamos n piezas con la m´quina y contamos el n´mero a u 2 La funci´n Gamma tiene la expresi´n siguiente: para cualquier real α > 0. Γ( p ) pπ 2 donde Γ denota la funci´n Gamma2 .a X de inter´s tan s´lo puede tomar el valor 0 e o o ´ 1. 10 y 150 grados de o libertad respectivamente (de la densidad m´s chata a la m´s puntiaguda) a a se puede deducir que la constante es Γ( p+1 ) 1 2 K= √ . V. 0 . La proporci´n muestral o Hay situaciones en las que la v.6: Densidad de la distribuci´n t de Student con 1.

9998 ] 0. una m´quina produce piezas con s´lo a a o 1 % de defectuosos.02) = P(N > 2).08 Por lo tanto. haya m´s de 2 % de defectuosos? a Queremos calcular P(ˆ > 0.012 0. hay dos posibilidades: a) la m´quina est´ bien ajustada pero he tenido mala a a suerte (s´lo hab´ 8 posibilidades entre 100 de que esto ocurriera). la probabilidad de que salga “1” en una realizaci´n a o del experimento: N ∼ B(n. b) en realidad o ıa es un s´ ıntoma de que la m´quina est´ mal ajustada. La proporci´n de “Unos” o en la muestra se llama la proporci´n muestral y la denotamos por p.2. en una a a a de estas muestras.011 0. si un d´ observo 3 piezas defectuosas en la muestra que he exıa tra´ ıdo. o preguntaremos a n personas si tienen intenci´n de ir a votar. o . C´lculos exactos para la distribuci´n de p a o ˆ El n´mero de “Unos” en la muestra es el n´mero de veces que ha salido “1” u u en n realizaciones independientes del experimento. Si la m´quina est´ bien ajustada.6. la distribuci´n de N se puede aproximar por una Normal N (np.01) si la m´quina est´ bien ajustada. V. su distribuci´n es por lo tanto o Binomial de par´metros n y p. y se calcula la proporci´n muestral de deo fectuosos. Tenemos a a P(N > 2) = 1 − P(N ≤ 2) = 1 − [P(N = 0) + P(N = 2) + P(N = 3)] 1−[ 100 0 0. tal como viene ilustrado en el ejemplo siguiente: Ejemplo V.1 Cuando est´ bien ajustada. o para los dos ejemplos concretos que hemos mencionado.99100 + 100 1 0. a En particular. p).02) = P( p N > 0. p). Distribuci´n aproximada de p o ˆ Los c´lculos exactos que hemos descrito en el apartado anterior se pueden volver a muy laboriosos si se necesita evaluar un gran n´mero de probabilidades individuales. 100 siendo N ∼ B(100. se extrae o diariamente una muestra de 100 piezas.1.6. s´lo hay una probabilidad de 0.. si la m´quina est´ bien ajustada.6. Est´ claro que o ˆ a tenemos N p= . 0.9999 + 100 2 0.. Para realizar un control de la calidad de la producci´n.6 La proporci´n muestral o N de defectuosas. C´lculos exactos para la distribuci´n de p se podr´n realizar utilizando que p = N/n a o ˆ a ˆ y el hecho que N ∼ B(n. u En el caso en que se cumplen las condiciones de aproximaci´n de la distribuci´n o o Binomial.V. ¿cu´l es la probabilidad de que. Este simple ejemplo ilustra la a a idea b´sica del control estad´ a ıstico de calidad. ˆ n 85 V. np(1−p)).010 0.08 de a a o observar 3 o m´s piezas defectuosas en una muestra de 100.

favoreciendo la intervenci´n r´pida en el o o a caso en que se detecta que ´sta se deteriora. ver Figuras V. ˆ p(1 − p) ). e V. pero que permite ilustrar sus fundamentos.5 60. Las gr´ficas de control permiten comprobar de manera continua que se mantiene a constante la calidad de una producci´n.1 73.0 56.7 Muestra no 11 12 13 14 15 16 17 18 19 20 x ¯ 53. ¿c´mo detectar que el instrumento de producci´n se ha desajustado o o por ejemplo? Si representamos la secuencia de los valores calculados para x en los ¯ .5 66.. analiza 4 envases o de producto.7 64.9 64.9 67.1 54. a Consideremos el contexto siguiente: una empresa identifica la concentraci´n en o CaCO3 como una caracter´ ıstica importante de la calidad de su producto. la varianza muestral o la proporci´n muestral ha propiciado que se o propongan procedimientos de control estad´ ıstico de calidad en contextos industriales.5 67.1 61.7. Introducci´n a las gr´ficas de control o a Conocer las distribuciones muestrales de algunos estad´ ısticos destacados como la media muestral..0 47. en condiciones normales de producci´n los valores de la o concentraci´n se distribuyen seg´n una distribuci´n aproximadamente Normal con o u o desviaci´n t´ o ıpica σ = 8. Idealmente esta concentraci´n deber´ ser igual a 55.7 62. En o la tabla siguiente. Muestra no 1 2 3 4 5 6 7 8 9 10 x ¯ 54. o V. pero la variabilidad es inevitable. en una versi´n o o a o algo simplificada.3 51. Notar por otra parte que para el ejemplo del apartado anterior no se cumplen las condiciones de aproximaci´n.9 67.0 59.2 y ˆ o V.86 Mathieu Kessler: M´todos Estad´ e ısticos y por lo tanto p sigue aproximadamente una distribuci´n Normal con media np/n = p ˆ o 2 = p(1 − p)/n: y varianza np(1 − p)/n Si np > 5. Veremos en esta secci´n una introducci´n a las gr´ficas de control.1.4 ¿C´mo comprobar que la calidad de la producci´n sigue conforme con los criterios o o fijados? es decir.5 56. Para controlar la calidad de la producci´n.7. calculando a continuaci´n la media de los cuatro valores obtenidos.1 61. ¯ Gr´fica de control X. n(1 − p) > 5 p ∼ N (p. Sin o ıa embargo se asume que. n aproximadamente Esta propiedad de aproximaci´n justifica en particular las formas de campanas de o Gauss que aparecen para los histogramas de p en la introducci´n.3. se recogen los datos correspondientes a veinte controles.6 66.

6.7 % de los valores de X se encontrar´n a entre µ − 3σX y µ + 3σX .a X= “concentraci´n de NaCO3”. Si escojemos al azar cuatro o ¯ monitores en la producci´n de una hora. es decir 8/2 = 4. se espera que el 99.7 Introducci´n a las gr´ficas de control o a controles consecutivos. Parece sin duda o que la tensi´n de los monitores va aumentando y alej´ndose del objetivo 55. la calidad de la producci´n no se mide a tr´ves de una o a variable X sino a trav´s de la proporci´n de defectuosos producidos. en representar en una gr´fica los valores de X que a vamos obteniendo. Tambi´n sabemos que en condiciones nore males de producci´n. se debe cumplir que µ = 55. en nuestro caso. 49.V. y llamamos X la media de las tensiones o ¯ correspondientes. ¯ Realizar una gr´fica de control X consiste por lo tanto. 60. suponiendo que los valores a de la variable que queremos controlar siguen aproximadamente una Normal y que ¯ conocemos su desviaci´n t´ o ıpica. observamos un valor de X fuera de este rango de valores.6.2.7: Valores consecutivos de x. En estos casos e o se monitora la calidad utilizando una gr´fica de control p. Gr´fica de control p a ˆ En algunas situaciones. ejemplo de la concentraci´n en NaCO3. en nuestro caso. ¯ o Formalicemos el contexto: consideramos la v. En particular si µ es ¯ ¯ efectivamente igual a 55. √ el l´ ımite de control superior en µ − 3σ/ n. ¯ ¯ ¯ Por consiguiente. √ el l´ ımite de control superior en µ + 3σ/ n.8. en nuestro caso µ = 55.7. es decir entre 60. obtenemos la gr´fica de la Figura V. sabemos que los valores de X se distribuyen seg´n una Normal de u √ media µ y de desviaci´n t´ o ıpica σX = σ/ n. a ˆ . se representa la gr´fica de control para este ejemplo.7. o Sabemos que X ∼ N (µ.4.4 y 49. junto con tres l´ ıneas horizontales: la l´ ınea objetivo. siendo el o ıa proceso bien ajustado (es decir siendo µ igual a 55). pero o a ¿c´mo definir una regla que nos sirva de se˜al de alarma? o n 80 87 q 70 q q q q q q q q media de la muestra 60 q q q q q q q q q q 50 q 30 40 5 10 15 20 Figura V. donde tambi´n se ha a e dibujado una l´ ınea horizontal para indicar la concentraci´n ideal 55. si para una muestra. σ 2 ) con σ = 8. es razonable pensar que el proceso de producci´n se ha desajustado. o puesto que s´lo hab´ una probabilidad de 3 entre 1000 que esto ocurriera. V. y que la calidad u a se ha deteriorado. A partir de la a muestra n´mero 14 se detecta que el proceso est´ fuero de control. En la Figura V.

V. ´sta se puede aproximar por una Normal: e p ∼ N (p. n p(1−p) √ . Otra se˜ al de alarma n Existen otras posibles se˜ales de alarma para decidir si un proceso est´ fuera n a de control. n en nuestro caso. √ el l´ ımite de control superior en p + 3 √ el l´ ımite de control superior en p − 3 p(1−p) √ . o a .88 Mathieu Kessler: M´todos Estad´ e ısticos 80 q 70 q q q q q q q q media de la muestra 60 q q q q q q q q q q 50 q 30 40 5 10 muestra 15 20 Figura V. o ˆ n(1 − p) > 5.8: Ejemplo de gr´fica de control x.3. Sabemos que si np > 5 y control X. a ¯ Para llevar a cabo el control utilizando las mismas ideas que para la gr´fica de a ¯ recurrimos a la distribuci´n muestral de p. ˆ p(1 − p) . n La gr´fica de control p se realizar´ por lo tanto dibujando en la gr´fica tres l´ a ˆ a a ıneas horizontales: la l´ ınea objetivo. es decir concluir err´neamente que el proceso est´ fuera de control es del orden de 2 entre 1000.7. aproximadamente. La probabilidad de falsa alarma. Una de ellas corresponde a dibujar la l´ ınea objetivo y concluir que la m´quina est´ mal ajustada si se observan nueve puntos consecutivos por debajo(o a a por encima) de la l´ ınea objetivo.

o Definici´n VI. Para ajustar los par´metros que a a nos faltan. queremos realizar una medici´n con un aparato.se dice o inferir .2. Este modelo incluye par´metros desconocidos. Recordar que vimos en el tema anterior que los datos provenientes de varias realizaciones del experimento constituyen una muestra de la distribuci´n de X..TEMA VI Introducci´n a la teor´ de la estimaci´n o ıa o VI. cualquier funci´n de las obsero vaciones de la muestra) dise˜ado para aproximar el valor de un par´metro θ del n a modelo.2. posiblemente con uno o varios par´metros que tendremos que ajustar. Disponemos de o a una muestra de la distribuci´n de X.1. o VI. pensamos que la distribuci´n de o los valores que puede tomar X se puede aproximar por una distribuci´n Normal. y un modelo para la distribuci´n de X.. repetiremos el experimento varias veces y sacaremos informaci´n . con una v. predicciones etc.a X. la variable que nos o interesa es X “valor proporcionado por el aparato”. Estimaci´n puntual o Definici´n o Consideramos un experimento aleatorio. VI.2.1 Cualquier estad´ o ıstico (es decir. o Nos falta “ajustar” los valores de la media y de la varianza de esta distribuci´n o normal.1. Estimar un o par´metro consiste en obtener una aproximaci´n de su valor en base a los datos de la a o variable correspondientes a varias realizaciones del experimento.sobre estos par´metros a partir de los valores obtenidos de X. a . a Por ejemplo. El primer a tipo de informaci´n que podemos intentar sacar es acerca de su valor. Introducci´n o Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo. se llama estimador puntual del par´metro θ. para disponer de un modelo completamente especificado que nos permitir´ a realizar c´lculos de probabilidad.

n−1 n Hemos por lo tanto comprobado que la varianza muestral es un estimador insesgado de la varianza.2. n n . Por otra parte.90 Mathieu Kessler: M´todos Estad´ e ısticos En la tabla siguiente se presentan algunos par´metros usuales y los estimadores a asociados: θ Estimador ¯ X. Deducimos que X es un estimador insesgado de µX . Proporci´n muestral p: en el tema 5.. n−1 ¯ Necesitamos calcular por una parte E[X 2 ] y por otra parte E[(X)2 ]. decimos que el estimador es insesgado. p).2. Al ser 2 la media muestral de la variable X 2 . a VI. varianza muestral p p.2. VI. De hecho. proporci´n muestral ˆ o Un aspecto fundamental de un estimador es que es una variable aleatoria: su valor concreto depende de la muestra escogida. para que el estimador resulte insesgado. Comprobemos si los estimadores m´s usados son insesgados: a ¯ La media muestral X: hemos visto en el tema 5 que. media muestral µ σ 2 S 2 . Tenemos que n ¯ S2 = [X 2 − (X)2 ]. E[(X)2 ]] = var(X)+(E[X])2 = σ +µ2 . y hemos visto que N ∼ B(n.2. Utilizaremos los resultados del tema anterior sobre distribuciones muestrales para deducir propiedades de las distribuciones de los estimadores m´s usados. Si ´ste es el caso. E[S 2 ] = n ¯ [E[X 2 ] − E[(X)2 ]].1. X X n Deducimos que σ2 n E[S 2 ] = [σ 2 − ] = σ 2 . Deducimos que e E[ˆ] = p np E[N ] = = p. sabemos por el tema 5 que E[X 2 = X 2 ¯ ¯ ¯ E[X 2 ] = var(X)+µ2 . ˆ es un estimador del par´metro θ. hemos obtenido la caracterizaci´n de p coo ˆ o ˆ mo N/n donde N es el n´mero de elementos en la muestra con la caracter´ u ıstica de inter´s. se cumple que E[X] = µX . este resultado constituye la justificaci´n o de que la varianza muestral se defina con el factor n/(n − 1). sea cual sea la distribuci´n o ¯ ¯ de X. La varianza muestral S 2 . decimos que θ es un estimador insesgado de θ ˆ si θ a si ˆ E[θ] = θ. Propiedades deseables para un estimador Estimador insesgado Una primera propiedad deseable para un estimador es que el centro de la distribuci´n de los valores que puede tomar coincida con el valor del par´metro que o a queremos aproximar. n−1 Por lo tanto. As´ e ı.

Para enfatizar esta o a dependencia. Cabe destacar que la expresi´n de µk depende del par´metro θ.3. Para un entero u a k. se dice que el estimador es consistente. Por consiguiente. etc. M´todos de construcci´n de estimadores e o En los ejemplos de las secciones anteriores. o VI.VI. De manera paralela. n n n ¯ Es f´cil comprobar que. ..2. X y un modelo para la distribuci´n de sus valores. los estimadores propuestos est´n a basados en estad´ ısticos naturales para los par´metros de inter´s: la media muestral a e para estimar la media. consideramos el momento µk de orden k de la distribuci´n de X: o µk = E[X k ]. + Xn mk = X k = 1 .2. θ). θ). que ¯ var(X) = σ2 . Estimadores de momentos Es el m´todo m´s antiguo de construcci´n de estimadores y se debe a Karl e a o Pearson a principios del siglo XX. es decir que son dos estimadores consistentes. en efecto tanto var(X) como var(ˆ) tienden a cero si n a p tiende a infinito. definimos el momento muestral de orden k: k X k + . que o consiste en la especificaci´n de x → fX (x. para que la precisi´n de la estimaci´n sea a n o o la mayor posible.2. utilizando los resultados del tema 5. Estimador consistente 91 Si un estimador es insesgado. n var(ˆ) = var( p N 1 p(1 − p) ) = 2 var(N ) = .a. VI. o u El par´metro θ es posiblemente multidimensional.. En este caso. la proporci´n muestral para estimar la proporci´n. Consideremos una v. n Para un par´metro de dimensi´n p. siendo fX la funci´n puntual de probo o abilidad. nos interesa que la dispersi´n de los valores que o puede tomar sea la m´s peque˜a posible.2. es a o decir que p es el n´mero de par´metros desconocidos en el modelo.2. escribiremos µk (θ) para denotar el momento de orden k del modelo descrito por x → fX (x.1. podemos deducir. la proporci´n muestral resulta ser un estimador insese o gado de la proporci´n. los estimadores de los momentos se obtienen a o igualando los p primeros momentos del modelo para la distribuci´n de X con sus o .3. o la funci´n de densidad seg´n si X es una variable discreta o continua.2 Estimaci´n puntual o En este caso tambi´n. . una buena propiedad adicional de un estimador insesgado es que su varianza tienda a cero si el n´mero de observaciones n crece u hacia infinito. llamamos p su dimensi´n. De la misma manera que en el apartado anterior. VI. En o o modelos m´s sofisticados es util disponer de m´todos generales de construcci´n de a ´ e o estimadores razonables.

. . .3. S´lo necesio tamos igualar el primer momento con su equivalente muestral. 2 es decir µ = X. Xn ). Deducimos que los estimadores de los momentos son soluci´n del sistema: o µ = X σ + µ2 = X 2 . θ) = fX1 (x1 .a X1 . . donde desconocemos p. .a. con distribuci´n especificada por x → fX (x. o VI. Xn ) est´ descrita a trav´s de la o a e relaci´n o fX1 . f rep´ resenta o bien la funci´n puntual de probabilidad o bien la funci´n de densidad.. µ2 (θ) = X 2 . . En esta ultima igualdad. o o . . fXn (xn .2.a n-dimensional (X1 . M´todo de m´xima verosimilitud e a El m´todo de m´xima verosimilitud es sin dudas el m´todo m´s utilizado de e a e a construcci´n de un estimador puntual. Los dos primeros momentos de la distribuci´n N (µ.92 equivalentes muestrales: Mathieu Kessler: M´todos Estad´ e ısticos µ1 (θ) = X. . Repetimos el experimento n veces a o y consideramos la muestra aleatoria simple de la distribuci´n de X: (X1 . ˆ puesto que X1 . Verosimilitud Sea X una v.2. . θ). . . . . o a).. . de dimensi´n p. = . θ). su media es o igual a la proporci´n muestral de 1. .. obtenemos ¯ p = X. ˆ ˆ σ 2 = X 2 − (X)2 .. σ 2 ). . .. donde θ = (µ. σ 2 ). θ) . . . Necesitamos igualar los dos primeros momentos con sus equivalentes muestrales. xn .. puesto que las v. . . Calculemos para ilustrar el m´todo los estimadores de momentos en los modelos e siguientes: X ∼ N (µ. El estimador de momentos de la proporci´n o o p en un modelo de Bernoulli es la proporci´n muestral. .Xn (x1 . o donde θ es el vector de par´metros. Xn son independientes. µk (θ) = X k . . . . . o La distribuci´n de la v. Modelo de Bernoulli: X ∼ Bernoulli(p). Xn s´lo pueden tomar el valor 1 o el valor 0. σ 2 ) son o µ1 (θ) = µ µ2 (θ) = E[X 2 ] = V ar(X) + (E[X])2 = σ 2 + µ2 . .

. . . cono sideramos la verosimilitud θ → Ln (θ). 0. X4 = 0. 0. Utilizamos un modelo de Bernoulli de par´metro p entre a 0 y 1. 1. .Xn (x1 . xn ) los valores observados de una muestra. σ o 1 n la muestra aleatoria simple (X1 . . Consideremos la tirada de una moneda y asociamos la v. θ). ˆ a Deducimos que el estimador de m´xima verosimilitud de p es la proporci´n muestral. 1. Se representa la gr´fica de la funci´n Ln (p) en la Figura VI. 1. La verosimilitud asocia a cada valor posible de p.. . X3 = 1. . X que valga 1 si sale cara y 0 si sale cruz.VI. Puesto que si x = 0. Xn ). 1. 1. . 1. X7 = 1. . . la cantidad P(X1 = 0. . 1. . . . ˆ El estimador de m´xima verosimilitud θ de θ es cualquier valor de θ que maximiza a θ → Ln (θ). la verosimilitud es Ln (p) = px1 · (1 − p)(1−x1 ) . Estimador de m´xima verosimilitud a Definici´n VI. . . θ La maximizaci´n se realiza sobre todos los valores admisibles para el par´metro θ. Observamos x . p Despejamos p y encontramos p = ( xi )/n. . . . . X8 = 1. X6 = 1. consideramos la funci´n de θ: o Ln : Rp → R θ → Ln (θ) = fX1 . Ejemplo. σ ) = i=1 2 √ 1 2πσ 2 e − (xi −µ)2 2σ 2 1 = e− (2πσ 2 )n/2 n (x −µ)2 i=1 i 2σ 2 . . 1. 0. 1. xn ). . . . 93 La funci´n Ln asocia a cada valor de θ el valor de la densidad (o de la funci´n o o puntual de probabilidad) de las observaciones (X1 . Consideramos X ∼ Bernoulli(p). la probabilidad de haber obsere vado la secuencia 0. 1. . xn una realizaci´n o de la muestra aleatoria simple (X1 . .2 Estimaci´n puntual o Para un valor concreto de (X1 . . lo que implica que p es efectivamente un m´ximo global. Los candidatos a alcanzar el m´ximo se obtienen derivando la verosimilitud.1 a o La verosimilitud nos indica para qu´ valor de p.. . xn . Observamos x1 . . 1. . . fX (x) = P(X = x) = px · (1 − p)(1−x) . Consideramos X ∼ N (µ.2 Dados (x1 .. pxn · (1 − p)(1−xn ) = p xi (1 − p)n− xi . 1 es la m´s alta. los valores concretos observados. a b)..a. .2. . Tiramos 10 veces la moneda y obtenemos la secuencia de valores siguiente: 0. o de a manera equivalente y m´s sencilla. . 0. que denotamos por (x1 . . ˆ θ = argmax Ln (θ). . Xn ) evaluada en (x1 . xn ). X5 = 1. 1. . 1. a o 2 ). . 1. X2 = 0. X9 = 1. Deducimos que Ln (p) = (1 − p)(1 − p)p(1 − p)(1 − p)6 = (1 − p)3 · p7 . Comprobamos adem´s que la derivada ˆ a segunda de Ln es negativa. La verosimilitud se obtiene a partir de la expresi´n de la densidad de X: o n Ln (µ. X10 = 1). x una realizaci´n de Ejemplo. o a Ejemplo. . . . su logaritmo (llamado log-verosimilitud): a d log Ln (p) = (n − dp xi ) − 1 1−p + xi = 0. Xn ). . Xn ). .

1: Verosimilitud correspondiente al ejemplo de 10 tiradas de una moneda. calculamos las derivadas parciales de log Ln respeto de a 2: µyσ n 2 ∂ i=1 (xi − µ) log Ln (θ) = ∂µ σ2 n (xi − µ)2 ∂ n 1 log Ln (θ) = − + i=1 2 2 . σ2 = n i=1 (xi − µ)2 ˆ n n = n 2 s . n−1 .94 Mathieu Kessler: M´todos Estad´ e ısticos Figura VI. La log-verosimilitud es n (xi − µ)2 n log Ln (µ. y encontramos que los dos candidatos a m´ximo a . σ 2 ) = − log(2πσ 2 ) − i=1 2 . 2 2σ Para encontrar el m´ximo. ∂σ 2 2 σ2 2(σ ) Resolvemos son ∂ ∂µ Ln =0y µ= ˆ ∂ L ∂σ 2 n n i=1 xi = 0.

log Ln (µ. Por el tema 5. n ¯ es N (µ. σ 2 ). σ 2 ).05. Por la ver V. para ¯ decir que µ se encuentra en el intervalo [X ¯ ¯ el 95 % de las muestras. deducimos que el 95 % de las muestras o ¯ proporcionan un valor de X que se encuentra a menos de 2 unidades de la media µ. calcularemos e un intervalo en ´l que pensamos que se encuentra el par´metro. es ¯ − 2. Dicho de otra manera.VI. ¿donde est´ µ? Por la misma o e a ¯ a ¯ regla.3. VI.2. σ 2 ) = − log(2πσ 2 ) − 2 n i=1 (xi − 2σ 2 95 µ)2 . Los estimadores de m´xima verosimilitud de µ y σ 2 son por lo tanto la media a n (x −ˆ)2 µ n muestral y la llamada varianza muestral sesgada σ 2 = i=1 n i = n−1 s2 . σ2. a menos de 2 unidades de X. sabemos que la distribuci´n de X o propiedad de la distribuci´n Normal. el intervalo aleatorio [X − 2.1. lo que corresponde con a niveles de confianza del 90 % . X cuya distribuci´n o es Normal con una desviaci´n t´ o ıpica igual a 2 unidades. σ a a o n µ n µ 2 2 → log L (ˆ . X + 2] captura el valor del par´metro µ. α un n´mero entre 0 y 1.3.01. se encuentra.3. σ 2 ) → a i=1 (xi − µ) es m´ 2 ) corresponder´ por lo tanto al m´ximo de la funci´n σ 2 → log L (ˆ . Invertamos ahora la situaci´n: s´ donde est´ X. 1).a. la funci´n µ → log Ln (µ. extraigo una muestra de tama˜o 4.3. Sea cual sea el valor de σ 2 . Para ello. σ 2 /n) es decir N (µ. La cantidad u 1 − α expresada en porcentaje se llama nivel de confianza. y 0. Los valores m´s utilizados de α son 0. por lo tanto E[σ 2 ] = n−1 σ 2 . y estimo µ por el valor de X. X + 2]. .2. σ 2 ) alcanza su m´ximo cuando o a n n ınimo. es decir X ∼ N (µ.1. El m´ximo de (µ. Es un ejemplo en ´l que el m´todo de m´xima e e a n verosimilitud proporciona un estimador sesgado. 0.2. e a VI. ver b). Suponemos que conocemos el valor de La construcci´n del intervalo de confianza para la media µ se realiza siguiendo o los siguientes pasos.3. Para ¯ ello. Idea b´sica a Supongamos que queremos estimar la media µ de una v. podemos fijarnos en la a expresi´n de la log-verosimilitud: o n log Ln (µ. es decir cuando µ = ( i=1 xi )/n. VI. a VI.1.3 Estimaci´n por intervalos o Para comprobar que son efectivamente m´ximos globales.95 % y 99 % respectivamente. σ 2 ) alcanza su m´ximo en σ 2 = i=1 (xi −ˆ ) Es f´cil comprobar que σ a a = n µ n n 2 n−1 s . En un apartado anterior hemos visto como la varianza muestral s2 es un estimador insesgado. 4). Intervalo de confianza para la media µ de una distribuci´n o Normal con varianza conocida Construcci´n o Consideramos la variable X ∼ N (µ. Nos fijamos el llamado “nivel de riesgo”. Estimaci´n por intervalos o No queremos limitarnos a dar un valor para aproximar un par´metro sino propora cionar tambi´n una medida del error que pensamos cometer. para el 95 % de las muestras.1.

σ/ n Para 0 ≤ u ≤ 1. los valores 0.64. e e = 1−α = 1−α = 1−α = 1−α . z0. una regi´n central que represente o el 100(1 − α) % del ´rea total.995 = 2. tal como viene ilustrado en la figura siguiente a ¯ Deducimos P(−z1−α/2 ≤ ¯ X −µ √ ≤ z1−α/2 ) = 1 − α. z0. o a o dicho de otra manera. podemos buscar en la tabla de la Normal est´ndar. a 0. el valor que deja a su izquierda un ´rea igual a u a debajo de la curva de la densidad Normal est´ndar.96 y z0.995 .975 y z0. 1). es decir el valor que cumple P(Z ≤ zu ) = u. X−µ Dibujo en la densidad del estad´ ıstico σ/√n . σ/ n Despejamos µ en las desigualdades √ √ ¯ P(−z1−α/2 σ/ n ≤ X − µ ≤ z1−α/2 σ/ n) √ √ ¯ ¯ ⇔ P(−X − z1−α/2 σ/ n ≤ −µ ≤ −X + z1−α/2 σ/ n) √ √ ¯ ¯ ⇔ P(X + z1−α/2 σ/ n ≥ µ ≥ X − z1−α/2 σ/ n) √ √ ¯ ¯ ⇔ P(X − z1−α/2 σ/ n ≤ µ ≤ X + z1−α/2 σ/ n) El intervalo de confianza al 100(1 − α) % para µ es √ √ ¯ ¯ µ ∈ [X − z1−α/2 σ/ n.56. utilizamos la notaci´n zu para denotar el cuantil u de la o distribuci´n Normal est´ndar.95. √ el t´rmino z1−α/2 σ/ n se llama t´rmino de error.95 = 1. En particular usaremos de a manera repetida los cuantiles siguientes: z0.995 en la columna de las probabilidades φ(t) y apuntar los valores correspondientes de t. Para conocer sus valores. Encontramos z0. Se escribe tambi´n de otra manera equivalente: e √ ¯ µ = X ± z1−α/2 σ/ n.95 .975 = 1. Su distribuci´n en su forma tipifio cada es ¯ X −µ √ ∼ N (0.975 y 0. X + z1−α/2 σ/ n].96 Mathieu Kessler: M´todos Estad´ e ısticos ¯ Escogemos el estad´ ıstico X para estimar µ.

n Para ilustrar esta interpretaci´n.2 en el eje Ox el n´mero de la muestra y en el eje Oy el intervalo de u confianza asociado. Para estimar µ extraemos una muestra de 5 art´ ıculos y construimos un intervalo de confianza al 90 %. X + z1−α/2 σ/ n] es un intervalo aleatorio. he simulado 20 veces el proceso de extraer una o muestra de tama˜o 4 de una distribuci´n X ∼ N (µX . Supongamos que los datos que se obtienen son los siguientes: 20. La gran mayor´ de los intervalos capturan el ıa valor correcto de µ. se fija en general bastante peque˜o. al afirmar que µ se encuentra en [X − e √ ¯ √ z1−α/2 σ/ n. . 19. puesto que sus extremos dependen de la muestra escogida. en este caso µ = 2. Ejemplo Supongamos que queremos estimar la longitud media de un art´ ıculo producido por una m´quina. Por experiencia.01.95. 20. por ejemplo α = 0. 19. Por su construcci´n. Adem´s una l´ a ınea horizontal representa el valor de µ que se pretende estimar.3.3. − 4 − q − − Intervalos de confianza − q − − − − q − − − q q q q q q q − q − − − − − 3 − − − − q − q 2 q q q q q − − q q − − − − − 1 − − − − − − − − − − 5 10 15 20 0 Número de la muestra Figura VI.05.2. el correspondiente a la muestra n´mero u 13 que no lo hace: este intervalo es err´neo. el riesgo de equivocarme.3 Estimaci´n por intervalos o VI.2.VI. e ¯ Tambi´n tengo una probabilidad α de que. He representado en la n o Figura VI. n VI.1. esta probabilidad α. sabemos o que este intervalo aleatorio tiene una probabilidad de 100(1 − α) % de capturar el valor de µ. pero hay un intervalo. tengo una probabilidad igual a 1 − α de que el intervalo que calcular´ efectivamente capture el valor µ que busco. 1).3.2. es decir las que proporcionan intervalos equivocados. Interpretaci´n o 97 √ ¯ √ ¯ El intervalo [X − z1−α/2 σ/ n.05. me equivoque. X + z1−α/2 σ/ n]. y esta muestra forma parte del 5 % de o las muestras “malas”. La media que se busca estimar es µ = 2.99. Es decir que.2: Los intervalos de confianza al 95 % correspondientes a 20 muestras de tama˜o 4. 20. Sin embargo. al extraer una muestra.05. sabemos que es razonable modelizar la distribua ci´n de los valores de la longitud de los art´ o ıculos producidos por una distribuci´n o Normal con media µ y desviaci´n t´ o ıpica igual a 0.

peor ser´ la precisi´n de la estimaci´n: si a o o queremos garantizar con gran confianza que el intervalo proporcionado captura µ.3.. 1). o o cuanto mayor sea la confianza.02 + 1. por otra parte. S/√n es una t de Student con n − 1 grados de libertad.1. La distribuci´n del estad´ o ıstico que resulta ¯ X−µ de sustituir σ por S.04. es decir que m´s a a o a peque˜o ser´ el intervalo de confianza. ver V.05 [20. depende mucho de lo alejado que est´ la disa tribuci´n de X de una distribuci´n Normal.98. n a cuanto menor sea σ.95 = 1.64 √ ]. es decir que no o a podemos garantizar que la confianza especificada sea cierta. o Deducimos en particular que cuanto mayor sea n.64 √ . ¯ X −µ √ ∼ N (0. X + z1−α/2 σ/ n]. En general.. VI. a b) Factores que afectan a la precisi´n de la estimaci´n. 20. Comentarios importantes a) La construcci´n del intervalo de confianza est´ basada en la hip´tesis de que la o a o distribuci´n de la v. Deducimos de la tabla Normal que z1−α/2 = z0. 1). el margen de error es ±z1.98 Mathieu Kessler: M´todos Estad´ e ısticos √ ¯ √ ¯ El intervalo de confianza es µ ∈ [X − z1−α/2 σ/ n. a c) La hip´tesis de que σ es conocida no es realista: en general tambi´n hay que o e estimarla a partir de la muestra. se suele considerar o o en pr´ctica que n ≥ 30 es suficiente para que los intervalos construidos sean a aproximadamente v´lidos.1. la desviaci´n t´ o ıpica muestral. a ¿A partir de cuantas observaciones consideramos una muestra como grande? No hay respuesta universal. Sin embargo. σ/ n lo que posibilita que los intervalos sean aproximadamente v´lidos: la confianza a especificada no ser´ exacta pero casi. puesto que utilizamos o ¯ X −µ √ ∼ N (0. y sabemos que aproximadamente.64.a.06]. Podemos repetir los pasos de construcci´n del o ¯ X−µ intervalo de confianza para µ bas´ndonos en el estad´ a ıstico S/√n : . fijamos α = 0.. el intervalo no es v´lido. en el caso en que la muestra es grande. Concluimos que el intervalo buscado ser´ a 0. 20.02 ± 0. al haber escogido 90 % de a confianza.3. m´s precisa ser´ la estimaci´n. o o √ Recordar que en la estimaci´n por un intervalo. Necesitamos ¯ ¯ X.02 − 1.α/2 σ/ n.3. mayor precisi´n en la estimaci´n. o de forma equivalente µ = 20. no hay m´s remedio que proporcionar un intervalo grande.02. σ/ n Si la distribuci´n de X no es Normal. 5 5 es decir µ ∈ [19. podemos recurrir al Teorema Central del L´ ımite.. X es Normal.05 0. es f´cil comprobar que X = 20.

1−α/2 S/ n es el t´rmino de error.1−α/2 S/ n) = 1 − α. S/ n donde hemos utilizado la notaci´n tn−1.3. e e VI.1−α/2 S/ n. Se escribe tambi´n e √ ¯ µ = X ± tn−1.4. Despejamos µ en las desigualdades y obtenemos √ √ ¯ ¯ P(X − tn−1.1−α/2 S/ n].1−α/2 ) = 1 − α. α.1−α/2 para denotar el cuantil 1 − o α/2 de la distribuci´n tn−1 . El intervalo de confianza al 100(1 − α) % para µ es √ √ ¯ ¯ µ ∈ [X − tn−1. Determinaci´n del tama˜ o muestral o n Planteamiento Si estoy en condiciones de dise˜ar el experimento que quiero realizar para estimar n la media µ.3. √ el t´rmino tn−1.1−α/2 S/ n ≤ µ ≤ X + tn−1. X + tn−1. tal como viene ilustrado en la figura siguiente a Deducimos P(−tn−1. es decir el punto que deja un ´rea igual o a a 1 − α/2 a su izquierda.1−α/2 ≤ ¯ X −µ √ ≤ tn−1.VI. Escogemos el estad´ ıstico T = ¯ X −µ √ ∼ tn−1 S/ n 99 Dibujo en la densidad del estad´ ıstico T una regi´n central que represente o el 100(1−α) % del ´rea total.1.4. Los valores de los cuantiles m´s usados de la a distribuci´n t est´n recogidos en una tabla en el ap´ndice de este cap´ o a e ıtulo. puedo intentar decidir del n´mero de observaciones en la muestra que u . VI.1−α/2 S/ n.3 Estimaci´n por intervalos o Nos fijamos el “nivel de riesgo”.

que me fijo una cantidad max. y α = 0. a .5 0. Ejemplo La medici´n de la conductividad de un material sigue una distribuci´n que modo o elizamos por una Normal con desviaci´n t´ o ıpica σ = 0.3. Obtengo 0. Habr´ por lo tanto que realizar 11 mediciones. que el margen de error a sea menor que una cantidad prefijada.96 √ ≤ 0.05.100 Mathieu Kessler: M´todos Estad´ e ısticos ser´n necesarias para garantizar. con una confianza dada. ¿cu´ntas veces deber´ repetir la a e medici´n? o √ Busco n tal que z1−α/2 σ/ n ≤ 0.3.4.5 1. n Es f´cil obtener n despej´ndolo de la desigualdad.3. a a VI.5. n es decir que n≥ 1. Es decir.3. sabiendo que σ = 0.96 · 0.3 2 10.67.2. y me pregunto cu´l deber´ de ser el valor de n para que a a σ z1−α/2 √ ≤ max.5. Quiero construir un intervalo de confianza al 95 % para el valor promedio proporcionado de la conductividad pero quiero que el error cometido sea menor de 0.

703 1.265 0.906 0.255 0.943 1.859 0.127 0.261 0.708 1.462 2.128 0.66 2.256 0.796 1.415 1.531 0.734 1.526 0.857 0.529 0.271 0.26 0.485 2.896 0.886 1.701 1.0.315 1.53 0.898 2.314 1.721 1.921 2.638 1.311 1.143 2.645 tk.13 0.25 3.70 0.499 3.39 2.257 0.101 2.60 0.289 0.128 0.845 0.0.372 1.254 0.134 0.75 2.706 4.256 0.74 1.535 0.126 .126 0.831 2.126 0.699 1.055 3.256 0.042 2.761 1.0.296 1.856 0.553 0.319 1.056 2.896 2.p ) = p.316 1.714 1.257 0.333 1.576 tk.127 0.26 0.866 0.717 1.467 2.06 2.253 tk.90 3.821 6.782 1.862 0.704 2.571 2.258 0.821 2.537 0.106 3.531 0.328 1.262 0.256 0.313 1.873 0.889 0.277 0.617 2.518 2.998 2.879 0.069 2.126 0.746 1.256 0.851 0.127 0.861 0.365 2.16 2.995 63.0.533 0.35 1.729 1.355 3.978 0.771 1.44 1.127 0.53 0.718 2.65 2.078 1.532 0.31 1.865 0.868 0.567 2.86 0.747 3.182 2.128 0.584 0.353 2.539 0.127 0.787 2.92 2.061 0.318 1. el valor tk.858 0.524 tk.604 4.064 2.763 2.671 1.842 tk.50 0.127 0.725 1.855 0.127 0.3 Estimaci´n por intervalos o 101 Cuantiles de la distribuci´n t de Student o Valores de los cuantiles de la distribuci´n t de Student con k grados de libertad: o para un 0 ≤ p ≤ 1.681 2.447 2.127 0.345 1.527 0.257 0.797 2.771 2.267 0.137 0.602 2.257 0.326 tk.975 12.325 1.341 1.303 1.841 4.256 0.727 0. k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 >120 tk.129 0.201 2.228 2.538 0.314 2.583 2.531 0.33 1.132 0.5 2.045 2.145 2.476 1.528 2.925 5.132 2.658 1.569 0.753 1.624 2.895 1.707 3.323 1.878 2.263 0.80 1.756 2.256 0.086 2.0.08 2.074 2.845 2.356 1.127 0.617 0.127 0.807 2.492 2.131 0.021 2 1.13 0.861 2.0.289 1.542 0.86 1.98 1.711 1.VI.764 2.848 0.977 2.337 1.179 2.876 0.552 2.048 2.363 1.358 2.87 0.856 0.543 0.706 1.457 2.546 0.697 1.855 0.423 2.532 0.854 0.325 0.259 0.479 2.093 2.833 1.257 0.657 9.306 2.941 0.53 0.54 0.812 1.532 0.12 2.534 0.541 3.776 2.559 0.127 0.0.128 0.131 2.256 0.858 0.533 0.965 4.012 2.142 0.321 1.303 3.473 2.262 2.376 1.684 1.0.95 6.032 3.158 0.534 0.397 1.0.129 0.779 2.92 0.015 1.508 2.533 1.863 0.11 2.99 31.854 0.883 0.539 2.549 0.129 0.254 0.531 0.128 0.128 0.947 2.127 0.258 0.819 2.127 0.p satisface P(t ≤ tk.282 tk.256 0.383 1.536 0.169 3.960 tk.052 2.258 0.259 0.365 3.

.

es decir. o Este ejemplo contiene todos los ingredientes del contraste de hip´tesis y pasamos o a describirlos en un contexto m´s general. a ¯ Para decidir si µ = 55 o µ = 55. hemos aprendido c´mo estimar. la empresa se fija una regla: si X > 60. retomamos o ¯ el ejemplo visto al final del tema 5 cuando describimos la gr´fica de control X: una a empresa controla la concentraci´n de CaCO3 en su producto.1. En el tema 5. Introducci´n o En el tema anterior. Formularemos una hip´tesis sobre el valor del par´metro y o e o a la contrastaremos con los datos de la muestra para comprobar si ´stos la apoyan o e la desmienten. Hay situaciones a a en las que m´s que conocer el valor concreto del par´metro. queremos tomar una a a decisi´n acerca de ´ste.6. Para ilustrar los conceptos relacionados con los contrastes de hip´tesis. aproximar el valor o de un par´metro bas´ndonos en las observaciones de una muestra. a . mide la concentraci´n de CaCO3 en cada o caso y calcula su media. sabemos que es razonable modelizar la distribuci´n de X por una distribuci´n o o Normal de media µ y desviaci´n t´ o ıpica 8. vimos c´mo la empresa o ¯ puede realizar un control de la calidad de su producci´n gracias a una gr´fica X: o a cada hora toma una muestra de 4 envases.TEMA VII Introducci´n a los contrastes de hip´tesis o o VII. decide que µ = 55 y para la producci´n para ajustar el proceso de ´ X o o fabricaci´n. Si llamamos X la concentraci´n de CaCO3 medida en un eno o vase. Bas´ndose en este valor decide si el proceso de producci´n a o est´ en condiciones de correcto funcionamiento. El valor ideal de esta o concentraci´n es 55.4 ¯ < 49. es decir si µ = 55.

es decir que los datos nos llevan a rechazar H0 cuando ´sta es cierta. Evaluaci´n del error o Al tomar la decisi´n acerca de la veracidad de H0 .2. Tenemos por lo tanto α = PH0 (Rechazar H0 ) = PH0 (T (X1 . . Por o ejemplo si queremos contrastar si µ es mayor que 55. Xn ) ∈ R)). De los tres contrastes. o En el ejemplo de los monitores de ordenador. H1 : µ < 55. . .2. y.6} ∪ {x > 60. entonces cambiaremos la formulaci´n de la hip´tesis alternativa. aceptaremos H0 . Planteamiento general Hip´tesis estad´ o ıstica Una hip´tesis estad´ o ıstica es una proposici´n acerca del valor de un par´metro o a en el modelo considerado. Este tipo de error se llama e error de tipo I. ´ VII. . VII. rechazaremos H0 .2. Hip´tesis nula o Hip´tesis alternativa o Habr´ casos en los que nos interesar´ decidir si el par´metro es mayor (o menor) a a a que un valor dado. o En cambio si el valor de T (X1 . . plantearemos el contraste: H0 : µ = 55. mientras que si queremos decidir si µ es menor que 55. Xn ).3. . . . la regla de decisi´n que se hab´ o ıa ¯ la regi´n de fijado la empresa es: bas´ndose en el estad´ a ıstico T (X1 . . .2. si este valor pertenece a R. para simplificar. considerando la igualdad en la hip´tesis nula. . La formulaci´n de un contraste de hip´tesis pasa siempre o o por el planteamiento de dos hip´tesis: o H0 : µ = 55. Xn ) no pertenece a R.3. H1 : µ > 55. . Xn ).2. diremos que los datos no presentan argumentos en contra de la hip´tesis nula. . plantearemos H0 : µ = 55. Xn ) = X. cuando en realidad es cierta. VII. . Regla de decisi´n o Bas´ndonos en un estad´ a ıstico T (X1 . mientras que los dos ultimos se llaman contrastes unilaterales. (la letra griega “alfa”). Para mi muestra calcular´ o e el valor concreto de T (X1 . . es decir en una funci´n de las o observaciones. . . podemos cometer dos tipos o de error: VII.4}. . una vez fijada una regla de decisi´n. o rechazo es R = {x < 49.1. Error de tipo I Podemos afirmar que H0 es falsa. .104 Mathieu Kessler: M´todos Estad´ e ısticos VII. la probabilidad de cometerlo o se denota por α. . es decir afirmaremos que los datos apoyan la hip´tesis alternativa H1 . el primero se llama contraste bilateral. o o pero seguiremos. . determinaremos una regi´n de rechazo R. puesto que la hip´tesis alternativa comprende tanto valores mayores como valores menores que o 55. H1 : µ = 55.1.2.

En el ejemplo de la concentraci´n de CaCO3. (4)2 ).05. mientras que si no cae en la regi´n R.3. . Tenemos / β = PH1 (Aceptar H0 ) = PH1 (T (X1 . admitimos H0 . precisamente. .7) 0. nos referimos a la probabilidad suponiendo que H0 es o cierta. .01 o 0.6 − 65 X − 65 60.VII. VII. y sabemos que X calcular β: β = Pµ=65 ( ¯ 49. Una vez fijada la regla de decisi´n. . . Xn ) ∈ R). si la a m´quina est´ bien ajustada. Procedimiento Para llevar a cabo un contraste de hip´tesis. los valores de α m´s comunes son 0. podemos por o o ¯ ejemplo calcular β cuando en realidad µ = 65. Para nuestra muestra. Xn ). podemos calcular la probabilidad o de error de tipo I: ¯ ¯ α = PH0 (Rechazar H0 ) = Pµ=55 ((X < 49. VII. (95 %. tendremos que o Formular las hip´tesis H0 y H1 .2. .3) − φ(−7. 0. ¯ Pero. . Error de tipo II 105 El segundo tipo de error se comete cuando admitimos H0 cuando en realidad es falsa. Determinamos la regi´n de rechazo R de tal manera que la probabilidad de o rechazar H0 cuando ´sta es cierta coincida con el valor prefijado de α. o .2 Planteamiento general donde con la notaci´n PH0 . Al igual que para los contrastes de hip´tesis.4 − 65 ≤ ≤ ) 4 4 4 φ(−2. El c´lculo de β s´lo se puede hacer si especificamos un valor concreto de µ en la a o hip´tesis alternativa. Xn ) basado generalmente en un estimador del par´metro.6 ≤ X ≤ ¯ ∼ N (µ.1. es decir e PH0 (T (X1 . . los l´ ımites de control en la gr´fica X se fijaron para que.13. .2. Tenemos β = Pµ=65 (49. . Escogemos el estad´ ıstico de prueba T (X1 .2.003. . . Si este valor cae en la regi´n R.4)). 99 % ´ o a o 90 % de confianza respectivamente). Xn ) ∈ R) = α. Deducimos que α = 0. o Fijarnos la probabilidad de error de tipo I.4). calculamos el valor concreto del estad´ ıstico de prueba T (X1 . Describimos su distribuci´n muestral bajo la hip´tea o o sis de que H0 es cierta. α. Para el ejemplo de la concentraci´n de CaCO3. . . . s´lo el 3 por 1000 de las muestras a a o ¯ deben llevar a un valor de X fuera de los l´ ımites. .4. Tipificamos X para ¯ ¯ 60. rechazamos H0 y afirmamos o H1 .6) ∪ (X > 60. la probabilidad de cometer un error de tipo o II se denota por β ( la letra griega “beta”). σ 2 /n) es decir X ∼ N (µ. es decir si µ = 55.

Xn . H1 : µ = µ0 .1. Nos fijamos el valor de α. Por consiguiente fijamos la regi´n de rechazo de o la manera siguiente: . ¯ El estad´ ıstico de prueba es la versi´n tipificada de X. Suponemos adem´s que conocemos el por una Normal con media µ y varianza σ a valor de la varianza σ 2 . donde µ0 representa el valor concreto con ´l que queremos comparar µ. Hip´tesis bilateral o Para construir el contraste para µ en el caso en que formulamos una hip´tesis alo ternativa bilateral. . µ0 vale 55.4: Formulamos las hip´tesis: o H0 : µ = µ0 .1.2. seguimos los pasos descritos en la secci´n o VII. es decir que corresponder´ a valores grandes a positivos o negativos de Z0 . En el e ejemplo de los monitores. Contraste de hip´tesis para la media µ de una o distribuci´n Normal con varianza conocida. . o Consideramos una variable X. n o VII. Queremos llevar a cabo un contraste sobre µ. . ver el apartado VII.106 Mathieu Kessler: M´todos Estad´ e ısticos VII. suponemos que su distribuci´n ha sido modelizada o 2 . . extraeremos una muestra de tama˜o n de la distribuci´n de X: X1 . La probabilidad de que el o estad´ ıstico de prueba Z0 caiga en R cuando H0 es cierta debe coincidir con el valor de α que nos hemos fijado. para ello. 1) si H0 es cierto. Adem´s queremos que Z0 caiga en R cuando a µ es distinto de µ0 ( H1 cierta).3.2. Z0 = σ/ n Podemos ahora especificar la regi´n de rechazo.3. sabemos por el tema 5 o que ¯ X − µ0 √ ∼ N (0.

Nos queda calcular. Hip´tesis unilateral o En el caso en que hemos planteado una hip´tesis unilateral.3 Contraste de hip´tesis para la media µ de una distribuci´n Normal con o o varianza conocida. Si la hip´tesis alternativa es H1 : µ < µ0 .VII. la regi´n de rechazo ser´ o o a es decir que se rechazar´ H0 si el valor del estad´ a ıstico de prueba Z0 es mayor de z1−α/2 . mientras que si no pertenece a R. admitiremos H1 . el valor concreto del estad´ ıstico de prueba Z0 . la regi´n de rechazo ser´ o o a es decir que se rechazar´ H0 si el valor del estad´ a ıstico de prueba Z0 es menor de −z1−α/2 . 107 La regi´n R est´ formada por los valores menores que −z1−α/2 o mayores que o a z1−α/2 . VII.2.3. rechazaremos H0 y afirmaremos H1 . los pasos que seguimos o son los mismos que en el apartado anterior con la salvedad de la determinaci´n de o R: Si la hip´tesis alternativa es H1 : µ > µ0 . . Si pertenece a R. para nuestra muestra.

3.108 Mathieu Kessler: M´todos Estad´ e ısticos VII.3. Modelizamos X por una distribuci´n N (µ. es a decir que nos fijamos α = 0.975 = −1.3. al igual que en el ejemplo anterior.05. Para comprobar la calidad se decide tomar una muestra de 10 art´ ıculos que resultan tener una longitud ¯ media X igual a 51mm. a Para mi muestra.3. el valor de Z0 es Z0 = 10300 − 10000 √ 500/ 5 1. a VII. H1 : µ = 50. Decidimos trabajar al 95 % de confianza. σ 2 ) con o σ = 500. H1 : µ > 10000. El experimento aleatorio es “realizar la medici´n de la se˜al”. Ejemplos Hip´tesis alternativa bilateral o En un proceso de producci´n. la longitud de los art´ o ıculos producidos se modeliza a trav´s de una distribuci´n Normal con media µ. Bas´ndonos en esta muestra. a Las fronteras de la regi´n de rechazo son −z1−α/2 = −z0.64. Planteamos las hip´tesis o H0 : µ = 50. Puesto que Z0 pertenece a R. es X=”longitud de la pieza producida”.95 = 1. que es el nivel est´ndar de confianza. En condiciones de funcionamiento correcto. Para o n comprobarlo pienso realizar 5 mediciones de una se˜al simple cuyo valor s´ es igual n e a 10000.a X=”valor o n proporcionado por el aparato”. llevar a cabo el contraste para comprobar si el valor central de los valores medidos es superior a 10000. y la v. El estad´ ıstico es Z0 . pero la regi´n de rechazo o est´ constituida por los valores mayores que z1−α = z0. Planteamos las hip´tesis o H0 : µ = 10000.3.96 y −z1−α/2 = o 1. Por experiencia acerca del proceso. Hip´tesis alternativa unilateral o Creo que un aparato de medici´n de una se˜al sobrevalora su valor real.96.162. Bas´ndonos en la muestra. si he encontrado un valor promedio de 10300 para las 5 mediciones de la muestra.2. . ¿qu´ podemos decir acerca del a e funcionamiento del proceso? La variable que introducimos asociada al experimento “producir una pieza”. Considerando que la distribuci´n de los valores medidos se puede modo elizar por una Normal con desviaci´n t´ o ıpica igual a 500.3. se espera que la longitud media de los art´ ıculos sea 50mm. e o se cuantifica su desviaci´n t´ o ıpica en σ = 1.1. VII. rechazamos H0 y afirmamos al 95 % de confianza que el proceso est´ desajustado. que sigue una distribuci´n Normal eso σ/ t´ndar si H0 es cierta.34. ¯ √0 El estad´ ıstico de prueba es Z0 = X−µn . calculamos el valor de Z0 : a Z0 = 51 − 50 √ 1/ 10 3.

y la regi´n de aceptaci´n.1.4. a a a Esto corresponde a un hecho general: si rechazamos H0 a un nivel de confianza dado.3. podemos calcular el valor m´s peque˜o de a n α que nos lleve a rechazar H0 . Si en la gr´fica de a la distribuci´n del estad´ o ıstico Z0 .3. y para un valor concreto del estad´ ıstico de prueba. e En cambio.4 Concepto de p-valor Deducimos que Z0 no pertenece a R. tambi´n la rechazaremos para cualquier nivel de confianza menor. En nuestro ejemplo VII.. podemos preguntarnos cu´l habr´ sido la confianza m´xima con la que rechazar´ a ıa a ıamos H0 para estos datos. Ser´ m´s f´cil rechazar H0 al 90 % que al 95 % de confianza. Planteado un contraste. Para determinar α0 .1.VII.4.162. o ¿Cu´l habr´ sido nuestra decisi´n si.1 El valor de α m´s peque˜o que nos lleve a rechazar H0 se llama o a n el p-valor de la prueba. en lugar de habernos fijado el 95 % de a ıa o confianza. El valor de α correspondiente a n a esta regi´n R es α0 . y hemos rechazado al 95 % de confianza la hip´tesis nula.3.56. tambi´n rechazamos H0 al 99 % de e confianza. contiene el a o o 95 % del ´rea total. o Lo ilustramos para el ejemplo en ´l que z0 = 3. por lo que no podemos rechazar H0 : los datos no contradicen H0 . Deducimos por lo tanto que la regi´n de rechazo que corresponde a o al 90 % de confianza es m´s grande que la regi´n de rechazo que corresponde la 95 % a o de confianza. H1 : µ = 50. y lo denotaremos por α0 . empezamos primero por se˜alar el valor de z0 n obtenido para la muestra. esta regi´n de rechazo se obtendr´ al hacer coincidir una o a de sus fronteras con z0 : para una regi´n de rechazo m´s grande (es decir un α m´s o a a grande) se rechazar´ H0 mientras que para una regi´n de rechazo m´s peque˜a (es a o a n decir un α m´s peque˜o) tendremos que aceptar H0 .. y para saber si seguimos rechazando H0 neceo sitamos comprobar si el valor de nuestro estad´ ıstico de prueba sigue encontr´ndose a dentro de la nueva regi´n de rechazo.3.995 = 2. puesto que Z0 toma el valor 3. tendremos que considerar la regi´n de rechazo que haga o de frontera entre las dos decisiones: rechazar H0 y aceptar H0 .162 en la gr´fica siguiente: e a . las fronteras o de la regi´n de rechazo al 99 % de confianza son −z1−α/2 = −z0. es decir el complementario de R. ´sta contiene el 5 % o e del ´rea total. Concepto de p-valor En el ejemplo VII. hubieramos escogido 90 % de confianza? Por la forma en la que hemos construido la regi´n de rechazo. 109 VII. Definici´n VII. si nos preguntamos cu´l habr´ sido nuestra decisi´n al 99 % de cona ıa o fianza? La regi´n de rechazo mengua. para el contraste H0 : µ = 50.162. Equivalentemente.995 = −2.56 y o z0. Hemos encontrado que el valor del estad´ ıstico de prueba era z0 = 3.

. lo m´s f´cil es o a a controlar la probabilidad de error de tipo I.110 Mathieu Kessler: M´todos Estad´ e ısticos − z0 z0 Para calcular α0 . Potencia del test Definici´n o Hemos visto que. dejando en sus manos la decisi´n de rechazar o aceptar o H0 .2. Si el a ıa p-valor es mayor de 0.5. es decir que α0 = 2(1 − φ(3. Si el p-valor est´ comprendido entre 0. Deducimos que para el ejemplo. tambi´n e es importante saber que. Sin embargo.99844) = 99. Este resultado es coherente con las decisiones que hemos tomado al 95 % y al 99 % de confianza. y µ1 un valor cono o creto de µ incluido en los valores contemplados en H1 .1 Consideremos H1 la hip´tesis alternativa. a Definici´n VII. La potencia de un test (contraste de hip´tesis) contra la alternativa µ = µ1 . Cualquier programa de estad´ ıstica que permita llevar a cabo un contraste de hip´tesis no solicita del usuario que especifique la confianza. puesto que la regi´n de rechazo se define o para que esta probabilidad coincida con el valor fijado de α. En general se suele considerar que un p-valor menor de 0. sino que directamente o le proporciona el p-valor. se admite H0 . a la hora de construir un contraste de hip´tesis.00156.. si H0 es falsa.162)) 0. VII.162).05. Es decir e P ot(µ1 ) = Pµ=µ1 (Rechazar H0 ). VII.1. la confianza m´xima con la que podr´ a ıamos haber rechazado es 100(1 − α0 ) = 100(0. es decir que nos llevar´ a concluir de manera correcta que H0 es falsa. deducimos del dibujo anterior que α0 /2 = P(Z ≥ 3. no permite concluir de manera muy segura y deber´ ıamos intentar colectar m´s a datos.1 nos lleva a rechazar H0 aunque el est´ndar corresponder´ realmente a un p-valor menor que 0.84 %. es o la probabilidad de rechazar H0 cuando ´sta es falsa y en realidad µ = µ1 . nuestro contraste lo detectar´ con bastante a probabilidad.5.1 y a 0.5.2.

con un cierto nivel de confianza. por ejemplo en su versi´n bilato eral. Para calcular la potencia de este contraste contra la alternativa µ = µ1 . H0 : µ = µ0 .5. . ıa o e Nos fijamos α. Se suele considerar suficiente a a una potencia de al menos 0. mejor ser´ el contraste. C´lculo de la potencia a Queremos plantear un contraste sobre la media.VII. . El estad´ ıstico de prueba es Z0 = est´ndar si H0 es cierta. la regi´n es o A partir de aqu´ podemos pasar al c´lculo de la potencia: sabemos que ı.2.5 Potencia del test Cuanto mayor ser´ la potencia. a P ot(µ1 ) = Pµ=µ1 (Rechazar H0 ). a ¯ X−µ0 √ . . la relaci´n entre la probabilidad β de error de tipo II y la potencia es por o lo tanto β = 1 − P ot(µ1 ). Por ejemplo si es bilateral. H1 : µ = µ0 . 111 VII. seguimos los pasos de la realizaci´n del contraste hasta la definici´n de la regi´n de rechazo o o o R incluida: Por ejemplo H0 : µ = µ0 . pero podr´ ser con hip´tesis alternativa unilateral tambi´n. H1 : µ = µ0 .8 Recordar que el error de tipo II consiste en aceptar H0 cuando en realidad ´sta e es falsa. σ/ n que sigue una distribuci´n Normal o Construimos la regi´n de rechazo seg´n el tipo de hip´tesis alternativa que nos o u o hemos planteado. y planificamos tomar una muestra de n observaciones.

112 es decir que

Mathieu Kessler: M´todos Estad´ e ısticos

P ot(µ1 ) = Pµ=µ1 (Z0 ∈ R). En el caso de una hip´tesis alternativa bilateral, esta probabilidad es o P ot(µ1 ) = Pµ=µ1 ((Z0 ≤ −z1−α/2 ) ∪ (Z0 ≥ z1−α/2 )).

(VII.1)

Para calcular la potencia necesitamos por lo tanto conocer la distribuci´n de Z0 o cuando H0 no es cierta, sino µ = µ1 . Para ello, utilizamos la relaci´n siguiente o Z0 = Si µ = µ1 , la variable por lo tanto que
¯ X−µ1 √ σ/ n

¯ ¯ X − µ0 X − µ 1 µ1 − µ0 √ = √ + √ . σ/ n σ/ n σ/ n sigue una distribuci´n Normal est´ndar. Deducimos o a

Si µ = µ1 , Z0 ∼ N (δ, 1), donde δ se llama el par´metro de no-centralidad y se define como a δ= µ1 − µ0 √ . σ/ n

´ Esta es la distribuci´n que utilizaremos para calcular la potencia a partir de la o expresi´n en (VII.1). Para ello bastar´ con tipificar la variable Z0 para expresar o a la probabilidad buscada en t´rminos de φ. e

VII.5.3.

Ejemplo de c´lculo de la potencia a

Volvamos al ejemplo del apartado VII.3.3.1, en ´l que estudiamos la longitud e media de los art´ ıculos producidos. La v.a introducida es X=”longitud de un art´ ıculo producido” y hemos supuesto que X ∼ N (µ, σ 2 ), con σ = 1. Queremos comprobar que la longitud media de los art´ ıculos producidos no es significativamente distinta de 50mm. Para ello, planificamos llevar a cabo el contraste H0 : µ = 50, , H1 : µ = 50, cogiendo una muestra de 10 piezas, y fijando una confianza del 95 %. ¿Cu´l es la probabilidad de que, si en realidad µ = 50,5, y por lo tanto H0 es a falsa, el contraste que hemos planeado nos permita detectar que H0 es falsa, es decir que nos lleve a rechazar H0 . Queremos calcular P ot(50,5). Desarrollamos el contraste hasta la determinaci´n o de R. H0 : µ = 50, H1 : µ = 50, Nos fijamos α = 0,05. El estad´ ıstico Z0 = cierta.
¯ X−µ0 √ σ/ n

sigue una distribuci´n Normal est´ndar si H0 es o a

VII.6 Inferencia para la media La regi´n de rechazo es R = {z : o R = {z : z < −1,96 o z > 1,96}. Ahora P ot(50,5) = Pµ=µ1 (Z0 ∈ R) = Pµ=µ1 ((Z0 ≤ −1,96) ∪ (Z0 ≥ 1,96)). Sabemos que, si µ = µ1 , Z0 ∼ N (δ, 1). Calculemos δ: δ= Deducimos tipificando que P ot(50,5) = Pµ=µ1 (Z0 ≤ −1,96) + Pµ=µ1 (Z0 ≥ 1,96) Z0 − δ Z0 − δ −1,96 − δ 1,96 − δ = Pµ=µ1 ( ≤ ) + Pµ=µ1 ( ≥ ) 1 1 1 1 = P(Z ≤ −3,54) + P(Z ≥ 0,38) = φ(−3,54) + (1 − φ(0,38)) = 1 − φ(3,54) − (1 − φ(0,38)) 0,35. µ1 − µ0 50,5 − 50 √ = √ σ/ n 1/ 10 1,58. z < −z1−α/2 o z > z1−α/2 } es decir

113

Esta potencia es insuficiente, para mejorarla, tendremos que planificar un experimento con m´s observaciones. a

VII.5.4.

Factores que influyen la potencia

Cuanto mayor sea n, mayor ser´ la potencia. a Cuanto menor sea σ, mayor ser´ la potencia. a Cuanto mayor sea el nivel de confianza, menor ser´ la potencia: si exigimos a m´s confianza, pagamos un precio... a Cuanto m´s diferencia haya entre µ1 y µ0 , m´s f´cil ser´ detectar cuando µ no a a a a es igual a µ0 sino a µ1 , por lo tanto, mayor ser´ la potencia. a

VII.6.

Inferencia para la media

En la presentaci´n del contraste de hip´tesis, hemos considerado el caso en que o o el modelo es normal con varianza conocida. En el caso m´s realista en que no se a especifica el valor de la varianza como parte del modelo, lo estimaremos a partir de la muestra. A continuaci´n construimos contrastes de hip´tesis para la media de una o o distribuci´n Normal con varianza desconocida. o

VII.6.1.
VII.6.1.1.

Contraste de hip´tesis para la media µ de una distribuci´n o o Normal con varianza desconocida
Construcci´n o

Seguimos los mismos pasos que en el caso en que la varianza es conocida.

114

Mathieu Kessler: M´todos Estad´ e ısticos Planteamos las hip´tesis. Por ejemplo para una hip´tesis alternativa bilateral: o o H0 : µ = µ0 , H1 : µ = µ0 , donde µ0 representa el valor concreto con ´l que queremos comparar µ. e Nos fijamos el valor de α. El estad´ ıstico de prueba es T0 = ¯ X − µ0 √ ∼ tn−1 S/ n si H0 es cierto.

Podemos ahora especificar la regi´n de rechazo. o

La regi´n R est´ formada por los valores menores que −tn−1,1−α/2 o mayores o a que tn−1,1−α/2 . Nos queda calcular, para nuestra muestra, el valor concreto del estad´ ıstico de prueba T0 . Si pertenece a R, rechazaremos H0 y afirmaremos H1 , mientras que si no pertenece a R, admitiremos H1 . En el caso en que la hip´tesis alternativa es unilateral lo unico que cambia es la o ´ regi´n de rechazo: o H0 : µ = µ0 , H1 : µ < µ0 , H0 : µ = µ0 , H1 : µ > µ0 ,

a Planteamos las hip´tesis o H0 : µ = 10. al igual que en el tema 7.01. Si s´lo tenemos una o tabla a mano. queremos o contrastar si el centro de los valores proporcionados por el aparato es mayor que 10. Nos fijamos α = 0. . el valor del estad´ ıstico de prueba es t0 = ¯ X − µ0 10. Este valor pertenece a la regi´n de rechazo por lo que deducimos que al 95 % de o confianza rechazamos H0 .2. bas´ndonos en las mismas tres mediciones. T0 = 4.913. Ejemplo 115 Volvamos al ejemplo de las mediciones visto en la secci´n anterior. deduzco que el valor del estad´ e ıstico de prueba. x1. x12 . caracterizamos el p-valor como α0 = P(t > 4. Podemos utilizar o una calculadora estad´ ıstica para calcular α0 de manera precisa.7. que denotamos respectivamente por µ1 y µ2 . que el p-valor es menor que 0. .6. H1 : µ > 10.2.0002333/ 3 4. podemos ir probando con distintos niveles de confianza para obtener cuotas razonablemente precisas de α0 . Extraeremos dos muestras: una correspondiente a la primera variable X1 y otra correspondiente a X2 . suponiendo que trabajamos con 95 % de confianza. Para la muestra escogida. la frontera siendo o t2.913 es mayor que t2.913).5 % de confianza ıa pero la aceptar´ al 99 % de confianza: el p-valor α0 est´ comprendido entre 0. puesto que hemos rechazado H0 al 95 % de confianza. .025 y ıa a 0.0.92. El estad´ ıstico de prueba es ¯ X − µ0 √ ∼ tn−1 si H0 es cierto. x12 .99 . En realidad.1. x1. Inferencia para dos medias Consideramos ahora situaciones en las que modelizamos dos variables X1 y X2 y nos interesa posiblemente comparar sus dos medias.05.2. Por ejemplo.n1 .0. Utilizamos la notaci´n siguiente para designar los valores de o estas muestras: Muestra 1: Muestra 2: x11 . .n1 x11 . . VII.24333 − 10.7 Inferencia para dos medias VII.0. de la tabla de los cuantiles de la distribuci´n t que se encuentra o en el ap´ndice.05.95 = 2. Deduzco que rechazar´ H0 al 97.2 √ =√ √ S/ n 0. Notar en particular que deducimos en particular.1−α }. . T0 = S/ n La regi´n de rechazo es unilateral : R = {t : t > tn−1. donde t es una distribuci´n t de Student con 2 grados de libertad. .VII.975 pero menor que t2.2. .

Introduci2 2 mos tambi´n la notaci´n S1 y S2 para designar las varianzas respectivas de las dos e o muestras. Caso de varianzas conocidas X1 − X2 − (µ1 − µ2 ) 2 σ1 n1 Se cumple + 2 σ2 n2 ∼ N (0. Caso de varianzas desconocidas a) Si se suponen las varianzas iguales 2 2 Si a la hora de la modelizaci´n hemos supuesto σ1 = σ2 . donde k = ´ ınf(n1 − 1. Estad´ ısticos muestrales Al pretender comparar µ1 y µ2 .7. b) Si NO se suponen iguales En este caso.7..7. VII. n2 − 1).2.1. no se conoce de manera exacta la distribuci´n muestral del o X1 −X2 −(µ1 −µ2 ) estad´ ıstico natural . Pasamos ahora a presentar distintos estad´ ısticos relacionados con X1 − X2 entre los que tendremos que escoger seg´n la situaci´n de modelizaci´n en la que nos u o o 2 2 encontremos: ¿conocemos σ1 y σ2 ?. o 2 X1 ∼ N (µ1 . se puede utilizar la aproxi2 2 S1 n1 + n2 S 2 maci´n siguiente: o X1 − X2 − (µ1 − µ2 ) 2 S1 n1 + 2 S2 n2 ∼ tk . σ1 ). Sin embargo. 2 X2 ∼ N (µ2 . El estad´ ıstico que utilizaremos para estimar esta cantidad es X1 − X2 . . 1). Introducimos u 2 S0 = 2 2 (n1 − 1)S1 + (n2 − 1)S2 n1 + n2 − 2 Utilizaremos la distribuci´n o X1 − X2 − (µ1 − µ2 ) 2 1 S0 ( n1 + 1 n2 ) ∼ tn1 +n2 −2 .. n Supondremos que hemos modelizado tanto la distribuci´n de X1 como la diso tribuci´n de X2 por Normales. VII. donde X1 y X2 denotan la media de la primera y de la segunda muestra respectivamente.1. VII. hemos supuesto que el tama˜o de la muestra 1 es n1 . mientras que el n tama˜o de la muestra 2 es n2 .116 Mathieu Kessler: M´todos Estad´ e ısticos En particular.1. ¿las desconocemos pero las suponemos iguales? etc. σ2 ).1. podemos estimar la o varianza com´n σ 2 utilizando las dos muestras. nos basaremos en la cantidad µ1 − µ2 .

nB − 1). es decir una confianza de 95 %.78 B 2. o Para ilustrar esta construcci´n.7 Inferencia para dos medias 117 VII. Dibujamos una regi´n central con ´rea 1−α en la representaci´n de la densidad o a o del estad´ ıstico: .05.VII.81 5. Para compararlas se instalaron en dos n m´quinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8 a tareas aleatoriamente elegidas: A 2.50 3. calcular el intervalo de confianza para la diferencia entre el tiempo promedio de espera con la disciplina A y el tiempo promedio de espera con la disciplina B.10 2.7. Ejemplo I.2 b) XA − XB − (µA − µB ) 2 SA nA + 2 SB nB ∼ tk . donde k = ´ ınf(nA − 1. procesada por la disciplina B La hip´tesis de modelizaci´n sobre las distribuciones de XA y XB es o o 2 XA ∼ N (µA . Nos fijamos el nivel de riesgo α = 0.24 5. Dos disciplinas de cola para servicio de CPU han sido propuestas por dos dise˜adores de sistemas operativos.7. puesto que desconocemos las dos varianzas de XA y XB es el descrito en el apartado VII.41 6. Queremos construir un intervalo de confianza para µA − µB . procesada por la disciplina A tiempo de espera de una tarea escogida al azar. σA ).30 5.29 1. y que son independientes. Intervalos y contrastes La construcci´n de los intervalos y contrastes para µ1 − µ2 se realiza siguiendo o los mismos principios que para el caso de una media s´lo.34 2. nos limitamos por lo tanto a tratar dos ejemplos o extraidos de problemas de examenes a). El estad´ ıstico de prueba.95 Suponiendo que la distribuci´n que sigue cada variable se puede aproximar por o una Normal.86 3.35 1.Introduzcamos las variables o XA : XB : tiempo de espera de una tarea escogida al azar. Soluci´n. σB ).59 2.1.22 2. 2 XB ∼ N (µB .00 1.71 1.2.

0625 2 SA = 3.18125 ± 2. (tomar α = 0. Una determinada empresa de material fungible puede adquirir los cartuchos de t´ner de impresora de dos proveedores distintos.695 2 2 SA SB + .24375 XB = 3. Con el fin de o determinar a que proveedor comprar se toma una muestra de tama˜o 12 de cada uno n de los proveedores obteniendo los siguientes resultados (n´mero de hojas impresas): u Media muestral 5459 5162 varianza muestral 111736 145258 P roveedor A P roveedor B Si suponemos que las poblaciones son normales con varianzas iguales: (a) Construir un intervalo de confianza para la diferencia entre el n´mero medio u de hojas que imprime el cartucho de cada proveedor.0349. nA nB Tenemos nA = nB = 8.1−α/2 = t7. Ejemplo II.05).365 Al sustituir obtenemos µA − µB = 0.975 = 2.1−α/2 ) = 1 − α.1−α/2 ≤ XA − XB − (µA − µB ) 2 SA nA + 2 SB nB ≤ tk.227 2 SB = 2. calculamos XA = 3. Despejamos µA − µB y obtenemos µA − µB = XA − XB ± tk.118 Mathieu Kessler: M´todos Estad´ e ısticos − tk. b). y finalmente necesitamos tk. Soluci´n: Introducimos las variables o .0.1−α 2 Deducimos que P(−tk.1−α 2 tk.1−α/2 Por otra parte.

nA nB µA − µB = XA − XB ± tnA +nB −2. bajo H0 . (tomar α = 0. (b) Razonar qu´ tipo de contraste se debe de realizar con el fin de decidir si e la duraci´n media de los cartuchos del proveedor A es mayor que la de los o cartuchos del proveedor B. y este estad´ ıstico se simplifica: T0 = XA − XB 2 S0 ( n1 + A 1 nB ∼ tnA +nB −2 . pero ahora el estad´ ıstico es XA − XB − (µA − µB ) 2 S0 ( n1 + A B 2 con S0 = A nAA B −2 +n fianza para µA − µB es 2 (n −1)S 2 +(n −1)SB 1 nB ∼ tnA +nB −2 . es decir H0 : µA − µB = 0. µA − µB = 0. Realizar este contraste. es decir que las dos variables son Normales con varianzas desconocidas pero igules. H1 : µA − µB > 0. seguimos los mismos pasos que en el ejemplo anterior.VII. si H0 es cierta. o o duraci´n de un cartucho de t´ner del proveedor B o o 119 Del enunciado sabemos que XA ∼ N (µA . . σ 2 ). H1 : µA > µB . Soluci´n:Queremos plantear el contraste o H0 : µA = µB .05).7 Inferencia para dos medias XA : XB : duraci´n de un cartucho de t´ner del proveedor A.9. La regi´n de rechazo es unilateral y es de la forma o . el estad´ ıstico de contraste es XA − XB − (µA − µB ) 2 S0 ( n1 + A 1 nB . XB ∼ N (µB .1−α/2 2 Necesitamos calcular S0 : 2 S0 = 2 S0 ( 2 2 (n1 − 1)S1 + (n2 − 1)S2 (11)111736 + 11 · 145258 = n 1 + n2 − 2 22 128497 Deducimos sustituyendo que el intervalo al 95 % de confianza es µA − µB = 297 ± 302.05. Obtenemos por lo tanto que el intervalo de con1 1 + ). Para construir el intervalo de confianza al 95 %. Nos fijamos α = 0. σ 2 ).

El valor de T0 no pertenece a la regi´n de rechazo.0295. deducimos que no podemos o rechazar H0 al 95 % de confianza. Nos falta calcular el valor concreto del estad´ ıstico de contraste T0 = XA − XB 2 S0 ( n1 + A 1 nB = 5459 − 5162 1 128497( 12 + 1 12 ) = 2.95 = 1.1−α/2 = t22. ..120 Mathieu Kessler: M´todos Estad´ e ısticos Su frontera es tnA +nB −2.0.717.

576 tk.257 0.0.534 0.541 3. k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 > 120 tk.129 0.13 0.306 2.258 0.80 1.128 0.539 0.807 2.833 1.052 2.533 1.921 2.527 0.256 0.363 1.65 2.39 2.315 1.657 9.303 3.145 2.012 2.311 1.257 0.883 0.524 tk.812 1.53 0.771 2.372 1.254 0.179 2.617 0.532 0.127 0.819 2.127 0.201 2.857 0.756 2.11 2.725 1.854 0.703 1.457 2.718 2.787 2.977 2.383 1.771 1.26 0.262 2.559 0.965 4.896 0.721 1.529 0.256 0.868 0.13 0.126 .345 1.53 0.782 1.862 0.256 0.467 2.855 0.896 2.333 1.95 6.473 2.855 0.042 2.947 2.VII.717 1.0.289 1.0.0.259 0.397 1.845 0.106 3.257 0.325 1.534 0.126 0.365 2.658 1.831 2.055 3.069 2.889 0.706 4.16 2.127 0.941 0.256 0.415 1.727 0.729 1.995 63.074 2.303 1.978 0.602 2.257 0.282 tk.865 0.337 1.032 3.549 0.546 0.258 0.776 2.797 2.878 2.127 0.848 0.542 0.553 0.583 2.856 0.127 0.169 3.137 0.319 1.684 1.531 0.499 3.101 2.92 0.704 2.86 0.70 0.26 0.256 0.127 0.126 0.132 2.53 0.064 2.314 1.355 3.476 1.325 0.127 0.87 0.645 tk.258 0.128 0.323 1.078 1.866 0.708 1.851 0.228 2.761 1.253 tk.90 3.35 1.861 2.845 2.50 0.697 1.128 0.447 2.256 0.526 0.518 2.671 1.532 0.861 0.045 2.314 2.699 1.31 1.341 1.7 Inferencia para dos medias 121 Ap´ndice e Distribuci´n t de Student o Valores de los cuantiles de la distribuci´n t de Student con k grados de libertad: o para un 0 ≤ p ≤ 1.533 0.289 0.533 0.356 1.127 0.859 0.128 0.638 1.873 0.256 0.261 0.886 1.021 2 1.707 3.998 2.617 2.0.132 0.531 0.854 0.271 0.131 0.543 0.127 0.277 0.747 3.624 2.753 1.262 0.906 0.479 2.127 0.316 1.086 2.423 2.p satisface P(t ≤ tk.12 2.257 0.328 1.326 tk.259 0.5 2.061 0.508 2.92 2.0.898 2.0.879 0.763 2.99 31.54 0.353 2.943 1.296 1.129 0.33 1.143 2.528 2.127 0.015 1.779 2.539 2.093 2.960 tk.701 1.681 2.536 0.134 0.60 0.485 2.255 0.127 0.365 3.128 0.895 1.796 1.08 2.74 1.821 6. el valor tk.746 1.66 2.714 1.604 4.376 1.535 0.263 0.842 tk.552 2.25 3.711 1.254 0.44 1.706 1.128 0.98 1.06 2.863 0.856 0.734 1.321 1.86 1.313 1.764 2.75 2.129 0.358 2.876 0.531 0.531 0.318 1.131 2.462 2.158 0.571 2.975 12.537 0.048 2.858 0.142 0.858 0.492 2.567 2.532 0.925 5.267 0.126 0.p ) = p.127 0.256 0.182 2.584 0.0.538 0.569 0.821 2.265 0.841 4.0.256 0.056 2.

Sign up to vote on this title
UsefulNot useful