P. 1
libro estadistica

libro estadistica

|Views: 1.473|Likes:
Publicado porkeane113

More info:

Published by: keane113 on May 25, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/06/2013

pdf

text

original

Sections

  • Exploraci´on de datos
  • I.1. Introducci´on
  • I.2. Unos cuantos t´erminos
  • I.3. Tabulaci´on y representaciones gr´aficas
  • I.3.1. Gr´aficas para variable cualitativa
  • I.3.2. Gr´aficas para una variable cuantitativa
  • I.4. Medidas num´ericas
  • I.4.1. Medidas de centro
  • I.4.2. Medidas de dispersi´on
  • I.4.3. Un resumen gr´afico: el diagrama de caja-bigotes
  • I.5. Ajuste por m´ınimos cuadrados
  • I.5.1. Planteamiento
  • I.5.2. Criterio de m´ınimos cuadrados
  • I.5.3. Casos concretos
  • Fundamentos de la teor´ıa de la probabilidad
  • II.1. Conceptos b´asicos relacionados con un experimen-
  • II.1.1. Experimento aleatorio
  • II.1.2. Suceso elemental
  • II.1.3. Espacio muestral
  • II.1.4. Suceso
  • II.1.5. Diagrama de Venn
  • II.1.6. Leyes de Morgan
  • II.2. Concepto de Probabilidad
  • II.2.1. Definici´on informal de la probabilidad - propiedades
  • II.2.2. El caso de un espacio muestral finito y la definici´on de Laplace
  • II.3. La probabilidad condicionada
  • II.3.1. Definici´on
  • II.3.2. Regla del producto
  • II.3.3. Propiedad
  • II.4. Sucesos independientes
  • II.4.1. Definici´on para dos sucesos
  • II.4.2. Definici´on para n sucesos
  • II.5. Ejemplos de probabilidades condicionadas en la vi-
  • II.5.1. Eslogan publicitario para la loter´ıa
  • II.5.2. Tabaquismo y c´ancer de pulm´on
  • II.5.3. Tabaquismo y esperanza de vida
  • II.6. F´ormula de la probabilidad total y teorema de
  • II.6.1. Condiciones de aplicaci´on
  • II.6.2. Los resultados
  • II.6.3. Ejemplo
  • Variable aleatoria I
  • III.1. Concepto de variable aleatoria
  • III.1.1. Definici´on
  • III.1.2. Distribuci´on de una variable aleatoria
  • III.2. Funci´on de distribuci´on de una v.a
  • III.2.1. Definici´on
  • III.2.2. C´alculo para el ejemplo de las tres monedas
  • III.2.3. Propiedades
  • III.3. Variable aleatoria discreta
  • III.3.1. Definici´on
  • III.3.2. Funci´on puntual de probabilidad
  • III.3.3. Caracter´ısticas de una variable discreta
  • III.3.4. Modelos m´as usados de v.a. discretas
  • III.4. Variable continua
  • III.4.1. Definici´on
  • III.4.2. Funci´on de densidad
  • III.4.3. Medidas num´ericas asociadas a una v.a continua
  • III.4.4. Modelos m´as comunes de v.a continua
  • III.5. Algunas propiedades ´utiles de la esperanza y la
  • Variable Aleatoria II
  • IV.1. Introducci´on
  • IV.2. Variable bidimensional discreta
  • IV.2.1. Funci´on puntual de probabilidad conjunta
  • IV.2.2. Esperanza
  • IV.3. Variable bidimensional continua
  • IV.3.1. Funci´on de densidad conjunta
  • IV.3.2. Esperanza
  • IV.4. Distribuciones condicionadas
  • IV.4.1. V.a bidimensional discreta
  • IV.4.2. Para una v.a bidimensional continua
  • IV.4.3. Esperanza condicionada
  • IV.5. Variables independientes
  • IV.5.1. Definici´on
  • IV.5.2. Consecuencias pr´acticas
  • IV.6. Medidas num´ericas para una v.a bidimensional
  • IV.6.1. Definiciones
  • IV.6.2. Propiedades
  • IV.7. Algunos modelos de v.a. multidimensional
  • IV.7.1. Modelo multinomial
  • IV.7.2. El modelo Normal multidimensional
  • Muestreo y distribuciones muestrales
  • V.1. Introducci´on
  • V.3. La media muestral
  • V.3.1. Esperanza y varianza de ¯
  • V.3.2. Distribuci´on de la media muestral
  • V.4. La varianza muestral
  • V.5. Distribuci´on t de Student
  • V.6. La proporci´on muestral
  • V.6.1. C´alculos exactos para la distribuci´on de ˆp
  • V.6.2. Distribuci´on aproximada de ˆp
  • V.7. Introducci´on a las gr´aficas de control
  • V.7.1. Gr´afica de control ¯
  • V.7.2. Gr´afica de control ˆp
  • V.7.3. Otra se˜nal de alarma
  • Introducci´on a la teor´ıa de la estimaci´on
  • VI.1. Introducci´on
  • VI.2. Estimaci´on puntual
  • VI.2.1. Definici´on
  • VI.2.2. Propiedades deseables para un estimador
  • VI.2.3. M´etodos de construcci´on de estimadores
  • VI.3. Estimaci´on por intervalos
  • VI.3.1. Idea b´asica
  • VI.3.3. Comentarios importantes
  • VI.3.4. Determinaci´on del tama˜no muestral
  • Introducci´on a los contrastes de hip´otesis
  • VII.1. Introducci´on
  • VII.2. Planteamiento general
  • VII.2.1. Hip´otesis estad´ıstica
  • VII.2.2. Regla de decisi´on
  • VII.2.3. Evaluaci´on del error
  • VII.2.4. Procedimiento
  • VII.3.1. Hip´otesis bilateral
  • VII.3.2. Hip´otesis unilateral
  • VII.3.3. Ejemplos
  • VII.4 Concepto de p-valor 109
  • VII.4. Concepto de p-valor
  • VII.5. Potencia del test
  • VII.5.1. Definici´on
  • VII.5.2. C´alculo de la potencia
  • VII.5.3. Ejemplo de c´alculo de la potencia
  • VII.6 Inferencia para la media 113
  • VII.5.4. Factores que influyen la potencia
  • VII.6. Inferencia para la media

Métodos

Estadísticos
de la Ingeniería
Mathieu Kessler
• Los métodos estadísticos persiguen extraer   de la manera más eficiente 
posible  la  información  presente  en  conjuntos  de  datos.     Su  uso  se  ha 
generalizado   en   todos   los   campos   de   la   ingeniería   y   son   varias   las 
asignaturas   aplicadas   en   las   titulaciones   de   Ingeniero   Industrial   o 
Ingeniero  Técnico  Industrial   que  presuponen  por   parte  del   alumno  el 
manejo  básico  de  técnicas  estadísticas  sencillas.   Este  manual   recorre  el 
camino   desde   la   exploración   previa   de   un   conjunto   de   datos,     la 
formulación de un modelo aleatorio para el mecanismo de generación de 
éstos, hasta la introducción a las técnicas de inferencia que formalizan el 
carácter significativo o no de las conclusiones que se puede extraer de los 
datos resultantes de un experimento. 
Se ha optado por una presentación intuitiva de los conceptos intentando 
en la medida de lo posible relacionarlos con la experiencia práctica o el 
sentido común…
• Mathieu   Kessler   es   Catedrático   de   Universidad   en   el   área   de 
Estadística e Investigación Operativa en el Departamento de Matemática 
Aplicada  y  Estadística  de  la  Universidad  Politécnica  de   Cartagena.   Es 
doctor en Estadística por la Universidad de Paris VI y autor de numerosas 
publicaciones tanto sobre estadística teórica como sobre aplicaciones de la 
estadística en revistas internacionales.
Autor: Mathieu Kessler
ISBN: 978­84­96997­07­3
D. Legal: MU­1949­2008
M´etodos Estad´ısticos de la Ingenier´ıa
Mathieu Kessler
Departamento de Matem´atica Aplicada y Estad´ıstica
Universidad Polit´ecnica de Cartagena
mathieu.kessler@upct.es
i
Pr´ologo
Este manual se ha desarrollado a partir de los apuntes que el autor usa como so-
porte para sus clases en la asignatura de “M´etodos Estad´ısticos de la Ingenier´ıa” que
ha impartido en numerosas ocasiones, tanto en la titulaci´on de Ingeniero Industrial
como en la de Ingeniero T´ecnico Industrial de varias especialidades.
Se pueden destacar tres objetivos para esta asignatura:
capacitar al alumno para extraer, resumir y comunicar informaci´on a partir de
conjuntos de datos experimentales,
proporcionarle las herramientas para la construcci´on de modelos para estos
datos a trav´es de variables aleatorias,
finalmente, introducir al alumno en los conceptos de la inferencia estad´ıstica,
permiti´endole llegar a conclusiones significativas a partir de una muestra.
El temario de la asignatura recorre estos objetivos, escogiendo deliberadamente
una presentaci´on intuitiva de los conceptos e intentando en la medida de lo posible
relacionarlos con la experiencia pr´actica o el sentido com´ un de los alumnos. En
la primera parte, se pone especial ´enfasis en el uso intensivo de gr´aficas para la
exploraci´on de datos.
Quiero dar las gracias aqu´ı en primer lugar, a todos los alumnos que he tenido y
que, por sus preguntas y dudas me han obligado a precisar y pulir mis explicaciones,
e incluso mi propia comprensi´on de los conceptos. Muchos de ellos me han regalado
su atenci´on, su ilusi´on, su inter´es, y por ello, me han hecho disfrutar con mi trabajo.
Tambi´en estoy agradecido a mis compa˜ neros del ´area de Estad´ıstica e I.O y
del Departamento de Matem´atica Aplicada y Estad´ıstica, por contribuir a crear un
ambiente de trabajo agradable y estimulante, asi como a la Escuela T´ecnica Superior
de Ingenieros Industriales de la UPCT por su apoyo en una primera edici´on de este
manual.
Finalmente dedico este libro a Graci, Quique y David por ser la alegr´ıa de mis
d´ıas, por su admiraci´on ciega y en absoluto fundamentada en sus conocimientos
estad´ısticos, y por estar siempre all´ı cuando vuelvo a casa...
´
Indice general
I Exploraci´on de datos 1
I.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2 Unos cuantos t´erminos . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.3 Tabulaci´on y representaciones gr´aficas . . . . . . . . . . . . . . . . . 2
I.3.1 Gr´aficas para variable cualitativa . . . . . . . . . . . . . . . 2
I.3.2 Gr´aficas para una variable cuantitativa . . . . . . . . . . . . 3
I.4 Medidas num´ericas . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
I.4.1 Medidas de centro . . . . . . . . . . . . . . . . . . . . . . . . 9
I.4.2 Medidas de dispersi´on . . . . . . . . . . . . . . . . . . . . . 10
I.4.3 Un resumen gr´afico: el diagrama de caja-bigotes . . . . . . . 11
I.5 Ajuste por m´ınimos cuadrados . . . . . . . . . . . . . . . . . . . . . 12
I.5.1 Planteamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 12
I.5.2 Criterio de m´ınimos cuadrados . . . . . . . . . . . . . . . . . 13
I.5.3 Casos concretos . . . . . . . . . . . . . . . . . . . . . . . . . 16
II Fundamentos de la teor´ıa de la probabilidad. 25
II.1 Conceptos b´asicos relacionados con un experimento . . . . . . . . . 25
II.1.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . 25
II.1.2 Suceso elemental . . . . . . . . . . . . . . . . . . . . . . . . 26
II.1.3 Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . 26
II.1.4 Suceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
II.1.5 Diagrama de Venn . . . . . . . . . . . . . . . . . . . . . . . 27
II.1.6 Leyes de Morgan . . . . . . . . . . . . . . . . . . . . . . . . 27
II.2 Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . 28
II.2.1 Definici´on informal de la probabilidad - propiedades. . . . . 28
II.2.2 El caso de un espacio muestral finito y la definici´on de Laplace. 29
II.3 La probabilidad condicionada. . . . . . . . . . . . . . . . . . . . . . 31
II.3.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
II.3.2 Regla del producto. . . . . . . . . . . . . . . . . . . . . . . . 32
II.3.3 Propiedad . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
II.4 Sucesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . 32
II.4.1 Definici´on para dos sucesos . . . . . . . . . . . . . . . . . . . 32
II.4.2 Definici´on para n sucesos . . . . . . . . . . . . . . . . . . . . 33
II.5 Ejemplos de probabilidades condicionadas en la vida diaria . . . . . 33
II.5.1 Eslogan publicitario para la loter´ıa . . . . . . . . . . . . . . 33
II.5.2 Tabaquismo y c´ancer de pulm´on . . . . . . . . . . . . . . . . 33
II.5.3 Tabaquismo y esperanza de vida . . . . . . . . . . . . . . . . 34
II.6 F´ormula de la probabilidad total y teorema de Bayes . . . . . . . . 34
2
´
INDICE GENERAL
II.6.1 Condiciones de aplicaci´on . . . . . . . . . . . . . . . . . . . 34
II.6.2 Los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 34
II.6.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
III Variable aleatoria I 37
III.1 Concepto de variable aleatoria . . . . . . . . . . . . . . . . . . . . . 37
III.1.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
III.1.2 Distribuci´on de una variable aleatoria . . . . . . . . . . . . . 38
III.2 Funci´on de distribuci´on de una v.a . . . . . . . . . . . . . . . . . . 39
III.2.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.2.2 C´alculo para el ejemplo de las tres monedas . . . . . . . . . 39
III.2.3 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
III.3 Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . 40
III.3.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
III.3.2 Funci´on puntual de probabilidad . . . . . . . . . . . . . . . 40
III.3.3 Caracter´ısticas de una variable discreta . . . . . . . . . . . . 41
III.3.4 Modelos m´as usados de v.a. discretas . . . . . . . . . . . . . 43
III.4 Variable continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.4.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
III.4.2 Funci´on de densidad . . . . . . . . . . . . . . . . . . . . . . 47
III.4.3 Medidas num´ericas asociadas a una v.a continua . . . . . . . 50
III.4.4 Modelos m´as comunes de v.a continua . . . . . . . . . . . . 52
III.5 Algunas propiedades ´ utiles de la esperanza y la varianza . . . . . . 59
IV Variable Aleatoria II 61
IV.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
IV.2 Variable bidimensional discreta . . . . . . . . . . . . . . . . . . . . . 61
IV.2.1 Funci´on puntual de probabilidad conjunta . . . . . . . . . . 62
IV.2.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
IV.3 Variable bidimensional continua . . . . . . . . . . . . . . . . . . . . 63
IV.3.1 Funci´on de densidad conjunta . . . . . . . . . . . . . . . . . 63
IV.3.2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
IV.4 Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . 65
IV.4.1 V.a bidimensional discreta . . . . . . . . . . . . . . . . . . . 65
IV.4.2 Para una v.a bidimensional continua . . . . . . . . . . . . . 66
IV.4.3 Esperanza condicionada . . . . . . . . . . . . . . . . . . . . 67
IV.5 Variables independientes . . . . . . . . . . . . . . . . . . . . . . . . 67
IV.5.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
IV.5.2 Consecuencias pr´acticas . . . . . . . . . . . . . . . . . . . . 68
IV.6 Medidas num´ericas para una v.a bidimensional . . . . . . . . . . . . 68
IV.6.1 Definiciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
IV.6.2 Propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
IV.7 Algunos modelos de v.a. multidimensional . . . . . . . . . . . . . . 70
IV.7.1 Modelo multinomial . . . . . . . . . . . . . . . . . . . . . . . 70
IV.7.2 El modelo Normal multidimensional . . . . . . . . . . . . . 71
V Muestreo y distribuciones muestrales 75
V.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
´
INDICE GENERAL 3
V.2 Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
V.3 La media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
V.3.1 Esperanza y varianza de
¯
X . . . . . . . . . . . . . . . . . . . 79
V.3.2 Distribuci´on de la media muestral . . . . . . . . . . . . . . . 81
V.4 La varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . 82
V.5 Distribuci´on t de Student . . . . . . . . . . . . . . . . . . . . . . . . 82
V.6 La proporci´on muestral . . . . . . . . . . . . . . . . . . . . . . . . . 84
V.6.1 C´alculos exactos para la distribuci´on de ˆ p . . . . . . . . . . 85
V.6.2 Distribuci´on aproximada de ˆ p . . . . . . . . . . . . . . . . . 85
V.7 Introducci´on a las gr´aficas de control . . . . . . . . . . . . . . . . . 86
V.7.1 Gr´afica de control
¯
X. . . . . . . . . . . . . . . . . . . . . . . 86
V.7.2 Gr´afica de control ˆ p . . . . . . . . . . . . . . . . . . . . . . . 87
V.7.3 Otra se˜ nal de alarma . . . . . . . . . . . . . . . . . . . . . . 88
VI Introducci´on a la teor´ıa de la estimaci´on 89
VI.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.2 Estimaci´on puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.2.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
VI.2.2 Propiedades deseables para un estimador . . . . . . . . . . . 90
VI.2.3 M´etodos de construcci´on de estimadores . . . . . . . . . . . 91
VI.3 Estimaci´on por intervalos . . . . . . . . . . . . . . . . . . . . . . . . 95
VI.3.1 Idea b´asica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
VI.3.2 Intervalo de confianza para la media µ de una distribuci´on
Normal con varianza conocida . . . . . . . . . . . . . . . . . 95
VI.3.3 Comentarios importantes . . . . . . . . . . . . . . . . . . . . 98
VI.3.4 Determinaci´on del tama˜ no muestral . . . . . . . . . . . . . . 99
VII Introducci´on a los contrastes de hip´otesis 103
VII.1 Introducci´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
VII.2 Planteamiento general . . . . . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.1 Hip´otesis estad´ıstica . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.2 Regla de decisi´on . . . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.3 Evaluaci´on del error . . . . . . . . . . . . . . . . . . . . . . 104
VII.2.4 Procedimiento . . . . . . . . . . . . . . . . . . . . . . . . . . 105
VII.3 Contraste de hip´ otesis para la media µ de una distribuci´on Normal
con varianza conocida. . . . . . . . . . . . . . . . . . . . . . . . . . 106
VII.3.1 Hip´otesis bilateral . . . . . . . . . . . . . . . . . . . . . . . . 106
VII.3.2 Hip´otesis unilateral . . . . . . . . . . . . . . . . . . . . . . . 107
VII.3.3 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
VII.4 Concepto de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
VII.5 Potencia del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
VII.5.1 Definici´on . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
VII.5.2 C´alculo de la potencia . . . . . . . . . . . . . . . . . . . . . 111
VII.5.3 Ejemplo de c´alculo de la potencia . . . . . . . . . . . . . . . 112
VII.5.4 Factores que influyen la potencia . . . . . . . . . . . . . . . 113
VII.6 Inferencia para la media . . . . . . . . . . . . . . . . . . . . . . . . 113
VII.6.1 Contraste de hip´otesis para la media µ de una distribuci´on
Normal con varianza desconocida . . . . . . . . . . . . . . . 113
4
´
INDICE GENERAL
VII.7 Inferencia para dos medias . . . . . . . . . . . . . . . . . . . . . . . 115
VII.7.1 Estad´ısticos muestrales . . . . . . . . . . . . . . . . . . . . . 116
VII.7.2 Intervalos y contrastes . . . . . . . . . . . . . . . . . . . . . 117
TEMA I
Exploraci´ on de datos
I.1. Introducci´on
La estad´ıstica utiliza datos para conseguir comprensi´on sobre un fen´omeno. B´asi-
camente, esta comprensi´on es una consecuencia de la combinaci´on entre conocimien-
tos previos sobre el fen´omeno y nuestra capacidad para utilizar gr´aficos y c´alculos
para extraer informaci´on de los datos.
En contextos industriales se recogen a menudo grandes conjuntos de datos cor-
respondientes a un gran n´ umero de variables. Un efecto contradictorio aparece: por
una parte, cuanto m´as datos, m´as informaci´on podemos extraer sobre las variables
de inter´es, pero a la vez es m´as dif´ıcil su extracci´on.
En este contexto aparece una primera etapa fundamental frente a un conjunto
de datos: la exploraci´on, que se realiza a trav´es de representaciones gr´aficas y del
c´alculo de unas cuantas medidas num´ericas bien escogidas.
Para tener las ideas claras, unos cuantos gr´aficos pueden proporcionarnos in-
formaci´on m´as valiosa que procedimientos sofisticados que no dominamos. En esta
asignatura, veremos en temas posteriores m´etodos m´as sofisticados de an´alisis pero
dedicamos ahora un cap´ıtulo a recordar las t´ecnicas elementales con el objetivo de
fomentar reacciones sanas frente a un conjunto de datos.
Aun cuando el conjunto de datos presenta varias variables, se debe empezar por
el estudio individual de cada una.
I.2. Unos cuantos t´erminos
Un conjunto de datos describe individuos, que pueden ser personas pero
tambi´en objetos. Por ejemplo, asociados a esta clase, podemos considerar que
los individuos son los alumnos.
Consideramos variables asociadas a este conjunto de datos, distinguiremos en-
tre variable cuantitativa , que asocia un n´ umero a cada individuo, o vari-
2 Mathieu Kessler: M´etodos Estad´ısticos
able cualitativa , que coloca cada individuo en una categor´ıa. Ejemplos de
variables cuantitativas asociadas a la clase: peso, altura o edad. El sexo o el
grupo sangu´ıneo son en cambio variables cualitativas.
Un concepto fundamental que utilizaremos con frecuencia corresponde a la
distribuci´on de una variable X asociada a un conjunto de datos. Describir la
distribuci´on de X corresponde a establecer la lista de los valores que toma X
junto con la frecuencia con la que toma cada valor. Hablaremos de frecuencia
absoluta de un valor para denotar el n´ umero de veces que aparece este valor
en el conjunto de datos, mientras que la frecuencia relativa corresponde a
la proporci´on (o el porcentaje) de veces que aparece este valor.
En particular, una de las caracter´ısticas interesantes de un conjunto de datos
consiste en determinar si presenta mucha o poca variabilidad.
Ejemplo I.2.1 Consideremos por ejemplo la distribuci´on del grupo sangu´ıneo en
una clase presentada en la tabla siguiente:
Grupo Frec. absoluta Frec. relativa
A 51 51/145=0.35
B 19 0.13
O 5 0.03
AB 70 0.49
¿Qu´e representa la suma de la segunda columna (Frec. absoluta)? ¿Cuanto vale la
suma de la tercera columna?
I.3. Tabulaci´on y representaciones gr´aficas
Las representaciones gr´aficas son una herramienta fundamental para extraer in-
formaci´on de forma visual de un conjunto de datos. Pueden ser mucho m´as ´ utiles
que procedimientos sofisticados que uno no domina...
I.3.1. Gr´aficas para variable cualitativa
Para un conjunto de datos descritos por una variable cualitativa, podemos re-
alizar dos tipos de gr´aficas:
I.3.1.1. Diagrama de barras
Para cada valor que toma la variable en el conjunto y que indicamos en el eje
horizontal, representamos en el eje vertical su frecuencia absoluta o relativa, en forma
de una barra. En el caso del ejemplo I.2.1, obtenemos el diagrama de barra de la
figura I.1. Cabe destacar que se suelen ordenar los valores de la variable por orden
decreciente de frecuencias.
I.3.1.2. Diagrama de sectores
Si el conjunto no presenta demasiados valores distintos, tambi´en podemos utilizar
el diagrama de sectores, donde cada valor ocupa un sector circular cuya ´area es
proporcional a su frecuencia.
I.3 Tabulaci´on y representaciones gr´aficas 3
AB A B O
0
2
0
4
0
6
0
8
0
Figura I.1: Diagrama de barras, frecuencias absolutas, para el ejemplo I.2.1 del grupo
sangu´ıneo,
Para el ejemplo I.2.1, calculemos el ´angulo que ocupar´a el sector para cada uno
de los valores AB, A, B, O. Por una regla de tres, deducimos que si el c´ırculo entero
(360 grados) representar´a el n´ umero total de datos en el conjunto, es decir 145
individuos, el valor AB con una frecuencia de 70 individuos deber´a ocupar un sector
de 70/145360 = 174
o
. Asimismo, el valor A ocupar´a 126
o
, el valor B 48
o
, mientras
que el valor O ocupar´a solamente 12
o
. El diagrama de sectores correspondiente se
representa en la figura I.2.
I.3.2. Gr´aficas para una variable cuantitativa
Nos centramos ahora en variables cuantitativas. Los conjuntos que examinaremos
se presentar´an o bien en forma bruta: un fichero con una columna para cada variable,
donde cada fila representa un individuo, o bien en forma ya tabulada, es decir donde
los datos est´an agrupados.
Para datos agrupados, consideremos mediciones del contenido en nitrato de una
muestra de agua:
Valor Frecuencia Valor Frecuencia
0.45 1 0.49 8
0.46 2 0.50 10
0.47 4 0.51 5
0.48 8 0.51 8
Tambi´en se puede representar gr´aficamente mediante un diagrama de barras esta
distribuci´on de frecuencias, indicando en el eje Ox los valores que puede tomar la
4 Mathieu Kessler: M´etodos Estad´ısticos
AB
A
B
O
Figura I.2: Diagrama de sectores para el ejemplo I.2.1 del grupo sangu´ıneo,
variable y en el eje Oy sus frecuencias. Obtenemos as´ı un diagrama de barras en el
ejemplo de las mediciones de la concentraci´on en nitrato, ver figura I.3.
0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52
2
4
6
8
1
0
Mediciones de nitrato
F
r
e
c
u
e
n
c
i
a
s
Figura I.3: Diagrama de barras para las concentraciones de nitrato
En el caso en que el conjunto presente muchas valores pr´oximos pero distintos,
I.3 Tabulaci´on y representaciones gr´aficas 5
agrupamos los datos por clases, tal como lo veremos en los apartados siguientes.
I.3.2.1. Ejemplo: mediciones de la velocidad de la luz
Consideramos para ilustrar los conceptos que introduciremos en el resto del tema
el conjunto de datos de Newcomb (http://www.dmae.upct.es/∼mathieu). Newcomb
fue el primero en conseguir ¡en 1882! una estimaci´on bastante precisa de la veloci-
dad de la luz. Las mediciones recogidas a continuaci´on corresponden a los tiempos
codificados que tard´o un rayo de luz en recorrer el camino de ida y vuelta desde el
laboratorio de Simon Newcomb situado en el R´ıo Potomac hasta un espejo situa-
do en la base del “Washington Monument”, en total una distancia de 7400m. Para
obtener los tiempos en nano segundos (10
−9
s) no codificados, hay que a˜ nadir 24800
a cada dato.
1
Tiempos codificados: 28, 26, 33, 24, 34, -44, 27, 16, 40, -2, 29, 22, 24, 21, 25, 30, 23,
29, 31, 19, 24, 20, 36, 32, 36, 28, 25, 21, 28, 29, 37, 25, 28, 26, 30, 32, 36, 26, 30, 22,
36, 23, 27, 27, 28, 27, 31, 27, 26, 33, 26, 32, 32, 24, 39, 28, 24, 25, 32, 25, 29, 27, 28,
29, 16, 23
Al observar estos datos, podemos realizar dos comentarios:
1. ¿Por qu´e Newcomb repiti´o tantas veces las mediciones, y no se limit´o a realizar
el experimento una vez? Porque los datos resultados del experimento presentan
una cierta variabilidad: por mucho que haya intentado controlar las condiciones
experimentales para mantenerlas constantes, el resultado es imprevisible. La
medici´on est´a siempre perturbada por un “ruido” incontrolable...
2. ¿Qu´e hacer con estos datos? A la vista de estos datos, ¿cu´al es el valor que
podr´ıamos tomar como la velocidad de la luz? Debemos encontrar un valor
que sea representativo de las 66 mediciones realizadas. Se suele escoger la
media, pero para asegurarnos de que ´esta es representativa del conjunto, es
´ util establecer la tabla de frecuencias y visualizar el conjunto a trav´es de un
histograma, tal como lo vemos en la secci´on siguiente...
I.3.2.2. Tabla de frecuencias y histograma
En el caso en que el conjunto presente muchas valores pr´oximos pero distintos,
empezamos por agrupar los datos por clases: ordenamos los datos por orden cre-
ciente, dividimos el rango de los valores en clases de igual amplitud, y colocamos
cada dato en la clase que le toca. A continuaci´on podemos realizar el recuento de
las frecuencias de cada clase.
¿Cu´antas clases escoger?La elecci´on del n´ umero de clases es una problema que
no admite una soluci´on perfecta que sirva para todos los conjuntos de datos. Una
regla aproximada llamada regla de Sturges consiste en escoger 1+log
2
(n) clases para
un conjunto con n datos.
Para le ejemplo de las mediciones de Newcomb, los datos ordenados se presentan
como:
1
Fuente: Moore, David S. and McCabe, George P. (1989). Introduction to the Practice of Statis-
tics, W. H. Freeman and Company: New York, NY, pp 3-16.
6 Mathieu Kessler: M´etodos Estad´ısticos
Pos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Dato -44 -2 16 16 19 20 21 21 22 22 23 23 23 24 24
Pos 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Dato 24 24 24 25 25 25 25 25 26 26 26 26 26 27 27
Pos 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Dato 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29
Pos 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Dato 29 30 30 30 31 31 32 32 32 32 32 33 33 34 36
Pos 61 62 63 64 65 66
Dato 36 36 36 37 39 40
Utilizamos por ejemplo clases de amplitud 5 empezando en -45 y acabando en
40, y realizamos el recuento de las frecuencias de cada clase:
Clase Frecuencia Clase Frecuencia Clase Frecuencia
] −45, −40] 1 ] −15, −10] 0 ]15, 20] 4
] −40, −35] 0 ] −10, −5] 0 ]20, 25] 17
] −35, −30] 0 ] −5, 0] 1 ]25, 30] 26
] −30, −25] 0 ]0, 5] 0 ]30, 35] 10
] −25, −20] 0 ]5, 10] 0 ]35, 40] 7
] −20, −15] 0 ]10, 15] 0
Cuando establecemos la tabla de frecuencias de una variable cuantitativa, in-
dicamos tambi´en las frecuencias acumuladas de cada clase: la frecuencia absoluta
(relativa) acumulada de una clase es el n´ umero (proporci´on) de datos que pertenecen
a esta clase o a alguna clase anterior.
La tabla completa de frecuencias tal como nos la suele presentar un programa
de estad´ıstica incluye las frecuencias absolutas y relativas as´ı como las frecuencias
acumuladas absolutas y relativas. Para el ejemplo de las mediciones de Newcomb,
la tabla completa se puede ver en la Tabla I.1 m´as abajo.
Por otra parte, los datos tabulados se examinan con m´as comodidad a trav´es
de representaciones gr´aficas. En el eje Ox aparecen las clases y en el eje Oy las
frecuencias, el diagrama resultante se llama histograma. En la figura I.4, aparece el
histograma para las mediciones de Newcomb. Se pueden representar histogramas de
frecuencias absolutas, relativas, absolutas acumuladas o relativas acumuladas.
I.3.2.3. C´omo interpretar un histograma
Las representaciones gr´aficas describen la distribuci´on de la variable en el con-
junto. Al examinarlos hay que que intentar contestar a las siguientes preguntas, para
resumir las caracter´ısticas de la distribuci´on.
1. ¿ Es el histograma sim´etrico? Es decir, ¿aparece un punto central, respecto
al cual, los valores se van repartiendo de manera aproximadamente sim´etrica?
Esta es la situaci´on cl´asica para un conjunto de mediciones: el valor central
ser´ıa lo m´as representativo de lo que intentamos medir, y las mediciones van
sobrevalorando e infravalorando de manera sim´etrica este valor. Si no consid-
eramos los valores -44 y -2 en el conjunto de Newcomb, por ser muy diferentes
I.3 Tabulaci´on y representaciones gr´aficas 7
Clase Frecuencias Frec. Acumuladas
Absolutas Relativas( %) Absolutas Relativas( %)
] −45, −40] 1 1.5 1 1.5
] −40, −35] 0 0.0 1 1.5
] −35, −30] 0 0.0 1 1.5
] −30, −25] 0 0.0 1 1.5
] −25, −20] 0 0.0 1 1.5
] −20, −15] 0 0.0 1 1.5
] −15, −10] 0 0.0 1 1.5
] −10, −5] 0 0.0 1 1.5
] −5, 0] 1 1.5 2 3.0
]0, 5] 0 0.0 2 3.0
]5, 10] 0 0.0 2 3.0
]10, 15] 0 0.0 2 3.0
]15, 20] 4 6 6 9
]20, 25] 17 25.7 23 34.7
]25, 30] 26 39.3 49 74
]30, 35] 10 15.3 59 89.3
]35, 40] 7 10.7 66 100
TOTAL 66 100.0
Tabla I.1: Tabla de frecuencias, mediciones de Newcomb.
Mediciones
F
r
e
c
u
e
n
c
i
a
s
0
10
20
30
40
−40 −20 0 20 40
Figura I.4: Histograma para las mediciones de Newcomb
del resto del conjunto, podemos decir que la distribuci´on de las mediciones es
aproximadamente sim´etrica.
2. ¿Posee la distribuci´on colas largas?
8 Mathieu Kessler: M´etodos Estad´ısticos
3. ¿Posee el histograma un m´aximo claro ´ unico? En este caso hablamos de his-
tograma unimodal.
4. ¿Aparecen datos at´ıpicos?, es decir datos que se alejan del patr´on global de los
datos. Para el conjunto de Newcomb, dos datos aparecen claramente at´ıpicos: -
44 y -2, mientras que las 64 mediciones restantes est´an entre 15 y 40. Al detectar
datos at´ıpicos, debemos comprobar que no se deban a errores tipogr´aficos,
y buscar si est´an asociados a unas circunstancias experimentales especiales.
Podremos entonces decidir corregirlos u omitirlos del estudio.
5. ¿Donde localizamos el centro aproximado de los datos?
6. ¿Presentan los datos mucha dispersi´on?, lo que se traduce en la forma punti-
aguda o chata del histograma. En el caso de mediciones, el hecho de que los
datos est´en concentrados revela que se consigui´o una buena regularidad en el
proceso de medici´on...
En la figura I.5, presentamos varios patrones de histogramas.
Histograma aprox. simétrico, unimodal, con colas cortas.
x1
F
re
c
.
1.5 2.0 2.5 3.0 3.5 4.0 4.5
0
1
0
2
0
3
0
4
0
Histograma asimétrico
x00
F
re
c
.
0 2 4 6 8 10
0
1
0
2
0
3
0
4
0
Cola larga a la derecha
x0
F
re
c
.
0 5 10 15
0
1
0
2
0
3
0
Histograma bimodal
x12
F
re
c
.
2 3 4 5 6 7
0
1
0
2
0
3
0
4
0
5
0
6
0
7
0
Figura I.5: Distintos patrones de histogramas.
I.4. Medidas num´ericas
Para variables cuantitativas, se suele acompa˜ nar las representaciones gr´aficas de
las distribuciones con medidas num´ericas que proporcionen un resumen de sus car-
acter´ısticas principales. Existen medidas num´ericas para contestar a cada pregunta
I.4 Medidas num´ericas 9
(y alguna m´as...) planteadas en el apartado anterior a la hora de examinar el his-
tograma. Nos limitaremos a las medidas de centro y de dispersi´on, es decir las que
proporcionen una respuesta a las preguntas 5 y 6.
I.4.1. Medidas de centro
Buscamos ahora medidas num´ericas que sean representativas del centro del con-
junto de dato.
I.4.1.1. La media:
Si x
1
, . . . , x
n
son los datos, sabemos todos que la media es
¯ x =
x
1
+ +x
n
n
.
En el caso en que los datos ya est´an tabulados y tenemos los valores distintos
x
1
, . . . , x
m
junto con sus frecuencias n
1
, . . . , n
m
, deberemos tener en cuenta estas
frecuencias para el c´alculo de la media:
¯ x =
n
1
x
1
+ +n
m
x
m
(n
1
+. . . +n
m
)
.
En este caso, ¿cu´antos individuos tenemos en el conjunto?
Nota: Representa el centro de gravedad de los datos, es decir que si a cada dato
le damos un peso unidad, la media representa el punto en el que el conjunto est´a en
equilibrio.
En particular, deducimos que la media es muy sensible a datos at´ıpicos en el con-
junto de datos: si a˜ nado un dato (peso) alejado del centro de gravedad, el punto de
equilibrio debe desplazarse mucho hacia ´este para que se mantenga el equilibrio.
Para paliar estos inconvenientes, se considera tambi´en la mediana:
I.4.1.2. La mediana:
La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 %
a su derecha. Es una medida de centralizaci´on m´as adecuada que la media en el caso
en que la distribuci´on de los datos es asim´etrica ( lo que se ve en el histograma) o si
hay datos at´ıpicos. Si la distribuci´on es sim´etrica, la media y la mediana coinciden.
Para calcular la mediana de un conjunto de n datos, x
1
, x
2
, . . . , x
n
, empiezo por
ordenar los datos por orden creciente. La mediana es el dato ordenado n
o
(n+1)/2.
Ejemplo: 125, 129, 134, 185, 200. La mediana es el dato ordenado n
o
3, y es igual
a 134.
11, 15, 20, 23: la mediana es el dato ordenado n
o
2.5, que tomamos por convenci´on
igual al punto medio entre el dato n
o
2 y el dato n
o
3. En este caso, la mediana es
igual a 17.5.
La mediana no es sensible a datos at´ıpicos, para convencerse de ello, se puede
considerar el ejemplo anterior donde se sustituye el valor 23 por 1000... La mediana
no cambia... Por lo tanto, la mediana es m´as representativa del centro del conjunto
si hay alg´ un dato at´ıpico o si la distribuci´on es algo asim´etrica...
10 Mathieu Kessler: M´etodos Estad´ısticos
I.4.2. Medidas de dispersi´on
I.4.2.1. La desviaci´on t´ıpica
Mide lo lejos que est´an situados los datos respecto de su centro de gravedad, la
media. Empezamos por definir la varianza:
s
2
=
(x
1
− ¯ x)
2
+ + (x
n
− ¯ x)
2
n −1
, (I.1)
que representa aproximadamente el promedio de las distancias al cuadrado entre los
datos y su media. La desviaci´on t´ıpica s es la ra´ız cuadrada de s
2
.
Para calcularla en la pr´actica se suele preferir la f´ormula siguiente
s
2
=
n
n −1
(x
2
−(¯ x)
2
), (I.2)
donde x
2
representa la media de los datos que hemos previamente elevado al cuadra-
do, mientras que (¯ x)
2
representa el cuadrado del valor de la media. Como ejemplo,
supongamos que quiero calcular la varianza de los datos siguientes 4, 5,5, 6,5, 8.
Necesito por una parte ¯ x, que calculo como ¯ x = (4 + 5,5 + 6,5 + 8)/4 = 6, y por
otra parte x
2
que calculo como x
2
= (4
2
+5,5
2
+6,5
2
+8
2
)/4 = 38,125. Por lo tanto,
deduzco
s
2
=
4
3
[38,125 −(6)
2
] = 2,8333.
Naturalmente, la desviaci´on t´ıpica es representativa de la dispersi´on del conjunto de
datos solo si la media es representativa de su centro.
Es bueno ser consciente de que la desviaci´on t´ıpica, al igual que la media, se ex-
presa en las mismas unidades que los datos, mientras que la varianza en (unidades)
2
.
Una medida alternativa de dispersi´on que puede ser m´as representativa en el caso
en que la distribuci´on es asim´etrica o en presencia de datos at´ıpicos, es el rango
intercuart´ılico.
I.4.2.2. El rango intercuart´ılico (RIC)
Hemos definido la mediana como el punto que separa el conjunto en dos partes
de mismo tama˜ no. Definimos de la misma manera los cuartiles como los puntos que
separan el conjunto en cuatro partes de mismo tama˜ no. El primer cuartil Q
1
deja
el 25 % de los datos ordenados a su izquierda, y el otro 75 % a su derecha, mientras
que el tercer cuartil Q
3
deja el 75 % de los datos ordenados a su izquierda, y el
otro 25 % a su derecha. Por lo tanto el par (Q
1
, Q
3
) nos proporciona informaci´on
sobre la dispersi´on presente en los datos: cuanto m´as alejados est´en los cuartiles, m´as
dispersos est´an los datos. Por ello, calculamos el rango intercuart´ılico RIC como la
diferencia entre Q
3
y Q
1
.
Para calcular los cuartiles, empezamos por calcular la mediana Me de los datos.
El primer cuartil es la mediana del grupo de datos que queda a la izquierda de Me
(Me excluida), mientras que el tercer cuartil se calcula como la mediana del grupo
que queda a su derecha (Me excluida).
El RIC tambi´en se utiliza para detectar datos at´ıpicos:
Regla: Se consideran como at´ıpicos los datos que son menores de Q
1
−1,5 RIC,
o mayores de Q
3
+ 1,5 RIC.
I.4 Medidas num´ericas 11
I.4.3. Un resumen gr´afico: el diagrama de caja-bigotes
El diagrama de caja-bigotes es un resumen gr´afico que permite visualizar, para
un conjunto de datos, la tendencia central, la dispersi´on y la presencia posible de
datos at´ıpicos. Para realizarlo se necesita calcular la mediana, el primer cuartil, y el
tercer cuartil de los datos:
El diagrama de caja-bigotes presenta de manera gr´afica estas informaciones, tal
como est´a recogida en la figura I.6.
8
9
1
0
1
1
1
2
Dato atpico
Q3
Me
Q1
Bigote
Figura I.6: Componentes del diagrama caja-bigotes
Los segmentos 1.5 RIC (llamados bigotes) se recortan hasta : el dato del con-
junto inmediatamente superior a Q
1
− 1,5 RIC para el bigote inferior, y el dato
inmediatamente inferior a Q
3
+ 1,5 RIC, para el bigote superior.
La mayor utilidad de los diagramas caja-bigotes es para comparar dos o m´as
conjuntos de datos.
Ejemplo
La puntuaci´on de los equipos de la liga espa˜ nola al final de las temporadas 01/02
y 02/03 en primera divisi´on se pueden comparar con un diagrama caja-bigotes, como
aparece en la figura I.7
Comentarios: No hay datos at´ıpicos, es decir que no hay equipo que se haya
destacado por arriba o por abajo del resto de los equipos. Hay m´as diferencia de
puntos entre el primer y el ´ ultimo clasificado para la liga 02/03 que en la liga anterior.
Los equipos del tercer cuarto de la clasificaci´on est´an muy apelotonados en la liga
02/03.
12 Mathieu Kessler: M´etodos Estad´ısticos
102 203
4
0
5
0
6
0
7
0
Figura I.7: Comparaci´on puntuaci´on final, temporadas 01/02 y 02/03
I.5. Ajuste por m´ınimos cuadrados
I.5.1. Planteamiento
Es muy normal considerar m´as de una variable asociada a un experimento. En
este caso, m´as que la distribuci´on de cada variable por separado, nos puede interesar
en particular las relaciones que existan entre ellas. Nos centraremos aqu´ı en el caso
en que distinguimos una variable llamada “respuesta”, cuya amplitud depende de los
valores de otras variables llamadas “explicativas”, y aprenderemos c´omo deducir un
modelo para la evoluci´on de la primera en funci´on de estas ´ ultimas.
Hay dos utilidades principales al disponer de un modelo: podemos primero ex-
plicar la manera en la que cambios en los valores de una variable explicativa induce
cambios en el valor de la variable respuesta. Por ejemplo, si pienso que la tem-
peratura media Y en agosto en San Javier evoluciona en funci´on del a˜ no seg´ un el
modelo:
Temperatura = −582,5 + 0,31a˜ no,
deducir´e que en promedio, la temperatura media en agosto aumenta de 0.3 grados
cada a˜ no.
Por otra parte, si dispongo de un modelo para la evoluci´on de la variable re-
spuesta, me permite tambi´en realizar predicciones del valor que tomar´a para valores
de las explicativas que no hemos observado.
Acabamos esta secci´on de presentaci´on con cuatro ejemplos con datos reales
tomados de campos diferentes. Las nubes de puntos correspondientes est´an presen-
tadas en la figura I.8
Estudio de la resistencia del cemento en funci´on del tiempo de fraguado en
d´ıas. Fuente: Hald, A. (1952) Statistical theory for engineering applications,
Wiley & Sons New-York, p´ag 541. ¿C´omo evoluciona la resistencia de piezas de
cemento en funci´on del tiempo de fraguado? ¿Cu´anto tiempo hay que esperar
para conseguir el 90 % de la resistencia m´axima? Este es el tipo de preguntas
a las que podemos contestar con el estudio de este conjunto de datos.
I.5 Ajuste por m´ınimos cuadrados 13
Todos los a˜ nos Venecia se inunda durante las “acqua alta”. Sin embargo, parece
que el nivel m´aximo al que llega el mar est´a cada a˜ no m´as alto, haciendo
temer por la conservaci´on de la ciudad y de sus monumentos. Es por lo tanto
de inter´es estudiar la evoluci´on del nivel m´aximo del mar en funci´on del a˜ no.
Fuente: Smith, R.L (1986) “Extreme value theory based on the r largest annual
events”, Journal of Hydrology, 86.
Evoluci´on de la producci´on mundial de petr´oleo desde 1880. Fuente: Data and
Stories Library http://lib.stat.cmu.edu/DASL/.
En 1929, Edwin Hubble investig´o la relaci´on entre la distancia de una galaxia
a la tierra y la velocidad con la que est´a alej´andose. En efecto se piensa que
las galaxias se alejan como consecuencia del “Big Bang”. Hubble pens´o que
disponiendo de un modelo que relacionara la velocidad de recesi´on con la dis-
tancia a la tierra proporcionar´ıa informaci´on sobre la formaci´on del universo
y sobre lo que podr´ıa pasar en el futuro. Los datos recogidos incluyen distan-
cias en megaparsecs (1 megaparsec= 3.26 a˜ nos luz) y velocidad de recesi´on en
km/s. Fuente: Data and Stories Library, http://lib.stat.cmu.edu/DASL.
Figura I.8: Cuatro ejemplos de conjuntos de datos
I.5.2. Criterio de m´ınimos cuadrados
Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta
que llamaremos Y y una variable explicativa que llamaremos X.
Los datos se presenta en forma de pares:
14 Mathieu Kessler: M´etodos Estad´ısticos
X x
1
x
2
x
n
Y y
1
y
2
y
n
es decir que, para varios valores X observamos los valores correspondientes de Y .
Para visualizar el conjunto recurrimos a la nube de puntos, tambi´en llamada diagra-
ma de dispersi´on, en el que representamos los pares (x
i
, y
i
), i = 1, , n, en unos
ejes Ox, Oy, ver figura I.9
0 1 2 3 4
0
.
5
1
.
0
1
.
5
2
.
0
2
.
5
3
.
0
X
Y
(x
1
,y
1
)
(x
2
,y
2
)
(x
3
,y
3
)
Figura I.9: Ejemplo de nube de puntos
Por conocimientos previos sobre el fen´omeno que estudiamos o por la propia
nube de puntos, decidimos ajustar a ´esta una curva de una determinada forma
funcional: podr´ıa ser por ejemplo una recta, de ecuaci´on Y = aX+b, o una par´abola
Y = a
0
+ a
1
X + a
2
X
2
. La forma de la curva est´a fijada pero intervienen en la
ecuaci´on constantes, tambi´en llamadas par´ametros, cuyo valor tenemos que ajustar
para obtener el “mejor” ajuste posible: en el caso de la recta, debemos encontrar los
valores de la pendiente b y de la ordenada en el origen a.
En una formulaci´on general, escogemos una familia param´etrica de funciones
x → f(θ, x) θ = (θ
1
, . . . , θ
k
), (I.3)
donde θ es el vector de par´ametros. Buscar la funci´on de la familia que mejor se ajusta
a la nube de puntos es equivalente a encontrar el valor
ˆ
θ de θ, que corresponde a
esta funci´on.
Debemos ahora dar sentido a la noci´on de “mejor”; debemos fijarnos un criterio
que nos permita decidir que una funci´on de la familia se ajusta mejor a la nube de
puntos que otra. El criterio que seguimos en este tema es el de m´ınimos cuadrados.
I.5 Ajuste por m´ınimos cuadrados 15
Definimos la suma de cuadrados asociada a una funci´on de la familia como la
suma de los cuadrados de las distancias verticales entre la curva correspondiente y
los datos observados de la nube de puntos. Tal como viene reflejado en la figura I.10,
la distancia vertical entre por ejemplo el punto (x
3
, y
3
) y la curva es y
3
− f(θ, x
3
),
por lo tanto la suma de cuadrados se escribe
SC(θ) = (y
1
−f(θ, x
1
))
2
+ (y
2
−f(θ, x
2
))
2
+ + (y
n
−f(θ, x
n
))
2
. (I.4)
X
Y
y=f(θ, x)
(x
3
,y
3
)
x
3
y
3
f(θ, x
3
)
Figura I.10: Ajuste de una curva a la nube de puntos.
Buscamos el valor
ˆ
θ de θ que minimiza la cantidad θ → θ, en muchos casos, es
imposible encontrar este m´ınimo expl´ıcitamente y tenemos que recurrir a algoritmos
num´ericos. Nos centraremos en este tema en el caso en que la forma param´etrica de
f es particularmente simple y permite el c´alculo expl´ıcito de
ˆ
θ.
Supongamos que hemos ajustado la curva, es decir que hemos encontrado el valor
ˆ
θ de θ que minimiza la suma de cuadrados, introduzcamos unos cuantos t´erminos:
La curva de ecuaci´on y = f(
ˆ
θ, x) se llama la curva ajustada.
Los ordenadas de la curva ajustada correspondientes a los datos observados,
es decir los valores ˆ y
1
= f(
ˆ
θ, x
1
), . . . , y
n
= f(
ˆ
θ, x
n
) se llaman los valores
ajustados.
Las distancias verticales entre los puntos observados y la curva ajustada se
llaman los residuos e
1
, . . . , e
n
. Tenemos
e
i
= y
i
− ˆ y
i
, i = 1, . . . , n.
16 Mathieu Kessler: M´etodos Estad´ısticos
La suma de cuadrados
SC(
ˆ
θ) =
n
¸
i=1
e
2
i
se llama suma de cuadrados residuales.
Calcularemos en algunas ocasiones la varianza de los residuos, tambi´en llamada
varianza residual
s
2
e
=
1
n −1
n
¸
i=1
(e
i
− ¯ e)
2
.
I.5.3. Casos concretos
Describimos ahora con m´as detalle unos pocos casos concretos en los que es
posible obtener de manera expl´ıcita la expresi´on de
ˆ
θ, que minimiza la suma de
cuadrados residuales. Estos casos corresponden todos a la llamada regresi´on lineal:
son casos para los cuales los par´ametros (θ
1
, . . . , θ
k
) intervienen de manera lineal en
la ecuaci´on (I.3).
I.5.3.1. Recta y = ax +b
El caso m´as utilizado de ajuste por m´ınimo por m´ınimos cuadrados al ajuste
por una recta, es decir cuando consideramos una variable explicativa X y buscamos
ajustar un modelo de la forma
Y = aX +b.
Corresponde al caso en que θ consta de dos par´ametros a y b, y la funci´on f descrita
en la secci´on I.5.2 es f(θ, x) = ax+b. En este caso, decimos que el ajuste corresponde
a la regresi´on lineal simple.
En el caso en que la pendiente a es positiva, hablamos de asociaci´on positiva
entre X e Y : cuando crece X, crece Y , cuando decrece X, decrece Y , y viceversa.
En cambio, si la pendiente a es negativa, hablamos de asociaci´on negativa entre X
e Y (cuando crece una variable, decrece la otra).
a). Obtenci´on de la recta ajustada La suma de cuadrados se escribe
SC(θ) = SC(a, b) =
n
¸
i=1
(y
i
−(ax
i
+b))
2
,
Los candidatos a alcanzar el m´ınimo de esta funci´on satisfacen

∂a
SC(a, b) = 0

∂b
SC(a, b) = 0.
Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este
sistema de ecuaciones son
ˆ a =
xy−¯ x¯ y
x
2
−(¯ x)
2
ˆ
b = ¯ y − ˆ a¯ x.
I.5 Ajuste por m´ınimos cuadrados 17
Introducimos la cantidad
s
xy
=
n
n −1
(xy − ¯ x¯ y), (I.5)
que llamamos la covarianza de X e Y . El coeficiente ˆ a se puede por lo tanto escribir
como
ˆ a =
s
xy
s
2
x
,
donde s
2
x
es la varianza de X que introdujimos en la secci´on I.4.2.1. Con estas
notaciones, se puede escribir la ecuaci´on de la recta ajustada en una forma compacta:
y − ¯ y =
s
xy
s
2
x
(x − ¯ x).
Nota La covarianza es una cantidad que puede ser positiva o negativa. De hecho tiene
el mismo signo que la pendiente de la recta ajustada. Por lo tanto, si la covarianza
es positiva, Y y X presentan una asociaci´on positiva mientras que, si la covarianza
es negativa Y y X presentan una asociaci´on negativa.
b). Bondad del ajuste Para la regresi´on lineal simple, los residuos son
e
1
= y
1
−f(
ˆ
θ, x
1
) = y
1
− ˆ ax
1

ˆ
b
.
.
. =
.
.
.
e
n
= y
n
−f(
ˆ
θ, x
n
) = y
n
− ˆ ax
n

ˆ
b,
y tienen las siguientes propiedades
Propiedades de los residuos
La media de los residuos es nula.
Demostraci´on:
¯ e =
e
1
+ +e
n
n
=
1
n
[(y
1
+. . . +y
n
) − ˆ a(x
1
+. . . +x
n
) −n
ˆ
b]
= ¯ y − ˆ a¯ x −
ˆ
b = 0
Se puede demostrar sin dificultad que la varianza residual se escribe como
s
2
e
= s
2
y

1 −
(s
xy
)
2
s
2
x
s
2
y

. (I.6)
De esta ecuaci´on deducimos que la cantidad
(s
xy
)
2
s
2
x
s
2
y
puede medir la calidad del
ajuste. De hecho le damos un nombre especial:
Definici´on I.5.1 La cantidad r =
s
xy
s
x
s
y
se llama coeficiente de correlaci´on (de
Pearson) de X e Y .
La cantidad R
2
=
(s
xy
)
2
s
2
x
s
2
y
se llama coeficiente de determinaci´on.
18 Mathieu Kessler: M´etodos Estad´ısticos
Propiedades de r y R
2
De la f´ormula s
2
e
= s
2
y
(1 −R
2
), ver (I.6), deducimos
R
2
est´a siempre comprendido entre 0 y 1, y cuanto m´as cercano est´e de 1,
mejor es el ajuste, puesto que corresponder´a a una varianza residual menor.
En particular, deducimos que si R
2
= 1, la varianza residual s
2
e
es nula, lo que
quiere decir que la dispersi´on de los residuos es nula: todos los residuos son
iguales, y por lo tanto iguales a su media, que vale 0, todos los puntos de la
nube est´an situados en la recta, el ajuste es perfecto. Se suela considerar un
valor de R
2
mayor que 0.8 como correspondiente a un ajuste bueno, mientras
que un valor mayor que 0.9 corresponde a un ajuste muy bueno.
Puesto que R
2
= r
2
y 0 ≤ R
2
≤ 1, deducimos que el coeficiente de correlaci´on
r est´a siempre comprendido entre −1 y 1. Si r = ±1, el ajuste de los puntos
observados por una recta es perfecto. El coeficiente de correlaci´on se interpreta
en general como una cantidad que cuantifica la asociaci´on lineal que existe entre
dos variables: cuanto m´as cerca de ±1, m´as se aproxima la nube de puntos a
una recta.
Adem´as por la definici´on de r, sabemos que r es del mismo signo de la covari-
anza. Por lo tanto, si r es positivo y cercano a 1, los datos apoyan la existencia
de una asociaci´on lineal positiva entre las dos variables, mientras que si es
negativo y cercano a −1, presentan una asociaci´on lineal negativa.
Sin embargo, es necesario tener precauci´on a la hora de interpretar valores del
coeficiente de correlaci´on: s´olo es un resumen, fiable en el caso en que est´a
pr´oximo a ±1 para indicar que existe una fuerte asociaci´on lineal entre las
variables pero mucho menos fiable si toma un valor alejado de ±1. Anscombe
(1973), ”Graphs in statistical analysis”, American Statistician, 27, pp 17-21,
construy´o cuatro conjuntos de datos artificiales que dan lugar al mismo coefi-
ciente de correlaci´on y a las mismas rectas de regresi´on, pero cuyos aspectos
son completamente diferentes. Los datos se presentan en el ap´endice, y se deja
su estudio en ejercicio.
c). Un ejemplo Para ilustrar el procedimiento que se sigue para calcular los
valores de ˆ a y
ˆ
b, consideremos el ejemplo muy sencillo a continuaci´on:
Queremos estudiar la relaci´on entre el peso y la altura en un grupo de individuos.
Los datos son
Peso(kg) 54 70 65 78 68 85 Y
Altura(cm) 160 170 172 185 160 175 X
Se deja en ejercicio al lector la representaci´on de este conjunto a trav´es de una nube
de puntos... Buscamos ajustar una recta a la nube y pasamos a calcular la ecuaci´on
de la recta de regresi´on que en su forma compacta se escribe
y − ¯ y =
s
xy
s
2
x
(x − ¯ x).
Para calcular s
xy
y s
2
x
utilizaremos las f´ormulas (I.2) y (I.5), necesitamos por lo tanto
¯ x, x
2
, ¯ y, y
2
y xy. Tenemos
I.5 Ajuste por m´ınimos cuadrados 19
¯ x =
160+170+...+175
6
= 170,33, ¯ y =
54+70+...+85
6
= 70,
x
2
=
160
2
+170
2
+...+175
2
6
= 29089, y
2
=
54
2
+70
2
+...+85
2
6
= 4995,7,
xy =
160×54+170×70+...+175×85
6
= 11984,2
Deducimos que
s
2
x
=
n
n −1
(x
2
−(¯ x)
2
) =
6
5
[29089 −(170,33)
2
] · 90,7,
s
2
y
=
n
n −1
(y
2
−(¯ y)
2
) =
6
5
[4995,7 −(70)
2
] · 144,8,
s
xy
=
n
n −1
(xy −(¯ x)(¯ y)) =
6
5
[11984,2 −170,33 70] · 73.
La ecuaci´on de la recta es por lo tanto y −70 =
73
90,7
(x −170,33), es decir
y = 0,80x −67,1.
El modelo te´orico propuesto para relacionar el peso y la altura es Peso · 0,8Altura−
67,1.
En cuanto a la bondad del ajuste, tenemos que
R =
s
xy
s
x
s
y
=
73

90,7

114,8
· 0,715,
lo que implica que R
2
· 0,51, un ajuste malo.
d). Predicci´on Tal como lo mencionamos en la introducci´on del tema, si disponemos
del modelo ajustado podemos utilizarlo para predecir el valor de la respuesta para
valores no observados de X:
Si x
0
es un valor no observado, nuestra predicci´on del valor de Y ser´a
y
x
0
= ˆ a x
0
+
ˆ
b.
Si consideramos el ejemplo de la relaci´on entre peso y altura del apartado anterior,
podemos contestar a la pregunta ¿a qu´e peso corresponder´ıa una altura de 180cm?
Sustituimos x por 180 en la ecuaci´on de la recta ajustada, y encontramos que el peso
asociado ser´ıa 0,80 180 −67,1 · 76,9kg.
Sin embargo, debemos tener mucho cuidado al extrapolar nuestro modelo fuera
del rango de valores de X que hemos observado, al no disponer de valores fuera de este
rango, tampoco sabemos si el modelo deducido seguir´a valido. Para el ejemplo de los
pesos, si queremos utilizar el modelo ajustado para saber a qu´e peso corresponder´ıa
la altura de un ni˜ no de 80cm por ejemplo, obtenemos 0,80 80 −67,1 · −3,1kg, ¡lo
que no tiene sentido!
Nota. El motivo por el cual, muy a menudo una recta suele ajustarse bastante
bien a una nube de puntos, corresponde a que la f´ormula de Taylor nos dice que
localmente, cualquier funci´on derivable se puede aproximar por una recta: aunque
la relaci´on entre Y y X no sea lineal sino de la forma Y = f(θ, X), f general, si f
es derivable y observamos valores de X no muy dispersos alrededor, f se comporta
aproximadamente como la tangente en un X central.
20 Mathieu Kessler: M´etodos Estad´ısticos
I.5.3.2. Recta forzada por el origen
Hay situaciones en las que pensamos recurrir a un ajuste lineal, pero sabemos
por motivos f´ısicos que un valor de X nulo corresponde necesariamente a un valor
de Y nulo tambi´en. En este caso, no tenemos por que considerar todas las rectas,
sino podemos restringirnos a las rectas que pasan por el origen (0, 0). La ecuaci´on
de una recta forzada por el origen es
y = ax.
Dos ejemplos de situaciones en las que un valor nulo de X implica un valor nulo de
Y :
Medimos la evoluci´on en funci´on del tiempo (X) de la concentraci´on (Y ) de
un producto que se va creando en una reacci´on qu´ımica. Cuando empezamos
la reacci´on X = 0, todav´ıa no puede haber producto, por lo tanto Y = 0.
Queremos medir el tiempo t que tarda un objeto que soltamos desde una altura
h, en alcanzar el suelo. La relaci´on f´ısica proporcionada por la teor´ıa es h = gt
2
,
donde g es la constante de la gravedad. Si queremos comprobar que los datos
emp´ıricos confirman esta relaci´on, buscaremos si es cierto que
t =
1

g

h.
Consideraremos X =

h, Y = t, y buscaremos ajustar una recta y = ax.
Las f´ormulas que vimos para el caso de una recta general ya no son v´alidas. Calcule-
mos la ecuaci´on de la recta forzada por el origen: disponemos de n pares de datos
(x
1
, y
1
), . . . , (x
n
, y
n
), puesto que la funci´on que buscamos ajustar es f(θ, x) = ax,
θ = a y la suma de cuadrados de la f´ormula (I.4) se escribe
SC(θ) = SC(a) =
n
¸
i=1
(y
i
−ax
i
)
2
.
El candidato a minimizar SC(a) satisface la ecuaci´on
dSC(a)
da
= 0. Calculamos
dSC(a)
da
=
¸
i=1
−x
i
2(y
i
−ax
i
) = 2[−
¸
i=1
x
i
y
i
+a
n
¸
i=1
x
2
i
].
Por lo tanto, la soluci´on a la ecuaci´on
dSC(a)
da
= 0 es
ˆ a =
¸
n
i=1
x
i
y
i
¸
n
i=1
x
2
i
=
xy
x
2
.
Puesto que la derivada segunda de SC(a) es positiva, se trata efectivamente de un
m´ınimo.
I.5.3.3. Algunas transformaciones ´ utiles
S´olo hemos descrito c´omo calcular la curva ajustada para dos familias espec´ıficas
de funciones y = ax e y = ax +b. Para una especificaci´on m´as general de la funci´on
f que queremos ajustar, se recurre a algoritmos num´ericos para encontrar el valor
de los par´ametros que minimicen la suma de cuadrados SC(θ).
Sin embargo, hay algunos tipos de modelos no lineales que se pueden abordar con
los resultados del caso lineal despu´es de realizar unas transformaciones convenientes.
I.5 Ajuste por m´ınimos cuadrados 21
a). Modelo exponencial Supongamos que queremos ajustar un modelo expo-
nencial a una nube de puntos. La ecuaci´on de las funciones que consideramos son
y = be
ax
, con b > 0. En el caso en que a es positivo, modelizamos un crecimiento
exponencial, mientras que, si a es negativa, modelizamos un decrecimiento exponen-
cial.
La relaci´on entre Y y X es altamente no lineal, sin embargo una simple trans-
formaci´on puede llevarlo a un modelo lineal:
Modelo te´orico original Modelo transformado
y = be
ax
cojo ln
−−−−−→ ln(y) = ln(b) +ax
y

= b

+a

x

Si introducimos las variables transformadas Y

= ln(Y ), y X

= X, ´estas satisfacen
una relaci´on lineal: Y

= a

X

+b

.
Nuestro procedimiento para ajustar un modelo exponencial consistir´a por lo
tanto en
1. Calculamos los datos transformados, es decir pasar de
X x
1
x
2
. . . x
n
Y y
1
y
2
. . . y
n
y = be
ax
a
X

x
1
x
2
. . . x
n
Y

ln(y
1
) ln(y
2
) . . . ln(y
n
)
y

= a

x

+b

2. Ajustamos una recta a las variables transformadas, encontramos y

= ˆ a

x

+
ˆ
b

.
3. Volvemos al modelo original, haciendo la transformaci´on inversa (en este caso
exponencial)
y

= ˆ a

x

+
ˆ
b

cojo exp
−−−−−−→ y = e
ˆ a

x

+
ˆ
b

= e
ˆ
b

e
ˆ a

x

.
Ejemplo 1. Queremos ajustar un modelo exponencial a los siguientes datos
X 2.3 5 7.1 8
Y 2.92 3.69 6.19 6.36
Transformamos los datos:
X

2.3 5 7.1 8
Y

= ln(Y ) 1.07 1.31 1.82 1.85
Ajustamos una recta a los datos transformados, calculando
¯
x

, x
2
,
¯
y

, y
2
y x

y

,
para obtener
ˆ
a

y
ˆ
b

: y

= 0,148x

+0,682, es decir que ln(y) = 0,148x+0,682, lo que
implica que
y = e
0,148x
e
0,682
= 1,18e
0,148x
.
Ejemplo 2. El Ministerio de la Vivienda publica los datos de precios del metro
cuadrado de las viviendas en Espa˜ na. En la gr´afica siguiente, figura I.11, se ha
representado la evoluci´on del precio del metro cuadrado en la Regi´on de Murcia
22 Mathieu Kessler: M´etodos Estad´ısticos
por cuatrimestres entre 1995 y 2006. Aparece una tendencia exponencial, podemos
representar tambi´en el logaritmo del precio para ver si la evoluci´on es entonces lineal.
La gr´afica correspondiente aparece en la figura I.12. Notar que entre 1996 y 2002, la
curva del logaritmo sigue presentando una curvatura, lo que implica que ¡la subida
fue m´as que exponencial!
Año
P
r
e
c
i
o
1996 1998 2000 2002 2004 2006
4
0
0
6
0
0
8
0
0
1
0
0
0
1
2
0
0
1
4
0
0
Figura I.11: Evoluci´on del precio en euros del metro cuadrado de la vivienda en la
regi´on de Murcia, datos cuatrimestrales, 1995-2006.
b). Modelo potencial El modelo potencial es de la forma y = bX
a
. La forma
de la nube de puntos correspondiente depende del valor de a. La transformaci´on que
utilizamos es la misma que para el modelo exponencial: aplicamos los logaritmos.
Modelo te´orico original Modelo transformado
y = bx
a
cojo ln
−−−−−→ ln(y) = ln(b) +a ln(x)
y

= b

+a

x

Introducimos las variables transformadas Y

= ln(Y ), y X

= ln(X), ´estas satisfacen
una relaci´on lineal: Y

= a

X

+ b

. Seguimos los mismos pasos que en el apartado
anterior con los datos transformados.
Ejemplo. Queremos ajustar un modelo potencial a los siguientes datos
X 3 7.34 20.1 54.6
Y 10.3 13.5 18.2 24.5
Transformamos los datos:
I.5 Ajuste por m´ınimos cuadrados 23
Año
l
o
g
(
P
r
e
c
i
o
)
1996 1998 2000 2002 2004 2006
6
.
0
6
.
2
6
.
4
6
.
6
6
.
8
7
.
0
7
.
2
Figura I.12: Evoluci´on del logaritmo del precio en euros del metro cuadrado de la
vivienda en la regi´on de Murcia, datos cuatrimestrales, 1995-2006.
X

= ln(X) 1.1 2 3 4
Y

= ln(Y ) 2.3 2.6 2.9 3.2
Ajustamos una recta a los datos transformados, calculando
¯
x

, x
2
,
¯
y

, y
2
y x

y

,
para obtener
ˆ
a

y
ˆ
b

: y

= 0,298x

+ 2,006, es decir que ln(y) = 0,298 ln(x) + 2,006,
lo que implica que
y = e
0,298 ln(x)
e
2,006
= 7,433x
0,298
.
24 Mathieu Kessler: M´etodos Estad´ısticos
Ap´endice
A continuaci´on se presentan los datos de Anscombe (1973), ”Graphs in statistical
analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de
X
1
, X
2
, X
3
, y X
4
as´ı como de Y
1
, Y
2
, Y
3
y Y
4
y a continuaci´on calcular las rectas de
regresi´on de Y
i
sobre X
i
para i=1, 2, 3, 4. Finalmente, realizar las cuatro gr´aficas
de Y
i
en funci´on de X
i
para i=1, 2, 3, 4.
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.1 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.1 4 5.39 19 12.5
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6
TEMA II
Fundamentos de la teor´ıa de la probabilidad.
En el tema anterior, hemos estudiado algunos conjuntos de datos reales que
presentan variabilidad aun cuando son generados por un experimento realizado en
condiciones que nos esforzamos por mantener constantes. Es m´as, si consideramos
el ejemplo de una reacci´on qu´ımica de primer orden visto en la secci´on sobre ajuste
de curvas, disponemos de una teor´ıa qu´ımica que describe la evoluci´on de la con-
centraci´on de los reactivos en funci´on del tiempo como soluci´on de un sistema de
ecuaciones diferenciales y sin embargo, los datos provenientes de un experimento
nunca se ajustan perfectamente a la curva te´orica esperada. ¿Qu´e tipo de afirma-
ciones sobre el resultado de tal experimento podr´ıamos entonces realizar? Estas
afirmaciones tendr´an que tener en cuenta la incertidumbre ligada al experimento.
La teor´ıa de la probabilidad es una teor´ıa matem´atica que permite modelizar ex-
perimentos aleatorios, es decir experimentos cuyo resultado es imposible predecir de
manera exacta. Son los cimientos sobre los que est´a construida toda la estad´ıstica.
II.1. Conceptos b´asicos relacionados con un experimen-
to
Empecemos por introducir unos t´erminos y conceptos relacionados con un ex-
perimento
II.1.1. Experimento aleatorio
Un experimento aleatorio es aquel que, aun realizado en las mismas condiciones,
produce resultados posiblemente distintos.
Se opone a la noci´on de experimento determin´ıstico, en el que conociendo las
condiciones iniciales, se puede prever de manera exacta el resultado. En la pr´acti-
ca, aunque muchos experimentos son verdaderamente aleatorios, en muchos casos se
puede tener por despreciable la variabilidad en los resultados y el considerar el ex-
perimento como determin´ıstico proporciona conclusiones satisfactorias. Sin embargo,
26 Mathieu Kessler: M´etodos Estad´ısticos
hay muchas situaciones en las que es s´olo al tener en cuenta el car´acter aleatorio de
un fen´omeno que se llega a conclusiones v´alidas.
Un ejemplo sencillo de experimento aleatorio consiste en tirar un dado.
II.1.2. Suceso elemental
Un resultado posible del experimento se llama un suceso elemental.
II.1.3. Espacio muestral
El conjunto S de todos los resultados posibles de un experimento aleatorio se
llama el espacio muestral de este experimento.
Si consideramos el experimento que consiste en tirar el dado, el espacio muestral
es ¦1, 2, 3, 4, 5, 6¦.
II.1.4. Suceso
Cualquiera colecci´on de resultados posibles, es decir cualquier subconjunto de S,
se llama un suceso posible asociado al experimento considerado.
Un suceso siempre se podr´a describir de dos formas: utilizando palabras, o de
forma matem´atica, utilizando el formalismo de los conjuntos:
Ejemplo. Asociado al experimento que consiste en tirar un dado, podemos con-
siderar el suceso A : ”Sacar un n´ umero par”. A se puede tambi´en describir como
A = ¦2, 4, 6¦.
Consideremos un suceso A, y llevamos a cabo una realizaci´on del experimento,
se dice que ”Ocurre A” si el resultado del experimento pertenece a A. En el ejemplo
anterior, donde A es “sacar un n´ umero par”, si llevamos a cabo el experimento y sale
un 4, diremos que ha ocurrido A.
Podemos para describir sucesos de inter´es, utilizar el formalismo de la teor´ıa de
conjuntos :
II.1.4.1. Operaciones elementales con sucesos
Uni´on de dos sucesos A y B: la uni´on de A y B es el suceso formado por todos
los elementos de A y todos los elementos de B.
A∪ B = ¦x ∈ S : x ∈ A o x ∈ B¦,
Notar que ”Ocurre A ∪ B” si y s´olo si ”Ocurre A” o ”Ocurre B”. Por ejemplo,
si B es el suceso ”Sale un n´ umero mayor o igual a 5”, es decir B = ¦5, 6¦,
A∪ B = ¦2, 4, 5, 6¦.
Intersecci´on de dos sucesos A y B: la intersecci´on de A y B est´a formada por
los elementos comunes a A y a B.
A∩ B = ¦x ∈ S : x ∈ A y x ∈ B¦
”Ocurre A ∩ B” si y s´olo si ”Ocurre A” y ”Ocurre B”. En el ejemplo anterior,
A∩ B = ¦6¦
Disponemos tambi´en de las propiedades siguientes de las operaciones con sucesos:
II.1 Conceptos b´asicos relacionados con un experimento 27
• Comutatividad A∪ B = B ∪ A
A∩ B = B ∩ A
• Asociatividad A∪ (B ∪ C) = (A∪ B) ∪ C
A∩ (B ∩ C) = (A∩ B) ∩ C
• Distributividad A∪ (B ∩ C) = (A∪ B) ∩ (A∪ C)
A∩ (B ∪ C) = (A∩ B) ∪ (A∩ C)
II.1.4.2. Algunos t´erminos m´as.
El suceso seguro es S, el espacio muestral entero.
El suceso imposible es el conjunto vac´ıo
Diremos que dos sucesos A y B son incompatibles, si no pueden ocurrir a la vez,
es decir A∩ B = ∅ y diremos que los sucesos A
1
, A
2
, A
3
, . . . son incompatibles
dos a dos, si para todos i = j, A
i
∩ A
j
= ∅.
Suceso complementario de A (A
c
= ¦x ∈ S : x / ∈ A¦ ). Notar que “Ocurre A
c

si y s´olo si “No Ocurre A”. En nuestro ejemplo, A
c
= ¦1, 3, 5¦.
II.1.5. Diagrama de Venn
Es una manera gr´afica de representar los sucesos: un rect´angulo representa S el
espacio muestral entero, y vamos agrupando los sucesos elementales en sucesos. Por
ejemplo, volviendo al ejemplo del dado:
II.1.6. Leyes de Morgan
Para dos sucesos A y B,
(A∩ B)
c
= A
c
∪ B
c
,
28 Mathieu Kessler: M´etodos Estad´ısticos
es decir que, afirmar que“no ha ocurrido (A y B)” es lo mismo que decir “o bien no
ha ocurrido A o bien no ha ocurrido B”.
(A∪ B)
c
= A
c
∩ B
c
,
es decir que, afirmar que“no ha ocurrido (A o B)” es lo mismo que decir “no ha
ocurrido A y tampoco ha ocurrido B”.
II.2. Concepto de Probabilidad
Al llevar a cabo una realizaci´on de un experimento aleatorio, somos conscientes
de que no podemos predecir el resultado, sin embargo tenemos a menudo informa-
ci´on sobre las ”posibilidades” que tiene un determinado suceso de ocurrir. Queremos
cuantificar de alguna manera esta informaci´on que llamar´ıamos la probabilidad del
suceso.
II.2.1. Definici´ on informal de la probabilidad - propiedades.
M´as que formalizar una definici´on, preferimos indicar qu´e propiedades tendr´a
que tener la cantidad escogida para que refleje la creencia que tenemos de que un
determinado suceso ocurra.
Dados todos los sucesos asociados a un experimento aleatorio, asignaremos a cada
suceso A, una cantidad que denotaremos por P(A) y que llamaremos la“probabilidad
del suceso A.” Pero al realizar esta asignaci´on deberemos tener en cuenta que se
deber´a cumplir:
1. La probabilidad de un suceso es un n´ umero entre 0 y 1:
0 ≤ P(A) ≤ 1,
2. considerando que la probabilidad asociada al suceso imposible es nula:
P(∅) = 0,
mientras que la probabilidad asociada al suceso seguro es 1 :
P(S) = 1.
3. La probabilidad de que un suceso no ocurra es 1− la probabilidad de que
ocurra:
P(A) = 1 −P(A
C
).
4. Si un suceso tiene m´as resultados posibles que otro, su probabilidad ser´a mayor,
es decir,
Si A y B son dos sucesos tales que A ⊂ B, entonces
P(A) ≤ P(B).
5. Reglas de adici´on:
II.2 Concepto de Probabilidad 29
a) Si A y B son dos sucesos incompatibles, es decir que no pueden ocurrir
a la vez, la probabilidad de que ocurra uno o el otro es la suma de las
probabilidades de cada suceso:
Si A∩ B = ∅, P(A∪ B) = P(A) +P(B).
Esta f´ormula seguir´a v´alida si se trata de la uni´on de tres o m´as sucesos.
b) En cambio si A y B son dos sucesos cualesquiera (en particular, podr´ıan
ocurrir a la vez), un diagrama de Venn nos convence de que la f´ormula
correcta es
P(A∪ B) = P(A) +P(B) −P(A∩ B),
puesto que, al sumar P(A) y P(B), hemos contabilizado dos veces la prob-
abilidad de la intersecci´on P(A ∩ B), y debemos restarla una vez para
obtener P(A∪ B).
c) Esta ´ ultima f´ormula se puede generalizar a m´as de dos sucesos, nos lim-
itaremos a enunciar el caso de tres:
P(A∪ B ∪ C) = P(A) +P(B) +P(C)
−P(A∩ B) −P(A∩ C) −P(B ∩ C)
+P(A∩ B ∩ C).
En todo lo que sigue, entenderemos como probabilidad la asignaci´on de un
n´ umero a cada suceso posible asociado a un experimento aleatorio, que cumpla
con las cinco propiedades que acabamos de enumerar.
II.2.2. El caso de un espacio muestral finito y la definici´on de
Laplace.
II.2.2.1. Espacio muestral finito
En el caso en que hay un n´ umero finito de resultados posibles del experimento, es
decir el caso de un espacio muestral finito, la definici´on de una probabilidad asociada
al experimento pasar´a por la asignaci´on de la probabilidad de cada suceso elemental.
En particular, diremos que los sucesos elementales son equiprobables si todos tienen
la misma probabilidad de ocurrir. Para cumplir con las propiedades anteriores, est´a
claro que si hay n sucesos elementales que son adem´as equiprobables, la probabilidad
de cada uno de ellos es 1/n. En este caso, la probabilidad de un suceso A se podr´a
siempre calcular como (Regla de Laplace)
P(A) =
n
o
de elementos en A
n
o
de elementos totales
=
n
o
de casos favorables
n
o
de casos posibles.
.
Para ilustrar esta manera de calcular la probabilidad de un suceso, nos pregun-
tamos ¿qu´e es m´as f´acil acertar, el gordo de la loter´ıa, la primitiva, o una quiniela
de catorce resultados?
El gordo de la loter´ıa, el experimento consiste en escoger al azar un n´ umero entre
100000 posibles, si A designa el suceso ”acierto”, la probabilidad de acertar es de una
entre 100000,
P(A) =
1
100000.
30 Mathieu Kessler: M´etodos Estad´ısticos
La primitiva, el experimento consiste en extraer 6 n´ umeros sin reposici´on entre
49. El n´ umero de casos posibles se calcula como las combinaciones sin repetici´on de
49 elementos tomados de 6 en 6 (en el anexo pod´eis encontrar un breve recordatorio
sobre reglas de conteo), es

49
6

= 13984000. La probabilidad de acertar es una entre
casi 14 millones:
P(A) =
1
13984000.
· 7. 15 10
−8
.
La quiniela, el experimento consiste en escoger quince veces uno de los tres resul-
tados posibles 1, X, 2. El n´ umero de casos posibles es 33 3 = 3
15
= 14348907.
La probabilidad de acertar es de una entre 14 millones.
P(A) =
1
14348907
· 6. 97 10
−8
.
Por supuesto, aqu´ı no hemos tenido en cuenta que no se suele rellenar las quinielas
escogiendo al azar una de las tres posibilidades 1, X, 2...
Euro-mill´on, el juego consiste en acertar 5 n´ umeros de una tabla de 50 (Del n
o
1 al n
o
50) y adem´as acertar 2 n´ umeros (estrellas) de una tabla de 9 (Del n
o
1 al n
o
9). Es decir, para tener derecho al primer premio hay que acertar 7 n´ umeros (5 +
2). Para calcular el n´ umero de casos posibles, tenemos en cuenta que para escoger
los 5 primeros n´ umeros de la tabla de 50, tenemos

50
5

posibilidades, y para cada
una de estas combinaciones, tenemos

9
2

posibilidades para escoger las dos estrellas.
En total tenemos por lo tanto

50
5

9
2

= 76275360
casos posibles, es decir que la probabilidad de acertar es de una entre m´as de 76
millones.
En cuanto a premios, en 2006, un acertante del euro-mill´on podr´ıa haber ganado
hasta 180 millones de euros! El mayor premio que se gan´o con la primitiva fue de
casi 25 millones de euros, y fue en el 2005, mientras que en la quiniela, el mayor
premio fue de 9 millones de euros (fue en la temporada 05/06)
Por ´ ultimo, hay un participante que siempre gana: el estado. En 2005 por ejem-
plo, Loter´ıas y Apuestas del Estado, la sociedad que gestiona los juegos estatales,
ingres´o al Tesoro P´ ublico casi 2300 millones de euros (fuente: Memoria de Loter´ıas
y Apuestas del Estado 2005). Hay que decir que los espa˜ noles se gastaron en juegos
en 2005, sumando los de gesti´on privada (casino, bingo, m´aquinas), la ONCE, y los
de gesti´on p´ ublica, ¡una cantidad de 28 000 millones de euros!
II.2.2.2. Interpretaci´on “frecuentista” de la probabilidad
En cuanto dejamos el marco de los sucesos elementales equiprobables, la asig-
naci´on de una probabilidad a cada suceso es mucho m´as complicada. Muchas inter-
pretaciones de resultados ligados a probabilidades est´an relacionadas con la defini-
ci´on de Laplace, llamada la ”interpretaci´on frecuentista” de la probabilidad:
Para un suceso A, realizamos un gran n´ umero de veces n el experimento, y
consideramos que
P(A) = l´ım
n→∞
n
o
de veces que ha ocurrido A entre las n realizaciones
n
.
II.3 La probabilidad condicionada. 31
II.3. La probabilidad condicionada.
Corresponde a una re-asignaci´on o actualizaci´on de la probabilidad de un suceso
cuando tenemos informaci´ on sobre el resultado del experimento.
II.3.1. Definici´ on
Si A y B son dos sucesos tales que P(B) > 0, la probabilidad de A condicionada
a B se denota por P(A[B) y es igual a
P(A[B) =
P(A∩ B)
P(B)
.
Su interpretaci´on es: realizamos el experimento, y sabemos que ha ocurrido B, ¿cu´al
es la probabilidad de que haya ocurrido A tambi´en? Por ejemplo, en una tirada de
un dado he apostado por el ”6”. Tiran el dado sin que yo pueda ver el resultado,
pero me dicen que ha salido un n´ umero par. Teniendo esta informaci´on, ¿cu´al es
la probabilidad de que haya ganado la apuesta? Es intuitivamente claro que es de
un tercio (un caso favorable, el ”6” entre tres posibles, el “2,”, el “4” y el “6”.) Si
introduzco los sucesos A = “sale un 6”, y B =”sale un n´ umero par”, quiero calcular
P(A[B), utilizo la definici´on para encontrar:
P(A[B) =
P(A∩ B)
P(B)
=
P(¦6¦)
P¦2, 4, 6¦
=
1/6
3/6
= 1/3,
lo que coincide con nuestra intuici´on.
Al considerar el siguiente diagrama de Venn,
32 Mathieu Kessler: M´etodos Estad´ısticos
nos convencemos de que la definici´on P(A[B) =
P(A∩B)
P(B)
es intuitivamente razon-
able: realizamos el experimento y sabemos que el resultado pertenece a B, y nos
preguntamos cu´al es la probabilidad de que el resultado pertenezca tambi´en a A :
B es nuestro nuevo espacio muestral puesto que sabemos que los resultados posibles
pertenecen a B, y la probabilidad de que pertenezca a A es el cociente P(A∩B)/P(B).
II.3.2. Regla del producto.
(i) Si A y B son dos sucesos con P(B) > 0,
P(A∩ B) = P(A[B)P(B)
= P(B[A)P(A)
(ii) En el caso de tres sucesos, A, B y C, tenemos
P(A∩ B ∩ C) = P(A[B ∩ C)P(B[C)P(C),
siempre que las probabilidades que aparecen est´en bien definidas, es decir P(B∩
C) > 0 y P(C) > 0.
II.3.3. Propiedad
Para un suceso B fijado, la probabilidad condicionada a B, P(.[B) satisface to-
das las propiedades de una probabilidad. En particular cumple por ejemplo, para
cualquier suceso A, 0 ≤ P(A[B) ≤ 1, P(A
c
[B) = 1 − P(A[B); y para dos sucesos A
y C, P(A∪ C[B) = P(A[B) +P(C[B) −P(A∩ C[B).
II.4. Sucesos independientes
Una de las situaciones m´as importantes en probabilidad aparece cuando, con-
siderando dos sucesos, el hecho de que uno ocurra no influye la probabilidad de que
el otro ocurra. Este concepto se llama independencia de dos sucesos y pasamos a
definirlo.
II.4.1. Definici´ on para dos sucesos
A y B son dos sucesos independientes si se cumple
P(A∩ B) = P(A)P(B).
Notar que esta definici´on es equivalente, por la definici´on de la probabilidad
condicionada, a que P(A[B) = P(A) y P(B[A) = P(B). Es decir A y B son in-
dependientes si el hecho de saber que, por ejemplo, B ha ocurrido, no cambia la
probabilidad que asignamos a A, y vice versa.
Una buena ilustraci´on de este concepto: “¿Sab´eis por qu´e un matem´atico siempre
se lleva una bomba cuando viaja en avi´on? - Porque es mucho menos probable que
haya dos bombas en un mismo avi´on que s´olo una...”
¿Qu´e os parece este argumento?
II.5 Ejemplos de probabilidades condicionadas en la vida diaria 33
II.4.2. Definici´ on para n sucesos
Los n sucesos A
1
, A
2
, . . . , A
n
son independientes si para cualquier subfamilia
A
i
1
, A
i
2
, . . . , A
i
k
, se cumple
P(A
i
1
∩ A
i
2
∩ ∩ A
i
k
) = P(A
i
1
)P(A
i
2
) P(A
i
k
).
En particular se cumple que P(A
i
∩ A
j
) = P(A
i
)P(A
j
) para todo i y j entre 1 y n.
II.5. Ejemplos de probabilidades condicionadas en la vi-
da diaria
II.5.1. Eslogan publicitario para la loter´ıa
En Francia, hubo hace unos a˜ nos, un eslogan publicitario para un juego de loter´ıa
que rezaba:
El 100 % de los acertantes probaron suerte...
Los creadores de este eslogan jugaron con el efecto causado al usar una probabil-
idad condicionada: si P denota el suceso “probar suerte” y A el suceso “acertar”, el
eslogan est´a diciendo P(P[A) = 1, pero la gente piensa en P(A[P) que es much´ısima
m´as baja por supuesto...
II.5.2. Tabaquismo y c´ancer de pulm´on
Del informe “La situaci´on del c´ancer en Espa˜ na, 2005”, elaborado por el Centro
nacional de Epidemiolog´ıa, se deduce en particular los datos siguientes: el c´ancer es
la primera causa de muerte en t´erminos absolutos (p9), y en particular. el c´ancer de
pulm´on es el tumor de mayor incidencia y de mayor mortalidad entre los hombres.
Por otra parte, en la informaci´on publicada por la Asociaci´on Espa˜ nola contra el
C´ancer (AECC) en su p´agina web, se indica que el 90 % de los pacientes con c´ancer
de pulm´on son fumadores.
¿Se puede deducir de est´a ´ ultima estad´ıstica de que el tabaquismo es un factor
de riesgo para el c´ancer de pulm´on? En principio, parece que s´ı, pero en realidad
¡depende de la tasa de fumadores en la poblaci´on!
Traduzcamos estos datos con sucesos: consideramos el experimento “escoger una
persona al azar en la poblaci´on espa˜ nola”. Introducimos los sucesos T=”tiene un
tumor asociado a un c´ancer de pulm´on”, F=”es fumador”. Nos dicen que
P(F[T) = 0,9
pero en realidad, para saber si el hecho de ser fumador incrementa el riesgo de
desarrollar un c´ancer de pulm´on, queremos saber si P(T[F) es mayor que P(T).
Para relacionar P(T[F) y P(T), podemos utilizar la definici´on de la probabilidad
condicionada:
P(T[F) =
P(T ∩ F)
P(F)
=
P(F[T)P(T)
P(F)
=
P(F[T)
P(F)
P(T).
34 Mathieu Kessler: M´etodos Estad´ısticos
Por lo tanto, el concluir si el tabaquismo incrementa el riesgo de desarrollar un
c´ancer de pulm´on depender´a del cociente P(F[T)/P(F).
Seg´ un la Encuesta Nacional de Salud 2003, que se puede obtener del Instituto
Nacional de Estad´ıstica, aproximadamente el 30 % de la poblaci´on espa˜ nola son
fumadores diarios. El cociente P(F[T)/P(F) es por lo tanto igual aproximadamente
a 0.9/0.3=3. Deducimos que el hecho de ser un fumador diario multiplica
por tres el riesgo de padecer un c´ancer de pulm´on.
Pero, se puede enfatizar que la ´ unica afirmaci´on “El 90 % de los pacientes con
c´ancer de pulm´on son fumadores” no implica de por s´ı que el tabaquismo sea un
factor de riesgo para el c´ancer de pulm´ on.
II.5.3. Tabaquismo y esperanza de vida
Un dato cl´asico en epidemiolog´ıa es muy sorprendente en primera lectura:
Si nos limitamos a la gente mayor de 70 a˜ nos, ¡la esperanza de vida de los
fumadores es mayor que la de los no fumadores!
¿C´omo puede ser esto cierto? En realidad este dato no es tan sorprendente si
uno se lo piensa un poco: muy poca gente llega a los 70 a˜ nos fumando... De hecho,
seg´ un la AECC, la edad media de fallecimiento por c´ancer de pulm´on es de 68 a˜ nos
para los hombres y 66 a˜ nos para las mujeres. La gente que llega a los 70 a˜ nos y
son fumadores tienen un sistema inmunol´ogico muy resistente y un mecanismo de
control de c´elulas tumorosas muy eficiente, lo que implica que, de todas maneras,
tendr´ıan una vida muy larga...
II.6. F´ormula de la probabilidad total y teorema de
Bayes
II.6.1. Condiciones de aplicaci´on
Tenemos n sucesos A
1
, A
2
, . . . , A
n
que forman una partici´on del espacio
muestral S, es decir que son mutuamente incompatibles (A
i
∩ A
j
= ∅, para
1 ≤ i, j ≤ n), y cuya uni´on es el espacio muestral entero, i.e. A
1
∪ A
2

A
n
= S. Adem´as conocemos la probabilidad de cada uno de ellos, es decir
P(A
1
), P(A
2
), . . . P(A
n
).
Nota: A menudo nos encontraremos con la situaci´on en la que s´olo son dos
sucesos, i.e n = 2, en este caso tenemos A
1
= A y A
2
= A
c
.
Tenemos otro suceso B y, para cada i = 1, . . . , n, conocemos, en el caso de que
ocurra A
i
, la probabilidad de B, es decir conocemos P(B[A
1
), . . . , P(B[A
n
).
II.6.2. Los resultados
Si se cumplen las condiciones de aplicaci´on del apartado anterior,
F´ormula de la probabilidad total Se puede calcular P(B) descomponiendo
B sobre cada uno de los sucesos de la partici´on:
P(B) = P(B[A
1
)P(A
1
) + +P(B[A
n
)P(A
n
).
II.6 F´ormula de la probabilidad total y teorema de Bayes 35
Teorema de Bayes Para cualquier i = 1, . . . , n, tenemos
P(A
i
[B) =
P(B[A
i
)P(A
i
)
P(B[A
1
)P(A
1
) + +P(B[A
n
)P(A
n
)
.
Demostraci´on. Utilizamos, al formar A
1
, A
2
, . . . , A
n
una partici´on del espacio
muestral, la descomposici´on del suceso B
B = (B ∩ A
1
) ∪ (B ∩ A
2
) ∪ (B ∩ A
n
).
Los sucesos (B∩A
1
), . . . , (B∩A
n
) son incompatibles dos a dos, y aplicamos la regla
de la adici´on
P(B) = P(B ∩ A
1
) +P(B ∩ A
2
) + P(B ∩ A
n
).
Utilizamos ahora la regla del producto P(B ∩ A
i
) = P(B[A
i
)P(A
i
) para todo i =
1, . . . , n para la f´ormula de la probabilidad total
P(B) = P(B[A
1
)P(A
1
) + +P(B[A
n
)P(A
n
).
Por otra parte por la definici´on de la probabilidad condicionada P(A
i
[B) = P(A
i

B)/P(B), para todo 1 ≤ i ≤ n. Si sustituimos en el numerador P(A
i
∩ B) por
P(B[A
i
)P(A
i
) y en el numerador P(B) por la f´ormula de la probabilidad total, obten-
emos el teorema de Bayes.
II.6.3. Ejemplo
En un la transmisi´on de un mensaje por correo electr´onico, la calidad de la recep-
ci´on de un fichero depende de la sobrecarga de la red. Si la red est´a sobrecargada, la
proporci´on de ficheros da˜ nados es de 1 %, mientras que si no lo est´a, esta proporci´on
s´olo es del 0.01 %. Estimamos que la probabilidad de que la red est´e sobrecargada
es igual a 0.02. ¿Cu´al es la proporci´on total de ficheros da˜ nados en la transmisi´on?
Suponiendo que recibo un fichero da˜ nado, ¿cu´al es la probabilidad de que la red
estuviera sobrecargada durante la transmisi´on?
Empecemos por introducir los sucesos convenientes para traducir los datos que
se nos proporciona. Sea RS el suceso “La red est´a sobrecargada”, y D el suceso “El
archivo est´a da˜ nado”. Se nos pide calcular P(D) y P(RS[D). Nos damos cuenta de
que si A
1
= RS y A
2
= RS
C
, los sucesos A
1
y A
2
son incompatibles y su reuni´on es
el espacio muestral entero, por lo tanto forman una partici´on del espacio muestral.
Adem´as conocemos sus probabilidades: P(A
1
) = 0,02 y P(A
2
) = 0,98. Por otra
parte conocemos P(D[A
1
), y P(D[A
2
), estamos por lo tanto en las condiciones de
aplicaci´on de la f´ormula de la probabilidad total y del teorema de Bayes. Deducimos
P(D) = P(D[RS)P(RS) +P(D[RS
C
)P(RS
C
)
= 0,01 0,02 + 0,0001 0,98 = 0,000298 · 0,0003,
es decir que la proporci´on total de ficheros da˜ nados es de 3 por 10000. Por otra
parte, por el teorema de Bayes,
P(RS[D) =
P(D[RS)P(RS)
P(D[RS)P(RS) +P(D[RS
C
)P(RS
C
)
=
0,01 0,02
0,000298
· 0,67,
por lo tanto, sabiendo que recibo un fichero da˜ nado, la probabilidad de que la red
estuviera sobrecargada es igual a 0.67.
TEMA III
Variable aleatoria I
Las nociones te´oricas que hemos introducido responden a la necesidad de constru-
ir modelos matem´aticos que den cuenta del car´acter aleatorio de los fen´omenos que
nos interesan. Hemos puesto en el tema anterior las primeras piedras en este senti-
do describiendo experimento aleatorio, sucesos y probabilidad asociada a un suceso,
pero nos falta la noci´on fundamental de variable aleatoria: en problemas concretos,
estamos interesados en funciones definidas sobre el espacio de los resultados posibles
del experimento aleatorio, y los sucesos que queremos estudiar se expresan a trav´es
de estas funciones. Puesto que nos es imposible predecir de manera exacta el valor
de una variable aleatoria al realizar el experimento, nuestro modelo consistir´a en de-
scribir las probabilidades asociadas a cualquier suceso relacionado con esta variable,
descripci´on que conseguiremos gracias a la funci´on de distribuci´on.
III.1. Concepto de variable aleatoria
Consideramos un experimento aleatorio y su espacio muestral asociado.
III.1.1. Definici´ on
Una variable aleatoria- de ahora en adelante v.a.- asocia un n´ umero o m´as gen-
eralmente una caracter´ıstica a todo resultado posible del experimento.
Por ejemplo, si consideramos el experimento que consiste en realizar una medi-
ci´on de la concentraci´on de un producto en una soluci´on, nos interesa la v.a X=
“valor medido de la concentraci´on.” Otro ejemplo de variable aleatoria se asocia, en
un proceso de fabricaci´on, al experimento de escoger un dispositivo producido, y
considerar la v.a. X= “duraci´on hasta el fallo”.
Finalmente ilustraremos algunos conceptos de este tema con un ejemplo sencillo:
el experimento consiste en lanzar tres veces una moneda no trucada. Si denotamos
por + el resultado “cruz” y por c el resultado “cara” al lanzar una moneda, el espacio
38 Variable aleatoria I
muestral se describe como
S = ¦ccc, cc+, c +c, c + +, +cc, +c+, + +c, + + +¦.
Consideraremos la v.a. X= “n´ umero de veces que ha salido cruz en los tres lanza-
mientos”. Puede tomar cualquiera de los valores 0, 1, 2 y 3.
III.1.2. Distribuci´ on de una variable aleatoria
Conocer la distribuci´on de los valores de una v.a. X consiste en saber asignar a
cualquier suceso relacionado con X una probabilidad. Decidir de una distribuci´on
para una v.a de inter´es en un problema concreto es por lo tanto escoger un modelo
para describir el comportamiento de esta variable.
Para el ejemplo de los tres lanzamientos de una moneda, la distribuci´on de X =
“n´ umero de veces que ha salido cruz en los tres lanzamientos” est´a completamente
determinada por la lista de los valores posibles junto con la probabilidad con la que
X toma cada valor. Al ser la moneda no trucada, escogemos un modelo en el que los
sucesos elementales de S son equiprobables, calculamos P(X = i) para i = 0, 1, 2, 3
con la regla casos favorables / casos posibles y obtenemos
Valor Probabilidad
0 1/8
1 3/8
2 3/8
3 1/8
Se puede representar de manera gr´afica la distribuci´on de X:
Podremos fijarnos en las caracter´ısticas principales de esta distribuci´on (simetr´ıa,
m´aximo, colas...)
III.2 Funci´on de distribuci´on de una v.a 39
III.2. Funci´ on de distribuci´on de una v.a
Se trata de una manera de describir la distribuci´on de una variable X.
III.2.1. Definici´ on
La funci´on de distribuci´on de una v.a. X es la funci´on F
X
que asocia a cualquier
n´ umero real t la probabilidad de que X sea menor o igual a t, i.e.
F
X
(t) = P(X ≤ t).
III.2.2. C´alculo para el ejemplo de las tres monedas
Para calcular F
X
(t) = P(X ≤ t), debemos considerar los intervalos definidos por
los valores posibles de X es decir 0, 1, 2 y 3 que inducen los cinco intervalos para t:
t < 0, 0 ≤ t < 1, 1 ≤ t < 2, 2 ≤ t < 3 y t > 3.
Si t < 0, el suceso (X ≤ t) es el suceso imposible puesto que todos los valores
que puede tomar X son mayores o igual que 0. Por lo tanto, F
X
(t) = P(X ≤ t) = 0.
Si 0 ≤ t < 1, el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0.
Deducimos F
X
(t) = P(X ≤ t) = P(X = 0) = 1/8.
Si 1 ≤ t < 2, el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0 ´o
1, es decir F
X
(t) = P(X ≤ t) = P[(X = 0) ∪ (X = 1)] = P[X = 0] + P[X = 1] =
1/8 + 3/8 = 1/2.
Si 2 ≤ t < 3, el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0, 1 ´o 2,
es decir F
X
(t) = P(X ≤ t) = P[X = 0] +P[X = 1] +P[X = 2] = 1/2 + 3/8 = 7/8.
Finalmente, si t > 3, el suceso (X ≤ t) es el suceso seguro puesto que todos los valores
que puede tomar X son menores o igual que 3. Por lo tanto F
X
(t) = P(X ≤ t) = 1.
La gr´afica de F
X
en este ejemplo es
x
F
(
x
)
0.125
0.250
0.375
0.500
0.625
0.750
0.875
1.000
0 1 2 3
q
q
q
q
III.2.3. Propiedades
La funci´on de distribuci´on de una v.a. X cumple las propiedades siguientes:
40 Variable aleatoria I
0 ≤ F
X
(t) ≤ 1, para todo t ∈ R.
l´ım
t→−∞
F
X
(t) = 0 mientras que l´ım
t→+∞
F
X
(t) = 1.
F
X
es una funci´on creciente, puesto que si a ≤ b, tenemos (X ≤ a) ⊂ (X ≤ b)
lo que implica que P(X ≤ a) ≤ P(X ≤ b).
F
X
es una funci´on continua por la derecha.
Finalmente la propiedad m´as importante que utilizaremos muy a menudo: para
todos n´ umeros reales a ≤ b,
P(a < X ≤ b) = F
X
(b) −F
X
(a).
La demostraci´on de esta propiedad es inmediata si utilizamos la descomposi-
ci´on (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) junto con la regla de la adici´on.
III.3. Variable aleatoria discreta
III.3.1. Definici´ on
En el caso en que la v.a. X puede tomar un n´ umero finito o infinito numerable
1
de valores. En el ejemplo de los tres lanzamientos de una moneda, la v.a. X=
“N´ umero de veces que ha salido cruz” es una v.a discreta puesto que s´olo puede
tomar cuatro valores.
III.3.2. Funci´ on puntual de probabilidad
III.3.2.1. Definici´on
Si X es una v.a. discreta, y x
1
, x
2
, . . . , x
n
, . . . representan sus valores posibles,
la funci´on puntual de probabilidad de X es la funci´on f
X
que asocia a cada x
i
la
probabilidad P(X = x
i
), para i = 1, . . . , n. . .
f
X
: x
i
→ f
X
(x
i
) = P(X = x
i
).
Ejemplo. En el experimento del lanzamiento de las tres monedas, hemos calculado
la distribuci´on de X, el n´ umero de veces que ha salido cruz en el apartado 1.2. Los
valores posibles de X son 0, 1, 2 y 3; por lo tanto
Valor f
X
0 1/8
1 3/8
2 3/8
3 1/8
1
Un conjunto infinito numerable es un conjunto del que se puede enumerar todos los elementos. N,
Z y Q son ejemplos de conjuntos infinitos numerables. En cambio un conjunto infinito no numerable
es un conjunto que no se puede poner en biyecci´ on con N, es decir para el cual es imposible enumerar
los elementos. El intervalo de n´ umeros reales [0, 1] es infinito no numerable por ejemplo.
III.3 Variable aleatoria discreta 41
III.3.2.2. Propiedades
La funci´on puntual de probabilidad de una v.a. discreta permite calcular la
funci´on de distribuci´on: si notamos que
(X ≤ t) = ∪
x
i
≤t
(X = x
i
),
obtenemos que
P(X ≤ t) =
¸
x
i
≤t
P(X = x
i
) =
¸
x
i
≤t
f
X
(x
i
).
Adem´as, si consideremos dada una funci´on f definida en un conjunto discreto
de valores ¦x
1
, . . . , x
n
, . . .¦, se puede demostrar que f es una funci´on puntual
de probabilidad de una v.a. X si y solamente si cumple
• 0 ≤ f(x) para x = x
1
, . . . , x
n
, . . .

¸
x
i
f
X
(x
i
) = 1.
III.3.3. Caracter´ısticas de una variable discreta
Al igual que en el tema 1 para un conjunto de datos, queremos disponer de
herramientas para describir la distribuci´on de valores de una v.a. De hecho, todos
las medidas descriptivas de un conjunto de datos tienen su contra-parte para la
distribuci´on de una v.a. Nos limitaremos por razones de tiempo a una medida de
centralizaci´on y otra de dispersi´on: la esperanza y la varianza.
III.3.3.1. Esperanza
Si queremos considerar el valor medio de la distribuci´on de valores de una v.a.,
es natural calcular la suma de estos valores ponderados por la probabilidad que se
le asigna.
Definici´on III.3.1 La media, o esperanza, o valor esperado, o promedio, de una
v.a. discreta X se define como
E[X] =
¸
x
i
x
i
P(X = x
i
).
Representa una medida de centralizaci´on de la distribuci´on de valores de X pero
con la misma puntualizaci´on que en el tema 1: es representativa del centro de la
distribuci´on si ´esta es aproximadamente sim´etrica pero puede ser una mala medida
de centralizaci´on si la distribuci´on es asim´etrica y/o presenta colas pronunciadas.
Por supuesto, la esperanza de una v.a. X se expresa en las mismas unidades que
X.
Ser´a ´ util para una distribuci´on de valores ser capaz de calcular el valor medio
no solamente de X sino tambi´en de una funci´on de X; est´a claro por ejemplo que
el valor medio de la distancia al cuadrado de X a su media ser´a una medida de
dispersi´on de la distribuci´on de valores de X. Por ello, definimos la esperanza de
una funci´on cualquiera f(X) de X.
42 Variable aleatoria I
Definici´on III.3.2 Sea X una v.a. discreta y f una funci´on de R en R. La esper-
anza de f(X) es la suma de los valores de f(X) ponderados por la probabilidad de
que X tome cada valor, es decir,
E[f(X)] =
¸
x
i
f(x
i
)P(X = x
i
).
III.3.3.2. Varianza
Para disponer de una medida num´erica de la dispersi´on de valores de una v.a
X, calcularemos el valor promedio de la distancia al cuadrado de X a su media. Al
igual que en el tema 1, llamamos esta cantidad la varianza de X.
Definici´on III.3.3 La varianza de una v.a. discreta X, designada por var X o σ
2
X
,
est´a definida por
var(X) = E[(X −E[X])
2
].
Por la definici´on III.3.2 deducimos que var(X) se puede calcular como
var(X) =
¸
x
i
(x
i
−E[X])
2
P(X = x
i
).
Por otra parte, se suele calcular la varianza utilizando la f´ormula equivalente sigu-
iente:
F´ormula equivalente para el c´alculo de la varianza. Tenemos
var(X) = E[X
2
] −(E[X])
2
.
Demostraci´on:
var(X) =
¸
x
i
(x
i
−E[X])
2
P(X = x
i
)
=
¸
x
i
(x
2
i
−2x
i
E[X] +E[X]
2
)P(X = x
i
)
=
¸
x
i
x
2
i
P(X = x
i
) −
¸
x
i
2x
i
E[X]P(X = x
i
) +
¸
x
i
E[X]
2
P(X = x
i
)
=
¸
x
i
x
2
i
P(X = x
i
) −2E[X]
¸
x
i
x
i
P(X = x
i
) +E[X]
2
¸
x
i
P(X = x
i
)
= E[X
2
] −2E[X]E[X] +E[X]
2
= E[X
2
] −E[X]
2

Finalmente, la desviaci´on t´ıpica se define como la ra´ız cuadrada de la varianza
σ
X
=

σ
2
X
.
Ser´a la medida que calcularemos para dar cuenta de la dispersi´on de la distribuci´on:
cuanto m´as peque˜ na sea la desviaci´on t´ıpica, m´as concentrada estar´a la distribuci´on
alrededor de su media. En particular, si la desviaci´on t´ıpica de X es nula, deducimos
III.3 Variable aleatoria discreta 43
por la primera f´ormula para el c´alculo de la varianza, que todos los valores de X son
iguales: X s´olo puede tomar un valor, y lo toma con probabilidad 1.
Por otra parte, es bueno resaltar que la desviaci´on t´ıpica se expresa en las mismas
unidades que la variable X.
Nota III.3.1 En la f´ormula equivalente para la varianza aparecen las cantidades
E[X
2
] y E[X]. En general para un entero k, llamamos a E[X
k
] el momento de orden
k. As´ı la media es el momento de orden 1. Tambi´en hablamos de momento centrado
de orden k para la cantidad E[(X−E[X])
k
]. La varianza es por lo tanto el momento
centrado de orden 2.
III.3.3.3. Ejemplo
Calculemos para el ejemplo del lanzamiento de tres monedas la esperanza y la
varianza de la v.a X ”n´ umero de cruces”.
Por una parte,
E[X] =
¸
x
i
x
i
P(X = x
i
) = 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8
= 3/2
y por otra parte
var(X) = E[X
2
] −(E[X])
2
=
¸
x
i
x
2
i
P(X = x
i
) −(3/2)
2
= 0
2
1/8 + 1
2
3/8 + 2
2
3/8 + 3
2
1/8 −(3/2)
2
= 3/4
La desviaci´on t´ıpica es por lo tanto
σ
X
=

3/2.
III.3.4. Modelos m´as usados de v.a. discretas
No debemos olvidar que nuestro objetivo es modelizar un fen´omeno. Proponer un
modelo no consiste en proporcionar una descripci´on de la realidad, sino disponer de
una aproximaci´on que d´e cuenta de los resultados observados del experimento para
unas condiciones experimentales dadas. Ning´ un modelo se ajusta perfectamente al
fen´omeno observado, as´ı que considerarlo adecuado o v´alido es equivalente a consid-
erar que el grado de precisi´on conseguido es satisfactorio para el uso que queremos
hacer del modelo.
En este contexto, hay situaciones t´ıpicas de modelizaci´on que presentan las mis-
mas caracter´ısticas y para las cuales se han propuesto modelos de distribuciones bien
estudiados y conocidos.
III.3.4.1. Variable de Bernoulli
Se trata de una variable que s´olo puede tomar dos valores, 0 ´o 1. Llamamos p la
probabilidad de que tome el valor 1. Varios valores de p, (comprendidos entre 0 y 1,
44 Variable aleatoria I
puesto que p es una probabilidad) dan varias distribuciones de Bernoulli. Para un
valor p concreto, hablamos de la distribuci´on de Bernoulli de par´ametro p.
Propiedades
Valores posibles: ¦0, 1¦,
P(X = 0) = 1 −p P(X = 1) = p.
Esperanza:
E[X] =
¸
x
i
P(X = x
i
) = 0 (1 −p) + 1 p = p
Varianza:
Tenemos: E[X
2
] =
¸
x
2
i
P(X = x
i
) = 0
2
(1 −p) + 1
2
p = p, por lo tanto
var(X) = p −p
2
= p(1 −p).
Ejemplo. Transmito un fichero por la red, en promedio 3 de cada 10000 ficheros
transmitidos resultan da˜ nados. Al experimento aleatorio: “transmitir un fichero por
la red”, asocio la variable X que toma el valor 1 si el fichero se transmite correcta-
mente y 0 si resulta da˜ nado. La variable X sigue una distribuci´on de Bernoulli de
par´ametro 0,9997.
III.3.4.2. Distribuci´on binomial
a). Definici´on La distribuci´on binomial aparece cuando se dan las condiciones
siguientes:
Tenemos un primer experimento aleatorio simple, con una situaci´on dicot´omi-
ca, es decir una situaci´on con dos sucesos posibles A y A
c
(o ocurre A o no
ocurre A).
Repetimos este experimento simple n veces de manera independiente.
Consideramos la variable X=”N´ umero de veces que ha ocurrido A en las n
realizaciones del experimento simple.
En esta situaci´on, la variable X sigue una distribuci´on Binomial, de par´ametros
n ( el n´ umero de veces que repetimos el experimento simple) y p (la probabilidad de
que, en una realizaci´on del experimento simple, ocurra A). Lo denotamos por
X ∼ B(n, p),
donde el s´ımbolo ∼ se utiliza para “sigue una distribuci´on”...
b). Ejemplo Una empresa produce piezas con 1 % de defectuosas. Las piezas se
empaquetan en cajas de 10 unidades. Si consideramos el experimento aleatorio que
consiste en escoger al azar una caja entre la producci´on, ¿cu´al es la distribuci´on de
la variable X=”n´ umero de piezas defectuosas en la caja”.
Para completar una caja, se ha repetido 10 veces el experimento aleatorio simple
“escojo una pieza en la producci´on” al que va asociado una situaci´on dicot´omica:
o bien ocurre A=“la pieza escogida es defectuosa”, o bien ocurre A
c
= “la pieza
III.3 Variable aleatoria discreta 45
escogida es correcta”. Contar el n´ umero de piezas defectuosas en la caja es por
lo tanto equivalente a contar el n´ umero de veces que ha ocurrido A entre las 10
realizaciones del experimento simple. Deducimos que la distribuci´on de X es una
distribuci´on Binomial con par´ametros n = 10, y p = P(A), la probabilidad de que
ocurra A en el experimento simple. Concluimos
X ∼ B(10, 0,01).
c). Propiedades
Valores posibles: 0, 1, 2, . . . , n.
Distribuci´on - Funci´on puntual de probabilidad. i = 0, 1, . . . , n f
X
(i) =
P(X = i). Para calcular estas probabilidades, introduzcamos los sucesos:
A
1
= “ha ocurrido A en la primera realizaci´on del exp. simple”
A
2
= “ha ocurrido A en la segunda realizaci´on del exp. simple”
.
.
.
.
.
.
A
n
= “ha ocurrido A en la n-´esima realizaci´on del exp. simple”
Estos sucesos son independientes.
Empecemos por calcular P(X = 0):
El suceso X = 0 se puede escribir A
c
1
∩ A
c
2
∩ . . . ∩ A
c
n
, por lo tanto
P(X = 0) = P(A
c
1
∩ A
c
2
∩ . . . ∩ A
c
n
) = P(A
c
1
) . . . P(A
c
n
) = (1 −p)
n
,
por la regla del producto para sucesos independientes.
De manera similar, calculamos P(X = 1) :
El suceso (X = 1) se escribe como
(X = 1) = (A
1
∩ A
c
2
∩ . . . ∩ A
c
n
) ∪ (A
c
1
∩ A
2
∩ . . . ∩ A
c
n
) ∪ . . .
∪ (A
c
1
∩ A
c
2
∩ . . . ∩ A
n
)
Aplicando la regla de la adici´on para sucesos incompatibles y a continuaci´on
la regla del producto para sucesos independientes, obtenemos
P(X = 1) = P(A
1
∩ A
c
2
∩ . . . ∩ A
c
n
) +P(A
c
1
∩ A
2
∩ . . . ∩ A
c
n
) +. . .
+P(A
c
1
∩ A
c
2
∩ . . . ∩ A
n
)
= p(1 −p)
n−1
+p(1 −p)
n−1
+. . . +p(1 −p)
n−1
= np(1 −p)
n−1
De la misma manera, podemos demostrar que, para un i cualquiera entre 0 y
n, la probabilidad P(X = i) se descompone como la suma de t´erminos todos
iguales, siendo el primero de ellos P(A
1
∩A
2
∩. . . ∩A
i
∩A
c
i+1
∩. . . ∩A
c
n
), que es
igual a p
i
(1−P)
n−i
. S´olo nos queda determinar el n´ umero de t´erminos en esta
suma, corresponde al n´ umero de maneras de escoger i sucesos diferentes entre
n: es una cantidad b´asica en combinatoria, se llama el n´ umero de combinaciones
de n elementos tomados de i en i, y se denota por (
n
i
). En resumen, para
i = 0, 1, . . . , n,
f
X
(i) = P(X = i) = (
n
i
)p
i
(1 −p)
n−i
,
46 Variable aleatoria I
donde
(
n
i
) =
n!
i! (n −i)!
,
y se utiliza la convenci´on 0! = 1.
Nota: ¿se cumple que
¸
n
i=1
(
n
i
)p
i
(1 − p)
n−i
= 1? La respuesta es s´ı, por el
binomio de Newton: (a +b)
n
=
¸
n
i=1
(
n
i
)a
i
(b)
n−i
, y por lo tanto
n
¸
i=1
(
n
i
)p
i
(1 −p)
n−i
= (p + 1 −p)
n
= 1.
Esperanza y varianza:
Es posible demostrar que, si X ∼ B(n, p),
E[X] = n p, var(X) = n p (1 −p).
III.3.4.3. Distribuci´on Geom´etrica
a). Definici´on Es el modelo m´as sencillo para un tiempo de espera discreto:
consideramos, al igual que para una distribuci´on binomial, un experimento simple
con una situaci´on dicot´omica, ocurre A o A
C
con probabilidades p y 1 −p respecti-
vamente. Estamos dispuestos a realizar este experimento simple un cierto n´ umero de
veces hasta que ocurra A. Introducimos la variable X:”N´ umero de veces que debe-
mos realizar el experimento simple hasta que ocurra A por primera vez”.
La variable X sigue una distribuci´on geom´etrica de par´ametro p. Escribimos
X ∼ (eo(p)
b). Propiedades .
X puede tomar los valores 1, 2, . . ..
Funci´on puntual de probabilidad de X: queremos calcular P(X = i) para
i ∈ N

.
Introducimos los sucesos: A
1
=”ocurre A en la primera realizaci´on del experi-
mento simple”, A
2
=”ocurre A en la segunda realizaci´on del experimento sim-
ple”, etc....
Est´a claro que
P(X = i) = P(A
c
1
∩ A
c
2
∩ . . . A
c
i−1
∩ A
i
),
y, por la regla del producto para sucesos independientes, deducimos
P(X = i) = (1 −p)
i−1
p.
Esperanza y varianza de X ∼ (eo(p).
Utilizando resultados cl´asicos sobre suma de series geom´etricas, obtenemos
E[X] = 1/p,
V ar(X) =
1 −p
p
2
.
III.4 Variable continua 47
III.3.4.4. Distribuci´on de Poisson
a). Definici´on La distribuci´on de Poisson aparece en situaciones en las que se
cuenta el n´ umero de apariciones de un determinado suceso o bien en un intervalo de
tiempo dado (como el n´ umero de part´ıculas emitidas en un segundo por un material
radioactivo, o el n´ umero de clientes que llegan a una cola en un intervalo de tiempo
dado) o bien en un recinto f´ısico (como el n´ umero de fallos en un metro de alambre
de hierro producido.
Si λ es el n´ umero medio de apariciones del suceso de inter´es por intervalo de
tiempo, la variable X=“n´ umero de veces que ha aparecido el suceso en un intervalo
de tiempo escogido al azar”, sigue una distribuci´on de Poisson de par´ametro λ.
Escribimos
X ∼ {(λ).
b). Propiedades
Valores posibles: 0, 1, . . . , n, . . ., es decir todos los n´ umeros enteros...
Funci´on puntual de probabilidad: para i = 0, 1, . . . ,
f
X
(i) = P(X = i) =
λ
i
e
−λ
i!
.
Podemos comprobar que
¸
+∞
i=0
λ
i
e
−λ
i!
= 1, si utilizamos el hecho de que la suma
de la serie de potencias
¸
+∞
i=0
x
i
i!
= e
x
.
Esperanza y varianza.
Es f´acil comprobar repitiendo c´alculos similares a los del punto anterior, que
la esperanza de una distribuci´on de Poisson de par´ametro λ, es, tal como se
anunci´o en la definici´on, λ. Por otra parte, se puede demostrar que su varianza
es λ tambi´en: si X ∼ {(λ)
E[X] = λ, var(X) = λ.
III.4. Variable continua
III.4.1. Definici´ on
Si una v.a X puede tomar un n´ umero infinito no numerable de valores, se le
llama v.a continua.
III.4.2. Funci´ on de densidad
III.4.2.1. Presentaci´on
Queremos disponer de una manera de describir la distribuci´on de una v.a con-
tinua, es decir que nos permita calcular la probabilidad asignada a cualquier suceso
relacionado con X. Para una v.a discreta, hemos visto que utilizamos la funci´on
puntual de probabilidad que asocia a cada valor posible la probabilidad de que X
tome este valor: el c´alculo de la probabilidad de un suceso involucra entonces una
suma de valores de la funci´on puntual de probabilidad. Puesto que una v.a continua
48 Variable aleatoria I
puede tomar un n´ umero infinito no numerable de valores, no asignaremos una prob-
abilidad a cada valor posible, sino que definiremos una “densidad” de probabilidad,
que indique en qu´e zonas del espacio de los valores posibles de X es m´as probable
que se encuentre X.
III.4.2.2. Definici´on
Para una v.a continua X existe una funci´on f
X
positiva, tal que, para todos a y
b, a ≤ b,
P(a ≤ X ≤ b) =

b
a
f
X
(x)dx.
La funci´on f
X
se llama la funci´on de densidad de la v.a X. Notar que se trata de una
terminolog´ıa coherente con la analog´ıa mencionada anteriormente entre probabilidad
y peso: para un cuerpo no homog´eneo, el peso de una parte de este cuerpo se calcula
integrando la densidad en el volumen correspondiente.
Nota:
Al ser f
X
una funci´on positiva, y P(a ≤ X ≤ b) =

b
a
f
X
(x)dx., la probabili-
dad de que X est´e entre a y b corresponde al ´area debajo de la curva de f
X
comprendida entre a y b, tal como est´a ilustrado en la figura siguiente:
Valores de X
f
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
a b
Si disponemos de un conjunto de datos con una variable X, generados a partir
de realizaciones de un experimento, y si nuestra descripci´on del mecanismo
de generaci´on de los datos a trav´es de un modelo para X, es adecuada, la
funci´on de densidad de X tiene mucha relaci´on con el histograma. En efecto,
la probabilidad de que X pertenezca a una clase debe explicar la frecuencia de
datos que aparecen en esta clase, y por lo tanto la forma del histograma debe
corresponder a la forma de la densidad, tal como viene reflejado en la figura:
III.4 Variable continua 49
Densidad y histograma
x
D
e
n
s
i
d
a
d
−2 −1 0 1 2
0
.
0
0
.
1
0
.
2
0
.
3
0
.
4
El ´area total debajo de la curva de f
X
debe corresponder a la probabilidad de
que X tome un valor real, y es igual a 1:

+∞
−∞
f
X
(x)dx = 1.
Si X es una v.a continua, la probabilidad de que tome un valor dado a es
nula, puesto que la integral de f
X
entre a y a es cero: la distribuci´on de una
v.a continua s´olo asigna probabilidades positivas a intervalos de valores y no
a puntos individuales. En particular deducimos por la regla de la adici´on que,
si X es una v.a continua,
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a < X < b) = P(a ≤ X < b).
!Por supuesto este tipo de igualdades no es v´alida en general para una v.a
discreta!
III.4.2.3. Propiedades
a). Relaciones entre f
X
y F
X
. La funci´on de distribuci´on acumulada de X es,
ver secci´on III.2 calcula para todo real t la probabilidad de que X tome un valor
menor o igual que t: F
X
(t) = P(X ≤ t). Por la definici´on de la funci´on de densidad
f
X
deducimos que
F
X
(t) =

t
−∞
f
X
(x)dx.
Por lo tanto, F
X
es una primitiva de f
X
, o equivalentemente, f
X
se puede calcular
como la derivada, en los puntos donde existe, de la funci´on de distribuci´on acumulada
t → F
X
(t).
50 Variable aleatoria I
b). Condiciones para que una funci´on f sea la funci´on de densidad de
una v.a continua X. Est´a claro que, para que una funci´on f sea la funci´on de
densidad de una v.a continua X, es necesario que se cumplan las dos condiciones:
1. f(x) ≥ 0, para todo x ∈ R,
2.

+∞
−∞
f(x)dx = 1.
Se puede demostrar que son tambi´en condiciones suficientes para que exista una v.a
X con funci´on de densidad igual a f.
III.4.2.4. Ejemplo
El tiempo de vida expresado en miles de horas de un dispositivo electr´onico
escogido al azar en la producci´on de una f´abrica es una v.a X. Despu´es de un
estudio, se opta por modelizar esta v.a como una v.a continua con una funci´on de
densidad dada por
f
X
(x) =

e
−x
si x > 0
0 en otro caso.
La representaci´on gr´afica de f
X
es
Notar que por la gr´afica de esta funci´on de densidad, comprobamos que la probabili-
dad de que X pertenezca a un intervalo de n´ umeros negativos, por ejemplo [−2, −3]
es nula (la densidad de probabilidad es nula en R

), o que es mucho menos probable
que un dispositivo dure entre 4000 y 5000 horas que dure entre 1000 y 2000h.
Si nos preguntamos precisamente cu´al es la proporci´on de dispositivos en la
producci´on que duran entre 1000 y 2000h, debemos calcular
P(1 ≤ X ≤ 2) =

2
1
f
X
(x)dx =

2
1
e
−x
dx = [−e
−x
]
2
1
· 0,235.
Seg´ un nuestro modelo, alrededor del 23 % de la producci´on tendr´a una duraci´on
entre 1000 y 2000 horas.
III.4.3. Medidas num´ericas asociadas a una v.a continua
De la misma manera que para distribuciones de variables en un conjunto de
datos, se pueden resumir algunas caracter´ısticas de las distribuciones de variables
asociadas a experimentos aleatorios.
III.4 Variable continua 51
III.4.3.1. Esperanza
Sea X una variable con densidad f, definimos la media de X, tambi´en llamada
esperanza o valor esperado, como
µ
X
= E[X] =

+∞
−∞
x f(x)dx.
Es una medida de centro de la distribuci´on si ´esta es relativamente sim´etrica, se
interpreta como el centro de gravedad de la distribuci´on, ver figura III.1. Otra vez
es coherente con la analog´ıa entre el peso y la probabilidad.
E[X]
E[X]
Figura III.1: La esperanza es el centro de gravedad
Tal como lo hicimos para una v.a discreta, es conveniente definir para una funci´on
g de X la esperanza de g(X):
E[g(X)] =

+∞
−∞
g(x)f
X
(x)dx.
III.4.3.2. Varianza - Desviaci´on t´ıpica
La varianza se define como el promedio de la distancia al cuadrado entre X y su
media:
σ
2
X
= var(X) = E[(X −µ
X
)
2
] =

+∞
−∞
(x −µ
X
)
2
f(x)dx.
Al desarrollar la integral, es f´acil obtener la f´ormula alternativa, m´as pr´actica para
el c´alculo:
σ
2
X
= E[X
2
] −(E[X])
2
=

+∞
−∞
x
2
f
X
(x)dx −(E[X])
2
.
52 Variable aleatoria I
y la desviaci´on t´ıpica es σ
X
=

σ
2
X
.
La desviaci´on t´ıpica mide la dispersi´on de la distribuci´on de los valores de X
respecto a su media.
III.4.3.3. Un ejemplo
Calculemos la duraci´on media y la desviaci´on t´ıpica en el ejemplo de la duraci´on
de los dispositivos electr´onicos de la secci´on III.4.2.4. Tenemos que
E[X] =

+∞
−∞
x f
X
(x)dx =

0
−∞
x f
X
(x)dx +

+∞
0
x f
X
(x)dx
= 0 +

+∞
0
x e
−x
dx
= 1,
hemos descompuesto la integral inicial seg´ un los intervalos de definici´on de f
X
, susti-
tuido la expresi´on de f
X
en las integrales resultantes, y calculado por partes la ´ ultima
integral que aparece. La duraci´on media de los dispositivos es por lo tanto de 1000h.
De la misma manera, calculamos la varianza de X:
var(X) = E[X
2
] −(E[X])
2
= 0 +

+∞
0
x
2
e
−x
dx −1 = 1.
III.4.4. Modelos m´as comunes de v.a continua
Algunas situaciones de modelizaci´on presentan rasgos comunes y se han estable-
cido modelos “est´andar” que resultan adecuados para distintos contextos.
III.4.4.1. Variable aleatoria uniforme
El modelo de v.a. continua m´as sencillo corresponde a la situaci´on en la que X
puede tomar cualquier valor entre dos n´ umeros a y b, sin que favorezca ninguna zona
del intervalo [a, b]. La probabilidad de que X est´e entre a y b ser´a igual a 1, mientras
que la probabilidad de que est´e en un subintervalo de [a, b] ser´a sencillamente pro-
porcional a su longitud. Intuitivamente, queremos que la funci´on de densidad de X
sea nula fuera de [a, b], y constante en el intervalo [a, b]. Para que el ´area total debajo
de la curva de densidad sea igual a 1, esta constante deber´a ser igual a 1/(b −a). La
funci´on de densidad ser´a por lo tanto dada por:
f
X
(x) =

1
(b−a)
si a ≤ x ≤ b,
0 en otro caso.
La representaci´on gr´afica de f
X
se encuentra en la figura III.2. Una v.a X que tenga
esta funci´on de densidad se llama una v.a uniforme entre a y b. Lo denotaremos por
X ∼ |([a, b]).
El comando“RANDOM”de varios lenguajes de programaci´on, que tambi´en aparece
en casi todas las calculadoras cient´ıficas, simula una variable uniforme entre 0 y 1.
¿Puede ser realmente una v.a uniforme?
III.4 Variable continua 53
Figura III.2: Densidad de una v.a uniforme
Por otra parte calculemos la esperanza y la varianza de una v.a X ∼ |([a, b]).
Antes de llevar a cabo los c´alculos, y examinando la gr´afica de la densidad de X,
¿cu´anto piensa que vale E[X]?.
E[X] =

+∞
−∞
x f
X
(x)dx = 0 +

b
a
x
1
b−a
dx + 0
=
b
2
−a
2
2

1
b−a
=
a+b
2
¿Corresponde con su intuici´on?. Se deja en ejercicio al lector comprobar que la
varianza de una v.a X ∼ |([a, b]) es
var(X) =
(b −a)
2
12
,
es decir que la desviaci´on t´ıpica es sencillamente proporcional a (b−a), otro resultado
natural, ¿no?
III.4.4.2. Modelo exponencial
a). Definici´on En el mismo contexto que para una v.a de Poisson (ocurrencias
de sucesos aleatorios en el tiempo), denotando por λ el n´ umero medio de ocurren-
cias por intervalo de tiempo, consideramos la v.a X que mide el tiempo entre dos
ocurrencias consecutivas del suceso, la distribuci´on de la v.a X se llama distribuci´on
exponencial de par´ametro λ y se denota por
X ∼ cxp(λ).
Dos ejemplos corresponden al tiempo entre dos emisiones consecutivas de una
part´ıcula por un material radioactivo, o entre dos llegadas de clientes en una cola.
54 Variable aleatoria I
b). Propiedades
La funci´on de densidad de una v.a X ∼ cxp(λ) es
f
X
(x) =

λe
−λx
si x > 0
0 en otro caso.
Su gr´afica es parecida a la del ejemplo de la secci´on III.4.2.4. De hecho, resulta
que la densidad de este ejemplo es la densidad de una distribuci´on exponencial
de par´ametro λ.
Funci´on de distribuci´on acumulada. Para todo t,
F
X
(t) =

t
−∞
f
X
(x)dx.
Deducimos que, si t < 0, F
X
(t) es nula, mientras que, si t ≥ 0,
F
X
(t) = 0 +

t
0
λe
−λx
dx = 1 −e
−λt
.
En particular, tenemos que P(X > t) = e
−λt
.
Esperanza y varianza. Demostramos de la misma manera que para el ejemplo
de la secci´on III.4.2.4, utilizando la integraci´on por partes que
E[X] = 1/λ, var(X) = 1/λ
2
.
Propiedad de falta de memoria de la distribuci´on exponencial. La distribuci´on
exponencial tiene una propiedad particular: “olvida su pasado”... M´as concre-
tamente, supongamos que X ∼ cxp(λ) y modeliza el tiempo entre dos llegadas
sucesivas de clientes en una cola. Llega un cliente, y espero hasta que llegue el
siguiente cliente... Han pasado tres minutos y no ha llegado, la probabilidad de
que tenga que esperar por lo menos otro minuto m´as (es decir que el tiempo
transcurrido entre las dos llegadas sea mayor que cuatro minutos) es la misma
que la probabilidad de que X sea mayor que 1 minuto: ¡el hecho de saber que
ya he esperado 3 minutos no cambia la probabilidad de que todav´ıa tenga que
esperar otro minuto m´as! Es decir, para todos t
1
> 0, t
2
> 0,
P(X > t
1
+t
2
[X > t
1
) = P(X > t
2
).
Demostraci´on: Por la definici´on de la probabilidad condicionada,
P(X > t
1
+t
2
[X > t
1
) =
P((X > t
1
+t
2
) ∩ (X > t
1
))
P(X > t
1
)
.
Por otra parte, puesto que el suceso (X > t
1
+ t
2
) est´a incluido en el suceso
(X > t
1
), el denominador es sencillamente P(X > t
1
+ t
2
). Pero al calcular
un poco m´as arriba la funci´on de distribuci´on acumulada de una distribuci´on
exponencial, hemos notado que P(X > t) = e
−λt
. Por lo tanto
P(X > t
1
+t
2
[X > t
1
) =
e
−λ(t
1
+t
2
)
e
−λt
1
= e
−λt
2
= P(X > t
2
).

III.4 Variable continua 55
III.4.4.3. La distribuci´on Normal
a). Definici´on Sea µ un n´ umero real y σ
2
un n´ umero real positivo, la v.a X
sigue una distribuci´on Normal de par´ametros µ y σ
2
si su densidad es
f(x) =
1

2πσ
2
e

(x−µ)
2

2
,
cuya representaci´on gr´afica es la famosa “campana de Gauss”, ver Figura III.3.
Figura III.3: Densidad Normal
Si X sigue una distribuci´on Normal de par´ametros µ y σ
2
, escribiremos X ∼
A(µ, σ
2
).
La distribuci´on Normal es, sin dudas, la distribuci´on m´as utilizada en situaciones
pr´acticas: aparece en la inmensa mayor´ıa de los procedimientos estad´ısticos que
se llevan a cabo de manera rutinaria (control de calidad, mediciones, etc...) En
particular, est´a t´ıpicamente presente cuando se modeliza los valores proporcionados
por un aparato de medici´on. De hecho, si consideramos los datos de las mediciones
de la luz por S. Newcomb que estudiamos en el Tema 1, ver secci´on I.3.2.1, podemos
comprobar que las frecuencias de aparici´on de los datos experimentales se ajustan
bastante bien a un modelo Normal. En la figura III.4, se ha ajustado una curva
Normal al histograma de los datos recogidos por Newcomb, despu´es de omitir los
dos datos at´ıpicos −44 y −2. Para ello, hemos fijado el valor de µ y σ
2
bas´andonos
en el centro y la dispersi´on de la distribuci´on de los datos experimentales.
b). Propiedades
La curva de la densidad Normal es sim´etrica respecto al eje vertical x = µ. En
particular deducimos que P(X ≥ µ) = P(X ≤ µ) = 1/2.
La curva de la densidad Normal nunca se cruza con el eje Ox.
56 Variable aleatoria I
Histograma, mediciones de Newcomb
Mediciones
F
r
e
c
u
e
n
c
i
a
s
−40 −20 0 20 40
0
.
0
0
0
.
0
2
0
.
0
4
0
.
0
6
0
.
0
8
Figura III.4: Ajuste de una densidad Normal al histograma de Newcomb
Esperanza y varianza: Es posible comprobar que, si X ∼ A(µ, σ
2
),
E[X] = µ, var(X) = σ
2
.
Funci´on de distribuci´on acumulada. La funci´on f
X
no admite primitiva en
una forma cerrada, y por lo tanto no hay expresi´on simple para calcular la
probabilidad de que una variable Normal pertenezca a un intervalo dado, o en
general para su funci´on de distribuci´on. Se debe por lo tanto recurrir por lo
tanto a aproximaciones num´ericas de la integral

b
a
1

2πσ
2
e

(x−µ)
2

2
dx,
para obtener P(a < X ≤ b). Los programas inform´aticos de an´alisis de datos
como R disponen de algoritmos que permitan calcular para cualquier t la prob-
abilidad P(X ≤ t). Tambi´en existen calculadoras estad´ısticas.
A pesar de que no exista una expresi´on simple para las probabilidades asociadas
a una distribuci´on Normal, es muy ´ util conocer la regla siguiente: si X es una
Normal A(µ, σ
2
), tenemos
P(µ −σ ≤ X ≤ µ +σ) · 0,68
P(µ −2σ ≤ X ≤ µ + 2σ) · 0,95
P(µ −3σ ≤ X ≤ µ + 3σ) · 0,997,
lo que queda reflejado en la figura III.5: el 68 % del ´area debajo de la curva
Normal est´a comprendida entre µ −σ y µ +σ, el 95 % entre µ −2σ y µ + 2σ,
y el 99.7 % entre µ −3σ y µ + 3σ.
III.4 Variable continua 57
µ
68%
µ − σ µ + σ
95%
µ − 2σ µ + 2σ
99.7%
µ − 3σ µ + 3σ
Figura III.5: Regla del 68 % - 95 % - 99.7 %
c). ¿C´omo calcular probabilidades asociadas a una distribuci´on Normal
(i) Para una distribuci´on Z ∼ A(0, 1).
La distribuci´on Normal con par´ametros µ = 0 y σ
2
= 1 se llama distribuci´on
Normal est´andar. Su funci´on de distribuci´on acumulada se denota por φ y los
valores de φ est´an tabulados. La tabla para valores de φ est´a incluida en el
ap´endice de este tema.
Notar que en la tabla s´olo aparece valores de φ(t) para valores positivos de
t. Para deducir φ(t) para valores negativos de t, utilizamos la simetr´ıa de la
distribuci´on normal que implica que, para todo t,
φ(−t) = 1 −φ(t).
Comprobar con la tabla que sabeis calcular las probabilidades siguientes:
P(Z ≤ 2,68) · 0,9963 P(Z ≤ 1,12) · 0,8686 P(Z ≤ −0,9) · 0,1841
P(1,1 ≤ Z ≤ 1,3) · 0,04 P(−0,9 ≤ Z ≤ −0,5) · 0,13 P(−1 ≤ Z ≤ 1) · 0,68
(ii) Para una distribuci´on X ∼ A(µ, σ
2
).
El c´alculo de probabilidades para una distribuci´on Normal con par´ametros µ
y σ
2
se basa en la siguiente propiedad que no demostraremos:
Propiedad: Si X ∼ A(µ, σ
2
), la variable
Z =
X −µ
σ
sigue una distribuci´on Normal con media 0 y varianza 1.
Pasar de X ∼ A(µ, σ
2
) a Z =
X−µ
σ
∼ A(0, 1) se llama tipificar la variable X,
y la variable Z se llama la v.a X tipificada.
58 Variable aleatoria I
Para calcular una probabilidad relacionada con X, reescribiremos el suceso de
inter´es, tipificando la v.a.
Supongamos por ejemplo que X ∼ A(µ = 1, σ
2
= 0,25). Tenemos
P(X ≤ 1,25) = P(
X −µ
σ

1,25 −µ
σ
) = P(Z ≤
1,25 −1
0,5
) = P(Z ≤ 0,5) · 0,69.
y
P(0,5 ≤ X ≤ 1,5) = P(
0,5 −µ
σ

X −µ
σ

1,5 −µ
σ
) = P(
0,5−1
0,5
≤ Z ≤
1,5−1
0,5
)
= P(−1 ≤ Z ≤ 1) · 0,68.
III.4.4.4. Aproximaci´on de una distribuci´on Binomial por una distribu-
ci´on Normal
En el caso en que s´olo disponemos de una calculadora sencilla, el c´alculo de
probabilidades asociadas a una distribuci´on Binomial X puede resultar laborioso si
´estas requieren evaluar la funci´on puntual de X en muchos valores. Por ejemplo,
supongamos que X ∼ B(100, 0,1), el c´alculo de P(X ≥ 15) implica que calculemos
86 probabilidades individuales (P(X = 16), P(X = 17), . . . , P(X = 100)) o pasando
al suceso complementario 15 probabilidades, que siguen siendo muchos c´alculos...
Para algunas combinaciones de valores de n y p, resulta que la distribuci´on
Binomial se puede aproximar de manera satisfactoria por una distribuci´on normal,
es decir que para calcular la probabilidad de un suceso relacionado con una v.a
Binomial X ∼ B(n, p), podremos hacer como si X tuviera una distribuci´on normal.
Propiedad. Consideramos una v.a X ∼ B(n, p). Si n p ≥ 5 y n(1 − p) ≥ 5, se
puede aproximar de manera satisfactoria la distribuci´on de X por la distribuci´on de
W ∼ A(µ, σ), con µ = n p y σ = n p(1 −p), con la f´ormula
para todo x, P(X ≤ x) · P(W ≤ x + 0,5).
El t´ermino “+0.5” que aparece en el t´ermino de la derecha de la f´ormula corresponde
a la llamada “correcci´on por continuidad”: aproximamos la distribuci´on de una v.a
discreta, X, que s´olo puede tomar valores enteros por una v.a continua W que puede
tomar cualquier valor real. Para conseguir una equivalencia, podemos considerar que
un valor entero x para la v.a. Binomial X corresponde al intervalo ]x −0,5, x + 0,5]
para la v.a Normal W, tal como est´a ilustrado en la Figura III.6, para unos pocos
valores de X.
Figura III.6: Aproximaci´on de una distribuci´on Binomial por una distribuci´on Nor-
mal
III.5 Algunas propiedades ´ utiles de la esperanza y la varianza 59
En particular deducimos de esta figura que aproximaremos las probabilidades
relacionadas con X de la manera siguiente:
P(X = 15) · P(14,5 < W ≤ 15,5)
P(X > 15) · P(W ≥ 15,5)
P(X ≥ 15) · P(W ≥ 14,5)
P(X ≤ 16) · P(W ≤ 16,5)
P(X < 16) · P(W ≤ 15,5)
P(13 ≤ X < 15) · P(12,5 ≤ W ≤ 14,5)
III.5. Algunas propiedades ´ utiles de la esperanza y la
varianza
Acabamos el cap´ıtulo con una secci´on “caj´on de sastre” en la que mencionamos
algunos resultados sobre esperanza y varianza.
Sean a y b dos n´ umeros reales, y X una variable aleatoria. No es dif´ıcil demostrar,
utilizando las definiciones de esperanza y varianza tanto para v.a discreta como para
v.a continua que se cumplen las siguientes propiedades:
E[aX +b] = aE[X] +b
var(aX +b) = a
2
var(X)
σ
aX+b
= [a[σ
X
Intuitivamente son resultados naturales: si multiplico todos los valores de una v.a
por a y traslado el resultado de b unidades, el centro de gravedad de los datos (la
esperanza) se multiplica por a y se traslada de b unidades, mientras que la dispersi´on
(la desviaci´on t´ıpica) s´olo se multiplica por [a[, puesto que la traslaci´on de los datos
no cambia su dispersi´on.
Finalizamos con un ´ ultimo resultado asociado a la varianza de una variable: la
desigualdad de Chebichev:
Propiedad:Sea cual sea la distribuci´on de X, si conocemos el valor de la varianza
de X, tenemos la siguiente cota para la probabilidad de que X est´e en un intervalo
centrado en su media µ
X
:
Para cualquier a > 0, P([X −µ
X
[ ≤ a) ≥ 1 −
V ar(X)
a
2
.
Deducimos tambi´en una cota para el suceso complementario:
Para cualquier a > 0, P([X −µ
X
[ ≥ a) ≤
V ar(X)
a
2
.
La primera desigualdad se interpreta de la manera siguiente: sabemos que una
proporci´on de los datos de al menos V ar(X)/a
2
se encuentra en el intervalo µ
X
±a,
mientras que la segunda desiguald se lee: una proporci´on de los datos de como mucho
V ar(X)/a
2
se encuentra fuera del intervalo µ
X
±a.
60 Variable aleatoria I
Distribuci´on Normal:
P(Z ≤ t) = φ(t) =

t
−∞
1


e
−x
2
2
dx
t P(Z ≤ t) t P(Z ≤ t) t P(Z ≤ t) t P(Z ≤ t)
0.00 0.5000 0.80 0.7881 1.60 0.9452 2.40 0.9918
0.02 0.5080 0.82 0.7939 1.62 0.9474 2.42 0.9922
0.04 0.5160 0.84 0.7995 1.64 0.9495 2.44 0.9927
0.06 0.5239 0.86 0.8051 1.66 0.9515 2.46 0.9931
0.08 0.5319 0.88 0.8106 1.68 0.9535 2.48 0.9934
0.10 0.5398 0.90 0.8159 1.70 0.9554 2.50 0.9938
0.12 0.5478 0.92 0.8212 1.72 0.9573 2.52 0.9941
0.14 0.5557 0.94 0.8264 1.74 0.9591 2.54 0.9945
0.16 0.5636 0.96 0.8315 1.76 0.9608 2.56 0.9948
0.18 0.5714 0.98 0.8365 1.78 0.9625 2.58 0.9951
0.20 0.5793 1.00 0.8413 1.80 0.9641 2.60 0.9953
0.22 0.5871 1.02 0.8461 1.82 0.9656 2.62 0.9956
0.24 0.5948 1.04 0.8508 1.84 0.9671 2.64 0.9959
0.26 0.6026 1.06 0.8554 1.86 0.9686 2.66 0.9961
0.28 0.6103 1.08 0.8599 1.88 0.9699 2.68 0.9963
0.30 0.6179 1.10 0.8643 1.90 0.9713 2.70 0.9965
0.32 0.6255 1.12 0.8686 1.92 0.9726 2.72 0.9967
0.34 0.6331 1.14 0.8729 1.94 0.9738 2.74 0.9969
0.36 0.6406 1.16 0.8770 1.96 0.9750 2.76 0.9971
0.38 0.6480 1.18 0.8810 1.98 0.9761 2.78 0.9973
0.40 0.6554 1.20 0.8849 2.00 0.9772 2.80 0.9974
0.42 0.6628 1.22 0.8888 2.02 0.9783 2.82 0.9976
0.44 0.6700 1.24 0.8925 2.04 0.9793 2.84 0.9977
0.46 0.6772 1.26 0.8962 2.06 0.9803 2.86 0.9979
0.48 0.6844 1.28 0.8997 2.08 0.9812 2.88 0.9980
0.50 0.6915 1.30 0.9032 2.10 0.9821 2.90 0.9981
0.52 0.6985 1.32 0.9066 2.12 0.9830 2.92 0.9982
0.54 0.7054 1.34 0.9099 2.14 0.9838 2.94 0.9984
0.56 0.7123 1.36 0.9131 2.16 0.9846 2.96 0.9985
0.58 0.7190 1.38 0.9162 2.18 0.9854 2.98 0.9986
0.60 0.7257 1.40 0.9192 2.20 0.9861 3.00 0.9987
0.62 0.7324 1.42 0.9222 2.22 0.9868 3.10 0.9990
0.64 0.7389 1.44 0.9251 2.24 0.9875 3.20 0.9993
0.66 0.7454 1.46 0.9279 2.26 0.9881 3.30 0.9995
0.68 0.7517 1.48 0.9306 2.28 0.9887 3.40 0.9997
0.70 0.7580 1.50 0.9332 2.30 0.9893 3.50 0.9998
0.72 0.7642 1.52 0.9357 2.32 0.9898 3.60 0.9998
0.74 0.7704 1.54 0.9382 2.34 0.9904 3.80 0.9999
0.76 0.7764 1.56 0.9406 2.36 0.9909 4.00 1.0000
0.78 0.7823 1.58 0.9429 2.38 0.9913 4.50 1.0000
TEMA IV
Variable Aleatoria II
IV.1. Introducci´ on
Es frecuente que haya m´as de una variable aleatoria de inter´es asociada a un
experimento aleatorio. Supongamos por ejemplo que consideramos n variables X
1
,
X
2
, . . . X
n
, formaremos el vector aleatorio X = (X
1
, X
2
, . . . , X
n
). Diremos que X
es una variable aleatoria multidimensional. Para el caso particular en que n = 2,
hablaremos de variable aleatoria bidimensional.
Describir la distribuci´on de una v.a. multidimensional consiste en asignar una
probabilidad a sucesos conjuntos, es decir sucesos que involucren X
1
, X
2
, . . ., X
n
.
En este caso hablamos de distribuci´on conjunta de (X, Y ), mientras que si con-
sideramos las distribuciones de X e Y por separadas, hablamos de distribuciones
marginales de X y de Y respectivamente.
Un ejemplo de suceso asociado a la distribuci´on conjunta de X e Y es (X+Y > 3)
o (X = 1 ∩ Y > 2) mientras que el suceso (X > 5) y el suceso (Y = 4) hacen
referencia a las distribuciones marginales de X y de Y respectivamente.
En este tema nos centraremos sobre todo en el caso de una variable bidimensional.
IV.2. Variable bidimensional discreta
Si tanto X como Y son variables discretas, basta con describir la probabilidad
de los sucesos (X = x) ∩(Y = y). Lo realizaremos a trav´es de la funci´on puntual de
probabilidad conjunta de X e Y :
62 Mathieu Kessler: M´etodos Estad´ısticos
IV.2.1. Funci´on puntual de probabilidad conjunta
IV.2.1.1. Definici´on
La funci´on puntual de probabilidad conjunta de (X, Y ) asocia a cualquier par de
valores (x, y) la probabilidad del suceso ((X = x) ∩ (Y = y)). La denotamos
f
XY
(x, y) = P((X = x) ∩ (Y = y)) .
Los valores que toma una funci´on puntual de probabilidad conjunta se pueden
presentar en una tabla:
X Y
120 130 140 150
0 0.03 0.1 0.15 0.2
1 0.05 0.06 0.1 0.1
2 0.21 0 0 0
Deducimos en particular de esta tabla que la probabilidad que X tome el valor
0 y a la vez Y tome el valor 140 es igual a 140.
IV.2.1.2. Propiedad
Para que una funci´on f : (x, y) → f(x, y) sea la funci´on puntual de probabilidad
conjunta de una variable bidimensional discreta (X, Y ) es necesario y suficiente que
cumpla
1. f
XY
(x
i
, y
j
) ≥ 0, ∀x
i
, y
j
.
2.
¸
x
i
¸
y
j
f
XY
(x
i
, y
j
) = 1.
IV.2.1.3. Relaci´on entre funciones puntuales de probabilidad conjunta
y marginales
Si conocemos la distribuci´on conjunta de (X, Y ) a trav´es de una tabla como
la descrita en el apartado IV.2.1.1, podemos calcular la distribuci´on de X o de Y
por separado: ´estas se llaman las distribuciones marginales. En efecto, para calcular
P(X = 0) por ejemplo, basta con utilizar
P(X = 0) = P(X = 0 ∩ Y = 120) +P(X = 0 ∩ Y = 130)
+P(X = 0 ∩ Y = 140) +P(X = 0 ∩ Y = 150) = 0,48.
Tenemos por lo tanto las relaciones siguientes:
∀x
i
, f
X
(x
i
) =
¸
y
j
f
XY
(x
i
, y
j
),
∀y
j
, f
Y
(y
j
) =
¸
x
i
f
XY
(x
i
, y
j
).
Se suele representar en la misma tabla de la f.p.p. conjunta de la manera siguiente:
IV.3 Variable bidimensional continua 63
X Y f
X
120 130 140 150
0 0.03 0.1 0.15 0.2 0.48
1 0.05 0.06 0.1 0.1 0.31
2 0.21 0 0 0 0.21
f
Y
0.29 0.16 0.25 0.3
IV.2.2. Esperanza
Sea g : (x, y) → g(x, y) una funci´on de dos variables que toma sus valores en R.
Definimos la esperanza ( o media, o valor esperado, o valor promedio) de g(X, Y )
como
E[g(X, Y )] =
¸
x
i
¸
y
j
g(x
i
, y
j
)P(X = x
i
∩ Y = y
j
)
=
¸
x
i
¸
y
j
g(x
i
, y
j
)f
XY
(x
i
, y
j
).
IV.3. Variable bidimensional continua
Consideramos ahora el par (X, Y ) donde X e Y son ambas v.a continuas. Para
describir la distribuci´on conjunta de (X, Y ), introducimos la funci´on de densidad
conjunta.
IV.3.1. Funci´on de densidad conjunta
IV.3.1.1. Definici´on.
La funci´ on de densidad conjunta de (X, Y ) es una funci´on f
XY
que permite
calcular la probabilidad de cualquier suceso de la forma (a ≤ X ≤ b) ∩ (c ≤ Y ≤ d)
a trav´es de la f´ormula:
P((a ≤ X ≤ b) ∩ (c ≤ Y ≤ d)) =

x∈[a,b]

y∈[c,d]
f
XY
(x, y)dxdy.
IV.3.1.2. Ejemplo
Consideremos un experimento que consista en producir dos componentes de dos
tipos, y denotamos por X e Y el tiempo de vida en miles de horas del primer
y segundo componente respectivamente. Modelizamos su distribuci´on conjunta a
trav´es de la funci´on de densidad siguiente
f
XY
(x, y) =

2e
−x
e
−2y
si x > 0 y y > 0,
0 en otro caso.
64 Mathieu Kessler: M´etodos Estad´ısticos
Para calcular la probabilidad de que ambos componentes duren menos de 1000
horas, por ejemplo,
P((X < 1) ∩ (Y ≤ 1)) =

1
−∞

1
−∞
f
XY
(x, y)dxdy
=

1
0

1
0
2e
−x
e
−2y
dxdy = (1 −e
−1
)(1 −e
−2
) · 0,54.
IV.3.1.3. Propiedades
Para que una funci´on f : (x, y) → f(x, y) con valores en R sea la funci´on de
densidad conjunta de una v.a bidimensional continua, es necesario y suficiente que
cumpla
1. f(x, y) ≥ 0, ∀x, y,
2.

+∞
−∞

+∞
−∞
f(x, y)dxdy = 1.
IV.3.1.4. Relaci´on entre funciones de densidad conjunta y marginales
Al igual que para una v.a discreta, se puede obtener de la funci´on de densidad
conjunta las funciones marginales, pero ahora en lugar de sumar, debemos integrar
respecto de la otra variable.
Tenemos por lo tanto las relaciones siguientes:
∀x, f
X
(x) =

+∞
−∞
f
XY
(x, y)dy,
∀y, f
Y
(y) =

+∞
−∞
f
XY
(x, y)dx.
Calculemos para ilustrar estas f´ormulas las densidades marginales de X y de Y
para el ejemplo del apartado IV.3.1.2. La funci´on de densidad conjunta es
f
XY
(x, y) =

2e
−x
e
−2y
si x > 0 y y > 0,
0 en otro caso.
Deducimos la densidad marginal de X:
∀x, f
X
(x) =

+∞
−∞
f
XY
(x, y)dy.
Si x ≤ 0, f
XY
(x, y) = 0 para todo y, y por lo tanto f
X
(x) = 0 tambi´en.
Si x > 0,
f
X
(x) =

+∞
0
2e
−x
e
−2y
dy = e
−x

−e
−2x

+∞
0
= e
−x
.
IV.4 Distribuciones condicionadas 65
IV.3.2. Esperanza
Al disponer de una funci´on de densidad conjunta f
XY
para la v.a. bidimensional
(X, Y ), podemos calcular el valor esperado de una funci´on de las dos variables X e
Y : Definici´on. Sea una funci´on g : R
2
→R, la esperanza de g(X, Y ) se define como
E[g(X, Y )] =

+∞
−∞

+∞
−∞
g(x, y)f
XY
(x, y)dxdy.
En particular podemos calcular por ejemplo la esperanza de la suma de dos variables:
E[X +Y ] =

+∞
−∞

+∞
−∞
(x +y)f
XY
(x, y)dxdy
=

+∞
−∞

+∞
−∞
xf
XY
(x, y)dxdy +

+∞
−∞

+∞
−∞
y f
XY
(x, y)dxdy
=

+∞
−∞
x

+∞
−∞
f
XY
(x, y)dy

dx +

+∞
−∞
y

+∞
−∞
f
XY
(x, y)dx

dy
=

+∞
−∞
xf
X
(x)dx +

+∞
−∞
yf
Y
(y)dy = E[X] +E[Y ],
donde hemos utilizado para el ´ ultimo paso la relaci´on entre funciones de densidades
marginales y conjunta del apartado IV.3.1.4. Hemos por lo tanto demostrado una
relaci´on por otra parte muy intuitiva: la media de la suma de dos variables aleatorias
es la suma de las dos medias...
IV.4. Distribuciones condicionadas
Consideremos un experimento al que va asociada una v.a bidimensional (X, Y ).
Por alg´ un motivo, al realizar el experimento, s´olo observamos el valor de Y y no
´el de X. ¿Qu´e informaci´on puedo deducir, bas´andome en el valor de Y , sobre la
distribuci´on de los posibles valores de X?
Un contexto t´ıpico en ingenier´ıa en la que se da esta situaci´on es el siguiente: me
interesa un se˜ nal X
1
, X
2
, . . . , X
n
, pero no puedo observar directamente los valores de
X sino a trav´es de un aparato de medici´on que induce una perturbaci´on aleatoria,
que denotaremos por ε. Como resultado observo
Y
1
= X
1

1
,
.
.
.
.
.
.
.
.
.
Y
n
= X
n

n
.
Disponiendo de los valores de Y
1
, . . . , Y
n
, persigo deducir la distribuci´on de X
1
, . . . , X
n
condicionada a Y
1
, . . . , Y
n
. Obtener esta distribuci´on condicionada se llama realizar
el filtrado de la se˜ nal Y
1
, . . . , Y
n
. De los filtros basados en modelos probabil´ısticos,
el m´as usado en pr´actica se llama el filtro de Kalman.
IV.4.1. V.a bidimensional discreta
Sea (X, Y ) una v.a. bidimensional discreta.
66 Mathieu Kessler: M´etodos Estad´ısticos
IV.4.1.1. Definici´on de la funci´on puntual de probabilidad condicionada
Sea y un valor de Y tal que P(Y = y) > 0, la funci´on puntual de probabilidad
de X condicionada a Y = y asocia a cada valor posible x de X la probabilidad del
suceso X = x condicionada a (X = x).
f
X|Y =y
(x) = P(X = x[Y = y) =
f
XY
(x, y)
f
Y
(y)
.
Para ilustrar este concepto, calculemos para el ejemplo de v.a bidimensional
introducido anteriormente la funci´on puntual de probabilidad de X condicionada a
Y = 130. Recordemos que la tabla de las f.p.p conjunta y marginales de (X, Y ) era
X Y f
X
120 130 140 150
0 0.03 0.1 0.15 0.2 0.48
1 0.05 0.06 0.1 0.1 0.31
2 0.21 0 0 0 0.21
f
Y
0.29 0.16 0.25 0.3
Por lo tanto f
X|Y =130
toma los valores:
Valores posibles de X 0 1 2
f
X|Y =130
0,1/0,16 = 0,625 0,06/0,16 = 0,375 0/0,16 = 0
IV.4.2. Para una v.a bidimensional continua
Consideramos ahora una v.a. bidimensional continua (X, Y ).
IV.4.2.1. Definici´on
Sea (X, Y ) una v.a continua con densidad conjunta f
XY
. Consideramos un valor
y para el cual f
Y
(y) > 0. La funci´on de densidad de X condicionada a Y = y est´a
definida por
f
X|Y =y
(x) =
f
XY
(x, y)
f
Y
(y)
.
Nota: la densidad de Y condicionada a X se obtiene intercambiando los papeles de
X e Y en la f´ormula anterior.
IV.4.2.2. Ejemplo
Consideremos el ejemplo de la subsecci´on IV.3.1.2. Calculemos, para un valor
y > 0 gen´erico, la funci´on de densidad de X condicionada a Y = y. Obtuvimos que
la densidad marginal de Y , si y > 0 es f
Y
(y)2e
−2y
. Deducimos que la densidad que
buscamos es
f
X|Y =y
(x) =

2e
−x
e
−2y
2e
−2y
= e
−x
si x > 0,
0 en otro caso.
Observamos que, en este caso, coincide con la densidad marginal de X.
IV.5 Variables independientes 67
IV.4.3. Esperanza condicionada
Es f´acil comprobar que, para un valor y tal que f
Y
(y) > 0, x → f
X|Y =y
(x)
cumple con los dos requisitos (ver secciones III.3.2.2 y b)) que permiten deducir
que se trata de una funci´on de densidad (caso continuo) o puntual de probabilidad
(caso discreto). Por ello, hablamos de distribuci´on de X condicionada a Y = y,
aunque s´olo podemos interpretar las probabilidades asociadas como probabilidades
condicionadas en el caso de una v.a discreta.
Tambi´en podemos por lo tanto definir la esperanza condicionada de una funci´on
g(X) dado Y = y.
Definici´on IV.4.1 Sea una funci´on g : R →R, la esperanza condicionada de g(X)
dado Y = y se define como
Si (X, Y ) es una v.a. discreta
E[g(X)[Y = y] =
¸
x
g(x)f
X|Y =y
(x).
Si (X, Y ) es una v.a continua
E[g(X)[Y = y] =

+∞
−∞
g(x)f
X|Y =y
(x)dx.
La noci´on de esperanza condicionada permite en particular obtener res´ umenes de
las caracter´ısticas principales de la distribuci´on condicionada de X dado Y = y. Si
consideramos el problema de predecir el valor de X dado que hemos observado el
valor y para Y , se puede demostrar que la esperanza condicionada de X dado Y = y
es el mejor predictor posible en el sentido siguiente:
Llamamos predictor a cualquier funci´on de Y , h(Y ) dise˜ nada para aproximar el
valor de X que no hemos observado. Denotamos, para todo y, por h

(y) la esperanza
condicionada E[X[Y = y]. Consideramos la funci´on de Y , h

(Y ), se trata de un
predictor de X. Se puede probar que para cualquier predictor h(Y ) de X se cumple
E[(X −h(Y ))
2
] ≥ E[(X −h

(Y ))
2
],
es decir que el error cuadr´atico medio que se comete al predecir X por h

(Y ) es el
menor de los errores posibles.
IV.5. Variables independientes
En el tema 2 hemos definido el concepto de sucesos independientes. Introducimos
ahora el concepto de variables aleatorias independientes:
IV.5.1. Definici´on
Definici´on IV.5.1 Dos variables X e Y son independientes si se cumple
para todo x e y, f
XY
(x, y) = f
X
(x)f
Y
(y).
Las funciones f
XY
, f
X
y f
Y
se refieren a funciones de densidad o funciones pun-
tuales de probabilidad seg´ un si la v.a. (X, Y ) es continua o discreta respectivamente.
68 Mathieu Kessler: M´etodos Estad´ısticos
Deducimos en particular que, si X e Y son independientes, la distribuci´on condi-
cionada de X (resp. Y ) no depende del valor de Y (resp. X): el hecho de conocer
el valor de una de las variables no proporciona informaci´on sobre la distribuci´on
de valores de la otra. En particular, deducimos que si X e Y son independientes,
podemos describir completamente su distribuci´on conjunta si conocemos sus dos
distribuciones marginales.
En el ejemplo de la v.a discreta de la secci´on IV.2.1.1, notamos que f
XY
(0, 120) =
0,03 = f
X
(0)f
Y
(120). Por lo tanto X e Y no son independientes. En cambio, es f´acil
comprobar para el ejemplo de v.a continua de la secci´on IV.3.1.2, que se cumple que,
para todo x e y, f
XY
(x, y) = f
X
(x)f
Y
(y): en este caso, las variables X e Y s´ı son
independientes.
IV.5.2. Consecuencias pr´acticas
Si X e Y son independientes, es f´acil comprobar que cualquier suceso asociado
con X es independiente de cualquier suceso asociado con Y . Es decir que
P(a ≤ X ≤ b) ∩ (c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d).
Si X e Y son independientes, se puede calcular de manera sencilla la esperanza
de una funci´on de X y de una funci´on de Y :
E[g(X)h(Y )] = E[g(X)]E[h(Y )].
La noci´on de variables independientes se generaliza a m´as de dos variables de man-
era natural: X
1
, X
2
, . . ., X
n
son v.a independientes si los sucesos asociados son
independientes.
IV.6. Medidas num´ericas para una v.a bidimensional
Al disponer de un modelo para la distribuci´on conjunta de X e Y , es ´ util poder
recurrir a alguna medida num´erica que nos permita por ejemplo cuantificar el grado
de asociaci´on entre las dos variables.
IV.6.1. Definiciones
IV.6.1.1. Covarianza
La covarianza de X e Y se define como
cov(X, Y ) = E[(X −E[X])(Y −E[Y ])].
Utilizando la definici´on de la esperanza de una funci´on de X e Y en el caso discreto
y en el caso continuo, obtenemos la f´ormula equivalente para la covarianza
cov(X, Y ) = E[XY ] −E[X]E[Y ].
Notar que el c´alculo de cov(X, Y ) se realiza por lo tanto de la manera siguiente
IV.6 Medidas num´ericas para una v.a bidimensional 69
(X, Y ) v.a discreta:
cov(X, Y ) =
¸
x
¸
y
xyf
XY
(x, y) −E[X]E[Y ],
donde los sumatorios se realizan sobre los valores posibles de X e Y .
(X, Y ) es una v.a. continua:
cov(X, Y ) =

+∞
−∞

+∞
−∞
xyf
XY
(x, y)dxdy −E[X]E[Y ].
Notar tambi´en que la covarianza de una variable X consigo mismo es igual a la
varianza de X: cov(X, X) = σ
2
X
.
IV.6.1.2. Correlaci´on
La correlaci´on de X e Y se define como
ρ
XY
=
cov(X, Y )
σ
X
σ
Y
.
La correlaci´on de X e Y corresponde por lo tanto a la covarianza de las versiones
tipificadas de X e Y . En particular la correlaci´on de una variable X consigo mismo
es igual a 1.
IV.6.1.3. Ejemplo para una v.a. (X, Y ) discreta
Volvamos al ejemplo de la secci´on IV.2.1.1, su funci´on puntual de probabilidad
es
X Y f
X
120 130 140 150
0 0.03 0.1 0.15 0.2 0.48
1 0.05 0.06 0.1 0.1 0.31
2 0.21 0 0 0 0.21
f
Y
0.29 0.16 0.25 0.3
Para calcular la covarianza de X e Y necesitamos por una parte E[X] y E[Y ] y por
otra parte E[XY ]. Obtenemos utilizando las distribuciones marginales de X e Y :
E[X] = 0 0,48 + 1 0,31 + 2 0,21 = 0,73
E[Y ] = 120 0,29 + 130 0,16 + 140 0,25 + 150 0,3 = 135,6
Nos queda calcular E[XY ].
E[XY ] = 0 120 0,03 + 0 130 0,1 + 0 140 0,15 + 0 150 0,2
+ 1 120 0,05 + 1 130 0,06 + 1 140 0,1 + 1 150 0,1
+ 2 120 0,21 + 2 130 0 + 2 140 0 + 2 150 0
= 93,2
70 Mathieu Kessler: M´etodos Estad´ısticos
Deducimos que cov(X, Y ) = 93,2 −0,73 135,6 = −5,78. Para calcular la correlaci´on
de X e Y nos hacen falta adem´as las desviaciones t´ıpicas de X e Y . Se comprueba
que σ
2
X
= 0,617 mientras que σ
2
Y
= 142,64. Por lo tanto
ρ
XY
=
−5, 78

0,617

142,64
= −0,62.
IV.6.1.4. Matriz de covarianzas y matriz de correlaci´on
En el caso en que consideramos varias variables aleatorias X
1
, X
2
, . . . , X
n
, pode-
mos calcular las covarianzas y las correlaciones de cada par posible de variables, se
suele presentar los resultados en forma de una matriz: la matriz de covarianzas de
X
1
, . . . , X
n
es la matriz n n,Σ cuyo elemento Σ
ij
es igual a la covarianza de X
i
y
X
j
, mientras que la matriz de correlaciones de X
1
, . . . , X
n
es la matriz n n, Corr
cuyo elemento Corr
ij
es igual a la correlaci´on de X
i
y X
j
.
IV.6.2. Propiedades
1. Se puede demostrar (ver problema n´ umero 14 de la hoja de problemas de este
tema) que
[cov(X, Y )[ ≤ σ
X
σ
Y
,
es decir que, para dos variables cualesquiera X e Y ,
−1 ≤ ρ
XY
≤ 1.
2. Si X e Y son independientes,
cov(X, Y ) = E[(X −E[X])]E[(Y −E[Y ])] = 0.
Tambi´en implica que ρ
XY
= 0. En cambio si ρ
XY
= ±1, se puede demostrar
que existe dos constantes a y b tal que Y = ax + b: existe una relaci´on lineal
determinista entre X e Y . De ah´ı que la correlaci´on es una medida del grado
de asociaci´on lineal entre dos variables.
3. Usando la propiedad de linealidad de la esperanza es f´acil obtener que
V ar(X +Y ) = V ar(X) +V ar(Y ) + 2cov(X, Y ).
En el caso particular en el que X e Y son independientes, esta relaci´on se
simplifica, dando lugar a la f´ormula de propagaci´on de los errores:
V ar(X +Y ) = V ar(X) +V ar(Y ),
puesto que cov(X, Y ) = 0.
IV.7. Algunos modelos de v.a. multidimensional
IV.7.1. Modelo multinomial
El modelo multinomial aparece como una generalizaci´on del modelo binomial:
consideremos
IV.7 Algunos modelos de v.a. multidimensional 71
Tenemos un primer experimento aleatorio simple, con un k sucesos posibles
A
1
, . . . , A
k
, que forman una partici´on del espacio muestral. Denotamos por
p
1
= P(A
1
), . . . p
k
= P(A
k
).
Repetimos este experimento simple n veces de manera independiente.
Consideramos la variable X
1
=”N´ umero de veces que ha ocurrido A
1
en las n
realizaciones del experimento simple, X
2
=”N´ umero de veces que ha ocurrido
A
2
en las n realizaciones del experimento simple, etc hasta X
k
=”N´ umero de
veces que ha ocurrido A
k
en las n realizaciones del experimento simple.
Proposici´on IV.7.1 Se cumple que, para todos n
1
, . . . , n
k
enteros positivos o nulos
tal que n
1
+n
2
+. . . +n
k
= n,
P(X
1
= n
1
, X
2
= n
2
, . . . X
k
= n
k
) =
n!
n
1
! . . . n
k
!
p
n
1
1
. . . p
n
k
k
.
Se dice que (X
1
, . . . , X
k
) sigue una distribuci´on multinomial de par´ametros p
1
, . . . , p
k
y n.
Es f´acil comprobar que todos las distribuciones marginales de una multinomial son
binomiales, ¿con qu´e par´ametros?
IV.7.2. El modelo Normal multidimensional
IV.7.2.1. Caso bidimensional
Definici´on IV.7.1 Consideremos un par de n´ umeros reales µ = (µ
1
, µ
2
) ∈ R
2
y
una matriz Σ 2 2 sim´etrica y definida positiva (es decir que, para todo x en R
2
,
x
T
Σx ≥ 0). La variable (X
1
, , X
2
) sigue una distribuci´on Normal bidimensional con
par´ametros (µ
1
, µ
2
) y Σ si su densidad es
x = (x
1
, x
2
) →
1
2π[Σ[
e

1
2
(x− µ)
T
Σ
−1
(x− µ)
.
En este caso escribimos (X
1
, X
2
) ∼ A( µ, Σ).
Se puede comprobar que, si (X
1
, X
2
) ∼ A( µ, Σ),
E[X
1
] = µ
1
, E[X
2
] = µ
2
, Σ es la matriz de covarianzas de (X
1
, X
2
).
De la forma de la densidad Normal bidimensional, deducimos en particular la sigu-
iente propiedad:
Propiedad: Si (X
1
, X
2
) sigue una distribuci´on normal bidimensional, se cumple que
X
1
y X
2
son independientes, si y solamente si su covarianza es nula.
Las curvas de nivel de la densidad bidimensional Normal son muy ilustrativas a
la hora de visualizar las campanas de Gauss asociadas (estas campanas son en tres
dimensiones). En la figura IV.1, las dos componentes X
1
y X
2
son independientes
y adem´as sus varianzas son iguales, m´as concretamente µ
1
= 1, µ
2
= 3, Σ
11
= 1,
Σ
22
= 1 y Σ
12
= 0.
En la figura IV.2, las dos componentes X
1
y X
2
siguen siendo independientes
pero ahora sus varianzas son distintas, m´as concretamente µ
1
= 1, µ
2
= 3, Σ
11
= 1,
72 Mathieu Kessler: M´etodos Estad´ısticos
Σ
22
= 0,25 y Σ
12
= 0. Las curvas de nivel aparecen como elipses, cuyos ejes coinciden
con los ejes del sistema de coordenadas.
Finalmente, si las dos componentes no son independientes, las curvas de nivel
siguen formando elipses pero sus ejes presenten un ´angulo respecto a los ejes del
sistema de coordenada. En la figura IV.3, se representan las curvas de nivel para
la densidad Normal bidimensional si µ
1
= 1, µ
2
= 3, Σ
11
= 1,125, Σ
22
= 0,5 y
Σ
12
= 0,375. Esto implica en particular que su correlaci´on es ρ
X
1
X
2
= 0,5.
−2 −1 0 1 2 3 4
0
1
2
3
4
5
6
X1
X
2
Figura IV.1: Curvas de nivel de la densidad Normal bidimensional si los dos compo-
nentes son independientes con varianzas iguales, µ
1
= 1, µ
2
= 3, Σ
11
= 1, Σ
22
= 1 y
Σ
12
= 0.
IV.7 Algunos modelos de v.a. multidimensional 73
−2 −1 0 1 2 3 4
0
1
2
3
4
5
6
X1
X
2
Figura IV.2: Curvas de nivel de la densidad Normal bidimensional si los dos compo-
nentes son independientes, pero sus varianzas son distintas, µ
1
= 1, µ
2
= 3, Σ
11
= 1,
Σ
22
= 0,25 y Σ
12
= 0.
IV.7.2.2. Caso n-dimensional
Definici´on IV.7.2 Consideremos µ = (µ
1
, . . . , µ
n
) en R
n
y una matriz Σ n n
sim´etrica y definida positiva.
La variable n-dimensional X = (X
1
, . . . , X
n
) sigue una distribuci´on Normal n-
dimensional con par´ametros µ y Σ si su densidad es
x ∈ R
n

1
(2π[Σ[)
n/2
e

1
2
(x− µ)
T
Σ
−1
(x− µ)
.
Se puede comprobar que la media de cada X
i
es µ
i
y que Σ es la matriz de
covarianza de X.
74 Mathieu Kessler: M´etodos Estad´ısticos
−2 −1 0 1 2 3 4
0
1
2
3
4
5
6
X1
X
2
Figura IV.3: Curvas de nivel de la densidad Normal bidimensional si los dos compo-
nentes no son independientes, µ
1
= 1, µ
2
= 3, Σ
11
= 1,125, Σ
22
= 0,5 y Σ
12
= 0,375,
lo que implica ρ
X
1
X
2
= 0,5.
Acabamos el tema con una propiedad fundamental de la distribuci´on Normal
n-dimensional, llamada propiedad de reproductividad de la distribuci´on Normal.
Proposici´on IV.7.2 Si X = (X
1
, . . . , X
n
) ∼ A( µ, Σ), para todos n´ umeros reales
a
1
, . . . , a
n
, se cumple que
a
1
X
1
+a
2
X
2
+. . . +a
n
X
n
sigue una distribuci´on Normal.
¿Podr´ıais caracterizar su media y su varianza?
Se deduce en particular de la proposici´on que las distribuciones marginales de
una variable Normal n-dimensional son todas normales.
TEMA V
Muestreo y distribuciones muestrales
V.1. Introducci´ on
Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger
un modelo, posiblemente con uno o varios par´ametros que tendremos que ajustar.
Ejemplos
Me interesa una moneda para tirar a cara o cruz. El experimento es “Tirar la
moneda” y la variable X corresponde al resultado, su distribuci´on se describe
como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades:
P[X = c] = p y P[X = +] = 1 − p. p es por lo tanto la probabilidad de que
salga cara, y es un par´ametro de nuestro modelo. En el caso en que confiamos
en que la moneda no est´a trucada, nuestro modelo considerar´a que p = 1/2.
Para sacar informaci´on sobre p y comprobar en particular que la moneda no
est´a trucada, repetiremos un cierto n´ umero de veces el experimento.
Para las pr´oximas elecciones generales, queremos determinar la proporci´on
de gente que tiene intenci´on de ir a votar, es decir queremos estimar la tasa
de participaci´on. El censo electoral para Espa˜ na tiene unos 32 millones de
personas. Es claramente imposible entrevistar a todas las personas del censo.
En cambio realizaremos una encuesta, escogiendo al azar una muestra de unas
3000 personas entre el censo y pregunt´andoles si tienen intenci´on de ir a votar.
El ´ındice de audiencias manda en la programaci´on de televisi´on. Pero ¿c´omo
saben cu´antos espectadores vieron un partido dado o un programa determina-
do? A m´ı nunca me han preguntado... En realidad, una encuesta se realiza de
manera autom´atica y continua: una empresa especializada llamada SOFRES
(http://www.sofresam.com) ha escogido al azar unos 3300 hogares que repre-
sentan unas 10000 personas de entre un total de aproximadamente 39 500 000
espectadores potenciales. En cada uno de estos hogares, instala un aparato
76 Mathieu Kessler: M´etodos Estad´ısticos
llamado “aud´ımetro” que graba cu´al es el programa que se est´a viendo en cada
momento.
Quiero conocer la concentraci´on de un determinado producto en una soluci´on.
Pienso que es razonable que la distribuci´on de los valores proporcionados por
mi aparato de medici´on sea una normal con media µ y desviaci´on t´ıpica σ
desconocidas. El centro de esta distribuci´on, es decir µ, ser´a por lo tanto lo
m´as representativo de la concentraci´on que intento determinar. Para estimar
µ, repetir´e la medici´on varias veces.
Pero surge una pregunta evidente:
Pregunta: ¿C´omo sabemos que nuestra estimaci´on es fiable? ¿Por qu´e limit´andose
a unas 3000 personas, se puede extrapolar el resultado con confianza a una poblaci´on
de 30 millones? Adem´as est´a claro que el resultado que obtengo depende de la
muestra particular que haya escogido, si escojo otra muestra me sale otro resultado.
Este hecho se llama la variabilidad muestral.
Intento de respuesta: Consideremos el caso del sondeo en el que se busca estimar
la tasa de participaci´on antes de unas elecciones. Para intentar convencer al lector
de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas
a la poblaci´on de 32 millones no es excesivo, llevo a cabo un estudio de simulaci´on:
Construyo en mi ordenador un fichero con 32 millones de ceros y unos, que
representar´a el censo electoral. Los unos representar´an a las personas que s´ı
tienen la intenci´on de ir a votar, mientras que los ceros a los que no piensan ir a
votar. En el fichero que construyo, el 70 % de los 32 millones de datos son unos,
mientras que el 30 % son ceros. (70 % es una tasa razonable de participaci´on
en unas elecciones)
Extraigo al azar una muestra de 3000 datos del fichero completo, hago el
recuento de los unos, y encuentro que la proporci´on de unos en esta muestra
es de 0.71. Por lo tanto, en este caso, mi estimaci´on es muy buena: estimo
la tasa de participaci´on en 71 % mientras que la aut´entica, es decir, la de
la poblaci´on (el fichero) es de 70 %. ¿Os he convencido? Seguro que alg´ un
lector desconfiado dir´a: “ no demuestra nada, ha tenido suerte de que en la
muestra que ha escogido, la proporci´on de unos sea pr´oxima a la proporci´on
poblacional, pero con otra muestra podr´ıa salir otro resultado peor.”De acuerdo,
el argumento es v´alido... Pero para convencerle, voy a coger otra muestra al
azar de 3000 datos, y encuentro que la proporci´on muestral de unos es 0.72.
Sigue estando muy bien, ¿no? ¿Sigue sin convencerle? Bueno, puedo repetir la
extracci´on de muestras hasta 10 000 veces por ejemplo, y guardo los valores
que encuentro para la proporci´on de 1 en cada una de estas 10000 muestras
en una variable llamada ˆ p.
Realizo un histograma de los 10000 valores de ˆ p, el resultado aparece en la
figura V.1. Una primera conclusi´on se impone: la gran mayor´ıa de las muestras
han proporcionado un valor de ˆ p entre 0.68 y 0.72, lo que corresponde a una
muy buena estimaci´on del valor de la proporci´on poblacional. Por lo tanto este
estudio simulado demuestra que al escoger una muestra de 3000 personas, es
muy probable que el valor de la proporci´on de 1 en la muestra est´e bastante
V.1 Introducci´on 77
p
^
F
r
e
c
u
e
n
c
i
a
s
0.67 0.68 0.69 0.70 0.71 0.72 0.73
0
5
0
0
1
0
0
0
1
5
0
0
2
0
0
0
Figura V.1: Histograma de los valores de ˆ p para 10000 muestras extra´ıdas
pr´oxima (menos de dos puntos) de la proporci´on de 1 en la poblaci´on, aunque
´esta sea much´ısimo m´as grande que la muestra.
Podemos dar un paso m´as en la utilizaci´on de este estudio simulado: si considero
ahora el experimento “extraer una muestra de tama˜ no 3000 en la poblaci´on”, ˆ p es la
variable “proporci´on de 1 en la muestra extra´ıda”. Quiero formular un modelo para
su distribuci´on. El histograma en la figura V.1 me sugiere que puedo escoger una
distribuci´on normal para ˆ p. De hecho en la figura V.2, se aprecia que el ajuste por una
normal con media µ = 0,70 y desviaci´on t´ıpica σ = 0,008 es muy bueno. Utilizando
entonces la regla de 68 % - 95 % - 99.7 %, deduzco en particular que al escoger al azar
en la poblaci´on una muestra de tama˜ no 3000, la probabilidad de que la proporci´on
muestral ˆ p se encuentre entre 0,7 −2 0,008 = 0,694 y 0,07 + 2 0,008 = 0,716 es
del 95 %.
Nota. Puesto que escoger una muestra de 3000 personas da tan buen resultado,
podr´ıamos preguntarnos si podr´ıamos ahorrarnos algo y extraer una muestra m´as
peque˜ na. Repitamos por ejemplo el estudio simulado con muestras de s´olo 100 per-
sonas. El histograma que obtenemos aparece en la figura V.3. Observamos que en
este caso el histograma es much´ısimo m´as chato, y que la dispersi´on de los valores de
ˆ p es mucho mayor: es m´as probable, al escoger una muestra de 100, que la proporci´on
78 Mathieu Kessler: M´etodos Estad´ısticos
phat
D
e
n
s
i
d
a
d
0.67 0.68 0.69 0.70 0.71 0.72 0.73
0
1
0
2
0
3
0
4
0
Figura V.2: Ajuste de una normal al histograma de los valores de ˆ p
muestral est´e bastante alejado del objetivo 0.7.
p
^
F
r
e
c
u
e
n
c
i
a
s
0.6 0.7 0.8 0.9
0
5
0
0
1
0
0
0
1
5
0
0
Figura V.3: Histograma de los valores de ˆ p para 10000 muestras de tama˜ no 100
extra´ıdas
Toda la teor´ıa desarrollada acerca de los sondeos utiliza de manera crucial el he-
cho de que antes de extraer la muestra, se dispone de un modelo para la distribuci´on
de ˆ p por ejemplo, tal como lo hemos ilustrado con nuestro ejemplo simulado. Este
V.2 Muestra 79
modelo permite en particular decidir si, fijado el error m´aximo que se est´a dispuesto
a cometer respecto a la proporci´on poblacional, el tama˜ no de la muestra es suficiente
como para que el riesgo de cometer un error mayor es lo suficientemente peque˜ no.
Introducimos dos t´erminos fundamentales en estad´ıstica:
Definici´on. Cualquier cantidad calculada a partir de las observaciones de una mues-
tra se llama estad´ıstico. La distribuci´on de los valores que puede tomar un estad´ıs-
tico respecto a todas las muestras de tama˜ no n que se podr´ıa extraer se llama
distribuci´on muestral de este estad´ıstico.
V.2. Muestra
Formalizamos el contexto y introducimos el concepto de muestra:
Consideramos un experimento aleatorio y una v.a X.
1
. Al querer obtener infor-
maci´on sobre alg´ un par´ametro del modelo que hemos escogido para la distribuci´on
de los valores de X, vamos a repetir el experimento n veces de manera independiente
y consideramos las variables X
1
“valor de X obtenido en la primera realizaci´on del
experimento”, . . ., X
n
“valor de X obtenido en la n-´esima realizaci´on del experimen-
to”. Las variables X
1
, X
2
, . . . , X
n
son independientes y claramente la distribuci´on
de cada variable X
i
coincide con la distribuci´on de X. En este caso decimos que
(X
1
, X
2
, . . . , X
n
) constituye una muestra aleatoria simple de la distribuci´on de X.
V.3. La media muestral
Supongamos que nos interesamos por el valor µ, la media de la v.a X. Escogere-
mos una muestra, y calcularemos la media de esta muestra, llamada media muestral.
Para controlar lo pr´oximo que estar´a su valor de µ, consideramos el experimento que
consiste en extraer una muestra aleatoria simple de la distribuci´on de X, la media
muestral es la variable aleatoria (su valor depende de la muestra escogida)
¯
X =
X
1
+. . . +X
n
n
.
¿Qu´e podemos decir de la distribuci´on de los valores que puede tomar
¯
X? Empezare-
mos por estudiar cu´al ser´a el centro y la dispersi´on de esta distribuci´on.
V.3.1. Esperanza y varianza de
¯
X
V.3.1.1. Esperanza
Tenemos que
E[
¯
X] = E[
X
1
+. . . +X
n
n
] =
1
n
E[X
1
+. . . +X
n
] =
1
n
(E[X
1
] +. . . +E[X
n
]).
Puesto que la distribuci´on de cada X
i
es la misma que la distribuci´on de X, deduci-
mos que E[X
1
] = . . . = E[X
n
] = µ, y
E[
¯
X] =
1
n
(n µ) = µ,
1
En algunos casos, este experimento aleatorio consistir´ a en escoger al azar un individuo de una
poblaci´ on muy grande, y X ser´ a el valor de la variable de inter´es para este individuo concreto.
Llamaremos entonces media de X la media poblacional y su varianza, la varianza poblacional
80 Mathieu Kessler: M´etodos Estad´ısticos
es decir que el centro de la distribuci´on de la media muestral coincide con el centro
de la distribuci´on de X.
V.3.1.2. Varianza
Utilizando la f´ormula de propagaci´on de los errores, ver Tema 4, obtenemos que
var[
¯
X] = var[
X
1
+. . . +X
n
n
] =
1
n
2
var[X
1
+. . .+X
n
] =
1
n
2
(var[X
1
]+. . .+var[X
n
]),
lo que implica que
var(
¯
X) =

2
n
2
=
σ
2
n
,
o de forma equivalente
σ ¯
X
=
σ

n
.
¡La dispersi´on que presentan los valores de
¯
X es

n m´as peque˜ na que la dispersi´on
de X!
V.3.1.3. Consecuencia pr´actica
Quiero realizar una medici´on con un aparato. El experimento aleatorio es “llevar
a cabo una medici´on”, mientras que la variable X es “valor proporcionado por el
aparato”.
Los valores de X variar´an pero lo deseable es que su centro µ coincida con el
valor exacto de la cantidad que busco determinar: si E[X] = valor exacto, decimos
que el aparato es exacto.
Por otra parte, queremos que los valores proporcionen presenten la menor disper-
si´on posible: si σ = σ
X
es peque˜ na, decimos que el aparato es preciso. Tenemos en-
tonces varios casos posibles, tal como est´a ilustrado en la Figura V.4, con la analog´ıa
de la medici´on con un disparo en una diana: el centro de la diana representa el valor
exacto de lo que buscamos determinar...
Figura V.4: Analog´ıa de la medici´on con un disparo en una diana
Si nuestro aparato de medici´on no es exacto, podemos intentar calibrarlo para
corregir la desviaci´on sistem´atica que presenta. En cambio, si no es preciso, tiene
dif´ıcil arreglo. Sin embargo exista una manera de mejorar la precisi´on de un aparato
V.3 La media muestral 81
de medici´on: basta con repetir un n´ umero suficiente de veces la medici´on y pro-
porcionar la media de los valores obtenidos: la desviaci´on t´ıpica de los valores que
proporcionar´ıa con este m´etodo es

n veces m´as peque˜ na que la de los valores pro-
porcionados si me limito a una medici´on.
V.3.2. Distribuci´on de la media muestral
En la subsecci´on anterior, hemos caracterizado la media y la desviaci´on t´ıpica
de la distribuci´on de los valores de la media muestral
¯
X. Hay que enfatizar el hecho
de que estos resultados se obtienen sin hip´otesis sobre la forma de la distribuci´on
de X. ¿Podemos decir algo m´as sobre la distribuci´on de los valores de
¯
X, ahora que
sabemos cu´ales son su centro y su dispersi´on?
V.3.2.1. Si la distribuci´on de X es Normal
Si hemos modelizado la v.a X por una distribuci´on Normal A(µ, σ
2
) y consid-
eramos una muestra aleatoria simple de X, sabemos por la reproductividad de la
distribuci´on Normal que X
1
+X
2
+. . . +X
n
sigue tambi´en una distribuci´on normal.
Se cumple por lo tanto
Proposici´on V.3.1 Si X ∼ A(µ, σ
2
), y si
¯
X es la media muestral basada en una
muestra aleatoria simple de la distribuci´on de X,
¯
X ∼ A(µ,
σ
2
n
),
o, de manera equivalente,
¯
X −µ
σ/

n
∼ A(0, 1).
Como ejemplo, consideremos un aparato de medici´on que proporciona valores que
se distribuyen seg´ un una Normal, con una media de 120 y una desviaci´on t´ıpica de
12. Por la propiedad de la distribuci´on Normal, el 95 % de los valores est´an entre
µ −2σ y µ −2σ, es decir entre 96 y 144. En cambio, si repito 9 veces la medici´on y
proporciono la media de estas nueve mediciones, el 95 % de los valores que obtendr´ıa
con este procedimiento se encontrar´ıan entre µ−2σ/

n y µ−2σ/

n, es decir entre
112 y 128, lo que implica una precisi´on mucho mayor.
V.3.2.2. Si la distribuci´on de X es desconocida o no es normal
Si la distribuci´on de X es desconocida, no podemos hacer milagros: no podemos
decir nada exacto sobre la distribuci´on de
¯
X, exepto sobre su media y su desviaci´on
t´ıpica, ver secci´on V.3.1. Sin embargo, si el tama˜ no muestral n es grande, se sabe
que esta distribuci´on se puede aproximar por una distribuci´on Normal.
Teorema V.3.1 Teorema Central del L´ımite Consideremos (X
1
, . . . , X
n
) una mues-
tra aleatoria simple de la distribuci´on de X con media µ y varianza σ
2
. Si n es
“suficientemente” grande, se puede aproximar la distribuci´on de
¯
X por una Normal
con media µ y varianza σ
2
/n:
¯
X ∼ A(µ,
σ
2
n
) aproximadamente.
82 Mathieu Kessler: M´etodos Estad´ısticos
¿Cuando se considera que n es“suficientemente”grande? No hay por desgracia ningu-
na respuesta universal, depende de la forma de la distribuci´on de X: si ´esta no es
muy diferente de una distribuci´on Normal, no hace falta un n muy grande para que
la aproximaci´on de la distribuci´on de la media muestral por una Normal sea satisfac-
toria. En cambio, si es muy distinta de una distribuci´on Normal, ser´a necesario una
muestra grande. Se suele considerar como indicaci´on que n mayor de 30 es suficiente
en la mayor´ıa de los casos (pero no es m´as que una indicaci´on...)
Por otra parte, este teorema, fundamental en estad´ıstica, explica la importancia
de la distribuci´on Normal: aparece de manera natural, asociada a cualquier dis-
tribuci´on, si consideramos la distribuci´on de la media muestral, o de la suma de
realizaciones independientes. En particular, si un error de medici´on se puede consid-
erar como la suma de muchas peque˜ nas perturbaciones independientes, el Teorema
Central del L´ımite implica que la distribuci´on de sus valores es aproximadamente
Normal.
V.4. La varianza muestral
Consideremos ahora un experimento al que asociamos una v.a X cuya distribu-
ci´on de valores modelizamos por una Normal con media µ y varianza σ
2
. Repetimos
n veces el experimento y obtenemos una m.a.s (X
1
, X
2
, . . . , X
n
) de la distribuci´on
de X. ¿Qu´e podemos decir de la distribuci´on de la varianza muestral
s
2
=
n
n −1
(X
2
−(
¯
X)
2
)?
Es posible demostrar la proposici´on siguiente
Proposici´on V.4.1 1. Las v.a
¯
X y s
2
son independientes.
2. La densidad de (n −1)s
2

2
es proporcional a
x
(n−1)/2
e
−x/2
, si x > 0.
La distribuci´on correspondiente se llama χ
2
(ji-cuadrado) con (n − 1) grados
de libertad. Escribimos
(n −1)s
2
σ
2
∼ χ
2
n−1
.
En general, una v.a. X sigue una distribuci´on χ
2
con k ∈ N grados de libertad
si su densidad es proporcional a
x → x
k/2
e
−x/2
, si x > 0.
En la figura V.5, se representa la densidad de una distribuci´on χ
2
con distintos
grados de libertad.
V.5. Distribuci´on t de Student
En la secci´on 3, hemos utilizado el estad´ıstico
Z =
¯
X −µ
σ/

n
, (V.1)
V.5 Distribuci´on t de Student 83
0 10 20 30 40 50
0
.
0
0
0
.
0
5
0
.
1
0
0
.
1
5
0
.
2
0
0
.
2
5
Densidad de la Ji cuadrado con k grados de libertad
x
f
_
X
(
x
)
Figura V.5: Densidad de la distribuci´on χ
2
con k = 3, 10 y 30 grados de libertad
(respectivamente de izquierda a derecha)
que sigue una distribuci´on Normal est´andar si
¯
X es la media de una muestra aleatoria
simple de una distribuci´on Normal A(µ, σ
2
).
Si desconocemos el valor de σ, lo estimaremos por S la desviaci´on t´ıpica muestral
S =

n
n −1
(X
2
−(
¯
X)
2
).
El estad´ıstico que resulta de sustituir en (V.1) σ por S es
T =
¯
X −µ
S/

n
.
Definici´on V.5.1 Consideramos (X
1
, . . . , X
n
) una muestra aleatoria simple de una
distribuci´on A(µ, σ
2
), sea
¯
X la media muestral, la distribuci´on de los valores de
T =
¯
X −µ
S/

n
se llama distribuci´on t de Student con n−1 grados de libertad. Escribimos T ∼ t
n−1
.
La distribuci´on de T depende por lo tanto del tama˜ no n de la muestra, a trav´es
de los llamados “grados de libertad”. Se puede demostrar que la densidad F
t
k
de la
distribuci´on t de Student con k grados de libertad admite la siguiente expresi´on:
f
t
k
(t) ∝
1
(1 +t
2
/p)
(p+1)/2
, −∞ < t < ∞,
donde el s´ımbolo ∝ significa “es proporcional a”, es decir que existe una constante
K tal que f
t
k
(t) = K
1
(1+t
2
/p)
(p+1)/2
. Por las propiedades de una funci´on de densidad
84 Mathieu Kessler: M´etodos Estad´ısticos
Densidad de la t de Student con k grados de libertad
x
f
_
X
(
x
)
Figura V.6: Densidad de la distribuci´on t de Student con 1, 3, 10 y 150 grados de
libertad respectivamente (de la densidad m´as chata a la m´as puntiaguda)
se puede deducir que la constante es
K =
Γ(
p+1
2
)
Γ(
p
2
)
1


,
donde Γ denota la funci´on Gamma
2
.
La distribuci´on t tiene colas m´as pesadas que la distribuci´on Normal, lo que es
intuitivamente natural puesto que, al obtenerse T sustituyendo σ por S, el denom-
inador de T presenta ahora tambi´en variabilidad. Esta variabilidad en el denomi-
nador resulta en que T puede tomar con m´as probabilidad valores m´as extremos.
Sin embargo, si los grados de libertad aumentan, la variabilidad de S disminuye, y
la distribuci´on t de Student asociada se parece m´as a una Normal.
En la figura V.6, se representa la densidad de la distribuci´on T de Student para
varios valores de los grados de libertad.
V.6. La proporci´ on muestral
Hay situaciones en las que la v.a X de inter´es tan s´olo puede tomar el valor 0
´o 1, ´este ´ ultimo con la probabilidad p, pensamos por ejemplo, en el experimento
que consiste en producir una pieza con una m´aquina que produce una proporci´on
p de defectuosos, X toma el valor 1 si la pieza es defectuosa, y 0 si la pieza es
correcta, o en el ejemplo del sondeo para estimar la tasa de participaci´on antes de
unas elecciones. Para sacar informaci´on sobre p, repetiremos el experimento n veces
de manera independiente, contaremos el n´ umero N de veces que la v.a X ha tomado
el valor 1, es decir que fabricamos n piezas con la m´aquina y contamos el n´ umero
2
La funci´ on Gamma tiene la expresi´ on siguiente: para cualquier real α > 0, Γ(α) =


0
t
α−1
e
−t
dt.
V.6 La proporci´on muestral 85
N de defectuosas, o preguntaremos a n personas si tienen intenci´on de ir a votar,
para los dos ejemplos concretos que hemos mencionado. La proporci´on de “Unos”
en la muestra se llama la proporci´on muestral y la denotamos por ˆ p. Est´a claro que
tenemos
ˆ p =
N
n
.
V.6.1. C´alculos exactos para la distribuci´on de ˆ p
El n´ umero de “Unos” en la muestra es el n´ umero de veces que ha salido “1”
en n realizaciones independientes del experimento, su distribuci´on es por lo tanto
Binomial de par´ametros n y p, la probabilidad de que salga “1” en una realizaci´on
del experimento:
N ∼ B(n, p).
C´alculos exactos para la distribuci´on de ˆ p se podr´an realizar utilizando que ˆ p = N/n
y el hecho que N ∼ B(n, p), tal como viene ilustrado en el ejemplo siguiente:
Ejemplo V.6.1 Cuando est´a bien ajustada, una m´ aquina produce piezas con s´olo
1 % de defectuosos. Para realizar un control de la calidad de la producci´on, se extrae
diariamente una muestra de 100 piezas, y se calcula la proporci´on muestral de de-
fectuosos. Si la m´aquina est´a bien ajustada, ¿cu´al es la probabilidad de que, en una
de estas muestras, haya m´as de 2 % de defectuosos?
Queremos calcular
P(ˆ p > 0,02) = P(
N
100
> 0,02) = P(N > 2),
siendo N ∼ B(100, 0,01) si la m´aquina est´a bien ajustada. Tenemos
P(N > 2) = 1 −P(N ≤ 2) = 1 −[P(N = 0) +P(N = 2) +P(N = 3)]
1 −[

100
0

0,01
0
0,99
100
+

100
1

0,01
1
0,99
99
+

100
2

0,01
2
0,99
98
] · 0,08
Por lo tanto, si la m´ aquina est´a bien ajustada, s´olo hay una probabilidad de 0.08 de
observar 3 o m´as piezas defectuosas en una muestra de 100.
En particular, si un d´ıa observo 3 piezas defectuosas en la muestra que he ex-
tra´ıdo, hay dos posibilidades: a) la m´aquina est´a bien ajustada pero he tenido mala
suerte (s´olo hab´ıa 8 posibilidades entre 100 de que esto ocurriera), b) en realidad
es un s´ıntoma de que la m´aquina est´a mal ajustada... Este simple ejemplo ilustra la
idea b´asica del control estad´ıstico de calidad.
V.6.2. Distribuci´on aproximada de ˆ p
Los c´alculos exactos que hemos descrito en el apartado anterior se pueden volver
muy laboriosos si se necesita evaluar un gran n´ umero de probabilidades individuales.
En el caso en que se cumplen las condiciones de aproximaci´on de la distribuci´on
Binomial, la distribuci´on de N se puede aproximar por una Normal A(np, np(1−p)),
86 Mathieu Kessler: M´etodos Estad´ısticos
y por lo tanto ˆ p sigue aproximadamente una distribuci´on Normal con media np/n = p
y varianza np(1 −p)/n
2
= p(1 −p)/n:
Si np > 5, n(1 −p) > 5 ˆ p ∼ A(p,
p(1 −p)
n
), aproximadamente
Esta propiedad de aproximaci´on justifica en particular las formas de campanas de
Gauss que aparecen para los histogramas de ˆ p en la introducci´on, ver Figuras V.2 y
V.3.
Notar por otra parte que para el ejemplo del apartado anterior no se cumplen
las condiciones de aproximaci´on...
V.7. Introducci´ on a las gr´aficas de control
Conocer las distribuciones muestrales de algunos estad´ısticos destacados como la
media muestral, la varianza muestral o la proporci´on muestral ha propiciado que se
propongan procedimientos de control estad´ıstico de calidad en contextos industriales.
Veremos en esta secci´on una introducci´on a las gr´aficas de control, en una versi´on
algo simplificada, pero que permite ilustrar sus fundamentos.
Las gr´aficas de control permiten comprobar de manera continua que se mantiene
constante la calidad de una producci´on, favoreciendo la intervenci´on r´apida en el
caso en que se detecta que ´esta se deteriora.
V.7.1. Gr´afica de control
¯
X.
Consideremos el contexto siguiente: una empresa identifica la concentraci´on en
CaCO3 como una caracter´ıstica importante de la calidad de su producto. Idealmente
esta concentraci´on deber´ıa ser igual a 55, pero la variabilidad es inevitable. Sin
embargo se asume que, en condiciones normales de producci´on los valores de la
concentraci´on se distribuyen seg´ un una distribuci´on aproximadamente Normal con
desviaci´on t´ıpica σ = 8. Para controlar la calidad de la producci´on, analiza 4 envases
de producto, calculando a continuaci´on la media de los cuatro valores obtenidos. En
la tabla siguiente, se recogen los datos correspondientes a veinte controles.
Muestra n
o
¯ x Muestra n
o
¯ x
1 54.0 11 53.1
2 59.1 12 61.1
3 54.0 13 61.5
4 56.5 14 67.7
5 60.5 15 64.9
6 56.0 16 67.6
7 47.3 17 66.9
8 51.7 18 67.1
9 62.9 19 73.5
10 64.7 20 66.4
¿C´omo comprobar que la calidad de la producci´on sigue conforme con los criterios
fijados? es decir, ¿c´omo detectar que el instrumento de producci´on se ha desajustado
por ejemplo? Si representamos la secuencia de los valores calculados para ¯ x en los
V.7 Introducci´on a las gr´aficas de control 87
controles consecutivos, obtenemos la gr´afica de la Figura V.7, donde tambi´en se ha
dibujado una l´ınea horizontal para indicar la concentraci´on ideal 55. Parece sin duda
que la tensi´on de los monitores va aumentando y alej´andose del objetivo 55, pero
¿c´omo definir una regla que nos sirva de se˜ nal de alarma?
5 10 15 20
3
0
4
0
5
0
6
0
7
0
8
0
m
e
d
ia
d
e
la
m
u
e
s
tra
Figura V.7: Valores consecutivos de ¯ x, ejemplo de la concentraci´on en NaCO3.
Formalicemos el contexto: consideramos la v.a X= “concentraci´on de NaCO3”.
Sabemos que X ∼ A(µ, σ
2
) con σ = 8. Tambi´en sabemos que en condiciones nor-
males de producci´on, se debe cumplir que µ = 55. Si escojemos al azar cuatro
monitores en la producci´on de una hora, y llamamos
¯
X la media de las tensiones
correspondientes, sabemos que los valores de
¯
X se distribuyen seg´ un una Normal de
media µ y de desviaci´on t´ıpica σ ¯
X
= σ/

n, es decir 8/2 = 4. En particular si µ es
efectivamente igual a 55, se espera que el 99,7 % de los valores de
¯
X se encontrar´an
entre µ −3σ ¯
X
y µ + 3σ ¯
X
, es decir entre 60.4 y 49.6.
Por consiguiente, si para una muestra, observamos un valor de
¯
X fuera de este
rango de valores, es razonable pensar que el proceso de producci´on se ha desajustado,
puesto que s´olo hab´ıa una probabilidad de 3 entre 1000 que esto ocurriera, siendo el
proceso bien ajustado (es decir siendo µ igual a 55).
Realizar una gr´afica de control
¯
X consiste por lo tanto, suponiendo que los valores
de la variable que queremos controlar siguen aproximadamente una Normal y que
conocemos su desviaci´on t´ıpica, en representar en una gr´afica los valores de
¯
X que
vamos obteniendo, junto con tres l´ıneas horizontales:
la l´ınea objetivo, en nuestro caso µ = 55,
el l´ımite de control superior en µ + 3σ/

n, en nuestro caso, 60.4.
el l´ımite de control superior en µ −3σ/

n, en nuestro caso, 49.6.
En la Figura V.8, se representa la gr´afica de control para este ejemplo. A partir de la
muestra n´ umero 14 se detecta que el proceso est´a fuero de control, y que la calidad
se ha deteriorado.
V.7.2. Gr´afica de control ˆ p
En algunas situaciones, la calidad de la producci´on no se mide a tr´aves de una
variable X sino a trav´es de la proporci´on de defectuosos producidos. En estos casos
se monitora la calidad utilizando una gr´afica de control ˆ p.
88 Mathieu Kessler: M´etodos Estad´ısticos
5 10 15 20
3
0
4
0
5
0
6
0
7
0
8
0
muestra
m
e
d
ia

d
e

la

m
u
e
s
t
r
a
Figura V.8: Ejemplo de gr´afica de control ¯ x.
Para llevar a cabo el control utilizando las mismas ideas que para la gr´afica de
control
¯
X, recurrimos a la distribuci´on muestral de ˆ p. Sabemos que si np > 5 y
n(1 −p) > 5, ´esta se puede aproximar por una Normal:
ˆ p ∼ A(p,
p(1 −p)
n
, aproximadamente.
La gr´afica de control ˆ p se realizar´a por lo tanto dibujando en la gr´afica tres l´ıneas
horizontales:
la l´ınea objetivo,
el l´ımite de control superior en p + 3

p(1−p)

n
,
el l´ımite de control superior en p −3

p(1−p)

n
, en nuestro caso.
V.7.3. Otra se˜ nal de alarma
Existen otras posibles se˜ nales de alarma para decidir si un proceso est´a fuera
de control. Una de ellas corresponde a dibujar la l´ınea objetivo y concluir que la
m´aquina est´a mal ajustada si se observan nueve puntos consecutivos por debajo(o
por encima) de la l´ınea objetivo. La probabilidad de falsa alarma, es decir concluir
err´oneamente que el proceso est´a fuera de control es del orden de 2 entre 1000.
TEMA VI
Introducci´ on a la teor´ıa de la estimaci´on
VI.1. Introducci´ on
Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger
un modelo, posiblemente con uno o varios par´ametros que tendremos que ajustar.
Por ejemplo, queremos realizar una medici´on con un aparato, la variable que nos
interesa es X “valor proporcionado por el aparato”, pensamos que la distribuci´on de
los valores que puede tomar X se puede aproximar por una distribuci´on Normal.
Nos falta “ajustar” los valores de la media y de la varianza de esta distribuci´on
normal, para disponer de un modelo completamente especificado que nos permitir´a
realizar c´alculos de probabilidad, predicciones etc... Para ajustar los par´ametros que
nos faltan, repetiremos el experimento varias veces y sacaremos informaci´on - se dice
inferir - sobre estos par´ametros a partir de los valores obtenidos de X. El primer
tipo de informaci´on que podemos intentar sacar es acerca de su valor. Estimar un
par´ametro consiste en obtener una aproximaci´on de su valor en base a los datos de la
variable correspondientes a varias realizaciones del experimento. Recordar que vimos
en el tema anterior que los datos provenientes de varias realizaciones del experimento
constituyen una muestra de la distribuci´on de X.
VI.2. Estimaci´ on puntual
VI.2.1. Definici´on
Consideramos un experimento aleatorio, con una v.a X, y un modelo para la
distribuci´on de X. Este modelo incluye par´ametros desconocidos. Disponemos de
una muestra de la distribuci´on de X.
Definici´on VI.2.1 Cualquier estad´ıstico (es decir, cualquier funci´on de las obser-
vaciones de la muestra) dise˜ nado para aproximar el valor de un par´ametro θ del
modelo, se llama estimador puntual del par´ ametro θ.
90 Mathieu Kessler: M´etodos Estad´ısticos
En la tabla siguiente se presentan algunos par´ametros usuales y los estimadores
asociados:
θ Estimador
µ
¯
X, media muestral
σ
2
S
2
, varianza muestral
p ˆ p, proporci´on muestral
Un aspecto fundamental de un estimador es que es una variable aleatoria: su valor
concreto depende de la muestra escogida. Utilizaremos los resultados del tema ante-
rior sobre distribuciones muestrales para deducir propiedades de las distribuciones
de los estimadores m´as usados.
VI.2.2. Propiedades deseables para un estimador
VI.2.2.1. Estimador insesgado
Una primera propiedad deseable para un estimador es que el centro de la dis-
tribuci´on de los valores que puede tomar coincida con el valor del par´ametro que
queremos aproximar. Si ´este es el caso, decimos que el estimador es insesgado. As´ı,
si
ˆ
θ es un estimador del par´ametro θ, decimos que
ˆ
θ es un estimador insesgado de θ
si
E[
ˆ
θ] = θ.
Comprobemos si los estimadores m´ as usados son insesgados:
La media muestral
¯
X: hemos visto en el tema 5 que, sea cual sea la distribuci´on
de X, se cumple que E[
¯
X] = µ
X
. Deducimos que
¯
X es un estimador insesgado
de µ
X
.
La varianza muestral S
2
. Tenemos que
S
2
=
n
n −1
[X
2
−(
¯
X)
2
].
Por lo tanto,
E[S
2
] =
n
n −1
[E[X
2
] −E[(
¯
X)
2
]].
Necesitamos calcular por una parte E[X
2
] y por otra parte E[(
¯
X)
2
]. Al ser
X
2
la media muestral de la variable X
2
, sabemos por el tema 5 que E[X
2
=
E[X
2
] = var(X)+µ
2
X
.. Por otra parte, E[(
¯
X)
2
]] = var(
¯
X)+(E[
¯
X])
2
=
σ
2
n

2
X
.
Deducimos que
E[S
2
] =
n
n −1

2

σ
2
n
] = σ
2
.
Hemos por lo tanto comprobado que la varianza muestral es un estimador
insesgado de la varianza. De hecho, este resultado constituye la justificaci´on
de que la varianza muestral se defina con el factor n/(n − 1), para que el
estimador resulte insesgado.
Proporci´on muestral ˆ p: en el tema 5, hemos obtenido la caracterizaci´on de ˆ p co-
mo N/n donde N es el n´ umero de elementos en la muestra con la caracter´ıstica
de inter´es, y hemos visto que N ∼ B(n, p). Deducimos que
E[ ˆ p] =
E[N]
n
=
np
n
= p.
VI.2 Estimaci´on puntual 91
En este caso tambi´en, la proporci´on muestral resulta ser un estimador inses-
gado de la proporci´on.
VI.2.2.2. Estimador consistente
Si un estimador es insesgado, nos interesa que la dispersi´on de los valores que
puede tomar sea la m´as peque˜ na posible, para que la precisi´on de la estimaci´on sea
la mayor posible. Por consiguiente, una buena propiedad adicional de un estimador
insesgado es que su varianza tienda a cero si el n´ umero de observaciones n crece
hacia infinito. En este caso, se dice que el estimador es consistente.
De la misma manera que en el apartado anterior, podemos deducir, utilizando
los resultados del tema 5, que
var(
¯
X) =
σ
2
n
, var(ˆ p) = var(
N
n
) =
1
n
2
var(N) =
p(1 −p)
n
.
Es f´acil comprobar que, en efecto tanto var(
¯
X) como var(ˆ p) tienden a cero si n
tiende a infinito, es decir que son dos estimadores consistentes.
VI.2.3. M´etodos de construcci´ on de estimadores
En los ejemplos de las secciones anteriores, los estimadores propuestos est´an
basados en estad´ısticos naturales para los par´ametros de inter´es: la media muestral
para estimar la media, la proporci´on muestral para estimar la proporci´on, etc... En
modelos m´as sofisticados es ´ util disponer de m´etodos generales de construcci´on de
estimadores razonables.
VI.2.3.1. Estimadores de momentos
Es el m´etodo m´as antiguo de construcci´on de estimadores y se debe a Karl
Pearson a principios del siglo XX.
Consideremos una v.a. X y un modelo para la distribuci´on de sus valores, que
consiste en la especificaci´on de x → f
X
(x; θ), siendo f
X
la funci´on puntual de prob-
abilidad, o la funci´on de densidad seg´ un si X es una variable discreta o continua.
El par´ametro θ es posiblemente multidimensional, llamamos p su dimensi´on, es
decir que p es el n´ umero de par´ametros desconocidos en el modelo. Para un entero
k, consideramos el momento µ
k
de orden k de la distribuci´on de X:
µ
k
= E[X
k
].
Cabe destacar que la expresi´on de µ
k
depende del par´ametro θ. Para enfatizar esta
dependencia, escribiremos µ
k
(θ) para denotar el momento de orden k del modelo
descrito por x → f
X
(x; θ). De manera paralela, definimos el momento muestral de
orden k:
m
k
= X
k
=
X
k
1
+. . . +X
k
n
n
.
Para un par´ametro de dimensi´on p, los estimadores de los momentos se obtienen
igualando los p primeros momentos del modelo para la distribuci´on de X con sus
92 Mathieu Kessler: M´etodos Estad´ısticos
equivalentes muestrales:
µ
1
(θ) = X,
µ
2
(θ) = X
2
,
.
.
. =
.
.
.,
µ
k
(θ) = X
k
.
Calculemos para ilustrar el m´etodo los estimadores de momentos en los modelos
siguientes:
X ∼ A(µ, σ
2
)., donde θ = (µ, σ
2
). Necesitamos igualar los dos primeros mo-
mentos con sus equivalentes muestrales. Los dos primeros momentos de la
distribuci´on A(µ, σ
2
) son
µ
1
(θ) = µ
µ
2
(θ) = E[X
2
] = V ar(X) + (E[X])
2
= σ
2

2
.
Deducimos que los estimadores de los momentos son soluci´on del sistema:
µ = X
σ
2

2
= X
2
,
es decir
ˆ µ = X,
ˆ
σ
2
= X
2
−(X)
2
.
Modelo de Bernoulli: X ∼ Bernoulli(p), donde desconocemos p. S´olo necesi-
tamos igualar el primer momento con su equivalente muestral, obtenemos
ˆ p =
¯
X,
puesto que X
1
, . . . , X
n
s´olo pueden tomar el valor 1 o el valor 0, su media es
igual a la proporci´on muestral de 1. El estimador de momentos de la proporci´on
p en un modelo de Bernoulli es la proporci´on muestral.
VI.2.3.2. M´etodo de m´axima verosimilitud
El m´etodo de m´axima verosimilitud es sin dudas el m´etodo m´as utilizado de
construcci´on de un estimador puntual.
a). Verosimilitud Sea X una v.a, con distribuci´on especificada por x → f
X
(x; θ),
donde θ es el vector de par´ametros, de dimensi´on p. Repetimos el experimento n veces
y consideramos la muestra aleatoria simple de la distribuci´on de X: (X
1
, . . . , X
n
).
La distribuci´on de la v.a n-dimensional (X
1
, . . . , X
n
) est´a descrita a trav´es de la
relaci´on
f
X
1
,...,X
n
(x
1
, . . . , x
n
; θ) = f
X
1
(x
1
, θ) . . . f
X
n
(x
n
, θ),
puesto que las v.a X
1
, . . . , X
n
son independientes. En esta ´ ultima igualdad, f rep-
resenta o bien la funci´on puntual de probabilidad o bien la funci´on de densidad.
VI.2 Estimaci´on puntual 93
Para un valor concreto de (X
1
, . . . , X
n
), que denotamos por (x
1
, . . . , x
n
), consid-
eramos la funci´on de θ:
L
n
:

R
p
→R
θ → L
n
(θ) = f
X
1
,...,X
n
(x
1
, . . . , x
n
; θ).
La funci´on L
n
asocia a cada valor de θ el valor de la densidad (o de la funci´on
puntual de probabilidad) de las observaciones (X
1
, . . . , X
n
) evaluada en (x
1
, . . . , x
n
),
los valores concretos observados.
Ejemplo. Consideremos la tirada de una moneda y asociamos la v.a. X que valga 1
si sale cara y 0 si sale cruz. Utilizamos un modelo de Bernoulli de par´ametro p entre
0 y 1. Tiramos 10 veces la moneda y obtenemos la secuencia de valores siguiente: 0,
0, 1, 0, 1, 1, 1, 1, 1, 1. La verosimilitud asocia a cada valor posible de p, la cantidad
P(X
1
= 0; X
2
= 0; X
3
= 1; X
4
= 0; X
5
= 1; X
6
= 1; X
7
= 1; X
8
= 1; X
9
= 1; X
10
= 1).
Deducimos que L
n
(p) = (1 −p)(1 −p)p(1 −p)(1 −p)
6
= (1 −p)
3
p
7
. Se representa
la gr´afica de la funci´on L
n
(p) en la Figura VI.1
La verosimilitud nos indica para qu´e valor de p, la probabilidad de haber obser-
vado la secuencia 0, 0, 1, 0, 1, 1, 1, 1, 1, 1 es la m´as alta.
b). Estimador de m´axima verosimilitud
Definici´on VI.2.2 Dados (x
1
, . . . , x
n
) los valores observados de una muestra, con-
sideramos la verosimilitud θ → L
n
(θ).
El estimador de m´axima verosimilitud
ˆ
θ de θ es cualquier valor de θ que maximiza
θ → L
n
(θ),
ˆ
θ = argmax
θ
L
n
(θ).
La maximizaci´on se realiza sobre todos los valores admisibles para el par´ametro θ.
Ejemplo. Consideramos X ∼ Bernoulli(p). Observamos x
1
, . . . , x
n
una realizaci´on
de la muestra aleatoria simple (X
1
, . . . , X
n
). Puesto que si x = 0, 1, f
X
(x) = P(X =
x) = p
x
(1 −p)
(1−x)
, la verosimilitud es
L
n
(p) = p
x
1
(1 −p)
(1−x
1
)
. . . p
x
n
(1 −p)
(1−x
n
)
= p

x
i
(1 −p)
n−

x
i
.
Los candidatos a alcanzar el m´aximo se obtienen derivando la verosimilitud, o de
manera equivalente y m´as sencilla, su logaritmo (llamado log-verosimilitud):
d log L
n
dp
(p) = (n −
¸
x
i
)


1
1 −p

+
¸
x
i
p
= 0.
Despejamos p y encontramos ˆ p = (
¸
x
i
)/n. Comprobamos adem´as que la derivada
segunda de L
n
es negativa, lo que implica que ˆ p es efectivamente un m´aximo global.
Deducimos que el estimador de m´axima verosimilitud de p es la proporci´on muestral.
Ejemplo. Consideramos X ∼ A(µ, σ
2
). Observamos x
1
, . . . , x
n
una realizaci´on de
la muestra aleatoria simple (X
1
, . . . , X
n
). La verosimilitud se obtiene a partir de la
expresi´on de la densidad de X:
L
n
(µ, σ
2
) =
n
¸
i=1
1

2πσ
2
e

(x
i
−µ)
2

2
=
1
(2πσ
2
)
n/2
e

n
i=1
(x
i
−µ)
2

2
.
94 Mathieu Kessler: M´etodos Estad´ısticos
Figura VI.1: Verosimilitud correspondiente al ejemplo de 10 tiradas de una moneda.
La log-verosimilitud es
log L
n
(µ, σ
2
) = −
n
2
log(2πσ
2
) −
¸
n
i=1
(x
i
−µ)
2

2
.
Para encontrar el m´aximo, calculamos las derivadas parciales de log L
n
respeto de
µ y σ
2
:

∂µ
log L
n
(θ) =
¸
n
i=1
(x
i
−µ)
2
σ
2

∂σ
2
log L
n
(θ) = −
n
2
1
σ
2
+
¸
n
i=1
(x
i
−µ)
2
2(σ
2
)
2
.
Resolvemos

∂µ
L
n
= 0 y

∂σ
2
L
n
= 0, y encontramos que los dos candidatos a m´aximo
son
ˆ µ =
¸
n
i=1
x
i
n
,
´
σ
2
=
¸
n
i=1
(x
i
− ˆ µ)
2
n
=
n
n −1
s
2
.
VI.3 Estimaci´on por intervalos 95
Para comprobar que son efectivamente m´aximos globales, podemos fijarnos en la
expresi´on de la log-verosimilitud:
log L
n
(µ, σ
2
) = −
n
2
log(2πσ
2
) −
¸
n
i=1
(x
i
−µ)
2

2
.
Sea cual sea el valor de σ
2
, la funci´on µ → log L
n
(µ, σ
2
) alcanza su m´aximo cuando
¸
n
i=1
(x
i
−µ) es m´ınimo, es decir cuando µ = (
¸
n
i=1
x
i
)/n. El m´aximo de (µ, σ
2
) →
log L
n
(µ, σ
2
) corresponder´a por lo tanto al m´aximo de la funci´on σ
2
→ log L
n
(ˆ µ, σ
2
).
Es f´acil comprobar que σ
2
→ log L
n
(ˆ µ, σ
2
) alcanza su m´aximo en
´
σ
2
=

n
i=1
(x
i
−ˆ µ)
2
n
=
n
n−1
s
2
.
Los estimadores de m´axima verosimilitud de µ y σ
2
son por lo tanto la media
muestral y la llamada varianza muestral sesgada
´
σ
2
=

n
i=1
(x
i
−ˆ µ)
2
n
=
n
n−1
s
2
. En
un apartado anterior hemos visto como la varianza muestral s
2
es un estimador
insesgado, por lo tanto E[
´
σ
2
] =
n−1
n
σ
2
. Es un ejemplo en ´el que el m´etodo de m´axima
verosimilitud proporciona un estimador sesgado.
VI.3. Estimaci´ on por intervalos
No queremos limitarnos a dar un valor para aproximar un par´ametro sino propor-
cionar tambi´en una medida del error que pensamos cometer. Para ello, calcularemos
un intervalo en ´el que pensamos que se encuentra el par´ametro.
VI.3.1. Idea b´asica
Supongamos que queremos estimar la media µ de una v.a. X cuya distribuci´on
es Normal con una desviaci´on t´ıpica igual a 2 unidades, es decir X ∼ A(µ, 4). Para
ello, extraigo una muestra de tama˜ no 4, y estimo µ por el valor de
¯
X. Por el tema 5,
ver V.3.2.1, sabemos que la distribuci´on de
¯
X es A(µ, σ
2
/n) es decir A(µ, 1). Por la
propiedad de la distribuci´on Normal, ver b), deducimos que el 95 % de las muestras
proporcionan un valor de
¯
X que se encuentra a menos de 2 unidades de la media µ.
Invertamos ahora la situaci´on: s´e donde est´a
¯
X, ¿donde est´a µ? Por la misma
regla, se encuentra, para el 95 % de las muestras, a menos de 2 unidades de
¯
X, es
decir que µ se encuentra en el intervalo [
¯
X −2,
¯
X + 2]. Dicho de otra manera, para
el 95 % de las muestras, el intervalo aleatorio [
¯
X − 2,
¯
X + 2] captura el valor del
par´ametro µ.
VI.3.2. Intervalo de confianza para la media µ de una distribuci´ on
Normal con varianza conocida
VI.3.2.1. Construcci´on
Consideramos la variable X ∼ A(µ, σ
2
). Suponemos que conocemos el valor de
σ
2
. La construcci´on del intervalo de confianza para la media µ se realiza siguiendo
los siguientes pasos.
Nos fijamos el llamado “nivel de riesgo”, α un n´ umero entre 0 y 1. La cantidad
1 −α expresada en porcentaje se llama nivel de confianza.
Los valores m´as utilizados de α son 0,1, 0,05, y 0,01, lo que corresponde con
niveles de confianza del 90 % ,95 % y 99 % respectivamente.
96 Mathieu Kessler: M´etodos Estad´ısticos
Escogemos el estad´ıstico
¯
X para estimar µ. Su distribuci´on en su forma tipifi-
cada es
¯
X −µ
σ/

n
∼ A(0, 1).
Para 0 ≤ u ≤ 1, utilizamos la notaci´on z
u
para denotar el cuantil u de la
distribuci´on Normal est´andar, es decir el valor que cumple P(Z ≤ z
u
) = u,
o dicho de otra manera, el valor que deja a su izquierda un ´area igual a u
debajo de la curva de la densidad Normal est´andar. En particular usaremos de
manera repetida los cuantiles siguientes: z
0,95
, z
0,975
y z
0,995
. Para conocer sus
valores, podemos buscar en la tabla de la Normal est´andar, los valores 0,95,
0,975 y 0,995 en la columna de las probabilidades φ(t) y apuntar los valores
correspondientes de t. Encontramos z
0,95
= 1,64, z
0,975
= 1,96 y z
0,995
= 2,56.
Dibujo en la densidad del estad´ıstico
¯
X−µ
σ/

n
, una regi´on central que represente
el 100(1 −α) % del ´area total, tal como viene ilustrado en la figura siguiente
Deducimos
P(−z
1−α/2

¯
X −µ
σ/

n
≤ z
1−α/2
) = 1 −α.
Despejamos µ en las desigualdades
P(−z
1−α/2
σ/

n ≤
¯
X −µ ≤ z
1−α/2
σ/

n) = 1 −α
⇔P(−
¯
X −z
1−α/2
σ/

n ≤ −µ ≤ −
¯
X +z
1−α/2
σ/

n) = 1 −α
⇔P(
¯
X +z
1−α/2
σ/

n ≥ µ ≥
¯
X −z
1−α/2
σ/

n) = 1 −α
⇔P(
¯
X −z
1−α/2
σ/

n ≤ µ ≤
¯
X +z
1−α/2
σ/

n) = 1 −α
El intervalo de confianza al 100(1 −α) % para µ es
µ ∈ [
¯
X −z
1−α/2
σ/

n;
¯
X +z
1−α/2
σ/

n].
Se escribe tambi´en de otra manera equivalente:
µ =
¯
X ±z
1−α/2
σ/

n,
el t´ermino z
1−α/2
σ/

n se llama t´ermino de error.
VI.3 Estimaci´on por intervalos 97
VI.3.2.2. Interpretaci´on
El intervalo [
¯
X−z
1−α/2
σ/

n;
¯
X+z
1−α/2
σ/

n] es un intervalo aleatorio, puesto
que sus extremos dependen de la muestra escogida. Por su construcci´on, sabemos
que este intervalo aleatorio tiene una probabilidad de 100(1 − α) % de capturar el
valor de µ. Es decir que, al extraer una muestra, tengo una probabilidad igual a
1 − α de que el intervalo que calcular´e efectivamente capture el valor µ que busco.
Tambi´en tengo una probabilidad α de que, al afirmar que µ se encuentra en [
¯
X −
z
1−α/2
σ/

n;
¯
X +z
1−α/2
σ/

n], me equivoque. Sin embargo, esta probabilidad α, el
riesgo de equivocarme, se fija en general bastante peque˜ no, por ejemplo α = 0,05.
Para ilustrar esta interpretaci´on, he simulado 20 veces el proceso de extraer una
muestra de tama˜ no 4 de una distribuci´on X ∼ A(µ
X
, 1). He representado en la
Figura VI.2 en el eje Ox el n´ umero de la muestra y en el eje Oy el intervalo de
confianza asociado. Adem´as una l´ınea horizontal representa el valor de µ que se
pretende estimar, en este caso µ = 2. La gran mayor´ıa de los intervalos capturan el
valor correcto de µ, pero hay un intervalo, el correspondiente a la muestra n´ umero
13 que no lo hace: este intervalo es err´oneo, y esta muestra forma parte del 5 % de
las muestras “malas”, es decir las que proporcionan intervalos equivocados.
5 10 15 20
0
1
2
3
4
Número de la muestra
I
n
t
e
r
v
a
l
o
s

d
e

c
o
n
f
i
a
n
z
a


q


q


q −

q


q


q


q


q


q


q


q


q


q


q


q


q


q


q


q


q
Figura VI.2: Los intervalos de confianza al 95 % correspondientes a 20 muestras de
tama˜ no 4. La media que se busca estimar es µ = 2.
VI.3.2.3. Ejemplo
Supongamos que queremos estimar la longitud media de un art´ıculo producido
por una m´aquina. Por experiencia, sabemos que es razonable modelizar la distribu-
ci´on de los valores de la longitud de los art´ıculos producidos por una distribuci´on
Normal con media µ y desviaci´on t´ıpica igual a 0.05. Para estimar µ extraemos una
muestra de 5 art´ıculos y construimos un intervalo de confianza al 90 %. Supongamos
que los datos que se obtienen son los siguientes:
20.1, 20.05, 20.01, 19.95, 19.99.
98 Mathieu Kessler: M´etodos Estad´ısticos
El intervalo de confianza es µ ∈ [
¯
X − z
1−α/2
σ/

n,
¯
X + z
1−α/2
σ/

n]. Necesitamos
¯
X, es f´acil comprobar que
¯
X = 20,02, por otra parte, al haber escogido 90 % de
confianza, fijamos α = 0,1. Deducimos de la tabla Normal que z
1−α/2
= z
0,95
= 1,64.
Concluimos que el intervalo buscado ser´a
[20,02 −1,64
0,05

5
, 20,02 + 1,64
0,05

5
],
es decir µ ∈ [19,98, 20,06], o de forma equivalente µ = 20,02 ±0,04.
VI.3.3. Comentarios importantes
a) La construcci´on del intervalo de confianza est´a basada en la hip´otesis de que la
distribuci´on de la v.a. X es Normal, puesto que utilizamos
¯
X −µ
σ/

n
∼ A(0, 1).
Si la distribuci´on de X no es Normal, el intervalo no es v´alido, es decir que no
podemos garantizar que la confianza especificada sea cierta. Sin embargo, en
el caso en que la muestra es grande, podemos recurrir al Teorema Central del
L´ımite, ver V.3.1, y sabemos que
aproximadamente,
¯
X −µ
σ/

n
∼ A(0, 1),
lo que posibilita que los intervalos sean aproximadamente v´alidos: la confianza
especificada no ser´a exacta pero casi...
¿A partir de cuantas observaciones consideramos una muestra como grande?
No hay respuesta universal, depende mucho de lo alejado que est´a la dis-
tribuci´on de X de una distribuci´on Normal. En general, se suele considerar
en pr´actica que n ≥ 30 es suficiente para que los intervalos construidos sean
aproximadamente v´alidos.
b) Factores que afectan a la precisi´on de la estimaci´on.
Recordar que en la estimaci´on por un intervalo, el margen de error es ±z
1.α/2
σ/

n.
Deducimos en particular que
cuanto mayor sea n, m´as precisa ser´a la estimaci´on, es decir que m´as
peque˜ no ser´a el intervalo de confianza.
cuanto menor sea σ, mayor precisi´on en la estimaci´on.
cuanto mayor sea la confianza, peor ser´a la precisi´on de la estimaci´on: si
queremos garantizar con gran confianza que el intervalo proporcionado
captura µ, no hay m´as remedio que proporcionar un intervalo grande...
c) La hip´otesis de que σ es conocida no es realista: en general tambi´en hay que
estimarla a partir de la muestra. La distribuci´on del estad´ıstico que resulta
de sustituir σ por S, la desviaci´on t´ıpica muestral,
¯
X−µ
S/

n
es una t de Student
con n − 1 grados de libertad. Podemos repetir los pasos de construcci´on del
intervalo de confianza para µ bas´andonos en el estad´ıstico
¯
X−µ
S/

n
:
VI.3 Estimaci´on por intervalos 99
Nos fijamos el “nivel de riesgo”, α.
Escogemos el estad´ıstico
T =
¯
X −µ
S/

n
∼ t
n−1
Dibujo en la densidad del estad´ıstico T una regi´on central que represente
el 100(1−α) % del ´area total, tal como viene ilustrado en la figura siguiente
Deducimos
P(−t
n−1,1−α/2

¯
X −µ
S/

n
≤ t
n−1,1−α/2
) = 1 −α,
donde hemos utilizado la notaci´on t
n−1,1−α/2
para denotar el cuantil 1 −
α/2 de la distribuci´on t
n−1
, es decir el punto que deja un ´area igual
a 1 − α/2 a su izquierda. Los valores de los cuantiles m´as usados de la
distribuci´on t est´an recogidos en una tabla en el ap´endice de este cap´ıtulo.
Despejamos µ en las desigualdades y obtenemos
P(
¯
X −t
n−1,1−α/2
S/

n ≤ µ ≤
¯
X +t
n−1,1−α/2
S/

n) = 1 −α.
El intervalo de confianza al 100(1 −α) % para µ es
µ ∈ [
¯
X −t
n−1,1−α/2
S/

n;
¯
X +t
n−1,1−α/2
S/

n].
Se escribe tambi´en
µ =
¯
X ±t
n−1,1−α/2
S/

n,
el t´ermino t
n−1,1−α/2
S/

n es el t´ermino de error.
VI.3.4. Determinaci´ on del tama˜ no muestral
VI.3.4.1. Planteamiento
Si estoy en condiciones de dise˜ nar el experimento que quiero realizar para estimar
la media µ, puedo intentar decidir del n´ umero de observaciones en la muestra que
100 Mathieu Kessler: M´etodos Estad´ısticos
ser´an necesarias para garantizar, con una confianza dada, que el margen de error
sea menor que una cantidad prefijada. Es decir, que me fijo una cantidad max, y
me pregunto cu´al deber´a de ser el valor de n para que
z
1−α/2
σ

n
≤ max.
Es f´acil obtener n despej´andolo de la desigualdad.
VI.3.4.2. Ejemplo
La medici´on de la conductividad de un material sigue una distribuci´on que mod-
elizamos por una Normal con desviaci´on t´ıpica σ = 0,5. Quiero construir un intervalo
de confianza al 95 % para el valor promedio proporcionado de la conductividad pero
quiero que el error cometido sea menor de 0.3. ¿cu´antas veces deber´e repetir la
medici´on?
Busco n tal que z
1−α/2
σ/

n ≤ 0,3, sabiendo que σ = 0,5, y α = 0,05. Obtengo
1,96
0,5

n
≤ 0,3,
es decir que
n ≥

1,96 0,5
0,3

2
· 10,67.
Habr´a por lo tanto que realizar 11 mediciones.
VI.3 Estimaci´on por intervalos 101
Cuantiles de la distribuci´ on t de Student
Valores de los cuantiles de la distribuci´on t de Student con k grados de libertad:
para un 0 ≤ p ≤ 1, el valor t
k,p
satisface P(t ≤ t
k,p
) = p.
k t
k,0,995
t
k,0,99
t
k,0,975
t
k,0,95
t
k,0,90
t
k,0,80
t
k,0,70
t
k,0,60
t
k,0,50
1 63,657 31,821 12,706 6,314 3,078 1,376 0,727 0,325 0,158
2 9,925 6,965 4,303 2,92 1,886 1,061 0,617 0,289 0,142
3 5,841 4,541 3,182 2,353 1,638 0,978 0,584 0,277 0,137
4 4,604 3,747 2,776 2,132 1,533 0,941 0,569 0,271 0,134
5 4,032 3,365 2,571 2,015 1,476 0,92 0,559 0,267 0,132
6 3,707 3,143 2,447 1,943 1,44 0,906 0,553 0,265 0,131
7 3,499 2,998 2,365 1,895 1,415 0,896 0,549 0,263 0,13
8 3,355 2,896 2,306 1,86 1,397 0,889 0,546 0,262 0,13
9 3,25 2,821 2,262 1,833 1,383 0,883 0,543 0,261 0,129
10 3,169 2,764 2,228 1,812 1,372 0,879 0,542 0,26 0,129
11 3,106 2,718 2,201 1,796 1,363 0,876 0,54 0,26 0,129
12 3,055 2,681 2,179 1,782 1,356 0,873 0,539 0,259 0,128
13 3,012 2,65 2,16 1,771 1,35 0,87 0,538 0,259 0,128
14 2,977 2,624 2,145 1,761 1,345 0,868 0,537 0,258 0,128
15 2,947 2,602 2,131 1,753 1,341 0,866 0,536 0,258 0,128
16 2,921 2,583 2,12 1,746 1,337 0,865 0,535 0,258 0,128
17 2,898 2,567 2,11 1,74 1,333 0,863 0,534 0,257 0,128
18 2,878 2,552 2,101 1,734 1,33 0,862 0,534 0,257 0,127
19 2,861 2,539 2,093 1,729 1,328 0,861 0,533 0,257 0,127
20 2,845 2,528 2,086 1,725 1,325 0,86 0,533 0,257 0,127
21 2,831 2,518 2,08 1,721 1,323 0,859 0,532 0,257 0,127
22 2,819 2,508 2,074 1,717 1,321 0,858 0,532 0,256 0,127
23 2,807 2,5 2,069 1,714 1,319 0,858 0,532 0,256 0,127
24 2,797 2,492 2,064 1,711 1,318 0,857 0,531 0,256 0,127
25 2,787 2,485 2,06 1,708 1,316 0,856 0,531 0,256 0,127
26 2,779 2,479 2,056 1,706 1,315 0,856 0,531 0,256 0,127
27 2,771 2,473 2,052 1,703 1,314 0,855 0,531 0,256 0,127
28 2,763 2,467 2,048 1,701 1,313 0,855 0,53 0,256 0,127
29 2,756 2,462 2,045 1,699 1,311 0,854 0,53 0,256 0,127
30 2,75 2,457 2,042 1,697 1,31 0,854 0,53 0,256 0,127
40 2,704 2,423 2,021 1,684 1,303 0,851 0,529 0,255 0,126
60 2,66 2,39 2 1,671 1,296 0,848 0,527 0,254 0,126
120 2,617 2,358 1,98 1,658 1,289 0,845 0,526 0,254 0,126
>120 2.576 2.326 1.960 1.645 1.282 0.842 0.524 0.253 0.126
TEMA VII
Introducci´ on a los contrastes de hip´ otesis
VII.1. Introducci´ on
En el tema anterior, hemos aprendido c´omo estimar, es decir, aproximar el valor
de un par´ametro bas´andonos en las observaciones de una muestra. Hay situaciones
en las que m´as que conocer el valor concreto del par´ametro, queremos tomar una
decisi´on acerca de ´este. Formularemos una hip´otesis sobre el valor del par´ametro y
la contrastaremos con los datos de la muestra para comprobar si ´estos la apoyan o
la desmienten.
Para ilustrar los conceptos relacionados con los contrastes de hip´otesis, retomamos
el ejemplo visto al final del tema 5 cuando describimos la gr´afica de control
¯
X: una
empresa controla la concentraci´on de CaCO3 en su producto. El valor ideal de esta
concentraci´on es 55. Si llamamos X la concentraci´on de CaCO3 medida en un en-
vase, sabemos que es razonable modelizar la distribuci´on de X por una distribuci´on
Normal de media µ y desviaci´on t´ıpica 8. En el tema 5, vimos c´omo la empresa
puede realizar un control de la calidad de su producci´on gracias a una gr´afica
¯
X:
cada hora toma una muestra de 4 envases, mide la concentraci´on de CaCO3 en cada
caso y calcula su media. Bas´andose en este valor decide si el proceso de producci´on
est´a en condiciones de correcto funcionamiento, es decir si µ = 55.
Para decidir si µ = 55 o µ = 55, la empresa se fija una regla: si
¯
X > 60,4
´o
¯
X < 49,6, decide que µ = 55 y para la producci´on para ajustar el proceso de
fabricaci´on.
Este ejemplo contiene todos los ingredientes del contraste de hip´otesis y pasamos
a describirlos en un contexto m´as general.
104 Mathieu Kessler: M´etodos Estad´ısticos
VII.2. Planteamiento general
VII.2.1. Hip´ otesis estad´ıstica
Una hip´otesis estad´ıstica es una proposici´on acerca del valor de un par´ametro
en el modelo considerado. La formulaci´ on de un contraste de hip´otesis pasa siempre
por el planteamiento de dos hip´otesis:

H
0
: µ = 55, Hip´otesis nula
H
1
: µ = 55, Hip´otesis alternativa
Habr´a casos en los que nos interesar´a decidir si el par´ametro es mayor (o menor)
que un valor dado, entonces cambiaremos la formulaci´on de la hip´otesis alternativa,
pero seguiremos, para simplificar, considerando la igualdad en la hip´otesis nula. Por
ejemplo si queremos contrastar si µ es mayor que 55, plantearemos el contraste:

H
0
: µ = 55,
H
1
: µ > 55,
mientras que si queremos decidir si µ es menor que 55, plantearemos

H
0
: µ = 55,
H
1
: µ < 55,
De los tres contrastes, el primero se llama contraste bilateral, puesto que la
hip´otesis alternativa comprende tanto valores mayores como valores menores que
55, mientras que los dos ´ ultimos se llaman contrastes unilaterales.
VII.2.2. Regla de decisi´on
Bas´andonos en un estad´ıstico T(X
1
, . . . , X
n
), es decir en una funci´on de las
observaciones, determinaremos una regi´on de rechazo R. Para mi muestra calcular´e
el valor concreto de T(X
1
, . . . , X
n
); si este valor pertenece a R, rechazaremos H
0
, es
decir afirmaremos que los datos apoyan la hip´otesis alternativa H
1
.
En cambio si el valor de T(X
1
, . . . , X
n
) no pertenece a R, aceptaremos H
0
,
diremos que los datos no presentan argumentos en contra de la hip´otesis nula.
En el ejemplo de los monitores de ordenador, la regla de decisi´on que se hab´ıa
fijado la empresa es: bas´andose en el estad´ıstico T(X
1
, . . . , X
n
) =
¯
X, la regi´on de
rechazo es R = ¦x < 49,6¦ ∪ ¦x > 60,4¦.
VII.2.3. Evaluaci´ on del error
Al tomar la decisi´on acerca de la veracidad de H
0
, podemos cometer dos tipos
de error:
VII.2.3.1. Error de tipo I
Podemos afirmar que H
0
es falsa, cuando en realidad es cierta, es decir que los
datos nos llevan a rechazar H
0
cuando ´esta es cierta. Este tipo de error se llama
error de tipo I, y, una vez fijada una regla de decisi´on, la probabilidad de cometerlo
se denota por α, (la letra griega “alfa”). Tenemos por lo tanto
α = P
H
0
(Rechazar H
0
) = P
H
0
(T(X
1
, . . . , X
n
) ∈ R)),
VII.2 Planteamiento general 105
donde con la notaci´on P
H
0
, nos referimos a la probabilidad suponiendo que H
0
es
cierta.
En el ejemplo de la concentraci´on de CaCO3, podemos calcular la probabilidad
de error de tipo I:
α = P
H
0
(Rechazar H
0
) = P
µ=55
((
¯
X < 49,6) ∪ (
¯
X > 60,4)).
Pero, precisamente, los l´ımites de control en la gr´afica
¯
X se fijaron para que, si la
m´aquina est´a bien ajustada, es decir si µ = 55, s´olo el 3 por 1000 de las muestras
deben llevar a un valor de
¯
X fuera de los l´ımites. Deducimos que α = 0,003.
VII.2.3.2. Error de tipo II
El segundo tipo de error se comete cuando admitimos H
0
cuando en realidad es
falsa. Una vez fijada la regla de decisi´on, la probabilidad de cometer un error de tipo
II se denota por β ( la letra griega “beta”). Tenemos
β = P
H
1
(Aceptar H
0
) = P
H
1
(T(X
1
, . . . , X
n
) / ∈ R).
El c´alculo de β s´olo se puede hacer si especificamos un valor concreto de µ en la
hip´otesis alternativa. Para el ejemplo de la concentraci´on de CaCO3, podemos por
ejemplo calcular β cuando en realidad µ = 65. Tenemos β = P
µ=65
(49,6 ≤
¯
X ≤
60,4), y sabemos que
¯
X ∼ A(µ, σ
2
/n) es decir
¯
X ∼ A(µ, (4)
2
). Tipificamos
¯
X para
calcular β:
β = P
µ=65
(
49,6 −65
4

¯
X −65
4

60,4 −65
4
) · φ(−2,3) −φ(−7,7) · 0,13.
VII.2.4. Procedimiento
Para llevar a cabo un contraste de hip´otesis, tendremos que
Formular las hip´otesis H
0
y H
1
.
Fijarnos la probabilidad de error de tipo I, α. Al igual que para los contrastes
de hip´otesis, los valores de α m´as comunes son 0.05, 0.01 o 0.1. (95 %, 99 % ´o
90 % de confianza respectivamente).
Escogemos el estad´ıstico de prueba T(X
1
, . . . , X
n
) basado generalmente en un
estimador del par´ametro. Describimos su distribuci´on muestral bajo la hip´ote-
sis de que H
0
es cierta.
Determinamos la regi´on de rechazo R de tal manera que la probabilidad de
rechazar H
0
cuando ´esta es cierta coincida con el valor prefijado de α, es decir
P
H
0
(T(X
1
, . . . , X
n
) ∈ R) = α.
Para nuestra muestra, calculamos el valor concreto del estad´ıstico de prueba
T(X
1
, . . . , X
n
). Si este valor cae en la regi´on R, rechazamos H
0
y afirmamos
H
1
, mientras que si no cae en la regi´on R, admitimos H
0
.
106 Mathieu Kessler: M´etodos Estad´ısticos
VII.3. Contraste de hip´ otesis para la media µ de una
distribuci´ on Normal con varianza conocida.
Consideramos una variable X, suponemos que su distribuci´on ha sido modelizada
por una Normal con media µ y varianza σ
2
. Suponemos adem´as que conocemos el
valor de la varianza σ
2
.
Queremos llevar a cabo un contraste sobre µ, para ello, extraeremos una muestra
de tama˜ no n de la distribuci´on de X: X
1
, . . . , X
n
.
VII.3.1. Hip´ otesis bilateral
Para construir el contraste para µ en el caso en que formulamos una hip´otesis al-
ternativa bilateral, ver el apartado VII.2.1, seguimos los pasos descritos en la secci´on
VII.2.4:
Formulamos las hip´otesis:

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
donde µ
0
representa el valor concreto con ´el que queremos comparar µ. En el
ejemplo de los monitores, µ
0
vale 55.
Nos fijamos el valor de α.
El estad´ıstico de prueba es la versi´on tipificada de
¯
X, sabemos por el tema 5
que
Z
0
=
¯
X −µ
0
σ/

n
∼ A(0, 1) si H
0
es cierto.
Podemos ahora especificar la regi´on de rechazo. La probabilidad de que el
estad´ıstico de prueba Z
0
caiga en R cuando H
0
es cierta debe coincidir con el
valor de α que nos hemos fijado. Adem´as queremos que Z
0
caiga en R cuando
µ es distinto de µ
0
( H
1
cierta), es decir que corresponder´a a valores grandes
positivos o negativos de Z
0
. Por consiguiente fijamos la regi´on de rechazo de
la manera siguiente:
VII.3 Contraste de hip´otesis para la media µ de una distribuci´on Normal con
varianza conocida. 107
La regi´on R est´a formada por los valores menores que −z
1−α/2
o mayores que
z
1−α/2
.
Nos queda calcular, para nuestra muestra, el valor concreto del estad´ıstico de
prueba Z
0
. Si pertenece a R, rechazaremos H
0
y afirmaremos H
1
, mientras
que si no pertenece a R, admitiremos H
1
.
VII.3.2. Hip´ otesis unilateral
En el caso en que hemos planteado una hip´otesis unilateral, los pasos que seguimos
son los mismos que en el apartado anterior con la salvedad de la determinaci´on de
R:
Si la hip´otesis alternativa es H
1
: µ > µ
0
, la regi´on de rechazo ser´a
es decir que se rechazar´a H
0
si el valor del estad´ıstico de prueba Z
0
es mayor
de z
1−α/2
.
Si la hip´otesis alternativa es H
1
: µ < µ
0
, la regi´on de rechazo ser´a
es decir que se rechazar´a H
0
si el valor del estad´ıstico de prueba Z
0
es menor
de −z
1−α/2
.
108 Mathieu Kessler: M´etodos Estad´ısticos
VII.3.3. Ejemplos
VII.3.3.1. Hip´otesis alternativa bilateral
En un proceso de producci´on, la longitud de los art´ıculos producidos se modeliza
a trav´es de una distribuci´on Normal con media µ. Por experiencia acerca del proceso,
se cuantifica su desviaci´on t´ıpica en σ = 1. En condiciones de funcionamiento cor-
recto, se espera que la longitud media de los art´ıculos sea 50mm. Para comprobar la
calidad se decide tomar una muestra de 10 art´ıculos que resultan tener una longitud
media
¯
X igual a 51mm. Bas´andonos en esta muestra, ¿qu´e podemos decir acerca del
funcionamiento del proceso?
La variable que introducimos asociada al experimento “producir una pieza”, es
X=”longitud de la pieza producida”. Planteamos las hip´otesis

H
0
: µ = 50,
H
1
: µ = 50.
Decidimos trabajar al 95 % de confianza, que es el nivel est´andar de confianza, es
decir que nos fijamos α = 0,05.
El estad´ıstico de prueba es Z
0
=
¯
X−µ
0
σ/

n
, que sigue una distribuci´on Normal es-
t´andar si H
0
es cierta.
Las fronteras de la regi´on de rechazo son −z
1−α/2
= −z
0,975
= −1,96 y −z
1−α/2
=
1,96.
Bas´andonos en la muestra, calculamos el valor de Z
0
:
Z
0
=
51 −50
1/

10
· 3,162.
Puesto que Z
0
pertenece a R, rechazamos H
0
y afirmamos al 95 % de confianza que
el proceso est´a desajustado.
VII.3.3.2. Hip´otesis alternativa unilateral
Creo que un aparato de medici´on de una se˜ nal sobrevalora su valor real. Para
comprobarlo pienso realizar 5 mediciones de una se˜ nal simple cuyo valor s´e es igual
a 10000. Considerando que la distribuci´on de los valores medidos se puede mod-
elizar por una Normal con desviaci´on t´ıpica igual a 500, llevar a cabo el contraste
para comprobar si el valor central de los valores medidos es superior a 10000, si he
encontrado un valor promedio de 10300 para las 5 mediciones de la muestra.
El experimento aleatorio es “realizar la medici´on de la se˜ nal”, y la v.a X=”valor
proporcionado por el aparato”. Modelizamos X por una distribuci´on A(µ, σ
2
) con
σ = 500.
Planteamos las hip´otesis

H
0
: µ = 10000,
H
1
: µ > 10000,
El estad´ıstico es Z
0
, al igual que en el ejemplo anterior, pero la regi´on de rechazo
est´a constituida por los valores mayores que z
1−α
= z
0,95
= 1,64.
Para mi muestra, el valor de Z
0
es
Z
0
=
10300 −10000
500/

5
· 1,34.
VII.4 Concepto de p-valor 109
Deducimos que Z
0
no pertenece a R, por lo que no podemos rechazar H
0
: los
datos no contradicen H
0
.
VII.4. Concepto de p-valor
En el ejemplo VII.3.3.1, para el contraste

H
0
: µ = 50,
H
1
: µ = 50,
Hemos encontrado que el valor del estad´ıstico de prueba era z
0
= 3,162, y hemos
rechazado al 95 % de confianza la hip´otesis nula.
¿Cu´al habr´ıa sido nuestra decisi´on si, en lugar de habernos fijado el 95 % de
confianza, hubieramos escogido 90 % de confianza?
Por la forma en la que hemos construido la regi´on de rechazo, ´esta contiene el 5 %
del ´area total, y la regi´on de aceptaci´on, es decir el complementario de R, contiene el
95 % del ´area total. Deducimos por lo tanto que la regi´on de rechazo que corresponde
al 90 % de confianza es m´as grande que la regi´on de rechazo que corresponde la 95 %
de confianza. Ser´a m´as f´acil rechazar H
0
al 90 % que al 95 % de confianza.
Esto corresponde a un hecho general: si rechazamos H
0
a un nivel de confianza
dado, tambi´en la rechazaremos para cualquier nivel de confianza menor...
En cambio, si nos preguntamos cu´al habr´ıa sido nuestra decisi´on al 99 % de con-
fianza? La regi´on de rechazo mengua, y para saber si seguimos rechazando H
0
nece-
sitamos comprobar si el valor de nuestro estad´ıstico de prueba sigue encontr´andose
dentro de la nueva regi´on de rechazo. En nuestro ejemplo VII.3.3.1, las fronteras
de la regi´on de rechazo al 99 % de confianza son −z
1−α/2
= −z
0,995
= −2,56 y
z
0,995
= 2,56, puesto que Z
0
toma el valor 3.162, tambi´en rechazamos H
0
al 99 % de
confianza.
Planteado un contraste, y para un valor concreto del estad´ıstico de prueba, pode-
mos preguntarnos cu´al habr´ıa sido la confianza m´axima con la que rechazar´ıamos
H
0
para estos datos. Equivalentemente, podemos calcular el valor m´as peque˜ no de
α que nos lleve a rechazar H
0
.
Definici´on VII.4.1 El valor de α m´as peque˜ no que nos lleve a rechazar H
0
se llama
el p-valor de la prueba, y lo denotaremos por α
0
.
Para determinar α
0
, tendremos que considerar la regi´on de rechazo que haga
de frontera entre las dos decisiones: rechazar H
0
y aceptar H
0
. Si en la gr´afica de
la distribuci´on del estad´ıstico Z
0
, empezamos primero por se˜ nalar el valor de z
0
obtenido para la muestra, esta regi´on de rechazo se obtendr´a al hacer coincidir una
de sus fronteras con z
0
: para una regi´on de rechazo m´as grande (es decir un α m´as
grande) se rechazar´a H
0
mientras que para una regi´on de rechazo m´as peque˜ na (es
decir un α m´as peque˜ no) tendremos que aceptar H
0
. El valor de α correspondiente
a esta regi´on R es α
0
.
Lo ilustramos para el ejemplo en ´el que z
0
= 3,162 en la gr´afica siguiente:
110 Mathieu Kessler: M´etodos Estad´ısticos
−z
0
z
0
Para calcular α
0
, deducimos del dibujo anterior que
α
0
/2 = P(Z ≥ 3,162),
es decir que α
0
= 2(1 −φ(3,162)) · 0,00156..
Deducimos que para el ejemplo, la confianza m´axima con la que podr´ıamos haber
rechazado es
100(1 −α
0
) = 100(0,99844) = 99,84 %.
Este resultado es coherente con las decisiones que hemos tomado al 95 % y al 99 %
de confianza.
Cualquier programa de estad´ıstica que permita llevar a cabo un contraste de
hip´otesis no solicita del usuario que especifique la confianza, sino que directamente
le proporciona el p-valor, dejando en sus manos la decisi´on de rechazar o aceptar
H
0
. En general se suele considerar que un p-valor menor de 0.1 nos lleva a rechazar
H
0
aunque el est´andar corresponder´ıa realmente a un p-valor menor que 0,05. Si el
p-valor es mayor de 0.2, se admite H
0
. Si el p-valor est´a comprendido entre 0.1 y
0.2, no permite concluir de manera muy segura y deber´ıamos intentar colectar m´as
datos.
VII.5. Potencia del test
VII.5.1. Definici´on
Hemos visto que, a la hora de construir un contraste de hip´otesis, lo m´as f´acil es
controlar la probabilidad de error de tipo I, puesto que la regi´on de rechazo se define
para que esta probabilidad coincida con el valor fijado de α. Sin embargo, tambi´en
es importante saber que, si H
0
es falsa, nuestro contraste lo detectar´a con bastante
probabilidad, es decir que nos llevar´a a concluir de manera correcta que H
0
es falsa.
Definici´on VII.5.1 Consideremos H
1
la hip´otesis alternativa, y µ
1
un valor con-
creto de µ incluido en los valores contemplados en H
1
.
La potencia de un test (contraste de hip´ otesis) contra la alternativa µ = µ
1
, es
la probabilidad de rechazar H
0
cuando ´esta es falsa y en realidad µ = µ
1
. Es decir
Pot(µ
1
) = P
µ=µ
1
(Rechazar H
0
).
VII.5 Potencia del test 111
Cuanto mayor ser´a la potencia, mejor ser´a el contraste. Se suele considerar suficiente
una potencia de al menos 0.8
Recordar que el error de tipo II consiste en aceptar H
0
cuando en realidad ´esta
es falsa, la relaci´on entre la probabilidad β de error de tipo II y la potencia es por
lo tanto
β = 1 −Pot(µ
1
).
VII.5.2. C´alculo de la potencia
Queremos plantear un contraste sobre la media, por ejemplo en su versi´on bilat-
eral,

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
,
con un cierto nivel de confianza, y planificamos tomar una muestra de n observa-
ciones.
Para calcular la potencia de este contraste contra la alternativa µ = µ
1
, seguimos
los pasos de la realizaci´on del contraste hasta la definici´on de la regi´on de rechazo
R incluida:
Por ejemplo

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
,
pero podr´ıa ser con hip´otesis alternativa unilateral tambi´en.
Nos fijamos α.
El estad´ıstico de prueba es Z
0
=
¯
X−µ
0
σ/

n
, que sigue una distribuci´on Normal
est´andar si H
0
es cierta.
Construimos la regi´on de rechazo seg´ un el tipo de hip´otesis alternativa que nos
hemos planteado. Por ejemplo si es bilateral, la regi´on es
A partir de aqu´ı, podemos pasar al c´alculo de la potencia: sabemos que
Pot(µ
1
) = P
µ=µ
1
(Rechazar H
0
),
112 Mathieu Kessler: M´etodos Estad´ısticos
es decir que
Pot(µ
1
) = P
µ=µ
1
(Z
0
∈ R). (VII.1)
En el caso de una hip´otesis alternativa bilateral, esta probabilidad es
Pot(µ
1
) = P
µ=µ
1
((Z
0
≤ −z
1−α/2
) ∪ (Z
0
≥ z
1−α/2
)).
Para calcular la potencia necesitamos por lo tanto conocer la distribuci´on de Z
0
cuando H
0
no es cierta, sino µ = µ
1
. Para ello, utilizamos la relaci´on siguiente
Z
0
=
¯
X −µ
0
σ/

n
=
¯
X −µ
1
σ/

n
+
µ
1
−µ
0
σ/

n
.
Si µ = µ
1
, la variable
¯
X−µ
1
σ/

n
sigue una distribuci´on Normal est´andar. Deducimos
por lo tanto que
Si µ = µ
1
, Z
0
∼ A(δ, 1),
donde δ se llama el par´ametro de no-centralidad y se define como
δ =
µ
1
−µ
0
σ/

n
.
´
Esta es la distribuci´on que utilizaremos para calcular la potencia a partir de la
expresi´on en (VII.1). Para ello bastar´a con tipificar la variable Z
0
para expresar
la probabilidad buscada en t´erminos de φ.
VII.5.3. Ejemplo de c´alculo de la potencia
Volvamos al ejemplo del apartado VII.3.3.1, en ´el que estudiamos la longitud
media de los art´ıculos producidos. La v.a introducida es X=”longitud de un art´ıculo
producido” y hemos supuesto que X ∼ A(µ, σ
2
), con σ = 1.
Queremos comprobar que la longitud media de los art´ıculos producidos no es
significativamente distinta de 50mm. Para ello, planificamos llevar a cabo el contraste

H
0
: µ = 50,
H
1
: µ = 50,
,
cogiendo una muestra de 10 piezas, y fijando una confianza del 95 %.
¿Cu´al es la probabilidad de que, si en realidad µ = 50,5, y por lo tanto H
0
es
falsa, el contraste que hemos planeado nos permita detectar que H
0
es falsa, es decir
que nos lleve a rechazar H
0
.
Queremos calcular Pot(50,5). Desarrollamos el contraste hasta la determinaci´on
de R.

H
0
: µ = 50,
H
1
: µ = 50,
Nos fijamos α = 0,05.
El estad´ıstico Z
0
=
¯
X−µ
0
σ/

n
sigue una distribuci´on Normal est´andar si H
0
es
cierta.
VII.6 Inferencia para la media 113
La regi´on de rechazo es R = ¦z : z < −z
1−α/2
o z > z
1−α/2
¦ es decir
R = ¦z : z < −1,96 o z > 1,96¦.
Ahora
Pot(50,5) = P
µ=µ
1
(Z
0
∈ R) = P
µ=µ
1
((Z
0
≤ −1,96) ∪ (Z
0
≥ 1,96)).
Sabemos que, si µ = µ
1
, Z
0
∼ A(δ, 1). Calculemos δ:
δ =
µ
1
−µ
0
σ/

n
=
50,5 −50
1/

10
· 1,58.
Deducimos tipificando que
Pot(50,5) = P
µ=µ
1
(Z
0
≤ −1,96) +P
µ=µ
1
(Z
0
≥ 1,96)
= P
µ=µ
1
(
Z
0
−δ
1

−1,96 −δ
1
) +P
µ=µ
1
(
Z
0
−δ
1

1,96 −δ
1
)
= P(Z ≤ −3,54) +P(Z ≥ 0,38)
= φ(−3,54) + (1 −φ(0,38)) = 1 −φ(3,54) −(1 −φ(0,38)) · 0,35.
Esta potencia es insuficiente, para mejorarla, tendremos que planificar un experi-
mento con m´as observaciones.
VII.5.4. Factores que influyen la potencia
Cuanto mayor sea n, mayor ser´a la potencia.
Cuanto menor sea σ, mayor ser´a la potencia.
Cuanto mayor sea el nivel de confianza, menor ser´a la potencia: si exigimos
m´as confianza, pagamos un precio...
Cuanto m´as diferencia haya entre µ
1
y µ
0
, m´as f´acil ser´a detectar cuando µ no
es igual a µ
0
sino a µ
1
, por lo tanto, mayor ser´a la potencia.
VII.6. Inferencia para la media
En la presentaci´on del contraste de hip´otesis, hemos considerado el caso en que
el modelo es normal con varianza conocida. En el caso m´as realista en que no se
especifica el valor de la varianza como parte del modelo, lo estimaremos a partir de
la muestra. A continuaci´on construimos contrastes de hip´otesis para la media de una
distribuci´on Normal con varianza desconocida.
VII.6.1. Contraste de hip´ otesis para la media µ de una distribuci´ on
Normal con varianza desconocida
VII.6.1.1. Construcci´on
Seguimos los mismos pasos que en el caso en que la varianza es conocida.
114 Mathieu Kessler: M´etodos Estad´ısticos
Planteamos las hip´otesis. Por ejemplo para una hip´otesis alternativa bilateral:

H
0
: µ = µ
0
,
H
1
: µ = µ
0
,
donde µ
0
representa el valor concreto con ´el que queremos comparar µ.
Nos fijamos el valor de α.
El estad´ıstico de prueba es
T
0
=
¯
X −µ
0
S/

n
∼ t
n−1
si H
0
es cierto.
Podemos ahora especificar la regi´on de rechazo.
La regi´on R est´a formada por los valores menores que −t
n−1,1−α/2
o mayores
que t
n−1,1−α/2
.
Nos queda calcular, para nuestra muestra, el valor concreto del estad´ıstico de
prueba T
0
. Si pertenece a R, rechazaremos H
0
y afirmaremos H
1
, mientras que
si no pertenece a R, admitiremos H
1
.
En el caso en que la hip´otesis alternativa es unilateral lo ´ unico que cambia es la
regi´on de rechazo:

H
0
: µ = µ
0
,
H
1
: µ < µ
0
,

H
0
: µ = µ
0
,
H
1
: µ > µ
0
,
VII.7 Inferencia para dos medias 115
VII.6.1.2. Ejemplo
Volvamos al ejemplo de las mediciones visto en la secci´on anterior, queremos
contrastar si el centro de los valores proporcionados por el aparato es mayor que
10.2, bas´andonos en las mismas tres mediciones.
Planteamos las hip´otesis

H
0
: µ = 10,2,
H
1
: µ > 10,2,
Nos fijamos α = 0,05, suponiendo que trabajamos con 95 % de confianza. El estad´ıs-
tico de prueba es
T
0
=
¯
X −µ
0
S/

n
∼ t
n−1
si H
0
es cierto.
La regi´on de rechazo es unilateral : R = ¦t : t > t
n−1,1−α
¦, la frontera siendo
t
2,0,95
= 2,92.
Para la muestra escogida, el valor del estad´ıstico de prueba es
t
0
=
¯
X −µ
0
S/

n
=
10,24333 −10,2

0,0002333/

3
· 4,913.
Este valor pertenece a la regi´on de rechazo por lo que deducimos que al 95 % de
confianza rechazamos H
0
.
Notar en particular que deducimos en particular, puesto que hemos rechazado
H
0
al 95 % de confianza, que el p-valor es menor que 0.05. En realidad, al igual que
en el tema 7, caracterizamos el p-valor como
α
0
= P(t > 4,913),
donde t es una distribuci´on t de Student con 2 grados de libertad. Podemos utilizar
una calculadora estad´ıstica para calcular α
0
de manera precisa. Si s´olo tenemos una
tabla a mano, podemos ir probando con distintos niveles de confianza para obtener
cuotas razonablemente precisas de α
0
.
Por ejemplo, de la tabla de los cuantiles de la distribuci´on t que se encuentra
en el ap´endice, deduzco que el valor del estad´ıstico de prueba, T
0
= 4,913 es mayor
que t
2,0,975
pero menor que t
2,0,99
. Deduzco que rechazar´ıa H
0
al 97.5 % de confianza
pero la aceptar´ıa al 99 % de confianza: el p-valor α
0
est´a comprendido entre 0,025 y
0,01.
VII.7. Inferencia para dos medias
Consideramos ahora situaciones en las que modelizamos dos variables X
1
y X
2
y
nos interesa posiblemente comparar sus dos medias, que denotamos respectivamente
por µ
1
y µ
2
.
Extraeremos dos muestras: una correspondiente a la primera variable X
1
y otra
correspondiente a X
2
. Utilizamos la notaci´on siguiente para designar los valores de
estas muestras:
Muestra 1: x
11
, x
12
, . . . , x
1,n
1
Muestra 2: x
11
, x
12
, . . . , x
1,n
1
116 Mathieu Kessler: M´etodos Estad´ısticos
En particular, hemos supuesto que el tama˜ no de la muestra 1 es n
1
, mientras que el
tama˜ no de la muestra 2 es n
2
.
Supondremos que hemos modelizado tanto la distribuci´on de X
1
como la dis-
tribuci´on de X
2
por Normales,
X
1
∼ A(µ
1
, σ
2
1
), X
2
∼ A(µ
2
, σ
2
2
).
VII.7.1. Estad´ısticos muestrales
Al pretender comparar µ
1
y µ
2
, nos basaremos en la cantidad µ
1
− µ
2
. El es-
tad´ıstico que utilizaremos para estimar esta cantidad es X
1
− X
2
, donde X
1
y X
2
denotan la media de la primera y de la segunda muestra respectivamente. Introduci-
mos tambi´en la notaci´on S
2
1
y S
2
2
para designar las varianzas respectivas de las dos
muestras.
Pasamos ahora a presentar distintos estad´ısticos relacionados con X
1
−X
2
entre
los que tendremos que escoger seg´ un la situaci´on de modelizaci´on en la que nos
encontremos: ¿conocemos σ
2
1
y σ
2
2
?, ¿las desconocemos pero las suponemos iguales?
etc...
VII.7.1.1. Caso de varianzas conocidas
Se cumple
X
1
−X
2
−(µ
1
−µ
2
)

σ
2
1
n
1
+
σ
2
2
n
2
∼ A(0, 1).
VII.7.1.2. Caso de varianzas desconocidas
a) Si se suponen las varianzas iguales
Si a la hora de la modelizaci´on hemos supuesto σ
2
1
= σ
2
2
, podemos estimar la
varianza com´ un σ
2
utilizando las dos muestras. Introducimos
S
2
0
=
(n
1
−1)S
2
1
+ (n
2
−1)S
2
2
n
1
+n
2
−2
Utilizaremos la distribuci´on
X
1
−X
2
−(µ
1
−µ
2
)

S
2
0
(
1
n
1
+
1
n
2
)
∼ t
n
1
+n
2
−2
.
b) Si NO se suponen iguales
En este caso, no se conoce de manera exacta la distribuci´on muestral del
estad´ıstico natural
X
1
−X
2
−(µ
1
−µ
2
)

S
2
1
n
1
+
S
2
2
n
2
. Sin embargo, se puede utilizar la aproxi-
maci´on siguiente:
X
1
−X
2
−(µ
1
−µ
2
)

S
2
1
n
1
+
S
2
2
n
2
∼ t
k
, donde k =´ınf(n
1
−1, n
2
−1).
VII.7 Inferencia para dos medias 117
VII.7.2. Intervalos y contrastes
La construcci´on de los intervalos y contrastes para µ
1
− µ
2
se realiza siguiendo
los mismos principios que para el caso de una media s´olo.
Para ilustrar esta construcci´on, nos limitamos por lo tanto a tratar dos ejemplos
extraidos de problemas de examenes
a). Ejemplo I. Dos disciplinas de cola para servicio de CPU han sido propuestas
por dos dise˜ nadores de sistemas operativos. Para compararlas se instalaron en dos
m´aquinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8
tareas aleatoriamente elegidas:
A 2.41 6.50 3.29 1.22 2.59 2.81 5.35 1.78
B 2.30 5.86 3.71 1.10 2.34 2.24 5.00 1.95
Suponiendo que la distribuci´on que sigue cada variable se puede aproximar por
una Normal, calcular el intervalo de confianza para la diferencia entre el tiempo
promedio de espera con la disciplina A y el tiempo promedio de espera con la disci-
plina B.
Soluci´on.Introduzcamos las variables
X
A
: tiempo de espera de una tarea escogida al azar, procesada por la disciplina A
X
B
: tiempo de espera de una tarea escogida al azar, procesada por la disciplina B
La hip´otesis de modelizaci´on sobre las distribuciones de X
A
y X
B
es
X
A
∼ A(µ
A
, σ
2
A
), X
B
∼ A(µ
B
, σ
2
B
).
y que son independientes.
Queremos construir un intervalo de confianza para µ
A
−µ
B
.
Nos fijamos el nivel de riesgo α = 0,05, es decir una confianza de 95 %.
El estad´ıstico de prueba, puesto que desconocemos las dos varianzas de X
A
y
X
B
es el descrito en el apartado VII.7.1.2 b)
X
A
−X
B
−(µ
A
−µ
B
)

S
2
A
n
A
+
S
2
B
n
B
∼ t
k
, donde k =´ınf(n
A
−1, n
B
−1).
Dibujamos una regi´on central con ´area 1−α en la representaci´on de la densidad
del estad´ıstico:
118 Mathieu Kessler: M´etodos Estad´ısticos
−t
k,1−α 2
t
k,1−α 2
Deducimos que
P(−t
k,1−α/2

X
A
−X
B
−(µ
A
−µ
B
)

S
2
A
n
A
+
S
2
B
n
B
≤ t
k,1−α/2
) = 1 −α.
Despejamos µ
A
−µ
B
y obtenemos
µ
A
−µ
B
= X
A
−X
B
±t
k,1−α/2

S
2
A
n
A
+
S
2
B
n
B
.
Por otra parte, calculamos
X
A
= 3,24375 S
2
A
= 3,227
X
B
= 3,0625 S
2
B
= 2,695
Tenemos n
A
= n
B
= 8, y finalmente necesitamos t
k,1−α/2
= t
7,0,975
= 2,365
Al sustituir obtenemos
µ
A
−µ
B
= 0,18125 ±2,0349.
b). Ejemplo II. Una determinada empresa de material fungible puede adquirir
los cartuchos de t´oner de impresora de dos proveedores distintos. Con el fin de
determinar a que proveedor comprar se toma una muestra de tama˜ no 12 de cada uno
de los proveedores obteniendo los siguientes resultados (n´ umero de hojas impresas):
Media muestral varianza muestral
Proveedor A 5459 111736
Proveedor B 5162 145258
Si suponemos que las poblaciones son normales con varianzas iguales:
(a) Construir un intervalo de confianza para la diferencia entre el n´ umero medio
de hojas que imprime el cartucho de cada proveedor. (tomar α = 0,05).
Soluci´on: Introducimos las variables
VII.7 Inferencia para dos medias 119
X
A
: duraci´on de un cartucho de t´oner del proveedor A.
X
B
: duraci´on de un cartucho de t´oner del proveedor B
Del enunciado sabemos que
X
A
∼ A(µ
A
, σ
2
), X
B
∼ A(µ
B
, σ
2
),
es decir que las dos variables son Normales con varianzas desconocidas pero
igules.
Para construir el intervalo de confianza al 95 %, seguimos los mismos pasos
que en el ejemplo anterior, pero ahora el estad´ıstico es
X
A
−X
B
−(µ
A
−µ
B
)

S
2
0
(
1
n
A
+
1
n
B
∼ t
n
A
+n
B
−2
,
con S
2
0
=
(n
A
−1)S
2
A
+(n
B
−1)S
2
B
n
A
+n
B
−2
. Obtenemos por lo tanto que el intervalo de con-
fianza para µ
A
−µ
B
es
µ
A
−µ
B
= X
A
−X
B
±t
n
A
+n
B
−2,1−α/2

S
2
0
(
1
n
A
+
1
n
B
).
Necesitamos calcular S
2
0
:
S
2
0
=
(n
1
−1)S
2
1
+ (n
2
−1)S
2
2
n
1
+n
2
−2
=
(11)111736 + 11 145258
22
· 128497
Deducimos sustituyendo que el intervalo al 95 % de confianza es
µ
A
−µ
B
= 297 ±302,9.
(b) Razonar qu´e tipo de contraste se debe de realizar con el fin de decidir si
la duraci´on media de los cartuchos del proveedor A es mayor que la de los
cartuchos del proveedor B. Realizar este contraste. (tomar α = 0,05).
Soluci´on:Queremos plantear el contraste

H
0
: µ
A
= µ
B
,
H
1
: µ
A
> µ
B
,
es decir

H
0
: µ
A
−µ
B
= 0,
H
1
: µ
A
−µ
B
> 0,
Nos fijamos α = 0,05, el estad´ıstico de contraste es
X
A
−X
B
−(µ
A
−µ
B
)

S
2
0
(
1
n
A
+
1
n
B
,
bajo H
0
, µ
A
−µ
B
= 0, y este estad´ıstico se simplifica:
T
0
=
X
A
−X
B

S
2
0
(
1
n
A
+
1
n
B
∼ t
n
A
+n
B
−2
, si H
0
es cierta.
La regi´on de rechazo es unilateral y es de la forma
120 Mathieu Kessler: M´etodos Estad´ısticos
Su frontera es t
n
A
+n
B
−2,1−α/2
= t
22,0,95
= 1,717.. Nos falta calcular el valor
concreto del estad´ıstico de contraste
T
0
=
X
A
−X
B

S
2
0
(
1
n
A
+
1
n
B
=
5459 −5162

128497(
1
12
+
1
12
)
= 2,0295.
El valor de T
0
no pertenece a la regi´on de rechazo, deducimos que no podemos
rechazar H
0
al 95 % de confianza.
VII.7 Inferencia para dos medias 121
Ap´endice
Distribuci´on t de Student
Valores de los cuantiles de la distribuci´on t de Student con k grados de libertad:
para un 0 ≤ p ≤ 1, el valor t
k,p
satisface P(t ≤ t
k,p
) = p.
k t
k,0,995
t
k,0,99
t
k,0,975
t
k,0,95
t
k,0,90
t
k,0,80
t
k,0,70
t
k,0,60
t
k,0,50
1 63,657 31,821 12,706 6,314 3,078 1,376 0,727 0,325 0,158
2 9,925 6,965 4,303 2,92 1,886 1,061 0,617 0,289 0,142
3 5,841 4,541 3,182 2,353 1,638 0,978 0,584 0,277 0,137
4 4,604 3,747 2,776 2,132 1,533 0,941 0,569 0,271 0,134
5 4,032 3,365 2,571 2,015 1,476 0,92 0,559 0,267 0,132
6 3,707 3,143 2,447 1,943 1,44 0,906 0,553 0,265 0,131
7 3,499 2,998 2,365 1,895 1,415 0,896 0,549 0,263 0,13
8 3,355 2,896 2,306 1,86 1,397 0,889 0,546 0,262 0,13
9 3,25 2,821 2,262 1,833 1,383 0,883 0,543 0,261 0,129
10 3,169 2,764 2,228 1,812 1,372 0,879 0,542 0,26 0,129
11 3,106 2,718 2,201 1,796 1,363 0,876 0,54 0,26 0,129
12 3,055 2,681 2,179 1,782 1,356 0,873 0,539 0,259 0,128
13 3,012 2,65 2,16 1,771 1,35 0,87 0,538 0,259 0,128
14 2,977 2,624 2,145 1,761 1,345 0,868 0,537 0,258 0,128
15 2,947 2,602 2,131 1,753 1,341 0,866 0,536 0,258 0,128
16 2,921 2,583 2,12 1,746 1,337 0,865 0,535 0,258 0,128
17 2,898 2,567 2,11 1,74 1,333 0,863 0,534 0,257 0,128
18 2,878 2,552 2,101 1,734 1,33 0,862 0,534 0,257 0,127
19 2,861 2,539 2,093 1,729 1,328 0,861 0,533 0,257 0,127
20 2,845 2,528 2,086 1,725 1,325 0,86 0,533 0,257 0,127
21 2,831 2,518 2,08 1,721 1,323 0,859 0,532 0,257 0,127
22 2,819 2,508 2,074 1,717 1,321 0,858 0,532 0,256 0,127
23 2,807 2,5 2,069 1,714 1,319 0,858 0,532 0,256 0,127
24 2,797 2,492 2,064 1,711 1,318 0,857 0,531 0,256 0,127
25 2,787 2,485 2,06 1,708 1,316 0,856 0,531 0,256 0,127
26 2,779 2,479 2,056 1,706 1,315 0,856 0,531 0,256 0,127
27 2,771 2,473 2,052 1,703 1,314 0,855 0,531 0,256 0,127
28 2,763 2,467 2,048 1,701 1,313 0,855 0,53 0,256 0,127
29 2,756 2,462 2,045 1,699 1,311 0,854 0,53 0,256 0,127
30 2,75 2,457 2,042 1,697 1,31 0,854 0,53 0,256 0,127
40 2,704 2,423 2,021 1,684 1,303 0,851 0,529 0,255 0,126
60 2,66 2,39 2 1,671 1,296 0,848 0,527 0,254 0,126
120 2,617 2,358 1,98 1,658 1,289 0,845 0,526 0,254 0,126
> 120 2.576 2.326 1.960 1.645 1.282 0.842 0.524 0.253 0.126

Los métodos estadísticos persiguen extraer   de la manera más eficiente  posible   la   información   presente   en   conjuntos   de   datos.     Su   uso   se   ha  generalizado   en   todos   los   campos   de   la   ingeniería   y   son   varias   las  asignaturas   aplicadas   en   las   titulaciones   de   Ingeniero   Industrial   o  Ingeniero   Técnico   Industrial   que   presuponen   por   parte   del   alumno   el  manejo básico de técnicas estadísticas sencillas. Este manual recorre el  camino   desde   la   exploración   previa   de   un   conjunto   de   datos,     la  formulación de un modelo aleatorio para el mecanismo de generación de  éstos, hasta la introducción a las técnicas de inferencia que formalizan el  carácter significativo o no de las conclusiones que se puede extraer de los  datos resultantes de un experimento.  Se ha optado por una presentación intuitiva de los conceptos intentando  en la medida de lo posible relacionarlos con la experiencia práctica o el  sentido común…

Mathieu   Kessler   es   Catedrático   de   Universidad   en   el   área   de  Estadística e Investigación Operativa en el Departamento de Matemática  Aplicada   y   Estadística   de   la   Universidad   Politécnica   de   Cartagena.   Es  doctor en Estadística por la Universidad de Paris VI y autor de numerosas  publicaciones tanto sobre estadística teórica como sobre aplicaciones de la  estadística en revistas internacionales.

Autor: Mathieu Kessler ISBN: 978­84­96997­07­3 D. Legal: MU­1949­2008

es .kessler@upct.M´todos Estad´sticos de la Ingenier´a e ı ı Mathieu Kessler Departamento de Matem´tica Aplicada y Estad´ a ıstica Universidad Polit´cnica de Cartagena e mathieu.

por sus preguntas y dudas me han obligado a precisar y pulir mis explicaciones. e El temario de la asignatura recorre estos objetivos.. En a u la primera parte. y por estar siempre all´ cuando vuelvo a casa. su ilusi´n. Finalmente dedico este libro a Graci. por su admiraci´n ciega y en absoluto fundamentada en sus conocimientos o estad´ ısticos. escogiendo deliberadamente una presentaci´n intuitiva de los conceptos e intentando en la medida de lo posible o relacionarlos con la experiencia pr´ctica o el sentido com´n de los alumnos.. introducir al alumno en los conceptos de la inferencia estad´ ıstica.O y del Departamento de Matem´tica Aplicada y Estad´ a ıstica. Quique y David por ser la alegr´ de mis ıa d´ ıas. o Quiero dar las gracias aqu´ en primer lugar. e Se pueden destacar tres objetivos para esta asignatura: capacitar al alumno para extraer. se pone especial ´nfasis en el uso intensivo de gr´ficas para la e a exploraci´n de datos. su inter´s. Muchos de ellos me han regalado o su atenci´n. por contribuir a crear un ambiente de trabajo agradable y estimulante. permiti´ndole llegar a conclusiones significativas a partir de una muestra. e incluso mi propia comprensi´n de los conceptos. o o e Tambi´n estoy agradecido a mis compa˜eros del ´rea de Estad´ e n a ıstica e I. resumir y comunicar informaci´n a partir de o conjuntos de datos experimentales. tanto en la titulaci´n de Ingeniero Industrial o como en la de Ingeniero T´cnico Industrial de varias especialidades.i Pr´logo o Este manual se ha desarrollado a partir de los apuntes que el autor usa como soporte para sus clases en la asignatura de “M´todos Estad´ e ısticos de la Ingenier´ que ıa” ha impartido en numerosas ocasiones. ı . y por ello. proporcionarle las herramientas para la construcci´n de modelos para estos o datos a trav´s de variables aleatorias. asi como a la Escuela T´cnica Superior e de Ingenieros Industriales de la UPCT por su apoyo en una primera edici´n de este o manual. e finalmente. a todos los alumnos que he tenido y ı que. me han hecho disfrutar con mi trabajo.

. . . . . . . . . . . . . . . .2 Medidas de dispersi´n . . . .´ Indice general I Exploraci´n de datos o I. . . .4 Suceso . . . a I. . .4. . . . . . . I. . . . . . . .2 Suceso elemental . . . . . . . . . . . . . . . II. . . II. . . . . . . . . . . . . . . II. . . . .1 Definici´n . . . . . . . . . . . . . . . . II. . . . . . . .1 Conceptos b´sicos relacionados con un experimento . . . . .5 Ejemplos de probabilidades condicionadas en la vida diaria .1 Definici´n para dos sucesos . . . . .2.1. . . . . . . . . . .5. . . . . . . . . . . . . . II. o II. . . . I. .1. . . . . ıa II. . . . . . . . .1 Experimento aleatorio . . . . II. . . . . .propiedades. . . . . . . . . . 1 1 1 2 2 3 8 9 10 11 12 12 13 16 25 25 25 26 26 26 27 27 28 28 29 31 31 32 32 32 32 33 33 33 33 34 34 . . . . . . . . . . . . . . . . . . . I. . . . . . . . e I. . . . .3 Tabulaci´n y representaciones gr´ficas . . . . . . . o II. . . . . . . . . . . a o II. . . . . . . .6 F´rmula de la probabilidad total y teorema de Bayes . II Fundamentos de la teor´ de la probabilidad. . . . . . . . . . . . . o I. . . . . . . . . o I. . . . . . . . . . . . . . . . .1 Planteamiento . . . . .1 Gr´ficas para variable cualitativa . . .1 Introducci´n . . . . . I. . . . . . . .3 Tabaquismo y esperanza de vida . . . .3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . II. . . . . . . . . . . .5. . . . .1 Definici´n informal de la probabilidad . . . . . .2 Tabaquismo y c´ncer de pulm´n .3. . . . . II. . . . . . .2 Definici´n para n sucesos . . . . . . a II. . . . . .3. . . . ıa II. . . . . . .3 Casos concretos . . .4.2 Unos cuantos t´rminos . . . . . . . . . . . .5. . . . . . .3 La probabilidad condicionada. . . .4. . . . . . . . . . . . . . .3. .3. . . . . . . . . . . . . . . . . . . . .4. . . . . . II. . . . . . . . . . . . . . II. . . . . .5. . . o II. . . . . . . . . . . . . . . . . .4 Medidas num´ricas . II. . . . . . . . . . . . . . . . .5. . . . . . . . . . . . . . a I. . . . . . . . . . . . . . . . . . . . . . . . . .2 Regla del producto.4 Sucesos independientes . . . . . . . .1. . .5 Diagrama de Venn . . . . . . .1. . . .2 El caso de un espacio muestral finito y la definici´n de Laplace. . . . . . o II. . . . . . . . . . . . .1. . .2 Gr´ficas para una variable cuantitativa . o II. . . .5. . . . .6 Leyes de Morgan . .5 Ajuste por m´ ınimos cuadrados . . . . .3 Propiedad . . . . . . . . . . . . . . . . . . . . . . . . . . . e I. . . . . . . . . .2. . . . . .2 Concepto de Probabilidad . . . . . . . . . . . . . . II. . . . II.4. . . . . . .3 Espacio muestral .3 Un resumen gr´fico: el diagrama de caja-bigotes a I. . . . . . .1 Medidas de centro .2 Criterio de m´ ınimos cuadrados . . . . . . . . . . . . . . . . . .1 Eslogan publicitario para la loter´ . . o a I.1. . . . . . . o . . . . .

. . IV. . . . . . . . . . . . . . . . . . . . . . . . . . .6. . . . . . . . . .2. .2 Distribuci´n de una variable aleatoria . . . . . . . . . . . . . . . . . . .2 Funci´n puntual de probabilidad . . . . . . . . . . . . . . . . . . . . . . . .1 Funci´n de densidad conjunta . .4. . . . . .3 Medidas num´ricas asociadas a una v. IV. IV. . . . . .2 Consecuencias pr´cticas . IV. o o III. . . . . . . . . . . . . . . .2 Para una v. . . . . . . . . . . . .1 Definici´n . . . e III. . . . . . . . . . .2. .3. . . . . .3. . . . . . . . . .2 C´lculo para el ejemplo de las tres monedas . . . .a bidimensional continua . . . . . . . . . . . . . .4. . . . . . . . . . . . . .1 Introducci´n . . . . . . . . . . . . . . . multidimensional . . . . . . . . . . . . .1 Definici´n . . . . . . o III. . . . . a III. . . . V Muestreo y distribuciones muestrales V. . .6.4. . .3 Variable bidimensional continua . . . .2. . III. .6. .5 Variables independientes . .1 Funci´n puntual de probabilidad conjunta o IV. . . . . . . . . . .1 Concepto de variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III. . . . . . . . .2. . . . .3 Esperanza condicionada . . . .a . . . . . IV. . . . . . .2 El modelo Normal multidimensional . . .2 II. . . .5. . . . . . . . .4. . . . . . . a III. .2 II. . . . .5. . . . . . . . . . . Ejemplo . . . . .6 Medidas num´ricas para una v. . . . . . . . o III. . . . o IV. . . . . . . . o III. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o III. . . . 34 34 35 37 37 37 38 39 39 39 39 40 40 40 41 43 47 47 47 50 52 59 61 61 61 62 63 63 63 65 65 65 66 67 67 67 68 68 68 70 70 70 71 75 75 Variable aleatoria I III. . .4 Modelos m´s usados de v. .2 Variable bidimensional discreta . . . . . . . . o Los resultados .3 Variable aleatoria discreta . . . . . . o III. . . . . . . .a bidimensional . .1 V. . . . .a continua . . . . IV. . . .2 Funci´n de distribuci´n de una v. . . . . . . .1. . . . . . . . . . . . . . .1 Definici´n . . . .4. . . . . . . . . .2 Esperanza . . IV . . . . . . . . . . . o . . . . . .4.a bidimensional discreta . .4. . . . . . . . . . . . . . o III. . . . . . . . . . . . IV. . . . . . . . .4 Distribuciones condicionadas . . . . . . . . . . .7. . . . . . . . .4 Variable continua .1 Definici´n . . . . . . .6. . . .3. . . . . . . . . . . . . . .1 Introducci´n .3 Caracter´ ısticas de una variable discreta . . . . . . . . . . . . . . . . . . . . . . .a. . . . . . . . . . . . . . . o III.1. . . . .6. .5 Algunas propiedades utiles de la esperanza y la varianza ´ Variable Aleatoria II IV. . .3 III ´ INDICE GENERAL Condiciones de aplicaci´n . . . . . . . . . . .4 Modelos m´s comunes de v. . . . . . . .1 Definiciones . . . . . . . . . .a. . . . . . . . . . . . . discretas . . . . . IV. . . . . . . . . IV. . . . . . . . . . . . . . . . .3.3. . . . .2 Propiedades .1 Definici´n . . . . . . . . . . . . . . . . . . . . . . . IV. . . . . . . . . . . . . . . o IV. . a IV. . e IV. . . . .7. . III. . . . . . . . . . . . . . . . . IV. .1 II. . . . .2. . . . IV. . . . . . . III. o IV. . . . . . . . . . IV. . .a continua . . .1 Modelo multinomial . . . . . .3 Propiedades . . .3. . . . . . . . . . . . . . . . . . III. . . . . . . . . . . . . . . a III. . . . .7 Algunos modelos de v. . . . . . . .2 Funci´n de densidad . . . . . . . . . .2 Esperanza . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . VII. .5. . . . . . . . . . . . . . . . . . .2 Estimaci´n puntual . . . . . .1 Idea b´sica . . . . . . . . . . . .7 VI Introducci´n a la teor´ de la estimaci´n o ıa o VI. .2. . . . . . . . .5 Potencia del test . e o VI. . a V. . . . . . . . . . . . . . .2 Gr´fica de control p . . . . . . La media muestral . . . . . . . . . . VII. . . .1 Contraste de hip´tesis para la media µ de una distribuci´n o o Normal con varianza desconocida . . . . . una distribuci´n o . . . . . . . . . . . .1 Hip´tesis bilateral . . . . . . . . . . . . . . .3 Contraste de hip´tesis para la media µ de una distribuci´n Normal o o con varianza conocida. . . . . . . . . . . . . . . . . . . .7. . . . . . . . . . . . . . . . . . . . . . . . . .4 Determinaci´n del tama˜o muestral . . . . . . VI. . . . . . o VII. . . . . . . . . . . . . . . . . . VII. . . . . . . . . . . . . . . . . . . . . . . . o a ¯ V. . . . .2 Distribuci´n aproximada de p . . . . .2 V. . . . . . . .6 Inferencia para la media . . . . . . . . . . . .1 Definici´n . . a VII. . . . . . . VI. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .7.2 Propiedades deseables para un estimador . . . . . . . . . . . . . . . . . o VI. . . . . . . . . . . . . . . . a VI. .4 V. . . . . . . . .3 Evaluaci´n del error . . .3. . o V.2. .3 Comentarios importantes . . . . .4 Factores que influyen la potencia . . . . . . o VI. . . .3 M´todos de construcci´n de estimadores . . . . . . . VII. . . . . . . . . . . . . . . . . . . . . . . . . . . .3. . . . o VII. . . VI. . . . . . . . .1 Introducci´n . .3. . .6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . VII. . . .2 Regla de decisi´n . . . . . . . . . . . .3 Muestra . . . . . . . . . . . . . VII Introducci´n a los contrastes de hip´tesis o o VII. . . . . . . . . . . . n . . . .3 Otra se˜al de alarma . . . . o n . . .6 V.1 Hip´tesis estad´ o ıstica . VII. . . . . . . . . . . . .3. . . . . . . . . . . . . . . . . o VI. . . . . . . . .5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .3 Ejemplo de c´lculo de la potencia . . . .5 V. . . . . . . . . . . . . . . . . . . .1 C´lculos exactos para la distribuci´n de p a o ˆ V. . . . . . . . . . . .3.3. . . . . . . . . . . . o ˆ Introducci´n a las gr´ficas de control . . .5. . . . . . . . . . . . . . . . .2 Hip´tesis unilateral . . . a VII. . . . . . . . . .´ INDICE GENERAL V. . . . o VII. . . . . . . . . . . . . . . . . . . . . . . . . . . . .2. . . . . . . . . . . . . . . . . . o La proporci´n muestral . o VII. .4 Procedimiento . .2. . . . . . . . . . . . . . . . .2 Distribuci´n de la media muestral . . . o La varianza muestral . . .4 Concepto de p-valor . . . . . . . . . . . . . .3 Estimaci´n por intervalos . ¯ V. .1 Gr´fica de control X. . . . . . . . . . . . . . . . .5. Distribuci´n t de Student . . . . o VII. . . . . . . . . . . . . . . . . . . . . . o VII. . . . . .1 Definici´n . . . . . . . . . . . . .1 Esperanza y varianza de X . . . . . .2 Intervalo de confianza para la media µ de Normal con varianza conocida .2 Planteamiento general . . . . . . . 79 79 79 81 82 82 84 85 85 86 86 87 88 89 89 89 89 90 91 95 95 95 98 99 103 103 104 104 104 104 105 106 106 107 108 109 110 110 111 112 113 113 113 3 V. . . . . . . .6. . . . . . . . .7. a ˆ V. . .2. . . . . . . . . .2 C´lculo de la potencia . VII. . . . . . . . .3 Ejemplos . . . . . . . . . .3. . . . . .6. . . . . . . .3. . . . . . o VI. . . . . . . . . . . . . . . . . . VII. . . .2. . . . . . . . . . . . . . .3. . . . . VII. .2. . . . . . . . .1 Introducci´n . V.

. . . . . . . . . . . . . . . . . . . .7.1 Estad´ ısticos muestrales . . 117 .7 Inferencia para dos medias . . . . . . . .7. 115 VII.4 ´ INDICE GENERAL VII. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .2 Intervalos y contrastes . 116 VII. . .

Introducci´n o La estad´ ıstica utiliza datos para conseguir comprensi´n sobre un fen´meno. m´s informaci´n podemos extraer sobre las variables a a o de inter´s. B´sio o a camente. a e Para tener las ideas claras. o En contextos industriales se recogen a menudo grandes conjuntos de datos correspondientes a un gran n´mero de variables. que pueden ser personas pero tambi´n objetos. asociados a esta clase. que asocia un n´mero a cada individuo. unos cuantos gr´ficos pueden proporcionarnos ina formaci´n m´s valiosa que procedimientos sofisticados que no dominamos. o variu . Unos cuantos t´rminos e Un conjunto de datos describe individuos. que se realiza a trav´s de representaciones gr´ficas y del o e a c´lculo de unas cuantas medidas num´ricas bien escogidas. Por ejemplo. podemos considerar que e los individuos son los alumnos. Consideramos variables asociadas a este conjunto de datos. se debe empezar por el estudio individual de cada una.2. distinguiremos entre variable cuantitativa . e a ıcil o En este contexto aparece una primera etapa fundamental frente a un conjunto de datos: la exploraci´n.1.TEMA I Exploraci´n de datos o I. esta comprensi´n es una consecuencia de la combinaci´n entre conocimieno o tos previos sobre el fen´meno y nuestra capacidad para utilizar gr´ficos y c´lculos o a a para extraer informaci´n de los datos. pero a la vez es m´s dif´ su extracci´n. Aun cuando el conjunto de datos presenta varias variables. cuanto m´s datos. veremos en temas posteriores m´todos m´s sofisticados de an´lisis pero e a a dedicamos ahora un cap´ ıtulo a recordar las t´cnicas elementales con el objetivo de e fomentar reacciones sanas frente a un conjunto de datos. En esta o a asignatura. Un efecto contradictorio aparece: por u una parte. I.

. .3. en forma de una barra. una de las caracter´ ısticas interesantes de un conjunto de datos consiste en determinar si presenta mucha o poca variabilidad.35 0. que coloca cada individuo en una categor´ Ejemplos de ıa. I. mientras que la frecuencia relativa corresponde a la proporci´n (o el porcentaje) de veces que aparece este valor. Cabe destacar que se suelen ordenar los valores de la variable por orden decreciente de frecuencias. variables cuantitativas asociadas a la clase: peso. Tabulaci´n y representaciones gr´ficas o a Las representaciones gr´ficas son una herramienta fundamental para extraer ina formaci´n de forma visual de un conjunto de datos.1.3. donde cada valor ocupa un sector circular cuya ´rea es a proporcional a su frecuencia. Diagrama de sectores Si el conjunto no presenta demasiados valores distintos.1.1.1.03 0. Un concepto fundamental que utilizaremos con frecuencia corresponde a la distribuci´n de una variable X asociada a un conjunto de datos.3.2. Diagrama de barras Para cada valor que toma la variable en el conjunto y que indicamos en el eje horizontal. I. absoluta)? ¿Cuanto vale la e suma de la tercera columna? I. representamos en el eje vertical su frecuencia absoluta o relativa. En el caso del ejemplo I.13 0. absoluta 51 19 5 70 Frec. Pueden ser mucho m´s utiles o a ´ que procedimientos sofisticados que uno no domina. relativa 51/145=0.2.49 ¿Qu´ representa la suma de la segunda columna (Frec. Describir la o distribuci´n de X corresponde a establecer la lista de los valores que toma X o junto con la frecuencia con la que toma cada valor.. altura o edad.2.1. obtenemos el diagrama de barra de la figura I. tambi´n podemos utilizar e el diagrama de sectores.1 Consideremos por ejemplo la distribuci´n del grupo sangu´ o ıneo en una clase presentada en la tabla siguiente: Grupo A B O AB Frec. El sexo o el grupo sangu´ ıneo son en cambio variables cualitativas. Gr´ficas para variable cualitativa a Para un conjunto de datos descritos por una variable cualitativa.3. Hablaremos de frecuencia absoluta de un valor para denotar el n´mero de veces que aparece este valor u en el conjunto de datos. podemos realizar dos tipos de gr´ficas: a I.1. o En particular.2 Mathieu Kessler: M´todos Estad´ e ısticos able cualitativa . Ejemplo I.

A. indicando en el eje Ox los valores que puede tomar la o .48 Frecuencia 1 2 4 8 Valor 0. deducimos que si el c´ ırculo entero (360 grados) representar´ el n´mero total de datos en el conjunto. a donde cada fila representa un individuo. calculemos el ´ngulo que ocupar´ el sector para cada uno a a de los valores AB.1 del grupo sangu´ ıneo. El diagrama de sectores correspondiente se a representa en la figura I. a Para datos agrupados. Los conjuntos que examinaremos se presentar´n o bien en forma bruta: un fichero con una columna para cada variable. mientras de 70/145 × 360 = 174 a que el valor O ocupar´ solamente 12o .51 Frecuencia 8 10 5 8 Tambi´n se puede representar gr´ficamente mediante un diagrama de barras esta e a distribuci´n de frecuencias.2. es decir 145 a u individuos.49 0. o bien en forma ya tabulada.3.2.2. I.I. O. frecuencias absolutas.3 Tabulaci´n y representaciones gr´ficas o a 3 0 20 40 60 80 AB A B O Figura I.50 0. es decir donde los datos est´n agrupados. Gr´ficas para una variable cuantitativa a Nos centramos ahora en variables cuantitativas. Asimismo. Para el ejemplo I. el valor AB con una frecuencia de 70 individuos deber´ ocupar un sector a o . consideremos mediciones del contenido en nitrato de una muestra de agua: Valor 0. el valor B 48o . Por una regla de tres. B.1: Diagrama de barras.2. el valor A ocupar´ 126o .51 0.1.45 0. para el ejemplo I.46 0.47 0.

47 0.48 0. o Frecuencias 2 0. variable y en el eje Oy sus frecuencias.45 4 6 8 10 0.4 Mathieu Kessler: M´todos Estad´ e ısticos AB O B A Figura I.52 Mediciones de nitrato Figura I.51 0.1 del grupo sangu´ ıneo.3: Diagrama de barras para las concentraciones de nitrato En el caso en que el conjunto presente muchas valores pr´ximos pero distintos.2.46 0.3.49 0.50 0.2: Diagrama de sectores para el ejemplo I. Obtenemos as´ un diagrama de barras en el ı ejemplo de las mediciones de la concentraci´n en nitrato. ver figura I. o .

¿Por qu´ Newcomb repiti´ tantas veces las mediciones. 25. 26. A continuaci´n podemos realizar el recuento de o las frecuencias de cada clase. 32. y no se limit´ a realizar e o o el experimento una vez? Porque los datos resultados del experimento presentan una cierta variabilidad: por mucho que haya intentado controlar las condiciones experimentales para mantenerlas constantes. en total una distancia de 7400m. Para le ejemplo de las mediciones de Newcomb. Freeman and Company: New York. o a 2.1.2. Una o regla aproximada llamada regla de Sturges consiste en escoger 1 + log2 (n) clases para un conjunto con n datos. 21. 28. 36. 24. Las mediciones recogidas a continuaci´n corresponden a los tiempos o codificados que tard´ un rayo de luz en recorrer el camino de ida y vuelta desde el o laboratorio de Simon Newcomb situado en el R´ Potomac hasta un espejo situaıo do en la base del “Washington Monument”. 25. 24. 1 . 25. 29. 26. 20. 28. 36. 40. 31. 21. 16. Se suele escoger la media. 28. George P. 25. ¿Qu´ hacer con estos datos? A la vista de estos datos. 29. 26.3 Tabulaci´n y representaciones gr´ficas o a agrupamos los datos por clases. 16. Newcomb fue el primero en conseguir ¡en 1882! una estimaci´n bastante precisa de la velocio dad de la luz.. 30. hay que a˜adir 24800 n a cada dato. 33. 19. 27. dividimos el rango de los valores en clases de igual amplitud. los datos ordenados se presentan como: Fuente: Moore. ¿cu´l es el valor que e a podr´ ıamos tomar como la velocidad de la luz? Debemos encontrar un valor que sea representativo de las 66 mediciones realizadas. tal como lo vemos en la secci´n siguiente. 22.1 Tiempos codificados: 28.3. 27. pero para asegurarnos de que ´sta es representativa del conjunto.. 26. el resultado es imprevisible. 36. 31. 28. Para obtener los tiempos en nano segundos (10−9 s) no codificados. (1989). 25. 24. 24. 23. o I. 36. 24.3. 27. 27. 29.es/∼mathieu). W. 26. pp 3-16. Ejemplo: mediciones de la velocidad de la luz 5 Consideramos para ilustrar los conceptos que introduciremos en el resto del tema el conjunto de datos de Newcomb (http://www.2.. Introduction to the Practice of Statistics. 32. 33. La medici´n est´ siempre perturbada por un “ruido” incontrolable. NY. 30. 30.I. 23 Al observar estos datos. o empezamos por agrupar los datos por clases: ordenamos los datos por orden creciente. 27. and McCabe. 32. -2. I. 22. H. 28. 37. -44. podemos realizar dos comentarios: 1. ¿Cu´ntas clases escoger?La elecci´n del n´mero de clases es una problema que a o u no admite una soluci´n perfecta que sirva para todos los conjuntos de datos. 28. y colocamos cada dato en la clase que le toca. 23. 27. Tabla de frecuencias y histograma En el caso en que el conjunto presente muchas valores pr´ximos pero distintos..2. 32. 29. David S. 29. es e util establecer la tabla de frecuencias y visualizar el conjunto a trav´s de un ´ e histograma. 32. tal como lo veremos en los apartados siguientes. 39.upct. 34.dmae.

los datos tabulados se examinan con m´s comodidad a trav´s a e de representaciones gr´ficas. −15] Frecuencia 1 0 0 0 0 0 Clase ] − 15. respecto e al cual. 35] ]35.3. 5] ]5. 30] ]30. absolutas acumuladas o relativas acumuladas. 40] Frecuencia 4 17 26 10 7 Cuando establecemos la tabla de frecuencias de una variable cuantitativa. C´mo interpretar un histograma o Las representaciones gr´ficas describen la distribuci´n de la variable en el cona o junto.6 Pos Dato Pos Dato Pos Dato Pos Dato Pos Dato 1 -44 16 24 31 27 46 29 61 36 2 -2 17 24 32 27 47 30 62 36 3 16 18 24 33 27 48 30 63 36 4 16 19 25 34 27 49 30 64 37 5 19 20 25 35 28 50 31 65 39 Mathieu Kessler: M´todos Estad´ e ısticos 6 20 21 25 36 28 51 31 66 40 7 21 22 25 37 28 52 32 8 21 23 25 38 28 53 32 9 22 24 26 39 28 54 32 10 22 25 26 40 28 55 32 11 23 26 26 41 28 56 32 12 23 27 26 42 29 57 33 13 23 28 26 43 29 58 33 14 24 29 27 44 29 59 34 15 24 30 27 45 29 60 36 Utilizamos por ejemplo clases de amplitud 5 empezando en -45 y acabando en 40. indicamos tambi´n las frecuencias acumuladas de cada clase: la frecuencia absoluta e (relativa) acumulada de una clase es el n´mero (proporci´n) de datos que pertenecen u o a esta clase o a alguna clase anterior. por ser muy diferentes . y las mediciones van ıa a sobrevalorando e infravalorando de manera sim´trica este valor. −20] ] − 20.1 m´s abajo. los valores se van repartiendo de manera aproximadamente sim´trica? e Esta es la situaci´n cl´sica para un conjunto de mediciones: el valor central o a ser´ lo m´s representativo de lo que intentamos medir. −10] ] − 10. −35] ] − 35.2. ¿aparece un punto central. Para el ejemplo de las mediciones de Newcomb. En la figura I. la tabla completa se puede ver en la Tabla I. 10] ]10. el diagrama resultante se llama histograma. −30] ] − 30. −25] ] − 25. ¿ Es el histograma sim´trico? Es decir.3. −5] ] − 5.4. y realizamos el recuento de las frecuencias de cada clase: Clase ] − 45. 25] ]25. para resumir las caracter´ ısticas de la distribuci´n. 20] ]20. 15] Frecuencia 0 0 1 0 0 0 Clase ]15. a Por otra parte. Se pueden representar histogramas de frecuencias absolutas. o 1. 0] ]0. relativas. Al examinarlos hay que que intentar contestar a las siguientes preguntas. aparece el histograma para las mediciones de Newcomb. En el eje Ox aparecen las clases y en el eje Oy las a frecuencias. Si no conside eramos los valores -44 y -2 en el conjunto de Newcomb. I. −40] ] − 40. La tabla completa de frecuencias tal como nos la suele presentar un programa de estad´ ıstica incluye las frecuencias absolutas y relativas as´ como las frecuencias ı acumuladas absolutas y relativas.

4: Histograma para las mediciones de Newcomb del resto del conjunto.5 2 3. −35] ] − 35.5 0 0. −25] ] − 25.0 0 0.0 1 1.1: Tabla de frecuencias.0 2 3.5 1 1.3 7 10.5 0 0. 30] ]30. 35] ]35. −15] ] − 15. 40 30 Frecuencias 20 10 0 −40 −20 0 20 40 Mediciones Figura I. 40] TOTAL Frecuencias Absolutas Relativas( %) 1 1. 0] ]0. −30] ] − 30.0 0 0. podemos decir que la distribuci´n de las mediciones es o aproximadamente sim´trica.0 2 3.0 0 0.5 1 1.7 49 74 59 89. 5] ]5. mediciones de Newcomb. −5] ] − 5.0 6 9 23 34. e 2.0 0 0.0 2 3. Acumuladas Absolutas Relativas( %) 1 1. −40] ] − 40. 25] ]25. 10] ]10.0 0 0.0 Frec.I. ¿Posee la distribuci´n colas largas? o .3 Tabulaci´n y representaciones gr´ficas o a Clase ] − 45. −10] ] − 10.5 1 1.5 1 1.7 66 100.5 1 1.3 10 15.0 0 0.0 0 0. 20] ]20.0 4 6 17 25. 15] ]15.3 66 100 7 Tabla I. −20] ] − 20.5 1 1.0 0 0.7 26 39.5 1 1.

. I. Existen medidas num´ricas para contestar a cada pregunta e . debemos comprobar que no se deban a errores tipogr´ficos. 0 5 x0 10 15 0 10 20 30 0 10 40 50 2 3 4 x12 5 6 7 Figura I. presentamos varios patrones de histogramas.5 20 10 0 0 10 20 30 0 2 4 x00 6 8 10 Cola larga a la derecha 30 60 70 Histograma bimodal Frec. 4. 1. Medidas num´ricas e Para variables cuantitativas. ¿Presentan los datos mucha dispersi´n?.5. mientras que las 64 mediciones restantes est´n entre 15 y 40.0 x1 3. ¿Donde localizamos el centro aproximado de los datos? 6. ¿Aparecen datos at´ ıpicos?. lo que se traduce en la forma puntio aguda o chata del histograma.5 3.0 2. Frec. 5.8 Mathieu Kessler: M´todos Estad´ e ısticos 3. dos datos aparecen claramente at´ ıpicos: 44 y -2. se suele acompa˜ar las representaciones gr´ficas de n a las distribuciones con medidas num´ricas que proporcionen un resumen de sus care acter´ ısticas principales. el hecho de que los datos est´n concentrados revela que se consigui´ una buena regularidad en el e o proceso de medici´n.5: Distintos patrones de histogramas.5 2. simétrico. Para el conjunto de Newcomb. 40 40 Histograma asimétrico 30 Frec.0 4.4. a Podremos entonces decidir corregirlos u omitirlos del estudio. Histograma aprox. a y buscar si est´n asociados a unas circunstancias experimentales especiales. ¿Posee el histograma un m´ximo claro unico? En este caso hablamos de hisa ´ tograma unimodal.. es decir datos que se alejan del patr´n global de los o datos. unimodal. 20 Frec. Al detectar a datos at´ ıpicos. con colas cortas. En el caso de mediciones. o En la figura I.5 4.

el punto de n equilibrio debe desplazarse mucho hacia ´ste para que se mantenga el equilibrio. . 23: la mediana es el dato ordenado no 2.1. se considera tambi´n la mediana: e I.4. . Medidas de centro Buscamos ahora medidas num´ricas que sean representativas del centro del cone junto de dato. la mediana es m´s representativa del centro del conjunto a si hay alg´n dato at´ u ıpico o si la distribuci´n es algo asim´trica. 11. deberemos tener en cuenta estas frecuencias para el c´lculo de la media: a x= ¯ n1 x1 + · · · + nm xm . La media: Si x1 .4 Medidas num´ricas e (y alguna m´s.. . 185. Por lo tanto.. y es igual a 134. la media representa el punto en el que el conjunto est´ en a equilibrio. . La mediana no cambia. nm . 9 I. La mediana es el dato ordenado no (n + 1)/2..) planteadas en el apartado anterior a la hora de examinar el hisa tograma.1. e Para paliar estos inconvenientes.. .2. . o e Para calcular la mediana de un conjunto de n datos. Ejemplo: 125. n En el caso en que los datos ya est´n tabulados y tenemos los valores distintos a x1 .1. x1 . es decir que si a cada dato le damos un peso unidad. x2 . 200.4. 20. xn . la media y la mediana coinciden. Si la distribuci´n es sim´trica. + nm ) En este caso. la mediana es igual al punto medio entre el dato n igual a 17. 129.. se puede considerar el ejemplo anterior donde se sustituye el valor 23 por 1000. . deducimos que la media es muy sensible a datos at´ ıpicos en el conjunto de datos: si a˜ado un dato (peso) alejado del centro de gravedad. . 134. 15. La mediana: La mediana es el punto que deja el 50 % de los datos a su izquierda y el otro 50 % a su derecha. empiezo por ordenar los datos por orden creciente. . . para convencerse de ello. ¿cu´ntos individuos tenemos en el conjunto? a Nota: Representa el centro de gravedad de los datos. . I. La mediana no es sensible a datos at´ ıpicos.5. ..5. .. . . Nos limitaremos a las medidas de centro y de dispersi´n. (n1 + . . sabemos todos que la media es x= ¯ x1 + · · · + xn . o e . xm junto con sus frecuencias n1 .1.4. que tomamos por convenci´n o o 2 y el dato no 3. xn son los datos.I. . En este caso. Es una medida de centralizaci´n m´s adecuada que la media en el caso o a en que la distribuci´n de los datos es asim´trica ( lo que se ve en el histograma) o si o e hay datos at´ ıpicos. . En particular. es decir las que o proporcionen una respuesta a las preguntas 5 y 6. La mediana es el dato ordenado no 3..

4. El primer cuartil Q1 deja n el 25 % de los datos ordenados a su izquierda. Definimos de la misma manera los cuartiles como los puntos que n separan el conjunto en cuatro partes de mismo tama˜o.52 + 82 )/4 = 38. Es bueno ser consciente de que la desviaci´n t´ o ıpica.52 + 6.2. mientras que la varianza en (unidades)2 .5.1) que representa aproximadamente el promedio de las distancias al cuadrado entre los datos y su media. ız Para calcularla en la pr´ctica se suele preferir la f´rmula siguiente a o s2 = n x (x2 − (¯)2 ). calculamos el rango intercuart´ a ılico RIC como la diferencia entre Q3 y Q1 . x supongamos que quiero calcular la varianza de los datos siguientes 4. y el otro 25 % a su derecha.2. mientras que (¯)2 representa el cuadrado del valor de la media. El RIC tambi´n se utiliza para detectar datos at´ e ıpicos: Regla: Se consideran como at´ ıpicos los datos que son menores de Q1 − 1.2) donde x2 representa la media de los datos que hemos previamente elevado al cuadrado. es el rango intercuart´ ılico. la desviaci´n t´ o ıpica es representativa de la dispersi´n del conjunto de o datos solo si la media es representativa de su centro. Q3 ) nos proporciona informaci´n o sobre la dispersi´n presente en los datos: cuanto m´s alejados est´n los cuartiles. que calculo como x = (4 + 5. I. Empezamos por definir la varianza: s2 = (x1 − x)2 + · · · + (xn − x)2 ¯ ¯ .5 + 8)/4 = 6. Para calcular los cuartiles. empezamos por calcular la mediana M e de los datos. El primer cuartil es la mediana del grupo de datos que queda a la izquierda de M e (M e excluida). 3 Naturalmente.1. Necesito por una parte x. o mayores de Q3 + 1. m´s o a e a dispersos est´n los datos.5 × RIC. y el otro 75 % a su derecha. al igual que la media. la a media.125. 5. 6. .2.4. n−1 (I.4. Medidas de dispersi´n o La desviaci´n t´ o ıpica Mide lo lejos que est´n situados los datos respecto de su centro de gravedad.125 − (6)2 ] = 2. otra parte x deduzco 4 s2 = [38. se expresa en las mismas unidades que los datos.5 × RIC.5 + 6. mientras que el tercer cuartil Q3 deja el 75 % de los datos ordenados a su izquierda. Una medida alternativa de dispersi´n que puede ser m´s representativa en el caso o a en que la distribuci´n es asim´trica o en presencia de datos at´ o e ıpicos. Por ello. Por lo tanto. mientras que el tercer cuartil se calcula como la mediana del grupo que queda a su derecha (M e excluida). Por lo tanto el par (Q1 . La desviaci´n t´ o ıpica s es la ra´ cuadrada de s2 . Como ejemplo.2. n−1 (I.5. 8.8333. I.10 Mathieu Kessler: M´todos Estad´ e ısticos I. El rango intercuart´ ılico (RIC) Hemos definido la mediana como el punto que separa el conjunto en dos partes de mismo tama˜o. y por ¯ ¯ 2 que calculo como x2 = (42 + 5.

para a un conjunto de datos.5 × RIC.4. el primer cuartil. para el bigote superior. tal a como est´ recogida en la figura I.4 Medidas num´ricas e 11 I. como o aparece en la figura I. .3. la dispersi´n y la presencia posible de o datos at´ ıpicos.5 × RIC para el bigote inferior. y el dato inmediatamente inferior a Q3 + 1.7 Comentarios: No hay datos at´ ıpicos. Ejemplo La puntuaci´n de los equipos de la liga espa˜ola al final de las temporadas 01/02 o n y 02/03 en primera divisi´n se pueden comparar con un diagrama caja-bigotes.6. ´ Los equipos del tercer cuarto de la clasificaci´n est´n muy apelotonados en la liga o a 02/03. es decir que no hay equipo que se haya destacado por arriba o por abajo del resto de los equipos.5 RIC (llamados bigotes) se recortan hasta : el dato del conjunto inmediatamente superior a Q1 − 1.I. Un resumen gr´fico: el diagrama de caja-bigotes a El diagrama de caja-bigotes es un resumen gr´fico que permite visualizar. La mayor utilidad de los diagramas caja-bigotes es para comparar dos o m´s a conjuntos de datos. Para realizarlo se necesita calcular la mediana.6: Componentes del diagrama caja-bigotes Los segmentos 1. y el tercer cuartil de los datos: El diagrama de caja-bigotes presenta de manera gr´fica estas informaciones. a 12 q Dato atpico 11 Bigote Q3 10 Me Q1 9 q q 8 Figura I. Hay m´s diferencia de a puntos entre el primer y el ultimo clasificado para la liga 02/03 que en la liga anterior. la tendencia central.

A. En a este caso. temporadas 01/02 y 02/03 o o I. si pienso que la temperatura media Y en agosto en San Javier evoluciona en funci´n del a˜o seg´n el o n u modelo: T emperatura = −582. la temperatura media en agosto aumenta de 0. Wiley & Sons New-York. nos puede interesar a o en particular las relaciones que existan entre ellas.31a˜ o.5. . n deducir´ que en promedio. Ajuste por m´ ınimos cuadrados Planteamiento Es muy normal considerar m´s de una variable asociada a un experimento. ıas.8 Estudio de la resistencia del cemento en funci´n del tiempo de fraguado en o d´ Fuente: Hald. si dispongo de un modelo para la evoluci´n de la variable reo spuesta. p´g 541.3 grados e cada a˜o. o o ´ Hay dos utilidades principales al disponer de un modelo: podemos primero explicar la manera en la que cambios en los valores de una variable explicativa induce cambios en el valor de la variable respuesta.5 + 0. ¿C´mo evoluciona la resistencia de piezas de a o cemento en funci´n del tiempo de fraguado? ¿Cu´nto tiempo hay que esperar o a para conseguir el 90 % de la resistencia m´xima? Este es el tipo de preguntas a a las que podemos contestar con el estudio de este conjunto de datos. (1952) Statistical theory for engineering applications.5.12 Mathieu Kessler: M´todos Estad´ e ısticos 40 50 60 70 102 203 Figura I.7: Comparaci´n puntuaci´n final. n Por otra parte. me permite tambi´n realizar predicciones del valor que tomar´ para valores e a de las explicativas que no hemos observado. m´s que la distribuci´n de cada variable por separado. Por ejemplo. Las nubes de puntos correspondientes est´n presena tadas en la figura I. Nos centraremos aqu´ en el caso ı en que distinguimos una variable llamada “respuesta”.1. cuya amplitud depende de los valores de otras variables llamadas “explicativas”. Acabamos esta secci´n de presentaci´n con cuatro ejemplos con datos reales o o tomados de campos diferentes. y aprenderemos c´mo deducir un o modelo para la evoluci´n de la primera en funci´n de estas ultimas. I.

Fuente: Data and o o o Stories Library http://lib. Journal of Hydrology. 13 Figura I. Evoluci´n de la producci´n mundial de petr´leo desde 1880.cmu. Los datos se presenta en forma de pares: . parece n que el nivel m´ximo al que llega el mar est´ cada a˜o m´s alto. En efecto se piensa que a a las galaxias se alejan como consecuencia del “Big Bang”.edu/DASL/. Sin embargo.cmu. Criterio de m´ ınimos cuadrados Para ilustrar las nociones nos limitamos primero al caso de una variable respuesta que llamaremos Y y una variable explicativa que llamaremos X.edu/DASL.stat.I. En 1929.L (1986) “Extreme value theory based on the r largest annual events”.stat. 86. haciendo a a n a temer por la conservaci´n de la ciudad y de sus monumentos. Edwin Hubble investig´ la relaci´n entre la distancia de una galaxia o o a la tierra y la velocidad con la que est´ alej´ndose. Es por lo tanto o de inter´s estudiar la evoluci´n del nivel m´ximo del mar en funci´n del a˜o. e o a o n Fuente: Smith. Los datos recogidos incluyen distanıa cias en megaparsecs (1 megaparsec= 3. Fuente: Data and Stories Library. http://lib.5 Ajuste por m´ ınimos cuadrados Todos los a˜os Venecia se inunda durante las “acqua alta”. R.5.2. Hubble pens´ que o disponiendo de un modelo que relacionara la velocidad de recesi´n con la diso tancia a la tierra proporcionar´ informaci´n sobre la formaci´n del universo ıa o o y sobre lo que podr´ pasar en el futuro.26 a˜os luz) y velocidad de recesi´n en n o km/s.8: Cuatro ejemplos de conjuntos de datos I.

0 (x2.9 Y 1. Para visualizar el conjunto recurrimos a la nube de puntos. Buscar la funci´n de la familia que mejor se ajusta a o ˆ a la nube de puntos es equivalente a encontrar el valor θ de θ. x) θ = (θ1 . que corresponde a esta funci´n. El criterio que seguimos en este tema es el de m´ ınimos cuadrados. o Debemos ahora dar sentido a la noci´n de “mejor”. La forma de la curva est´ fijada pero intervienen en la a ecuaci´n constantes. debemos fijarnos un criterio o que nos permita decidir que una funci´n de la familia se ajusta mejor a la nube de o puntos que otra. cuyo valor tenemos que ajustar o e a para obtener el “mejor” ajuste posible: en el caso de la recta. debemos encontrar los valores de la pendiente b y de la ordenada en el origen a. . .y1) 0 1 2 X 3 4 Figura I. .3) donde θ es el vector de par´metros. de ecuaci´n Y = aX + b. ver figura I.5 3.y3) 0. yi ).5 2. escogemos una familia param´trica de funciones o e x → f (θ. En una formulaci´n general. .0 (x3. en unos o ejes Ox. tambi´n llamada diagrae ma de dispersi´n. para varios valores X observamos los valores correspondientes de Y .5 (x1.0 2.9: Ejemplo de nube de puntos Por conocimientos previos sobre el fen´meno que estudiamos o por la propia o nube de puntos. · · · . n.14 X Y x1 y1 Mathieu Kessler: M´todos Estad´ e ısticos x2 y2 ··· ··· xn yn es decir que. i = 1. θk ). en el que representamos los pares (xi . (I. decidimos ajustar a ´sta una curva de una determinada forma e funcional: podr´ ser por ejemplo una recta. tambi´n llamadas par´metros. Oy.y2) 1. . o una par´bola ıa o a Y = a0 + a1 X + a2 X 2 .

x1 ))2 + (y2 − f (θ. es decir que hemos encontrado el valor ˆ θ de θ que minimiza la suma de cuadrados.5 Ajuste por m´ ınimos cuadrados Definimos la suma de cuadrados asociada a una funci´n de la familia como la o suma de los cuadrados de las distancias verticales entre la curva correspondiente y los datos observados de la nube de puntos. introduzcamos unos cuantos t´rminos: e ˆ La curva de ecuaci´n y = f (θ. . x) se llama la curva ajustada. . .4) 15 y3 f(θ. . . . Las distancias verticales entre los puntos observados y la curva ajustada se llaman los residuos e1 .y3) Y y=f(θ. . n. ˆ ˆ es decir los valores y1 = f (θ. ˆ i = 1. Supongamos que hemos ajustado la curva. xn ))2 .10. x1 ). Tenemos e i = yi − yi . xn ) se llaman los valores ˆ ajustados. es imposible encontrar este m´ ınimo expl´ ıcitamente y tenemos que recurrir a algoritmos num´ricos. o Los ordenadas de la curva ajustada correspondientes a los datos observados. ˆ Buscamos el valor θ de θ que minimiza la cantidad θ → θ. . en muchos casos. . x2 ))2 + · · · + (yn − f (θ. y3 ) y la curva es y3 − f (θ. por lo tanto la suma de cuadrados se escribe SC(θ) = (y1 − f (θ. (I. . la distancia vertical entre por ejemplo el punto (x3 . x3 ). . . x) x3 X Figura I. x3) (x3. en .10: Ajuste de una curva a la nube de puntos. . yn = f (θ. Tal como viene reflejado en la figura I.I. Nos centraremos en este tema en el caso en que la forma param´trica de e e ˆ f es particularmente simple y permite el c´lculo expl´ a ıcito de θ.

es decir cuando consideramos una variable explicativa X y buscamos ajustar un modelo de la forma Y = aX + b. cuando decrece X. hablamos de asociaci´n positiva o entre X e Y : cuando crece X. a). Obtenci´n de la recta ajustada o SC(θ) = SC(a. En este caso. o En el caso en que la pendiente a es positiva. Casos concretos Describimos ahora con m´s detalle unos pocos casos concretos en los que es a ˆ posible obtener de manera expl´ ıcita la expresi´n de θ. tambi´n llamada e varianza residual n 1 s2 = (ei − e)2 . y viceversa. x) = ax+b. o I. . Corresponde al caso en que θ consta de dos par´metros a y b. crece Y .3. Los candidatos a alcanzar el m´ ınimo de esta funci´n satisfacen o ∂ SC(a. Recta y = ax + b El caso m´s utilizado de ajuste por m´ a ınimo por m´ ınimos cuadrados al ajuste por una recta. θk ) intervienen de manera lineal en a la ecuaci´n (I. decrece la otra). que minimiza la suma de o cuadrados residuales. Calcularemos en algunas ocasiones la varianza de los residuos. hablamos de asociaci´n negativa entre X o e Y (cuando crece una variable. decrece Y .5. ∂b Deducimos de unas cuantas manipulaciones algebraicas que las soluciones a este sistema de ecuaciones son a = ˆ xy−¯y x¯ x2 −(¯)2 x ˆ = y − ax. decimos que el ajuste corresponde o a la regresi´n lineal simple. Estos casos corresponden todos a la llamada regresi´n lineal: o son casos para los cuales los par´metros (θ1 . b ¯ ˆ¯ . En cambio. .5. . b) = 0.2 es f (θ. b) = i=1 La suma de cuadrados se escribe n (yi − (axi + b))2 .5. .1. si la pendiente a es negativa.16 La suma de cuadrados Mathieu Kessler: M´todos Estad´ e ısticos n ˆ SC(θ) = i=1 e2 i se llama suma de cuadrados residuales. y la funci´n f descrita a o en la secci´n I. b) = 0 ∂a ∂ SC(a.3.3). ¯ e n−1 i=1 I.

.I. . se puede escribir la ecuaci´n de la recta ajustada en una forma compacta: o y−y = ¯ sxy (x − x). xn ) = yn − axn − ˆ ˆ b. x1 ) = y1 − ax1 − ˆ ˆ b . o b). De hecho tiene el mismo signo que la pendiente de la recta ajustada. + yn ) − a(x1 + . ˆ en = yn − f (θ.4. Demostraci´n: o e= ¯ e1 + · · · + en n 1 [(y1 + . ¯ s2 x Nota La covarianza es una cantidad que puede ser positiva o negativa. . = . + xn ) − nˆ ˆ b] n = y − ax − ˆ = 0 ¯ ˆ¯ b = Se puede demostrar sin dificultad que la varianza residual se escribe como s2 = s2 1 − e y (sxy )2 s2 s2 x y (s .5. )2 (I. . los residuos son o ˆ e1 = y1 − f (θ. (sxy )2 o La cantidad R2 = s2 s2 se llama coeficiente de determinaci´n. Y y X presentan una asociaci´n positiva mientras que.1 La cantidad r = sxxyy se llama coeficiente de correlaci´n (de o o s Pearson) de X e Y . si la covarianza o es negativa Y y X presentan una asociaci´n negativa.6) xy De esta ecuaci´n deducimos que la cantidad s2 s2 puede medir la calidad del o x y ajuste. ¯¯ (I. Por lo tanto. . De hecho le damos un nombre especial: Definici´n I. . Bondad del ajuste Para la regresi´n lineal simple. ˆ sx sxy = donde s2 es la varianza de X que introdujimos en la secci´n I. . x y s . si la covarianza es positiva. Con estas o x notaciones. y tienen las siguientes propiedades Propiedades de los residuos La media de los residuos es nula. .2.5 Ajuste por m´ ınimos cuadrados Introducimos la cantidad 17 n (xy − xy ).1.5) n−1 que llamamos la covarianza de X e Y . El coeficiente a se puede por lo tanto escribir ˆ como sxy a= 2 .

. mientras que si es o negativo y cercano a −1. deducimos o e y R2 est´ siempre comprendido entre 0 y 1. x ¯ ¯ .. el ajuste es perfecto. o Los datos son Peso(kg) Altura(cm) 54 160 70 170 65 172 78 185 68 160 85 175 Y X Se deja en ejercicio al lector la representaci´n de este conjunto a trav´s de una nube o e de puntos. ”Graphs in statistical analysis”. la varianza residual s2 es nula. o Queremos estudiar la relaci´n entre el peso y la altura en un grupo de individuos.5). Anscombe (1973). El coeficiente de correlaci´n se interpreta o en general como una cantidad que cuantifica la asociaci´n lineal que existe entre o dos variables: cuanto m´s cerca de ±1. construy´ cuatro conjuntos de datos artificiales que dan lugar al mismo coefio ciente de correlaci´n y a las mismas rectas de regresi´n. si r es positivo y cercano a 1. lo que e quiere decir que la dispersi´n de los residuos es nula: todos los residuos son o iguales. los datos apoyan la existencia de una asociaci´n lineal positiva entre las dos variables.2) y (I. presentan una asociaci´n lineal negativa. pero cuyos aspectos o o son completamente diferentes. Puesto que R2 = r2 y 0 ≤ R2 ≤ 1. Los datos se presentan en el ap´ndice.8 como correspondiente a un ajuste bueno. Adem´s por la definici´n de r. y 2 y xy. y se deja e su estudio en ejercicio. deducimos que si R2 = 1. deducimos que el coeficiente de correlaci´n o r est´ siempre comprendido entre −1 y 1. y cuanto m´s cercano est´ de 1.6). el ajuste de los puntos a observados por una recta es perfecto. ¯ s2 x Para calcular sxy y s2 utilizaremos las f´rmulas (I. pp 17-21. sabemos que r es del mismo signo de la covaria o anza. ver (I. 27. Por lo tanto. Un ejemplo Para ilustrar el procedimiento que se sigue para calcular los valores de a y ˆ consideremos el ejemplo muy sencillo a continuaci´n: ˆ b. c). puesto que corresponder´ a una varianza residual menor. que vale 0. fiable en el caso en que est´ o o a pr´ximo a ±1 para indicar que existe una fuerte asociaci´n lineal entre las o o variables pero mucho menos fiable si toma un valor alejado de ±1. todos los puntos de la nube est´n situados en la recta. Se suela considerar un a valor de R2 mayor que 0. Si r = ±1. a En particular.18 Propiedades de r y R2 Mathieu Kessler: M´todos Estad´ e ısticos De la f´rmula s2 = s2 (1 − R2 ). y . es necesario tener precauci´n a la hora de interpretar valores del o coeficiente de correlaci´n: s´lo es un resumen. American Statistician. mientras que un valor mayor que 0. a a e mejor es el ajuste.9 corresponde a un ajuste muy bueno. y por lo tanto iguales a su media. o Sin embargo. Tenemos x. Buscamos ajustar una recta a la nube y pasamos a calcular la ecuaci´n o de la recta de regresi´n que en su forma compacta se escribe o y−y = ¯ sxy (x − x). m´s se aproxima la nube de puntos a a a una recta. necesitamos por lo tanto o x 2 .

Si consideramos el ejemplo de la relaci´n entre peso y altura del apartado anterior.. tampoco sabemos si el modelo deducido seguir´ valido..1kg. En cuanto a la bondad del ajuste.80 × 80 − 67.1 76.51. tenemos que R= lo que implica que R2 sxy 73 √ =√ sx sy 90. al no disponer de valores fuera de este rango. Predicci´n Tal como lo mencionamos en la introducci´n del tema. si f o es derivable y observamos valores de X no muy dispersos alrededor.8Altura− 0.. y encontramos que el peso o asociado ser´ 0.7 − (70)2 ] 144. obtenemos 0. nuestra predicci´n del valor de Y ser´ o a yx0 = a x0 + ˆ ˆ b. X). x2 = xy = 1602 +1702 +.9kg. = 11984.1.8. El modelo te´rico propuesto para relacionar el peso y la altura es P eso o 67.I.2 = 70. es decir y = 0. = 4995. n−1 5 n 6 2 (y 2 − (¯) ) = [4995. corresponde a que la f´rmula de Taylor nos dice que o localmente.. y n−1 5 6 n x y (xy − (¯)(¯)) = [11984. n−1 5 73 90.. d).+175×85 6 Deducimos que s2 = x s2 = y sxy = n 6 x (x2 − (¯)2 ) = [29089 − (170. f general... si disponemos o o del modelo ajustado podemos utilizarlo para predecir el valor de la respuesta para valores no observados de X: Si x0 es un valor no observado. f se comporta aproximadamente como la tangente en un X central. = 29089.+175 6 19 y= ¯ 54+70+. . ıa Sin embargo.7.. El motivo por el cual.33)2 ] 90. si queremos utilizar el modelo ajustado para saber a qu´ peso corresponder´ e ıa la altura de un ni˜o de 80cm por ejemplo. Para el ejemplo de los a pesos.80 × 180 − 67.33).7 (x La ecuaci´n de la recta es por lo tanto y − 70 = o − 170.1. un ajuste malo. cualquier funci´n derivable se puede aproximar por una recta: aunque o la relaci´n entre Y y X no sea lineal sino de la forma Y = f (θ.33 × 70] 73.7 114. debemos tener mucho cuidado al extrapolar nuestro modelo fuera del rango de valores de X que hemos observado.2 − 170. muy a menudo una recta suele ajustarse bastante bien a una nube de puntos.1 −3.+852 6 160×54+170×70+.715.33.5 Ajuste por m´ ınimos cuadrados x= ¯ 160+170+. o podemos contestar a la pregunta ¿a qu´ peso corresponder´ una altura de 180cm? e ıa Sustituimos x por 180 en la ecuaci´n de la recta ajustada.+85 6 = 170.8 0.80x − 67.. ¡lo n que no tiene sentido! Nota.7. 0.+1752 6 y2 = 542 +702 +..

20 I.5.3.2.

Mathieu Kessler: M´todos Estad´ e ısticos Recta forzada por el origen

Hay situaciones en las que pensamos recurrir a un ajuste lineal, pero sabemos por motivos f´ ısicos que un valor de X nulo corresponde necesariamente a un valor de Y nulo tambi´n. En este caso, no tenemos por que considerar todas las rectas, e sino podemos restringirnos a las rectas que pasan por el origen (0, 0). La ecuaci´n o de una recta forzada por el origen es y = ax. Dos ejemplos de situaciones en las que un valor nulo de X implica un valor nulo de Y: Medimos la evoluci´n en funci´n del tiempo (X) de la concentraci´n (Y ) de o o o un producto que se va creando en una reacci´n qu´ o ımica. Cuando empezamos la reacci´n X = 0, todav´ no puede haber producto, por lo tanto Y = 0. o ıa Queremos medir el tiempo t que tarda un objeto que soltamos desde una altura h, en alcanzar el suelo. La relaci´n f´ o ısica proporcionada por la teor´ es h = gt2 , ıa donde g es la constante de la gravedad. Si queremos comprobar que los datos emp´ ıricos confirman esta relaci´n, buscaremos si es cierto que o 1 √ t = √ h. g √ Consideraremos X = h, Y = t, y buscaremos ajustar una recta y = ax. Las f´rmulas que vimos para el caso de una recta general ya no son v´lidas. Calculeo a mos la ecuaci´n de la recta forzada por el origen: disponemos de n pares de datos o (x1 , y1 ), . . . , (xn , yn ), puesto que la funci´n que buscamos ajustar es f (θ, x) = ax, o θ = a y la suma de cuadrados de la f´rmula (I.4) se escribe o
n

SC(θ) = SC(a) =
i=1

(yi − axi )2 .
dSC(a) da

El candidato a minimizar SC(a) satisface la ecuaci´n o dSC(a) = da −xi 2(yi − axi ) = 2[−
i=1 i=1

= 0. Calculamos
n

x i yi + a
i=1

x2 ]. i

Por lo tanto, la soluci´n a la o

ecuaci´n dSC(a) = 0 es o da n xi yi xy a = i=1 2 = ˆ . n x2 i=1 xi

Puesto que la derivada segunda de SC(a) es positiva, se trata efectivamente de un m´ ınimo. I.5.3.3. Algunas transformaciones utiles ´

S´lo hemos descrito c´mo calcular la curva ajustada para dos familias espec´ o o ıficas de funciones y = ax e y = ax + b. Para una especificaci´n m´s general de la funci´n o a o f que queremos ajustar, se recurre a algoritmos num´ricos para encontrar el valor e de los par´metros que minimicen la suma de cuadrados SC(θ). a Sin embargo, hay algunos tipos de modelos no lineales que se pueden abordar con los resultados del caso lineal despu´s de realizar unas transformaciones convenientes. e

I.5 Ajuste por m´ ınimos cuadrados a). Modelo exponencial Supongamos que queremos ajustar un modelo exponencial a una nube de puntos. La ecuaci´n de las funciones que consideramos son o y = beax , con b > 0. En el caso en que a es positivo, modelizamos un crecimiento exponencial, mientras que, si a es negativa, modelizamos un decrecimiento exponencial. La relaci´n entre Y y X es altamente no lineal, sin embargo una simple transo formaci´n puede llevarlo a un modelo lineal: o Modelo te´rico original o y = beax cojo ln −− − − −→ Modelo transformado ln(y) = ln(b) + ax y =b +ax

21

Si introducimos las variables transformadas Y = ln(Y ), y X = X, ´stas satisfacen e una relaci´n lineal: Y = a X + b . o Nuestro procedimiento para ajustar un modelo exponencial consistir´ por lo a tanto en 1. Calculamos los datos transformados, es decir pasar de X Y a X Y x1 ln(y1 ) x2 ln(y2 ) ... ... xn ln(yn ) y =ax +b x1 y1 x2 y2 ... ... xn yn y = beax

2. Ajustamos una recta a las variables transformadas, encontramos y = a x + ˆ . ˆ b 3. Volvemos al modelo original, haciendo la transformaci´n inversa (en este caso o exponencial) cojo exp ˆ ˆ ˆ ˆ y = a x + ˆ − − − → y = ea x +b = eb ea x . ˆ b −−− Ejemplo 1. Queremos ajustar un modelo exponencial a los siguientes datos X Y Transformamos los datos: X Y = ln(Y ) 2.3 1.07 5 1.31 7.1 1.82 8 1.85 2.3 2.92 5 3.69 7.1 6.19 8 6.36

¯ ¯ Ajustamos una recta a los datos transformados, calculando x , x 2 , y , y 2 y x y , ˆ y b : y = 0,148x + 0,682, es decir que ln(y) = 0,148x + 0,682, lo que ˆ para obtener a implica que y = e0,148x e0,682 = 1,18e0,148x . Ejemplo 2. El Ministerio de la Vivienda publica los datos de precios del metro cuadrado de las viviendas en Espa˜a. En la gr´fica siguiente, figura I.11, se ha n a representado la evoluci´n del precio del metro cuadrado en la Regi´n de Murcia o o

22

Mathieu Kessler: M´todos Estad´ e ısticos por cuatrimestres entre 1995 y 2006. Aparece una tendencia exponencial, podemos representar tambi´n el logaritmo del precio para ver si la evoluci´n es entonces lineal. e o La gr´fica correspondiente aparece en la figura I.12. Notar que entre 1996 y 2002, la a curva del logaritmo sigue presentando una curvatura, lo que implica que ¡la subida fue m´s que exponencial! a

1400

q q q q q

1200

q q q

q q

1000

Precio

q q

q q q

800

q q q q q q

600

q q q q q q q q q q q q q q q q q q q q q q q q q

400

1996

1998

2000

2002

2004

2006

Año

Figura I.11: Evoluci´n del precio en euros del metro cuadrado de la vivienda en la o regi´n de Murcia, datos cuatrimestrales, 1995-2006. o

b). Modelo potencial El modelo potencial es de la forma y = bX a . La forma de la nube de puntos correspondiente depende del valor de a. La transformaci´n que o utilizamos es la misma que para el modelo exponencial: aplicamos los logaritmos. Modelo te´rico original o y = bxa cojo ln −− − − −→ Modelo transformado ln(y) = ln(b) + a ln(x) y =b +ax

Introducimos las variables transformadas Y = ln(Y ), y X = ln(X), ´stas satisfacen e una relaci´n lineal: Y = a X + b . Seguimos los mismos pasos que en el apartado o anterior con los datos transformados. Ejemplo. Queremos ajustar un modelo potencial a los siguientes datos X Y Transformamos los datos: 3 10.3 7.34 13.5 20.1 18.2 54.6 24.5

298 ln(x) + 2.0 q q q q log(Precio) 6.006.2 q q q q q 7.3 2 2.1 2. ˆ y b : y = 0. o X = ln(X) Y = ln(Y ) 1.298x + 2. y 2 y x y .6 3 2.298 ln(x) e2.2 ¯ ¯ Ajustamos una recta a los datos transformados. x 2 .6 q q q q q 6. datos cuatrimestrales.006.4 q q q q q q q q 6.5 Ajuste por m´ ınimos cuadrados 23 q q q 7.0 1996 1998 2000 2002 2004 2006 Año Figura I.2 q q q q q q q q q q q q q q q q q 6.9 4 3. ˆ para obtener a lo que implica que y = e0.I.12: Evoluci´n del logaritmo del precio en euros del metro cuadrado de la o vivienda en la regi´n de Murcia.298 .8 q q q q 6.006 = 7.433x0. . 1995-2006. y . calculando x . es decir que ln(y) = 0.

24

Mathieu Kessler: M´todos Estad´ e ısticos

Ap´ndice e
A continuaci´n se presentan los datos de Anscombe (1973), ”Graphs in statistical o analysis”, American Statistician, 27, pp 17-21, se recomienda calcular las medias de X1 , X2 , X3 , y X4 as´ como de Y1 , Y2 , Y3 y Y4 y a continuaci´n calcular las rectas de ı o regresi´n de Yi sobre Xi para i=1, 2, 3, 4. Finalmente, realizar las cuatro gr´ficas o a de Yi en funci´n de Xi para i=1, 2, 3, 4. o X1 10 8 13 9 11 14 6 4 12 7 5 Y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68 X2 10 8 13 9 11 14 6 4 12 7 5 Y2 9.14 8.14 8.74 8.77 9.26 8.1 6.13 3.1 9.13 7.26 4.74 X3 10 8 13 9 11 14 6 4 12 7 5 Y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73 X4 8 8 8 8 8 8 8 19 8 8 8 Y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.5 5.56 7.91 6

TEMA

II

Fundamentos de la teor´ de la probabilidad. ıa

En el tema anterior, hemos estudiado algunos conjuntos de datos reales que presentan variabilidad aun cuando son generados por un experimento realizado en condiciones que nos esforzamos por mantener constantes. Es m´s, si consideramos a el ejemplo de una reacci´n qu´ o ımica de primer orden visto en la secci´n sobre ajuste o de curvas, disponemos de una teor´ qu´ ıa ımica que describe la evoluci´n de la cono centraci´n de los reactivos en funci´n del tiempo como soluci´n de un sistema de o o o ecuaciones diferenciales y sin embargo, los datos provenientes de un experimento nunca se ajustan perfectamente a la curva te´rica esperada. ¿Qu´ tipo de afirmao e ciones sobre el resultado de tal experimento podr´ ıamos entonces realizar? Estas afirmaciones tendr´n que tener en cuenta la incertidumbre ligada al experimento. a La teor´ de la probabilidad es una teor´ matem´tica que permite modelizar exıa ıa a perimentos aleatorios, es decir experimentos cuyo resultado es imposible predecir de manera exacta. Son los cimientos sobre los que est´ construida toda la estad´ a ıstica.

II.1.

Conceptos b´sicos relacionados con un experimena to

Empecemos por introducir unos t´rminos y conceptos relacionados con un exe perimento

II.1.1.

Experimento aleatorio

Un experimento aleatorio es aquel que, aun realizado en las mismas condiciones, produce resultados posiblemente distintos. Se opone a la noci´n de experimento determin´ o ıstico, en el que conociendo las condiciones iniciales, se puede prever de manera exacta el resultado. En la pr´ctia ca, aunque muchos experimentos son verdaderamente aleatorios, en muchos casos se puede tener por despreciable la variabilidad en los resultados y el considerar el experimento como determin´ ıstico proporciona conclusiones satisfactorias. Sin embargo,

26

Mathieu Kessler: M´todos Estad´ e ısticos hay muchas situaciones en las que es s´lo al tener en cuenta el car´cter aleatorio de o a un fen´meno que se llega a conclusiones v´lidas. o a Un ejemplo sencillo de experimento aleatorio consiste en tirar un dado.

II.1.2.

Suceso elemental

Un resultado posible del experimento se llama un suceso elemental.

II.1.3.

Espacio muestral

El conjunto S de todos los resultados posibles de un experimento aleatorio se llama el espacio muestral de este experimento. Si consideramos el experimento que consiste en tirar el dado, el espacio muestral es {1, 2, 3, 4, 5, 6}.

II.1.4.

Suceso

Cualquiera colecci´n de resultados posibles, es decir cualquier subconjunto de S, o se llama un suceso posible asociado al experimento considerado. Un suceso siempre se podr´ describir de dos formas: utilizando palabras, o de a forma matem´tica, utilizando el formalismo de los conjuntos: a Ejemplo. Asociado al experimento que consiste en tirar un dado, podemos considerar el suceso A : ”Sacar un n´mero par”. A se puede tambi´n describir como u e A = {2, 4, 6}. Consideremos un suceso A, y llevamos a cabo una realizaci´n del experimento, o se dice que ”Ocurre A” si el resultado del experimento pertenece a A. En el ejemplo anterior, donde A es “sacar un n´mero par”, si llevamos a cabo el experimento y sale u un 4, diremos que ha ocurrido A. Podemos para describir sucesos de inter´s, utilizar el formalismo de la teor´ de e ıa conjuntos : II.1.4.1. Operaciones elementales con sucesos

Uni´n de dos sucesos A y B: la uni´n de A y B es el suceso formado por todos o o los elementos de A y todos los elementos de B. A ∪ B = {x ∈ S : x ∈ A o x ∈ B}, Notar que ”Ocurre A ∪ B” si y s´lo si ”Ocurre A” o ”Ocurre B”. Por ejemplo, o si B es el suceso ”Sale un n´mero mayor o igual a 5”, es decir B = {5, 6}, u A ∪ B = {2, 4, 5, 6}. Intersecci´n de dos sucesos A y B: la intersecci´n de A y B est´ formada por o o a los elementos comunes a A y a B. A ∩ B = {x ∈ S : x ∈ A y x ∈ B} ”Ocurre A ∩ B” si y s´lo si ”Ocurre A” y ”Ocurre B”. En el ejemplo anterior, o A ∩ B = {6} Disponemos tambi´n de las propiedades siguientes de las operaciones con sucesos: e

el espacio muestral entero. A2 .4.1.1.2.5. es decir A ∩ B = ∅ y diremos que los sucesos A1 . Notar que “Ocurre Ac ” / si y s´lo si “No Ocurre A”. . Ac = {1. si para todos i = j. son incompatibles dos a dos. volviendo al ejemplo del dado: II.II. Leyes de Morgan Para dos sucesos A y B. e a El suceso seguro es S. Suceso complementario de A (Ac = {x ∈ S : x ∈ A} ). En nuestro ejemplo.6.1. Ai ∩ Aj = ∅.1 Conceptos b´sicos relacionados con un experimento a • Comutatividad • Asociatividad • Distributividad A∪B =B∪A A∩B =B∩A A ∪ (B ∪ C) = (A ∪ B) ∪ C A ∩ (B ∩ C) = (A ∩ B) ∩ C A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) 27 II. o II. Diagrama de Venn Es una manera gr´fica de representar los sucesos: un rect´ngulo representa S el a a espacio muestral entero. 3. . . Por ejemplo. . (A ∩ B)c = Ac ∪ B c . A3 . si no pueden ocurrir a la vez. 5}. y vamos agrupando los sucesos elementales en sucesos. Algunos t´rminos m´s. El suceso imposible es el conjunto vac´ ıo Diremos que dos sucesos A y B son incompatibles.

su probabilidad ser´ mayor. Concepto de Probabilidad Al llevar a cabo una realizaci´n de un experimento aleatorio. Dados todos los sucesos asociados a un experimento aleatorio. es decir que. sin embargo tenemos a menudo informaci´n sobre las ”posibilidades” que tiene un determinado suceso de ocurrir. La probabilidad de un suceso es un n´mero entre 0 y 1: u 0 ≤ P(A) ≤ 1. (A ∪ B)c = Ac ∩ B c .28 Mathieu Kessler: M´todos Estad´ e ısticos es decir que. entonces P(A) ≤ P(B). preferimos indicar qu´ propiedades tendr´ a o e a que tener la cantidad escogida para que refleje la creencia que tenemos de que un determinado suceso ocurra. afirmar que“no ha ocurrido (A o B)” es lo mismo que decir “no ha ocurrido A y tampoco ha ocurrido B”. Si un suceso tiene m´s resultados posibles que otro. 2. Definici´n informal de la probabilidad . considerando que la probabilidad asociada al suceso imposible es nula: P(∅) = 0.propiedades. 4.2. II. afirmar que“no ha ocurrido (A y B)” es lo mismo que decir “o bien no ha ocurrido A o bien no ha ocurrido B”.” Pero al realizar esta asignaci´n deberemos tener en cuenta que se o deber´ cumplir: a 1. La probabilidad de que un suceso no ocurra es 1− la probabilidad de que ocurra: P(A) = 1 − P(AC ). asignaremos a cada suceso A. o M´s que formalizar una definici´n.2. Reglas de adici´n: o . a a es decir.1. Queremos o cuantificar de alguna manera esta informaci´n que llamar´ o ıamos la probabilidad del suceso. 5. una cantidad que denotaremos por P(A) y que llamaremos la “probabilidad del suceso A. mientras que la probabilidad asociada al suceso seguro es 1 : P(S) = 1. II. somos conscientes o de que no podemos predecir el resultado. Si A y B son dos sucesos tales que A ⊂ B. 3.

al sumar P(A) y P(B). II. el gordo de la loter´ la primitiva.2. est´ a claro que si hay n sucesos elementales que son adem´s equiprobables. que cumpla u con las cinco propiedades que acabamos de enumerar. es u decir el caso de un espacio muestral finito.2. c) Esta ultima f´rmula se puede generalizar a m´s de dos sucesos. entenderemos como probabilidad la asignaci´n de un o n´mero a cada suceso posible asociado a un experimento aleatorio. la probabilidad de que ocurra uno o el otro es la suma de las probabilidades de cada suceso: Si A ∩ B = ∅. Para cumplir con las propiedades anteriores. y debemos restarla una vez para o obtener P(A ∪ B). Para ilustrar esta manera de calcular la probabilidad de un suceso.2 Concepto de Probabilidad a) Si A y B son dos sucesos incompatibles. El caso de un espacio muestral finito y la definici´n de o Laplace. En este caso. la probabilidad de un suceso A se podr´ a siempre calcular como (Regla de Laplace) P(A) = no de elementos en A no de casos favorables = o . o a a o a b) En cambio si A y B son dos sucesos cualesquiera (en particular.II. hemos contabilizado dos veces la probabilidad de la intersecci´n P(A ∩ B). . P(A ∪ B) = P(A) + P(B). 29 Esta f´rmula seguir´ v´lida si se trata de la uni´n de tres o m´s sucesos. En todo lo que sigue. no de elementos totales n de casos posibles. la probabilidad de acertar es de una entre 100000. II. podr´ ıan ocurrir a la vez). es decir que no pueden ocurrir a la vez. Espacio muestral finito En el caso en que hay un n´mero finito de resultados posibles del experimento. o una quiniela e a a ıa. puesto que. la definici´n de una probabilidad asociada o al experimento pasar´ por la asignaci´n de la probabilidad de cada suceso elemental. nos preguntamos ¿qu´ es m´s f´cil acertar. un diagrama de Venn nos convence de que la f´rmula o correcta es P(A ∪ B) = P(A) + P(B) − P(A ∩ B).1. la probabilidad a de cada uno de ellos es 1/n. a o En particular. 1 P(A) = 100000.2.2. de catorce resultados? El gordo de la loter´ el experimento consiste en escoger al azar un n´mero entre ıa. si A designa el suceso ”acierto”. u 100000 posibles. diremos que los sucesos elementales son equiprobables si todos tienen la misma probabilidad de ocurrir. nos lim´ o a itaremos a enunciar el caso de tres: P(A ∪ B ∪ C) = P(A) + P(B) + P(C) −P(A ∩ B) − P(A ∩ C) − P(B ∩ C) +P(A ∩ B ∩ C).

Loter´ y Apuestas del Estado.30 Mathieu Kessler: M´todos Estad´ e ısticos La primitiva. es decir que la probabilidad de acertar es de una entre m´s de 76 a millones. en 2006. la ONCE. 97 × 10−8 . 2 En total tenemos por lo tanto 50 9 × 5 2 = 76275360 casos posibles. El n´mero de casos posibles es 3×3×· · ·×3 = 315 = 14348907. realizamos un gran n´mero de veces n el experimento. ¡una cantidad de 28 000 millones de euros! o u II. Para calcular el n´mero de casos posibles. y fue en el 2005. Muchas intero a pretaciones de resultados ligados a probabilidades est´n relacionadas con la definia ci´n de Laplace. sumando los de gesti´n privada (casino. Euro-mill´n. u La probabilidad de acertar es de una entre 14 millones. un acertante del euro-mill´n podr´ haber ganado o ıa hasta 180 millones de euros! El mayor premio que se gan´ con la primitiva fue de o casi 25 millones de euros. En 2005 por ejem´ plo. y los o a de gesti´n p´blica. n→∞ n . Es decir.2. el mayor premio fue de 9 millones de euros (fue en la temporada 05/06) Por ultimo. 2. hay un participante que siempre gana: el estado.. el juego consiste en acertar 5 n´meros de una tabla de 50 (Del no o u o 50) y adem´s acertar 2 n´ meros (estrellas) de una tabla de 9 (Del no 1 al no 1 al n a u 9). Interpretaci´n “frecuentista” de la probabilidad o En cuanto dejamos el marco de los sucesos elementales equiprobables. En cuanto a premios. para tener derecho al primer premio hay que acertar 7 n´meros (5 + u 2). tenemos en cuenta que para escoger u los 5 primeros n´meros de la tabla de 50. 13984000.2. y para cada u 5 una de estas combinaciones. bingo. P(A) = 1 14348907 6. tenemos 50 posibilidades. la sociedad que gestiona los juegos estatales. el experimento consiste en escoger quince veces uno de los tres resultados posibles 1.. X. X. 2.2. llamada la ”interpretaci´n frecuentista” de la probabilidad: o o Para un suceso A. ıas ingres´ al Tesoro P´blico casi 2300 millones de euros (fuente: Memoria de Loter´ o u ıas y Apuestas del Estado 2005). 15 × 10−8 . es 49 = 13984000. La probabilidad de acertar es una entre 6 casi 14 millones: 1 P(A) = 7. m´quinas). La quiniela. tenemos 9 posibilidades para escoger las dos estrellas. y u consideramos que P(A) = l´ ım no de veces que ha ocurrido A entre las n realizaciones . el experimento consiste en extraer 6 n´meros sin reposici´n entre u o 49. la asignaci´n de una probabilidad a cada suceso es mucho m´s complicada. mientras que en la quiniela. El n´mero de casos posibles se calcula como las combinaciones sin repetici´n de u o 49 elementos tomados de 6 en 6 (en el anexo pod´is encontrar un breve recordatorio e sobre reglas de conteo). aqu´ no hemos tenido en cuenta que no se suele rellenar las quinielas ı escogiendo al azar una de las tres posibilidades 1. Hay que decir que los espa˜oles se gastaron en juegos n en 2005. Por supuesto.

el “4” y el “6”. ¿cu´l es u o a la probabilidad de que haya ganado la apuesta? Es intuitivamente claro que es de un tercio (un caso favorable.3 La probabilidad condicionada.1. y sabemos que ha ocurrido B. y B =”sale un n´mero par”. el ”6” entre tres posibles.II. . pero me dicen que ha salido un n´mero par.3. 4. 31 II. o II.) Si introduzco los sucesos A = “sale un 6”. Definici´n o Si A y B son dos sucesos tales que P(B) > 0. el “2. ¿cu´l o a es la probabilidad de que haya ocurrido A tambi´n? Por ejemplo. Corresponde a una re-asignaci´n o actualizaci´n de la probabilidad de un suceso o o cuando tenemos informaci´n sobre el resultado del experimento. Tiran el dado sin que yo pueda ver el resultado. quiero calcular u P(A|B). utilizo la definici´n para encontrar: o P(A|B) = P(A ∩ B) P({6}) 1/6 = = = 1/3. en una tirada de e un dado he apostado por el ”6”. P(B) P {2. la probabilidad de A condicionada a B se denota por P(A|B) y es igual a P(A|B) = P(A ∩ B) . 6} 3/6 lo que coincide con nuestra intuici´n. P(B) Su interpretaci´n es: realizamos el experimento. La probabilidad condicionada. Teniendo esta informaci´n. o Al considerar el siguiente diagrama de Venn.3.”.

|B) satisface todas las propiedades de una probabilidad. por ejemplo. la probabilidad condicionada a B. siempre que las probabilidades que aparecen est´n bien definidas. II. Sucesos independientes Una de las situaciones m´s importantes en probabilidad aparece cuando. Es decir A y B son independientes si el hecho de saber que. cona siderando dos sucesos..4. y nos preguntamos cu´l es la probabilidad de que el resultado pertenezca tambi´n a A : a e B es nuestro nuevo espacio muestral puesto que sabemos que los resultados posibles pertenecen a B. P(. En particular cumple por ejemplo.3. y la probabilidad de que pertenezca a A es el cociente P(A∩B)/P(B). P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) (ii) En el caso de tres sucesos. (i) Si A y B son dos sucesos con P(B) > 0.32 Mathieu Kessler: M´todos Estad´ e ısticos nos convencemos de que la definici´n P(A|B) = P(A∩B) es intuitivamente razono P(B) able: realizamos el experimento y sabemos que el resultado pertenece a B. P(A ∪ C|B) = P(A|B) + P(C|B) − P(A ∩ C|B). tenemos P(A ∩ B ∩ C) = P(A|B ∩ C)P(B|C)P(C). II. y para dos sucesos A y C. Notar que esta definici´n es equivalente.1. Regla del producto.4.3. el hecho de que uno ocurra no influye la probabilidad de que el otro ocurra. B y C. B ha ocurrido. Este concepto se llama independencia de dos sucesos y pasamos a definirlo. II.” o o ¿Qu´ os parece este argumento? e . es decir P(B∩ e C) > 0 y P(C) > 0. P(Ac |B) = 1 − P(A|B). no cambia la probabilidad que asignamos a A. a que P(A|B) = P(A) y P(B|A) = P(B). y vice versa. 0 ≤ P(A|B) ≤ 1. Una buena ilustraci´n de este concepto: “¿Sab´is por qu´ un matem´tico siempre o e e a se lleva una bomba cuando viaja en avi´n? .2. A. para cualquier suceso A. Definici´n para dos sucesos o A y B son dos sucesos independientes si se cumple P(A ∩ B) = P(A)P(B).3. Propiedad Para un suceso B fijado.Porque es mucho menos probable que o haya dos bombas en un mismo avi´n que s´lo una.. II. por la definici´n de la probabilidad o o condicionada.

Nos dicen que a o P (F |T ) = 0. Introducimos los sucesos T =”tiene un o n tumor asociado a un c´ncer de pulm´n”. . . o Por otra parte.5. P(F ) P(F ) P(F ) . a o Para relacionar P(T |F ) y P(T ). . A2 .2. Tabaquismo y c´ncer de pulm´n a o Del informe “La situaci´n del c´ncer en Espa˜a. . . ¡depende de la tasa de fumadores en la poblaci´n! o Traduzcamos estos datos con sucesos: consideramos el experimento “escoger una persona al azar en la poblaci´n espa˜ola”. Ai2 . hubo hace unos a˜os. Los creadores de este eslogan jugaron con el efecto causado al usar una probabilidad condicionada: si P denota el suceso “probar suerte” y A el suceso “acertar”. para saber si el hecho de ser fumador incrementa el riesgo de desarrollar un c´ncer de pulm´n. II.2.4. 2005”. elaborado por el Centro o a n nacional de Epidemiolog´ se deduce en particular los datos siguientes: el c´ncer es ıa. queremos saber si P(T |F ) es mayor que P(T ).II.. En particular se cumple que P(Ai ∩ Aj ) = P(Ai )P(Aj ) para todo i y j entre 1 y n. . II. se cumple P(Ai1 ∩ Ai2 ∩ · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ). el eslogan est´ diciendo P(P |A) = 1. . Definici´n para n sucesos o Los n sucesos A1 .5. se indica que el 90 % de los pacientes con c´ncer a a a de pulm´n son fumadores. podemos utilizar la definici´n de la probabilidad o condicionada: P(T |F ) = P(T ∩ F ) P(F |T )P(T ) P(F |T ) = = × P(T ).5..5 Ejemplos de probabilidades condicionadas en la vida diaria 33 II. Ejemplos de probabilidades condicionadas en la vida diaria Eslogan publicitario para la loter´ ıa En Francia. en la informaci´n publicada por la Asociaci´n Espa˜ola contra el o o n C´ncer (AECC) en su p´gina web.9 pero en realidad. y en particular. un eslogan publicitario para un juego de loter´ n ıa que rezaba: El 100 % de los acertantes probaron suerte.1. o ¿Se puede deducir de est´ ultima estad´ a´ ıstica de que el tabaquismo es un factor de riesgo para el c´ncer de pulm´n? En principio. F =”es fumador”. a la primera causa de muerte en t´rminos absolutos (p9).. . parece que s´ pero en realidad a o ı. el c´ncer de e a pulm´n es el tumor de mayor incidencia y de mayor mortalidad entre los hombres. Aik . a II. pero la gente piensa en P(A|P ) que es much´ a ısima m´s baja por supuesto.. An son independientes si para cualquier subfamilia Ai1 .

e n = 2. . F´rmula de la probabilidad total y teorema de o Bayes Condiciones de aplicaci´n o Tenemos n sucesos A1 . en este caso tenemos A1 = A y A2 = Ac . a o a Seg´n la Encuesta Nacional de Salud 2003. la edad media de fallecimiento por c´ncer de pulm´n es de 68 a˜os u a o n para los hombres y 66 a˜os para las mujeres. . . de todas maneras. j ≤ n).6. ıan II. De hecho. Tenemos otro suceso B y. . P(An ). . . P(A2 ). i. la probabilidad de B. es decir a P(A1 ). Los resultados Si se cumplen las condiciones de aplicaci´n del apartado anterior. . . A1 ∪ A2 ∪ o · · · An = S.34 Mathieu Kessler: M´todos Estad´ e ısticos Por lo tanto.9/0. II. y cuya uni´n es el espacio muestral entero. o F´rmula de la probabilidad total Se puede calcular P(B) descomponiendo o B sobre cada uno de los sucesos de la partici´n: o P(B) = P(B|A1 )P(A1 ) + · · · + P(B|An )P(An ). . es decir que son mutuamente incompatibles (Ai ∩ Aj = ∅. Nota: A menudo nos encontraremos con la situaci´n en la que s´lo son dos o o sucesos. se puede enfatizar que la unica afirmaci´n “El 90 % de los pacientes con ´ o c´ncer de pulm´n son fumadores” no implica de por s´ que el tabaquismo sea un a o ı factor de riesgo para el c´ncer de pulm´n.1.. A2 . a o Pero. es decir conocemos P(B|A1 ).2. . que se puede obtener del Instituto u Nacional de Estad´ ıstica. . P(B|An ). n. II.5. i. . e tendr´ una vida muy larga. Tabaquismo y esperanza de vida Un dato cl´sico en epidemiolog´ es muy sorprendente en primera lectura: a ıa Si nos limitamos a la gente mayor de 70 a˜os. .. aproximadamente el 30 % de la poblaci´n espa˜ola son o n fumadores diarios. ¡la esperanza de vida de los n fumadores es mayor que la de los no fumadores! ¿C´mo puede ser esto cierto? En realidad este dato no es tan sorprendente si o uno se lo piensa un poco: muy poca gente llega a los 70 a˜os fumando. lo que implica que. La gente que llega a los 70 a˜os y n n son fumadores tienen un sistema inmunol´gico muy resistente y un mecanismo de o control de c´lulas tumorosas muy eficiente. .e. n seg´n la AECC. para cada i = 1. para 1 ≤ i. Adem´s conocemos la probabilidad de cada uno de ellos..3. . Deducimos que el hecho de ser un fumador diario multiplica por tres el riesgo de padecer un c´ncer de pulm´n.3=3.6.6. . el concluir si el tabaquismo incrementa el riesgo de desarrollar un c´ncer de pulm´n depender´ del cociente P(F |T )/P(F ). a o II. en el caso de que ocurra Ai . conocemos.. El cociente P(F |T )/P(F ) es por lo tanto igual aproximadamente a 0. An que forman una partici´n del espacio o muestral S.

.6.98 = 0.0001 · 0. Nos damos cuenta de a n que si A1 = RS y A2 = RS C .01 · 0. .000298 0. An una partici´n del espacio o o muestral. ¿Cu´l es la proporci´n total de ficheros da˜ados en la transmisi´n? a o n o Suponiendo que recibo un fichero da˜ado. Deducimos o o P(D) = P(D|RS)P(RS) + P(D|RS C )P(RS C ) = 0. . Por otra o n parte. estamos por lo tanto en las condiciones de aplicaci´n de la f´rmula de la probabilidad total y del teorema de Bayes. .98.3. 0. .000298 por lo tanto. . al formar A1 . n. mientras que si no lo est´. . . por lo tanto forman una partici´n del espacio muestral. Ejemplo En un la transmisi´n de un mensaje por correo electr´nico. Utilizamos ahora la regla del producto P(B ∩ Ai ) = P(B|Ai )P(Ai ) para todo i = 1. (B ∩ An ) son incompatibles dos a dos.02 + 0. obteno emos el teorema de Bayes.01 %. Por otra a parte conocemos P(D|A1 ).6 F´rmula de la probabilidad total y teorema de Bayes o Teorema de Bayes Para cualquier i = 1. ¿cu´l es la probabilidad de que la red n a estuviera sobrecargada durante la transmisi´n? o Empecemos por introducir los sucesos convenientes para traducir los datos que se nos proporciona. es decir que la proporci´n total de ficheros da˜ados es de 3 por 10000.02 = 0.02. Si sustituimos en el numerador P(Ai ∩ B) por P(B|Ai )P(Ai ) y en el numerador P(B) por la f´rmula de la probabilidad total. y D el suceso “El a archivo est´ da˜ado”. . P(RS|D) = . Utilizamos. la descomposici´n del suceso B o B = (B ∩ A1 ) ∪ (B ∩ A2 ) ∪ · · · (B ∩ An ). . la calidad de la recepo o ci´n de un fichero depende de la sobrecarga de la red.01 · 0. . Los sucesos (B ∩ A1 ). A2 . . esta proporci´n o n a o s´lo es del 0. Se nos pide calcular P(D) y P(RS|D). tenemos P(Ai |B) = P(B|Ai )P(Ai ) . sabiendo que recibo un fichero da˜ado.0003.67. o Adem´s conocemos sus probabilidades: P(A1 ) = 0. . P(D|RS)P(RS) P(D|RS)P(RS) + P(D|RS C )P(RS C ) 0.II. . y aplicamos la regla de la adici´n o P(B) = P(B ∩ A1 ) + P(B ∩ A2 ) + · · · P(B ∩ An ). Por otra parte por la definici´n de la probabilidad condicionada P(Ai |B) = P(Ai ∩ o B)/P(B). la probabilidad de que la red n estuviera sobrecargada es igual a 0. P(B|A1 )P(A1 ) + · · · + P(B|An )P(An ) 35 Demostraci´n. . los sucesos A1 y A2 son incompatibles y su reuni´n es o el espacio muestral entero.67. II. Si la red est´ sobrecargada. Sea RS el suceso “La red est´ sobrecargada”. la o a proporci´n de ficheros da˜ados es de 1 %. y P(D|A2 ). . por el teorema de Bayes. Estimamos que la probabilidad de que la red est´ sobrecargada o e es igual a 0.02 y P(A2 ) = 0. para todo 1 ≤ i ≤ n. n para la f´rmula de la probabilidad total o P(B) = P(B|A1 )P(A1 ) + · · · + P(B|An )P(An ).

.

. y o considerar la v. Por ejemplo. sucesos y probabilidad asociada a un suceso.1.a X= o o o “valor medido de la concentraci´n. o Finalmente ilustraremos algunos conceptos de este tema con un ejemplo sencillo: el experimento consiste en lanzar tres veces una moneda no trucada. el espacio .asocia un n´mero o m´s genu a eralmente una caracter´ ıstica a todo resultado posible del experimento. Hemos puesto en el tema anterior las primeras piedras en este sentido describiendo experimento aleatorio. y los sucesos que queremos estudiar se expresan a trav´s e de estas funciones. en o un proceso de fabricaci´n.1. nuestro modelo consistir´ en dea scribir las probabilidades asociadas a cualquier suceso relacionado con esta variable. Puesto que nos es imposible predecir de manera exacta el valor de una variable aleatoria al realizar el experimento.a.” Otro ejemplo de variable aleatoria se asocia. Si denotamos por + el resultado “cruz” y por c el resultado “cara” al lanzar una moneda.a. Definici´n o Una variable aleatoria. descripci´n que conseguiremos gracias a la funci´n de distribuci´n.1. si consideramos el experimento que consiste en realizar una medici´n de la concentraci´n de un producto en una soluci´n. al experimento de escoger un dispositivo producido. X= “duraci´n hasta el fallo”.de ahora en adelante v. pero nos falta la noci´n fundamental de variable aleatoria: en problemas concretos. o o o III. nos interesa la v. Concepto de variable aleatoria Consideramos un experimento aleatorio y su espacio muestral asociado. III.TEMA III Variable aleatoria I Las nociones te´ricas que hemos introducido responden a la necesidad de construo ir modelos matem´ticos que den cuenta del car´cter aleatorio de los fen´menos que a a o nos interesan. o estamos interesados en funciones definidas sobre el espacio de los resultados posibles del experimento aleatorio.

a de inter´s en un problema concreto es por lo tanto escoger un modelo e para describir el comportamiento de esta variable. + + c. escogemos un modelo en el que los sucesos elementales de S son equiprobables. cc+. 2 y 3.. calculamos P(X = i) para i = 0.a.1.38 muestral se describe como Variable aleatoria I S = {ccc. c + +. +c+. colas.. X consiste en saber asignar a o cualquier suceso relacionado con X una probabilidad. Para el ejemplo de los tres lanzamientos de una moneda. Al ser la moneda no trucada. 1. 2. Puede tomar cualquiera de los valores 0.2.a. la distribuci´n de X = o “n´mero de veces que ha salido cruz en los tres lanzamientos” est´ completamente u a determinada por la lista de los valores posibles junto con la probabilidad con la que X toma cada valor. + + +}. Consideraremos la v. III.) a . c + c. X= “n´mero de veces que ha salido cruz en los tres lanzau mientos”. Decidir de una distribuci´n o para una v. Distribuci´n de una variable aleatoria o Conocer la distribuci´n de los valores de una v. 1. m´ximo. +cc. 3 con la regla casos favorables / casos posibles y obtenemos Valor 0 1 2 3 Probabilidad 1/8 3/8 3/8 1/8 Se puede representar de manera gr´fica la distribuci´n de X: a o Podremos fijarnos en las caracter´ ısticas principales de esta distribuci´n (simetr´ o ıa.

Si 2 ≤ t < 3. 2 y 3 que inducen los cinco intervalos para t: t < 0.2.2 Funci´n de distribuci´n de una v. Si t < 0. o III. Deducimos FX (t) = P(X ≤ t) = P(X = 0) = 1/8.III. C´lculo para el ejemplo de las tres monedas a Para calcular FX (t) = P(X ≤ t).750 0. 0 ≤ t < 1.000 q 0. Propiedades La funci´n de distribuci´n de una v. el suceso (X ≤ t) es el suceso seguro puesto que todos los valores que puede tomar X son menores o igual que 3. Finalmente. 1 ´ 2.a.1.500 q 0. 1.a o o Se trata de una manera de describir la distribuci´n de una variable X. La gr´fica de FX en este ejemplo es a 1. o es decir FX (t) = P(X ≤ t) = P[X = 0] + P[X = 1] + P[X = 2] = 1/2 + 3/8 = 7/8.e. si t > 3. debemos considerar los intervalos definidos por los valores posibles de X es decir 0. FX (t) = P(X ≤ t) = 0.2. Definici´n o La funci´n de distribuci´n de una v. u FX (t) = P(X ≤ t). III. i. es decir FX (t) = P(X ≤ t) = P[(X = 0) ∪ (X = 1)] = P[X = 0] + P[X = 1] = 1/8 + 3/8 = 1/2.2. Por lo tanto FX (t) = P(X ≤ t) = 1. el suceso (X ≤ t) es el suceso imposible puesto que todos los valores que puede tomar X son mayores o igual que 0. X es la funci´n FX que asocia a cualquier o o o n´mero real t la probabilidad de que X sea menor o igual a t. 2 ≤ t < 3 y t > 3.a o o 39 III. X cumple las propiedades siguientes: o o . 1 ≤ t < 2. Por lo tanto.250 0.875 q 0.375 0.125 q 0 1 2 3 x III. el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0 ´ o 1.2. Si 0 ≤ t < 1. Si 1 ≤ t < 2. Funci´n de distribuci´n de una v.625 F(x) 0.3.2.a. el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0. el suceso (X ≤ t) se cumple si y solamente si X toma el valor 0.

2. .3. hemos calculado la distribuci´n de X. Funci´n puntual de probabilidad o Definici´n o Si X es una v. x2 .2. . el n´mero de veces que ha salido cruz en el apartado 1. ım ım Variable aleatoria I FX es una funci´n creciente. 2 y 3. . por lo tanto Valor 0 1 2 3 fX 1/8 3/8 3/8 1/8 1 Un conjunto infinito numerable es un conjunto del que se puede enumerar todos los elementos.a. .2. xn .3. 1 Variable aleatoria discreta Definici´n o En el caso en que la v. u . o o III. III. N. X= “N´mero de veces que ha salido cruz” es una v.a.a discreta puesto que s´lo puede u o tomar cuatro valores. discreta. 1] es infinito no numerable por ejemplo. tenemos (X ≤ a) ⊂ (X ≤ b) o lo que implica que P(X ≤ a) ≤ P(X ≤ b). . o Finalmente la propiedad m´s importante que utilizaremos muy a menudo: para a todos n´meros reales a ≤ b. III. . X puede tomar un n´mero finito o infinito numerable u de valores. es decir para el cual es imposible enumerar o los elementos. . n . para i = 1. puesto que si a ≤ b. representan sus valores posibles. El intervalo de n´meros reales [0. Los o u valores posibles de X son 0. La demostraci´n de esta propiedad es inmediata si utilizamos la descomposio ci´n (X ≤ b) = (X ≤ a) ∪ (a < X ≤ b) junto con la regla de la adici´n. la v. la funci´n puntual de probabilidad de X es la funci´n fX que asocia a cada xi la o o probabilidad P(X = xi ). En cambio un conjunto infinito no numerable es un conjunto que no se puede poner en biyecci´n con N. y x1 .1.3. 1.a. . . . En el ejemplo de los tres lanzamientos de una moneda. En el experimento del lanzamiento de las tres monedas.1. Ejemplo. l´ t→−∞ FX (t) = 0 mientras que l´ t→+∞ FX (t) = 1. . FX es una funci´n continua por la derecha.40 0 ≤ FX (t) ≤ 1. III. . . para todo t ∈ R. Z y Q son ejemplos de conjuntos infinitos numerables.3. u P(a < X ≤ b) = FX (b) − FX (a). fX : xi → fX (xi ) = P(X = xi ).

3. o ..1.a. o o III.a. . X se expresa en las mismas unidades que X.2.a. o es natural calcular la suma de estos valores ponderados por la probabilidad que se le asigna.}. . de una o v. la esperanza de una v. Esperanza Si queremos considerar el valor medio de la distribuci´n de valores de una v. o o e Por supuesto.a. Ser´ util para una distribuci´n de valores ser capaz de calcular el valor medio a ´ o no solamente de X sino tambi´n de una funci´n de X. . todos o las medidas descriptivas de un conjunto de datos tienen su contra-parte para la distribuci´n de una v. . est´ claro por ejemplo que e o a el valor medio de la distancia al cuadrado de X a su media ser´ una medida de a dispersi´n de la distribuci´n de valores de X. definimos la esperanza de o o una funci´n cualquiera f (X) de X. .3. . xn . obtenemos que P(X ≤ t) = xi ≤t P(X = xi ) = xi ≤t fX (xi ). Nos limitaremos por razones de tiempo a una medida de o centralizaci´n y otra de dispersi´n: la esperanza y la varianza. . si consideremos dada una funci´n f definida en un conjunto discreto a o de valores {x1 . o esperanza.a. Caracter´ ısticas de una variable discreta Al igual que en el tema 1 para un conjunto de datos. . . discreta permite calcular la o funci´n de distribuci´n: si notamos que o o (X ≤ t) = ∪xi ≤t (X = xi ).1 La media. Por ello. III. se puede demostrar que f es una funci´n puntual o de probabilidad de una v.3.III. o valor esperado.3. .a. De hecho.a.3.3. Adem´s. queremos disponer de herramientas para describir la distribuci´n de valores de una v. xi fX (xi ) = 1. o promedio. discreta X se define como E[X] = xi xi P(X = xi ).2. xn . . . . X si y solamente si cumple • 0 ≤ f (x) • para x = x1 . Representa una medida de centralizaci´n de la distribuci´n de valores de X pero o o con la misma puntualizaci´n que en el tema 1: es representativa del centro de la o distribuci´n si ´sta es aproximadamente sim´trica pero puede ser una mala medida o e e de centralizaci´n si la distribuci´n es asim´trica y/o presenta colas pronunciadas. . Propiedades 41 La funci´n puntual de probabilidad de una v.3 Variable aleatoria discreta III. Definici´n III.

2 Sea X una v.a.3. E[f (X)] = xi f (xi )P(X = xi ).3. 2 Definici´n III. discreta X. discreta y f una funci´n de R en R. es decir.a. En particular. Varianza Para disponer de una medida num´rica de la dispersi´n de valores de una v.2.3. la desviaci´n t´ o ıpica se define como la ra´ cuadrada de la varianza ız σX = 2 σX . designada por var X o σX .42 Variable aleatoria I Definici´n III. m´s concentrada estar´ la distribuci´n a a o alrededor de su media. si la desviaci´n t´ o ıpica de X es nula.2 deducimos que var(X) se puede calcular como o var(X) = xi (xi − E[X])2 P(X = xi ). Tenemos o a var(X) = E[X 2 ] − (E[X])2 . llamamos esta cantidad la varianza de X. Demostraci´n: o var(X) = xi (xi − E[X])2 P(X = xi ) (x2 − 2xi E[X] + E[X]2 )P(X = xi ) i xi = = xi x2 P(X = xi ) − i xi 2xi E[X]P(X = xi ) + xi E[X]2 P(X = xi ) P(X = xi ) xi = xi x2 P(X = xi ) − 2E[X] i xi 2 xi P(X = xi ) + E[X]2 = E[X 2 ] − 2E[X]E[X] + E[X] = E[X 2 ] − E[X]2 Finalmente.3 La varianza de una v. III. calcularemos el valor promedio de la distancia al cuadrado de X a su media. deducimos . La espero o anza de f (X) es la suma de los valores de f (X) ponderados por la probabilidad de que X tome cada valor. Por la definici´n III. Por otra parte.a e o X. Ser´ la medida que calcularemos para dar cuenta de la dispersi´n de la distribuci´n: a o o cuanto m´s peque˜a sea la desviaci´n t´ a n o ıpica. o est´ definida por a var(X) = E[(X − E[X])2 ]. se suele calcular la varianza utilizando la f´rmula equivalente siguo iente: F´rmula equivalente para el c´lculo de la varianza.3. Al igual que en el tema 1.3.

Ning´n modelo se ajusta perfectamente al u fen´meno observado.a X ”n´mero de cruces”. E[X] = xi xi P(X = xi ) = 0 1/8 + 1 3/8 + 2 3/8 + 3 1/8 = 3/2 y por otra parte var(X) = E[X 2 ] − (E[X])2 = xi 2 2 2 x2 P(X = xi ) − (3/2)2 i = 0 1/8 + 1 3/8 + 2 3/8 + 32 1/8 − (3/2)2 = 3/4 La desviaci´n t´ o ıpica es por lo tanto σX = √ 3/2. que todos los valores de X son o a iguales: X s´lo puede tomar un valor. Modelos m´s usados de v.3.1 En la f´rmula equivalente para la varianza aparecen las cantidades o E[X 2 ] y E[X]. III. En general para un entero k. Tambi´n hablamos de momento centrado ı e de orden k para la cantidad E[(X − E[X])k ]. discretas a No debemos olvidar que nuestro objetivo es modelizar un fen´meno. y lo toma con probabilidad 1. Proponer un o modelo no consiste en proporcionar una descripci´n de la realidad.3. u Por una parte. hay situaciones t´ ıpicas de modelizaci´n que presentan las miso mas caracter´ ısticas y para las cuales se han propuesto modelos de distribuciones bien estudiados y conocidos. As´ la media es el momento de orden 1. Varios valores de p.a.3. La varianza es por lo tanto el momento centrado de orden 2.1. Llamamos p la o o probabilidad de que tome el valor 1. III. En este contexto. 0 ´ 1. llamamos a E[X k ] el momento de orden k.4.3. III.3. Variable de Bernoulli Se trata de una variable que s´lo puede tomar dos valores. sino disponer de o una aproximaci´n que d´ cuenta de los resultados observados del experimento para o e unas condiciones experimentales dadas.III. .3 Variable aleatoria discreta por la primera f´rmula para el c´lculo de la varianza. es bueno resaltar que la desviaci´n t´ o ıpica se expresa en las mismas unidades que la variable X.4. as´ que considerarlo adecuado o v´lido es equivalente a consido ı a erar que el grado de precisi´n conseguido es satisfactorio para el uso que queremos o hacer del modelo. Nota III. Ejemplo 43 Calculemos para el ejemplo del lanzamiento de tres monedas la esperanza y la varianza de la v.3. (comprendidos entre 0 y 1. o Por otra parte.

o a Propiedades Valores posibles: {0. Al experimento aleatorio: “transmitir un fichero por n la red”.4. Consideramos la variable X=”N´mero de veces que ha ocurrido A en las n u realizaciones del experimento simple.. En esta situaci´n. La variable X sigue una distribuci´n de Bernoulli de n o par´metro 0. con una situaci´n dicot´mio o ca. Las piezas se empaquetan en cajas de 10 unidades. Si consideramos el experimento aleatorio que consiste en escoger al azar una caja entre la producci´n. Lo denotamos por o X ∼ B(n. donde el s´ ımbolo ∼ se utiliza para “sigue una distribuci´n”.. a III. hablamos de la distribuci´n de Bernoulli de par´metro p. se ha repetido 10 veces el experimento aleatorio simple “escojo una pieza en la producci´n” al que va asociado una situaci´n dicot´mica: o o o c = “la pieza o bien ocurre A=“la pieza escogida es defectuosa”. ocurra A). ¿cu´l es la distribuci´n de o a o la variable X=”n´mero de piezas defectuosas en la caja”.2. Para un valor p concreto. P(X = 0) = 1 − p P(X = 1) = p. de par´metros o o a n ( el n´mero de veces que repetimos el experimento simple) y p (la probabilidad de u que. p).3. es decir una situaci´n con dos sucesos posibles A y Ac (o ocurre A o no o ocurre A). Esperanza: E[X] = Varianza: Tenemos: E[X 2 ] = xi P(X = xi ) = 0 × (1 − p) + 1 × p = p x2 P(X = xi ) = 02 × (1 − p) + 12 × p = p. en una realizaci´n del experimento simple. Ejemplo Una empresa produce piezas con 1 % de defectuosas.9997. o b). Repetimos este experimento simple n veces de manera independiente. por lo tanto i var(X) = p − p2 = p(1 − p).44 Variable aleatoria I puesto que p es una probabilidad) dan varias distribuciones de Bernoulli. Definici´n La distribuci´n binomial aparece cuando se dan las condiciones o o siguientes: Tenemos un primer experimento aleatorio simple. en promedio 3 de cada 10000 ficheros transmitidos resultan da˜ados. 1}. la variable X sigue una distribuci´n Binomial. u Para completar una caja. asocio la variable X que toma el valor 1 si el fichero se transmite correctamente y 0 si resulta da˜ado. Transmito un fichero por la red. Distribuci´n binomial o a). Ejemplo. o bien ocurre A .

∩ Ac . . . 1. n fX (i) = o o P(X = i). 1. 2 n 1 n ∪ (Ac ∩ Ac ∩ . En resumen. . . . “ha ocurrido A en la primera realizaci´n del exp. corresponde al n´mero de maneras de escoger i sucesos diferentes entre u n: es una cantidad b´sica en combinatoria. .3 Variable aleatoria discreta escogida es correcta”. . i . . . para i i = 0. Contar el n´mero de piezas defectuosas en la caja es por u lo tanto equivalente a contar el n´mero de veces que ha ocurrido A entre las 10 u realizaciones del experimento simple. siendo el primero de ellos P(A1 ∩ A2 ∩ . . . . Distribuci´n . . y se denota por ( ). se llama el n´mero de combinaciones a u n de n elementos tomados de i en i. 2. y p = P(A). . . n i fX (i) = P(X = i) = ( )p (1 − p)n−i . ∩ An ) 1 2 Aplicando la regla de la adici´n para sucesos incompatibles y a continuaci´n o o la regla del producto para sucesos independientes. . calculamos P(X = 1) : El suceso (X = 1) se escribe como (X = 1) = (A1 ∩ Ac ∩ . . simple” e o Estos sucesos son independientes. . . simple” o . S´lo nos queda determinar el n´mero de t´rminos en esta o u e suma. . . . . . 1 2 n 1 n por la regla del producto para sucesos independientes. .01). . . Para calcular estas probabilidades. ∩ Ac ) + P(Ac ∩ A2 ∩ . Concluimos X ∼ B(10. . P(Ac ) = (1 − p)n . 2 n 1 n + P(Ac ∩ Ac ∩ . la probabilidad P(X = i) se descompone como la suma de t´rminos todos e c ∩ . . ∩ Ac ). . por lo tanto n 1 2 P(X = 0) = P(Ac ∩ Ac ∩ . n. ∩ Ac ) = P(Ac ) . obtenemos P(X = 1) = P(A1 ∩ Ac ∩ . ∩ Ac ) ∪ (Ac ∩ A2 ∩ . que es iguales. simple” o “ha ocurrido A en la segunda realizaci´n del exp. ∩ An ) 1 2 = p(1 − p)n−1 + p(1 − p)n−1 + . Propiedades Valores posibles: 0. . 0. n. . Empecemos por calcular P(X = 0): El suceso X = 0 se puede escribir Ac ∩ Ac ∩ . . i = 0. + p(1 − p)n−1 = np(1 − p)n−1 De la misma manera. ∩ Ai ∩ Ai+1 n igual a pi (1 − P )n−i . 1. . introduzcamos los sucesos: A1 = A2 = . ∩ Ac ) ∪ . . para un i cualquiera entre 0 y n. . 45 An = “ha ocurrido A en la n-´sima realizaci´n del exp. De manera similar. . . la probabilidad de que o a ocurra A en el experimento simple. podemos demostrar que.Funci´n puntual de probabilidad. . ∩ Ac ) + . . . Deducimos que la distribuci´n de X es una o distribuci´n Binomial con par´metros n = 10. .III. . c). .

Esperanza y varianza de X ∼ Geo(p). Definici´n Es el modelo m´s sencillo para un tiempo de espera discreto: o a consideramos.3. Funci´n puntual de probabilidad de X: queremos calcular P(X = i) para o i ∈ N∗ . 2. etc. un experimento simple o C con probabilidades p y 1 − p respecticon una situaci´n dicot´mica. var(X) = n · p · (1 − p).. Introducimos la variable X:”N´mero de veces que debeu mos realizar el experimento simple hasta que ocurra A por primera vez”.. i Esperanza y varianza: Es posible demostrar que.3. ocurre A o A o o vamente. . Introducimos los sucesos: A1 =”ocurre A en la primera realizaci´n del experio mento simple”. . 1−p . Utilizando resultados cl´sicos sobre suma de series geom´tricas. Distribuci´n Geom´trica o e a). por la regla del producto para sucesos independientes. Propiedades .. y por lo tanto binomio de Newton: (a + b)n = n ( i=1 i )a (b) n ( i=1 n i )p (1 − p)n−i = (p + 1 − p)n = 1. .46 donde ( n! n )= . E[X] = n · p. La variable X sigue una distribuci´n geom´trica de par´metro p. i=1 i )p (1 − p) n i n−i . Est´ claro que a P(X = i) = P(Ac ∩ Ac ∩ . 1 2 i−1 y. i i! · (n − i)! Variable aleatoria I y se utiliza la convenci´n 0! = 1. V ar(X) = p2 . Ac ∩ Ai ). Estamos dispuestos a realizar este experimento simple un cierto n´mero de u veces hasta que ocurra A. III. al igual que para una distribuci´n binomial. obtenemos a e E[X] = 1/p. Escribimos o e a X ∼ Geo(p) b). . o n i n−i = 1? La respuesta es s´ por el Nota: ¿se cumple que n ( ı. A2 =”ocurre A en la segunda realizaci´n del experimento simo ple”. .4.. X puede tomar los valores 1. deducimos P(X = i) = (1 − p)i−1 p. p). si X ∼ B(n.

4. sigue una distribuci´n de Poisson de par´metro λ.a discreta. hemos visto que utilizamos la funci´n o puntual de probabilidad que asocia a cada valor posible la probabilidad de que X tome este valor: el c´lculo de la probabilidad de un suceso involucra entonces una a suma de valores de la funci´n puntual de probabilidad. . . III. . .4. . III. . Si λ es el n´mero medio de apariciones del suceso de inter´s por intervalo de u e tiempo. Para una v. Funci´n de densidad o Presentaci´n o Queremos disponer de una manera de describir la distribuci´n de una v. var(X) = λ. o a Escribimos X ∼ P(λ). .a continua o .3. Es f´cil comprobar repitiendo c´lculos similares a los del punto anterior. b). Por otra parte. se le u llama v..1. i! 1.a continua.2.4 Variable continua III. 1.. . Definici´n La distribuci´n de Poisson aparece en situaciones en las que se o o cuenta el n´mero de apariciones de un determinado suceso o bien en un intervalo de u tiempo dado (como el n´mero de part´ u ıculas emitidas en un segundo por un material radioactivo.a X puede tomar un n´mero infinito no numerable de valores.4. se puede demostrar que su varianza o o es λ tambi´n: si X ∼ P(λ) e E[X] = λ. es decir todos los n´meros enteros. que a a la esperanza de una distribuci´n de Poisson de par´metro λ. o fX (i) = P(X = i) = Podemos comprobar que de la serie de potencias +∞ λi e−λ = i=0 i! +∞ xi x.III. Distribuci´n de Poisson o 47 a). . es. . si utilizamos el hecho de que la suma Esperanza y varianza. Variable continua Definici´n o Si una v. Propiedades Valores posibles: 0.a cono tinua.4.2..4. III. la variable X= “n´mero de veces que ha aparecido el suceso en un intervalo u de tiempo escogido al azar”. tal como se o a anunci´ en la definici´n. i=0 i! = e λi e−λ . III.1. 1.4. u Funci´n puntual de probabilidad: para i = 0. n. Puesto que una v. λ. . o el n´mero de clientes que llegan a una cola en un intervalo de tiempo u dado) o bien en un recinto f´ ısico (como el n´mero de fallos en un metro de alambre u de hierro producido. es decir que nos permita calcular la probabilidad asignada a cualquier suceso relacionado con X.

tal como est´ ilustrado en la figura siguiente: a b 0. La funci´n fX se llama la funci´n de densidad de la v.a continua X existe una funci´n fX positiva.. III. y P(a ≤ X ≤ b) = a fX (x)dx. para todos a y o b.a X. o o la probabilidad de que X pertenezca a una clase debe explicar la frecuencia de datos que aparecen en esta clase. es adecuada. y por lo tanto la forma del histograma debe corresponder a la forma de la densidad. tal que.4 a b Valores de X Si disponemos de un conjunto de datos con una variable X. la o e funci´n de densidad de X tiene mucha relaci´n con el histograma.3 0.48 Variable aleatoria I puede tomar un n´mero infinito no numerable de valores. el peso de una parte de este cuerpo se calcula e integrando la densidad en el volumen correspondiente.2 f 0.1 0. y si nuestra descripci´n del mecanismo o de generaci´n de los datos a trav´s de un modelo para X. Definici´n o Para una v.4. tal como viene reflejado en la figura: . que indique en qu´ zonas del espacio de los valores posibles de X es m´s probable e a que se encuentre X. la probabilio dad de que X est´ entre a y b corresponde al ´rea debajo de la curva de fX e a comprendida entre a y b. a ≤ b. Notar que se trata de una o o terminolog´ coherente con la analog´ mencionada anteriormente entre probabilidad ıa ıa y peso: para un cuerpo no homog´neo.0 0.2. sino que definiremos una “densidad” de probabilidad. no asignaremos una probu abilidad a cada valor posible.2. generados a partir de realizaciones de un experimento. b P(a ≤ X ≤ b) = a fX (x)dx. En efecto. Nota: Al ser fX una funci´n positiva.

a a discreta! III. Relaciones entre fX y FX .4.III.4 Densidad 0.4 Variable continua 49 Densidad y histograma 0.a continua.a continua.0 0.2 0. o o ver secci´n III. !Por supuesto este tipo de igualdades no es v´lida en general para una v.1 0. −∞ Si X es una v. en los puntos donde existe. La funci´n de distribuci´n acumulada de X es. P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a < X < b) = P(a ≤ X < b). En particular deducimos por la regla de la adici´n que.3 −2 −1 0 x 1 2 El ´rea total debajo de la curva de fX debe corresponder a la probabilidad de a que X tome un valor real.2 calcula para todo real t la probabilidad de que X tome un valor o menor o igual que t: FX (t) = P(X ≤ t). o equivalentemente. .2. o si X es una v.3. de la funci´n de distribuci´n acumulada o o t → FX (t).a continua s´lo asigna probabilidades positivas a intervalos de valores y no o a puntos individuales. FX es una primitiva de fX . puesto que la integral de fX entre a y a es cero: la distribuci´n de una o v. Por lo tanto. y es igual a 1: +∞ fX (x)dx = 1. fX se puede calcular como la derivada. Propiedades a). Por la definici´n de la funci´n de densidad o o fX deducimos que t FX (t) = −∞ fX (x)dx. la probabilidad de que tome un valor dado a es nula.

para todo x ∈ R. Seg´n nuestro modelo. se pueden resumir algunas caracter´ ısticas de las distribuciones de variables asociadas a experimentos aleatorios. III.a como una v. Est´ claro que. comprobamos que la probabilia o dad de que X pertenezca a un intervalo de n´meros negativos. se opta por modelizar esta v.a continua X. Despu´s de un o a e estudio. alrededor del 23 % de la producci´n tendr´ una duraci´n u o a o entre 1000 y 2000 horas. = 1. La representaci´n gr´fica de fX es o a Notar que por la gr´fica de esta funci´n de densidad. −3] u es nula (la densidad de probabilidad es nula en R− ).50 Variable aleatoria I b). Si nos preguntamos precisamente cu´l es la proporci´n de dispositivos en la a o producci´n que duran entre 1000 y 2000h.4.a continua con una funci´n de o densidad dada por e−x si x > 0 fX (x) = 0 en otro caso. por ejemplo [−2. f (x) ≥ 0. Medidas num´ricas asociadas a una v. o III. para que una funci´n f sea la funci´n de a o o densidad de una v.a e X con funci´n de densidad igual a f . .3. Condiciones para que una funci´n f sea la funci´n de densidad de o o una v.4. o que es mucho menos probable que un dispositivo dure entre 4000 y 5000 horas que dure entre 1000 y 2000h.235.2.4. debemos calcular o 2 2 P(1 ≤ X ≤ 2) = 1 fX (x)dx = 1 e−x dx = [−e−x ]2 1 0. Ejemplo El tiempo de vida expresado en miles de horas de un dispositivo electr´nico o escogido al azar en la producci´n de una f´brica es una v.a continua e De la misma manera que para distribuciones de variables en un conjunto de datos. 2.a X. +∞ −∞ f (x)dx Se puede demostrar que son tambi´n condiciones suficientes para que exista una v. es necesario que se cumplan las dos condiciones: 1.a continua X.

1. −∞ . Varianza . como +∞ µX = E[X] = −∞ x · f (x)dx.1. tambi´n llamada e esperanza o valor esperado. m´s pr´ctica para a o a a el c´lculo: a +∞ 2 σX = E[X 2 ] − (E[X])2 = x2 · fX (x)dx − (E[X])2 .1: La esperanza es el centro de gravedad Tal como lo hicimos para una v. ıa E[X] E[X] Figura III.3. es f´cil obtener la f´rmula alternativa. ver figura III. se o e e interpreta como el centro de gravedad de la distribuci´n.4 Variable continua III.2. Esperanza 51 Sea X una variable con densidad f . III.3.a discreta.4.4. definimos la media de X. Es una medida de centro de la distribuci´n si ´sta es relativamente sim´trica. −∞ Al desarrollar la integral.Desviaci´n t´ o ıpica La varianza se define como el promedio de la distancia al cuadrado entre X y su media: +∞ 2 σX = var(X) = E[(X − µX )2 ] = (x − µX )2 f (x)dx. es conveniente definir para una funci´n o g de X la esperanza de g(X): +∞ E[g(X)] = −∞ g(x)fX (x)dx. Otra vez o es coherente con la analog´ entre el peso y la probabilidad.III.

o De la misma manera. Lo denotaremos por o X ∼ U([a. Una v. b].4. b]. b].4.a uniforme? . La a funci´n de densidad ser´ por lo tanto dada por: o a fX (x) = 1 (b−a) 0 si a ≤ x ≤ b. El comando “RANDOM” de varios lenguajes de programaci´n. continua m´s sencillo corresponde a la situaci´n en la que X a o puede tomar cualquier valor entre dos n´meros a y b. b]).a X que tenga o a esta funci´n de densidad se llama una v.3. La representaci´n gr´fica de fX se encuentra en la figura III. calculamos la varianza de X: +∞ var(X) = E[X 2 ] − (E[X])2 = 0 + 0 x2 · e−x dx − 1 = 1. La duraci´n media de los dispositivos es por lo tanto de 1000h. Intuitivamente.1. hemos descompuesto la integral inicial seg´n los intervalos de definici´n de fX . en otro caso. Modelos m´s comunes de v. b] ser´ sencillamente proe a porcional a su longitud. que tambi´n aparece o e en casi todas las calculadoras cient´ ıficas. y calculado por partes la ultima o ´ integral que aparece. ¿Puede ser realmente una v. mientras e a que la probabilidad de que est´ en un subintervalo de [a. queremos que la funci´n de densidad de X o sea nula fuera de [a. Para que el ´rea total debajo a de la curva de densidad sea igual a 1. III. III. Un ejemplo Calculemos la duraci´n media y la desviaci´n t´ o o ıpica en el ejemplo de la duraci´n o de los dispositivos electr´nicos de la secci´n III. Tenemos que o o +∞ E[X] = −∞ x · fX (x)dx = 0 −∞ x · fX (x)dx + =0+ +∞ x 0 +∞ x 0 · fX (x)dx · e−x dx = 1. sin que favorezca ninguna zona u del intervalo [a.3.52 Variable aleatoria I 2 y la desviaci´n t´ o ıpica es σX = σX .4.4. La probabilidad de que X est´ entre a y b ser´ igual a 1.a continua a Algunas situaciones de modelizaci´n presentan rasgos comunes y se han estableo cido modelos “est´ndar” que resultan adecuados para distintos contextos.2.4. La desviaci´n t´ o ıpica mide la dispersi´n de la distribuci´n de los valores de X o o respecto a su media.2. simula una variable uniforme entre 0 y 1. a III.4.4.a. y constante en el intervalo [a.a uniforme entre a y b. esta constante deber´ ser igual a 1/(b − a). Variable aleatoria uniforme El modelo de v. sustiu o tuido la expresi´n de fX en las integrales resultantes.

4. o entre dos llegadas de clientes en una cola.a X se llama distribuci´n o o exponencial de par´metro λ y se denota por a X ∼ Exp(λ). consideramos la v.III.a X que mide el tiempo entre dos ocurrencias consecutivas del suceso. b]) es var(X) = (b − a)2 . Antes de llevar a cabo los c´lculos. Definici´n En el mismo contexto que para una v. 12 es decir que la desviaci´n t´ o ıpica es sencillamente proporcional a (b−a). la distribuci´n de la v.a X ∼ U([a. y examinando la gr´fica de la densidad de X. Dos ejemplos corresponden al tiempo entre dos emisiones consecutivas de una part´ ıcula por un material radioactivo. Modelo exponencial a). otro resultado natural.a uniforme Por otra parte calculemos la esperanza y la varianza de una v. a +∞ E[X] = −∞ x · fX (x)dx = 0 + = b a x · 1 b−a dx +0 b2 −a2 2 · 1 b−a = a+b 2 ¿Corresponde con su intuici´n?.4.2: Densidad de una v. Se deja en ejercicio al lector comprobar que la o varianza de una v. ¿no? III. a a ¿cu´nto piensa que vale E[X]?.4 Variable continua 53 Figura III.a de Poisson (ocurrencias o de sucesos aleatorios en el tiempo).2. b]). .a X ∼ U([a. denotando por λ el n´mero medio de ocurrenu cias por intervalo de tiempo.

La distribuci´n o o exponencial tiene una propiedad particular: “olvida su pasado”. En particular.4. o o P(X > t1 + t2 |X > t1 ) = P((X > t1 + t2 ) ∩ (X > t1 )) . t2 > 0. Deducimos que. FX (t) es nula. M´s concrea tamente.. si t ≥ 0. Demostraci´n: Por la definici´n de la probabilidad condicionada.. resulta a o que la densidad de este ejemplo es la densidad de una distribuci´n exponencial o de par´metro λ. Demostramos de la misma manera que para el ejemplo de la secci´n III.4. la probabilidad de que tenga que esperar por lo menos otro minuto m´s (es decir que el tiempo a transcurrido entre las dos llegadas sea mayor que cuatro minutos) es la misma que la probabilidad de que X sea mayor que 1 minuto: ¡el hecho de saber que ya he esperado 3 minutos no cambia la probabilidad de que todav´ tenga que ıa esperar otro minuto m´s! Es decir. e−λt1 . P(X > t1 ) Por otra parte.a X ∼ Exp(λ) es o fX (x) = λe−λx si x > 0 0 en otro caso. Para todo t. Esperanza y varianza. Propiedad de falta de memoria de la distribuci´n exponencial. puesto que el suceso (X > t1 + t2 ) est´ incluido en el suceso a (X > t1 ).4. o o t FX (t) = −∞ fX (x)dx. mientras que.54 b).. Variable aleatoria I Su gr´fica es parecida a la del ejemplo de la secci´n III. y espero hasta que llegue el siguiente cliente. Han pasado tres minutos y no ha llegado. tenemos que P(X > t) = e−λt . Pero al calcular un poco m´s arriba la funci´n de distribuci´n acumulada de una distribuci´n a o o o exponencial. De hecho. Propiedades La funci´n de densidad de una v. t FX (t) = 0 + 0 λe−λx dx = 1 − e−λt .. hemos notado que P(X > t) = e−λt . el denominador es sencillamente P(X > t1 + t2 ).2. Llega un cliente. para todos t1 > 0. si t < 0.2. var(X) = 1/λ2 . Por lo tanto P(X > t1 + t2 |X > t1 ) = e−λ(t1 +t2 ) = e−λt2 = P(X > t2 ). supongamos que X ∼ Exp(λ) y modeliza el tiempo entre dos llegadas sucesivas de clientes en una cola. utilizando la integraci´n por partes que o o E[X] = 1/λ. a P(X > t1 + t2 |X > t1 ) = P(X > t2 ).4. a Funci´n de distribuci´n acumulada.

mediciones.3.4.3.3: Densidad Normal Si X sigue una distribuci´n Normal de par´metros µ y σ 2 . . La curva de la densidad Normal nunca se cruza con el eje Ox.4. cuya representaci´n gr´fica es la famosa “campana de Gauss”.III. En e particular deducimos que P(X ≥ µ) = P(X ≤ µ) = 1/2.4 Variable continua III. σ 2 ). La distribuci´n Normal es.. De hecho. o a Figura III.3. Definici´n Sea µ un n´mero real y σ 2 un n´mero real positivo. si consideramos los datos de las mediciones o de la luz por S. Para ello. la v. se ha ajustado una curva Normal al histograma de los datos recogidos por Newcomb. Propiedades La curva de la densidad Normal es sim´trica respecto al eje vertical x = µ. ver secci´n I. La distribuci´n Normal o 55 a). o o b). est´ t´ a ıpicamente presente cuando se modeliza los valores proporcionados por un aparato de medici´n.2. escribiremos X ∼ o a N (µ. la distribuci´n m´s utilizada en situaciones o o a pr´cticas: aparece en la inmensa mayor´ de los procedimientos estad´ a ıa ısticos que se llevan a cabo de manera rutinaria (control de calidad. ver Figura III. Newcomb que estudiamos en el Tema 1.1. etc.a X o u u sigue una distribuci´n Normal de par´metros µ y σ 2 si su densidad es o a f (x) = √ 1 2πσ 2 e− (x−µ)2 2σ 2 .. despu´s de omitir los e dos datos at´ ıpicos −44 y −2.4.) En particular. En la figura III. sin dudas. hemos fijado el valor de µ y σ 2 bas´ndonos a en el centro y la dispersi´n de la distribuci´n de los datos experimentales. podemos o comprobar que las frecuencias de aparici´n de los datos experimentales se ajustan o bastante bien a un modelo Normal.

5: el 68 % del ´rea debajo de la curva a Normal est´ comprendida entre µ − σ y µ + σ. Tambi´n existen calculadoras estad´ e ısticas. es muy util conocer la regla siguiente: si X es una o ´ 2 ). var(X) = σ 2 .95 0. 2πσ 2 para obtener P(a < X ≤ b). el 95 % entre µ − 2σ y µ + 2σ. Funci´n de distribuci´n acumulada. o en general para su funci´n de distribuci´n.997.00 0. si X ∼ N (µ. Se debe por lo tanto recurrir por lo o o tanto a aproximaciones num´ricas de la integral e b dx. mediciones de Newcomb 0.56 Variable aleatoria I Histograma. La funci´n fX no admite primitiva en o o o una forma cerrada.04 0.08 Frecuencias 0. . E[X] = µ. σ 2 ). Los programas inform´ticos de an´lisis de datos a a como R disponen de algoritmos que permitan calcular para cualquier t la probabilidad P(X ≤ t). y por lo tanto no hay expresi´n simple para calcular la o probabilidad de que una variable Normal pertenezca a un intervalo dado.68 0. lo que queda reflejado en la figura III. tenemos Normal N (µ. a y el 99.06 −40 −20 0 Mediciones 20 40 Figura III. a √ 1 e− (x−µ)2 2σ 2 A pesar de que no exista una expresi´n simple para las probabilidades asociadas o a una distribuci´n Normal.4: Ajuste de una densidad Normal al histograma de Newcomb Esperanza y varianza: Es posible comprobar que.7 % entre µ − 3σ y µ + 3σ.02 0. σ P(µ − σ ≤ X ≤ µ + σ) P(µ − 2σ ≤ X ≤ µ + 2σ) P(µ − 3σ ≤ X ≤ µ + 3σ) 0.

o φ(−t) = 1 − φ(t).3) 0.9) 0.99.III.7 % c).13 P(−1 ≤ Z ≤ 1) 0. σ 2 ).5) 0. la variable Z= X −µ σ sigue una distribuci´n Normal con media 0 y varianza 1. Comprobar con la tabla que sabeis calcular las probabilidades siguientes: P(Z ≤ 2.7% µ − 3σ µ + 3σ µ + 2σ µ+σ Figura III. o El c´lculo de probabilidades para una distribuci´n Normal con par´metros µ a o a 2 se basa en la siguiente propiedad que no demostraremos: yσ Propiedad: Si X ∼ N (µ. o Pasar de X ∼ N (µ.1841 P(1. σ 2 ).8686 P(Z ≤ −0. σ 2 ) a Z = X−µ ∼ N (0.9 ≤ Z ≤ −0. . utilizamos la simetr´ de la ıa distribuci´n normal que implica que.5: Regla del 68 % . o La distribuci´n Normal con par´metros µ = 0 y σ 2 = 1 se llama distribuci´n o a o Normal est´ndar.68) 0.1 ≤ Z ≤ 1.a X tipificada. 1) se llama tipificar la variable X. e Notar que en la tabla s´lo aparece valores de φ(t) para valores positivos de o t. 1). La tabla para valores de φ est´ incluida en el a a ap´ndice de este tema.9963 P(Z ≤ 1. Su funci´n de distribuci´n acumulada se denota por φ y los a o o valores de φ est´n tabulados.04 P(−0.95 % .68 (ii) Para una distribuci´n X ∼ N (µ. Para deducir φ(t) para valores negativos de t. ¿C´mo calcular probabilidades asociadas a una distribuci´n Normal o o (i) Para una distribuci´n Z ∼ N (0.12) 0.4 Variable continua 57 µ 68% µ−σ 95% µ − 2σ 99. σ y la variable Z se llama la v. para todo t.

25). Figura III. reescribiremos el suceso de inter´s. Tenemos P(X ≤ 1.5 − µ ≤ ≤ ) σ σ σ = P( 0. P(X ≤ x) P(W ≤ x + 0. P(X = 100)) o pasando al suceso complementario 15 probabilidades.a Binomial X ∼ B(n.5 = P(−1 ≤ Z ≤ 1) III. Si n · p ≥ 5 y n(1 − p) ≥ 5. que s´lo puede tomar valores enteros por una v.6: Aproximaci´n de una distribuci´n Binomial por una distribuci´n Noro o o mal .5] para la v.25 − 1 ≤ ) = P(Z ≤ ) = P(Z ≤ 0. p).5 0. 1.4.5. con µ = n · p y σ = n · p(1 − p). o es decir que para calcular la probabilidad de un suceso relacionado con una v. tipificando la v.69. podemos considerar que un valor entero x para la v.a o o discreta.1). p). o Propiedad. que siguen siendo muchos c´lculos. ..4.5−1 0. Aproximaci´n de una distribuci´n Binomial por una distribuo o ci´n Normal o En el caso en que s´lo disponemos de una calculadora sencilla. e o supongamos que X ∼ B(100.5−1 ≤ Z ≤ 0. σ). resulta que la distribuci´n o Binomial se puede aproximar de manera satisfactoria por una distribuci´n normal. se puede aproximar de manera satisfactoria la distribuci´n de X por la distribuci´n de o o W ∼ N (µ. Por ejemplo. e Supongamos por ejemplo que X ∼ N (µ = 1. 0.68.6. a Para algunas combinaciones de valores de n y p. x + 0. X.5 − µ 0. σ 2 = 0.a X ∼ B(n. podremos hacer como si X tuviera una distribuci´n normal.a Normal W . el c´lculo de P(X ≥ 15) implica que calculemos a 86 probabilidades individuales (P(X = 16).5) = P( X −µ 1. para unos pocos a valores de X.5). con la f´rmula o para todo x.25 − µ 1.4.25) = P( y P(0.5 ) X −µ 1.5 ≤ X ≤ 1. . . El t´rmino “+0. Para conseguir una equivalencia. tal como est´ ilustrado en la Figura III.58 Variable aleatoria I Para calcular una probabilidad relacionada con X.a continua W que puede o tomar cualquier valor real.5) σ σ 0.a. P(X = 17). el c´lculo de o a probabilidades asociadas a una distribuci´n Binomial X puede resultar laborioso si o ´stas requieren evaluar la funci´n puntual de X en muchos valores.5” que aparece en el t´rmino de la derecha de la f´rmula corresponde e e o a la llamada “correcci´n por continuidad”: aproximamos la distribuci´n de una v.. Consideramos una v. Binomial X corresponde al intervalo ]x − 0. 0. .a.

5 < W ≤ 15.5. o Finalizamos con un ultimo resultado asociado a la varianza de una variable: la ´ desigualdad de Chebichev: Propiedad:Sea cual sea la distribuci´n de X. el centro de gravedad de los datos (la esperanza) se multiplica por a y se traslada de b unidades. o mientras que la segunda desiguald se lee: una proporci´n de los datos de como mucho o V ar(X)/a2 se encuentra fuera del intervalo µX ± a. y X una variable aleatoria. P(|X − µX | ≤ a) ≥ 1 − V ar(X) .5) P(12.5) P(W ≥ 15. puesto que la traslaci´n de los datos o o no cambia su dispersi´n. . Algunas propiedades utiles de la esperanza y la ´ varianza Acabamos el cap´ ıtulo con una secci´n “caj´n de sastre” en la que mencionamos o o algunos resultados sobre esperanza y varianza. a2 La primera desigualdad se interpreta de la manera siguiente: sabemos que una proporci´n de los datos de al menos V ar(X)/a2 se encuentra en el intervalo µX ± a. tenemos la siguiente cota para la probabilidad de que X est´ en un intervalo e centrado en su media µX : Para cualquier a > 0. a2 Deducimos tambi´n una cota para el suceso complementario: e Para cualquier a > 0.5 Algunas propiedades utiles de la esperanza y la varianza ´ En particular deducimos de esta figura que aproximaremos las probabilidades relacionadas con X de la manera siguiente: P(X = 15) P(X > 15) P(X ≥ 15) P(X ≤ 16) P(X < 16) P(13 ≤ X < 15) P(14. si conocemos el valor de la varianza o de X. mientras que la dispersi´n o (la desviaci´n t´ o ıpica) s´lo se multiplica por |a|.5 ≤ W ≤ 14.5) P(W ≥ 14. u ıcil utilizando las definiciones de esperanza y varianza tanto para v.a por a y traslado el resultado de b unidades.a continua que se cumplen las siguientes propiedades: E[aX + b] = aE[X] + b var(aX + b) = a2 var(X) σaX+b = |a|σX Intuitivamente son resultados naturales: si multiplico todos los valores de una v. Sean a y b dos n´meros reales. No es dif´ demostrar.5) P(W ≤ 15. P(|X − µX | ≥ a) ≤ V ar(X) .5) P(W ≤ 16.III.5) 59 III.a discreta como para v.

9971 0.96 1.06 2.9671 0.86 0.9515 0.60 0.00 3.72 1.70 0.9909 0.5871 0.9641 0.9977 0.9913 t 2.84 2.36 0.7995 0.06 0.74 2.9986 0.7123 0.70 2.5000 0.9922 0.74 0.94 2.54 0.9452 0.94 0.5080 0.62 0.9981 0.7939 0.28 1.9535 0.68 0.80 0.9963 0.16 1.68 1.8810 0.06 1.9608 0.6985 0.9887 0.26 0.36 1.30 0.9984 0.8051 0.9793 0.7324 0.84 0.18 1.52 1.9961 0.72 2.6331 0.9686 0.7642 0.7517 0.00 0.50 0.92 2.9812 0.74 1.84 1.9875 0.90 2.76 2.82 0.66 0.26 2.50 2.48 2.42 0.9995 0.08 1.9959 0.30 2.12 0.60 Distribuci´n Normal: o t Variable aleatoria I P(Z ≤ t) = φ(t) = −∞ 1 −x2 √ e 2 dx 2π P(Z ≤ t) 0.9032 0.96 0.44 2.9927 0.24 0.14 2.5160 0.8461 0.88 1.9099 0.10 0.8365 0.40 3.58 2.9969 0.7454 0.7580 0.9997 0.00 2.46 1.9131 0.6103 0.7190 0.9990 0.94 1.9625 0.76 1.90 0.9591 0.50 1.52 2.9474 0.9162 0.82 2.6179 0.9956 0.9904 0.6026 0.6700 0.42 1.34 1.02 2.9495 0.9222 0.5636 0.22 0.02 0.9783 0.28 0.50 P(Z ≤ t) 0.9429 t 1.9821 0.9761 0.5793 0.04 0.6628 0.9357 0.9279 0.50 3.66 2.8997 0.34 0.9953 0.5478 0.54 1.16 2.5319 0.6844 0.32 2.7823 t 0.92 0.56 1.9846 0.68 2.90 1.64 0.38 .9998 0.78 2.56 2.7704 0.70 1.9982 0.9573 0.30 3.98 1.42 2.60 3.9830 0.8770 0.12 2.52 0.64 2.56 0.40 2.9941 0.6554 0.5398 0.8888 0.30 1.9918 0.80 2.9854 0.9772 0.14 1.8264 0.9699 0.6255 0.86 1.6480 0.62 1.9066 0.12 1.20 1.00 4.28 2.8159 0.9931 0.58 0.9656 0.6915 0.38 0.8643 0.7257 0.10 2.9998 0.20 0.5557 0.7054 0.64 1.8599 0.18 2.22 1.8554 0.22 2.20 2.78 P(Z ≤ t) 0.44 0.34 2.9967 0.86 2.08 2.48 1.46 0.5239 0.9554 0.98 2.46 2.9934 0.9713 0.9974 0.9868 0.6772 0.9951 0.36 2.9938 0.9973 0.08 0.26 1.9898 0.9306 0.9861 0.48 0.76 0.40 1.9332 0.9993 0.14 0.8508 0.7389 0.9251 0.8315 0.38 1.9838 0.8106 0.8925 0.9999 1.9738 0.88 0.58 P(Z ≤ t) 0.24 2.9985 0.78 1.9976 0.8849 0.20 3.10 1.9192 0.60 2.9980 0.92 1.40 0.9948 0.98 3.7764 0.80 4.9965 0.00 1.6406 0.9881 0.0000 1.7881 0.8962 0.66 1.60 1.32 1.8212 0.8686 0.0000 t 0.9406 0.04 1.9750 0.5714 0.24 1.72 0.88 2.18 0.8729 0.54 2.9945 0.8413 0.62 2.04 2.9987 0.44 1.10 3.9382 0.80 1.96 2.9803 0.32 0.02 1.82 1.9893 0.5948 0.9979 0.9726 0.16 0.

. Variable bidimensional discreta Si tanto X como Y son variables discretas. hablaremos de variable aleatoria bidimensional. Xn ). Diremos que X es una variable aleatoria multidimensional. es decir sucesos que involucren X1 . . X2 . . multidimensional consiste en asignar una o probabilidad a sucesos conjuntos. IV. X2 . Xn . . En este tema nos centraremos sobre todo en el caso de una variable bidimensional. hablamos de distribuciones marginales de X y de Y respectivamente. . . formaremos el vector aleatorio X = (X1 . . .TEMA IV Variable Aleatoria II IV. Para el caso particular en que n = 2.. mientras que si cono sideramos las distribuciones de X e Y por separadas. Lo realizaremos a trav´s de la funci´n puntual de e o probabilidad conjunta de X e Y : . basta con describir la probabilidad de los sucesos (X = x) ∩ (Y = y). Introducci´n o Es frecuente que haya m´s de una variable aleatoria de inter´s asociada a un a e experimento aleatorio. Supongamos por ejemplo que consideramos n variables X1 . . .2. Describir la distribuci´n de una v. Y ).1. Xn . Un ejemplo de suceso asociado a la distribuci´n conjunta de X e Y es (X +Y > 3) o o (X = 1 ∩ Y > 2) mientras que el suceso (X > 5) y el suceso (Y = 4) hacen referencia a las distribuciones marginales de X y de Y respectivamente. En este caso hablamos de distribuci´n conjunta de (X.a. X2 .

Y ) asocia a cualquier par de o valores (x. fXY (xi . ∀yj .p. xi fY (yj ) = Se suele representar en la misma tabla de la f.62 Mathieu Kessler: M´todos Estad´ e ısticos IV.3.03 0. Propiedad Para que una funci´n f : (x.2. y) → f (x. yj ) = 1. basta con utilizar P(X = 0) = P(X = 0 ∩ Y = 120) + P(X = 0 ∩ Y = 130) + P(X = 0 ∩ Y = 140) + P(X = 0 ∩ Y = 150) = 0. fXY (xi . yj ). xi yj fXY (xi . conjunta de la manera siguiente: .2. IV.1 0 Deducimos en particular de esta tabla que la probabilidad que X tome el valor 0 y a la vez Y tome el valor 140 es igual a 140. En efecto. Y ) a trav´s de una tabla como o e la descrita en el apartado IV.21 130 0.15 0.1 0.1.2. Relaci´n entre funciones puntuales de probabilidad conjunta o y marginales Si conocemos la distribuci´n conjunta de (X.1.2.06 0 Y 140 0. yj . IV.2.1.1.2 0.1. fX (xi ) = yj fXY (xi . IV.48.p. y) sea la funci´n puntual de probabilidad o o conjunta de una variable bidimensional discreta (X. yj ) ≥ 0. 2. para calcular e P(X = 0) por ejemplo. y) la probabilidad del suceso ((X = x) ∩ (Y = y)).1 0 150 0. Funci´n puntual de probabilidad conjunta o Definici´n o La funci´n puntual de probabilidad conjunta de (X.05 0. Y ) es necesario y suficiente que cumpla 1. Los valores que toma una funci´n puntual de probabilidad conjunta se pueden o presentar en una tabla: X 0 1 2 120 0. Tenemos por lo tanto las relaciones siguientes: ∀xi .2.1.1. ∀xi . La denotamos fXY (x. podemos calcular la distribuci´n de X o de Y o por separado: ´stas se llaman las distribuciones marginales. yj ). y) = P ((X = x) ∩ (Y = y)) .

a continuas.16 Y 140 0.1 0 0. Y ).b] y∈[c.1 0 0.21 0. introducimos la funci´n de densidad o o conjunta.3 Variable bidimensional continua X 0 1 2 fY 120 0.1. yj )P(X = xi ∩ Y = yj ) g(xi . Variable bidimensional continua Consideramos ahora el par (X.03 0.2. 0 en otro caso.IV.3.2. xi yj = IV. yj ).3. IV. o valor promedio) de g(X.3 fX 0. Y ) es una funci´n fXY que permite o o calcular la probabilidad de cualquier suceso de la forma (a ≤ X ≤ b) ∩ (c ≤ Y ≤ d) a trav´s de la f´rmula: e o P ((a ≤ X ≤ b) ∩ (c ≤ Y ≤ d)) = x∈[a. Y ) como E[g(X. Y ) donde X e Y son ambas v. Modelizamos su distribuci´n conjunta a o trav´s de la funci´n de densidad siguiente e o fXY (x.15 0.2 0.1 0.2. Ejemplo Consideremos un experimento que consista en producir dos componentes de dos tipos. o La funci´n de densidad conjunta de (X.d] fXY (x. Funci´n de densidad conjunta o Definici´n. y) → g(x.21 63 IV. Y )] = xi yj g(xi .1.31 0. y denotamos por X e Y el tiempo de vida en miles de horas del primer y segundo componente respectivamente. y)dxdy. .05 0. yj )fXY (xi . y) una funci´n de dos variables que toma sus valores en R.1.29 130 0. Para describir la distribuci´n conjunta de (X. IV. Esperanza Sea g : (x. y) = 2e−x e−2y si x > 0 y y > 0.3.1.25 150 0.3.06 0 0. o valor esperado. IV. o Definimos la esperanza ( o media.48 0.

+∞ −∞ +∞ f (x. pero ahora en lugar de sumar.3.54. y)dy.1. Propiedades Para que una funci´n f : (x.1. y)dxdy = 1.a bidimensional continua. y) con valores en R sea la funci´n de o o densidad conjunta de una v.2. La funci´n de densidad conjunta es o fXY (x.1. f (x. y)dxdy 2e−x e−2y dxdy = (1 − e−1 )(1 − e−2 ) 0. fX (x) = −∞ fXY (x. fX (x) = −∞ +∞ fXY (x. Relaci´n entre funciones de densidad conjunta y marginales o Al igual que para una v. 1 1 P((X < 1) ∩ (Y ≤ 1)) = −∞ −∞ 1 1 fXY (x. y) = 2e−x e−2y si x > 0 y y > 0. ∀y. fXY (x. y) = 0 para todo y. Tenemos por lo tanto las relaciones siguientes: +∞ ∀x.3. = 0 0 IV.4. e Si x > 0. 2. −∞ fY (y) = Calculemos para ilustrar estas f´rmulas las densidades marginales de X y de Y o para el ejemplo del apartado IV. y) → f (x.a discreta. Deducimos la densidad marginal de X: +∞ ∀x.64 Mathieu Kessler: M´todos Estad´ e ısticos Para calcular la probabilidad de que ambos componentes duren menos de 1000 horas. se puede obtener de la funci´n de densidad o conjunta las funciones marginales. por ejemplo. ∀x. y. debemos integrar respecto de la otra variable. . fXY (x. y por lo tanto fX (x) = 0 tambi´n. Si x ≤ 0.3. y) ≥ 0. 0 en otro caso. −∞ IV. es necesario y suficiente que cumpla 1. y)dx. y)dy.3. +∞ fX (x) = = e 0 −x 2e−x e−2y dy = e−x −e−2x +∞ 0 .

IV. bas´ndome en el valor de Y . Yn . donde hemos utilizado para el ultimo paso la relaci´n entre funciones de densidades ´ o marginales y conjunta del apartado IV. .IV.1.4. Y )] = −∞ −∞ g(x. .a. . . . . . . bidimensional discreta. Xn .. V. y)fXY (x. Hemos por lo tanto demostrado una relaci´n por otra parte muy intuitiva: la media de la suma de dos variables aleatorias o es la suma de las dos medias. . s´lo observamos el valor de Y y no u o ´l de X. Obtener esta distribuci´n condicionada se llama realizar o el filtrado de la se˜al Y1 . Y ) se define como o o +∞ +∞ E[g(X. Yn . Y ).3.4 Distribuciones condicionadas 65 IV. . .1. De los filtros basados en modelos probabil´ n ısticos.4. X2 . a a IV. . . Yn . podemos calcular el valor esperado de una funci´n de las dos variables X e o Y : Definici´n. Distribuciones condicionadas Consideremos un experimento al que va asociada una v.a bidimensional (X. .a bidimensional discreta Sea (X. la esperanza de g(X. .a. el m´s usado en pr´ctica se llama el filtro de Kalman. . bidimensional o (X.3. . . y)dx dy = −∞ xfX (x)dx + −∞ yfY (y)dy = E[X] + E[Y ].. e o o que denotaremos por ε. . . . . y)dxdy. . sobre la e e o a distribuci´n de los posibles valores de X? o Un contexto t´ ıpico en ingenier´ en la que se da esta situaci´n es el siguiente: me ıa o interesa un se˜al X1 . . Yn = Xn + εn . Sea una funci´n g : R2 → R. Xn o condicionada a Y1 .2.4. Esperanza Al disponer de una funci´n de densidad conjunta fXY para la v. Por alg´n motivo. y)dxdy + −∞ +∞ −∞ +∞ y fXY (x. . persigo deducir la distribuci´n de X1 . . . . al realizar el experimento. . ¿Qu´ informaci´n puedo deducir. y)dxdy +∞ +∞ = −∞ +∞ −∞ x fXY (x. y)dxdy +∞ = −∞ +∞ x −∞ fXY (x. Y ) una v. pero no puedo observar directamente los valores de n X sino a trav´s de un aparato de medici´n que induce una perturbaci´n aleatoria. En particular podemos calcular por ejemplo la esperanza de la suma de dos variables: +∞ +∞ E[X + Y ] = −∞ +∞ −∞ +∞ (x + y)fXY (x. Como resultado observo Y1 = X1 + ε1 . Disponiendo de los valores de Y1 . . Y ). y)dy dx + −∞ +∞ y −∞ fXY (x.

21 Por lo tanto fX|Y =130 toma los valores: Valores posibles de X fX|Y =130 0 0.16 Y 140 0. Obtuvimos que e o la densidad marginal de Y . en este caso. bidimensional continua (X.a bidimensional introducido anteriormente la funci´n puntual de probabilidad de X condicionada a o Y = 130. fY (y) Nota: la densidad de Y condicionada a X se obtiene intercambiando los papeles de X e Y en la f´rmula anterior.2.a bidimensional continua Consideramos ahora una v.16 = 0 IV.16 = 0.1.375 2 0/0.a. IV. fY (y) Para ilustrar este concepto.1/0.25 150 0. La funci´n de densidad de X condicionada a Y = y est´ o a definida por fXY (x.1 0 0.15 0. si y > 0 es fY (y)2e−2y .2 0. o IV.p conjunta y marginales de (X.a continua con densidad conjunta fXY .2. Mathieu Kessler: M´todos Estad´ e ısticos Definici´n de la funci´n puntual de probabilidad condicionada o o Sea y un valor de Y tal que P(Y = y) > 0. Y ) era X 0 1 2 fY 120 0. Ejemplo Consideremos el ejemplo de la subsecci´n IV. Consideramos un valor y para el cual fY (y) > 0. y) .2. Recordemos que la tabla de las f. Definici´n o Sea (X. coincide con la densidad marginal de X.3 fX 0.16 = 0.4.4.21 0.48 0.05 0.1 0 0.2. Calculemos.4.2. Observamos que. y) fX|Y =y (x) = .4. Y ) una v. fX|Y =y (x) = P(X = x|Y = y) = fXY (x.1 0.06/0. calculemos para el ejemplo de v.1. la funci´n de densidad de X condicionada a Y = y. 2e−2y fX|Y =y (x) = 0 en otro caso. Y ).31 0.p.1. .29 130 0.625 1 0.06 0 0. Para una v. la funci´n puntual de probabilidad o de X condicionada a Y = y asocia a cada valor posible x de X la probabilidad del suceso X = x condicionada a (X = x). para un valor o y > 0 gen´rico.1.66 IV. Deducimos que la densidad que buscamos es 2e−x e−2y = e−x si x > 0.3.03 0.

Si (X.3. por h∗ (y) la esperanza condicionada E[X|Y = y].a. Por ello.1 Dos variables X e Y son independientes si se cumple o para todo x e y. la esperanza condicionada de g(X) o o dado Y = y se define como Si (X.2.1 Sea una funci´n g : R → R. fX y fY se refieren a funciones de densidad o funciones puntuales de probabilidad seg´n si la v.IV.a. se puede demostrar que la esperanza condicionada de X dado Y = y es el mejor predictor posible en el sentido siguiente: Llamamos predictor a cualquier funci´n de Y . Definici´n o Definici´n IV. u . x → fX|Y =y (x) a cumple con los dos requisitos (ver secciones III. hablamos de distribuci´n de X condicionada a Y = y. Denotamos. IV.a discreta. (X. y) = fX (x)fY (y).5. es decir que el error cuadr´tico medio que se comete al predecir X por h∗ (Y ) es el a menor de los errores posibles.3. h∗ (Y ).1. Y ) es una v. Y ) es una v. La noci´n de esperanza condicionada permite en particular obtener res´menes de o u las caracter´ ısticas principales de la distribuci´n condicionada de X dado Y = y. Definici´n IV. Se puede probar que para cualquier predictor h(Y ) de X se cumple E[(X − h(Y ))2 ] ≥ E[(X − h∗ (Y ))2 ]. o aunque s´lo podemos interpretar las probabilidades asociadas como probabilidades o condicionadas en el caso de una v. Y ) es continua o discreta respectivamente. h(Y ) dise˜ada para aproximar el o n valor de X que no hemos observado. Consideramos la funci´n de Y . Introducimos ahora el concepto de variables aleatorias independientes: IV.a continua +∞ E[g(X)|Y = y] = −∞ g(x)fX|Y =y (x)dx. para un valor y tal que fY (y) > 0. Esperanza condicionada Es f´cil comprobar que.2 y b)) que permiten deducir que se trata de una funci´n de densidad (caso continuo) o puntual de probabilidad o (caso discreto). Si o consideramos el problema de predecir el valor de X dado que hemos observado el valor y para Y . se trata de un o predictor de X. discreta E[g(X)|Y = y] = x g(x)fX|Y =y (x).4.5. Tambi´n podemos por lo tanto definir la esperanza condicionada de una funci´n e o g(X) dado Y = y.5 Variables independientes 67 IV.4.5. Variables independientes En el tema 2 hemos definido el concepto de sucesos independientes. Las funciones fXY . para todo y. fXY (x.

es util poder o ´ recurrir a alguna medida num´rica que nos permita por ejemplo cuantificar el grado e de asociaci´n entre las dos variables. .1. es f´cil a comprobar para el ejemplo de v. .6.1. 120) = o 0. Si X e Y son independientes. se puede calcular de manera sencilla la esperanza de una funci´n de X y de una funci´n de Y : o o E[g(X)h(Y )] = E[g(X)]E[h(Y )]. Es decir que P(a ≤ X ≤ b) ∩ (c ≤ Y ≤ d) = P(a ≤ X ≤ b)P(c ≤ Y ≤ d). Y ) no depende del valor de Y (resp.2.1. la distribuci´n condio cionada de X (resp. podemos describir completamente su distribuci´n conjunta si conocemos sus dos o distribuciones marginales.6.a continua de la secci´n IV. En el ejemplo de la v. La noci´n de variables independientes se generaliza a m´s de dos variables de mano a era natural: X1 ..1. IV. Y ) se realiza por lo tanto de la manera siguiente a . que se cumple que. fXY (x. En cambio. obtenemos la f´rmula equivalente para la covarianza o cov(X. IV.2. Utilizando la definici´n de la esperanza de una funci´n de X e Y en el caso discreto o o y en el caso continuo. y) = fX (x)fY (y): en este caso. las variables X e Y s´ son ı independientes.3. es f´cil comprobar que cualquier suceso asociado a con X es independiente de cualquier suceso asociado con Y . Definiciones Covarianza La covarianza de X e Y se define como cov(X. Y ) = E[XY ] − E[X]E[Y ]. o para todo x e y.5.68 Mathieu Kessler: M´todos Estad´ e ısticos Deducimos en particular que.a independientes si los sucesos asociados son independientes.1. o IV. Xn son v. En particular. Por lo tanto X e Y no son independientes. X): el hecho de conocer el valor de una de las variables no proporciona informaci´n sobre la distribuci´n o o de valores de la otra. Notar que el c´lculo de cov(X.2. X2 . Consecuencias pr´cticas a Si X e Y son independientes. notamos que fXY (0.6. si X e Y son independientes. deducimos que si X e Y son independientes.a bidimensional e Al disponer de un modelo para la distribuci´n conjunta de X e Y .a discreta de la secci´n IV. Medidas num´ricas para una v. Y ) = E[(X − E[X])(Y − E[Y ])]. IV.03 = fX (0)fY (120).1. .

En particular la correlaci´n de una variable X consigo mismo o es igual a 1. Y ) discreta Volvamos al ejemplo de la secci´n IV.1 0 0. σX σY La correlaci´n de X e Y corresponde por lo tanto a la covarianza de las versiones o tipificadas de X e Y . y) − E[X]E[Y ].2 .16 + 140 0.05 0.1.03 + 0 · 130 · 0.6 Nos queda calcular E[XY ].2 0.06 + 1 · 140 · 0. (X.1 + 1 · 150 · 0.6.48 + 1 0.1.29 130 0.a bidimensional e (X. su funci´n puntual de probabilidad o o Para calcular la covarianza de X e Y necesitamos por una parte E[X] y E[Y ] y por otra parte E[XY ]. y)dxdy − E[X]E[Y ].25 + 150 0.2.25 150 0. Correlaci´n o La correlaci´n de X e Y se define como o ρXY = cov(X.73 E[Y ] = 120 0.48 0.31 + 2 0. X) = σX .31 0.1. es X 0 1 2 fY 120 0.1. (X. continua: +∞ +∞ cov(X. Y ) . Y ) = x y 69 xyfXY (x.a discreta: cov(X.21 = 0.21 0. Obtenemos utilizando las distribuciones marginales de X e Y : E[X] = 0 0.a.05 + 1 · 130 · 0.1 0.15 + 0 · 150 · 0. IV. E[XY ] = 0 · 120 · 0.1 0 0.03 0.3.29 + 130 0. donde los sumatorios se realizan sobre los valores posibles de X e Y .2 + 1 · 120 · 0.21 + 2 · 130 · 0 + 2 · 140 · 0 + 2 · 150 · 0 = 93.a.3 = 135.6.2.06 0 0. Y ) = −∞ −∞ xyfXY (x.15 0. Notar tambi´n que la covarianza de una variable X consigo mismo es igual a la e 2 varianza de X: cov(X.6 Medidas num´ricas para una v.16 Y 140 0.IV.21 Ejemplo para una v.1 + 0 · 140 · 0.3 fX 0.1 + 2 · 120 · 0. IV. Y ) v. Y ) es una v.

. cov(X.78. De ah´ que la correlaci´n es una medida del grado ı o de asociaci´n lineal entre dos variables. −5. Se puede demostrar (ver problema n´mero 14 de la hoja de problemas de este u tema) que |cov(X. .7.617 142. Xn es la matriz n × n. esta relaci´n se o simplifica.2 − 0.2. podemos calcular las covarianzas y las correlaciones de cada par posible de variables. X2 .617 mientras que σY = 142.4.70 Mathieu Kessler: M´todos Estad´ e ısticos Deducimos que cov(X. .1. Y ).62. . Y ) = E[(X − E[X])]E[(Y − E[Y ])] = 0.a. 78 √ = −0. Y ) = 0. Y )| ≤ σX σY . para dos variables cualesquiera X e Y . multidimensional Modelo multinomial El modelo multinomial aparece como una generalizaci´n del modelo binomial: o consideremos . Propiedades 1. . Se comprueba 2 2 que σX = 0. Xn es la matriz n × n. mientras que la matriz de correlaciones de X1 . 0. Tambi´n implica que ρXY = 0. En el caso particular en el que X e Y son independientes. Usando la propiedad de linealidad de la esperanza es f´cil obtener que a V ar(X + Y ) = V ar(X) + V ar(Y ) + 2cov(X.64.64 Matriz de covarianzas y matriz de correlaci´n o En el caso en que consideramos varias variables aleatorias X1 .1. se puede demostrar e que existe dos constantes a y b tal que Y = ax + b: existe una relaci´n lineal o determinista entre X e Y .73 · 135. o 3. Xn . . IV. −1 ≤ ρXY ≤ 1. Para calcular la correlaci´n o de X e Y nos hacen falta adem´s las desviaciones t´ a ıpicas de X e Y .6 = −5. o IV. puesto que cov(X.Σ cuyo elemento Σij es igual a la covarianza de Xi y Xj . . se suele presentar los resultados en forma de una matriz: la matriz de covarianzas de X1 . 2.6. En cambio si ρXY = ±1. Corr cuyo elemento Corrij es igual a la correlaci´n de Xi y Xj . Por lo tanto ρXY = √ IV. dando lugar a la f´rmula de propagaci´n de los errores: o o V ar(X + Y ) = V ar(X) + V ar(Y ).6.7. Algunos modelos de v. Si X e Y son independientes. . IV. es decir que. . Y ) = 93. . . .

. . X2 ) sigue una distribuci´n normal bidimensional. µ2 ) ∈ R2 y o u una matriz Σ 2 × 2 sim´trica y definida positiva (es decir que. se cumple que o X1 y X2 son independientes. En la figura IV. . Σ es la matriz de covarianzas de (X1 .7 Algunos modelos de v. E[X1 ] = µ1 . . X2 = n2 . . Repetimos este experimento simple n veces de manera independiente. Las curvas de nivel de la densidad bidimensional Normal son muy ilustrativas a la hora de visualizar las campanas de Gauss asociadas (estas campanas son en tres dimensiones). las dos componentes X1 y X2 son independientes y adem´s sus varianzas son iguales.a. Σ11 = 1. m´s concretamente µ1 = 1. 2π|Σ| En este caso escribimos (X1 .2. . . x2 ) → 1 1 T −1 e− 2 (x−µ) Σ (x−µ) . . ¿con qu´ par´metros? e a IV. si (X1 . Σ). pk o a y n.7. . X2 ) sigue una distribuci´n Normal bidimensional con o par´metros (µ1 . . si y solamente si su covarianza es nula. etc hasta Xk =”N´mero de u veces que ha ocurrido Ak en las n realizaciones del experimento simple. nk ! 1 71 Se dice que (X1 . para todos n1 . El modelo Normal multidimensional Caso bidimensional Definici´n IV. X2 =”N´mero de veces que ha ocurrido u A2 en las n realizaciones del experimento simple. para todo x en R2 . X2 ) ∼ N (µ. multidimensional Tenemos un primer experimento aleatorio simple. deducimos en particular la siguiente propiedad: Propiedad: Si (X1 . Proposici´n IV.2. . . Xk = nk ) = n! pn1 . . . .2.7. a a Σ22 = 1 y Σ12 = 0. µ2 = 3. con un k sucesos posibles A1 .1 Se cumple que.7. e xT Σx ≥ 0). pk = P(Ak ). . X2 ) ∼ N (µ.IV. IV. Σ11 = 1. . . De la forma de la densidad Normal bidimensional. Denotamos por o p1 = P(A1 ). k n1 ! . . La variable (X1 . Ak . E[X2 ] = µ2 . En la figura IV. . pnk . . . Se puede comprobar que.1 Consideremos un par de n´meros reales µ = (µ1 . . Σ). . X2 ). µ2 ) y Σ si su densidad es a x = (x1 . . . + nk = n. Xk ) sigue una distribuci´n multinomial de par´metros p1 .1.7. a . . m´s concretamente µ1 = 1.1. P(X1 = n1 . que forman una partici´n del espacio muestral. Es f´cil comprobar que todos las distribuciones marginales de una multinomial son a binomiales. las dos componentes X1 y X2 siguen siendo independientes pero ahora sus varianzas son distintas. Consideramos la variable X1 =”N´mero de veces que ha ocurrido A1 en las n u realizaciones del experimento simple. nk enteros positivos o nulos o tal que n1 + n2 + . . . µ2 = 3.

µ1 = 1. µ2 = 3. se representan las curvas de nivel para la densidad Normal bidimensional si µ1 = 1. Σ22 = 0. Σ11 = 1. Finalmente.375. o X2 0 1 2 3 4 5 6 −2 −1 0 1 X1 2 3 4 Figura IV.1: Curvas de nivel de la densidad Normal bidimensional si los dos componentes son independientes con varianzas iguales.125. Esto implica en particular que su correlaci´n es ρX1 X2 = 0. Las curvas de nivel aparecen como elipses.25 y Σ12 = 0. si las dos componentes no son independientes. µ2 = 3. Σ22 = 1 y Σ12 = 0.5 y Σ12 = 0.72 Mathieu Kessler: M´todos Estad´ e ısticos Σ22 = 0. .3. las curvas de nivel siguen formando elipses pero sus ejes presenten un ´ngulo respecto a los ejes del a sistema de coordenada. Σ11 = 1. En la figura IV. cuyos ejes coinciden con los ejes del sistema de coordenadas.5.

Xn ) sigue una distribuci´n Normal no dimensional con par´metros µ y Σ si su densidad es a x ∈ Rn → 1 1 T −1 e− 2 (x−µ) Σ (x−µ) . pero sus varianzas son distintas.2 Consideremos µ = (µ1 .7.7. . . Caso n-dimensional Definici´n IV.IV. IV. µn ) en Rn y una matriz Σ n × n o sim´trica y definida positiva. µ2 = 3. . . .a.2. multidimensional 73 X2 0 1 2 3 4 5 6 −2 −1 0 1 X1 2 3 4 Figura IV. Σ22 = 0. .25 y Σ12 = 0. n/2 (2π|Σ|) Se puede comprobar que la media de cada Xi es µi y que Σ es la matriz de covarianza de X. . µ1 = 1. .7 Algunos modelos de v. Σ11 = 1. e La variable n-dimensional X = (X1 . .2: Curvas de nivel de la densidad Normal bidimensional si los dos componentes son independientes.2.

Σ11 = 1. lo que implica ρX1 X2 = 0.2 Si X = (X1 . . µ1 = 1. Σ22 = 0.375. . o ¿Podr´ caracterizar su media y su varianza? ıais Se deduce en particular de la proposici´n que las distribuciones marginales de o una variable Normal n-dimensional son todas normales. llamada propiedad de reproductividad de la distribuci´n Normal.5 y Σ12 = 0.3: Curvas de nivel de la densidad Normal bidimensional si los dos componentes no son independientes.7. . . + an Xn sigue una distribuci´n Normal.125. Σ). µ2 = 3. . para todos n´meros reales o u a1 .5. . . . Acabamos el tema con una propiedad fundamental de la distribuci´n Normal o n-dimensional. . an . o Proposici´n IV. Xn ) ∼ N (µ. . se cumple que a1 X1 + a2 X2 + . .74 Mathieu Kessler: M´todos Estad´ e ısticos X2 0 1 2 3 4 5 6 −2 −1 0 1 X1 2 3 4 Figura IV.

a a Para sacar informaci´n sobre p y comprobar en particular que la moneda no o est´ trucada.1. repetiremos un cierto n´mero de veces el experimento. En cada uno de estos hogares. p es por lo tanto la probabilidad de que salga cara. En realidad. Es claramente imposible entrevistar a todas las personas del censo. a o El ´ ındice de audiencias manda en la programaci´n de televisi´n. posiblemente con uno o varios par´metros que tendremos que ajustar.. nuestro modelo considerar´ que p = 1/2.sofresam. En cambio realizaremos una encuesta. escogiendo al azar una muestra de unas 3000 personas entre el censo y pregunt´ndoles si tienen intenci´n de ir a votar. Pero ¿c´mo o o o saben cu´ntos espectadores vieron un partido dado o un programa determinaa do? A m´ nunca me han preguntado. su distribuci´n se describe o como: X puede tomar dos valores c (Cara) o + (Cruz) con las probabilidades: P[X = c] = p y P[X = +] = 1 − p. Introducci´n o Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo. queremos determinar la proporci´n o o de gente que tiene intenci´n de ir a votar. instala un aparato . a u Para las pr´ximas elecciones generales. a Ejemplos Me interesa una moneda para tirar a cara o cruz.com) ha escogido al azar unos 3300 hogares que representan unas 10000 personas de entre un total de aproximadamente 39 500 000 espectadores potenciales. En el caso en que confiamos a en que la moneda no est´ trucada. El experimento es “Tirar la moneda” y la variable X corresponde al resultado.TEMA V Muestreo y distribuciones muestrales V. es decir queremos estimar la tasa o de participaci´n. El censo electoral para Espa˜a tiene unos 32 millones de o n personas. una encuesta se realiza de ı manera autom´tica y continua: una empresa especializada llamada SOFRES a (http://www. y es un par´metro de nuestro modelo..

El centro de esta distribuci´n. Para intentar convencer al lector o de que el riesgo que corro al extrapolar el resultado de una muestra de 3000 personas a la poblaci´n de 32 millones no es excesivo. la de o e la poblaci´n (el fichero) es de 70 %. ha tenido suerte de que en la a muestra que ha escogido. puedo repetir la extracci´n de muestras hasta 10 000 veces por ejemplo.71. mientras que el 30 % son ceros. Una primera conclusi´n se impone: la gran mayor´ de las muestras o ıa han proporcionado un valor de p entre 0. lo que corresponde a una ˆ muy buena estimaci´n del valor de la proporci´n poblacional. y guardo los valores o que encuentro para la proporci´n de 1 en cada una de estas 10000 muestras o en una variable llamada p. ıa el argumento es v´lido. es muy probable que el valor de la proporci´n de 1 en la muestra est´ bastante o e . pero con otra muestra podr´ salir otro resultado peor. Pero para convencerle.. si escojo otra muestra me sale otro resultado. Este hecho se llama la variabilidad muestral. mi estimaci´n es muy buena: estimo o la tasa de participaci´n en 71 % mientras que la aut´ntica. y encuentro que la proporci´n de unos en esta muestra o es de 0. que representar´ el censo electoral. ¿Os he convencido? Seguro que alg´n o u lector desconfiado dir´: “ no demuestra nada. ¿no? ¿Sigue sin convencerle? Bueno. ˆ Realizo un histograma de los 10000 valores de p. ser´ por lo tanto lo o a m´s representativo de la concentraci´n que intento determinar. el 70 % de los 32 millones de datos son unos. el resultado aparece en la ˆ figura V. En el fichero que construyo.72. hago el recuento de los unos. llevo a cabo un estudio de simulaci´n: o o Construyo en mi ordenador un fichero con 32 millones de ceros y unos.76 Mathieu Kessler: M´todos Estad´ e ısticos llamado “aud´ ımetro” que graba cu´l es el programa que se est´ viendo en cada a a momento. Para estimar a o µ. mientras que los ceros a los que no piensan ir a o votar. en este caso. o o Pienso que es razonable que la distribuci´n de los valores proporcionados por o mi aparato de medici´n sea una normal con media µ y desviaci´n t´ o o ıpica σ desconocidas. y encuentro que la proporci´n muestral de unos es 0. repetir´ la medici´n varias veces.” De acuerdo. Por lo tanto. Por lo tanto este o o estudio simulado demuestra que al escoger una muestra de 3000 personas. Intento de respuesta: Consideremos el caso del sondeo en el que se busca estimar la tasa de participaci´n antes de unas elecciones. Los unos representar´n a las personas que s´ a a ı tienen la intenci´n de ir a votar.1. la proporci´n de unos sea pr´xima a la proporci´n o o o poblacional. e o Pero surge una pregunta evidente: Pregunta: ¿C´mo sabemos que nuestra estimaci´n es fiable? ¿Por qu´ limit´ndose o o e a a unas 3000 personas. Quiero conocer la concentraci´n de un determinado producto en una soluci´n.. se puede extrapolar el resultado con confianza a una poblaci´n o de 30 millones? Adem´s est´ claro que el resultado que obtengo depende de la a a muestra particular que haya escogido. voy a coger otra muestra al a azar de 3000 datos.68 y 0. (70 % es una tasa razonable de participaci´n o en unas elecciones) Extraigo al azar una muestra de 3000 datos del fichero completo. o Sigue estando muy bien. es decir. es decir µ.72.

7 − 2 × 0. Observamos que en este caso el histograma es much´ ısimo m´s chato.V.1: Histograma de los valores de p para 10000 muestras extra´ ˆ ıdas pr´xima (menos de dos puntos) de la proporci´n de 1 en la poblaci´n. Nota.67 0. Quiero formular un modelo para su distribuci´n.69 0. El histograma en la figura V.716 es ˆ del 95 %. al escoger una muestra de 100. a Podemos dar un paso m´s en la utilizaci´n de este estudio simulado: si considero a o ahora el experimento “extraer una muestra de tama˜o 3000 en la poblaci´n”.70 y desviaci´n t´ o ıpica σ = 0. y que la dispersi´n de los valores de a o p es mucho mayor: es m´s probable.2. Repitamos por ejemplo el estudio simulado con muestras de s´lo 100 pern o sonas.1 Introducci´n o 77 Frecuencias 0 500 1000 1500 2000 0.73 Figura V.70 ^ p 0. Puesto que escoger una muestra de 3000 personas da tan buen resultado. p es la n o ˆ variable “proporci´n de 1 en la muestra extra´ o ıda”. Utilizando entonces la regla de 68 % .3. El histograma que obtenemos aparece en la figura V.68 0.99. la probabilidad de que la proporci´n o n o muestral p se encuentre entre 0.72 0. deduzco en particular que al escoger al azar en la poblaci´n una muestra de tama˜o 3000. podr´ ıamos preguntarnos si podr´ ıamos ahorrarnos algo y extraer una muestra m´s a peque˜a.008 = 0. se aprecia que el ajuste por una o ˆ normal con media µ = 0.008 = 0.71 0. aunque o o o ´sta sea much´ e ısimo m´s grande que la muestra.07 + 2 × 0. que la proporci´n ˆ a o .95 % .694 y 0.008 es muy bueno. De hecho en la figura V.1 me sugiere que puedo escoger una o distribuci´n normal para p.7 %.

se dispone de un modelo para la distribuci´n o de p por ejemplo.2: Ajuste de una normal al histograma de los valores de p ˆ muestral est´ bastante alejado del objetivo 0. tal como lo hemos ilustrado con nuestro ejemplo simulado.73 Figura V. Este ˆ .7 ^ p 0.8 0.78 Mathieu Kessler: M´todos Estad´ e ısticos Densidad 0 10 20 30 40 0.67 0.6 0.68 0.9 Figura V. e Frecuencias 0 500 1000 1500 0.7.69 0.70 phat 0.72 0.3: Histograma de los valores de p para 10000 muestras de tama˜o 100 ˆ n extra´ ıdas Toda la teor´ desarrollada acerca de los sondeos utiliza de manera crucial el heıa cho de que antes de extraer la muestra.71 0.

. .. a a o o V. .1. La distribuci´n de los valores que puede tomar un estad´ o ıstico respecto a todas las muestras de tama˜o n que se podr´ extraer se llama n ıa distribuci´n muestral de este estad´ o ıstico. + Xn ] = (E[X1 ] + . V. .3.1. y ¯ E[X] = E[ ¯ E[X] = 1 1 (n · µ) = µ. la media de la v. En este caso decimos que o (X1 .3. . o V.2. consideramos el experimento que o a consiste en extraer una muestra aleatoria simple de la distribuci´n de X.a X. Cualquier cantidad calculada a partir de las observaciones de una mueso tra se llama estad´ ıstico. n Introducimos dos t´rminos fundamentales en estad´ e ıstica: Definici´n. .2 Muestra modelo permite en particular decidir si. Xn ) constituye una muestra aleatoria simple de la distribuci´n de X. . Para controlar lo pr´ximo que estar´ su valor de µ. + Xn ¯ X= . n n n Puesto que la distribuci´n de cada Xi es la misma que la distribuci´n de X.1 . . . fijado el error m´ximo que se est´ dispuesto a a a cometer respecto a la proporci´n poblacional. .V. . n En algunos casos. o a e Llamaremos entonces media de X la media poblacional y su varianza. . la media o muestral es la variable aleatoria (su valor depende de la muestra escogida) X1 + . X2 . Muestra Formalizamos el contexto y introducimos el concepto de muestra: Consideramos un experimento aleatorio y una v. el tama˜o de la muestra es suficiente o n como para que el riesgo de cometer un error mayor es lo suficientemente peque˜o. Xn son independientes y claramente la distribuci´n o de cada variable Xi coincide con la distribuci´n de X. Las variables X1 . . . n ¯ ¿Qu´ podemos decir de la distribuci´n de los valores que puede tomar X? Empezaree o mos por estudiar cu´l ser´ el centro y la dispersi´n de esta distribuci´n. este experimento aleatorio consistir´ en escoger al azar un individuo de una a poblaci´n muy grande. = E[Xn ] = µ. . Xn “valor de X obtenido en la n-´sima realizaci´n del experimene o to”. Al querer obtener informaci´n sobre alg´n par´metro del modelo que hemos escogido para la distribuci´n o u a o de los valores de X. llamada media muestral. 79 V. . y calcularemos la media de esta muestra.3. X2 . . . .1. deducio o mos que E[X1 ] = .a X. La media muestral Supongamos que nos interesamos por el valor µ. . + Xn ] = E[X1 + . Escogeremos una muestra. ¯ Esperanza y varianza de X Esperanza Tenemos que 1 1 X1 + . la varianza poblacional . + E[Xn ]). vamos a repetir el experimento n veces de manera independiente y consideramos las variables X1 “valor de X obtenido en la primera realizaci´n del o experimento”. y X ser´ el valor de la variable de inter´s para este individuo concreto. .

Los valores de X variar´n pero lo deseable es que su centro µ coincida con el a valor exacto de la cantidad que busco determinar: si E[X] = valor exacto.. . ¯ n √ ¯ ¡La dispersi´n que presentan los valores de X es n m´s peque˜a que la dispersi´n o a n o de X! V. . .4. tal como est´ ilustrado en la Figura V.3. con la analog´ a ıa de la medici´n con un disparo en una diana: el centro de la diana representa el valor o exacto de lo que buscamos determinar. tiene o a dif´ arreglo. o V.1. Figura V.+Xn ] = 2 (var[X1 ]+. En cambio. Sin embargo exista una manera de mejorar la precisi´n de un aparato ıcil o .1. Tenemos eno n tonces varios casos posibles.4: Analog´ de la medici´n con un disparo en una diana ıa o Si nuestro aparato de medici´n no es exacto. ver Tema 4. si no es preciso. Por otra parte.. decimos que el aparato es exacto. .2.3.3. . obtenemos que o o ¯ var[X] = var[ 1 X1 + . decimos que el aparato es preciso. podemos intentar calibrarlo para o corregir la desviaci´n sistem´tica que presenta. + Xn 1 ] = 2 var[X1 +. n n n nσ 2 σ2 = . mientras que la variable X es “valor proporcionado por el o aparato”. queremos que los valores proporcionen presenten la menor dispersi´n posible: si σ = σX es peque˜a.80 Mathieu Kessler: M´todos Estad´ e ısticos es decir que el centro de la distribuci´n de la media muestral coincide con el centro o de la distribuci´n de X.+var[Xn ]). Consecuencia pr´ctica a Quiero realizar una medici´n con un aparato. El experimento aleatorio es “llevar o a cabo una medici´n”. . n2 n lo que implica que ¯ var(X) = o de forma equivalente σ σX = √ . Varianza Utilizando la f´rmula de propagaci´n de los errores.

1 Si X ∼ N (µ. Si n es o ¯ “suficientemente” grande. Hay que enfatizar el hecho o de que estos resultados se obtienen sin hip´tesis sobre la forma de la distribuci´n o o ¯ de X. si repito 9 veces la medici´n y o proporciono la media de estas nueve mediciones. σ 2 ) y consido eramos una muestra aleatoria simple de X. ¿Podemos decir algo m´s sobre la distribuci´n de los valores de X. o V. .3. se puede aproximar la distribuci´n de X por una Normal o 2 /n: con media µ y varianza σ σ ¯ X ∼ N (µ. consideremos un aparato de medici´n que proporciona valores que o se distribuyen seg´n una Normal. de manera equivalente. ) aproximadamente. ¯ X −µ √ ∼ N (0. sabemos por la reproductividad de la distribuci´n Normal que X1 + X2 + . Si la distribuci´n de X es desconocida o no es normal o Si la distribuci´n de X es desconocida.3. ahora que a o sabemos cu´les son su centro y su dispersi´n? a o V. . Por la propiedad de la distribuci´n Normal. n 2 .3.2.1. o 81 V. o o Teorema V. ver secci´n V. .3. con una media de 120 y una desviaci´n t´ u o ıpica de 12. exepto sobre su media y su desviaci´n o o t´ ıpica. se sabe o n que esta distribuci´n se puede aproximar por una distribuci´n Normal. y si X es la media muestral basada en una o muestra aleatoria simple de la distribuci´n de X.3 La media muestral de medici´n: basta con repetir un n´mero suficiente de veces la medici´n y proo u o porcionar la media de los valores obtenidos: la desviaci´n t´ o ıpica de los valores que √ proporcionar´ con este m´todo es n veces m´s peque˜a que la de los valores proıa e a n porcionados si me limito a una medici´n. .a X por una distribuci´n Normal N (µ. ).1 Teorema Central del L´ ımite Consideremos (X1 .2. es decir entre 96 y 144. o σ ¯ X ∼ N (µ. Sin embargo. . Distribuci´n de la media muestral o En la subsecci´n anterior. 1). Xn ) una muestra aleatoria simple de la distribuci´n de X con media µ y varianza σ 2 . o e o Se cumple por lo tanto ¯ Proposici´n V. + Xn sigue tambi´n una distribuci´n normal. el 95 % de los valores que obtendr´ ıa √ √ con este procedimiento se encontrar´ entre µ − 2σ/ n y µ − 2σ/ n.3. es decir entre ıan 112 y 128.2. .1. σ/ n 2 Como ejemplo.2.3. σ 2 ). hemos caracterizado la media y la desviaci´n t´ o o ıpica ¯ de la distribuci´n de los valores de la media muestral X. lo que implica una precisi´n mucho mayor. el 95 % de los valores est´n entre o a µ − 2σ y µ − 2σ. si el tama˜o muestral n es grande. no podemos hacer milagros: no podemos o ¯ decir nada exacto sobre la distribuci´n de X. Si la distribuci´n de X es Normal o Si hemos modelizado la v.V. n o. En cambio.

La densidad de (n − 1)s2 /σ 2 es proporcional a x(n−1)/2 e−x/2 . el Teorema n Central del L´ ımite implica que la distribuci´n de sus valores es aproximadamente o Normal. fundamental en estad´ ıstica. se representa la densidad de una distribuci´n χ2 con distintos o grados de libertad. V. Distribuci´n t de Student o ¯ X −µ √ . si consideramos la distribuci´n de la media muestral. V. Escribimos (n − 1)s2 ∼ χ2 . La varianza muestral Consideremos ahora un experimento al que asociamos una v. si es muy distinta de una distribuci´n Normal.5.4. La distribuci´n correspondiente se llama χ2 (ji-cuadrado) con (n − 1) grados o de libertad. En la figura V. X2 . 2. no hace falta un n muy grande para que o la aproximaci´n de la distribuci´n de la media muestral por una Normal sea satisfaco o toria.. si un error de medici´n se puede consido erar como la suma de muchas peque˜as perturbaciones independientes. hemos utilizado el estad´ o ıstico Z= (V.5. si x > 0. si x > 0.a X cuya distribuci´n de valores modelizamos por una Normal con media µ y varianza σ 2 ..a.a X y s2 son independientes. En particular. Repetimos o n veces el experimento y obtenemos una m.) ıa a o Por otra parte.a. . ser´ necesario una o a muestra grande.82 Mathieu Kessler: M´todos Estad´ e ısticos ¿Cuando se considera que n es “suficientemente” grande? No hay por desgracia ninguna respuesta universal. asociada a cualquier diso tribuci´n. una v. . X sigue una distribuci´n χ2 con k ∈ N grados de libertad o si su densidad es proporcional a x → xk/2 e−x/2 . o de la suma de o o realizaciones independientes. este teorema.1 o ¯ 1. depende de la forma de la distribuci´n de X: si ´sta no es o e muy diferente de una distribuci´n Normal.s (X1 . Las v. . .4. n−1 σ2 En general. ¿Qu´ podemos decir de la distribuci´n de la varianza muestral e o s2 = n ¯ (X 2 − (X)2 )? n−1 Es posible demostrar la proposici´n siguiente o Proposici´n V. Xn ) de la distribuci´n o de X. Se suele considerar como indicaci´n que n mayor de 30 es suficiente o en la mayor´ de los casos (pero no es m´s que una indicaci´n. σ/ n En la secci´n 3.1) . explica la importancia de la distribuci´n Normal: aparece de manera natural. En cambio.

V. sea X la media muestral. es decir que existe una constante 1 K tal que ftk (t) = K (1+t2 /p)(p+1)/2 . . simple de una distribuci´n Normal N (µ.05 0. Se puede demostrar que la densidad Ftk de la distribuci´n t de Student con k grados de libertad admite la siguiente expresi´n: o o ftk (t) ∝ 1 (1 + t2 /p)(p+1)/2 . . Por las propiedades de una funci´n de densidad o .00 0. Xn ) una muestra aleatoria simple de una o ¯ distribuci´n N (µ.5: Densidad de la distribuci´n χ2 con k = 3. Escribimos T ∼ tn−1 . lo estimaremos por S la desviaci´n t´ o ıpica muestral S= n ¯ (X 2 − (X)2 ). . o La distribuci´n de T depende por lo tanto del tama˜o n de la muestra.1 Consideramos (X1 .5 Distribuci´n t de Student o 83 Densidad de la Ji cuadrado con k grados de libertad 0.15 0. −∞ < t < ∞.1) σ por S es T = ¯ X −µ √ . 10 y 30 grados de libertad o (respectivamente de izquierda a derecha) ¯ que sigue una distribuci´n Normal est´ndar si X es la media de una muestra aleatoria o a 2 ). σ 2 ). la distribuci´n de los valores de o o T = ¯ X −µ √ S/ n se llama distribuci´n t de Student con n−1 grados de libertad.10 0. a trav´s o n e de los llamados “grados de libertad”. σ o Si desconocemos el valor de σ. . S/ n Definici´n V. n−1 El estad´ ıstico que resulta de sustituir en (V. donde el s´ ımbolo ∝ significa “es proporcional a”.20 0 10 20 x 30 40 50 Figura V.5.25 f_X(x) 0.

se representa la densidad de la distribuci´n T de Student para o varios valores de los grados de libertad. o a En la figura V. 0 . al obtenerse T sustituyendo σ por S. 10 y 150 grados de o libertad respectivamente (de la densidad m´s chata a la m´s puntiaguda) a a se puede deducir que la constante es Γ( p+1 ) 1 2 K= √ .a X ha tomado u el valor 1. Para sacar informaci´n sobre p. y la distribuci´n t de Student asociada se parece m´s a una Normal. Esta variabilidad en el denomie nador resulta en que T puede tomar con m´s probabilidad valores m´s extremos. repetiremos el experimento n veces o de manera independiente. el denominador de T presenta ahora tambi´n variabilidad. en el experimento e ´ que consiste en producir una pieza con una m´quina que produce una proporci´n a o p de defectuosos. X toma el valor 1 si la pieza es defectuosa. y 0 si la pieza es correcta. pensamos por ejemplo.6. la variabilidad de S disminuye.6. contaremos el n´mero N de veces que la v. es decir que fabricamos n piezas con la m´quina y contamos el n´mero a u 2 La funci´n Gamma tiene la expresi´n siguiente: para cualquier real α > 0. 3. ´ste ultimo con la probabilidad p.84 Mathieu Kessler: M´todos Estad´ e ısticos Densidad de la t de Student con k grados de libertad f_X(x) x Figura V. La proporci´n muestral o Hay situaciones en las que la v.6: Densidad de la distribuci´n t de Student con 1. V. Γ( p ) pπ 2 donde Γ denota la funci´n Gamma2 . o en el ejemplo del sondeo para estimar la tasa de participaci´n antes de o unas elecciones. si los grados de libertad aumentan. a a Sin embargo. o La distribuci´n t tiene colas m´s pesadas que la distribuci´n Normal. Γ(α) = o o ∞ α−1 −t t e dt. lo que es o a o intuitivamente natural puesto que.a X de inter´s tan s´lo puede tomar el valor 0 e o o ´ 1.

La proporci´n de “Unos” o en la muestra se llama la proporci´n muestral y la denotamos por p. C´lculos exactos para la distribuci´n de p se podr´n realizar utilizando que p = N/n a o ˆ a ˆ y el hecho que N ∼ B(n. u En el caso en que se cumplen las condiciones de aproximaci´n de la distribuci´n o o Binomial. p).010 0. Este simple ejemplo ilustra la a a idea b´sica del control estad´ a ıstico de calidad. ˆ n 85 V.9998 ] 0. np(1−p)).2.1 Cuando est´ bien ajustada. tal como viene ilustrado en el ejemplo siguiente: Ejemplo V. p).08 Por lo tanto. 0. ¿cu´l es la probabilidad de que. haya m´s de 2 % de defectuosos? a Queremos calcular P(ˆ > 0.1. 100 siendo N ∼ B(100.01) si la m´quina est´ bien ajustada. su distribuci´n es por lo tanto o Binomial de par´metros n y p.V. C´lculos exactos para la distribuci´n de p a o ˆ El n´mero de “Unos” en la muestra es el n´mero de veces que ha salido “1” u u en n realizaciones independientes del experimento. b) en realidad o ıa es un s´ ıntoma de que la m´quina est´ mal ajustada.6. s´lo hay una probabilidad de 0.08 de a a o observar 3 o m´s piezas defectuosas en una muestra de 100. si un d´ observo 3 piezas defectuosas en la muestra que he exıa tra´ ıdo.99100 + 100 1 0.9999 + 100 2 0. Distribuci´n aproximada de p o ˆ Los c´lculos exactos que hemos descrito en el apartado anterior se pueden volver a muy laboriosos si se necesita evaluar un gran n´mero de probabilidades individuales. hay dos posibilidades: a) la m´quina est´ bien ajustada pero he tenido mala a a suerte (s´lo hab´ 8 posibilidades entre 100 de que esto ocurriera). Para realizar un control de la calidad de la producci´n. se extrae o diariamente una muestra de 100 piezas. en una a a a de estas muestras.012 0.011 0. y se calcula la proporci´n muestral de deo fectuosos.02) = P(N > 2). a En particular. la distribuci´n de N se puede aproximar por una Normal N (np. V. Tenemos a a P(N > 2) = 1 − P(N ≤ 2) = 1 − [P(N = 0) + P(N = 2) + P(N = 3)] 1−[ 100 0 0. o .6 La proporci´n muestral o N de defectuosas. o para los dos ejemplos concretos que hemos mencionado.02) = P( p N > 0. si la m´quina est´ bien ajustada. una m´quina produce piezas con s´lo a a o 1 % de defectuosos.. la probabilidad de que salga “1” en una realizaci´n a o del experimento: N ∼ B(n.6. Si la m´quina est´ bien ajustada..6. o preguntaremos a n personas si tienen intenci´n de ir a votar. Est´ claro que o ˆ a tenemos N p= .

pero que permite ilustrar sus fundamentos.7 Muestra no 11 12 13 14 15 16 17 18 19 20 x ¯ 53.1 61.0 56.9 64.9 67. Idealmente esta concentraci´n deber´ ser igual a 55. favoreciendo la intervenci´n r´pida en el o o a caso en que se detecta que ´sta se deteriora. calculando a continuaci´n la media de los cuatro valores obtenidos. Las gr´ficas de control permiten comprobar de manera continua que se mantiene a constante la calidad de una producci´n. pero la variabilidad es inevitable. ˆ p(1 − p) ).5 67. Para controlar la calidad de la producci´n. ¿c´mo detectar que el instrumento de producci´n se ha desajustado o o por ejemplo? Si representamos la secuencia de los valores calculados para x en los ¯ ..0 47.1 54. Sin o ıa embargo se asume que.7. e V. Muestra no 1 2 3 4 5 6 7 8 9 10 x ¯ 54. ver Figuras V.1.4 ¿C´mo comprobar que la calidad de la producci´n sigue conforme con los criterios o o fijados? es decir.7.9 67. o V.86 Mathieu Kessler: M´todos Estad´ e ısticos y por lo tanto p sigue aproximadamente una distribuci´n Normal con media np/n = p ˆ o 2 = p(1 − p)/n: y varianza np(1 − p)/n Si np > 5.3. ¯ Gr´fica de control X.0 59. la varianza muestral o la proporci´n muestral ha propiciado que se o propongan procedimientos de control estad´ ıstico de calidad en contextos industriales. Notar por otra parte que para el ejemplo del apartado anterior no se cumplen las condiciones de aproximaci´n. en condiciones normales de producci´n los valores de la o concentraci´n se distribuyen seg´n una distribuci´n aproximadamente Normal con o u o desviaci´n t´ o ıpica σ = 8.6 66. En o la tabla siguiente.7 64.7 62.5 60. a Consideremos el contexto siguiente: una empresa identifica la concentraci´n en o CaCO3 como una caracter´ ıstica importante de la calidad de su producto.5 66.5 56. analiza 4 envases o de producto.3 51.1 61. se recogen los datos correspondientes a veinte controles. en una versi´n o o a o algo simplificada.1 73. Veremos en esta secci´n una introducci´n a las gr´ficas de control.. n(1 − p) > 5 p ∼ N (p.2 y ˆ o V. Introducci´n a las gr´ficas de control o a Conocer las distribuciones muestrales de algunos estad´ ısticos destacados como la media muestral. n aproximadamente Esta propiedad de aproximaci´n justifica en particular las formas de campanas de o Gauss que aparecen para los histogramas de p en la introducci´n.

Si escojemos al azar cuatro o ¯ monitores en la producci´n de una hora. En la Figura V. se representa la gr´fica de control para este ejemplo. ejemplo de la concentraci´n en NaCO3. junto con tres l´ ıneas horizontales: la l´ ınea objetivo.4 y 49.6. pero o a ¿c´mo definir una regla que nos sirva de se˜al de alarma? o n 80 87 q 70 q q q q q q q q media de la muestra 60 q q q q q q q q q q 50 q 30 40 5 10 15 20 Figura V. √ el l´ ımite de control superior en µ − 3σ/ n.7 Introducci´n a las gr´ficas de control o a controles consecutivos. A partir de la a muestra n´mero 14 se detecta que el proceso est´ fuero de control. sabemos que los valores de X se distribuyen seg´n una Normal de u √ media µ y de desviaci´n t´ o ıpica σX = σ/ n. es razonable pensar que el proceso de producci´n se ha desajustado. o puesto que s´lo hab´ una probabilidad de 3 entre 1000 que esto ocurriera. es decir entre 60. σ 2 ) con σ = 8.6.7: Valores consecutivos de x. obtenemos la gr´fica de la Figura V. o Sabemos que X ∼ N (µ. En particular si µ es ¯ ¯ efectivamente igual a 55.7.2. V.a X= “concentraci´n de NaCO3”.4.7 % de los valores de X se encontrar´n a entre µ − 3σX y µ + 3σX . se espera que el 99. la calidad de la producci´n no se mide a tr´ves de una o a variable X sino a trav´s de la proporci´n de defectuosos producidos.8. 49. ¯ o Formalicemos el contexto: consideramos la v. 60. observamos un valor de X fuera de este rango de valores.7. es decir 8/2 = 4. En estos casos e o se monitora la calidad utilizando una gr´fica de control p. en nuestro caso. se debe cumplir que µ = 55. ¯ ¯ ¯ Por consiguiente. ¯ Realizar una gr´fica de control X consiste por lo tanto. Tambi´n sabemos que en condiciones nore males de producci´n. y llamamos X la media de las tensiones o ¯ correspondientes. en representar en una gr´fica los valores de X que a vamos obteniendo. donde tambi´n se ha a e dibujado una l´ ınea horizontal para indicar la concentraci´n ideal 55.V. a ˆ . en nuestro caso. Parece sin duda o que la tensi´n de los monitores va aumentando y alej´ndose del objetivo 55. siendo el o ıa proceso bien ajustado (es decir siendo µ igual a 55). √ el l´ ımite de control superior en µ + 3σ/ n. y que la calidad u a se ha deteriorado. suponiendo que los valores a de la variable que queremos controlar siguen aproximadamente una Normal y que ¯ conocemos su desviaci´n t´ o ıpica. Gr´fica de control p a ˆ En algunas situaciones. si para una muestra. en nuestro caso µ = 55.

´sta se puede aproximar por una Normal: e p ∼ N (p.7. o ˆ n(1 − p) > 5. Sabemos que si np > 5 y control X. ˆ p(1 − p) . Una de ellas corresponde a dibujar la l´ ınea objetivo y concluir que la m´quina est´ mal ajustada si se observan nueve puntos consecutivos por debajo(o a a por encima) de la l´ ınea objetivo. n en nuestro caso.3. n p(1−p) √ . es decir concluir err´neamente que el proceso est´ fuera de control es del orden de 2 entre 1000. Otra se˜ al de alarma n Existen otras posibles se˜ales de alarma para decidir si un proceso est´ fuera n a de control.8: Ejemplo de gr´fica de control x. aproximadamente. V. n La gr´fica de control p se realizar´ por lo tanto dibujando en la gr´fica tres l´ a ˆ a a ıneas horizontales: la l´ ınea objetivo. La probabilidad de falsa alarma. √ el l´ ımite de control superior en p + 3 √ el l´ ımite de control superior en p − 3 p(1−p) √ . o a . a ¯ Para llevar a cabo el control utilizando las mismas ideas que para la gr´fica de a ¯ recurrimos a la distribuci´n muestral de p.88 Mathieu Kessler: M´todos Estad´ e ısticos 80 q 70 q q q q q q q q media de la muestra 60 q q q q q q q q q q 50 q 30 40 5 10 muestra 15 20 Figura V.

Este modelo incluye par´metros desconocidos.a X.2.sobre estos par´metros a partir de los valores obtenidos de X. VI. El primer a tipo de informaci´n que podemos intentar sacar es acerca de su valor. o Nos falta “ajustar” los valores de la media y de la varianza de esta distribuci´n o normal. con una v.1 Cualquier estad´ o ıstico (es decir.1. cualquier funci´n de las obsero vaciones de la muestra) dise˜ado para aproximar el valor de un par´metro θ del n a modelo.. o Definici´n VI. a . a Por ejemplo. Estimar un o par´metro consiste en obtener una aproximaci´n de su valor en base a los datos de la a o variable correspondientes a varias realizaciones del experimento. y un modelo para la distribuci´n de X. Recordar que vimos en el tema anterior que los datos provenientes de varias realizaciones del experimento constituyen una muestra de la distribuci´n de X. posiblemente con uno o varios par´metros que tendremos que ajustar. Introducci´n o Consideramos un experimento aleatorio para el cual estamos dispuestos a escoger un modelo. la variable que nos o interesa es X “valor proporcionado por el aparato”.1.. Estimaci´n puntual o Definici´n o Consideramos un experimento aleatorio. predicciones etc. Disponemos de o a una muestra de la distribuci´n de X. Para ajustar los par´metros que a a nos faltan. para disponer de un modelo completamente especificado que nos permitir´ a realizar c´lculos de probabilidad.2.se dice o inferir . repetiremos el experimento varias veces y sacaremos informaci´n .TEMA VI Introducci´n a la teor´ de la estimaci´n o ıa o VI. pensamos que la distribuci´n de o los valores que puede tomar X se puede aproximar por una distribuci´n Normal.2. o VI. queremos realizar una medici´n con un aparato. se llama estimador puntual del par´metro θ.

sabemos por el tema 5 que E[X 2 = X 2 ¯ ¯ ¯ E[X 2 ] = var(X)+µ2 . este resultado constituye la justificaci´n o de que la varianza muestral se defina con el factor n/(n − 1). VI. n−1 n Hemos por lo tanto comprobado que la varianza muestral es un estimador insesgado de la varianza. La varianza muestral S 2 . E[(X)2 ]] = var(X)+(E[X])2 = σ +µ2 . n n .. decimos que θ es un estimador insesgado de θ ˆ si θ a si ˆ E[θ] = θ.2.2. n−1 Por lo tanto.1. E[S 2 ] = n ¯ [E[X 2 ] − E[(X)2 ]]. ˆ es un estimador del par´metro θ. proporci´n muestral ˆ o Un aspecto fundamental de un estimador es que es una variable aleatoria: su valor concreto depende de la muestra escogida. hemos obtenido la caracterizaci´n de p coo ˆ o ˆ mo N/n donde N es el n´mero de elementos en la muestra con la caracter´ u ıstica de inter´s. X X n Deducimos que σ2 n E[S 2 ] = [σ 2 − ] = σ 2 . para que el estimador resulte insesgado. a VI. Deducimos que X es un estimador insesgado de µX . varianza muestral p p. sea cual sea la distribuci´n o ¯ ¯ de X.90 Mathieu Kessler: M´todos Estad´ e ısticos En la tabla siguiente se presentan algunos par´metros usuales y los estimadores a asociados: θ Estimador ¯ X. As´ e ı. Comprobemos si los estimadores m´s usados son insesgados: a ¯ La media muestral X: hemos visto en el tema 5 que. Tenemos que n ¯ S2 = [X 2 − (X)2 ]. y hemos visto que N ∼ B(n. Propiedades deseables para un estimador Estimador insesgado Una primera propiedad deseable para un estimador es que el centro de la distribuci´n de los valores que puede tomar coincida con el valor del par´metro que o a queremos aproximar. decimos que el estimador es insesgado. Si ´ste es el caso. se cumple que E[X] = µX .2. p). De hecho.2. n−1 ¯ Necesitamos calcular por una parte E[X 2 ] y por otra parte E[(X)2 ]. Deducimos que e E[ˆ] = p np E[N ] = = p. media muestral µ σ 2 S 2 . Por otra parte. Al ser 2 la media muestral de la variable X 2 . Utilizaremos los resultados del tema anterior sobre distribuciones muestrales para deducir propiedades de las distribuciones de los estimadores m´s usados. Proporci´n muestral p: en el tema 5.

o la funci´n de densidad seg´n si X es una variable discreta o continua. Para enfatizar esta o a dependencia. n var(ˆ) = var( p N 1 p(1 − p) ) = 2 var(N ) = .3. se dice que el estimador es consistente.VI. De manera paralela. o VI. θ).2. los estimadores propuestos est´n a basados en estad´ ısticos naturales para los par´metros de inter´s: la media muestral a e para estimar la media. θ).2. los estimadores de los momentos se obtienen a o igualando los p primeros momentos del modelo para la distribuci´n de X con sus o . En o o modelos m´s sofisticados es util disponer de m´todos generales de construcci´n de a ´ e o estimadores razonables.2 Estimaci´n puntual o En este caso tambi´n. nos interesa que la dispersi´n de los valores que o puede tomar sea la m´s peque˜a posible. siendo fX la funci´n puntual de probo o abilidad. escribiremos µk (θ) para denotar el momento de orden k del modelo descrito por x → fX (x.. es a o decir que p es el n´mero de par´metros desconocidos en el modelo. . Para un entero u a k.2. + Xn mk = X k = 1 . definimos el momento muestral de orden k: k X k + . Cabe destacar que la expresi´n de µk depende del par´metro θ. Estimador consistente 91 Si un estimador es insesgado. n Para un par´metro de dimensi´n p. utilizando los resultados del tema 5. una buena propiedad adicional de un estimador insesgado es que su varianza tienda a cero si el n´mero de observaciones n crece u hacia infinito. podemos deducir.1.. Consideremos una v.2.3. es decir que son dos estimadores consistentes. etc. M´todos de construcci´n de estimadores e o En los ejemplos de las secciones anteriores. la proporci´n muestral para estimar la proporci´n. VI. que o consiste en la especificaci´n de x → fX (x. VI. llamamos p su dimensi´n.2. o u El par´metro θ es posiblemente multidimensional. En este caso. . en efecto tanto var(X) como var(ˆ) tienden a cero si n a p tiende a infinito.a. Por consiguiente. n n n ¯ Es f´cil comprobar que. De la misma manera que en el apartado anterior. X y un modelo para la distribuci´n de sus valores. consideramos el momento µk de orden k de la distribuci´n de X: o µk = E[X k ]. que ¯ var(X) = σ2 . Estimadores de momentos Es el m´todo m´s antiguo de construcci´n de estimadores y se debe a Karl e a o Pearson a principios del siglo XX. la proporci´n muestral resulta ser un estimador insese o gado de la proporci´n. para que la precisi´n de la estimaci´n sea a n o o la mayor posible.

. . .2. M´todo de m´xima verosimilitud e a El m´todo de m´xima verosimilitud es sin dudas el m´todo m´s utilizado de e a e a construcci´n de un estimador puntual. .. su media es o igual a la proporci´n muestral de 1. .2. σ 2 ) son o µ1 (θ) = µ µ2 (θ) = E[X 2 ] = V ar(X) + (E[X])2 = σ 2 + µ2 . puesto que las v. µk (θ) = X k . . . Deducimos que los estimadores de los momentos son soluci´n del sistema: o µ = X σ + µ2 = X 2 . xn . o a). .a n-dimensional (X1 . = . Xn son independientes. θ). ˆ ˆ σ 2 = X 2 − (X)2 . . σ 2 ).. θ) = fX1 (x1 . Modelo de Bernoulli: X ∼ Bernoulli(p). Necesitamos igualar los dos primeros momentos con sus equivalentes muestrales.a X1 . con distribuci´n especificada por x → fX (x. El estimador de momentos de la proporci´n o o p en un modelo de Bernoulli es la proporci´n muestral. θ) . . donde θ = (µ. obtenemos ¯ p = X. fXn (xn . .3. .Xn (x1 . En esta ultima igualdad. f rep´ resenta o bien la funci´n puntual de probabilidad o bien la funci´n de densidad. .a. 2 es decir µ = X. ˆ puesto que X1 . Calculemos para ilustrar el m´todo los estimadores de momentos en los modelos e siguientes: X ∼ N (µ. . . de dimensi´n p. . Repetimos el experimento n veces a o y consideramos la muestra aleatoria simple de la distribuci´n de X: (X1 . . o VI.. Xn ) est´ descrita a trav´s de la o a e relaci´n o fX1 .92 equivalentes muestrales: Mathieu Kessler: M´todos Estad´ e ısticos µ1 (θ) = X.. . Xn s´lo pueden tomar el valor 1 o el valor 0. donde desconocemos p. . . . o La distribuci´n de la v. S´lo necesio tamos igualar el primer momento con su equivalente muestral.. Verosimilitud Sea X una v. o o . Xn ). o donde θ es el vector de par´metros. σ 2 ). µ2 (θ) = X 2 . . θ). . . Los dos primeros momentos de la distribuci´n N (µ. . .. .

Los candidatos a alcanzar el m´ximo se obtienen derivando la verosimilitud. . . 0.a. que denotamos por (x1 . . xn ).. xn .. consideramos la funci´n de θ: o Ln : Rp → R θ → Ln (θ) = fX1 .2 Dados (x1 . 1. .Xn (x1 . . X5 = 1. Consideremos la tirada de una moneda y asociamos la v. a o 2 ). lo que implica que p es efectivamente un m´ximo global. θ). Tiramos 10 veces la moneda y obtenemos la secuencia de valores siguiente: 0. X9 = 1. Ejemplo. la cantidad P(X1 = 0. ˆ θ = argmax Ln (θ). . Observamos x1 . X4 = 0. . o a Ejemplo. 1. 1. . 1. ˆ a Deducimos que el estimador de m´xima verosimilitud de p es la proporci´n muestral. xn ). .. . . . σ o 1 n la muestra aleatoria simple (X1 . 1. su logaritmo (llamado log-verosimilitud): a d log Ln (p) = (n − dp xi ) − 1 1−p + xi = 0. . los valores concretos observados. Estimador de m´xima verosimilitud a Definici´n VI. p Despejamos p y encontramos p = ( xi )/n. . 1. . . xn ) los valores observados de una muestra. . . La verosimilitud asocia a cada valor posible de p. cono sideramos la verosimilitud θ → Ln (θ). . o de a manera equivalente y m´s sencilla. . X que valga 1 si sale cara y 0 si sale cruz. 1. 0. 0.VI. Puesto que si x = 0. 0. X10 = 1). . la verosimilitud es Ln (p) = px1 · (1 − p)(1−x1 ) . σ ) = i=1 2 √ 1 2πσ 2 e − (xi −µ)2 2σ 2 1 = e− (2πσ 2 )n/2 n (x −µ)2 i=1 i 2σ 2 . 1. . X6 = 1.2 Estimaci´n puntual o Para un valor concreto de (X1 . . X2 = 0. . . pxn · (1 − p)(1−xn ) = p xi (1 − p)n− xi . . . . La verosimilitud se obtiene a partir de la expresi´n de la densidad de X: o n Ln (µ. 1 es la m´s alta. X3 = 1. 1. . θ La maximizaci´n se realiza sobre todos los valores admisibles para el par´metro θ. . 1. . Xn ) evaluada en (x1 . x una realizaci´n de Ejemplo. 1. . . Xn ). . Comprobamos adem´s que la derivada ˆ a segunda de Ln es negativa. . Se representa la gr´fica de la funci´n Ln (p) en la Figura VI. Consideramos X ∼ Bernoulli(p).1 a o La verosimilitud nos indica para qu´ valor de p. .2. 93 La funci´n Ln asocia a cada valor de θ el valor de la densidad (o de la funci´n o o puntual de probabilidad) de las observaciones (X1 . . Xn ). . Consideramos X ∼ N (µ. . a b).. ˆ El estimador de m´xima verosimilitud θ de θ es cualquier valor de θ que maximiza a θ → Ln (θ). . Xn ). la probabilidad de haber obsere vado la secuencia 0. 1. . . 1. 1. fX (x) = P(X = x) = px · (1 − p)(1−x) . X8 = 1. Observamos x . . xn una realizaci´n o de la muestra aleatoria simple (X1 . Utilizamos un modelo de Bernoulli de par´metro p entre a 0 y 1. Deducimos que Ln (p) = (1 − p)(1 − p)p(1 − p)(1 − p)6 = (1 − p)3 · p7 . X7 = 1.

94 Mathieu Kessler: M´todos Estad´ e ısticos Figura VI. 2 2σ Para encontrar el m´ximo. σ2 = n i=1 (xi − µ)2 ˆ n n = n 2 s . n−1 . y encontramos que los dos candidatos a m´ximo a .1: Verosimilitud correspondiente al ejemplo de 10 tiradas de una moneda. La log-verosimilitud es n (xi − µ)2 n log Ln (µ. calculamos las derivadas parciales de log Ln respeto de a 2: µyσ n 2 ∂ i=1 (xi − µ) log Ln (θ) = ∂µ σ2 n (xi − µ)2 ∂ n 1 log Ln (θ) = − + i=1 2 2 . σ 2 ) = − log(2πσ 2 ) − i=1 2 . ∂σ 2 2 σ2 2(σ ) Resolvemos son ∂ ∂µ Ln =0y µ= ˆ ∂ L ∂σ 2 n n i=1 xi = 0.

Suponemos que conocemos el valor de La construcci´n del intervalo de confianza para la media µ se realiza siguiendo o los siguientes pasos.01. y 0. σ2. X cuya distribuci´n o es Normal con una desviaci´n t´ o ıpica igual a 2 unidades. sabemos que la distribuci´n de X o propiedad de la distribuci´n Normal. La cantidad u 1 − α expresada en porcentaje se llama nivel de confianza. podemos fijarnos en la a expresi´n de la log-verosimilitud: o n log Ln (µ. para el 95 % de las muestras. Sea cual sea el valor de σ 2 . α un n´mero entre 0 y 1.3. Por la ver V.3. El m´ximo de (µ. Es un ejemplo en ´l que el m´todo de m´xima e e a n verosimilitud proporciona un estimador sesgado. . X + 2] captura el valor del par´metro µ. 1). VI. el intervalo aleatorio [X − 2. la funci´n µ → log Ln (µ. para ¯ decir que µ se encuentra en el intervalo [X ¯ ¯ el 95 % de las muestras. Dicho de otra manera. Idea b´sica a Supongamos que queremos estimar la media µ de una v. es decir cuando µ = ( i=1 xi )/n. σ 2 ) alcanza su m´ximo en σ 2 = i=1 (xi −ˆ ) Es f´cil comprobar que σ a a = n µ n n 2 n−1 s . a VI.1. se encuentra. es ¯ − 2. σ 2 ) = − log(2πσ 2 ) − 2 n i=1 (xi − 2σ 2 95 µ)2 .95 % y 99 % respectivamente.3. deducimos que el 95 % de las muestras o ¯ proporcionan un valor de X que se encuentra a menos de 2 unidades de la media µ. Intervalo de confianza para la media µ de una distribuci´n o Normal con varianza conocida Construcci´n o Consideramos la variable X ∼ N (µ. En un apartado anterior hemos visto como la varianza muestral s2 es un estimador insesgado. Los estimadores de m´xima verosimilitud de µ y σ 2 son por lo tanto la media a n (x −ˆ)2 µ n muestral y la llamada varianza muestral sesgada σ 2 = i=1 n i = n−1 s2 . σ 2 /n) es decir N (µ. σ 2 ) → a i=1 (xi − µ) es m´ 2 ) corresponder´ por lo tanto al m´ximo de la funci´n σ 2 → log L (ˆ . ver b).VI. X + 2]. ¿donde est´ µ? Por la misma o e a ¯ a ¯ regla. es decir X ∼ N (µ. Para ¯ ello.1.2.a. e a VI.2. por lo tanto E[σ 2 ] = n−1 σ 2 . extraigo una muestra de tama˜o 4. a menos de 2 unidades de X.1.2. VI. 0. lo que corresponde con a niveles de confianza del 90 % .05. 4).3 Estimaci´n por intervalos o Para comprobar que son efectivamente m´ximos globales. σ 2 ).3. Por el tema 5. σ 2 ). σ a a o n µ n µ 2 2 → log L (ˆ . log Ln (µ. n ¯ es N (µ. calcularemos e un intervalo en ´l que pensamos que se encuentra el par´metro. σ 2 ) alcanza su m´ximo cuando o a n n ınimo. Para ello. Estimaci´n por intervalos o No queremos limitarnos a dar un valor para aproximar un par´metro sino propora cionar tambi´n una medida del error que pensamos cometer. Invertamos ahora la situaci´n: s´ donde est´ X. Los valores m´s utilizados de α son 0. Nos fijamos el llamado “nivel de riesgo”. y estimo µ por el valor de X.1.3.

95. 1). Se escribe tambi´n de otra manera equivalente: e √ ¯ µ = X ± z1−α/2 σ/ n. σ/ n Para 0 ≤ u ≤ 1.975 y 0.96 Mathieu Kessler: M´todos Estad´ e ısticos ¯ Escogemos el estad´ ıstico X para estimar µ. En particular usaremos de a manera repetida los cuantiles siguientes: z0. los valores 0.995 en la columna de las probabilidades φ(t) y apuntar los valores correspondientes de t.995 = 2. Su distribuci´n en su forma tipifio cada es ¯ X −µ √ ∼ N (0.96 y z0. √ el t´rmino z1−α/2 σ/ n se llama t´rmino de error. es decir el valor que cumple P(Z ≤ zu ) = u.64. Encontramos z0. tal como viene ilustrado en la figura siguiente a ¯ Deducimos P(−z1−α/2 ≤ ¯ X −µ √ ≤ z1−α/2 ) = 1 − α. X−µ Dibujo en la densidad del estad´ ıstico σ/√n . utilizamos la notaci´n zu para denotar el cuantil u de la o distribuci´n Normal est´ndar. σ/ n Despejamos µ en las desigualdades √ √ ¯ P(−z1−α/2 σ/ n ≤ X − µ ≤ z1−α/2 σ/ n) √ √ ¯ ¯ ⇔ P(−X − z1−α/2 σ/ n ≤ −µ ≤ −X + z1−α/2 σ/ n) √ √ ¯ ¯ ⇔ P(X + z1−α/2 σ/ n ≥ µ ≥ X − z1−α/2 σ/ n) √ √ ¯ ¯ ⇔ P(X − z1−α/2 σ/ n ≤ µ ≤ X + z1−α/2 σ/ n) El intervalo de confianza al 100(1 − α) % para µ es √ √ ¯ ¯ µ ∈ [X − z1−α/2 σ/ n. X + z1−α/2 σ/ n]. el valor que deja a su izquierda un ´rea igual a u a debajo de la curva de la densidad Normal est´ndar.95 = 1. z0. una regi´n central que represente o el 100(1 − α) % del ´rea total. Para conocer sus valores. o a o dicho de otra manera.56.995 . e e = 1−α = 1−α = 1−α = 1−α .95 .975 y z0. a 0. z0. podemos buscar en la tabla de la Normal est´ndar.975 = 1.

Por experiencia. e ¯ Tambi´n tengo una probabilidad α de que.3. he simulado 20 veces el proceso de extraer una o muestra de tama˜o 4 de una distribuci´n X ∼ N (µX . Adem´s una l´ a ınea horizontal representa el valor de µ que se pretende estimar. tengo una probabilidad igual a 1 − α de que el intervalo que calcular´ efectivamente capture el valor µ que busco. al afirmar que µ se encuentra en [X − e √ ¯ √ z1−α/2 σ/ n. esta probabilidad α. pero hay un intervalo. X + z1−α/2 σ/ n] es un intervalo aleatorio.05. sabemos que es razonable modelizar la distribua ci´n de los valores de la longitud de los art´ o ıculos producidos por una distribuci´n o Normal con media µ y desviaci´n t´ o ıpica igual a 0. La gran mayor´ de los intervalos capturan el ıa valor correcto de µ. es decir las que proporcionan intervalos equivocados. − 4 − q − − Intervalos de confianza − q − − − − q − − − q q q q q q q − q − − − − − 3 − − − − q − q 2 q q q q q − − q q − − − − − 1 − − − − − − − − − − 5 10 15 20 0 Número de la muestra Figura VI. y esta muestra forma parte del 5 % de o las muestras “malas”. 19.3. por ejemplo α = 0. Supongamos que los datos que se obtienen son los siguientes: 20.05. He representado en la n o Figura VI. La media que se busca estimar es µ = 2. 1). Por su construcci´n. n Para ilustrar esta interpretaci´n. Para estimar µ extraemos una muestra de 5 art´ ıculos y construimos un intervalo de confianza al 90 %. Interpretaci´n o 97 √ ¯ √ ¯ El intervalo [X − z1−α/2 σ/ n. Sin embargo. Es decir que.3 Estimaci´n por intervalos o VI. X + z1−α/2 σ/ n]. 20. puesto que sus extremos dependen de la muestra escogida.VI.2.2. Ejemplo Supongamos que queremos estimar la longitud media de un art´ ıculo producido por una m´quina. 19.01. me equivoque. .05.2.99. en este caso µ = 2. el correspondiente a la muestra n´mero u 13 que no lo hace: este intervalo es err´neo.2: Los intervalos de confianza al 95 % correspondientes a 20 muestras de tama˜o 4.2 en el eje Ox el n´mero de la muestra y en el eje Oy el intervalo de u confianza asociado.95. el riesgo de equivocarme.1. 20. al extraer una muestra. n VI. sabemos o que este intervalo aleatorio tiene una probabilidad de 100(1 − α) % de capturar el valor de µ. se fija en general bastante peque˜o.3.

S/√n es una t de Student con n − 1 grados de libertad.. o de forma equivalente µ = 20.06].02 − 1. X es Normal.05 0. a b) Factores que afectan a la precisi´n de la estimaci´n.95 = 1.98.. n a cuanto menor sea σ.05 [20. se suele considerar o o en pr´ctica que n ≥ 30 es suficiente para que los intervalos construidos sean a aproximadamente v´lidos. el margen de error es ±z1. mayor precisi´n en la estimaci´n. 20.02 + 1. ver V. es f´cil comprobar que X = 20. Sin embargo.1. X + z1−α/2 σ/ n]. fijamos α = 0. 20. En general.64 √ . ¯ X −µ √ ∼ N (0. es decir que no o a podemos garantizar que la confianza especificada sea cierta. σ/ n Si la distribuci´n de X no es Normal. o o cuanto mayor sea la confianza. Comentarios importantes a) La construcci´n del intervalo de confianza est´ basada en la hip´tesis de que la o a o distribuci´n de la v.a. no hay m´s remedio que proporcionar un intervalo grande.64 √ ]. el intervalo no es v´lido. depende mucho de lo alejado que est´ la disa tribuci´n de X de una distribuci´n Normal.04.α/2 σ/ n.64. por otra parte. 5 5 es decir µ ∈ [19. 1).1. Concluimos que el intervalo buscado ser´ a 0. VI. La distribuci´n del estad´ o ıstico que resulta ¯ X−µ de sustituir σ por S. a ¿A partir de cuantas observaciones consideramos una muestra como grande? No hay respuesta universal. Podemos repetir los pasos de construcci´n del o ¯ X−µ intervalo de confianza para µ bas´ndonos en el estad´ a ıstico S/√n : .02 ± 0. podemos recurrir al Teorema Central del L´ ımite. al haber escogido 90 % de a confianza.02. en el caso en que la muestra es grande. peor ser´ la precisi´n de la estimaci´n: si a o o queremos garantizar con gran confianza que el intervalo proporcionado captura µ.. la desviaci´n t´ o ıpica muestral. es decir que m´s a a o a peque˜o ser´ el intervalo de confianza. y sabemos que aproximadamente. m´s precisa ser´ la estimaci´n. 1). σ/ n lo que posibilita que los intervalos sean aproximadamente v´lidos: la confianza a especificada no ser´ exacta pero casi.3. puesto que utilizamos o ¯ X −µ √ ∼ N (0. a c) La hip´tesis de que σ es conocida no es realista: en general tambi´n hay que o e estimarla a partir de la muestra. Necesitamos ¯ ¯ X. o o √ Recordar que en la estimaci´n por un intervalo..98 Mathieu Kessler: M´todos Estad´ e ısticos √ ¯ √ ¯ El intervalo de confianza es µ ∈ [X − z1−α/2 σ/ n. Deducimos de la tabla Normal que z1−α/2 = z0.3. o Deducimos en particular que cuanto mayor sea n.3.

Determinaci´n del tama˜ o muestral o n Planteamiento Si estoy en condiciones de dise˜ar el experimento que quiero realizar para estimar n la media µ. tal como viene ilustrado en la figura siguiente a Deducimos P(−tn−1. El intervalo de confianza al 100(1 − α) % para µ es √ √ ¯ ¯ µ ∈ [X − tn−1. Despejamos µ en las desigualdades y obtenemos √ √ ¯ ¯ P(X − tn−1.1−α/2 S/ n.VI.3 Estimaci´n por intervalos o Nos fijamos el “nivel de riesgo”. √ el t´rmino tn−1. VI. α.1.1−α/2 ) = 1 − α. Se escribe tambi´n e √ ¯ µ = X ± tn−1.1−α/2 S/ n ≤ µ ≤ X + tn−1.4. S/ n donde hemos utilizado la notaci´n tn−1.1−α/2 S/ n].3. e e VI.1−α/2 S/ n.1−α/2 ≤ ¯ X −µ √ ≤ tn−1.1−α/2 S/ n) = 1 − α. es decir el punto que deja un ´rea igual o a a 1 − α/2 a su izquierda. Escogemos el estad´ ıstico T = ¯ X −µ √ ∼ tn−1 S/ n 99 Dibujo en la densidad del estad´ ıstico T una regi´n central que represente o el 100(1−α) % del ´rea total.1−α/2 S/ n es el t´rmino de error.1−α/2 para denotar el cuantil 1 − o α/2 de la distribuci´n tn−1 . puedo intentar decidir del n´mero de observaciones en la muestra que u . Los valores de los cuantiles m´s usados de la a distribuci´n t est´n recogidos en una tabla en el ap´ndice de este cap´ o a e ıtulo.3.4. X + tn−1.

67.2.96 · 0.5.3 2 10.3. a a VI.100 Mathieu Kessler: M´todos Estad´ e ısticos ser´n necesarias para garantizar. que el margen de error a sea menor que una cantidad prefijada.5.3. n es decir que n≥ 1. y α = 0. sabiendo que σ = 0. n Es f´cil obtener n despej´ndolo de la desigualdad.3. con una confianza dada.96 √ ≤ 0.4.05. a . Ejemplo La medici´n de la conductividad de un material sigue una distribuci´n que modo o elizamos por una Normal con desviaci´n t´ o ıpica σ = 0. Habr´ por lo tanto que realizar 11 mediciones.5 1. Quiero construir un intervalo de confianza al 95 % para el valor promedio proporcionado de la conductividad pero quiero que el error cometido sea menor de 0. que me fijo una cantidad max.3. Obtengo 0. Es decir. y me pregunto cu´l deber´ de ser el valor de n para que a a σ z1−α/2 √ ≤ max. ¿cu´ntas veces deber´ repetir la a e medici´n? o √ Busco n tal que z1−α/2 σ/ n ≤ 0.5 0.

256 0.99 31.032 3.771 2.842 tk.856 0.126 0.0.0.263 0.531 0.617 0.977 2.132 0.015 1.376 1.534 0.681 2.553 0.624 2.289 0.53 0.314 2.753 1.866 0.078 1.576 tk.257 0.542 0.851 0.706 4.531 0.128 0.5 2.873 0.831 2.289 1.127 0.228 2.16 2.734 1.921 2.725 1.845 0.718 2.671 1.06 2.746 1.257 0.898 2.0.797 2.492 2.833 1.33 1.314 1.87 0.684 1.042 2.499 3.128 0.447 2.126 .782 1.943 1.697 1.854 0.318 1.257 0.859 0.717 1.256 0.995 63.861 2.699 1.13 0.657 9.896 0.858 0.127 0.271 0.539 2.052 2.256 0.764 2.257 0.262 0.093 2.74 1.856 0.101 2.372 1.53 0.701 1.53 0.048 2.704 2.08 2.12 2.559 0.569 0.201 2.303 3.60 0.756 2.345 1.706 1.508 2.256 0.341 1.128 0.457 2.259 0.365 2.127 0.0.39 2.415 1.467 2.86 0.80 1.143 2.13 0.258 0.277 0.137 0.998 2.064 2.50 0.868 0.127 0.549 0.145 2.537 0.397 1.0.256 0.142 0.158 0.479 2.532 0.978 0.841 4.848 0.863 0.876 0.531 0.31 1.169 3.865 0.128 0.524 tk.127 0.895 1.86 1.069 2.26 0.26 0.796 1.535 0.862 0.473 2.879 0.552 2.131 2.975 12.462 2.532 0.538 0.254 0.3 Estimaci´n por intervalos o 101 Cuantiles de la distribuci´n t de Student o Valores de los cuantiles de la distribuci´n t de Student con k grados de libertad: o para un 0 ≤ p ≤ 1.127 0.256 0.729 1.045 2.VI.925 5.134 0.282 tk.383 1.056 2.583 2.857 0.44 1.812 1.533 1.333 1.306 2.532 0.363 1.711 1.896 2.129 0.658 1.325 1.128 0.0.355 3.262 2.061 0.126 0.878 2.127 0.546 0.179 2.25 3.98 1.127 0.131 0.055 3.92 2.313 1.65 2.776 2.423 2.747 3.66 2.254 0.086 2.90 3.358 2.528 2.35 1.253 tk.337 1.886 1.763 2.265 0.256 0.182 2.323 1. k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 >120 tk.638 1.476 1.645 tk.703 1.127 0.855 0.965 4.787 2.326 tk.567 2.316 1.126 0.858 0.947 2.761 1.529 0.534 0.70 0.321 1.92 0.714 1.821 2.721 1.129 0.129 0.883 0.0.855 0.819 2.584 0.365 3.533 0.074 2.127 0.p ) = p.325 0.861 0.906 0.807 2.258 0.617 2.106 3.128 0.315 1.261 0.533 0.353 2.543 0.845 2.021 2 1.0.604 4.127 0. el valor tk.485 2.256 0.727 0.328 1.319 1.256 0.303 1.708 1.536 0.127 0.127 0.821 6.779 2.854 0.541 3.602 2.95 6.259 0.539 0.11 2.526 0.257 0.132 2.356 1.0.311 1.267 0.75 2.258 0.255 0.889 0.707 3.771 1.531 0.960 tk.527 0.941 0.54 0.p satisface P(t ≤ tk.518 2.571 2.012 2.296 1.

.

mide la concentraci´n de CaCO3 en cada o caso y calcula su media. Si llamamos X la concentraci´n de CaCO3 medida en un eno o vase. a ¯ Para decidir si µ = 55 o µ = 55. aproximar el valor o de un par´metro bas´ndonos en las observaciones de una muestra. Para ilustrar los conceptos relacionados con los contrastes de hip´tesis. retomamos o ¯ el ejemplo visto al final del tema 5 cuando describimos la gr´fica de control X: una a empresa controla la concentraci´n de CaCO3 en su producto. El valor ideal de esta o concentraci´n es 55. a . Hay situaciones a a en las que m´s que conocer el valor concreto del par´metro. Formularemos una hip´tesis sobre el valor del par´metro y o e o a la contrastaremos con los datos de la muestra para comprobar si ´stos la apoyan o e la desmienten. En el tema 5. decide que µ = 55 y para la producci´n para ajustar el proceso de ´ X o o fabricaci´n. queremos tomar una a a decisi´n acerca de ´ste. sabemos que es razonable modelizar la distribuci´n de X por una distribuci´n o o Normal de media µ y desviaci´n t´ o ıpica 8. vimos c´mo la empresa o ¯ puede realizar un control de la calidad de su producci´n gracias a una gr´fica X: o a cada hora toma una muestra de 4 envases. hemos aprendido c´mo estimar. la empresa se fija una regla: si X > 60. es decir si µ = 55. o Este ejemplo contiene todos los ingredientes del contraste de hip´tesis y pasamos o a describirlos en un contexto m´s general. Bas´ndose en este valor decide si el proceso de producci´n a o est´ en condiciones de correcto funcionamiento. Introducci´n o En el tema anterior.6.TEMA VII Introducci´n a los contrastes de hip´tesis o o VII.1.4 ¯ < 49. es decir.

La formulaci´n de un contraste de hip´tesis pasa siempre o o por el planteamiento de dos hip´tesis: o H0 : µ = 55. H1 : µ > 55. .2. considerando la igualdad en la hip´tesis nula.2. H1 : µ = 55. . mientras que si queremos decidir si µ es menor que 55. Xn ). y. o o pero seguiremos. es decir en una funci´n de las o observaciones. Error de tipo I Podemos afirmar que H0 es falsa.104 Mathieu Kessler: M´todos Estad´ e ısticos VII. diremos que los datos no presentan argumentos en contra de la hip´tesis nula. aceptaremos H0 . Tenemos por lo tanto α = PH0 (Rechazar H0 ) = PH0 (T (X1 . una vez fijada una regla de decisi´n. Evaluaci´n del error o Al tomar la decisi´n acerca de la veracidad de H0 . Xn ) = X.3.6} ∪ {x > 60. o En cambio si el valor de T (X1 . Regla de decisi´n o Bas´ndonos en un estad´ a ıstico T (X1 . cuando en realidad es cierta. plantearemos el contraste: H0 : µ = 55. Planteamiento general Hip´tesis estad´ o ıstica Una hip´tesis estad´ o ıstica es una proposici´n acerca del valor de un par´metro o a en el modelo considerado. si este valor pertenece a R. entonces cambiaremos la formulaci´n de la hip´tesis alternativa. Hip´tesis nula o Hip´tesis alternativa o Habr´ casos en los que nos interesar´ decidir si el par´metro es mayor (o menor) a a a que un valor dado. . .2. . Por o ejemplo si queremos contrastar si µ es mayor que 55. Xn ). . determinaremos una regi´n de rechazo R.2.3. . H1 : µ < 55. o En el ejemplo de los monitores de ordenador. . . VII. . . . el primero se llama contraste bilateral. . puesto que la hip´tesis alternativa comprende tanto valores mayores como valores menores que o 55. VII. rechazaremos H0 . Xn ) no pertenece a R. para simplificar. Este tipo de error se llama e error de tipo I. o rechazo es R = {x < 49.2. Xn ) ∈ R)).2. Para mi muestra calcular´ o e el valor concreto de T (X1 . .4}.1. De los tres contrastes. . . (la letra griega “alfa”). plantearemos H0 : µ = 55. . . . . ´ VII. es decir que los datos nos llevan a rechazar H0 cuando ´sta es cierta. mientras que los dos ultimos se llaman contrastes unilaterales. es decir afirmaremos que los datos apoyan la hip´tesis alternativa H1 . podemos cometer dos tipos o de error: VII.1. . la probabilidad de cometerlo o se denota por α. la regla de decisi´n que se hab´ o ıa ¯ la regi´n de fijado la empresa es: bas´ndose en el estad´ a ıstico T (X1 .

Tenemos β = Pµ=65 (49. .6 − 65 X − 65 60. admitimos H0 .2. .6) ∪ (X > 60.01 o 0. . . . . En el ejemplo de la concentraci´n de CaCO3. podemos calcular la probabilidad o de error de tipo I: ¯ ¯ α = PH0 (Rechazar H0 ) = Pµ=55 ((X < 49. Determinamos la regi´n de rechazo R de tal manera que la probabilidad de o rechazar H0 cuando ´sta es cierta coincida con el valor prefijado de α. Si este valor cae en la regi´n R. 99 % ´ o a o 90 % de confianza respectivamente). la probabilidad de cometer un error de tipo o II se denota por β ( la letra griega “beta”). Una vez fijada la regla de decisi´n. Para nuestra muestra. es decir si µ = 55.13. (95 %. Describimos su distribuci´n muestral bajo la hip´tea o o sis de que H0 es cierta. rechazamos H0 y afirmamos o H1 .4. Escogemos el estad´ ıstico de prueba T (X1 . .4 − 65 ≤ ≤ ) 4 4 4 φ(−2.3.2 Planteamiento general donde con la notaci´n PH0 . El c´lculo de β s´lo se puede hacer si especificamos un valor concreto de µ en la a o hip´tesis alternativa.3) − φ(−7. Xn ) basado generalmente en un estimador del par´metro.1.7) 0. Xn ) ∈ R). Para el ejemplo de la concentraci´n de CaCO3. Tenemos / β = PH1 (Aceptar H0 ) = PH1 (T (X1 . . Tipificamos X para ¯ ¯ 60. . Deducimos que α = 0.05. Xn ). Al igual que para los contrastes de hip´tesis. VII. VII. α. mientras que si no cae en la regi´n R. es decir e PH0 (T (X1 . . .4). . . . nos referimos a la probabilidad suponiendo que H0 es o cierta.2. o . si la a m´quina est´ bien ajustada. (4)2 ). y sabemos que X calcular β: β = Pµ=65 ( ¯ 49. tendremos que o Formular las hip´tesis H0 y H1 .VII.6 ≤ X ≤ ¯ ∼ N (µ. Error de tipo II 105 El segundo tipo de error se comete cuando admitimos H0 cuando en realidad es falsa.003. los l´ ımites de control en la gr´fica X se fijaron para que. . Procedimiento Para llevar a cabo un contraste de hip´tesis. los valores de α m´s comunes son 0. podemos por o o ¯ ejemplo calcular β cuando en realidad µ = 65. . 0.4)). Xn ) ∈ R) = α. σ 2 /n) es decir X ∼ N (µ. precisamente. calculamos el valor concreto del estad´ ıstico de prueba T (X1 .2. o Fijarnos la probabilidad de error de tipo I. s´lo el 3 por 1000 de las muestras a a o ¯ deben llevar a un valor de X fuera de los l´ ımites. ¯ Pero.

o Consideramos una variable X. n o VII. .3. Hip´tesis bilateral o Para construir el contraste para µ en el caso en que formulamos una hip´tesis alo ternativa bilateral.2. Por consiguiente fijamos la regi´n de rechazo de o la manera siguiente: .1. sabemos por el tema 5 o que ¯ X − µ0 √ ∼ N (0. Queremos llevar a cabo un contraste sobre µ. Z0 = σ/ n Podemos ahora especificar la regi´n de rechazo. H1 : µ = µ0 .4: Formulamos las hip´tesis: o H0 : µ = µ0 . En el e ejemplo de los monitores. seguimos los pasos descritos en la secci´n o VII. µ0 vale 55. 1) si H0 es cierto. suponemos que su distribuci´n ha sido modelizada o 2 . Suponemos adem´s que conocemos el por una Normal con media µ y varianza σ a valor de la varianza σ 2 . Nos fijamos el valor de α.106 Mathieu Kessler: M´todos Estad´ e ısticos VII. es decir que corresponder´ a valores grandes a positivos o negativos de Z0 . Contraste de hip´tesis para la media µ de una o distribuci´n Normal con varianza conocida. La probabilidad de que el o estad´ ıstico de prueba Z0 caiga en R cuando H0 es cierta debe coincidir con el valor de α que nos hemos fijado. Adem´s queremos que Z0 caiga en R cuando a µ es distinto de µ0 ( H1 cierta).3. . para ello. . donde µ0 representa el valor concreto con ´l que queremos comparar µ. extraeremos una muestra de tama˜o n de la distribuci´n de X: X1 . Xn . ¯ El estad´ ıstico de prueba es la versi´n tipificada de X.2. . ver el apartado VII.1.

Si la hip´tesis alternativa es H1 : µ < µ0 . la regi´n de rechazo ser´ o o a es decir que se rechazar´ H0 si el valor del estad´ a ıstico de prueba Z0 es mayor de z1−α/2 . la regi´n de rechazo ser´ o o a es decir que se rechazar´ H0 si el valor del estad´ a ıstico de prueba Z0 es menor de −z1−α/2 .2. rechazaremos H0 y afirmaremos H1 . Si pertenece a R. los pasos que seguimos o son los mismos que en el apartado anterior con la salvedad de la determinaci´n de o R: Si la hip´tesis alternativa es H1 : µ > µ0 . . 107 La regi´n R est´ formada por los valores menores que −z1−α/2 o mayores que o a z1−α/2 .VII.3 Contraste de hip´tesis para la media µ de una distribuci´n Normal con o o varianza conocida. Nos queda calcular. admitiremos H1 . VII. para nuestra muestra. el valor concreto del estad´ ıstico de prueba Z0 . Hip´tesis unilateral o En el caso en que hemos planteado una hip´tesis unilateral.3. mientras que si no pertenece a R.

3. es X=”longitud de la pieza producida”. En condiciones de funcionamiento correcto.3. Por experiencia acerca del proceso. a Para mi muestra. ¯ √0 El estad´ ıstico de prueba es Z0 = X−µn .3. que sigue una distribuci´n Normal eso σ/ t´ndar si H0 es cierta. Planteamos las hip´tesis o H0 : µ = 50. a VII. El experimento aleatorio es “realizar la medici´n de la se˜al”.108 Mathieu Kessler: M´todos Estad´ e ısticos VII. .3. e o se cuantifica su desviaci´n t´ o ıpica en σ = 1.96.96 y −z1−α/2 = o 1. H1 : µ = 50. Planteamos las hip´tesis o H0 : µ = 10000. Para comprobar la calidad se decide tomar una muestra de 10 art´ ıculos que resultan tener una longitud ¯ media X igual a 51mm. ¿qu´ podemos decir acerca del a e funcionamiento del proceso? La variable que introducimos asociada al experimento “producir una pieza”.05. Para o n comprobarlo pienso realizar 5 mediciones de una se˜al simple cuyo valor s´ es igual n e a 10000. pero la regi´n de rechazo o est´ constituida por los valores mayores que z1−α = z0.3. a Las fronteras de la regi´n de rechazo son −z1−α/2 = −z0. el valor de Z0 es Z0 = 10300 − 10000 √ 500/ 5 1. rechazamos H0 y afirmamos al 95 % de confianza que el proceso est´ desajustado.162.975 = −1.1. y la v. que es el nivel est´ndar de confianza. Modelizamos X por una distribuci´n N (µ. si he encontrado un valor promedio de 10300 para las 5 mediciones de la muestra. es a decir que nos fijamos α = 0. Bas´ndonos en esta muestra. llevar a cabo el contraste para comprobar si el valor central de los valores medidos es superior a 10000. H1 : µ > 10000. VII. Puesto que Z0 pertenece a R. se espera que la longitud media de los art´ ıculos sea 50mm.95 = 1. El estad´ ıstico es Z0 .3.a X=”valor o n proporcionado por el aparato”. σ 2 ) con o σ = 500.2. Bas´ndonos en la muestra. la longitud de los art´ o ıculos producidos se modeliza a trav´s de una distribuci´n Normal con media µ. Considerando que la distribuci´n de los valores medidos se puede modo elizar por una Normal con desviaci´n t´ o ıpica igual a 500. Hip´tesis alternativa unilateral o Creo que un aparato de medici´n de una se˜al sobrevalora su valor real. calculamos el valor de Z0 : a Z0 = 51 − 50 √ 1/ 10 3. Decidimos trabajar al 95 % de confianza. Ejemplos Hip´tesis alternativa bilateral o En un proceso de producci´n.64.34. al igual que en el ejemplo anterior.

a a a Esto corresponde a un hecho general: si rechazamos H0 a un nivel de confianza dado.162.995 = 2. las fronteras o de la regi´n de rechazo al 99 % de confianza son −z1−α/2 = −z0.4. o ¿Cu´l habr´ sido nuestra decisi´n si. tendremos que considerar la regi´n de rechazo que haga o de frontera entre las dos decisiones: rechazar H0 y aceptar H0 . Si en la gr´fica de a la distribuci´n del estad´ o ıstico Z0 . ´sta contiene el 5 % o e del ´rea total. puesto que Z0 toma el valor 3.4.3.3. Planteado un contraste.162 en la gr´fica siguiente: e a . y para un valor concreto del estad´ ıstico de prueba.. El valor de α correspondiente a n a esta regi´n R es α0 . podemos preguntarnos cu´l habr´ sido la confianza m´xima con la que rechazar´ a ıa a ıamos H0 para estos datos. tambi´n rechazamos H0 al 99 % de e confianza. es decir el complementario de R. empezamos primero por se˜alar el valor de z0 n obtenido para la muestra. podemos calcular el valor m´s peque˜o de a n α que nos lleve a rechazar H0 .1 El valor de α m´s peque˜o que nos lleve a rechazar H0 se llama o a n el p-valor de la prueba. hubieramos escogido 90 % de confianza? Por la forma en la que hemos construido la regi´n de rechazo. Concepto de p-valor En el ejemplo VII. esta regi´n de rechazo se obtendr´ al hacer coincidir una o a de sus fronteras con z0 : para una regi´n de rechazo m´s grande (es decir un α m´s o a a grande) se rechazar´ H0 mientras que para una regi´n de rechazo m´s peque˜a (es a o a n decir un α m´s peque˜o) tendremos que aceptar H0 .3. En nuestro ejemplo VII. Definici´n VII. e En cambio.56 y o z0.162. 109 VII. contiene el a o o 95 % del ´rea total. y para saber si seguimos rechazando H0 neceo sitamos comprobar si el valor de nuestro estad´ ıstico de prueba sigue encontr´ndose a dentro de la nueva regi´n de rechazo. o Lo ilustramos para el ejemplo en ´l que z0 = 3.. Hemos encontrado que el valor del estad´ ıstico de prueba era z0 = 3. Deducimos por lo tanto que la regi´n de rechazo que corresponde a o al 90 % de confianza es m´s grande que la regi´n de rechazo que corresponde la 95 % a o de confianza. y la regi´n de aceptaci´n. por lo que no podemos rechazar H0 : los datos no contradicen H0 . y hemos rechazado al 95 % de confianza la hip´tesis nula. tambi´n la rechazaremos para cualquier nivel de confianza menor.56. Equivalentemente.1.3. si nos preguntamos cu´l habr´ sido nuestra decisi´n al 99 % de cona ıa o fianza? La regi´n de rechazo mengua.995 = −2. para el contraste H0 : µ = 50.1.VII. Para determinar α0 . Ser´ m´s f´cil rechazar H0 al 90 % que al 95 % de confianza.4 Concepto de p-valor Deducimos que Z0 no pertenece a R. H1 : µ = 50. y lo denotaremos por α0 . en lugar de habernos fijado el 95 % de a ıa o confianza.

VII. Cualquier programa de estad´ ıstica que permita llevar a cabo un contraste de hip´tesis no solicita del usuario que especifique la confianza.1 nos lleva a rechazar H0 aunque el est´ndar corresponder´ realmente a un p-valor menor que 0.162). puesto que la regi´n de rechazo se define o para que esta probabilidad coincida con el valor fijado de α. Es decir e P ot(µ1 ) = Pµ=µ1 (Rechazar H0 ). es o la probabilidad de rechazar H0 cuando ´sta es falsa y en realidad µ = µ1 .1.5.. sino que directamente o le proporciona el p-valor. Si el a ıa p-valor es mayor de 0. deducimos del dibujo anterior que α0 /2 = P(Z ≥ 3.5. La potencia de un test (contraste de hip´tesis) contra la alternativa µ = µ1 .05. si H0 es falsa.1 Consideremos H1 la hip´tesis alternativa. la confianza m´xima con la que podr´ a ıamos haber rechazado es 100(1 − α0 ) = 100(0. nuestro contraste lo detectar´ con bastante a probabilidad.99844) = 99.5. es decir que nos llevar´ a concluir de manera correcta que H0 es falsa. Este resultado es coherente con las decisiones que hemos tomado al 95 % y al 99 % de confianza. a Definici´n VII. Sin embargo.00156. Potencia del test Definici´n o Hemos visto que. no permite concluir de manera muy segura y deber´ ıamos intentar colectar m´s a datos.162)) 0.84 %. Deducimos que para el ejemplo. tambi´n e es importante saber que. En general se suele considerar que un p-valor menor de 0. dejando en sus manos la decisi´n de rechazar o aceptar o H0 .110 Mathieu Kessler: M´todos Estad´ e ısticos − z0 z0 Para calcular α0 . Si el p-valor est´ comprendido entre 0. es decir que α0 = 2(1 − φ(3. . se admite H0 .2. lo m´s f´cil es o a a controlar la probabilidad de error de tipo I.1 y a 0. VII. a la hora de construir un contraste de hip´tesis. y µ1 un valor cono o creto de µ incluido en los valores contemplados en H1 .2.

con un cierto nivel de confianza.5. la regi´n es o A partir de aqu´ podemos pasar al c´lculo de la potencia: sabemos que ı.VII. ıa o e Nos fijamos α. 111 VII. seguimos los pasos de la realizaci´n del contraste hasta la definici´n de la regi´n de rechazo o o o R incluida: Por ejemplo H0 : µ = µ0 . mejor ser´ el contraste. . por ejemplo en su versi´n bilato eral.2. Por ejemplo si es bilateral. y planificamos tomar una muestra de n observaciones. El estad´ ıstico de prueba es Z0 = est´ndar si H0 es cierta. H1 : µ = µ0 . Para calcular la potencia de este contraste contra la alternativa µ = µ1 . a P ot(µ1 ) = Pµ=µ1 (Rechazar H0 ). Se suele considerar suficiente a a una potencia de al menos 0. a ¯ X−µ0 √ . pero podr´ ser con hip´tesis alternativa unilateral tambi´n.5 Potencia del test Cuanto mayor ser´ la potencia. H1 : µ = µ0 . la relaci´n entre la probabilidad β de error de tipo II y la potencia es por o lo tanto β = 1 − P ot(µ1 ). .8 Recordar que el error de tipo II consiste en aceptar H0 cuando en realidad ´sta e es falsa. C´lculo de la potencia a Queremos plantear un contraste sobre la media. . H0 : µ = µ0 . σ/ n que sigue una distribuci´n Normal o Construimos la regi´n de rechazo seg´n el tipo de hip´tesis alternativa que nos o u o hemos planteado.

112 es decir que

Mathieu Kessler: M´todos Estad´ e ısticos

P ot(µ1 ) = Pµ=µ1 (Z0 ∈ R). En el caso de una hip´tesis alternativa bilateral, esta probabilidad es o P ot(µ1 ) = Pµ=µ1 ((Z0 ≤ −z1−α/2 ) ∪ (Z0 ≥ z1−α/2 )).

(VII.1)

Para calcular la potencia necesitamos por lo tanto conocer la distribuci´n de Z0 o cuando H0 no es cierta, sino µ = µ1 . Para ello, utilizamos la relaci´n siguiente o Z0 = Si µ = µ1 , la variable por lo tanto que
¯ X−µ1 √ σ/ n

¯ ¯ X − µ0 X − µ 1 µ1 − µ0 √ = √ + √ . σ/ n σ/ n σ/ n sigue una distribuci´n Normal est´ndar. Deducimos o a

Si µ = µ1 , Z0 ∼ N (δ, 1), donde δ se llama el par´metro de no-centralidad y se define como a δ= µ1 − µ0 √ . σ/ n

´ Esta es la distribuci´n que utilizaremos para calcular la potencia a partir de la o expresi´n en (VII.1). Para ello bastar´ con tipificar la variable Z0 para expresar o a la probabilidad buscada en t´rminos de φ. e

VII.5.3.

Ejemplo de c´lculo de la potencia a

Volvamos al ejemplo del apartado VII.3.3.1, en ´l que estudiamos la longitud e media de los art´ ıculos producidos. La v.a introducida es X=”longitud de un art´ ıculo producido” y hemos supuesto que X ∼ N (µ, σ 2 ), con σ = 1. Queremos comprobar que la longitud media de los art´ ıculos producidos no es significativamente distinta de 50mm. Para ello, planificamos llevar a cabo el contraste H0 : µ = 50, , H1 : µ = 50, cogiendo una muestra de 10 piezas, y fijando una confianza del 95 %. ¿Cu´l es la probabilidad de que, si en realidad µ = 50,5, y por lo tanto H0 es a falsa, el contraste que hemos planeado nos permita detectar que H0 es falsa, es decir que nos lleve a rechazar H0 . Queremos calcular P ot(50,5). Desarrollamos el contraste hasta la determinaci´n o de R. H0 : µ = 50, H1 : µ = 50, Nos fijamos α = 0,05. El estad´ ıstico Z0 = cierta.
¯ X−µ0 √ σ/ n

sigue una distribuci´n Normal est´ndar si H0 es o a

VII.6 Inferencia para la media La regi´n de rechazo es R = {z : o R = {z : z < −1,96 o z > 1,96}. Ahora P ot(50,5) = Pµ=µ1 (Z0 ∈ R) = Pµ=µ1 ((Z0 ≤ −1,96) ∪ (Z0 ≥ 1,96)). Sabemos que, si µ = µ1 , Z0 ∼ N (δ, 1). Calculemos δ: δ= Deducimos tipificando que P ot(50,5) = Pµ=µ1 (Z0 ≤ −1,96) + Pµ=µ1 (Z0 ≥ 1,96) Z0 − δ Z0 − δ −1,96 − δ 1,96 − δ = Pµ=µ1 ( ≤ ) + Pµ=µ1 ( ≥ ) 1 1 1 1 = P(Z ≤ −3,54) + P(Z ≥ 0,38) = φ(−3,54) + (1 − φ(0,38)) = 1 − φ(3,54) − (1 − φ(0,38)) 0,35. µ1 − µ0 50,5 − 50 √ = √ σ/ n 1/ 10 1,58. z < −z1−α/2 o z > z1−α/2 } es decir

113

Esta potencia es insuficiente, para mejorarla, tendremos que planificar un experimento con m´s observaciones. a

VII.5.4.

Factores que influyen la potencia

Cuanto mayor sea n, mayor ser´ la potencia. a Cuanto menor sea σ, mayor ser´ la potencia. a Cuanto mayor sea el nivel de confianza, menor ser´ la potencia: si exigimos a m´s confianza, pagamos un precio... a Cuanto m´s diferencia haya entre µ1 y µ0 , m´s f´cil ser´ detectar cuando µ no a a a a es igual a µ0 sino a µ1 , por lo tanto, mayor ser´ la potencia. a

VII.6.

Inferencia para la media

En la presentaci´n del contraste de hip´tesis, hemos considerado el caso en que o o el modelo es normal con varianza conocida. En el caso m´s realista en que no se a especifica el valor de la varianza como parte del modelo, lo estimaremos a partir de la muestra. A continuaci´n construimos contrastes de hip´tesis para la media de una o o distribuci´n Normal con varianza desconocida. o

VII.6.1.
VII.6.1.1.

Contraste de hip´tesis para la media µ de una distribuci´n o o Normal con varianza desconocida
Construcci´n o

Seguimos los mismos pasos que en el caso en que la varianza es conocida.

114

Mathieu Kessler: M´todos Estad´ e ısticos Planteamos las hip´tesis. Por ejemplo para una hip´tesis alternativa bilateral: o o H0 : µ = µ0 , H1 : µ = µ0 , donde µ0 representa el valor concreto con ´l que queremos comparar µ. e Nos fijamos el valor de α. El estad´ ıstico de prueba es T0 = ¯ X − µ0 √ ∼ tn−1 S/ n si H0 es cierto.

Podemos ahora especificar la regi´n de rechazo. o

La regi´n R est´ formada por los valores menores que −tn−1,1−α/2 o mayores o a que tn−1,1−α/2 . Nos queda calcular, para nuestra muestra, el valor concreto del estad´ ıstico de prueba T0 . Si pertenece a R, rechazaremos H0 y afirmaremos H1 , mientras que si no pertenece a R, admitiremos H1 . En el caso en que la hip´tesis alternativa es unilateral lo unico que cambia es la o ´ regi´n de rechazo: o H0 : µ = µ0 , H1 : µ < µ0 , H0 : µ = µ0 , H1 : µ > µ0 ,

n1 x11 .0. podemos ir probando con distintos niveles de confianza para obtener cuotas razonablemente precisas de α0 . .01. . x1. de la tabla de los cuantiles de la distribuci´n t que se encuentra o en el ap´ndice.975 pero menor que t2. T0 = 4.7.95 = 2. bas´ndonos en las mismas tres mediciones.6.99 . VII. x12 . En realidad. Por ejemplo. Este valor pertenece a la regi´n de rechazo por lo que deducimos que al 95 % de o confianza rechazamos H0 . Ejemplo 115 Volvamos al ejemplo de las mediciones visto en la secci´n anterior. Si s´lo tenemos una o tabla a mano.913 es mayor que t2. queremos o contrastar si el centro de los valores proporcionados por el aparato es mayor que 10. . Inferencia para dos medias Consideramos ahora situaciones en las que modelizamos dos variables X1 y X2 y nos interesa posiblemente comparar sus dos medias. Nos fijamos α = 0. Extraeremos dos muestras: una correspondiente a la primera variable X1 y otra correspondiente a X2 . deduzco que el valor del estad´ e ıstico de prueba. T0 = S/ n La regi´n de rechazo es unilateral : R = {t : t > tn−1. x1. .2 √ =√ √ S/ n 0.92. el valor del estad´ ıstico de prueba es t0 = ¯ X − µ0 10.24333 − 10. Utilizamos la notaci´n siguiente para designar los valores de o estas muestras: Muestra 1: Muestra 2: x11 .2.n1 .7 Inferencia para dos medias VII. puesto que hemos rechazado H0 al 95 % de confianza. que el p-valor es menor que 0. .1.025 y ıa a 0. al igual que en el tema 7.913. que denotamos respectivamente por µ1 y µ2 .2.2. .1−α }.VII. Podemos utilizar o una calculadora estad´ ıstica para calcular α0 de manera precisa. la frontera siendo o t2.0.05. Deduzco que rechazar´ H0 al 97. suponiendo que trabajamos con 95 % de confianza.0. . H1 : µ > 10. donde t es una distribuci´n t de Student con 2 grados de libertad.5 % de confianza ıa pero la aceptar´ al 99 % de confianza: el p-valor α0 est´ comprendido entre 0. . a Planteamos las hip´tesis o H0 : µ = 10. Para la muestra escogida.05.0002333/ 3 4. El estad´ ıstico de prueba es ¯ X − µ0 √ ∼ tn−1 si H0 es cierto. caracterizamos el p-valor como α0 = P(t > 4.913). Notar en particular que deducimos en particular. x12 .2.

¿las desconocemos pero las suponemos iguales? etc. no se conoce de manera exacta la distribuci´n muestral del o X1 −X2 −(µ1 −µ2 ) estad´ ıstico natural . Sin embargo. hemos supuesto que el tama˜o de la muestra 1 es n1 . se puede utilizar la aproxi2 2 S1 n1 + n2 S 2 maci´n siguiente: o X1 − X2 − (µ1 − µ2 ) 2 S1 n1 + 2 S2 n2 ∼ tk . n2 − 1). 1).7. σ1 ). El estad´ ıstico que utilizaremos para estimar esta cantidad es X1 − X2 . VII. nos basaremos en la cantidad µ1 − µ2 . Introducimos u 2 S0 = 2 2 (n1 − 1)S1 + (n2 − 1)S2 n1 + n2 − 2 Utilizaremos la distribuci´n o X1 − X2 − (µ1 − µ2 ) 2 1 S0 ( n1 + 1 n2 ) ∼ tn1 +n2 −2 .1. VII. Estad´ ısticos muestrales Al pretender comparar µ1 y µ2 . podemos estimar la o varianza com´n σ 2 utilizando las dos muestras. donde X1 y X2 denotan la media de la primera y de la segunda muestra respectivamente.2. VII. 2 X2 ∼ N (µ2 . n Supondremos que hemos modelizado tanto la distribuci´n de X1 como la diso tribuci´n de X2 por Normales. Caso de varianzas conocidas X1 − X2 − (µ1 − µ2 ) 2 σ1 n1 Se cumple + 2 σ2 n2 ∼ N (0. Pasamos ahora a presentar distintos estad´ ısticos relacionados con X1 − X2 entre los que tendremos que escoger seg´n la situaci´n de modelizaci´n en la que nos u o o 2 2 encontremos: ¿conocemos σ1 y σ2 ?.1.1. σ2 )..7.. mientras que el n tama˜o de la muestra 2 es n2 . donde k = ´ ınf(n1 − 1.1. Introduci2 2 mos tambi´n la notaci´n S1 y S2 para designar las varianzas respectivas de las dos e o muestras.7. b) Si NO se suponen iguales En este caso. . Caso de varianzas desconocidas a) Si se suponen las varianzas iguales 2 2 Si a la hora de la modelizaci´n hemos supuesto σ1 = σ2 . o 2 X1 ∼ N (µ1 .116 Mathieu Kessler: M´todos Estad´ e ısticos En particular.

2 XB ∼ N (µB . es decir una confianza de 95 %.22 2. donde k = ´ ınf(nA − 1.50 3.VII. σA ).7 Inferencia para dos medias 117 VII. Soluci´n.24 5.00 1.7.2. procesada por la disciplina B La hip´tesis de modelizaci´n sobre las distribuciones de XA y XB es o o 2 XA ∼ N (µA .05. calcular el intervalo de confianza para la diferencia entre el tiempo promedio de espera con la disciplina A y el tiempo promedio de espera con la disciplina B.59 2.41 6.1.10 2. Intervalos y contrastes La construcci´n de los intervalos y contrastes para µ1 − µ2 se realiza siguiendo o los mismos principios que para el caso de una media s´lo.34 2.95 Suponiendo que la distribuci´n que sigue cada variable se puede aproximar por o una Normal. procesada por la disciplina A tiempo de espera de una tarea escogida al azar. o Para ilustrar esta construcci´n.78 B 2.Introduzcamos las variables o XA : XB : tiempo de espera de una tarea escogida al azar. Ejemplo I.81 5.29 1. El estad´ ıstico de prueba. Dibujamos una regi´n central con ´rea 1−α en la representaci´n de la densidad o a o del estad´ ıstico: . σB ). Para compararlas se instalaron en dos n m´quinas test iguales y se midieron los tiempos de espera en cada una de ellas de 8 a tareas aleatoriamente elegidas: A 2.30 5. puesto que desconocemos las dos varianzas de XA y XB es el descrito en el apartado VII. Dos disciplinas de cola para servicio de CPU han sido propuestas por dos dise˜adores de sistemas operativos. nB − 1). Nos fijamos el nivel de riesgo α = 0. Queremos construir un intervalo de confianza para µA − µB .86 3.2 b) XA − XB − (µA − µB ) 2 SA nA + 2 SB nB ∼ tk .7. nos limitamos por lo tanto a tratar dos ejemplos o extraidos de problemas de examenes a).35 1. y que son independientes.71 1.

365 Al sustituir obtenemos µA − µB = 0.118 Mathieu Kessler: M´todos Estad´ e ısticos − tk.0625 2 SA = 3.1−α/2 = t7.1−α 2 tk.975 = 2.1−α/2 ≤ XA − XB − (µA − µB ) 2 SA nA + 2 SB nB ≤ tk. Ejemplo II. Con el fin de o determinar a que proveedor comprar se toma una muestra de tama˜o 12 de cada uno n de los proveedores obteniendo los siguientes resultados (n´mero de hojas impresas): u Media muestral 5459 5162 varianza muestral 111736 145258 P roveedor A P roveedor B Si suponemos que las poblaciones son normales con varianzas iguales: (a) Construir un intervalo de confianza para la diferencia entre el n´mero medio u de hojas que imprime el cartucho de cada proveedor. (tomar α = 0.1−α 2 Deducimos que P(−tk.18125 ± 2.1−α/2 Por otra parte. y finalmente necesitamos tk.1−α/2 ) = 1 − α.24375 XB = 3.0. Soluci´n: Introducimos las variables o . Despejamos µA − µB y obtenemos µA − µB = XA − XB ± tk.05).695 2 2 SA SB + . b). calculamos XA = 3.0349.227 2 SB = 2. nA nB Tenemos nA = nB = 8. Una determinada empresa de material fungible puede adquirir los cartuchos de t´ner de impresora de dos proveedores distintos.

el estad´ ıstico de contraste es XA − XB − (µA − µB ) 2 S0 ( n1 + A 1 nB . y este estad´ ıstico se simplifica: T0 = XA − XB 2 S0 ( n1 + A 1 nB ∼ tnA +nB −2 . es decir H0 : µA − µB = 0.9.05). nA nB µA − µB = XA − XB ± tnA +nB −2. (b) Razonar qu´ tipo de contraste se debe de realizar con el fin de decidir si e la duraci´n media de los cartuchos del proveedor A es mayor que la de los o cartuchos del proveedor B. (tomar α = 0. XB ∼ N (µB . o o duraci´n de un cartucho de t´ner del proveedor B o o 119 Del enunciado sabemos que XA ∼ N (µA . H1 : µA − µB > 0.7 Inferencia para dos medias XA : XB : duraci´n de un cartucho de t´ner del proveedor A. Soluci´n:Queremos plantear el contraste o H0 : µA = µB . Realizar este contraste.1−α/2 2 Necesitamos calcular S0 : 2 S0 = 2 S0 ( 2 2 (n1 − 1)S1 + (n2 − 1)S2 (11)111736 + 11 · 145258 = n 1 + n2 − 2 22 128497 Deducimos sustituyendo que el intervalo al 95 % de confianza es µA − µB = 297 ± 302. σ 2 ). pero ahora el estad´ ıstico es XA − XB − (µA − µB ) 2 S0 ( n1 + A B 2 con S0 = A nAA B −2 +n fianza para µA − µB es 2 (n −1)S 2 +(n −1)SB 1 nB ∼ tnA +nB −2 . . La regi´n de rechazo es unilateral y es de la forma o .05. Para construir el intervalo de confianza al 95 %. es decir que las dos variables son Normales con varianzas desconocidas pero igules. µA − µB = 0.VII. H1 : µA > µB . σ 2 ). Nos fijamos α = 0. bajo H0 . seguimos los mismos pasos que en el ejemplo anterior. Obtenemos por lo tanto que el intervalo de con1 1 + ). si H0 es cierta.

0.95 = 1. .717. Nos falta calcular el valor concreto del estad´ ıstico de contraste T0 = XA − XB 2 S0 ( n1 + A 1 nB = 5459 − 5162 1 128497( 12 + 1 12 ) = 2.120 Mathieu Kessler: M´todos Estad´ e ısticos Su frontera es tnA +nB −2.1−α/2 = t22. El valor de T0 no pertenece a la regi´n de rechazo.0295. deducimos que no podemos o rechazar H0 al 95 % de confianza..

128 0.583 2.326 tk.256 0.854 0.538 0.876 0.53 0.06 2.101 2.53 0.812 1.854 0.703 1.717 1.796 1.256 0.74 1.534 0.253 tk.127 0.53 0.921 2.883 0.257 0.255 0.699 1.473 2.061 0.26 0.866 0.539 2.947 2.129 0.258 0.423 2.977 2.539 0.143 2.132 2.684 1.128 0.08 2.365 3.127 0.045 2.534 0.201 2.16 2.35 1.602 2. k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 > 120 tk.533 1.052 2.86 0.228 2.127 0.13 0.127 0.889 0.289 0.856 0.865 0.262 2.069 2.363 1.462 2.567 2.13 0.60 0.042 2.126 0.706 4.725 1.99 31.845 2.878 2.531 0.549 0.978 0.92 0.571 2.254 0.182 2.126 0.31 1.44 1.265 0.708 1.86 1.858 0.048 2.267 0.943 1.131 2.289 1.508 2.851 0.0.857 0.0.729 1.106 3.126 0.263 0.127 0.021 2 1.26 0.906 0.447 2.259 0.372 1.078 1.11 2.257 0.5 2.734 1.543 0.779 2.127 0.158 0.134 0.886 1.861 2.727 0.529 0.303 3.0.254 0.848 0.841 4.879 0.706 1.261 0.314 1. el valor tk.746 1.086 2.074 2.617 2.397 1.179 2.358 2.862 0.658 1.965 4.995 63.256 0.277 0.256 0.895 1.819 2.776 2.313 1.093 2.831 2.531 0.145 2.960 tk.012 2.355 3.90 3.0.306 2.537 0.131 0.39 2.711 1.0.0.256 0.311 1.129 0.25 3.645 tk.941 0.873 0.319 1.807 2.33 1.316 1.12 2.714 1.015 1.256 0.526 0.129 0.527 0.518 2.7 Inferencia para dos medias 121 Ap´ndice e Distribuci´n t de Student o Valores de los cuantiles de la distribuci´n t de Student con k grados de libertad: o para un 0 ≤ p ≤ 1.467 2.671 1.842 tk.681 2.337 1.257 0.855 0.617 0.638 1.535 0.055 3.032 3.546 0.98 1.65 2.258 0.0.524 tk.128 0.127 0.257 0.127 0.541 3.528 2.356 1.258 0.376 1.333 1.584 0.559 0.531 0.VII.256 0.282 tk.p satisface P(t ≤ tk.132 0.925 5.365 2.315 1.704 2.314 2.542 0.127 0.536 0.532 0.259 0.0.753 1.701 1.821 6.479 2.485 2.898 2.845 0.761 1.303 1.833 1.657 9.325 0.624 2.064 2.127 0.p ) = p.0.532 0.576 tk.353 2.707 3.998 2.763 2.87 0.66 2.92 2.50 0.296 1.721 1.771 2.325 1.323 1.262 0.95 6.75 2.896 0.868 0.128 0.856 0.321 1.142 0.533 0.787 2.569 0.771 1.70 0.256 0.328 1.747 3.341 1.056 2.128 0.257 0.271 0.127 0.896 2.476 1.859 0.169 3.863 0.345 1.127 0.533 0.318 1.127 0.137 0.492 2.858 0.415 1.457 2.256 0.821 2.975 12.532 0.126 .855 0.531 0.764 2.604 4.756 2.552 2.718 2.80 1.128 0.797 2.553 0.861 0.54 0.782 1.499 3.697 1.383 1.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->