Está en la página 1de 235

Apuntes de Estadstica para Ingenieros

Versin 1.3, junio de 2012

Prof. Dr. Antonio Jos Sez Castillo Dpto de Estadstica e Investigacin Operativa Universidad de Jan

Esta obra est bajo una licencia Reconocimiento-No comercial-Sin obras derivadas 3.0 Espaa de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-nc-nd/3.0/es/ o envie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.

Apuntes de Estadstica para Ingenieros


Prof. Dr. Antonio Jos Sez Castillo Departamento de Estadstica e Investigacin Operativa Universidad de Jan

Versin 1.3 Junio de 2012

Dpto de Estadstica e I.O. Universidad de Jan

Prof. Dr. Antonio Jos Sez Castillo

ndice general

1. Introduccin
1.1. Qu signica Estadstica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. La Estadstica en el mbito de la Ciencia y la Ingeniera . . . . . . . . . . . . . . . . . . . . . 1.2.1. Ejemplo de las capas de xido de silicio . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Ejemplo de la bombilla de bajo consumo . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3. Ejemplo de los niveles de plomo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.4. Ejemplo de los cojinetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5. Ejemplo de la absorcin de un compuesto a distintas dosis y en distintos tiempos de absorcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.6. Ejemplo de los accidentes laborales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.7. Ejemplo de la cobertura de la antena de telefona mvil . . . . . . . . . . . . . . . . . 1.2.8. Ejemplo de la seal aleatoria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Deniciones bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11
11 12 12 12 14 14 14 15 15 15 15

I Estadstica descriptiva
2. El tratamiento de los datos. Estadstica descriptiva
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Mtodos grcos y numricos para describir datos cualitativos . . . . . . . . . . . . . . . . . . 2.4. Mtodos grcos para describir datos cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Mtodos numricos para describir datos cuantitativos . . . . . . . . . . . . . . . . . . . . . . 2.5.1. Medidas de tendencia central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1.1. Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1.3. Moda o intervalo modal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3. Medidas de variacin o dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

17
19
19 19 20 21 25 25 25 26 26 27 28

Dpto de Estadstica e I.O. Universidad de Jan

2.5.3.1. Varianza muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.3.2. Desviacin tpica o estandar muestral . . . . . . . . . . . . . . . . . . . . . . 2.5.3.3. Coeciente de variacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.4. Medidas de forma. Coeciente de asimetra . . . . . . . . . . . . . . . . . . . . . . . . 2.5.5. Parmetros muestrales y parmetros poblacionales . . . . . . . . . . . . . . . . . . . . 2.6. Mtodos para detectar datos cuantitativos atpicos o fuera de rango . . . . . . . . . . . . . . 2.6.1. Mediante la regla emprica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2. Mediante los percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7. Sobre el ejemplo de las capas de dixido de silicio . . . . . . . . . . . . . . . . . . . . . . . . .

28 29 30 31 32 33 33 33 34

II Clculo de Probabilidades
3. Probabilidad
3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Experimentos aleatorios y experimentos determinsticos . . . . . . . . . . . . . . . . . . . . . 3.3. Denicin de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. lgebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3. Funcin de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Interpretacin frecuentista de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Interpretacin subjetiva de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. Espacio muestral con resultados equiprobables. Frmula de Laplace . . . . . . . . . . . . . . 3.7. Probabilidad condicionada. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . 3.8. Teorema de la probabilidad total y Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . 3.9. Ms sobre el Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9.1. Ejemplo del juez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9.2. Ejemplo de la mquina de deteccin de fallos . . . . . . . . . . . . . . . . . . . . . . .

37
39
39 40 40 40 41 43 45 45 46 46 51 55 56 57

4. Variable aleatoria. Modelos de distribuciones de probabilidad


4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2. Funcin masa de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3. Funcin masa de probabilidad emprica . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.4. Media y varianza de una variable aleatoria discreta . . . . . . . . . . . . . . . . . . . . 4.3. Modelos de distribuciones de probabilidad para variables discretas . . . . . . . . . . . . . . . 4.3.1. Distribucin binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

61
61 62 62 62 63 63 64 65

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

4.3.2. Distribucin de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3. Distribucin geomtrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4. Distribucin binomial negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4. Variable aleatoria continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3. Funcin de densidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.4. Funcin de distribucin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.5. Funcin de distribucin emprica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.6. Media y varianza de una v.a. continua . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5. Modelos de distribuciones de probabilidad para variables continuas . . . . . . . . . . . . . . . 4.5.1. Distribucin uniforme (continua) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2. Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3. Distribucin Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.4. Distribucin normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6. Cuantiles de una distribucin. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.1. La bombilla de bajo consumo marca ANTE . . . . . . . . . . . . . . . . . . . . . . . . 4.6.2. Las visitas al pediatra de los padres preocupados . . . . . . . . . . . . . . . . . . . . .

68 70 71 73 73 73 75 76 77 78 82 82 82 84 86 92 93 94

5. Variables aleatorias con distribucin conjunta


5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Distribuciones conjunta, marginal y condicionada . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1. Distribucin conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97
97 99 99

5.2.2. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 5.2.3. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 5.3. Independencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.4. Medias, varianzas y covarianzas asociadas a un vector aleatorio . . . . . . . . . . . . . . . . . 111 5.4.1. Covarianza y coeciente de correlacin lineal . . . . . . . . . . . . . . . . . . . . . . . 111 5.4.2. Vector de medias y matriz de varianzas-covarianzas de un vector . . . . . . . . . . . . 118 5.5. Distribucin normal multivariante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

III Inferencia estadstica


6. Distribuciones en el muestreo

125
127

6.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 6.2. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.3. Distribuciones en el muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.4. Distribuciones en el muestreo relacionadas con la distribucin normal . . . . . . . . . . . . . . 129
Prof. Dr. Antonio Jos Sez Castillo

Dpto de Estadstica e I.O. Universidad de Jan

7. Estimacin de parmetros de una distribucin

133

7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2. Estimacin puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 7.2.1. Denicin y propiedades deseables de los estimadores puntuales . . . . . . . . . . . . . 134 7.2.2. Estimacin de la media de una v.a. La media muestral . . . . . . . . . . . . . . . . . . 135 7.2.3. Estimacin de la varianza de una v.a. Varianza muestral . . . . . . . . . . . . . . . . . 135 7.2.4. Estimacin de una proporcin poblacional . . . . . . . . . . . . . . . . . . . . . . . . . 137 7.2.5. Obtencin de estimadores puntuales. Mtodos de estimacin . . . . . . . . . . . . . . . 138 7.2.5.1. Mtodo de los momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 7.2.5.2. Mtodo de mxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 139 7.2.6. Tabla resumen de los estimadores de los parmetros de las distribuciones ms comunes 142 7.3. Estimacin por intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 7.3.1. Intervalos de conanza para la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144 7.3.2. Intervalos de conanza para una proporcin . . . . . . . . . . . . . . . . . . . . . . . . 146 7.3.3. Intervalos de conanza para la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.3.4. Otros intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.4. Resolucin del ejemplo de los niveles de plomo . . . . . . . . . . . . . . . . . . . . . . . . . . 148

8. Contrastes de hiptesis paramtricas

149

8.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 8.2. Errores en un contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 8.3. p-valor de un contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.3.1. Denicin de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8.3.2. Clculo del p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.4. Contraste para la media de una poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.4.1. Con muestras grandes (n 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.4.2. Con muestras pequeas (n < 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 8.5. Contraste para la diferencia de medias de poblaciones independientes . . . . . . . . . . . . . . 159 8.5.1. Con muestras grandes (n1 , n2 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 8.5.2. Con muestras pequeas (n1 < 30 o n2 < 30) y varianzas iguales . . . . . . . . . . . . . 160 8.5.3. Con muestras pequeas, varianzas distintas y mismo tamao muestral . . . . . . . . . 161 8.5.4. Con muestras pequeas, varianzas distintas y distinto tamao muestral . . . . . . . . 161 8.6. Contraste para la diferencia de medias de poblaciones apareadas . . . . . . . . . . . . . . . . 162 8.6.1. Con muestras grandes (n 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 8.6.2. Con muestras pequeas (n < 30) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 8.7. Contraste para la proporcin en una poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . 164 8.8. Contraste para la diferencia de proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

8.9. Contraste para la varianza de una poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.10. Contraste para el cociente de varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.11. Contraste para las medias de ms de dos poblaciones independientes. ANOVA . . . . . . . . . 168 8.12. El problemas de las pruebas mltiples. Mtodo de Bonferroni . . . . . . . . . . . . . . . . . . 171 8.13. Resolucin del ejemplo del del dimetro de los cojinetes . . . . . . . . . . . . . . . . . . . . . 172

9. Contrastes de hiptesis no paramtricas

173

9.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.2. Contrastes de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 9.2.1. Test 2 de bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 9.2.2. Test de Kolmogorov-Smirno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 9.3. Contraste de independencia 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 9.4. Resolucin del ejemplo de los accidentes laborales . . . . . . . . . . . . . . . . . . . . . . . . . 183

10.Regresin lineal simple

185

10.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 10.2. Estimacin de los coecientes del modelo por mnimos cuadrados . . . . . . . . . . . . . . . . 188 10.3. Supuestos adicionales para los estimadores de mnimos cuadrados . . . . . . . . . . . . . . . 192 10.4. Inferencias sobre el modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 10.4.1. Inferencia sobre la pendiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 10.4.2. Inferencia sobre la ordenada en el origen . . . . . . . . . . . . . . . . . . . . . . . . . . 197 10.5. El coeciente de correlacin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 10.6. Fiabilidad de la recta de regresin. El coeciente de determinacin lineal . . . . . . . . . . . . 202 10.7. Prediccin y estimacin a partir del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 10.8. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 10.8.1. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 10.8.2. Grca de residuos frente a valores ajustados . . . . . . . . . . . . . . . . . . . . . . . 206

IV Procesos aleatorios
11.Procesos aleatorios

209
211

11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.1.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 11.1.2. Tipos de procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 11.2. Descripcin de un proceso aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 11.2.1. Descripcin estadstica mediante distribuciones multidimensionales . . . . . . . . . . . 215 11.2.2. Funcin media y funciones de autocorrelacin y autocovarianza . . . . . . . . . . . . . 215 11.3. Tipos ms comunes de procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Prof. Dr. Antonio Jos Sez Castillo

Dpto de Estadstica e I.O. Universidad de Jan

11.3.1. Procesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 11.3.2. Procesos con incrementos independientes . . . . . . . . . . . . . . . . . . . . . . . . . 218 11.3.3. Procesos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 11.3.4. Procesos dbilmente estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 11.3.5. Procesos ergdicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 11.4. Ejemplos de procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 11.4.1. Ruidos blancos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 11.4.2. Procesos gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 11.4.3. Procesos de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

Prof. Dr. Antonio Jos Sez Castillo

Prlogo

El objeto fundamental de la edicin de este documento es facilitar a los alumnos de ingeniera de la Escuela Politcnica Superior de Linares el desarrollo de los contenidos tericos de la asignatura Estadstica. Desde un punto de vista menos local, espero que sea til, en alguna medida, a todo aquel que necesite conocimientos bsicos de las tcnicas estadsticas ms usuales en el ambiente cientco-tecnolgico. A todos ellos, alumnos y lectores en general, quiero facilitarles el privilegio de aprender de quienes yo he aprendido, sugirindoles cuatro manuales que para m han sido referencias fundamentales. Se trata, en primer lugar, del magnco libro de Sheldon M. Ross,
Introduccin a la Estadstica.

En l puede encontrarse la

mayor parte de lo que vamos a estudiar aqu, explicado de forma sencilla y clara, pero tambin comentarios histricos, reseas bibliogrcas sobre matemticos y estadsticos relevantes y ejemplos muy apropiados. En segundo lugar, recomiendo los trabajos de William Navidi, Jay Devore,
Estadstica para ingenieros y cientcos,

Probabilidad y estadstica para ingeniera y ciencias,

sobre todo por la actualidad de muchos


Probabilidad

de sus ejemplos y por cmo enfatizan el carcter aplicado, prctico, de la Estadstica en el mbito de la Ciencia y la Tecnologa. Finalmente, debo mencionar tambin el libro de Mendenhal & Sincich,
y Estadstica para Ingeniera y Ciencias,

que incluye, como los dos anteriores, unos ejemplos y ejercicios

propuestos magncos. En el actual contexto del Espacio Europeo de Educacin Superior, la asignatura Estadstica tiene, en la mayor parte de los grados en ingeniera, un carcter bsico y una dotacin de 6 crditos ECTS. As ocurre, por ejemplo, en las ramas de industriales o telecomunicaciones que se imparten en la Universidad de Jan. Otras ramas, como la de ingeniera civil/minera, han optado por incluirla como asignatura obligatoria, compartida con una asignatura de ampliacin de matemticas en la que se proponen 3 crditos ECTS de estadstica. Con todo, creo que estos apuntes pueden adaptarse a esos distintos contextos, aclarando qu temas pueden ser ms adecuados para cada titulacin. En concreto: 1. Para las distintas especialidades de la rama de industriales seran oportunos los captulos 1, 2, 3, 4, 6, 7, 8, 9 y 10. El captulo 9, sobre contrastes no paramtricos puede darse a modo de seminario, si el desarrollo de la docencia as lo sugiere. Sin embargo, el captulo 10, sobre regresin lineal simple, me parece imprescindible en la formacin de un futuro ingeniero industrial. 2. En los grados de la rama de telecomunicaciones, creo que son necesarios los captulos 1, 2, 3, 4, 5, 6, 7, 8 y 11. Resulta as el temario quiz ms exigente, debido a la necesidad de introducir un captulo sobre vectores aleatorios previo a otro sobre procesos estocsticos. Queda a iniciativa del docente la posibilidad de recortar algunos aspectos en los temas tratados en aras a hacer ms ligera la carga docente. 3. Finalmente, en los grados de la rama civil y minera, donde la dotacin de crditos es menor, creo que 9

Dpto de Estadstica e I.O. Universidad de Jan

son adecuados los captulos 1, 2, 3, 4, 6, 7, 8 y 10, si bien eliminando algunos de sus apartados, cuestin sta que dejo, de nuevo, a juicio del docente. Tambin sugiero que se trabajen los problemas sobre estos captulos directamente en el contexto de unas prcticas con ordenador. Slo me queda pedir disculpas de antemano por las erratas que, probablemente, contienen estas pginas. Os ruego que me las hagis llegar para corregirlas en posteriores ediciones. Linares, junio de 2012.

10

Prof. Dr. Antonio Jos Sez Castillo

Captulo 1
Introduccin

Llegar un da en el que el razonamiento estadstico ser tan necesario para el ciudadano como ahora lo es la habilidad de leer y escribir H.G. Wells (1866-1946)

Resumen. El captulo incluye una introduccin del trmino Estadstica y presenta los conceptos ms bsicos
relativos a poblaciones y muestras.

Palabras clave: estadstica, poblacin, poblacin tangible, poblacin conceptual, variable, muestra, muestra
aleatoria simple.

1.1. Qu signica Estadstica?


Si buscamos en el Diccionario de la Real Academia Espaola de la Lengua (DRAE) el vocablo aparecen tres acepciones de dicha 1. palabra1 :
Estadstica

Estudio de los datos cuantitativos de la poblacin, de los recursos naturales e industriales, del trco o de cualquier otra manifestacin de las sociedades humanas.

2. 3.

Conjunto de estos datos. Rama de la matemtica que utiliza grandes conjuntos de datos numricos para obtener inferencias basadas en el clculo de probabilidades.

Probablemente el ms comn de los signicados conocidos de la palabra sea el segundo, y por ello solemos ver en los medios de comunicacin que cualquier recopilacin de cifras referentes a algn asunto es llamado (de forma muy reduccionista)
estadstica

estadsticas.

Sin embargo, el valor real de la como


Estadstica Descriptiva,

Estadstica

como ciencia tiene que ver mucho ms con la primera y la tercera

acepcin del DRAE. Concretamente, el primero de los signicados se corresponde con lo que vamos a estudiar donde la Estadstica se utiliza para resumir, describir y explorar datos, y el
Inferencia Estadstica,

tercero con lo que denominaremos

donde lo que se pretende mediante la Estadstica

1 http://buscon.rae.es/draeI/SrvltGUIBusUsual?LEMA=estad %C3 %ADstica

11

Dpto de Estadstica e I.O. Universidad de Jan

es utilizar datos de un conjunto reducido de casos para inferir caractersticas de stos al conjunto de todos ellos.

1.2. La Estadstica en el mbito de la Ciencia y la Ingeniera


El papel de la Estadstica en la Ciencia y la Ingeniera hoy en da es crucial, fundamentalmente porque al analizar datos recopilados en experimentos de cualquier tipo, se observa en la mayora de las ocasiones que dichos datos estn sujetos a algn tipo de incertidumbre. El investigador o el profesional debe tomar decisiones respecto de su objeto de anlisis basndose en esos datos, para lo cual debe dotarse de herramientas adecuadas. A continuacin vamos a describir una serie de problemas prcticos en los que se plantean situaciones de este tipo. Vamos a ponerle un nombre especco porque iremos mencionndolos a lo largo del curso, conforme seamos capaces de responder a las cuestiones que cada uno de ellos dejan abiertas.

1.2.1. Ejemplo de las capas de xido de silicio


El artculo Virgin Versus Recycled Wafers for Furnace Qualication: Is the Expense Justied? (V. Czitrom y J. Reece, en Statistical
Case Studies for Industrial Process Improvement,

ASA y SIAM, 1997:87-104) describe

un proceso para el crecimiento de una capa delgada de dixido de silicio sobre placas de silicio que se usan en la fabricacin de semiconductores. En l aparecen datos relativos a las mediciones del espesor, en angstroms (A), de la capa de xido para pruebas realizadas en 24 placas: en concreto, se realizaron 9 mediciones en cada una de las 24 placas. Las placas se fabricaron en dos series distintas, 12 placas en cada serie. Estas placas eran de distintos tipos y se procesaron en distintas posiciones en el horno, ya que entre otros aspectos, el propsito de la recopilacin de los datos era determinar si el espesor de la capa de xido estaba afectado por el tipo de placa y por la posicin en el horno. Por el contrario, el experimento se dise de tal manera que no se esperaba ninguna diferencia sistemtica entre las dos series. Los datos se muestran en la Tabla 1.1. Lo primero que salta a la vista al mirar esos datos es que es muy complicado hacerse una idea global de los resultados. Parecen estar en torno a 90 A, pero con variaciones importantes respecto de ese valor. Algunas de esas variaciones son especialmente llamativas (77.5, 106.7, ...): qu pas en esas placas? En suma, es evidente que se hace necesaria una manera sistemtica de analizar los datos, tratando de describirlos de forma precisa y objetiva, respondiendo a las preguntas que subyacen en el diseo del experimento: son las dos series de experimentos homogneas? afecta el tipo de placa? afecta la posicin en el horno? ...

1.2.2. Ejemplo de la bombilla de bajo consumo


En el envoltorio de la bombilla marca ANTE de 14W se arma literalmente Lmpara
Duracin 8 aos . ahorradora de energa.

Debo reconocer de que tengo mis dudas. Para empezar, es que a los 8 aos, de repente, la lmpara se rompe? Por otra parte, creo que todos nosotros hemos experimentado el hecho de que stas lmparas que supuestamente tienen una duracin mayor que las tradicionales lmparas incandescentes (segn el envoltorio, 8 veces mayor), sin embargo, se rompen con facilidad. Luego, qu quiere decir exactamente el envoltorio al armar que su duracin es de 8 aos?

12

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Serie 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2

Placa 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12

90.00 91.80 90.30 92.60 91.10 76.10 92.40 91.30 96.70 92.00 94.10 91.70 93.00 91.40 91.90 90.60 93.10 90.80 88.00 88.30 94.20 101.50 92.80 92.10

92.20 94.50 91.10 90.30 89.80 90.20 91.70 90.10 93.70 94.60 91.50 97.40 89.90 90.60 91.80 91.30 91.80 91.50 91.80 96.00 92.20 103.10 90.80 93.40

94.90 93.90 93.30 92.80 91.50 96.80 91.60 95.40 93.90 93.70 95.30 95.10 93.60 92.20 92.80 94.90 94.60 91.50 90.50 92.80 95.80 103.20 92.20 94.00

92.70 77.30 93.50 91.60 91.50 84.60 91.10 89.60 87.90 94.00 92.80 96.70 89.00 91.90 96.40 88.30 88.90 91.50 90.40 93.70 92.50 103.50 91.70 94.70

A 91.6 92.0 87.2 92.7 90.6 93.3 88.0 90.7 90.4 89.3 93.4 77.5 93.6 92.4 93.8 87.9 90.0 94.0 90.3 89.6 91.0 96.1 89.0 90.8

88.20 89.90 88.10 91.70 93.10 95.70 92.40 95.80 92.00 90.10 92.20 91.40 90.90 87.60 86.50 92.20 97.90 91.00 91.50 89.60 91.40 102.50 88.50 92.10

92.00 87.90 90.10 89.30 88.90 90.90 88.70 91.70 90.50 91.30 89.40 90.50 89.80 88.90 92.70 90.70 92.10 92.10 89.40 90.20 92.80 102.00 87.50 91.20

98.20 92.80 91.90 95.50 92.50 100.30 92.90 97.90 95.20 92.70 94.50 95.20 92.40 90.90 90.90 91.30 91.60 91.80 93.20 95.30 93.60 106.70 93.80 92.30

96.00 93.30 94.50 93.60 92.40 95.20 92.60 95.70 94.30 94.50 95.40 93.10 93.00 92.80 92.80 93.60 98.40 94.00 93.90 93.00 91.00 105.40 91.40 91.10

Cuadro 1.1: Datos del espesor de las capas de xido de silicio

Prof. Dr. Antonio Jos Sez Castillo

13

Dpto de Estadstica e I.O. Universidad de Jan

En realidad, nosotros deberemos aprender a analizar este problema, asumiendo que la duracin de esta bombilla no es un valor jo y conocido, sino que est sujeto a incertidumbre. Lo que haremos ser dotarnos de un modelo matemtico que nos permita valorar si es probable o no que una lmpara ANTE se rompa antes de un ao, despus de tres aos, etc.

1.2.3. Ejemplo de los niveles de plomo


Un artculo publicado en
Journal of Environmental Engineering

en 2002, titulado Leachate from Land Dis-

posed Residential Construction Waste, presenta un estudio de la contaminacin en basureros que contienen desechos de construccin y desperdicios de demoliciones. De un sitio de prueba se tomaron 42 muestras de lixiado, de las cuales 26 contienen niveles detectables de plomo. Se pone as de maniesto que slo una parte de los basureros est contaminada por plomo. La cuestin es qu proporcin supone esta parte contaminada de la supercie total de los basureros? Si una ingeniera desea obtener a partir de esos datos una estimacin de la proporcin de los basureros que contiene niveles detectables de plomo debe ser consciente de dos cuestiones: 1. Es imposible analizar todos los rincones de todos los basureros. 2. Si se basa slo en los datos del artculo, esa estimacin ser slo eso, una estimacin basada en esa muestra, que es de slo 42 datos. Debera, por tanto obtener tambin una estimacin del error que est cometiendo al hacer la estimacin. Con ambos resultados, la estimacin en s y una cuanticacin del error que podra cometer con ella, incluso podr obtener un rango donde la verdadera proporcin se encuentra, con un alto nivel de conanza.

1.2.4. Ejemplo de los cojinetes


Un ingeniero industrial es responsable de la produccin de cojinetes de bolas y tiene dos mquinas distintas para ello. Le interesa que los cojinetes producidos tengan dimetros similares, independientemente de la mquina que los produce, pero tiene sospechas de que est produciendo algn problema de falta de calibracin entre ellas. Para analizar esta cuestin, extrae una muestra de 120 cojinetes que se fabricaron en la mquina A, y encuentra que la media del dimetro es de 5.068 mm y que su desviacin estndar es de 0.011 mm. Realiza el mismo experimento con la mquina B sobre 65 cojinetes y encuentra que la media y la desviacin estndar son, respectivamente, 5.072 mm y 0.007 mm. Puede el ingeniero concluir que los cojinetes producidos por las mquinas tienen dimetros medios signicativamente diferentes?

1.2.5. Ejemplo de la absorcin de un compuesto a distintas dosis y en distintos tiempos de absorcin


Un equipo de investigadores que trabajan en seguridad en el trabajo est tratando de analizar cmo la piel absorbe un cierto componente qumico peligroso. Para ello, coloca diferentes volmenes del compuesto qumico sobre diferentes segmentos de piel durante distintos intervalos de tiempo, midiendo al cabo de ese tiempo el porcentaje de volumen absorbido del compuesto. El diseo del experimento se ha realizado para que la interaccin esperable entre el tiempo y el volumen no inuya sobre los resultados. Los datos se mostrarn en el ltimo tema.

14

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Lo que los investigadores se cuestionan es si la cantidad de compuesto por un lado y el tiempo de exposicin al que se somete por otro, inuyen en el porcentaje que se absorbe. De ser as, sera interesante estimar el porcentaje de absorcin de personas que se sometan a una exposicin de una determinada cantidad, por ejemplo, durante 8 horas.

1.2.6. Ejemplo de los accidentes laborales


En una empresa se sospecha que hay franjas horarias donde los accidentes laborales son ms frecuentes. Para estudiar este fenmeno, contabilizan los accidentes laborales que sufren los trabajadores segn franjas horarias, durante un ao. Los resultados aparecen en la tabla. Horas del da 8-10 h. 10-12 h. 13-15 h. 15-17 h. Nmero de accidentes 47 52 57 63

Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.

1.2.7. Ejemplo de la cobertura de la antena de telefona mvil


Reduciendo mucho el problema, supongamos que una antena de telefona mvil tiene una cobertura que abarca a cualquier mvil dentro de un crculo de radio r. Un ingeniero puede suponer que un telfono concreto puede estar situado en
cualquier punto al azar

de ese crculo, pero cmo plasmar eso? Por ejemplo,


igualmente probable ?

si nos centramos en la distancia a la antena, cualquier distancia es decir de las coordenadas en un momento concreto del mvil?

Y qu podemos

1.2.8. Ejemplo de la seal aleatoria


En el contexto de las telecomunicaciones, cualquier seal debe considerarse aleatoria, es decir, debe tenerse en cuenta que cuando la observamos, parte de ella es debida a la incertidumbre inherente a cualquier proceso de comunicacin. Y es que, por multitud de razones, nadie tiene garantas que la seal enviada sea exactamente igual a la seal recibida. Un ingeniero debe tener en cuenta eso y, a pesar de todo, ser capaz de analizar las propiedades ms relevantes de cualquier seal y de estudiar su comportamiento en cualquier momento del proceso de comunicacin. Por ejemplo, hoy en da una seal sufre multitud de transformaciones en el proceso de comunicacin. Cada una de esas transformaciones se considera el resultado del paso de la seal por un sistema. El ingeniero debe ser capaz de conocer las caractersticas ms relevantes de la seal a lo largo de todas esas transformaciones.

1.3. Deniciones bsicas


Para nalizar este primer tema de introduccin, vamos a ir jando las deniciones ms elementales que utilizaremos a lo largo del curso y que ya han sido motivadas en la introduccin de los ejemplos anteriores.
Prof. Dr. Antonio Jos Sez Castillo

15

Dpto de Estadstica e I.O. Universidad de Jan

Se denomina

poblacin a un conjunto de individuos o casos, objetivo de nuestro inters.

Podemos distinguir entre poblaciones tangibles y poblaciones conceptuales. Una poblacin es

tangible si consta de elementos fsicos reales que forman un conjunto nito.

Por ejemplo, si estamos considerando el estudio de la altura de los alumnos de la Escuela, el conjunto de estos alumnos es una poblacin tangible. Una poblacin experimento. Por ejemplo, cuando plantebamos las pruebas sobre placas de silicio, vemos que hay tantos casos como pruebas puedan hacerse, lo que supone un conjunto innito de casos. En poblaciones conceptuales es imposible, por tanto, conocer todos los casos, y tenemos que conformarnos con muestras de los mismos. Una

conceptual no tiene elementos reales, sino que sus casos se obtienen por la repeticin de un

variable o dato es una caracterstica concreta de una poblacin.

Por ejemplo: Si consideramos la poblacin de todos los alumnos de la Escuela, podemos jarnos en la variable altura. Si consideramos el supuesto de las pruebas sobre placas de silicio, podemos considerar la variable espesor
de la capa de xido de silicio generada.

Se denomina

muestra a cualquier subconjunto de datos seleccionados de una poblacin. representen al conjunto de todos los elementos de la poblacin. Esta cuestin, la aleatorias

El objetivo de una muestra, ya sea en una poblacin tangible o en una poblacin conceptual es que los elementos de la muestra

construccin de muestras adecuadas, representativas, es uno de los aspectos ms delicados de la Estadstica. Nosotros vamos a considerar en esta asignatura slo un tipo de muestras, denominadas muestras

simples.

En una muestra aleatoria simple, todos los elementos de la poblacin deben tener las mismas

posibilidades de salir en la muestra y, adems, los elementos de la muestra deben ser independientes: el que salga un resultado en la muestra no debe afectar a que ningn otro resultado salga en la muestra. Por ejemplo, podramos estar interesados en la poblacin de todos los espaoles con derecho a voto (poblacin tangible, pero enorme), de los que querramos conocer un dato o variable, su intencin de voto en las prximas elecciones generales. Dado que estamos hablando de millones de personas, probablemente deberemos escoger una muestra, es decir, un subconjunto de espaoles a los que se les realizara una encuesta. Si queremos que esa muestra sea aleatoria simple, deberemos tener cuidado de que todos los espaoles con derecho a voto tengan las mismas posibilidades de caer en la muestra y de que la respuesta de un entrevistado no afecte a la de ningn otro. Como nota curiosa, sabed que la mayora de las encuestas nacionales se hacen va telefnica, lo cual es una pequea violacin de las hiptesis de muestra aleatoria simple, ya que hay espaoles con derecho a voto que no tienen telfono, luego es imposible que salgan en la muestra.

16

Prof. Dr. Antonio Jos Sez Castillo

Parte I
Estadstica descriptiva

17

Captulo 2
El tratamiento de los datos. Estadstica descriptiva

Es un error capital el teorizar antes de poseer datos. Insensiblemente uno comienza a alterar los hechos para encajarlos en las teoras, en lugar encajar las teoras en los hechos Sherlock Holmes (A. C. Doyle), en
Un escndalo en Bohemia

Resumen. En este captulo aprenderemos mtodos para resumir y describir conjuntos de datos a travs de
distintos tipos de tablas, grcos y medidas estadsticas.

Palabras clave:

datos cuantitativos, datos cualitativos, datos discretos, datos continuos, distribucin de

frecuencias, diagrama de barras, diagrama de sectores, histograma, media, mediana, moda, cuantiles, varianza, desviacin tpica, asimetra, datos atpicos.

2.1. Introduccin
Obtenidos a travs de encuestas, experimentos o cualquier otro conjunto de medidas, los datos estadsticos suelen ser tan numerosos que resultan prcticamente intiles si no son resumidos de forma adecuada. Para ello la Estadstica utiliza tanto tcnicas grcas como numricas, algunas de las cuales describimos en este captulo. Podemos decir que existe una clasicacin, un tanto articial, de los datos, segn se reeran a una poblacin tangible, en cuyo caso se conocern todos los casos, o a una poblacin conceptual, en cuyo caso slo se conocer una muestra (aleatoria simple). Sin embargo, esta clasicacin no tiene ningn efecto en lo relativo a lo que vamos a estudiar en este captulo.

2.2. Tipos de datos


Los datos (o variables) pueden ser de dos tipos:

cuantitativos y cualitativos.
19

Dpto de Estadstica e I.O. Universidad de Jan

cuantitativos son los que representan una cantidad reejada en una escala numrica. A su vez, pueden clasicarse como datos cuantitativos discretos si se reeren al conteo de alguna caracterstica, o datos cuantitativos continuos si se reeren a una medida.
Los datos Los datos

cualitativos o categricos se reeren a caractersticas de la poblacin que no pueden asociarse

a cantidades con signicado numrico, sino a caractersticas que slo pueden clasicarse.

Ejemplo. Veamos algunos ejemplos de cada uno de estos tipos de variables:


En el ejemplo del xido de silicio, la variable En el ejemplo de los cojinetes, el
espesor

es cuantitativa continua. es una variable cuantitativa continua.

dimetro de los cojinetes

En el ejemplo de los niveles de plomo, se est analizando si una muestra contiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con dos categoras:
detectables s contiene niveles

no contiene niveles detectables. de accidentes laborales

En el ejemplo de los accidentes laborales, la variable nmero

es cuantitativa

discreta, mientras que las franjas horarias constituyen una variable cualitativa.

2.3. Mtodos grcos y numricos para describir datos cualitativos


La forma ms sencilla de describir de forma numrica una variable cualitativa es determinar su distribucin de frecuencias. Por su parte, esta distribucin de frecuencias determina a su vez las representaciones grcas ms usuales. Supongamos que tenemos una variable cualitativa, que toma una serie de posibles valores (categoras). El nmero de veces que se da cada valor es la nmero de veces nos jamos en la proporcin de veces, tenemos la

distribucin de frecuencias de la variable. Si en vez de dar el distribucin de frecuencias relativas.

Las representaciones grcas ms usuales son los diagramas de barras y los diagramas de sectores. Los diagramas Los

de barras son una representacin de cada una de las categoras de la variable mediante una

barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa de dichas categoras.

diagramas de sectores son crculos divididos en tantos sectores como categoras, sectores cuyo ngulo

debe ser proporcional a la frecuencia de cada categora.

20

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Categora Pas Blgica Francia Finlandia Alemania Holanda Japn Suecia Suiza Estados Unidos TOTAL

Frecuencia Nmero de reactores nucleares 4 22 2 7 1 11 3 1 47 98

Frecuencia relativa Proporcin 0.041 0.225 0.020 0.071 0.010 0.112 0.031 0.010 0.480 1.000

Cuadro 2.1: Tabla de frecuencias.

Ejemplo.

Tomamos como poblacin los 98 reactores nucleares ms grandes en todo el mundo. Nos

jamos en la variable o dato referente al pas donde estn localizados. Los datos seran
Blgica, Blgica, Blgica, Blgica, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Finlandia, Finlandia, Alemania, Alemania, Alemania, Alemania, Alemania, Alemania, Alemania, Holanda, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Suecia, Suecia, Suecia, Suiza, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos.

Las distribuciones de frecuencias y de frecuencias relativas podemos resumirlas en una

cuencias como la que aparece en el Cuadro 2.1.


Figura 2.1 y la Figura 2.2 respectivamente.

tabla de fre-

Por su parte, las representaciones mediante diagramas de barras y sectores de estos datos aparecen en la

2.4. Mtodos grcos para describir datos cuantitativos


Si tenemos una variable cuantitativa discreta y sta toma pocos valores, podemos tratarla como si fuera una variable cualitativa, calcular su distribucin de frecuencias y dibujar un diagrama de barras.

Ejemplo.

En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza

un estudio sobre la calidad de produccin. Los datos siguientes informan sobre el nmero de piezas defectuosas encontradas en una muestra de cajas examinadas: 000000111111111222222222233333334444444555566666777889
Prof. Dr. Antonio Jos Sez Castillo

21

Dpto de Estadstica e I.O. Universidad de Jan

Reactores nucleares. Pas de origen

10

20

30

40

Alemania

Blgica

EEUU

Finlandia

Francia

Holanda

Japn

Suecia

Suiza

Figura 2.1: Diagrama de barras.


Reactores nucleares. Pas de origen

EEUU

Blgica

Alemania

Suiza Suecia

Finlandia

Japn

Holanda Francia

Figura 2.2: Diagrama de sectores.

El diagrama de barras asociado aparecen en la Figura 2.3. Sin embargo, la mayora de variables cuantitativas son de tipo continuo, de manera que toman demasiados valores como para que la representacin de su distribucin de frecuencias sea til1 . Por ello el mtodo grco ms comn y tradicional para datos cuantitativos es el histograma. El histograma es una variante del diagrama de barras donde se agrupan los valores de la variable en intervalos para que estos intervalos tengan frecuencias mayores que uno. Para obtener un histograma de forma manual deben seguirse los siguientes pasos: 1. Calculamos el nmero, N , de intervalos que vamos a utilizar. Se recomienda que sea aproximadamente igual a la raz cuadrada del nmero de datos. Sin embargo, los programas estadsticos suelen utilizar otro mtodo, llamado
Mtodo de Sturges,

en el que N = log2 n + 1 , donde n es el nmero de datos y

[] es la funcin parte entera.


1 Si toma muchos valores, muy probablemente la mayor parte de ellos slo aparezca una vez, por lo que la distribucin de frecuencias ser casi siempre constante e igual a 1.

22

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Nmero de piezas defectuosas


10 0 2 4 6 8

Figura 2.3: Diagrama de barras. 2. Calculamos el rango, R, del histograma, que ser ligeramente ms amplio que el rango de los datos. El histograma debe comenzar en un nmero (xm ) ligeramente por debajo del mnimo de los datos y terminar en un nmero (xM ) ligeramente por encima del mximo. El rango del histograma ser, por tanto, R = xM xm . 3. Calculamos la longitud, L, de los intervalos, como el cociente entre el rango del histograma y el nmero de intervalos, es decir, L =
R N.

4. Se construyen los N intervalos:

I1 = [xm , xm + L) I2 = [xm + L, xm + 2L) I3 = [xm + 2L, xm + 3L) ... IN = [xm + N L, xM ).


5. Para cada intervalo, contamos el nmero de datos que hay en l, es decir, la frecuencia del intervalo. 6. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos y sobre ellos se construyen barras cuya altura sea la frecuencia o la frecuencia relativa del intervalo. En este caso, las barras deben dibujarse sin espacio entre ellas. En ocasiones, en vez de tomar la frecuencia relativa como altura de las barras, se toma dicha frecuencia relativa como rea de las barras: en ese caso, se habla de un histograma en escala de densidad.

Nota. Por cuestiones que detallaremos ms adelante es importante destacar que el porcentaje de datos
que cae dentro de un intervalo es proporcional al rea de la barra que se construye sobre ese intervalo. Por ejemplo, si el rea de una barra es el 30 % del rea total del intervalo, entonces el 30 % de los datos estn en dicho intervalo.
Prof. Dr. Antonio Jos Sez Castillo

23

Dpto de Estadstica e I.O. Universidad de Jan

Tiempos de procesado
9 Frecuencia 1 0.00 2 3 4 5 6 7 8

0.96

1.92

2.88

3.84

4.80

Figura 2.4: Histograma.

Por otra parte, qu pasara si tomamos un nmero muy grande de datos? El nmero de intervalos del histograma sera tambin muy grande, y las barras seran muy estrechas, de manera que en vez de parecer un diagrama de barras, parecera la grca de una funcin real de variable real. Hablaremos de esta funcin y del rea debajo de ella en breve. Por cierto, cmo se calcula el rea bajo esta funcin?

Ejemplo. Los datos siguientes corresponden al tiempo necesario para procesar 25 trabajos en una CPU.
1.17 0.15 0.92 1.61 2.41 0.75 1.16 0.71 2.59 1.38 0.02 3.07 3.53 1.59 1.4 1.23 0.19 3.76 0.82 1.94 0.47 0.96 2.16 4.75 2.01

Vamos a calcular un histograma para esos datos. 1. Dado que

25 = 5, utilizaremos 5 intervalos.

2. El mnimo de los datos es 0.02 y el mximo 4.75, de manera que podemos considerar como rango del histograma el intervalo [0, 4.8], cuya longitud (rango del histograma) es 4.8. 3. La longitud de los intervalos es, en ese caso, 4. Construimos los intervalos:
4.8 5

= 0.96.

I1 = [0, 0.96) I2 = [0.96, 1.92) I3 = [1.92, 2.88) I4 = [2.88, 3.84) I5 = [3.84, 4.8)

24

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

5. Calculamos la distribucin de frecuencia asociada a esos intervalos: Tiempo de procesado Frecuencia 8 8 5 3 1

[0, 0.96) [0.96, 1.92) [1.92, 2.88) [2.88, 3.84) [3.84, 4.8)

6. Finalmente, representamos el diagrama de barras (Figura 2.4).

2.5. Mtodos numricos para describir datos cuantitativos


Es cierto que un diagrama de barras o un histograma nos ayudan a tener una imagen de cmo son los datos, pero normalmente es necesario complementar esa imagen mediante medidas que, de forma objetiva, describan las caractersticas generales del conjunto de datos. Vamos a ver en este apartado tres tipos de medidas, que bsicamente responden a tres preguntas:
estn los datos por dnde qu

(medidas de posicin),

cmo de agrupados estn los datos

(medidas de dispersin) y

forma tienen los datos

(medidas de forma).

2.5.1. Medidas de tendencia central


Las

medidas de tendencia central son medidas de posicin que tratan de establecer un valor que pueda
el centro

considerarse

de los datos en algn sentido.

2.5.1.1. Media
Sea un conjunto de datos de una variable cuantitativa, x1 , ..., xn . La

media de los datos es

x =

n i=1

xi

Esta medida es la ms comn dentro de las de tendencia central y corresponde al datos.

centro de gravedad

de los

Es inmediato comprobar que si se realiza un cambio de origen y escala sobre los datos, del tipo y = ax + b, la media sufre el mismo cambio, es decir, y = ax + b. De igual forma, si tenemos datos de la suma de dos o ms variables, la media de la suma es la suma de las medias de cada variable.
Prof. Dr. Antonio Jos Sez Castillo

25

Dpto de Estadstica e I.O. Universidad de Jan

2.5.1.2. Mediana
Sea un conjunto de datos de una variable cuantitativa, x1 , ..., xn . Ordenemos la muestra de menor a mayor,

x(1) , ..., x(n) .


La

mediana es el valor de la variable que deja el mismo nmero de datos antes y despus que l, una vez

ordenados estos.

El clculo de la mediana depender de si el nmero de datos, n, es par o impar: Si n es impar, la mediana es el valor que ocupa la posicin
n+1 2

una vez que los datos han sido ordenados

(en orden creciente o decreciente), porque ste es el valor central. Es decir: Me = x( n+1 ) . 2 Si n es par, la mediana es la media aritmtica de las dos observaciones centrales. Cuando n es par, los dos x n +x n ( 2 ) ( 2 +1) n datos que estn en el centro de la muestra ocupan las posiciones n y +1 . Es decir: M = . e 2 2 2 La mediana corresponde exactamente con la idea de valor central de los datos. De hecho, puede ser un valor ms representativo de stos que la media, ya que es ms un ejemplo.
robusta

que la media. Vemos qu signica esto en

Ejemplo. Consideremos los datos siguientes:


0012345
Su media es
0+0+1+2+3+4+5 7

= 2.1429, y su mediana 2.

Pero imaginemos que por error o por casualidad obtenemos un nuevo dato enormemente grande en relacin al resto de datos, 80. En ese caso, la media sera

0 + 0 + 1 + 2 + 3 + 4 + 5 + 80 = 11.875 8
y la mediana 2.5. Es decir, un solo dato puede desplazar enormemente la media, hasta convertirla en una medida poco representativa, pero slo desplazar ligeramente la mediana. Ese es el motivo por el que se dice que la mediana es una medida

robusta.

2.5.1.3. Moda o intervalo modal


En principio la

moda se dene como el valor ms frecuente de los datos. Lo que ocurre es que si stos son intervalo modal, aqul con mayor frecuencia asociada.

datos de una variable continua o discreta con muchos valores, puede que los datos apenas se repitan. En ese caso, en el que, como vimos en las representaciones grcas, se debe agrupar por intervalos, no debe darse un valor como moda, sino un

26

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

2.5.2. Cuantiles
Los

cuantiles son medidas de posicin pero no necesariamente ligados al centro

de los datos. La idea a la

que responden es muy sencilla y muy prctica. Se trata de valorar de forma relativa cmo es un dato respecto del conjunto global de todos los datos. Si, por ejemplo, un nio de 4 aos pesa 13 kilos, est desnutrido? est sano? La respuesta debe ser que
depende.

Dnde vive el nio? Es importante porque, por ejemplo, en Estados Unidos los nios son en general

ms grandes que, por ejemplo, en Japn. Quiz ms que el peso nos interese saber qu posicin relativa tiene el peso del nio dentro de la poblacin de la que forma parte. Por ejemplo, si nos dicen que el nio est entre el 1 % de los nios que menos pesan, probablemente tiene un problema de crecimiento. El

cuantil p (Qp ) de unos datos (0 p 1), sera un valor de la variable situado de modo que el 100p % de

los valores sean menores o iguales que l y el resto (100(1 p) %) mayores.

No obstante, en la prctica vamos a encontrar un problema para encontrar cuantiles, sobre todo con pocos datos: lo ms habitual es que no exista el valor exacto que deje a la izquierda el 100p % de los valores y el resto a la derecha. Por ese motivo, los programas estadsticos utilizan unas frmulas de interpolacin para obtener el valor del cuantil entre los dos valores de los datos que lo contienen. En nuestro caso, a la hora de obtener cuantiles, la aplicacin de esas frmulas de interpolacin correspondiente de la siguiente forma: 1. Si el 100p % de n, donde n es el nmero de datos, es un entero, k , entonces Qp =
x(k) +x(k+1) . 2

a mano

haran muy lentos y pesados

los clculos, por lo que vamos a aplicar un convenio mucho ms sencillo: aproximaremos el valor del cuantil

2. Si el 100p % de n no es un entero, lo redondeamos al entero siguiente, k , y entonces Qp = x(k) . No olvidemos, sin embargo, que los programas estadsticos van a utilizar las frmulas de interpolacin para calcular el valor de los cuantiles, de manera que no debe extraar si se observan pequeas diferencias al comparar nuestros resultados
a mano

con los de estos programas.

Existen diversos nombres para referirse a algunos tipos de cuantiles. Entre ellos: Los

percentiles

son los cuantiles que dividen la muestra en 100 partes, es decir, son los cuantiles

0.01 (percentil 1), 0.02 (percentil 2), ..., 0.99 (percentil 99). Si notamos por P al percentil , con

= 1, 2, 3, ..., 99, se tiene que P = Q/100 . En Estadstica Descriptiva es ms frecuente hablar de


percentiles que de cuantiles porque se reeren a cantidades entre 0 y 100, en tanto por ciento, que son ms habituales de valorar por todo el mundo. Los

cuartiles

dividen a la poblacin en cuatro partes iguales, es decir, corresponden a los cuantiles

0.25, 0.5 (mediana) y 0.75.

Ejemplo. Consideremos de nuevo los datos correspondientes al tiempo de procesado de 25 tareas en una
CPU. Ahora los hemos ordenado de menor a mayor (en 5 las):

Prof. Dr. Antonio Jos Sez Castillo

27

Dpto de Estadstica e I.O. Universidad de Jan

0.02 0.15 0.19 0.47 0.71

0.75 0.82 0.92 0.96 1.16

1.17 1.23 1.38 1.40 1.59

1.61 1.94 2.01 2.16 2.41

2.59 3.07 3.53 3.76 4.75

Vamos a calcular distintas medidas de posicin y a comentarlas. En primer lugar, la media es 1.63. La mediana ocupa el lugar 13 en la muestra ordenada, y su valor es 1.38. Obsrvese que la media es algo mayor que la mediana: esto es debido a la presencia de algunos valores signicativamente ms altos que el resto, como pudimos ver en el histograma. Por su parte, el P25 o cuantil 0.25 ocupa la posicin 7, ya que el 25 % de 25 es 6.25. Por tanto, P25 = 0.82. De igual forma, P75 = Q0.75 = 2.16, el valor que ocupa la posicin 19. Podemos ver, por tanto, que los valores ms bajos estn muy agrupados al principio, y se van dispersando ms conforme se hacen ms altos.

2.5.3. Medidas de variacin o dispersin


Las

medidas de variacin o dispersin estn relacionadas con las medidas de tendencia central, ya que

lo que pretenden es cuanticar cmo de concentrados o dispersos estn los datos respecto a estas medidas. Nosotros nos vamos a limitar a dar medidas de dispersin asociadas a la media. La idea de estas medidas es valorar en qu medida los datos estn agrupados en torno a la media. Esta cuestin tan simple es uno de los motivos ms absurdos de la mala prensa que tiene la Estadstica en la sociedad en general. La gente no se fa de lo que ellos llaman
la Estadstica

entre otros motivos, porque parece que todo

el mundo cree que una media tiene que ser un valor vlido para todos, y eso es materialmente imposible.

Ejemplo. Pensemos en la media del salario de los espaoles. En 2005 fue de 18.750 euros al ao. Ahora bien,
esa media incluye tanto a las regiones ms desarrolladas como a las ms desfavorecidas y, evidentemente, la cifra generar mucho malestar en gran parte de la poblacin (con toda seguridad, ms del 50 %), cuyo salario est por debajo.

Ejemplo. Existe una frase muy conocida que dice que  la Estadstica es el arte por el cul si un espaol se
come un pollo y otro no se come ninguno, se ha comido medio pollo cada uno .

Esa frase se usa en muchas

ocasiones para ridiculizar a la Estadstica, cuando en realidad debera servir para desacreditar a quien la dice, por su ignorancia. Hay que decir que la Estadstica no tiene la culpa de que la gente espere de una media ms de lo que es capaz de dar, ni de que muy poca gente conozca medidas de dispersin asociadas a la media.

2.5.3.1. Varianza muestral


Dados unos datos de una variable cuantitativa, x1 , ..., xn , la

varianza muestral2 de esos datos es


2

s2 n1 =

n i=1

(xi x ) . n1

28

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Nota. Para calcular a mano la varianza resulta ms cmodo desarrollar un poco su frmula, como vamos
a ver:

s2 n1 = =

x )2 = n1 n 2 2 i=1 xi nx . n1

n i=1 (xi

n i=1

x i=1 xi + nx 2 x2 i 2 = n1

n i=1

xnx + nx 2 x2 i 2 n1

Cuanto mayor sea la varianza de unos datos, ms dispersos, heterogneos o variables son esos datos. Cuanto ms pequea sea una varianza de unos datos, ms agrupados u homogneos son dichos datos.

Ejemplo. Una muestra aleatoria simple de la altura de 5 personas arroja los siguientes resultados:
1.76 1.72 1.80 1.73 1.79

Calculemos su media y su varianza muestral. Lo nico que necesitamos es


5 i=1

xi = 8.8 y

5 i=1

x2 i = 15.493. A partir de estos datos,

x =
y

8.8 = 1.76 5

s2 n1 =

15.493 5 1.762 = 0.00125 4

En lo que respecta al comportamiento de la varianza muestral frente a cambios de origen y escala, slo le
2 2 afectan los segundos. Es decir, si tenemos que y = ax + b, se verica que s2 y ;n1 = a sx;n1 .

Finalmente, si bien habamos comentado que en el caso de la media, si tenemos la suma de varias variables, la media total es la suma de las medias de cada variable, no ocurre as con la varianza en general.

2.5.3.2. Desviacin tpica o estandar muestral


El principal problema de la varianza es su unidad de medida. Por cmo se dene si, por ejemplo, la variable se expresa en kilos, la media tambin se expresa en kilos, pero la varianza se expresa en kilos2 , lo que hace que sea difcil valorar si una varianza es muy elevada o muy pequea.

Es por ello que se dene la

desviacin tpica o estandar muestral

de los datos como sn1 =

s2 n1 ,

cuya unidad de medida es la misma que la de la media.

Prof. Dr. Antonio Jos Sez Castillo

29

Dpto de Estadstica e I.O. Universidad de Jan

Nota. La Regla Emprica


Si el histograma asociado a unos datos tiene la forma de una campana o de una joroba, el conjunto de datos tendr las siguientes caractersticas, lo que en algunos libros se conoce como

Regla Emprica:

1. Aproximadamente el 68 % de los datos estar en el intervalo ( x sn1 , x + sn1 ) . 2. Aproximadamente el 95 % de los datos estar en el intervalo ( x 2sn1 , x + 2sn1 ) . 3. Casi todos los datos estarn en el intervalo ( x 3sn1 , x + 3sn1 ) .

Figura 2.5: Representacin grca de la regla emprica.

2.5.3.3. Coeciente de variacin


Como acabamos de decir, debemos proporcionar cada media junto con alguna medida de dispersin, preferentemente la desviacin tpica. Una forma de valorar en trminos relativos cmo es de dispersa una variable es precisamente proporcionar el cociente entre la desviacin tpica y la media (en valor absoluto), lo que se conoce como

coeciente de variacin.

Dado un conjunto de datos de media x y desviacin tpica sn1 , se dene su coeciente

de variacin como

CV =

sn1 . |x |

La principal ventaja del coeciente de variacin es que no tiene unidades de medida, lo que hace ms fcil su interpretacin.

30

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, la varianza es 1.42, luego su
desviacin estandar es 1.19, y el coeciente de variacin
1.19 1.63

= 0.73. Por tanto, la desviacin estndar es

algo ms del 70 % de la media. Esto indica que los datos no estn muy concentrados en torno a la media, probablemente debido a la presencia de los valores altos que hemos comentado antes.

Nota.

El coeciente de variacin, tal y como est denido, slo tiene sentido para conjuntos de datos

con el mismo signo, es decir, todos positivos o todos negativos. Si hubiera datos de distinto signo, la media podra estar prxima a cero o ser cero, imposibilitando que aparezca en el denominador.

Nota. Suele ser frecuente el error de pensar que el coeciente de variacin no puede ser mayor que 1, lo
cual es rigurosamente falso. Si lo expresamos en porcentaje, el coeciente de variacin puede ser superior al 100 % sin ms que la desviacin tpica sea mayor que la media, cosa bastante frecuente, por cierto.

Nota. A la hora de interpretar el coeciente de variacin inmediatamente surge la pregunta de cundo


podemos decir que es alto y cundo que es bajo?

Realmente, no existe una respuesta precisa, sino que

depende del contexto de los datos que estemos analizando. Si, por ejemplo, estamos analizando unos datos que por su naturaleza deben ser muy homogneos, un coeciente de variacin del 10 % sera enorme, pero si por el contrario estamos analizando datos que por su naturaleza son muy variables, un coeciente de variacin del 10 % sera muy pequeo. Por todo ello, lo recomendable es analizar el coeciente de variacin entendiendo su signicado numrico, es decir, entendiendo que se reere a la comparacin de la desviacin tpica con la media, e interpretando su valor en relacin al contexto en el que estemos trabajando.

2.5.4. Medidas de forma. Coeciente de asimetra


Las

medidas de forma comparan la forma que tiene la representacin grca, bien sea el histograma o el

diagrama de barras de la distribucin, con una situacin ideal en la que los datos se reparten en igual medida a la derecha y a la izquierda de la media. Esa situacin en la que los datos estn repartidos de igual forma a uno y otro lado de la media se conoce como mediana, su moda y su media coinciden. Por contra, se dice que una distribucin es asimtrica

simetra, y se dice en ese caso que la distribucin de los datos es simtrica. En ese caso, adems, su a la derecha si las frecuencias (absolutas o relativas) asimtrica a la izquierda.

descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es Para valorar la simetra de unos datos se suele utilizar el

coeciente de asimetra de Fisher:


.

n )3 i=1 (xi x

As =
Prof. Dr. Antonio Jos Sez Castillo

n1

s3 n1

31

Dpto de Estadstica e I.O. Universidad de Jan

Obsrvese que para evitar el problema de la unidad y hacer que la medida sea escalar y por lo tanto relativa, dividimos por el cubo de su desviacin tpica. De esta forma podemos valorar si unos datos son ms o menos simtricos que otros, aunque no estn medidos en la misma unidad de medida. La interpretacin de este coeciente de asimetra es la siguiente: Tanto mayor sea el coeciente en valor absoluto, ms asimtricos sern los datos. El signo del coeciente nos indica el sentido de la asimetra: Si es positivo indica que la asimetra es a la derecha. Si es negativo, indica que la asimetra es a la izquierda.

Figura 2.6: Formas tpicas de distribuciones de datos.

Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, el coeciente de asimetra
de Fisher es 0.91, lo que, como habamos visto y comentado con anterioridad, pone de maniesto que la distribucin es asimtrica a la derecha, debido a la presencia de tiempos de procesado bastante altos en relacin al resto.

2.5.5. Parmetros muestrales y parmetros poblacionales


Cuando se trabaja con una muestra de una poblacin, ya sea sta tangible o conceptual, las distintas medidas de posicin, dispersin y forma, se denominan

parmetros muestrales.

Hay que tener en cuenta que

prcticamente siempre se trabaja con muestras, ya que o bien trabajamos con poblaciones conceptuales o con poblaciones tangibles (nitas, por tanto), pero con muchsimos elementos. Frente a estos parmetros muestrales se encuentran los parmetros anlogos referidos a toda la poblacin. Estos parmetros, llamados parmetros

poblacionales, son, en general, imposibles de conocer3 . Por ejem-

plo, la media poblacional se calculara igual que la media muestral de unos datos, pero aplicada la frmula a todos los elementos de la poblacin. Como eso es prcticamente imposible de poner en la prctica, veremos
3 Salvo

en el caso de poblaciones nitas con pocos elementos.


Prof. Dr. Antonio Jos Sez Castillo

32

Apuntes de Estadstica para Ingenieros

en captulos posteriores que los parmetros muestrales se utilizan en la prctica para aproximar o estimar los parmetros poblacionales.

2.6. Mtodos para detectar datos cuantitativos atpicos o fuera de rango


Hay ocasiones en que un conjunto de datos contiene una o ms observaciones inconsistentes en algn sentido. Por ejemplo, en los datos de tiempo de procesado en una CPU de 25 tareas, supongamos que tenemos una observacin ms, igual a 85, debido a que la CPU se bloque y hubo que reiniciarla. Este dato, que probablemente no deseemos incluir, es un ejemplo de caso de dato atpico o valor fuera de rango. En general, una observacin que es inusualmente grande o pequea en relacin con los dems valores de un conjunto de datos se denomina

dato atpico o fuera de rango.

Estos valores son atribuibles, por lo general, a una de las siguientes causas: 1. El valor ha sido introducido en la base de datos incorrectamente. 2. El valor proviene de una poblacin distinta a la que estamos estudiando. 3. El valor es correcto pero representa un suceso muy poco comn. A continuacin vamos a proponer dos maneras de determinar si un dato es un valor fuera de rango.

2.6.1. Mediante la regla emprica


Este mtodo es adecuado si el histograma de los datos tiene forma de campana, en cuyo caso podemos aplicar la regla emprica para detectar qu datos estn fuera de los rangos
atpicos los lgicos

segn esta regla.


se considerarn datos

Segn ella, el 99.5 % de los datos estn en el intervalo [ x 3sn1 , x + 3sn1 ], luego

xi

que no pertenezcan al intervalo

[ x 3sn1 , x + 3sn1 ] .

2.6.2. Mediante los percentiles


Supongamos que tenemos un conjunto de datos x1 , ..., xn . El procedimiento es el siguiente: 1. Se calculan los cuartiles primero y tercero, es decir, los percentiles 25 y 75, P25 y P75 . Se calcula el llamado
rango intercuartlico

(IR o

RI ),

IR = P75 P25 .

2. Se consideran

datos atpicos aquellos inferiores a P25 1.5IR o superiores a P75 + 1.5IR.

Prof. Dr. Antonio Jos Sez Castillo

33

Dpto de Estadstica e I.O. Universidad de Jan

Serie 1 Serie 2

Medias 92.01 92.74

Desv. Tpica 3.62 3.73

CV 25.40 24.86

Coef. Asimetra -1.79 1.71

Cuadro 2.2: Resumen descriptivo de los datos de las placas de silicio

Ejemplo. Vamos a ver si hay algn dato atpico entre los datos de tiempo de procesado en una CPU de
25 tareas. Dado que el histograma no tena forma de campana, el mtodo de la regla emprica no es el mtodo ms adecuado para la deteccin de valores atpicos. Por su parte, P50 = 1.38, P25 = 0.82 y P75 = 2.16. Por tanto, IR = 2.16 0.82 = 1.34, y el intervalo fuera del cal consideramos valores fuera de rango es [0.82 1.5 1.34, 2.16 + 1.5 1.34] = [1.19, 4.17]. De esta forma, el valor 4.75 es un valor fuera de rango. Hay una versin grca de este mtodo para detectar valores atpicos mediante los percentiles: se llama

diagrama de caja o diagrama de cajas y bigotes o (en ingls) boxplot. Este diagrama incluye en un
grco: 1. El valor de la mediana (o segundo cuartil, Q2 ): ese es el centro de la caja.

2. El valor de los percentiles 25 y 75, cuartiles primero y tercero respectivamente (Q1 y Q3 ): son los lados inferior y superior de la caja. 3. El diagrama no representa los lmites P25 1.5 IR y P75 + 1.5 IR. En su lugar, seala los ltimos puntos no atpicos por debajo (Li ) y por encima (Ls ), es decir, seala el ltimo dato por encima de

P25 1.5 IR y el ltimo dato por debajo de P75 + 1.5 IR, y los representa como
de la caja. 4. Normalmente representa con crculos los datos atpicos.

bigotes

que salen

2.7. Sobre el ejemplo de las capas de dixido de silicio


Ya estamos en condiciones de responder en parte a las cuestiones que quedaron latentes en el tema de introduccin sobre el ejemplo de las placas de silicio. Vamos a comenzar realizando un resumen descriptivo de los datos, separando por series, proporcionando media, desviacin tpica, coeciente de variacin y coeciente de asimetra. Todos estos resultados aparecen en la Tabla 2.2. En primer lugar, es cierto que, como apuntbamos en el tema de introduccin, los valores estn en torno a 90 (la media es 92 ms o menos). Adems, vemos que s que hay una variabilidad moderada de los datos, con un CV en torno al 25 %, lo que indica que, al parecer, las distintas condiciones en que cada medicin se realiz, afectaron en alguna medida el resultado: todo esto es muy preliminar porque no tenemos la informacin completa de en qu condiciones se realizaron cada una de las mediciones. Por el contrario, podemos observar algo muy llamativo. Los datos de la primera serie son claramente asimtricos a la izquierda (coeciente de

34

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 2.7: Descripcin de un diagrama de caja. Fuente: http://es.wikipedia.org/wiki/Diagrama_de_caja asimetria de -1.79), mientras que los de la segunda serie son claramente asimtricos a la derecha (coeciente de asimetra de 1.71). Dado que no era esperable que surgieran diferencias entre las dos series, debemos preguntarnos qu pas. Para tratar de analizar ms profundamente los datos, vamos a proporcionar tambin los dos diagramas de caja de ambas series. Aparecen en la Figura 2.8. Con ellas, vamos a resumir ahora las decisiones que los autores tomaron en vista de los resultados y las conclusiones a las que llegaron. Obsrvese que las diferencias entre las series no afectan sorprendentemente al conjunto de las muestras, sino slo a los valores atpicos que se ven en ambos diagramas de caja. Eso probara que, en efecto, no hay ninguna diferencia sistemtica entre las series. La siguiente tarea es la de inspeccionar los datos atpicos. Si miramos con atencin los datos, vemos que las 8 mediciones ms grandes de la segunda serie ocurrieron en la placa 10. Al ver este hecho, los autores del trabajo inspeccionaron esta placa y descubrieron que se haba contaminado con un residuo de la pelcula, lo que ocasion esas mediciones tan grandes del espesor. De hecho, los ingenieros eliminaron esa placa y toda la serie entera por razones tcnicas. En la primera serie, encontraron tambin que las tres mediciones ms bajas se haban debido a un calibrador mal congurado, por lo que las eliminaron. No se pudo determinar causa alguna a la existencia de los dos datos atpicos restantes, por lo que permanecieron en el anlisis. Por ltimo, ntese que despus de este proceso de depuracin de los datos que el anlisis mediante Estadstica Descriptiva ha motivado, la distribucin de los datos tiene una evidente forma de campana.
Prof. Dr. Antonio Jos Sez Castillo

35

Dpto de Estadstica e I.O. Universidad de Jan

Figura 2.8: Diagramas de caja de los datos del espesor de las capas de dixido de silicio

36

Prof. Dr. Antonio Jos Sez Castillo

Parte II
Clculo de Probabilidades

37

Captulo 3
Probabilidad

Vemos que la teora de la probabilidad en el fondo slo es sentido comn reducido a clculo; nos hace apreciar con exactitud lo que las mentes razonables toman por un tipo de instinto, incluso sin ser capaces de darse cuenta[...] Es sorprendente que esta ciencia, que surgi del anlisis de los juegos de azar, llegara a ser el objeto ms importante del conocimiento humano[...] Las principales cuestiones de la vida son, en gran medida, meros problemas de probabilidad. Pierre Simon, Marqus de Laplace

Resumen. El captulo proporciona un tratamiento de los experimentos cuyos resultados no se pueden predecir
con certeza a travs del concepto de probabilidad. Se analizan las propiedades de la probabilidad y se introduce tambin el concepto de probabilidad condicionada, que surge cuando un suceso modica la asignacin de probabilidades previa.

Palabras clave: experimento aleatorio, experimento determinstico, espacio muestral, suceso, probabilidad,
probabilidad condicionada, independencia de sucesos.

3.1. Introduccin
considerando

probables aquellos eventos en los que tenemos un alto grado de creencia en su ocurrencia. En esta lnea, Probabilidad es un concepto asociado a la medida del azar. Tambin pensamos en el azar
vinculado, fundamentalmente, con los juegos de azar, pero desde esa ptica tan reducida se nos escapan otros muchsimos ejemplos de fenmenos de la vida cotidiana o asociados a disciplinas de distintas ciencias donde el azar juega un papel fundamental. Por citar algunos: Qu nmero de unidades de produccin salen cada da de una cadena de montaje? No existe un nmero jo que pueda ser conocido a priori, sino un conjunto de posibles valores que podran darse, cada uno de ellos con un cierto grado de certeza. Cul es el tamao de un paquete de informacin que se transmite a travs de HTTP? No existe en realidad un nmero jo, sino que ste es desconocido a priori. 39

En nuestra vida cotidiana asociamos usualmente el concepto de

Probabilidad a su calicativo probable,

Dpto de Estadstica e I.O. Universidad de Jan

Cul es la posicin de un objeto detectado mediante GPS? Dicho sistema obtiene, realmente, una estimacin de dicha posicin, pero existen mrgenes de error que determinan una regin del plano donde el objeto se encuentra con alta probabilidad. Qu ruido se adhiere a una seal que se enva desde un emisor a un receptor? Dependiendo de las caractersticas del canal, dicho ruido ser ms o menos relevante, pero su presencia no podr ser conocida a priori, y deber ser diferenciada de la seal primitiva, sin que se conozca sta, teniendo en cuenta que se trata de un ruido
aleatorio.

En todos estos ejemplos el azar es un factor insoslayable para conocer el comportamiento del fenmeno en estudio.

3.2. Experimentos aleatorios y experimentos determinsticos


En general, un experimento del que se conocen todos sus posibles resultados y que, repetido en las mismas condiciones, no siempre proporciona los mismos resultados se conoce como En contraposicin, un se obtengan los mismos resultados. Lo que el Clculo de Probabilidades busca es encontrar una medida de la incertidumbre o de la certidumbre que se tiene de todos los posibles resultados, ya que jams (o muy difcilmente) se podr conocer a priori el resultado de cualquier experimento donde el azar est presente: a esta medida de la incertidumbre la denominaremos
probabilidad

experimento determinstico es aquel donde las mismas condiciones aseguran que

experimento aleatorio.

1.

3.3. Denicin de probabilidad


Tenemos, por tanto, que probabilidad es la asignacin que hacemos del grado de creencia que tenemos sobre la ocurrencia de algo. Esta asignacin, sin embargo, debe ser debe cumplir cualquier reparto de probabilidades.
coherente.

Esta necesidad de que asignemos


axiomas,

probabilidades adecuadamente se va a plasmar en esta seccin en tres reglas, conocidas como

que

3.3.1. lgebra de conjuntos


Si consideramos un experimento aleatorio, podemos caracterizar los posibles resultados de dicho experimento como conjuntos. Es de inters, por tanto, repasar los conceptos y propiedades bsicas del lgebra de conjuntos. En todo este apartado no debemos olvidar que los conjuntos representan en nuestro caso los posibles resultados de un experimento aleatorio. Un

conjunto es una coleccin de elementos. Se dice que B es un subconjunto de A si todos sus elementos lo son tambin de A, y se notar B A.

1 Es mejor que aceptemos desde el principio que la Estadstica no es la ciencia de la adivinacin: tan slo se ocupa de cuanticar cmo de incierto es un evento y, ocasionalmente, de proponer estrategias de prediccin basadas en dicha medida de la incertidumbre.

40

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Para cada A se verica A A . Si C B y B A, entonces, C A. Esto se conoce como propiedad transitiva. La

unin

de B y A es un conjunto cuyos elementos son los elementos de A y B , y se nota A B . Esta

operacin verica la propiedad conmutativa y asociativa. Si A B , entonces A B = B. La

interseccin

de A y B es el conjunto formado por los elementos comunes de A y B , y se nota AB o

A B. Esta operacin verica la propiedad conmutativa, asociativa y distributiva respecto de la unin.


Dos conjuntos, A y B , se dicen es vaca, es decir, A B = . Si dos conjuntos A y B son disjuntos, su unin suele notarse A + B . Los conjuntos A1 , ..., AN se dicen Una

mutuamente excluyentes, disjuntos o incompatibles si su interseccin

particin

mutuamente excluyentes si Ai Aj = para todo i = j.

es una coleccin de conjuntos, A1 , ..., AN tal que:

a) A1 ... AN = b) Ai Aj = para todo i = j. El no pertenecen a A. Se sigue por tanto,

Ac , est formado por todos los elementos de que conjunto complementario de un conjunto A, A

= AA = AA (Ac ) = A = B Si B A A = B. Si A = B A
Finalmente, mencionemos las llamadas Leyes de Morgan:
c

B AB =A

B. AB =A

3.3.2. Espacio muestral


Consideremos un experimento aleatorio.
Prof. Dr. Antonio Jos Sez Castillo

41

Dpto de Estadstica e I.O. Universidad de Jan

muestral, y lo notaremos habitualmente como .


Hablaremos de

El conjunto formado por todos los posibles resultados del experimento aleatorio recibe el nombre de espacio

Cualquier subconjunto de un espacio muestral recibe el nombre de

ensayo o realizacin

suceso o evento.
si se observa en dicho ensayo cualquier

de un experimento aleatorio rerindonos a una ejecucin de dicho

experimento. As, diremos que en un ensayo resultado incluido en el suceso A.

ocurre un suceso A

Una observacin importante es que el espacio muestral no tiene por qu ser nico, sino que depender de lo que deseemos observar del experimento aleatorio. Vamos a poner este hecho de maniesto en los siguientes ejemplos.

Ejemplo. Si consideramos el lanzamiento de un dado, un espacio muestral sera ={1,2,3,4,5,6}.


Los sucesos ms elementales posibles son {1}, {2}, {3}, {4}, {5} y {6}. Otros sucesos no elementales pueden ser {1,2}, {mayor que 2}, {par}, ... Sin embargo, supongamos que estamos lanzando un dado porque no tenemos ninguna moneda a mano, y slo deseamos ver si el resultado es par o impar. En ese caso, el espacio muestral sera = {par, impar}.

Ejemplo. Un experimento habitual en Biologa consiste en extraer, por ejemplo, peces de un ro, hasta
dar con un pez de una especie que se desea estudiar. El nmero de peces que habra que extraer hasta conseguir el ejemplar deseado de la especie en estudio formara el espacio muestral, = {1, 2, 3, ...}, si es que el investigador desea observar exactamente el nmero de peces hasta extraer ese ejemplar deseado. Obsrvese que se trata de un conjunto no acotado, pero numerable. Como ejemplos de posibles sucesos de inters podramos poner los eventos {1,2,3,4,5}, {mayor o igual a 5},... Supongamos ahora que el investigador slo est interesado en comprobar si hacen falta ms de 5 extracciones para obtener un ejemplar de la especie en estudio. En ese caso, el espacio muestral sera

= {> 5, 5}.

Ejemplo.

Si consideramos el experimento aleatorio consistente en elegir un nmero absolutamente al

azar entre 0 y 1, un espacio muestral sera = [0, 1]. A diferencia de los anteriores ejemplos, este espacio muestral no es nito, ni siquiera numerable. Como ejemplo de sucesos posibles en este espacio muestral podemos destacar, entre otros, {menor que 0.5} , {mayor que 0.25}, {menor que 0.75} ,... Otro espacio muestral podra ser observar el valor decimal mayor ms cercano. Por ejemplo, si sale 0.25, me interesa 0.3. En ese caso el espacio muestral sera = 0.1, 0.2, ...1. Este espacio muestral servira, por ejemplo, para sortear nmeros entre 1 y 10, sin ms que multiplicar el resultado obtenido por 10.

42

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

En estos ltimos ejemplos podemos ver que hay dos grandes tipos de espacios muestrales segn el nmero de sucesos elementales. Un espacio muestral se dice elementales. Por el contrario, un espacio muestral se dice sucesos elementales.

discreto si est formado por un conjunto nito o innito numerable de sucesos continuo
si est formado por un conjunto no numerable de

3.3.3. Funcin de probabilidad


Dado un espacio muestral correspondiente a un experimento aleatorio, una verique

funcin de probabilidad

para ese espacio muestral es cualquier funcin que asigne a cada suceso un nmero en el intervalo [0, 1] y que

P [A] 0, para cualquier evento A. P [] = 1.


Dada una coleccin de sucesos A1 , A2 , ..., An mutuamente excluyentes, es decir, tales que Ai Aj = para todo i = j,
n

P [n i=1 Ai ] =
i=1

P [Ai ] .

Nota. Hay que notar que se puede dar ms de una funcin de probabilidad asociada al mismo espacio
muestral. Por ejemplo, asociado al espacio muestral = {cara, cruz }, del lanzamiento de una moneda, pueden darse un nmero innito no numerable de medidas de la probabilidad; concretamente, asociadas a cada eleccin

P [cara] = p P [cruz ] = 1 p,
para cada p [0, 1] . Aunque si la moneda no est cargada, como sucede habitualmente, se considera el caso en que p = 1 2.

Ejemplo. Volviendo sobre el lanzamiento del dado, si ste no est cargado, podemos denir la siguiente
funcin de probabilidad:

P [{i}] =

1 , i = 1, 2, ..., 6. 6

Prof. Dr. Antonio Jos Sez Castillo

43

Dpto de Estadstica e I.O. Universidad de Jan

Figura 3.1: Circuito

En ese caso, podemos, a su vez, calcular algunas probabilidades. Por ejemplo,

P ({par}) = P [{2, 4, 6}] = P [{2}] + P [{4}] + P [{6}] 1 1 1 = + + = 0.5. 6 6 6


En este clculo se ha tenido en cuenta la tercera condicin de la denicin axiomtica. Como consecuencia de la denicin se verican, entre otras, las siguientes propiedades, que adems facilitan bastante los clculos:

P [] = 0. = 1 P [A] . Sea A un suceso cualquiera. Entonces, P A = P [A] P [A B ] . Sean A y B dos sucesos cualesquiera. Entonces, P A B
Sean A y B dos sucesos cualesquiera. Entonces, P [A B ] = P [A] + P [B ] P [A B ] .

Ejemplo. El circuito que aparece en la Figura 3.1 est constituido por dos interruptores (switches ) en
paralelo. La probabilidad de que cualquiera de ellos est cerrado es de 1 2. Para que pase corriente a travs del circuito basta con que pase corriente por alguno de los dos interruptores, esto es, que al menos uno de ellos est cerrado. Por tanto, si notamos por
corriente a travs del circuito E

al suceso

que pase

Ei

al suceso

que el interruptor

est cerrado,

entonces,

P [E ] = P [E1 E2 ] = P [E1 ] + P [E2 ] P [E1 E2 ] 1 1 = + P [E1 E2 ] 1. 2 2


Para conocer esta probabilidad de forma exacta necesitamos saber cmo actan de forma conjunta ambos circuitos.

44

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

N de lanzamientos N de caras
N. de caras N. de lanzamientos

10 4 0.4

100 46 0.46

250 124 0.496

500 244 0.488

750 379 0.5053

1000 501 0.501

Cuadro 3.1: Aproximacin frecuentista a la probabilidad de cara en el lanzamiento de una moneda.

3.4. Interpretacin frecuentista de la probabilidad


La interpretacin ms comn al concepto de probabilidad tiene que ver con los promedios de ocurrencia de los sucesos del experimento en cuestin. Pensemos en el lanzamiento de una moneda: si decimos que la probabilidad de cara es 0.5, entendemos que si lanzamos la moneda un gran nmero de veces y anotamos el nmero de caras, stas sern ms o menos la mitad. Generalizando este proceso, podramos decir que la probabilidad de un evento A, P [A] , es

P [A] = l m

nA , n n

donde nA es el nmero de ocurrencias de A en n ensayos del experimento. Esta interpretacin se conoce como
denicin frecuentista de la probabilidad.

Se trata de una interpretacin

de carcter eminentemente prctico porque permite una aproximacin fsica al concepto de probabilidad, pero se ve limitada por las complicaciones que supone la denicin en trminos de un lmite que, como tal, slo se alcanza
en el innito.

Adems, desde un punto de vista realista, en qu ocasiones podremos repetir

el experimento un gran nmero de veces?

Ejemplo. Se han realizado 1000 lanzamientos de una moneda. En el Cuadro 3.1 aparece un resumen de ese
proceso. Puede observarse como cuanto mayor es el nmero de lanzamientos, ms se aproxima la frecuencia
1 relativa al valor 2 , de manera que podramos pensar que la probabilidad de cara es igual que la probabilidad

de cruz e iguales ambas a

1 2,

aunque esto slo es una suposicin, o una aproximacin, ya que para aplicar

estrictamente la denicin frecuentista deberamos continuar hasta el innito, lo que resulta imposible. Esta interpretacin frecuentista de la probabilidad permite inferir lo que podemos llamar
radas. frecuencias espe-

Si un evento A tiene asignada una probabilidad P [A], entonces, si repetimos el experimento aleatorio
lo ms esperable

n veces,

es que el nmero de veces que se de el evento A ser n P [A] . Ms adelante


lo ms esperable.

podremos matizar con ms rigor a qu nos referimos con

Ejemplo. Siguiendo con el ejemplo de la moneda, si la lanzamos 348 veces, lo esperable es que salgan
alrededor de 348 0.5 = 174 caras.

3.5. Interpretacin subjetiva de la probabilidad


Si nos dicen que la probabilidad de que llueva maana es del 35 %, cmo podemos interpretar eso en trminos frecuentistas? No tiene sentido pensar en que podemos repetir el experimento da
llovera en el 35 % de ellos ? de maana

muchas veces y

contar cuntas veces llueve. Podramos pensar si hubiera muchos das como el de maana, aproximadamente Pero eso no tiene sentido porque el da de maana es nico.

Prof. Dr. Antonio Jos Sez Castillo

45

Dpto de Estadstica e I.O. Universidad de Jan

La interpretacin subjetiva de la probabilidad tiene que ver con la vinculacin de este concepto con el grado de incertidumbre que tenemos sobre las cosas. Si tenemos un experimento aleatorio, el resultado de dicho experimento es incierto. La probabilidad de un resultado del experimento es el grado de creencia que yo tengo en la ocurrencia de dicho resultado. Ese grado de creencia es personal, luego es subjetivo, pero lgicamente, deber estar acorde con la informacin que tenemos sobre el experimento.

3.6. Espacio muestral con resultados equiprobables. Frmula de Laplace


Otro punto de vista que permite abordar el proceso de asignacin de probabilidad a sucesos es el siguiente: continuando con el ejemplo de la moneda, en este experimento son dos los resultados posibles, y no hay razones para pensar que uno de ellos es
ms probable

que otro, as que tiene sentido considerar que la probabilidad

de cara y la probabilidad de cruz son ambas del 50 %. En general, si el espacio muestral est formado por N resultados posibles y todos ellos tienen la misma probabilidad (equiprobables), podramos decir que la probabilidad de un evento A, P [A] , es

P [A] =

NA , N

donde NA es el nmero de resultados favorables a la ocurrencia de A. Esta frmula, conocida como permite deducir que
frmula de Laplace

tambin es fundamentalmente prctica. Por ejemplo, nos

P [cara] =

1 2

en el lanzamiento de una moneda sin tener que lanzar la moneda un gran nmero de veces. Sin embargo, la denicin tiene dos grandes inconvenientes: el conjunto de resultados posibles, N , tiene que ser nito y, adems, todos los resultados posibles deben tener la misma probabilidad (con lo cual, lo denido queda implcitamente inmerso en la denicin).

3.7. Probabilidad condicionada. Independencia de sucesos


Para introducir de manera intuitiva el concepto de probabilidad condicionada debemos pensar en la probabilidad como medida de la creencia en la ocurrencia de los sucesos. Pensemos en un experimento aleatorio y en un suceso de dicho experimento, A, en el que, en principio, tenemos un grado de creencia P [A] ; pero supongamos que conocemos algo del resultado de dicho experimento; concretamente, sabemos que ha ocurrido un suceso B . Parece lgico pensar que esa informacin conocida sobre el resultado del ensayo modicar nuestro grado de creencia en A: llamemos a este nuevo grado de creencia P [A | B ],

probabilidad de A conocida B o probabilidad de A condicionada a B .

Ejemplo. Consideremos el suceso A : el da de hoy va a llover y el suceso B


nublado refuerza nuestra creencia en que llueva.

: el da de hoy est nublado.

Obviamente, la probabilidad P [A] ser menor que la probabilidad P [A | B ] , ya que el hecho de que est

46

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ejemplo. Consideremos el experimento aleatorio de extraer una carta de una baraja espaola. Sea el suceso
A : obtener una sota, el suceso B1 : obtener una gura y el suceso B2 : obtener una carta de copas.
Las distintas probabilidades, condicionadas o no, bajo la denicin clsica, son las siguientes:

4 sotas 1 = 40 cartas 10 4 sotas 1 P [A | B1 ] = = 12 f iguras 3 1 sota de copas 1 P [A | B2 ] = = . 10 copas 10 P [A] =


Como puede verse, B1 modica la probabilidad a priori, pero no as B2 . Puede decirse que B2 no ofrece informacin acerca de A, o que A y B2 son Vamos a dar a continuacin una

independientes. denicin de probabilidad condicionada

que responde a esta idea de

recalcular la probabilidad en funcin de la informacin existente. La

probabilidad condicionada de un suceso A, conocido otro suceso B , denotada por P [A | B ], se


P [A | B ] = P [A B ] , P [B ]

dene como el cociente

siempre que P [B ] = 0. Una funcin de probabilidad condicionada P [/B ] es una funcin de probabilidad en toda regla: por tanto, cumple las mismas propiedades que cualquier funcin de probabilidad sin condicionar. Como hemos comentado, la idea de la probabilidad condicionada es utilizar la informacin que nos da un suceso conocido sobre la ocurrencia de otro suceso. Pero, como ya hemos puesto de maniesto en un ejemplo, Por tanto: Dos sucesos A y B se dicen independientes si P [A | B ] = P [A] , o equivalentemente si P [B | A] = P [B ], o equivalentemente si P [A B ] = P [A] P [B ] . no siempre un suceso da informacin sobre otro. En este caso se dice que ambos sucesos son independientes.

Ejemplo. Continuando con el Ejemplo 3.3.3, lo ms lgico es pensar que los dos interruptores actan
de forma independiente, en cuyo caso P [E1 E2 ] = P [E1 ] P [E2 ] y tenemos que,

P [E ] =

1 1 + P [E1 E1 ] 2 2 1 1 11 3 = + = . 2 2 22 4

Nota. Es muy importante no confundir la probabilidad condicionada de un suceso a otro con la probabilidad de la interseccin de ambos sucesos. En la Figura 3.2 puede verse la diferencia entre las probabilidades condicionadas entre dos sucesos y la probabilidad de su interseccin. En trminos coloquiales, podemos

Prof. Dr. Antonio Jos Sez Castillo

47

Dpto de Estadstica e I.O. Universidad de Jan

analizar estas probabilidades como el cociente entre condicionada ese


todo

una parte

un todo.

Cuando la probabilidad es
todo

es el suceso que condiciona. Cuando la probabilidad no es condicionada, ese


parte

es todo el espacio muestral. En ambos casos esa

es la interseccin.

Figura 3.2: Esquema acerca de la denicin de probabilidad condicionada.

Nota. Tambin suele ser bastante comn la confusin entre sucesos independientes y sucesos incompatibles o mutuamente excluyentes. En este sentido, recordemos que dos sucesos A y B son incompatibles o mutuamente excluyentes si

A B = , en cuyo caso P [A B ] = 0.
Por su parte, A y B sern independientes si P [A B ] = P [A] P [B ]. Las diferencias entre ambos conceptos son obvias.

Ejemplo. La probabilidad de que el producto no sea elaborado a tiempo es 0.05. Se solicitan tres pedidos
del producto con la suciente separacin en el tiempo como para considerarlos eventos independientes. 1. Cul es la probabilidad de que todos los pedidos se enven a tiempo? En primer lugar, notemos Ei al suceso enviar
a tiempo el pedido i-simo.

En ese caso, sabemos que

P [Ei ] = 0.95.
Por su parte, nos piden

P [E1 E2 E3 ] = P [E1 ] P [E2 ] P [E3 ] = 0.953 ,


debido a que los pedidos son independientes. 2. Cul es la probabilidad de que exactamente un pedido no se enve a tiempo?

48

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

En este caso el suceso que nos piden es ms complejo:

1 E2 E3 E1 E 2 E3 E1 E2 E 3 P E

1 E2 E3 + P E1 E 2 E3 + P E1 E2 E 3 =P E

= 0.05 0.952 + 0.05 0.952 + 0.05 0.952 = 0.135, 1 E2 E3 , E1 E 2 E3 y E1 E2 E 3 son incompatibles. donde se ha utilizado que los sucesos E
3. Cul es la probabilidad de que dos o ms pedidos no se enven a tiempo? Tengamos en cuenta que ya hemos calculado la probabilidad de que todos se enven a tiempo y de que todos menos uno se enven a tiempo. Entonces,

P [dos o ms pedidos no se enven a tiempo]

= 1 P [todos se enven a tiempo un pedido no se enve a tiempo] = 1 (0.953 + 0.135).

Ejemplo.

Consideremos un proceso industrial como el que se esquematiza en la Figura 3.3. En dicho

esquema se pone de maniesto que una unidad ser producidad con xito si pasa en primer lugar un chequeo previo (A); despus puede ser montada directamente (B), redimensionada (C) y despus montada (D) o adaptada (E) y despus montada (F); posteriormente debe ser pintada (G) y nalmente embalada (H). Consideremos que las probabilidades de pasar exitosamente cada subproceso son todas ellas iguales a 0.95, y que los subprocesos tienen lugar de forma independiente unos de otros. Vamos a calcular en esas condiciones la probabilidad de que una unidad sea exitosamente producida. Si nos damos cuenta, A, G y H son ineludibles, mientras que una unidad puede ser producida si pasa por B, por C y D o por E y F. En notacin de conjuntos, la unidad ser producida si se da

A (B C D E F ) G H.
Como los procesos son independientes unos de otros, no tenemos problemas con las probabilidades de las intersecciones, pero tenemos que calcular la probabilidad de una unin de tres conjuntos, B C D E F . En general,

P [A1 A2 A3 ] = P [(A1 A2 ) A3 ] = P [A1 A2 ] + P [A3 ] P [(A1 A2 ) A3 ] = P [A1 ] + P [A2 ] P [A1 A2 ] + P [A3 ] P [A1 A3 A2 A3 ]

Prof. Dr. Antonio Jos Sez Castillo

49

Dpto de Estadstica e I.O. Universidad de Jan

= P [A1 ] + P [A2 ] P [A1 A2 ] + P [A3 ] (P [A1 A3 ] + P [A2 A3 ] P [A1 A2 A3 ])

= P [A1 ] + P [A2 ] + P [A3 ] P [A1 A2 ] P [A1 A3 ] P [A2 A3 ] + P [ A1 A2 A3 ]


En nuestro caso,

P [B C D E F ] = P [B ] + P [C D] + P [E F ] P [B C D] P [B E F ] P [C D E F ] + P [B C D E F ] = 0.95 + 2 0.952 20.953 0.954 + 0.955 = 0.9995247


Ya estamos en condiciones de obtener la probabilidad que se nos pide:

P [A (B C D E F ) G H ] = P [A] P [B C D E F ] P [G] P [H ] = 0.95 (0.9995247) 0.95 0.95 = 0.8569675.

En estos ejemplos, el clculo de la probabilidad de las intersecciones ha resultado trivial porque los sucesos son independientes. Son embargo, esto no siempre ocurre. Cmo podemos, en general, obtener la probabilidad de la interseccin de dos o ms sucesos no necesariamente independientes? En el caso de slo dos sucesos, A y B , podemos deducir que

P [A B ] = P [A|B ] P [B ]
directamente de la denicin de probabilidad condicionada. A partir de esta frmula, por induccin, se puede obtener la llamada frmula producto, que se enuncia de la siguiente forma: si A1 , A2 , ..., An son sucesos de un espacio muestral no necesariamente independientes, se verica

P [A1 A2 ... An ] = P [A1 ]P [A2 |A1 ]...P [An |A1 A2 ... An1 ]

50

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 3.3: Esquema del proceso industrial del ejemplo

Ejemplo. Un lote de 50 arandelas contiene 30 arandelas cuyo grosor excede las especicaciones de diseo.
Suponga que se seleccionan 3 arandelas al azar y sin reemplazo del lote. 1. Cul es la probabilidad de que las tres arandelas seleccionadas sean ms gruesas que las especicaciones de diseo? Comenzamos notando los sucesos Ai : la -sima arandela extraida es ms gruesa que las especicaciones de diseo, i = 1, 2, 3. Entonces, nos piden

P [A1 A2 A3 ] = P [A1 ] P [A2 /A1 ] P [A3 /A1 A2 ] 30 29 28 = . 50 49 48


2. Cul es la probabilidad de que la tercera arandela seleccionada sea ms gruesa que las especicaciones de diseo si las dos primeras fueron ms delgadas que la especicacin?

P A3 /A 1 A 2 =

30 . 48

3.8. Teorema de la probabilidad total y Teorema de Bayes


Los siguientes dos resultados se conocen como

Teorema de la probabilidad total y Teorema de Bayes 51

respectivamente, y juegan un importante papel a la hora de calcular probabilidades. Los dos utilizan como
Prof. Dr. Antonio Jos Sez Castillo

Dpto de Estadstica e I.O. Universidad de Jan

principal herramienta el concepto de probabilidad condicionada.

Teorema de la Probabilidad Total.

Sea P una funcin de probabilidad en un espacio muestral. Sea

{A1 , ..., AN } F una particin del espacio muestral y sea B un suceso cualquiera. Entonces, P [B ] = P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ] .

Teorema de Bayes. En esas mismas condiciones, si P [B ] = 0,


P [ Ai | B ] = P [B | Ai ] P [Ai ] . P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]

Ejemplo.

Supongamos que tenemos 4 cajas con componentes electrnicas dentro. La caja 1 contiene

2000 componentes, con un 5 % de defectuosas; la caja 2 contiene 500 componentes, con un 40 % de defectuosas; las cajas 3 y 4 contienen 1000 componentes, con un 10 % de defectuosas. 1. Cul es la probabilidad de escoger al azar una componente defectuosa? Notemos D : componente defectuosa y Ci : componente de la caja i-sima. Entonces, se tiene que

P [C1 ] =

2000 2000 + 500 + 1000 + 1000 500 P [C2 ] = 2000 + 500 + 1000 + 1000 1000 P [C3 ] = 2000 + 500 + 1000 + 1000 1000 P [C4 ] = 2000 + 500 + 1000 + 1000

4 9 1 = 9 2 = 9 2 = 9 =

Adems, P [D | C1 ] = 0.05, P [D | C2 ] = 0.4, P [D | C3 ] = 0.1 y P [D | C4 ] = 0.1. Utilizando el Teorema de la probabilidad total,

P [D] = P [D | C1 ] P [C1 ] + P [D | C2 ] P [C2 ] + P [D | C3 ] P [C3 ] + P [D | C4 ] P [C4 ] 4 1 2 2 = 0.05 + 0.4 + 0.1 + 0.1 = 0. 11111 9 9 9 9
2. Si se escoge una componente al azar y resulta ser defectuosa, cul es la probabilidad de que pertenezca a la caja 1?

P [C1 | D] =

0.05 4 P [D | C1 ] P [C1 ] 9 = = 0.2 P [D ] 0.11111

52

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

F 0.01 0.1 1.0 Total

Nmero 1 20 55 70 145

en cada 2 95 35 80 210

caja 3 25 75 145 245

Total 140 165 295 600

Cuadro 3.2: Acumuladores.

Ejemplo. Se disponen tres cajas donde se almacenan acumuladores segn aparece en el Cuadro 3.2.
Se escoge al azar una caja y de ella, a su vez, un acumulador. 1. Cul es la probabilidad de que se haya seleccionado un acumulador de 0.01F ? Notemos 0.01F, 0.1F y 1.0F a los sucesos
caja 3, extraer un acumulador de

0.01F , 0.1F y 1.0F

respectivamente. De igual forma, notemos c1, c2 y c3 a los sucesos

elegir la caja 1, la caja 2 y la

respectivamente. Utilizando el teorema de la probabilidad total,

P [0.01F ] = P [0.01F / c1] P [c1] + P [0.01F / c2] P [c2] + P [0.01F / c3] P [c3] 95 1 25 1 5903 20 1 + + = = 0.23078. = 145 3 210 3 245 3 25 578
2. Si ha sido seleccionado un acumulador de 1.0F , cul es la probabilidad de que proceda de la caja 1? Utilizando el teorema de Bayes,

P [c1 / 1.0F ] =
Por su parte,

P [1.0F / c1] P [c1] . P [1.0F ]

P [1.0F ] = P [1.0F / c1] P [c1] + P [1.0F / c2] P [c2] + P [1.0F / c3] P [c3] 70 1 80 1 145 1 6205 = + + = = 0.48518, 145 3 210 3 245 3 12 789
luego
70 1 145 3 6205 12 789

P [c1 / 1.0F ] =

2058 = 0.33167. 6205

Ejemplo. Siguiendo con el ejemplo de las arandelas con grosor fuera de las especicaciones de diseo,
cul es la probabilidad de que la tercera arandela seleccionada sea ms gruesa que las especicaciones de diseo?

1 A2 ] P [A3 ] = P [A3 |A1 A2 ]P [A1 A2 ] + P [A3 |A 1 A2 ]P [A

2 ] + P [A3 |A 1 A 2 ] +P [A3 |A1 A 2 ]P [A1 A 1 A 2 ]P [A

Prof. Dr. Antonio Jos Sez Castillo

53

Dpto de Estadstica e I.O. Universidad de Jan

1 ]P [A2 |A = P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ] + P [A3 |A 1 A2 ]P [A 1 ]

1 ]P [A 2 |A 2 |A ] + P [A3 |A +P [A3 |A1 A 1 ] 1 A 2 ]P [A 2 ]P [A1 ]P [A 1 28 30 29 29 20 30 + 48 50 49 48 50 49 29 30 20 30 20 19 + . 48 50 49 48 50 49

Ejemplo.

En el canal de comunicaciones ternario que se describe en la Figura 3.4, se ha observado

que el dgito 3 es enviado tres veces ms frecuentemente que 1, y 2 dos veces ms frecuentemente que 1. Calculemos la probabilidad de que un dgito cualquiera enviado a travs del canal sea recibido correctamente. En primer lugar, si notamos P [X = 1] = p, entonces P [X = 2] = 2p y P [X = 3] = 3p. Por otra parte, como

1 = P [X = 1] + P [X = 2] + P [X = 3] = 6p,
se tiene que

P [X = 1] =

1 1 1 , P [X = 2] = y P [X = 3] = . 6 3 2

Ahora, utilizando el teorema de la probabilidad total,

P [d gito OK ] = P [d gito OK / X = 1] P [X = 1] + P [d gito OK / X = 2] P [X = 2] + P [d gito OK / X = 3] P [X = 3] = P [Y = 1 / X = 1] P [X = 1] + P [Y = 2 / X = 2] P [X = 2] + P [Y = 3 / X = 3] P [X = 3] 1 1 1 = (1 ) + (1 ) + (1 ) = P. 6 3 2

Ejemplo.

Continuando con el anterior, si se recibe un 1, cul es la probabilidad de que se hubiera

enviado un 1? Utilizando el teorema de Bayes,

P [X = 1 / Y = 1] =

P [Y = 1 / X = 1] P [X = 1] . P [Y = 1]

54

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 3.4: Canal ternario de comunicaciones con probabilidad de cruce

Por su parte,

P [Y = 1] = P [Y = 1 / X = 1] P [X = 1] + P [Y = 1 / X = 2] P [X = 2] + P [Y = 1 / X = 3] P [X = 3] =
luego

1 + + , 6 6 4
1 6 1 + 6 6

P [X = 1 / Y = 1] =

=2

1 + . 2 + 2 2 3

3.9. Ms sobre el Teorema de Bayes


La importancia del Teorema de Bayes en Estadstica va mucho ms all de su aplicacin como frmula que facilita probabilidades condicionadas. La losofa que subyace en l ha dado lugar a toda una forma de entender la Estadstica, llamada por ello de esta manera de entender el teorema. Supongamos que hay un suceso A sobre el que tenemos un serio desconocimiento acerca de si se da o no se da. Tanto es as que tenemos que determinar la probabilidad de dicho suceso, P [A]. Es importante entender que nosotros somos conscientes de que A ha ocurrido o no ha ocurrido: el problema es precisamente que no sabemos qu ha pasado. Decimos que es importante porque P [A] no representa la
ocurra, probabilidad de que A Estadstica Bayesiana.

Vamos a tratar de explicar los fundamentos

sino nuestro grado de creencia en que ha ocurrido.


expertos en el tema,

Es posible que no tengamos, en principio, datos para conocer de forma exacta cul es la probabilidad de A. An as, podramos atrevernos, como A esta probabilidad inicial que damos la vamos a llamar

probabilidad a priori.

a dar una estimacin de dicha probabilidad, P [A].

Ahora bien, hemos dado una probabilidad a priori P [A] sin ninguna informacin sobre A. Supongamos ahora
Prof. Dr. Antonio Jos Sez Castillo

55

Dpto de Estadstica e I.O. Universidad de Jan

que tenemos nueva informacin que nos dar pistas acerca de si A ha ocurrido o no, y que dicha informacin est recogida en un suceso que llamaremos B1 . En ese caso, podramos y deberamos actualizar la probabilidad de A basndonos en esta nueva informacin, proporcionando una nueva probabilidad de A que tenga en cuenta

B1 , es decir, P [A |B1 ], que llamaremos


En esa
actualizacin de la probabilidad

probabilidad a posteriori.

es donde entra el Teorema de Bayes, ya que nos dice que

P [A |B1 ] =

P [B1 |A ] P [A] . P [B1 |A ] P [A] + P [B1 |A ] P A

Obsrvese que la probabilidad a posteriori es proporcional a la probabilidad a priori. Finalmente, es muy importante ver que podemos extender esta forma de trabajar aplicando el teorema de una forma recursiva. Despus de conocer B1 , nuestra nueva probabilidad para A es P [A |B1 ]. Abusando de la notacin, podemos decir que esa es nuestra nueva probabilidad a priori y si, por ejemplo, tenemos ms informacin sobre A, dada por otro suceso B2 , a posteriori sera

informacin independiente de B1 , la nueva probabilidad

P [A |B1 B2 ] = =

P [B2 |AB1 ] P [A |B1 ] |B P [B2 |AB1 ] P [A |B1 ] + P B2 |A B1 P A 1 P [B2 |A ] P [A |B1 ] |B . P [B2 |A ] P [A |B1 ] + P [B2 |A ] P A 1

Es muy importante observar que en este cociente P [A |B1 ] ocupa el lugar que antes ocupaba la probabilidad a priori. Adems, esta segunda probabilidad a posteriori podra considerarse como la nueva probabilidad a priori para una nueva aplicacin del teorema basada en el conocimiento de nueva informacin dada por un suceso B3 . Este proceso de actualizacin de las probabilidades a priori basada en la informacin disponible puede realizarse cuantas veces sea necesario. Vamos a ilustrar esto en un par de ejemplos.

3.9.1. Ejemplo del juez


Supongamos que un juez debe decidir si un sospechoso es inocente o culpable. l sabe que debe ser cuidadoso y garantista con los derechos del acusado, pero tambin por su experiencia parte de una creencia en que el sospechoso puede ser culpable que, en cualquier caso, estima por debajo de lo que realmente cree para, insisto, ser garantista con los derechos del acusado. Pongamos que estima esta probabilidad en un 10 %. Ahora empieza a examinar las pruebas. La primera de ellas es una prueba de ADN en la que el acusado dio positivo: encontraron material gentico en el arma del crimen que, segn la prueba, es suyo. Esa prueba de ADN da positivo en el 99.5 % de las veces en que se comparan dos ADN's idnticos, pero tambin da positivo (errneamente) en el 0.005 % de las veces en que se aplica a dos ADN's distintos. Teniendo en cuenta esta informacin, el juez aplica por primera vez el teorema de Bayes con los siguientes datos:

P [culpable] = 0.1, que es la probabilidad a priori que el juez considera.


La probabilidad de que la prueba de ADN de positivo si el acusado es culpable es

P [ADN + |culpable ] = 0.995.

56

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

La probabilidad de que la prueba de ADN de positivo si el acusado es inocente es

P [ADN + |inocente ] = 0.00005.


Ahora ya puede actualizar su grado de creencia en la culpabilidad del sospechoso:

P [culpable |ADN + ] =

P [ADN + |culpable ] P [culpable] P [ADN + |culpable ] P [culpable] + P [ADN + |inocente ] P [inocente] 0.995 0.1 = = 0.999548 0.995 0.1 + 0.00005 0.9

Es decir, ahora piensa que el sospechoso es culpable con un 99.9548 % de certeza. Fijmonos en que nuestra probabilidad a priori aparece en los trminos 0.1 en el numerador y 0.1 y 0.9 en el denominador. Esa, 0.1, era la probabilidad que tenamos

despus de la prueba esa probabilidad es 0.999548 de que sea culpable (y 0.000452 de que sea inocente).

antes de la prueba de que fuera culpable (y 0.9 de que fuera inocente);

Sin embargo, el sospechoso insiste en su inocencia, y propone someterse a una prueba de un detector de mentiras. Los expertos saben que un culpable es capaz de engaar a esta mquina en el 10 % de las veces, y que la mquina dir el 1 % de las veces que un inocente miente. Nuestro sospechoso se somete a la mquina y sta dice que es inocente. Cul ser ahora la probabilidad que el juez asigna a la culpabilidad del sospechoso? Teniendo en cuenta que:

P [maquina |culpable ] = 0.1, P [maquina+ |inocente ] = 0.01,


debe aplicar de nuevo el Teorema de Bayes, considerando ahora que la probabilidad a priori de que sea culpable es 99.9548 %:

P [culpable |maquina ] =

P [maquina |culpable ] P [culpable] P [maquina |culpable ] P [culpable] + P [maquina |inocente ] P [inocente] 0.1 0.999548 = 0.9955431. = 0.1 0.999548 + (1 0.01) (1 0.999548)

Es decir, an con esa prueba negativa, el juez an tiene un 99.55431 % de certidumbre de que el sospechoso es culpable. De nuevo, podemos resumir este paso diciendo que probabilidad a priori), mientras que

antes de la segunda prueba

nuestra

probabilidad de que fuera culpable era de 0.999548 (que aparece en la frmula ocupando la posicin de la

despus de la segunda prueba esa probabilidad es 0.9955431.

El proceso puede verse resumido en el Cuadro 3.3.

3.9.2. Ejemplo de la mquina de deteccin de fallos


En un proceso industrial de produccin en serie de caps de coche, existe una mquina encargada de detectar desperfectos que desechen una pieza de cap. Esa mquina est calibrada para detectar una pieza defectuosa con un 90 % de acierto, pero tambin detecta como defectuosas el 5 % de las piezas no defectuosas. El encargado de calidad estima, por estudios previos, que el porcentaje general de piezas defectuosas es del 5 %. Este encargado, consciente de que la mquina puede dar por buenas piezas que son defectuosas, decide actuar de la siguiente forma: una pieza que sea detectada como no defectuosa pasar otras dos veces por la misma mquina detectora y slo ser declarada no defectuosa cuando en ninguna de esas tres pruebas, de defectuosa.
Prof. Dr. Antonio Jos Sez Castillo

57

Dpto de Estadstica e I.O. Universidad de Jan

1 prueba: ADN + 2 prueba: maquina


priori

Antes de la prueba
0.1 0.999548

P [Culpable]

P [ADN +|culpable ]0.1 P [ADN +|culpable ]0.1+P [ADN +|inocente ](10.1) = 0.999548 P [maquina|culpable ]0.999548 P [maquina|culpable ]0.999548+P [maquina|inocente ](10.999548) = 0.9955431

Despus de la prueba

Cuadro 3.3: Esquema del proceso iterativo del teorema de Bayes en el ejemplo del juez. La probabilidad a (antes de cada prueba) es la que se utiliza en la frmula para obtener la probabilidad a posteriori (desps de cada prueba). La probabilidad a posteriori (despus) de una prueba es la probabilidad a priori (antes) de la siguiente prueba. Supongamos que una pieza pasa las tres veces y da no defectuosa: cul es la probabilidad de que realmente sea no defectuosa? Vamos a empezar notando adecuadamente los sucesos. Notaremos D al suceso ser defectuosa y por + a dar positivo como defectuosa en la prueba de la mquina. Sabemos que:

P [D] = 0.05, que es la probabilidad a priori; P [+ |D ] = 0.9 y P [+ |D ] = 0.05.


La probabilidad a priori de que una pieza sea no defectuosa es de 0.95, pero si es detectada como defectuosa una primera vez, dicha probabilidad pasa a ser

|+ P D =

|D P [+ ]P D P [+ |D ] P D + P [+ |D ] P [D ] 0.95 0.95 = = 0.9944904. 0.95 0.95 + 0.1 0.05

Esa probabilidad pasa a ser la probabilidad a priori para la segunda vez que da no defectuosa. Por tanto, la probabilidad de que sea no defectuosa si da negativo por segunda vez es

|+ P D + =

|D P [+ ] 0.9944904 |D ] (1 0.9944904) P [+ |D ] 0.9944904 + P [+ 0.95 0.9944904 = = 0.9994172. 0.95 0.9944904 + 0.1 (1 0.9944904)

Finalmente, la probabilidad de que sea no defectuosa si da negativo por tercera vez es

|+ P D + + =

|D P [+ ] 0.9994172 |D |D ] (1 0.9994172) P [+ ] 0.9994172 + P [+ 0.95 0.9994172 = = 0.9999386. 0.95 0.9994172 + 0.1 (1 0.9994172)

Como podemos ver, si una pieza da no defectuosa tres veces, la probabilidad de que sea realmente no defectuosa es altsima, del orden del 99.99 %, as que el mtodo ideado por el responsable de calidad parece consistente.

58

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

1 prueba: + 2 prueba: + 3 prueba: +

Antes de la prueba
0.95 0.9944904 0.9994172

P D

|D P [+ ]0.95 |D |D ](10.95) = 0.9944904 P [+ ]0.95+P [+ |D ]0 .9944904 P [+ |D ](10.9944904) = 0.9994172 |D P [+ ]0.9944904+P [+ |D P [+ ]0.9994172 |D |D ](10.9994172) = 0.9999386 P [+ ]0.9994172+P [+

Despus de la prueba

Cuadro 3.4: Esquema del proceso iterativo del teorema de Bayes en el ejemplo de la mquina de deteccin de fallos. La probabilidad a priori (antes de cada prueba) es la que se utiliza en la frmula para obtener la probabilidad a posteriori (desps de cada prueba). La probabilidad a posteriori (despus) de una prueba es la probabilidad a priori (antes) de la siguiente prueba.

Prof. Dr. Antonio Jos Sez Castillo

59

Dpto de Estadstica e I.O. Universidad de Jan

60

Prof. Dr. Antonio Jos Sez Castillo

Captulo 4
Variable aleatoria. Modelos de distribuciones de probabilidad

Mas a pesar de todo eso, aunque la mala suerte exista, muy pocos reporteros veteranos creen de verdad en ella. En la guerra, las cosas suelen discurrir ms bien segn la ley de las probabilidades: tanto va el cntaro a la fuente que al nal hace bang. Arturo Prez Reverte, en
Territorio Comanche

Resumen. En este captulo continuamos con el estudio de la probabilidad, utilizando el concepto de variable
aleatoria para referirnos a experimentos donde el resultado queda caracterizado por un valor numrico. Se presentan algunos de los modelos ms habituales de asignacin de probabilidades y sus propiedades ms relevantes.

Palabras clave: variable aleatoria, variable discreta, funcin masa de probabilidad, variable continua, funcin
de densidad de probabilidad, funcin de distribucin, media, varianza, distribucin binomial, distribucin de Poisson, distribucin geomtrica, distribucin uniforme, distribucin exponencial, distribucin Gamma, distribucin normal.

4.1. Introduccin
En el tema anterior hemos visto que la Estadstica se ocupa de experimentos aleatorios. En general, en Ciencia y Tecnologa se suele analizar cualquier experimento mediante una o varias medidas del mismo. Por ejemplo, se analiza un objeto segn su peso, su volumen, su densidad, su contenido de agua...; o se analiza el trco de Internet segn el nmero de conexiones a un servidor, el volumen total de trco generado, la velocidad... En estos sencillos ejemplos observamos que se ha descrito un fenmeno fsico, como puede ser un objeto o el estado de una red de comunicaciones en un momento dado, mediante uno o varios nmeros o variables. Cuando ese fenmeno es de tipo aleatorio, vamos a llamar a esa asignacin de probabilidad P [] . 61
variable aleatoria .

Consideremos un experimento probabilstico con un espacio muestral en el que se ha denido una funcin

Dpto de Estadstica e I.O. Universidad de Jan

Una

variable aleatoria (a partir de ahora v.a.) es un nmero real asociado al resultado de un experimento

aleatorio. Se trata, por tanto, de una funcin real con dominio en el espacio muestral, X : R. Podemos pensar en una v.a. como en una variable asociada a una poblacin conceptual, ya que slo podr observarse cuando se tomen muestras suyas. En la notacin que vamos a utilizar representaremos las variables aleatorias como funciones siempre en maysculas, y a sus valores concretos siempre en minscula. Es decir, si queremos referirnos a una v.a. antes de observar su valor, podemos notarla como X, por ejemplo; pero una vez que se observa el valor de dicha variable (ya no es, por tanto, algo aleatorio), debemos notar a ese valor en minscula, por ejemplo, como x. Por ejemplo, podemos decir que la variable aleatoria X que corresponde a la puntuacin obtenida al lanzar el dado puede tomar los valores x = 1, 2, 3, 4, 5, 6. Podremos preguntarnos por la probabilidad de que X tome el valor x = 4 o de que X 6. Si lanzamos el dado y observamos que ha salido un 6, diremos que x = 6. No olvidemos que el objeto de la Estadstica con respecto a la observacin de fenmenos aleatorios es medir la certidumbre o la incertidumbre asociada a sus posibles resultados. Al describir estos resultados mediante variables aleatorias, lo que tenemos son resultados numricos sujetos a incertidumbre. El objetivo ahora es cuanticar la probabilidad de esos resultados numricos de alguna forma.

4.2. Variable aleatoria discreta


4.2.1. Denicin
Se dice que una v.a. es

discreta

si el conjunto de todos los valores que puede tomar es un conjunto, a lo

sumo, numerable (discreto).

Ejemplo. Son variables discretas:


El nmero de accidentes laborales en una empresa al ao. El nmero de errores en un mensaje transmitido. El nmero de piezas defectuosas producidas a lo largo de un da en una cadena de produccin. El nmero de das de baja de un trabajador al mes.

4.2.2. Funcin masa de probabilidad


Dada una v.a. discreta, X , se dene su

funcin masa de probabilidad como


f (x) = P [X = x] ,

para cada x R.

62

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Nota. Obsrvese que una funcin masa de una v.a. discreta est denida en todos los puntos de la recta
real, pero slo valdr distinto de cero en un conjunto, a lo sumo, numerable, que corresponde con los nicos valores que pueden darse de la variable. Sea X una v.a. discreta y f (x) su funcin masa. Entonces: 1. f (x) 0 para todo x R. 2.
xR

f (x) = 1.

3. En general, para cualquier conjunto B,

P [X B ] =
xi B

f ( xi ) ,

donde xi son valores posibles de X.

4.2.3. Funcin masa de probabilidad emprica


En la prctica nadie conoce la autntica funcin masa de una variable discreta, pero podemos aproximarla mediante la
funcin masa de probabilidad emprica

asociada a una muestra de resultados.

Si tenemos una coleccin de posibles resultados de la variable X , x1 , ..., xN , esta funcin asigna al valor x la frecuencia con la que dicho valor se da en la muestra, es decir,

femp (x) =

nu mero de valores xi iguales a x . N

Si el tamao, N , de la muestra es grande, esta funcin tiende a la autntica, es decir, para cada x R.

l m femp (x) = f (x) .

Ejemplo. En la Figura 4.1 aparece la funcin masa emprica correspondiente al lanzamiento de un dado
600 veces. Esta funcin emprica aparece representada en barras verticales, mientras que la funcin masa
terica,

f ( x) = 1 6 , para x = 1, 2, 3, 4, 5, 6 aparece representada como una lnea horizontal. Puede apreciar-

se cmo proporcionan probabilidades tericas y empricas bastante parecidas. No obstante, deberamos concluir a la luz de estos 600 datos que el dado no est cargado?

4.2.4. Media y varianza de una variable aleatoria discreta


Dada una v.a. discreta, X , con funcin masa de probabilidad f (x), se dene su media o esperanza matemtica como

EX =
x

x f (x).

Prof. Dr. Antonio Jos Sez Castillo

63

Dpto de Estadstica e I.O. Universidad de Jan

Figura 4.1: Funcin masa emprica de una muestra de 600 lanzamientos de un dado. Como en el caso de la media muestral de unos datos, la media de una v.a. se interpreta como el centro de gravedad de los valores que puede tomar la variable, con la diferencia que en una media muestral, el cada valor lo da la frecuencia de dicho valor en los datos y aqu el por la funcin masa. Dada una v.a. discreta, X , con funcin masa de probabilidad f (x), se dene su varianza como
peso peso

de

lo determina la probabilidad, dada

V arX =
x

(x EX )2 f (x).

La forma ms cmoda de calcular en la prctica la varianza es desarrollando previamente el cuadrado que aparece en su denicin, ya que

V arX =
x

(x EX )2 f (x) =
x

(x2 2xEX + EX 2 ) f (x) x f (x) + EX 2


x x

=
x

x2 f (x) 2EX

f (x)

=E [X 2 ] 2EX 2 + EX 2 = E [X 2 ] EX 2 .
Al igual que ocurre con la varianza muestral es conveniente denir la desviacin tpica de una v.a., como = V arX , que tiene las mismas unidades que la media y que se puede interpretar como una media del grado de variacin del conjunto de valores que puede tomar la v.a. respecto del valor de la media.

4.3. Modelos de distribuciones de probabilidad para variables discretas


Segn lo que hemos visto hasta ahora, la forma en que se asigna probabilidad a los resultados de una variable aleatoria discreta viene dada por la funcin masa de probabilidad. A esta manera de determinar la

64

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

probabilidad asociada a los resultados de la variable la vamos a llamar a partir de ahora distribucin de probabilidad de una v.a. Dmonos cuenta que, como acabamos de comentar, para determinar la distribucin de probabilidad de una v.a. slo tenemos que dar su funcin funcin masa de probabilidad. Sin embargo, debemos tener en cuenta que en la vida real nadie conoce cul es la autntica distribucin de probabilidad de una v.a., porque nadie sabe a priori cul es la funcin masa de dicha variable. Todo lo ms, podemos calcular la funcin masa emprica a partir de los datos de una muestra. An as, llegar el momento de
pasar al lmite,

es decir, de inducir una frmula terica que corresponda a la distribucin de probabilidad


paso al lmite,

que proponemos y que se parezca a la distribucin emprica de los datos de la muestra. Para ayudar a ese

babilidad. Se trata de frmulas tericas de funciones masa que pueden resultar adecuadas para determinadas
variables aleatorias. Hay una metfora que puede ayudar a entender cmo se asigna una distribucin de probabilidad y sobre la que abundaremos en lo sucesivo: qu ocurre cuando queremos comprar unos pantalones? En general acudimos a una tienda de moda y: 1. De entre una serie de modelos, elegimos el modelo que creemos que mejor nos va. 2. Buscamos la talla que hace que mejor se ajuste a nosotros, segn nuestras caractersticas. Pues bien, en el caso de las v.a.
nuestras caractersticas

en Estadstica se estudian

modelos tericos de distribuciones de pro-

son las posibles observaciones que tenemos sobre la v.a. que, por ejemplo,

pueden determinar una distribucin emprica asociada a una muestra;


los modelos

de la tienda, entre los que elegimos el que ms nos gusta, son los modelos tericos que

vamos a empezar a estudiar a continuacin; y


la talla

que hace que los pantalones se ajusten a nosotros adecuadamente son los parmetros de los

modelos tericos. En lo que resta de este captulo vamos a describir algunos de los modelos tericos de probabilidad ms habituales en el mbito de las Ingenieras, comenzando por el caso de v.a. discretas.

4.3.1. Distribucin binomial


que X sigue una distribucin es Sea X una v.a. discreta que toma los valores x = 0, 1, ..., n, donde n es un nmero natural conocido. Se dice

binomial de parmetros n y p (y se nota X B (n, p)) si su funcin masa


n x
nx

f (x) = =

px (1 p)

n! nx px (1 p) , x = 0, 1, 2, ..., n. x! (n x)!

Prof. Dr. Antonio Jos Sez Castillo

65

Dpto de Estadstica e I.O. Universidad de Jan

0.4 B(10,0.25) 0.3 0.2 0.1 0 0.4 B(10,0.5) 0.3 0.2 0.1 0 0.4 B(10,0.75) 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Figura 4.2: Funciones masa de distribuciones binomiales. Sea X B (n, p). Entonces

EX = np V arX = np (1 p) .

Caracterizacin de la distribucin binomial.


sigue una B (n, p).

Supongamos que un determinado experimento aleatorio


xito,

se repite n veces de forma independiente y que en ese experimento hay un suceso que denominamos

que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que mide el nmero de xitos En esta caracterizacin es importante observar que las dos hiptesis fundamentales de esta distribucin son: los experimentos se repiten de forma la probabilidad de xito es

independiente y

constante.

En la medida en que estas dos hiptesis no sean vlidas, la distribucin binomial no ser adecuada para la variable que cuenta el nmero de xitos. Un ejemplo particular de distribucin binomial lo constituye la denominada Se trata de una distribucin B (1, p), con funcin masa

distribucin de Bernouilli.

f (x) =

1 p si x = 0 p si x = 1

66

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

x P [X = x]
4 0

1
0 4 4 1

2
1 3 4 2

3
2 2 4 3

4
3 1 4 4

0.2 0.8 = 0.41

0.2 0.8 = 0.41

0.2 0.8 = 0.15

0.2 0.8 = 0.03

0.24 0.80 = 0.00

Cuadro 4.1: Funcin masa de una B (4, 0.2)

Ejemplo.

Consideremos como v.a. el nmero de das a la semana que un joven de hoy consuProbablemente no, porque

me alcohol. Podramos pensar que se trata de una v.a. con distribucin B (7, p), donde p =
nu mero medio de d as de consumo ? 7

1. Puede darse el efecto resaca, es decir, si se consume mucho un da, huir del alcohol al da siguiente; o el efecto inverso un clavo quita otro clavo ; o ...; en denitiva, circunstancias que rompan la hiptesis de independencia en el consumo en das distintos. 2. Est claro que la probabilidad de consumir un martes no es, en general, la misma que un sbado. Tampoco todos los jvenes tienen la misma probabilidad de consumir alcohol un da cualquiera.

Ejemplo.

Un ingeniero se ve obligado a transmitir dgitos binarios a travs de un sistema de comu-

nicaciones bastante imperfecto. Por estudios previos, estima que la probabilidad de que un dgito se transmita incorrectamente es del 20 %. El ingeniero enva un mensaje de 4 dgitos y se pregunta cuntos se recibirn incorrectamente. Desde el punto de vista estadstico nosotros no podemos responder a esa pregunta. En realidad, nadie puede responder a esa pregunta con certeza, porque existe incertidumbre latente en ella: el azar determinar cuntos dgitos se cruzan. Lo que s podemos hacer es facilitarle el grado de certeza, es decir, la probabilidad, de cada uno de los posibles resultados. Concretamente, si analizamos la variable X :
nmero de dgitos que se reciben incorrectamente,

teniendo

en cuenta que el ensayo de cada envo de cada dgito se har de forma independiente y que nos ha dicho que la probabilidad de que un dgito se reciba incorrectamente es 0.2, podemos armar que un modelo de probabilidad adecuado para dicha variable es una distribucin B (4, 0.2). Esta distribucin nos permite calcular la probabilidad de que se crucen 0, 1, 2, 3 o 4 de los dgitos. Lo esquematizamos en la tabla adjunta. Vistos los resultados, debemos decirle al ingeniero que es hartamente improbable que le fallen los 4 dgitos, pero que tiene una probabilidad (ver Cuadro 4.1) de

0.41 + 0.15 + 0.03 + 0.00 = 0.59


de que le falle el envo de al menos uno de ellos.

Prof. Dr. Antonio Jos Sez Castillo

67

Dpto de Estadstica e I.O. Universidad de Jan

4.3.2. Distribucin de Poisson


Sea X una v.a. discreta, que puede tomar los valores x = 0, 1, 2, ... Se dice que X sigue una

de Poisson de parmetro (y se nota X P ()) si su funcin masa es


f ( x ) = e x , x = 0, 1, 2, ... x!

distribucin

Sea X P (). Entonces

EX = V arX = .

Caracterizacin de la distribucin de Poisson.


independiente. En ese caso

Consideremos el nmero de xitos en un periodo de

tiempo donde los xitos acontecen a razn de veces por unidad de tiempo (en promedio) y de forma

X : nu mero de ocurrencias del suceso por unidad de tiempo


es una variable de

Poisson de parmetro , y se nota X P () .

En esta caracterizacin, las hiptesis fundamentales ahora son: la

independencia de las realizaciones y constante de ocurrencias por unidad de tiempo.

el promedio

Ejemplo. La distribucin de Poisson suele utilizarse como modelo para el nmero de accidentes ocurridos
en los individuos de una poblacin a lo largo de un periodo de tiempo. Lo que mucha gente no termina de asumir es que hacer esa suposicin equivale a decir que todos esos individuos tienen el mismo riesgo de tener un accidente y que el hecho de que un individuo tenga un accidente no modica para nada la probabilidad de sufrir un nuevo accidente. Es evidente que en muchas situaciones de la vida real eso no es cierto, as que el modelo no ser adecuado en ellas.

Ejemplo. Otra aplicacin muy comn de la distribucin de Poisson es al nmero de partculas por unidad
de volumen en un uido cuando una disolucin est realmente bien disuelta. En caso de que los datos indiquen que la distribucin de Poisson no es adecuada, podramos de hecho inferir que la disolucin no est bien disuelta.

Ejemplo.

En el contexto de las redes de telecomunicaciones, el uso ms comn de la distribucin de

Poisson es en el mbito del nmero de solicitudes de servicio a un servidor. Por ejemplo, se suele considerar que el n de llamadas a una centralita o el n de conexiones a un servidor sigue una distribucin de Poisson.

68

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Sin embargo, hay que decir que aunque este uso de la distribucin de Poisson es muy comn, es evidente que la hiptesis de que el promedio debe ser constante, no se da en estas aplicaciones, ya que uno de los fenmenos ms conocidos en telecomunicaciones es el de la
hora cargada :

no es el mismo promedio de
algo

llamadas el que se produce a las 12 del medioda que a las 3 de la maana. Lo que se suele hacer es aplicar uno de los principios ms importantes aunque menos escritos de la ingeniera, la ley de Murphy (si
puede ir mal, preprate para ello, porque en algun momento ir mal ):

as, las redes de telecomunicaciones

suelen dimensionarse para ser capaces de funcionar en el peor de los escenarios posibles, es decir, cuando el promedio de solicitudes es el que se da en la hora cargada.

Aproximacin de la binomial. Ley de eventos raros.


y que en ese experimento hay un suceso que denominamos

Supongamos que, como en la caracterizacin que ocurre con probabilidad constante p.

de la distribucin binomial, un determinado experimento aleatorio se repite n veces de forma independiente


xito,

Adicionalmente, supongamos que el experimento se repite un gran nmero de veces, es decir, n es grande y que el xito es un suceso raro, es decir, p es pequeo, siendo el promedio de ocurrencias, = np. En ese caso, la variable aleatoria X que mide el nmero de xitos sigue (aproximadamente) una P (). En esta segunda caracterizacin se suele considerar aceptable la aproximacin si n > 20 y p < 0.05. Si

n > 100, la aproximacin es generalmente excelente siempre y cuando np < 10. Hay que tener en cuenta que
para esos valores de los parmetros, la distribucin binomial tendra bastantes problemas para ser computada, ya que se exigira, entre otros clculos, el clculo de n! para un valor de n alto, por lo que la aproximacin es muy til.

Ejemplo.
es de
1 1200 ,

Supongamos que un fabricante de maquinaria pesada tiene instalados en el campo 3840 determinemos la probabilidad de que

generadores de gran tamao. Si la probabilidad de que cualquiera de ellos falle durante el ao en curso

a. b.

4 generadores fallen durante el ao en curso, Ms 1 de un generador falle durante el ao en curso.

El promedio de motores que fallan en el ao es = np = (3840)(1/1200) = 3.2. Sea X la variable que dene el nmero de motores que pueden fallar en el ao, con valores x =

0, 1, 2, 3, ...., 3840.
En principio, X B (3840, 1/1200) , pero dado que n es muy grande y p muy pequeo, podemos considerar que X P (3.2). Por tanto,

P [X = 4] =
Por su parte,

e3.2 3.24 = 0.178 09 4! e3.2 3.20 e3.2 3.21 = 0.828 80 0! 1!

P [X > 1] = 1 P [X = 0, 1] = 1

Prof. Dr. Antonio Jos Sez Castillo

69

Dpto de Estadstica e I.O. Universidad de Jan

0.4 P(1) 0.3 0.2 0.1 0 5 0.2 P(5) 0.15 0.1 0.05 0 5 0.2 P(10) 0.15 0.1 0.05 0 5 0 5 10 15 20 25 0 5 10 15 20 25 0 5 10 15 20 25

Figura 4.3: Funciones masa de distribuciones de Poisson.

4.3.3. Distribucin geomtrica


Sea X una v.a. discreta que puede tomar los valores x = 0, 1, 2, ... Se dice que sigue una

geomtrica de parmetro p (y se nota X Geo (p)), con 0 < p < 1, si su funcin masa es
f (x) = p (1 p) , para x = 0, 1, 2, ...
Sea X Geo (p). Entonces,
x

distribucin

1p p 1p V arX = . p2 EX =

Caracterizacin de la distribucin geomtrica. Supongamos que un determinado experimento aleatorio


se repite sucesivamente de forma independiente y que en ese experimento hay un suceso que denominamos
xito,

que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el nmero de

fracasos hasta que ocurre el primer xito sigue una Geo (p).

70

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

0.4 Geo(0.25) 0.3 0.2 0.1 0 5 0.8 Geo(0.5) 0.6 0.4 0.2 0 5 0.8 Geo(0.75) 0.6 0.4 0.2 0 5 0 5 10 15 20 25 0 5 10 15 20 25 0 5 10 15 20 25

Figura 4.4: Funciones masa de distribuciones geomtricas.

Ejemplo. Siguiendo con un ejemplo anterior, sobre el ingeniero que enva dgitos a travs de un canal
imperfecto, ahora se plantea cuntos dgitos se recibirn correctamente hasta que uno se cruce, sabiendo que la probabilidad de que uno cualquiera lo haga es de 0.2. La variable de inters ahora es Y : n
de dgitos que se reciben bien hasta el primero que se cruza.

Esta

variable tiene como modelo de probabilidad una distribucin Geo(0.2). Gracias a este modelo, podemos decirle, por ejemplo, que la probabilidad de que enve bien dos y que falle el tercero es de

P [Y = 2] = 0.2 0.82 = 0.128.

4.3.4. Distribucin binomial negativa


binomial negativa de parmetros a y p (y se nota X
masa es Sea una v.a. discreta que puede tomar los valores x = 0, 1, 2, ... Se dice que X sigue una

distribucin

BN (a, p)), con a > 0 y 0 < p < 1, si su funcin

f (x) =
donde (x) =

(a + x) x pa (1 p) para x = 0, 1, 2, ... (a) (x + 1)

sx1 es ds es la funcin gamma.

Obsrvese que la distribucin geomtrica es un caso particular de la binomial negativa, cuando a = 1.


Prof. Dr. Antonio Jos Sez Castillo

71

Dpto de Estadstica e I.O. Universidad de Jan

Sea X BN (a, p). Entonces

1p p 1p V arX = a 2 p EX = a

Caracterizacin de la distribucin binomial negativa. Sea un determinado experimento aleatorio que


se repite sucesivamente de forma independiente y donde hay un suceso que denominamos que ocurre el entero,
k-simo xito,

que ocurre

con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el nmero de fracasos hasta xito sigue una BN (k, p). En este caso, adems, y dado que (r) = (r 1)! si r es un

f ( x) = =

(k + x 1)! k x p (1 p) para x = 0, 1, 2, ... (k 1)!x! k+x1 k1 pk (1 p)


x

para x = 0, 1, 2, ...

Caracterizacin de la distribucin binomial negativa. Sean X1 , ..., Xn v.a. independientesa con distribucin Geo (p). En ese caso, X = es un entero.
a Podemos quedarnos por ahora con la idea de que v.a. independientes son aquellas tales que el resultado de cualquiera de ellas no afecta al resto.
n i=1

Xi sigue una BN (n, p). De nuevo obsrvese que el primer parmetro

Ejemplo.

Continuando con el ejemplo de la transmisin de dgitos a travs de un sistema imperfec-

to, cuntos dgitos se transmitirn correctamente hasta que dos lo hagan incorrectamente? De nuevo tenemos que asumir que no hay una respuesta para esto, pero s podemos considerar un modelo de probabilidad para ello que nos ayude a tomar decisiones. Sea Z :
n de dgitos que se reciben bien hasta que dos se cruzan.

Esta v.a. sigue una distribucin

BN (2, 0.2). Gracias a este modelo, podemos decirle al ingeniero, por ejemplo, que la probabilidad de
que se le crucen 2 dgitos con 10 o menos envos es
8

P [Z 8] =
z =0

P [Z = z ] =

(2 + z 1)! 2 z 0.2 0.8 = 0.62 (2 1)!z ! z =0

72

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

0.1 BN(2.5,0.25)

0.06 BN(5,0.25) 0.04

0.05 0.02 0 10 0.4 BN(2.5,0.5) 0.3 0.2 0.1 0 10 0.8 BN(2.5,0.75) 0.6 0.4 0.2 0 10 0 10 20 30 40 0.3 0.2 0.1 0 10 0 10 20 30 40 0 10 20 30 40 0.15 0.1 0.05 0 10 0.4 BN(5,0.75) 0 10 20 30 40 0 10 0.2 BN(5,0.5)

10

20

30

40

10

20

30

40

Figura 4.5: Funciones masa de distribuciones binomiales negativas.

4.4. Variable aleatoria continua


4.4.1. Denicin
Una variable aleatoria es

continua

si el conjunto de valores que puede tomar slo puede encerrarse en

intervalos, formando, por tanto, un conjunto con un nmero innito no numerable de elementos.

Ejemplo. Son variables aleatorias continuas:


La tensin de fractura de una muestra de asfalto. El grosor de una lmina de aluminio. El pH de una muestra de lluvia. La duracin de una llamada telefnica.

4.4.2. Histograma
Hay una diferencia fundamental entre las variables discretas y las continuas: en las discretas podemos, al menos, numerar los posibles valores y contar el nmero de veces que sale cada valor posible en una muestra. Sin embargo, por el carcter que tienen los intervalos de nmeros reales, por muy grande que fuera la muestra
Prof. Dr. Antonio Jos Sez Castillo

73

Dpto de Estadstica e I.O. Universidad de Jan

Histograma con N=100 datos

Histograma con N=1000 datos

0.8

Densidad

0.6

Densidad 0 1 2 3 4 5 6

0.4

0.0

0.2

0.0 0

0.2

0.4

0.6

0.8

Figura 4.6: Histogramas. que tomramos de una variable continua, jams tendramos ms de un valor de algunos puntos que puede tomar la variable1 . Por esa razn, en una variable continua no podemos denir una funcin masa emprica, precisamente porque los valores de una variable continua no tienen masa de probabilidad. Sin embargo, como sabemos, existe una representacin anloga a la funcin masa emprica que permite aproximar las probabilidades de los valores de una variable continua: el histograma. Vamos a considerar un sencillo ejemplo para ilustrar esta cuestin: mediante R simulamos dos muestras de una variable, una con N = 100 valores y otra con N = 1000. Histogramas asociados a estas muestras, con 10 y 31 intervalos, respectivamente, aparecen en la Figura 4.6. Teniendo en cuenta que el rea de las barras representa la frecuencia relativa con que se dan los valores de los sucesivos intervalos en la muestra, en estos histogramas podemos ver que la variable toma mayoritariamente valores cercanos a cero; tanto ms lejano al cero es un valor, menos probable parece ser. Este descenso de la probabilidad es adems, muy acusado, casi exponencial. Por otra parte, obsrvese que al pasar de 100 datos en la muestra a 1000 datos, el histograma esboza la forma de una funcin real de variable real. En general, cuanto mayor es N ms se aproximan los histogramas a la forma de una funcin continua. Vamos a ir viendo cul es la utilidad de esa funcin desde el punto de vista del Clculo de Probabilidades. Si en el histograma de la izquierda de la Figura 4.6 quisiramos calcular la probabilidad en la muestra de alguno de los intervalos que denen el grco, la respuesta sera el rea de la barra sobre dicho intervalo. Si quisiramos la probabilidad en la muestra de varios intervalos, sumaramos las reas de las barras. El problema es que para que las probabilidades en la muestra se parezcan a las verdaderas probabilidades es necesario que el tamao de la muestra sea grande, cuanto mayor, mejor. En ese caso, tendramos un
1 Esto

sucedera siempre que tomemos un nmero suciente de decimales en cada valor.


Prof. Dr. Antonio Jos Sez Castillo

74

Apuntes de Estadstica para Ingenieros

histograma ms parecido al de la derecha de la Figura 4.6. En l, de nuevo, si queremos, por ejemplo, calcular

P [a < X < b] ,
deberamos sumar las reas de las barras que forman el intervalo (a, b), si es que hay intervalos que forman, exactamente, el intervalo (a, b) . Pero si el tamao de la muestra es lo sucientemente amplio para poder
pasar al lmite

y encontrar una

funcin real de variable real f (x) que represente la lnea que dene el histograma, calcular una probabilidad del tipo P [a < X < b] sumando las reas de las barras de los intervalos innitesimales que forman el intervalo

(a, b) equivale a integrar dicha funcin en el intervalo (a, b), es decir, P [a < X < b ] =
a b

f (x) dx.

4.4.3. Funcin de densidad


Dada una v.a. continua, X , la

funcin de densidad de probabilidad


P [a < X < b ] =
a b

de X es aquella funcin f (x) tal

que para cualesquiera a, b R o a, b = ,

f (x) dx

Nota.

Dado que a efectos del clculo de integrales un punto no afecta al resultado de la integral, si

a, b R, podemos decir que P [a < X < b ] = P [a X < b] = P [ a < X b] = P [ a X b] =


a a b a b a b b

f (x) , f (x) , f (x) , f (x) .

Este hecho pone de maniesto que los valores concretos de una variable aleatoria continua no tienen masa de probabilidad, ya que

P [X = x0 ] =

x0

f (x) dx = 0,
x0

pero s tienen densidad de probabilidad, f (x0 ). Esta densidad de probabilidad representa la probabilidad de los intervalos innitesimales de valores alrededor de x0 . As, aunque P [X = x0 ] = 0, si f (x0 ) toma un valor alto, querr decir que los valores alrededor de x0 son muy probables.

Dada una v.a. continua, X con funcin de densidad f (x):


Prof. Dr. Antonio Jos Sez Castillo

75

Dpto de Estadstica e I.O. Universidad de Jan

1. f (x) 0 para todo x R. 2.

f ( x) = 1 .

3. En general, para cualquier conjunto de nmeros reales, B ,

P [X B ] =
B

f (x) dx.

4.4.4. Funcin de distribucin


Se dene la

funcin de distribucin de probabilidad de una v.a. continua X


F (x) = P [X x] =
x

como

f (t) dt.

Si X es una v.a. continua con funcin de densidad f (x) y funcin de distribucin F (x), entonces 1. l mx F (x) = 0. 2. l mx F (x) = 1. 3. F es creciente. 4. F es continua. 5. f (x) = F (x) .

Ejemplo.

Considrese una variable aleatoria continua, X, con funcin de densidad f (x) = cea|x| .

Vamos a calcular la constante c, la funcin de distribucin y P [X 0]. En primer lugar,

1=

f (x) dx =

f (x) dx +
0 0

f (x) dx 2c , a

c exp (ax) dx +

c exp (ax) dx =

luego es necesario que c = a 2. Por otra parte,

F (x) =

f (t) dt =

1 ax si x < 0 2e 1 1eax si x 2 + 2

Por ltimo, P [X 0] =

f (x) dx = 1 2.

La funcin de densidad y la de distribucin, para a = 1, aparecen en la Figura 4.7.

76

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 4.7: Funcin de densidad (izquierda) y de distribucin (derecha).

Ejemplo. Consideremos una v.a. continua con funcin de distribucin dada por
F (x) =
En ese caso, la funcin de densidad es

0 si x < 0 x si 0 x < 1 . 1 si x 1

f (x) = F (x) =

1 si 0 x 1 0 en otro caso

Grcamente, ambas funciones aparecen en la Figura 4.8. En esta variable, todos los puntos tienen la misma densidad de probabilidad, indicando que todos los intervalos de la misma longitud, dentro de

[0, 1] , tienen la misma probabilidad.

4.4.5. Funcin de distribucin emprica


Al igual que ocurre con la funcin masa emprica con respecto a la funcin masa y al histograma con respecto a la funcin de densidad, la funcin de distribucin, indistintamente de que se trate de una variable discreta o continua, tambin tiene una
versin muestral.

Concretamente, si tenemos una variable aleatoria X y una muestra suya de tamao N, (x1 , ..., xN ) , la funcin

de distribucin emprica se dene como

SN (x) =

nu mero de valores x . N

Esta funcin se utiliza para aproximarse a la funcin de distribucin, ya que para un gran nmero de valores,
Prof. Dr. Antonio Jos Sez Castillo

77

Dpto de Estadstica e I.O. Universidad de Jan

Figura 4.8: Funcin de densidad (izquierda) y de distribucin (derecha). la curva emprica se parecer bastante a la funcin de distribucin. Dicho de otra forma,

l m SN (x) = F (x) ,

para cada x.

Ejemplo. En el ejemplo anterior se hablaba de una variable aleatoria continua cuya funcin de distribucin es

F (x) =

0 si x < 0 x si x [0, 1] . 1 si x > 1

En la Figura 4.9 hemos representado dos funciones de distribucin empricas asociadas a sendas muestras de tamao N = 10 (izquierda) y N = 100 (derecha). Obsrvese que cuando aumenta el tamao de la muestra (N ), la funcin de distribucin emprica se parece cada vez ms a la funcin de distribucin.

4.4.6. Media y varianza de una v.a. continua


Sea X una v.a. continua con funcin de densidad f (x). Se dene su media o esperanza matemtica como

EX =

x f (x)dx.

La interpretacin de la media de una v.a. continua es, de nuevo, la de un valor central alrededor del que se dan el conjunto de realizaciones de la v.a. Otra interpretacin es la de

valor esperado, en el sentido de que

78

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 4.9: Funciones de distribucin empricas.

es el valor de la variable aleatoria en el que a priori se tienen ms esperanzas.

Ejemplo. Sea una v.a. continua con funcin de densidad


fX (x) =
Calculemos su media:
1 x 2 x 1

si x1 x x2

0 en otro caso

EX =

x2

x
x1

1 dx x2 x1
x2

x2 1 x2 x1 2

=
x1

1 x2 x2 1 2 2 x2 x1

1 ( x2 x1 ) ( x2 + x1 ) 1 = (x1 + x2 ) , = 2 x2 x1 2
es decir, el punto medio del intervalo [x1 , x2 ].

Ejemplo. Sea una v.a. continua con funcin de densidad


fX (x) = ex si x 0 0 en otro caso .

Prof. Dr. Antonio Jos Sez Castillo

79

Dpto de Estadstica e I.O. Universidad de Jan

Calculemos su media:

EX =
0

x ex dx u=x +
0

dv = ex dx = 1 = 0 + ex
0

x ex 1 = .

ex dx

Vamos a introducir ahora el concepto de varianza de una v.a. continua, que de nuevo se interpreta como una medida de la concentracin de los valores de la v.a. en torno a su media.

Sea una v.a. X . Se dene su

varianza como V ar [X ] = E

(X EX )

Es decir, es la media de las desviaciones al cuadrado de los valores de la variable respecto de su media.

La raz cuadrada de la varianza, =

V ar [X ] se conoce como

desviacin tpica.

Como en el caso de las v.a. discretas, existe un mtodo ms cmodo para el clculo de cualquier varianza. En concreto,

V ar [X ] = E (X EX )

= E X 2 2X EX + (EX )
2

2 2

= E X 2 2 EX EX + (EX ) = E X 2 (EX ) .
Como se comentaba anteriormente, la interpretacin de la varianza es la de un promedio que mide la distancia de los valores de la variable a la media de sta. Si la varianza es pequea, indica una alta concentracin de los valores de la variable en torno a la media; y viceversa, si la varianza es grande, indica alta dispersin de los valores de la variable respecto de la media.

Ejemplo. Calculemos la varianza de una v.a. continua con funcin de densidad


fX (x) =
1 x 2 x 1

si x1 x x2

0 en otro caso

E X
2

x2

=
x1

x2

3 1 1 x3 2 x1 dx = x2 x1 3 x2 x1

x2 + x1 x2 + x2 1 = 2 . 3

80

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Anteriormente habamos demostrado que

EX =
por tanto,

x1 + x2 , 2

V ar [X ] = E X 2 EX 2 =
2 ( x1 + x2 ) (x2 x1 ) x2 2 + x1 x2 + x1 = . 3 4 12 2 2

Nota. Estimaciones muestrales de media y varianza de una v.a.


Probablemente las mentes ms despiertas ya se hayan planteado qu relacin hay entre la media y la varianza de una v.a. (discreta o continua) y la media y la varianza de unos datos, denidas en el captulo de Estadstica Descriptiva. La respuesta la veremos ms adelante, pero podemos ir avanzando que la relacin es parecida a la que se da entre los diagramas de barras y las funciones masa o entre los histogramas y las funciones de densidad. Es decir, si tenemos unos datos de una variable, en otras palabras, una muestra de una variable, la media y la varianza de la muestra sern aproximaciones de la media y la varianza de la variable aleatoria, aproximaciones que deben ser tanto mejores cuanto mayor sea el tamao de la muestra.

Nota. Comportamiento de la media y la varianza frente a cambios de origen y escala.


Un cambio de origen de una variable consiste en sumar o restar una determinada cantidad a los valores de la variable, mientras que un cambio de escala supone multiplicar por un factor dichos valroes. En general, si X es una variable cualquiera, un cambio de origen y escala supone considerar aX + b. Ya comentamos en el captulo de Estadstica Descriptiva el comportamiento de la media y la varianza muestral frente a estos cambios de origen y escala. Ahora nos referimos aqu al comportamiento de sus homlogos poblacionales. Este resultado es muy til en la prctica y es vlido tanto para variables continuas como para discretas. Concretamente, si X es una v.a. y a, b R, entonces

E [aX + b] = aE [X ] + b V ar [aX + b] = a2 V arX

Nota. Si tenemos una coleccin de variables aleatorias independientes, es decir, que son observadas sin
que ninguna de ellas pueda inuir sobre las otras, es muy til plantearse en ocasiones por la media y la varianza de la suma de todas ellas. Vamos a considerar las variables X1 , ..., Xn , que pueden ser discretas o continuas. Pues bien, se tiene que la media de la suma es la suma de las medias y que la varianza de la suma es la suma de las varianzas;

Prof. Dr. Antonio Jos Sez Castillo

81

Dpto de Estadstica e I.O. Universidad de Jan

es decir,

E [X1 + ... + Xn ] = EX1 + ... + EXn V ar [X1 + ... + Xn ] = V arX1 + ... + V arXn

4.5. Modelos de distribuciones de probabilidad para variables continuas


Como en el caso de las variables discretas, vamos a describir a continuacin los modelos de distribuciones de probabilidad ms usuales para variables continuas. De nuevo tenemos que insistir que la utilidad de estos modelos radica en que van a facilitarnos la manera en que se reparte la probabilidad de los valores de la variable.

4.5.1. Distribucin uniforme (continua)


uniforme entre x1 y x2
Se dice que una v.a. continua X que slo puede tomar valores en el intervalo (x1 , x2 ) sigue una distribucin (y se nota X U (x1 , x2 )) si su funcin de densidad es

f (x) =

1 x 2 x 1

si x1 < x < x2

0 en otro caso

Sea X U (x1 , x2 ). Entonces

x1 + x2 2 2 (x2 x1 ) V arX = . 12 EX =

Caracterizacin de la distribucin uniforme. Si X

es una v.a. tal que dos intervalos cualesquiera entre

x1 y x2 de la misma longitud, tienen la misma probabilidad, entonces X U (x1 , x2 ) .


El ejemplo ms habitual de esta variable es la variable uniforme en el intervalo (0, 1) ; valores simulados de esta variable son los que se calculan con la orden

RND de cualquier calculadora.

4.5.2. Distribucin exponencial


Esta distribucin suele ser modelo de aquellos fenmenos aleatorios que miden el tiempo que transcurre entre que ocurren dos sucesos. Por ejemplo, entre la puesta en marcha de una cierta componente y su fallo o el tiempo que transcurre entre dos llamadas consecutivas a una centralita.

82

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Sea X una v.a. continua que puede tomar valores x 0. Se dice que X sigue una distribucin

de parmetro (y se nota X exp ()) si su funcin de densidad


f (x) = ex si x 0 . 0 en otro caso

exponencial

Obsrvese que su funcin de distribucin es

F (x) = P [X x] =
Sea X exp (). Entonces,

1 ex si x 0 . 0 en otro caso

1 1 V arX = 2 . EX =

Caracterizacin de la distribucin exponencial. Sea X P () una v.a. discreta que cuenta el nmero
de xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre dos xitos consecutivos,

T , es una v.a. que sigue una exp ().

Ejemplo. Un elemento radiactivo emite partculas segn una variable de Poisson con un promedio de
15 partculas por minuto. En ese caso, el tiempo, T , que transcurre entre la emisin de una partcula y la siguiente sigue una distribucin exponencial de parmetro = 15 partculas por minuto. Este modelo nos permite, por ejemplo, calcular la probabilidad de que entre partcula y partcula pasen ms de 10 segundos, dado por

P [T > 10/60] =

15e15t dt = e15/6 .
1/6

Ejemplo.

Recordemos que habamos comentado que la distribucin de Poisson se sola utilizar en el

contexto de las redes de comunicaciones como modelo para el nmero de solicitudes a un servidor por unidad de tiempo. Segn esta caracterizacin que acabamos de ver, eso equivale a decir que el tiempo que pasa entre dos solicitudes a un servidor sigue una distribucin exponencial. Por ejemplo, supongamos que el nmero de conexiones a un servidor FTP sigue una distribucin de Poisson de media 2.5 conexiones a la hora. En ese caso, podramos preguntarnos cul es la probabilidad de que pasen ms de dos horas sin que se produzca ninguna conexin. Teniendo en cuenta que el tiempo entre conexiones seguira una distribucin exponencial de parmetro 2.5, esa probabilidad sera

P [T > 2] =
2

2.5e2.5x dx = e5

Prof. Dr. Antonio Jos Sez Castillo

83

Dpto de Estadstica e I.O. Universidad de Jan

o bien

P [T > 2] = 1 P [T 2] = 1 FT (2) = 1 1 e2.52 = e5 .

Hay una interesante y curiosa propiedad de la distribucin exponencial, conocida como


memoria.

propiedad de no

Si X es una v.a. con distribucin exp() y t y s son dos nmeros positivos. Entonces:

P [X > t + s|X > s] = P [X > t]


La forma de demostrarlo es muy sencilla:

P [X > t + s|X > s] = =

P [X > t + s X > s] P [X > t + s] = P [X > s] P [X > s] e(s+t) = et = P [X > t] es

Vamos a tratar de entender la trascendencia de esta propiedad en el siguiente ejemplo.

Ejemplo. El tiempo de vida, T , de un circuito, sigue una distribucin exponencial de media dos aos.
Calculemos la probabilidad de que un circuito dure ms de tres aos:

P [T > 3] = e 2 3
Supongamos que un circuito lleva 5 aos funcionando, y que nos planteamos la probabilidad de que an funcione 3 aos ms. Segn la propiedad de no memoria, esa probabilidad es la misma que si el circuito acabara de comenzar a funcionar, es decir,

P [T > 3 + 5|T > 5] = P [T > 3] = e 2 3


Desde un punto de vista prctico, parece poco creible, porque entendemos que los 5 aos previos de funcionamiento deben haber afectado a la abilidad del circuito, pero si creemos que la distribucin del tiempo de vida de ste es exponencial, tenemos que asumir esta propiedad.

4.5.3. Distribucin Gamma


Sea X una v.a. continua que puede tomar valores x 0. Se dice que X sigue una parmetros a y (y se nota X Gamma (a, )) si su funcin de densidad es

distribucin Gamma de

f (x) =
donde (x) =

(x) ex u (x) , (a)

a1

sx1 es ds es la funcin gamma.

Obsrvese que en el caso en que a = 1 se tiene la distribucin exponencial.

84

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

1 exp(1)

0.5

0 0.2

10

12

14

16

18 exp(5)

20

0.15 0.1 0.05 0 0.1 exp(10) 0 2 4 6 8 10 12 14 16 18 20

0.05

10

12

14

16

18

20

Figura 4.10: Funciones de densidad de distribuciones exponenciales.

En el contexto de las telecomunicaciones, hay un caso especialmente interesante. Si a = n, nmero natural, la distribucin se denomina del tiempo que pasa entre n llamadas telefnicas, por ejemplo. Otro caso particular lo constituye la

Erlang. Lo que la hace interesante es que esta distribucin se utiliza como modelo distribucin 2 con r grados de libertad, que no es ms que una

Gamma

r 1 2, 2

. Esta distribucin se utiliza, por ejemplo, para evaluar la bondad del ajuste de una distribucin

terica a unos datos, como veremos ms adelante. Sea X Gamma (a, ). Entonces

a a V arX = 2 . EX =

Caracterizacin de la distribucin Gamma. Sea X P () una v.a. discreta que cuenta el nmero de
xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre el k simo xito y el

k + r, T , es una v.a. que sigue una Gamma (r, ). Dado que r es un entero, en realidad es una Erlang (r, ).

Caracterizacin de la distribucin Gamma. Sean X1 , ..., Xn v.a. independientes con distribucin exp ().
En ese caso, X =
n i=1

Xi sigue una Gamma (n, ). De nuevo obsrvese que el primer parmetro es un entero,

luego se trata de una Erlang.


Prof. Dr. Antonio Jos Sez Castillo

85

Dpto de Estadstica e I.O. Universidad de Jan

Gamma(2.5,1) 0.20

0.00 0.05 0.10 0.15 0.20

Gamma(5,1)

0.00

0.10

10

15

20

25

30

10

15

20

25

30

Gamma(2.5,0.2) 0.04

0.00 0.01 0.02 0.03 0.04

0.02

0.06

Gamma(5,0.2)

0.00

10

15

20

25

30

10

15

20

25

30

0.030

Gamma(2.5,0.1)

0.000 0.005 0.010 0.015

0.010

0.020

Gamma(5,0.1)

0.000

10

15

20

25

30

10

15

20

25

30

Figura 4.11: Funciones de densidad de distribuciones Gamma

4.5.4. Distribucin normal


Sea X una v.a. continua que puede tomar cualquier valor real. Se dice que X sigue una distribucin normal

o gaussiana, de parmetros y (y se nota X N (, )), si su funcin de densidad es


f (x) = 1 2 2 exp (x ) 2 2
2

para todo x R.

Obsrvese que es la nica distribucin que hemos visto hasta ahora que toma todos los valores entre y

+ .
Sea X N (, ). Entonces

EX = V arX = 2 .
El propio nombre de la distribucin normal indica su frecuente uso en cualquier mbito cientco y tecnolgico. Este uso tan extendido se justica por la frecuencia o normalidad con la que ciertos fenmenos tienden a parecerse en su comportamiento a esta distribucin, ya que muchas variables aleatorias continuas presentan una funcin de densidad cuya grca tiene forma de campana. Esto, a su vez, es debido a que hay muchas variables asociadas a fenmenos naturales cuyas caractersticas son compatibles con el modelo aleatorio que supone el modelo de la normal: Caracteres morfolgicos de individuos (personas, animales, plantas, ...) de una especie (tallas, pesos, envergaduras, dimetros, permetros, ...).

86

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

0.4 N(0,1) 0.3 0.2 0.1 0 10 0.4 N(1,1) 0.3 0.2 0.1 0 10 0.4 N(1,1) 0.3 0.2 0.1 0 10 5 0 5 10 5 0 5 10 5 0 5 10

0.1 N(0,4)

0.05

0 10 0.1

10 N(1,4)

0.05

0 10 0.1

10 N(1,4)

0.05

0 10

10

Figura 4.12: Funciones de densidad de la distribucin normal Caracteres siolgicos (efecto de una misma dosis de un frmaco, o de una misma cantidad de abono). Caracteres sociolgicos (consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen...). Caracteres psicolgicos (cociente intelectual, grado de adaptacin a un medio, ...). Errores cometidos al medir ciertas magnitudes. Valores estadsticos muestrales, como por ejemplo la media. Otras distribuciones como la binomial o la de Poisson son aproximadas por la normal, ... En general, como veremos enseguida, cualquier caracterstica que se obtenga como suma de muchos factores independientes encuentra en la distribucin normal un modelo adecuado. Existe otra razn ms pragmtica para el uso tan extendido de la distribucin normal: sus propiedades matemticas son, como iremos viendo, casi inmejorables. Eso conduce a que casi siempre se trate de forzar al modelo normal como modelo para cualquier variable aleatoria, lo cual, en ocasiones puede conducir a errores importantes en las aplicaciones prcticas. Lo cierto es que tambin son frecuentes las aplicaciones en las que los datos no siguen una distribucin normal. En ese caso puede ser relevante estudiar qu factores son los que provocan la prdida de la normalidad y, en cualquier caso, pueden aplicarse tcnicas estadsticas que no requieran de esa hiptesis.
Prof. Dr. Antonio Jos Sez Castillo

87

Dpto de Estadstica e I.O. Universidad de Jan

Tipicacin de la distribucin normal.

Sea X N (, ). Entonces,

Z=
propiedad que suele conocerse como

X N (0, 1) ,

tipicacin de la normal.

Esta conocida propiedad tiene una aplicacin prctica muy usual. Dadas las caractersticas de la densidad gaussiana, no es posible calcular probabilidades asociadas a la normal de forma exacta, ya que las integrales del tipo

1 2 2

exp

(x ) 2 2

dx

no pueden ser expresadas en trminos de las funciones usuales, y slo pueden calcularse por mtodos numricos. No obstante, existen tablas donde aparecen multitud de valores de la funcin de distribucin de la distribucin N (0, 1) y a partir de ellos se pueden calcular otras tantas probabilidades, utilizando la propiedad de tipicacin. Por ejemplo, si queremos calcular la probabilidad de que una variable X N (, ) est en el intervalo [a, b], tenemos

P [a X b] = P

a X b = FZ

FZ

donde FZ () es la funcin de distribucin de una variable Z N (0, 1), que puede evaluarse mediante el uso de tablas. Vamos a verlo en un ejemplo.

Ejemplo. En el artculo ndices de relacin peso-talla como indicadores de masa muscular en el adulto del sexo masculino de la revista Revista Cubana Aliment. Nutr. (1998;12(2):91-5) aparece un
colectivo de varones con un peso cuya media y desviacin estndar son, respectivamente, 65.6 y 11.7. 1. Cmo podemos, mediante las tablas de la N (0, 1), calcular, por ejemplo, la probabilidad de que uno de esos varones pese ms de 76.25 kilos?

P [X > 76.25] = P

76.25 65.6 X 65.6 > 11.7 11.7

= P [Z > 0.91] = 1 P [Z < 0.91] = 1 0.819


2. Y la probabilidad de que pese menos de 60 kilos?

P [X < 60] = P

X 65.6 60 65.6 < 11.7 11.7

= P [Z < 0.48] = P [Z > 0.48] = 1 P [Z < 0.48] = 1 0.684


3. Y la probabilidad de que pese entre 60 y 76.25 kilos?

P [60 < X < 76.25] = P [X < 76.25] P [X < 60] = 0.819 (1 0.684)

88

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 4.13: Bsqueda de probabilidades en la tabla de la N (0, 1). Valor de la probabilidad a la izquierda de 0.91

4. Cunto pesar aquel varn tal que un 5 % de varones de ese colectivo pesan ms que l? Es decir, cul ser el valor de x tal que P [X > x] = 0.05 o, equivalentemente, P [X < x] = 0.95. Dado que

P [ X < x] = P

x 65.6 x 65.6 X 65.6 < =P Z< 11.7 11.7 11.7


x65.6 11.7

tan slo tenemos que buscar el valor z = en cuyo caso, x = 65.6 + 11.7 1.645.

tal que P [Z < z ] = 0.95, 1.645 (aproximadamente),

Prof. Dr. Antonio Jos Sez Castillo

89

Dpto de Estadstica e I.O. Universidad de Jan

Figura 4.14: Bsqueda de valores z en la tabla de la N (0, 1). Valor de Z que deja a la derecha una probabilidad de 0.95

Teorema Central del Lmite. Sean X1 , ..., XN

v.a. independientes, todas ellas con la misma distribucin

de probabilidad, distribucin de media X y desviacin tpica X . En ese caso, la suma de estas variables sigue aproximadamente una distribucin normal cuando N es elevado, es decir,
N

Xi N N X , N X .

i=1

Tipicando, podemos reenunciar el Teorema Central del Lmite diciendo que


N i=1

Xi N X N (0, 1) . N X

Este teorema es el que proporciona una justicacin matemtica del porqu la distribucin gaussiana es un modelo adecuado para un gran nmero de fenmenos reales en donde la v.a. observada en un momento dado es el resultado de sumar un gran nmero de sucesos aleatorios elementales.

Ejemplo. Consideremos X1 , ..., XN


central del lmite,
N i=1

variables independientes con distribucin U [0, 1]. Segn el teorema


N 12

Xi N 0.5N,

. Para poner este resultado de maniesto se ha realizado


N i=1

el siguiente experimento: Para N = 1, 2, 5 y 10, se ha simulado una muestra de 10000 datos de

Xi , dibujando su histograma

90

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

140 N=1 120 100 80 60 40 20 0 0 0.2 0.4 0.6 0.8 1

250 N=2 200 150 100 50 0

0.5

1.5

300 N=5 250 200 150

350 N=10 300 250 200 150

100 50 0 0 1 2 3 4 5

100 50 0 0 2 4 6 8 10

Figura 4.15: Ilustracin del Teorema Central del Lmite.

en cada caso. Estos histogramas aparecen en la Figura 4.15. En ella se pone de maniesto como segn

N crece, el histograma se va pareciendo cada vez ms a una densidad gaussiana.

Ejemplo. Supongamos que estamos realizando un examen de 150 preguntas, cada una de ellas con una
puntuacin de 1 punto y que en funcin de cmo hemos estudiado, consideramos que la probabilidad de contestar acertadamente una pregunta cualquiera es de 0.7. Dmonos cuenta que el resultado de una pregunta cualquiera sigue una distribucin B (1, 0.7), cuya media es 1 0.7 = 0.7 y cuya varianza es

1 0.7 (1 0.7) = 0.21.


Por su parte, el resultado nal de la prueba ser la suma de las 150 puntuaciones. Podramos ver este resultado segn una B (150, 0.7), pero los clculos seran muy tediosos debido a los factoriales de la funcin masa de la distribucin binomial. En este caso, merece la pena que utilicemos el Teorema Central del Lmite, segn el cul el resultado nal, X , seguira aproximadamente una distribucin

N 150 0.7, 150 0.21 ,


es decir, X N (105, 5.612) . As, si por ejemplo, nos planteamos cul es la probabilidad de aprobar, sta ser

P [X > 75] = P [Z > 0.952] = 0.830.


Esta aplicacin se conoce, en general, como
aproximacin normal de la binomial.

, de las variables X1 , ..., XN , podemos Enunciando el Teorema Central del Lmite en trminos de la media, X
decir que si N es grande,

N (, / N ) X

Prof. Dr. Antonio Jos Sez Castillo

91

Dpto de Estadstica e I.O. Universidad de Jan

Ejemplo. Un ingeniero disea un aparato de medida que realiza una aproximacin ms imprecisa que
el aparato tradicional pero mucho ms barata. Para reducir el margen de error de la medida realizada, el ingeniero propondr que se realicen un nmero determinado de medidas sobre el mismo objeto y que se considere la media de estas medidas como valor nal de la medida del objeto. Inicialmente, el ingeniero hace una valoracin que le lleva a concluir que el aparato est bien calibrado, es decir, que la media de la medida del aparato coincide con la medida real, y que la desviacin tpica de las medidas del aparato es igual a 0.75. Cuntas medidas debe proponer el ingeniero para que el error de medida sea inferior a 0.1 con un 95 % de probabilidad? Empecemos considerando que cada medida, Xi , tiene como media el verdadero valor de la medida del n = i=1 Xi , donde realmente nos objeto, x0 , y desviacin tpica 0.75. Por su parte, la medida nal ser X
n

interesa conocer el valor de n. Para ello, tengamos en cuenta que se nos pide que

x0 < 0.1 0.95. X

.75 N x0 , 0 . Por su parte, y que, considerando el Teorema Central del Lmite, X n

x0 < 0.1 = P x0 0.1 < X < x0 + 0.1 = P 0.1 n < Z < 0.1 n X 0.75 0.75 0.1 n . =12 1P Z < 0.75 x0 < 0.1 0.95, entonces P Z < X
0.1 n 0.75

Si queremos que P

0.975, de donde

0.1 n 0.75

1.96 y

entonces, n 216.09. Como conclusin, ms le vale al ingeniero disminuir la desviacin tpica del aparato de medida.

4.6. Cuantiles de una distribucin. Aplicaciones


Para acabar el tema vamos a ver una de las aplicaciones ms sencillas pero a la vez ms tiles de los modelos de probabilidad. Debo decir que son numerosas las ocasiones que desde distintos ambientes cientcos y de la Ingeniera he asesorado a profesionales con respecto a cuestiones que tienen que ver con lo que esta seccin analiza. Los ejemplos que vamos a considerar son, Concretamente, vamos a comenzar deniendo el
grosso modo,

sntesis de ellas.

cuantil

p (p [0, 1]) de una distribucin de probabilidad

de una v.a. X . Sea sta discreta o continua, denominemos f (x) a su funcin masa o de densidad. Se dene el cuantil p, Qp de su distribucin como el primer valor, x, de la variable tal que P [X x] p: Si la variable es discreta, Qp ser, por tanto, el primer valor tal que

f (x) p.
xi x

92

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ntese que, al ser la variable discreta, puede que no logremos obtener una igualdad del tipo

xi x

f (x) =

p.
Si la variable es continua, Qp s puede obtenerse como el valor x tal que

f (t) dt = p,

o lo que es lo mismo, como el valor x tal que F (x) = p, siendo F la funcin de distribucin de la variable. Es muy frecuente que la probabilidad p a la que se asocia un cuantil se exprese en porcentaje. En ese caso, los cuantiles tambin se pueden llamar percentiles. Por ejemplo, el cuantil 0.5 es el percentil 50, la mediana. Desde luego, lo ms importante es que interpretemos qu signica el cuantil p de una v.a. Como en Estadstica Descriptiva, se reere al valor de la variable que deja por debajo de s una proporcin p de valores de la variable. Entonces, si un valor concreto corresponde con un cuantil ejemplos.
alto,

podemos decir que realmente es un valor

alto

dentro de la distribucin de probabilidad de la variable, y viceversa. Vamos a tratar de aclararlo con algunos

4.6.1. La bombilla de bajo consumo marca ANTE


En el captulo de introduccin comentbamos las especicaciones tcnicas que aparecan en el envoltorio de una bombilla de 14W de la marca ANTE, entre las que se deca que tena una duracin de 8 aos. Eso contradice nuestra sensacin de que este tipo de lmparas duran mucho menos y, en cualquier caso, es una simplicacin inadmisible, porque es evidente que la duracin de la bombilla es una variable sujeta a incertidumbre, es decir, una variable aleatoria. Vamos a hacer un par de asunciones. En primer lugar, es probable que lo que quisieran decir en el envoltorio es que la

duracin media

es de 8 aos (lo cul, por cierto, tambin podra ser objeto de controversia).

En segundo lugar, dado que tenemos que proponer un modelo de distribucin de probabilidad para la duracin de la lmpara, vamos a considerar el ms sencillo que suele emplearse en este tipo de aplicaciones: la distribucin exponencial. Esta hiptesis tambin podra ser discutida, pero otros modelos ms complejos, como la distribucin Weibull, complicaran bastante nuestros clculos que, por otra parte, tienen slo nes ilustrativos. Por tanto, vamos a suponer que la duracin de la bombilla es una variable aleatoria, D, con distribucin exponencial de media 8 aos y, por tanto, con parmetro = 1/8. Ahora que ya tenemos un modelo probabilstico podemos plantearnos muchas cosas: Es muy probable que la lmpara alcance su vida media?

P [D > 8] =
8

1 x e 8 dx = e8/8 = 0.3678794. 8

Obsrvese que eso es algo que ocurrir con cualquier exponencial: la probabilidad de que se supere la media es slo del 36.79 %. Dicho de otra forma, la media es el percentil 63 aproximadamente, lo que implica que slo el 37 % aproximadamente de las lmparas superan su vida media... sorprendente?
Prof. Dr. Antonio Jos Sez Castillo

93

Dpto de Estadstica e I.O. Universidad de Jan

Y cul es el valor que superan el 50 % de las lmparas? Se trata de la mediana, M e = F 1 (0.5) , donde F () es la funcin de distribucin. Por tanto, la mediana es la solucin de la ecuacin

1 eM e = 0.5,
que resulta ser M e =
log 0.5

= 8 log 2 = 5.545177. Luego, visto de otra forma, el 50 % de las lmparas

se rompen antes de 5.545 aos. Para terminar, animo a los lectores interesados a que busquen informacin sobre el cmputo de la vida media de este tipo de lmparas, basado en la realizacin de pruebas aceleradas sobre una muestra (bastante reducida, por cierto) de lmparas.

4.6.2. Las visitas al pediatra de los padres preocupados


Los que tenemos hijos pequeos observamos con cierta ansiedad la evolucin de su peso y su altura. Cuando vamos al pediatra, ste pesa y mide al beb y, obviamente, te dice
cmo est.

Pero el problema es que no

basta con que me diga cunto pesa y mide mi hijo o mi hija, sino que me diga cunto pesa y cunto mide en relacin con los nios o nias de su misma edad. En esa cuestin es dnde entran los percentiles. En este caso jugamos con la ventaja de que se han hecho multitud de estudios previos que determinan que tanto el peso como la altura son variables que siguen una distribucin normal. Ms an, se han determinado las medias y las desviaciones tpicas de nios y nias desde los 0 meses hasta la edad adulta. Vamos a ponernos en una situacin concreta, centrndonos en el peso. Tengo un hijo de tres meses que pesa 5.6 kilos. La pregunta es sabe por estudios
est gordo? es bajito?

En cualquier caso,

cmo de gordo o de bajito.

El pediatra

previos2

que el peso de nios de tres meses es una N (6, 1.2). Lo que se plantea es en qu

posicin se sita el peso de mi hijo, 5.6 kilos, dentro de esa distribucin. Si X es el peso, dado que

P [X 5.6] = 0.369,
el pediatra me dir que mi hijo est en el percentil 37, lo que quiere decir que es un peln bajo de peso, pero dentro de niveles razonables.

2 Fuente:

http://www.familia.cl/salud/curvas_de_crecimiento/curvas_de_crecimiento.htm
Prof. Dr. Antonio Jos Sez Castillo

94

Apuntes de Estadstica para Ingenieros

Figura 4.16: Curvas de crecimiento de 0 a 24 meses.

Prof. Dr. Antonio Jos Sez Castillo

95

Dpto de Estadstica e I.O. Universidad de Jan

96

Prof. Dr. Antonio Jos Sez Castillo

Captulo 5
Variables aleatorias con distribucin conjunta

El matrimonio es la principal causa de divorcio. Groucho Marx

Resumen. En el estudio de las variables aleatorias hemos pasado por alto el hecho de que un conjunto de
dos o ms variables puede verse afectado por una serie de relaciones entre ellas. El anlisis desde el punto de vista estadstico de estas relaciones es el objetivo de este captulo. Como caso especial, describiremos de forma detallada el modelo que para estas relaciones proporciona la distribucin normal multivariante

Palabras clave: distribucin conjunta, distribucin marginal, distribucin condicionada, covarianza, coeciente de correlacin, normal multivariante.

5.1. Introduccin
El mundo real est repleto de relaciones a todos los niveles. Nosotros, por razones obvias, estaremos interesados principalmente en las relaciones que afectan a variables que describen fenmenos propios del ambiente cientco-tecnolgico. Estas relaciones pueden tener muy diversas tipologias. Por ejemplo, podramos pensar en relaciones causa-efecto, como la que, por ejemplo, explicara que una pgina Web tenga un tamao considerable
debido

a que lleva incrustado varios archivos de vdeo y audio, o la que se establece entre la edad

en aos de un vestigio y su contenido en carbono 141 . Pero no slo tendremos relaciones causa-efecto: por ejemplo, sabemos que el peso y la estatura de un ser humano son variables muy relacionadas, hasta el punto que no podemos decir que una persona este obesa slo con saber su peso, sino que debemos valorarlo
relacin a en

su estatura.

Por otra parte, cuando un fenmeno es determinstico y est bien estudiado, las relaciones entre variables son leyes ms o menos sencillas, pero, en cualquier caso, son inmutables. Por ejemplo,

densidad =
1 Relacin

masa . vol.

que, por cierto, sabemos que permite la datacin del vestigio.

97

Dpto de Estadstica e I.O. Universidad de Jan

Pero, qu ocurre cuando el fenmeno es aleatorio? Las variables en ese caso son aleatorias y las relaciones que se puedan dar entre ellas no siempre tienen por qu obedecer a una ley objetiva e inamovible. Por ejemplo, todos somos conscientes de que, como decamos, existe una relacin entre el peso y la altura de una persona, pero no existe una
razn de conversin evidente ?

capaz de calcular el peso exacto de alguien a partir de su altura. Es y de qu forma es esa relacin? Ambas preguntas tratarn de ser

evidente que el tiempo de descarga de una pgina web estar relacionado con el tamao de los archivos que la conguran, pero cmo de contestadas a lo largo de este captulo. Sean X1 , ..., XN variables aleatorias. El vector ordenado

X1 . . . XN
es un

vector aleatorio de dimensin N . vectores aleatorios continuos o vectores aleatorios discretos cuando cada una de sus
vectores mixtos,

Hablaremos de

variables sean continuas o discretas, respectivamente. Podran darse estadstico no nos interesa por ahora.

pero su tratamiento

Ejemplo. Consideremos el valor de una seal analgica que depende del tiempo, x (t). En esta notacin,
entendemos que el valor de la seal podra ser distinto en cada instante de tiempo t. Es muy frecuente que la seal se observe realmente contaminada por un ruido aleatorio que tambin depender del tiempo,

N (t). En ese caso, si observamos la seal en los instantes t1 , ..., tN , el vector x (t1 ) + N (t1 ) . . . x (tn ) + N (tn )
es un vector aleatorio.

Ejemplo. Se estudia el tiempo que un usuario de Internet dedica a ver una pgina WEB (T ) en relacin
con variables como la cantidad de texto que contiene (T x), el nmero de imgenes (I ) y animaciones Flash (F ) de la pgina. Entonces, el vector

Tx I F
es un vector aleatorio.

98

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ejemplo. Se contabiliza la duracin de las llamadas telefnicas a una centralita. Para cada conjunto de
n-usuarios

de la centralita, cada uno de ellos ocupa un tiempo Ti en su llamada. En ese caso, el vector

T1 . . . Tn
es un vector aleatorio.

5.2. Distribuciones conjunta, marginal y condicionada


El principal objetivo a abordar en el tema es cmo medir la incertidumbre asociada a los sucesos que describe un vector aleatorio. Ya vimos que en el caso de una variable aleatoria se trataba de hacerlo a partir de la funcin masa o la funcin de densidad. Ahora, como vamos a ver, es algo ms complejo.

5.2.1. Distribucin conjunta


La

distribucin conjunta de probabilidad

de un vector aleatorio es, esencialmente, la manera en que

se reparte la probabilidad entre todos los posibles resultados del vector. Para describirla vamos a denir los conceptos de funcin de densidad o funcin masa anlogos a los asociados a una variable aleatoria. Sea (X1 , ..., XN ) un vector aleatorio discreto. Entonces, se dene su

funcin masa conjunta como

fX1 ,...,XN (x1 , ..., xN ) = P [X = x1 , ..., XN = xN ] .

Por su parte, si (X1 , ..., XN ) es un vector aleatorio continuo, entonces, su es una funcin tal que

funcin de densidad conjunta

P (X1 , ..., XN ) A RN =
ARN

... fX1 ,...,XN (x1 , ..., xN ) dx1 ...dxN

Ejemplo. Consideremos un vector aleatorio bidimensional,(X, Y ) , que tiene densidad conjunta


fX,Y (x, y ) = cexy si 0 < y < x 0 en otro caso .

En primer lugar, podemos calcular la constante c teniendo en cuenta que

fX,Y (x, y ) dxdy = 1.


R2

Prof. Dr. Antonio Jos Sez Castillo

99

Dpto de Estadstica e I.O. Universidad de Jan

Por ello,

1=
0

ce
x y

dy dx =
0

cex 1 ex dx =

c , 2

de donde c = 2. En segundo lugar, por ejemplo, calculemos

P [X + Y 1] = =
0 0

1y

2ex ey dxdy
1

2ey ey e(1y) dy 1 2e + e2 . e2

=
(ver Figura 5.1)

Figura 5.1: Regin del plano donde se calcula la probabilidad.

Ejemplo. Consideremos dos variables, X


fX,Y (x, y ) =

e Y , que tienen densidad conjunta


1 15

si 0 x 3, 0 y 5

0 en otro caso

Esta densidad constante en el rectngulo denido indica que la distribucin de probabilidad es uniforme en dicho rectngulo. Vamos a calcular la probabilidad de que Y sea mayor que X (ver Figura 5.2)

P [Y > X ] =
0

x 3

1 dy dx 15

5x = dx 15 0 x x2 3 7 = | = . 3 30 0 10

100

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 5.2: Regin del plano donde se calcula la probabilidad.

5.2.2. Distribuciones marginales


Una vez que somos capaces de describir la distribucin de probabilidad de un vector aleatorio mediante su funcin masa o su funcin de densidad conjunta, surge un nuevo problema: qu ocurre si deseamos conocer la distribucin de probabilidad de una o ms variables del vector, no del vector en su conjunto. Esa distribucin de una o ms variables de un vector se conoce como

distribucin marginal.

Sea (X1 , ..., XN ) un vector aleatorio y (Xi1 , ..., Xik ) un subvector de variables suyo. En ese caso: Si el vector es continuo,

fXi1 ,...,Xik (xi1 , ..., xik ) =


Si el vector es discreto,

...
xj / (xi1 ,...,xik )

fX1 ,...XN (x1 , ..., xn )


xj / (xi1 ,...,xik )

dxj .

fXi1 ,...,Xik (xi1 , ..., xik ) =


xj / (xi1 ,...,xik )

fX1 ,...XN (x1 , ..., xn ) .

Ejemplo. Sea el vector bidimensional (X, Y ) con funcin de densidad conjunta fX,Y
para x, y > 0. La funcin de densidad marginal de X ,

(x, y ) = x ex(y+1)

fX (x) =

fX,Y (x, y ) dy =
0

xex(y+1) dy = ex

para x > 0. Anlogamente, la funcin de densidad marginal de Y ,

fY (y ) =

fX,Y (x, y ) dx =
0

xex(y+1) dx =

1 (1 + y )
2

para y > 0.

Prof. Dr. Antonio Jos Sez Castillo

101

Dpto de Estadstica e I.O. Universidad de Jan

Ejemplo. Consideremos dos variables discretas, Q y G, cuya funcin masa, fQ,G (q, g) , viene dada por
fQ,G (q, g ) q=0 q=1
Sus marginales respectivas son:

g=0 0.06 0.04

g=1 0.18 0.12

g=2 0.24 0.16

g=3 0.12 . 0.08

fQ (q ) =
g

fQ,G (q, g ) 0.06 + 0.18 + 0.24 + 0.12 si q = 0 0.04 + 0.12 + 0.16 + 0.08 si q = 1 0.6 si q = 0 0.4 si q = 1
si g = 0 si g = 1 si g = 2 si g = 3

=
y

0.06 + 0.04 0.18 + 0.12 fG (g ) = 0.24 + 0.16 0.12 + 0.08

Ejemplo. En un ejemplo anterior considerbamos dos variables X


fX,Y (x, y ) =
Vamos a calcular sus densidades marginales:
1 15

e Y que tienen densidad conjunta

si 0 x 3, 0 y 5

0 en otro caso

fX (x) = =

fX,Y (x, y ) dy 5 1 dy si 0 x 0 15
1 3

0 en otro caso
si 0 x 3

0 en otro caso

102

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

fY (y ) = =

fX,Y (x, y ) dx 3 1 dx si 0 y 0 15
1 5

0 en otro caso
si 0 y 5

0 en otro caso

Por tanto, ambas marginales corresponden a sendas densidades uniformes.

Ejemplo. La densidad conjunta de X

e Y es

fX,Y (x, y ) =
Calculemos ambas marginales:

2x si 0 x 1, |y | < x2 0 en otro caso

fX (x) =

fX,Y (x, y ) dy

x2
x2

2xdy si 0 x 1

0 en otro caso 4x3 si 0 x 1 0 en otro caso

fY ( y ) = =

fX,Y (x, y ) dx
1 |y |

2xdx si 1 y 1 0 en otro caso

1 |y | si 1 y 1 0 en otro caso

5.2.3. Distribuciones condicionadas


Si tenemos un vector X = (X1 , ..., XN ) , podemos considerar la distribucin de probabilidad de un vector formado por un subconjunto de variables de X , (Xi1 , ..., Xik ) , condicionada al hecho de que se han dado determinados valores en otro subconjunto de variables de X, Xj1 = xj1 , ..., Xjl = xjl .
Prof. Dr. Antonio Jos Sez Castillo

103

Dpto de Estadstica e I.O. Universidad de Jan

Esta distribucin vendr caracterizada por su funcin masa o su funcin de densidad sea el vector discreto o continuo, y tendr la expresin

condicionadas, segn

fXi1 ,...,Xik |Xj1 =xj1 ,...,Xjl =xjl (xi1 , ..., xik ) =

fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) fXj1 ,...,Xjl (xj1 , ..., xjl )

donde fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) es la funcin masa o la funcin de densidad conjunta de las variables Xi1 , ..., Xik , Xj1 , ..., Xjl y fXj1 ,...,Xjl (xj1 , ..., xjl ) es la funcin masa o la funcin de densidad conjunta de las variables Xj1 , ..., Xjl . En el caso ms habitual en el que el vector tenga dimensin dos, tenemos la densidad o la funcin masa de

X condicionada a Y = y, fX |Y =y (x) = fX,Y (x, y ) fY (y )

o la densidad o la funcin masa de Y condicionada a X = x,

fY |X =x (y ) =

fX,Y (x, y ) . fX (x)

Ejemplo. Sean las variables X

e Y con la funcin masa conjunta siguiente: y\x 0 1 2 0 3/28 3/14 1/28 1 9/28 3/14 0 2 3/28 0 0

Las marginales son

fX (x) =
y

3 3 1 28 + 14 + 28 si x = 0 9 3 28 + 14 + 0 si x = 1 3 28 + 0 + 0 si x = 2 3 9 3 28 + 28 + 28 si y = 0 3 3 14 + 14 + 0 si y = 1 1 28 + 0 + 0 si y = 2

fY (y ) =

Como ejemplos de las condicionadas (hay 6 en total) calculemos la funcin masa de X condicionada a

Y = 1 y la de Y condicionada a X = 1.
3 14 6 14 3 14 6 14

si x = 0 si x = 1 . si x = 2 si y = 0 si x = 1 . si x = 2
Prof. Dr. Antonio Jos Sez Castillo

fX |Y =1 (x) =

0
6 14

fY |X =1 (y ) =

9 28 15 28 3 14 15 28

0
15 28

104

Apuntes de Estadstica para Ingenieros

Como es evidente, una vez que tenemos caracterizada la distribucin condicionada de una variable aleatoria al valor de otra, cualquier caracterstica de dicha distribucin, como la media o la varianza, puede calcularse a partir de su funcin masa o su funcin de densidad.

Ejemplo. Tal y como plantebamos al comienzo del captulo, supongamos que la posicin (X, Y ) de un
telfono mvil que recibe cobertura de una antena de telefona se encuentra dentro de un crculo de radio

r alrededor de esa antena, que supondremos sin prdida de generalidad que se encuentra en el origen
del plano. Vamos a suponer que esa posicin es es evidente que
completamente al azar

dentro del crculo. Eso equivale a

considerar que la densidad conjunta debe ser constante en el crculo; para que su integral sea la unidad,

fX,Y (x, y ) =

1 r2

si x2 + y 2 r2 y cero en cualquier punto fuera del crculo. Vamos a ver qu podemos averiguar sobre las coordenadas X e Y por separado (marginales) y sobre cmo afectan la una a la otra (condicionadas). En primer lugar,

fX (x) =

r 2 x 2

r 2 x 2

2 r 2 x2 1 dy = r2 r2

si r < x < r. La marginal de Y es anloga,

fY (y ) =

r2 y2 r2
densos, ms probables,

si r < y < r. Est claro que para cada coordenada por separado, los puntos ms son los cercanos al origen, que es donde se da el mximo de ambas funciones.

Ahora supongamos que conocemos una de las coordenadas y veamos qu podemos decir sobre la otra:

fX |Y =y0 (x) =
si
2 <x< r 2 y0

fX,Y (x, y0 ) = fY (y0 ) 2

1 r2
2 y0

2 . Anlogamente, r 2 y0

fY |X =x0 (y ) =
si

fX,Y (x0 , y ) = fX (x0 ) 2

1 r 2 x2 0

r 2 x2 0 <y <

r 2 x2 0 . Si nos damos cuenta, ambas son distribuciones uniformes, lo que equivale

a decir que saber una coordenada no me da ninguna informacin sobre la otra coordenada.

Ejemplo. A las 12 de la noche de un da de la semana comienzan a ser registrados las nuevas llamadas
a un switch de telefona. Sea X el instante de llegada de la primera llamada, medida en segundos transcurridos tras la medianoche. Sea Y el instante de llegada de la segunda llamada. En el modelo ms

Prof. Dr. Antonio Jos Sez Castillo

105

Dpto de Estadstica e I.O. Universidad de Jan

habitual utilizado en telefona, X e Y son variables aleatorias continuas con densidad conjunta dada por

fX,Y (x, y ) =

2 ey si 0 x < y 0 en otro caso

donde es una constante positiva. Vamos a calcular las distribuciones marginales y condicionadas que pueden darse: Marginal de X :

fX (x) =

2 ey dy = ex si 0 x,
x

luego se trata de una distribucin exponencial de parmetro . Marginal de Y :

fY ( y ) =
0

2 ey dx = 2 yey si y 0.

Si nos jamos, esta densidad es una Gamma (2, ), es decir una Erlang de parmetros 2 y . Condicionada de Y a los valores de X :

fY /X =x (y ) =

fX,Y (x, y ) = e(yx) si y > x. fX (x)

En esta expresin no debe olvidarse que x es un valor jo, dado. Condicionada de X a los valores de Y :

fX/Y =y (x) =

1 fX,Y (x, y ) = si 0 x < y. fY ( y ) y

Es decir, conocido el instante en que lleg la segunda llamada (y ), no se sabe nada de cundo lleg la primera llamada, ya que la distribucin de X condicionada a Y = y es uniforme en (0, y ).

Ejemplo. Consideremos que la variable X representa el input de un canal de comunicacin, con posibles
valores +1 y 1 equiprobables, y sea Y el dgito que llega al destino, con valores tambin +1 y 1. El canal es un canal binario simtrico con probabilidad de cruce del 5 %. Con los datos expuestos podemos caracterizar mediante sus funciones masa las distribuciones marginales de X e Y , la distribucin conjunta de ambos y las dos distribuciones condicionadas posibles de cada variable respecto de la otra. La distribucin marginal de X viene dada por

fX (x) =

1 2 si x = 1 1 2 si x = 1

106

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

La distribucin marginal de Y viene dada por

P [Y = +1] = P [Y = +1 | X = +1] P [X = +1] + P [Y = +1 | X = 1] P [X = 1] = 0.95 0.5 + 0.05 0.5 = 0.5 P [Y = 1] = 0.5,


es decir

fY ( y ) =

1 2 si y = 1 1 2 si y = 1

La distribucin de Y condicionada al suceso X = +1 viene dada por:

fY |X =+1 (y ) =

0.95 si y = 1 0.05 si y = 1

La distribucin de Y condicionada al suceso X = 1 viene dada por:

fY |X =1 (y ) =
La distribucin conjunta de X e Y viene dada por

0.95 si y = 1 0.05 si y = 1

fX,Y (x, y ) = P [Y = y | X = x] P [X = x] 0.95 0.5 si x = +1, y = +1 0.05 0.5 si x = +1, y = 1 = 0.05 0.5 si x = 1, y = +1 0.95 0.5 si x = 1, y = 1 0 en otro caso
La distribucin de X condicionada al suceso Y = +1 viene dada por

fX |Y =+1 (x) =

fX,Y (x, +1) = fY (+1)

0.95 si x = 1 . 0.05 si x = 1

La distribucin de X condicionada al suceso Y = 1 viene dada por

fX |Y =1 (x) =

fX,Y (x, 1) = fY (1)

0.05 si x = 1 0.95 si x = 1

5.3. Independencia estadstica


En el captulo referente a probabilidad hablamos de independencia de sucesos. Decamos entonces que dos sucesos A y B eran independientes si y slo si P [A B ] = P [A] P [B ] .
Prof. Dr. Antonio Jos Sez Castillo

107

Dpto de Estadstica e I.O. Universidad de Jan

Esta denicin puede extenderse al caso en que tengamos dos variables aleatorias X e Y .

Concretamente, diremos que X

e Y son estadsticamente independientes si y slo si


fX,Y (x, y ) = fX (x) fY (y ) ,

donde fX,Y (), fX () y fY () son funcin de densidad o funcin masa, dependiendo de si las variables son discretas o continuas. La interpretacin del hecho de que dos variables aleatorias sean estadsticamente independientes es que el comportamiento de una no tiene ningn efecto sobre la otra y viceversa. Cabe preguntarse en ese caso, qu sentido tiene una distribucin condicionada de una variable a otra que no guarda ninguna relacin con ella. Vamos a comprobarlo calculando las distribuciones condicionadas de variables aleatorias estadsticamente independientes:

fX |Y =y (x) =

fX (x) fY (y ) fX,Y (x, y ) = = fX (x) ; fY ( y ) fY ( y )

es decir, el comportamiento aleatorio de una variable aleatoria condicionada al valor de otra que es estadsticamente independiente de ella (descrito mediante la funcin fX |Y =y (x)) es completamente igual que si no se condiciona a dicho valor (descrito por la funcin fX (x)).

Ejemplo. Sea el vector (X, Y ) con funcin de densidad conjunta


fX,Y (x, y ) =
La funcin de densidad marginal de X :

24xy si x, y 0 y x + y 1 0 en otro caso

fX (x) =
0

1x

24xy dy = 12x (1 x) si 0 x 1

La funcin de densidad marginal de Y :

fY (y ) =
0

1y

24xy dx = 12y (1 y ) si 0 y 1.

Como

fX,Y (x, y ) = fX (x) fY (y ) ,


las variables X e Y no son independientes.

Ejemplo. Sea ahora el vector (X, Y ) con funcin de densidad conjunta


fX,Y (x, y ) = 4xy si 0 x, y y x, y 1 0 en otro caso

108

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

La funcin de densidad marginal de X :

fX (x) =
0

4xy dy = 2x si 0 x 1

La funcin de densidad marginal de Y :

fY (y ) =
0

4xy dx = 2y si 0 y 1.

Como

fX,Y (x, y ) = fX (x) fY (y ) ,


las variables aleatorias X e Y son independientes.

Ejemplo. Supongamos que dos componentes electrnicas tienen una duracin cuya distribucin de probabilidad puede considerarse exponencial de parmetro = 2 horas1 . Las componentes funcionan en paralelo, por lo que podemos considerar que son independientes. Por lo tanto, su funcin de densidad conjunta ser

fX,Y (x, y ) = 2e2x 2e2y = 4e2(x+y)


si x, y > 0. Cul ser la probabilidad de que alguna de las componentes dure ms de dos horas? Podemos plantearlo como

P [X > 2 Y > 2] = P [X > 2] + P [Y > 2] P [X > 2 Y > 2] = P [X > 2] + P [Y > 2] P [X > 2] P [Y > 2] ,
donde se ha utilizado en la probabilidad de la interseccin el hecho de que las variables son independientes. Ahora slo bastara recordar que P [X > 2] = e22 y P [Y > 2] = e22 . Cul sera la probabilidad de que la duracin total de ambas componentes sea inferior a dos horas? La duracin total vendra dada por X + Y , luego se nos pregunta por

P [X + Y < 2] = = =
0 0 0

2x

4e2(x+y) dydx
2

2e2x 1 e2(2x)
2

dx

2e2x 2e4 dx

= 1 e4 2e4 2 = 1 5e4

De la interpretacin que hemos dado de variables independientes se sigue de manera inmediata que si dos variables aleatorias son independientes, esto es, no mantienen ninguna relacin, tampoco lo harn funciones
Prof. Dr. Antonio Jos Sez Castillo

109

Dpto de Estadstica e I.O. Universidad de Jan

suyas. Este hecho se recoge en el siguiente resultado. Lo podemos enunciar ms formalmente diciendo que si

X e Y son variables aleatorias independientes y V = g (X ) y W = h (Y ) son funciones suyas, entonces, V y W tambin son independientes.
En el mbito de las Telecomunicaciones se dan numerosas situaciones donde aparece una variable aleatoria

W , suma de otras dos variables aleatorias (generalmente continuas) estadsticamente independientes, X


e Y, es decir, W = X + Y. Por ejemplo, se da cuando a una seal X se le adhiere un ruido que le es completamente ajeno (independiente), Y . En ese caso, la suma representa la seal resultante y querremos conocer su comportamiento aleatorio a partir del de X e Y . Esto se conoce como teorema

de convolucin.

Concretamente, sean X e Y dos variables aleatorias independientes y sea W = X + Y . Entonces: Si X e Y son continuas,

fW (w) =

fY (y ) fX (w y ) dy

= fX fY (w)
donde fX y fY son las funciones de densidad de X e Y , respectivamente. Si X e Y son discretas,

fW (w) =
y

fY (y ) fX (w y )

= fX fY (w)
donde fX y fY son las funciones masa de X e Y , respectivamente.

Ejemplo.

Un sistema opera con una componente clave cuya duracin, T1 , sigue una distribucin ex-

ponencial de parmetro . Si esta componente falla, inmediatamente se pone en funcionamiento una componente exactamente igual que hasta entonces ha funcionado en standby, cuya duracin notamos por

T2 , variable aleatoria independiente de T1 .


Si pretendemos conocer la distribucin de probabilidad de la duracin total del sistema, que vendr dada por la variable aleatoria T = T1 + T2 , podemos poner en prctica el teorema de convolucin. Para ello, tengamos en cuenta que

fTi (x) = ex , i = 1, 2,
para x > 0. Por tanto,

fT (z ) =
0

ex e(zx) dx = 2 zez

para z > 0. Como vemos, se trata de una distribucin Erlang de parmetros 2 y . Si recordamos, esta era una de las caracterizaciones de la distribucin Erlang, suma de exponenciales independientes.

En el caso de que en vez de dos variables aleatorias se tenga un vector X = (X1 , ..., XN ) , la manera natural de extender el concepto de independencia es inmediata.

110

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Se dice que el vector est formado por

componentes independientes si

fX1 ,...,XN (x1 , ..., xN ) = fX1 (x1 ) ... fXN (xN ) .

Finalmente, si se tienen dos vectores aleatorios XN 1 e YM 1 , se dice que son

independientes si

fX,Y (x1 , ..., xN , y1 , ..., yM ) = fX (x1 , ..., xN ) fY (y1 , ..., yM ) .

5.4. Medias, varianzas y covarianzas asociadas a un vector aleatorio


Si tenemos un vector aleatorio formado por las variables aleatorias X1 , ..., XN y g () es una funcin de estas variables, entonces, la

media o esperanza matemtica de esta funcin es

...

E [g (X1 , ..., XN )] =

g (x1 , ..., xN ) fX1 ,...,XN (x1 , ..., xN ) dxN ... dx1

donde fX1 ,...,XN (x1 , ..., xN ) es la funcin de densidad o la funcin masa del vector aleatorio (entendiendo en este ltimo caso la integral como una suma). Como consecuencia inmediata de esta denicin, tenemos una primera e importante propiedad: este operador esperanza multivariante tambin es lineal, en el sentido que se recoge en el siguiente resultado. Concretamente, podemos formalizarlo diciendo que si tenemos un vector aleatorio (X1 , ..., XN ) y 1 , ..., N escalares cualesquiera, entonces

E [1 X1 + ... + N XN ] = 1 E [X1 ] + ... + N E [XN ] ,


es decir, la media de la suma ponderada es la suma ponderada de las medias. Podemos tratar de recordar este resultado si pensamos que es exactamente la misma propiedad que tiene el operador integral, que
las sumas y saca fuera los escalares. parte

5.4.1. Covarianza y coeciente de correlacin lineal


Anteriormente hemos comentado que estudiar vectores aleatorios desde una perspectiva estadstica tiene sentido, sobre todo, porque permite analizar las relaciones que se dan entre las variables del vector. Por ejemplo, vimos cmo los valores de una variable pueden afectar en mayor o menor medida a la distribucin de probabilidad de las otras variables. Sin embargo, sera muy interesante disponer de una medida numrica sencilla de calcular y de interpretar para cuanticar al menos en parte cul es el grado de relacin existente entre dos variables de un vector aleatorio.
Prof. Dr. Antonio Jos Sez Castillo

111

Dpto de Estadstica e I.O. Universidad de Jan

En este sentido, dado el vector aleatorio (X, Y ), se dene la

correlacin entre X

e Y como

RXY = m11 = E [XY ] ,


a partir de la cual se puede calcular la

covarianza entre

X e Y como

Cov (X, Y ) = E [(X EX ) (Y EY )] = E [XY ] EX EY = RXY EX EY.


La covarianza entre dos variables2 es una medida de la asociacin lineal existente entre ellas. Ser positiva si la relacin entre ambas es directa (si crece una crece la otra) y negativa si es inversa (si crece una decrece la otra); adems, ser tanto mayor en valor absoluto cuanto ms fuerte sea la relacin lineal existente. Para poder valorar esta relacin lineal en trminos relativos se estandariza la covarianza, dando lugar a lo que se conoce como

coeciente de correlacin lineal:


=

Cov [X, Y ] V ar [X ] V ar [Y ]

Vamos a detallar claramente los posibles valores de y su interpretacin: Este coeciente es siempre un nmero real entre -1 y 1. Si es cero, indica una ausencia total de relacin lineal entre las variables. Si es uno o menos uno indica una relacin lineal total entre las variables, directa o inversa segn lo indique el signo (esto lo veremos enseguida). En la medida en que est ms lejos del cero indica una relacin lineal ms intensa entre las variables.

incorreladas. Por su parte, si dos variables aleatorias son tales que RXY

Si dos variables aleatorias tienen covarianza cero o equivalentemente, si RXY = EX EY, se dicen que son

= 0, se dice que son

ortogonales.

Dos variables aleatorias son incorreladas si carecen de cualquier tipo de relacin lineal. Por otra parte, denimos anteriormente el concepto de independencia entre variable aleatoria, que implicaba la ausencia de relacin entre ellas. Tenemos, as, dos conceptos, independencia e incorrelacin, que estn bastante relacionados. En concreto, dos variable aleatoria independientes, X e Y , son siempre incorreladas, es decir, X,Y = 0. La razn es que, por ser independientes,

fX,Y (x, y ) = fX (x) fY (y ) ,


2 Si

se considera la covarianza de una variable aleatoria consigo misma,


Cov (X, X ) = E [(X EX ) (X EX )] = E (X EX )2 = V arX,

esta cantidad coincide con su varianza.

112

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

luego

RXY =

xy fX (x) fY (y ) dy dx yfY (y ) dy = EX EY, xfX (x) dx


en cuyo caso Cov [X, Y ] = 0. La pregunta obvia que surge a la luz de este resultado es: y al contrario? Dos variable aleatoria incorreladas sern independientes? O equivalentemente, si dos variable aleatoria no tienen ninguna relacin de tipo lineal (incorreladas), ocurrir que tampoco tienen ninguna relacin de ningn tipo (independientes)? La respuesta es que no en general.

Ejemplo. Sea una variable aleatoria con distribucin uniforme en (0, 2). Sean
X = cos Y = sin .
Se tiene que

EX = EY = E [XY ] =
0 0 0

cos
2

1 d = 0 2 1 d = 0 2 1 d 2

sin
2

sin cos
0 2

1 = 2

sin 2d = 0,

por lo que X e Y son variables incorreladas. Sin embargo, puede demostrarse fcilmente que no son independientes.

Nota.

La relacin ms fuerte de tipo lineal que puede darse corresponde al caso en que una variable

aleatoria Y es exactamente una combinacin lineal de otra, X , es decir, Y = aX + b. En ese caso,

XY = 1 signo (a) .
La demostracin es muy sencilla. Tengamos en cuenta que

E [XY ] = E [X (aX + b)] = aE X 2 + bE [X ] ,

Prof. Dr. Antonio Jos Sez Castillo

113

Dpto de Estadstica e I.O. Universidad de Jan

luego

Cov (X, Y ) = E [XY ] EX EY = aE X 2 + bE [X ] EX (aEX + b) = a E X 2 EX 2 = aV arX V arY = E ((aX + b) (aEX + b)) = E (aX aEX ) = a2 E (X EX )
y
2 2 2

= E a2 (X EX ) = a2 V arX,

XY =

aV arX Cov (X, Y ) = = 1 signo (a) . V arX V arY V arXa2 V arX

Nota. Es importante insistir en que la covarianza y su versin estandarizada, el coeciente de correlacin lineal, proporcionan una medida de la relacin lineal, no de otro tipo. Por ejemplo, supongamos que la
Figura 5.3 representa los valores conjuntos de dos variables X e Y . Est claro que ambas guardan una clarsima relacin dada por una parbola: de hecho, Y = X 2 . Sin embargo, el coeciente de correlacin lineal entre ambas ser muy bajo, ya que en realidad, la relacin que las une no es lineal en absoluto, sino parablica. En este caso, lo recomendable sera, a la vista del grco, decir que s existe una fuerte relacin lineal entre X e Y .

Figura 5.3: Muestra conjunta de valores de dos variables aleatorias. Cuando se tienen muestras de pares de variables aleatorias, podemos calcular la versin muestral del coeciente de correlacin lineal. Esa versin muestral dar una estimacin del verdadero valor del coeciente de correlacin (poblacional). Esta cuestin se aborda con ms detalle en el captulo de regresin. Aqu tan slo queremos plasmar con ejemplos cmo se traduce el hecho de que dos variables tengan un mayor o menor coeciente de correlacin. En la Figura 5.4 observamos representaciones conjuntas de muestras de pares de variables en unos ejes cartesianos (nubes de puntos). Cada punto de cada eje cartesiano representa un valor

114

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

dado de la muestra del par (X, Y ). Aparecen 4 guras, correspondientes a 4 simulaciones de pares de variables

(X, Y ) con distintos coecientes de correlacin.

ro=1 8 6 4 2 2 0 2 4 4 2 0 2 4 1 0 1 4 2 6 5 4 3

ro=1

ro=0 4 3 2 1 0 1 2 3 4 2 0 2 4 2 4 4 2 0 6 4

ro=0.7075

Figura 5.4: Nubes de puntos correspondientes a distintos posibles coecientes de correlacin lineal.

Ejemplo. Sean X

e Y las variable aleatoria que miden el tiempo que transcurre hasta la primera y la

segunda llamada, respectivamente, a una centralita telefnica. La densidad conjunta de estas variables es fX,Y (x, y ) = ey para 0 < x < y . En un ejemplo anterior ya vimos que, lgicamente, el tiempo hasta la segunda llamada depende del tiempo hasta la primera llamada, pero en qu grado? Vamos a abordar este problema calculando el coeciente de correlacin lineal entre ambas variables.

Prof. Dr. Antonio Jos Sez Castillo

115

Dpto de Estadstica e I.O. Universidad de Jan

Como X,Y =

Cov (X,Y ) V arXV arY

, tenemos que calcular Cov (X, Y ), V arX y V arY. E [XY ] = xyfX,Y (x, y ) dxdy y xyey dxdy = = =
0 0

yey

y y e dy = 3. 2

0 3

x2 2

dy
0

fX (x) =
luego

fX,Y (x, y ) dy =
x

ey dy = ex , para x > 0,

EX = fY (y ) = fX,Y (x, y ) dx =
0

xfX (x) dx =
0

xex dx = 1.

ey dx = yey , para y > 0,

luego

EY = yfY (y ) dy =

y 2 ey dy = 2.
0

Por tanto,

Cov (X, Y ) = 3 1 2 = 1.
Por su parte,

E X
2

x fX (x) dx =
0 2

x2 ex dx = 2

V arX = 2 12 = 1
y

E Y2 = y 2 fY (y ) dy = V arY = 6 22 = 2,
as que, nalmente,

y 3 ey dy = 6

X,Y =

1 = 0.707. 12

El resultado indica que, en efecto, el grado de relacin lineal es alto y directo.

Las propiedades del operador esperanza son muy tiles en la prctica, por ejemplo, cuando se trata de conocer la varianza de combinaciones lineales de varias variables. Veamos algn ejemplo al respecto y despus un resultado general que los englobe todos.

116

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ejemplo. Calculemos la varianza de X1 + X2 :


E (X1 + X2 )
2 2 2 2 2 = E X1 + X2 + 2X1 X2 = E X1 + E X2 + 2E [X1 X2 ]

V ar (X1 + X2 ) = E (X1 + X2 )

E [X1 + X2 ]

2 2

2 2 = E X1 + E X2 + 2E [X1 X2 ] (EX1 + EX2 )

2 2 2 2 + E X2 + 2E [X1 X2 ] EX1 = E X1 EX2 2EX1 EX2 2 2 2 2 = E X1 EX1 + E X2 EX2 + 2 (E [X1 X2 EX1 EX2 ])

= V arX1 + V arX2 + 2Cov (X1 , X2 ) .

Ejemplo. Calculemos la varianza de X1 X2 :


E (X1 X2 )
2 2 2 2 2 = E X1 + X2 2X1 X2 = E X1 + E X2 2E [X1 X2 ]

V ar (X1 X2 ) = E (X1 X2 )

E [X1 X2 ]

2 2

2 2 = E X1 + E X2 2E [X1 X2 ] (EX1 EX2 )

2 2 2 2 = E X1 + E X2 2E [X1 X2 ] EX1 EX2 + 2EX1 EX2 2 2 2 2 = E X1 EX1 + E X2 EX2 2 (E [X1 X2 EX1 EX2 ])

= V arX1 + V arX2 2Cov (X1 , X2 ) .

Podemos generalizar estos ejemplos en el siguiente resultado. Sea una suma de N variables, X = Entonces,
N N

N i=1

i Xi .

V ar [X ] =
i=1 j =1

i j Cov (Xi , Xj ) ,

donde Cov (Xi , Xi ) = V ar (Xi ), para i = 1, ..., N .


Prof. Dr. Antonio Jos Sez Castillo

117

Dpto de Estadstica e I.O. Universidad de Jan

= La demostracin es bien sencilla. Como X V ar [X ] = E =E


i=1 N N

N i=1 2

i EXi ,

X X
N

i i Xi X
i=1

i i Xi X j Xj X

=
i=1 j =1 N N

i j E

i Xi X

=
i=1 j =1

i j Cov (Xi , Xj )

Fijmonos que, en el caso en que las variables sean incorreladas,


N N N

V ar [X ] =
i=1 j =1

i j Cov (Xi , Xj ) =
i=1

2 i V ar [Xi ] ,

ya que

Cov [X, Y ] =

0 si i = j V ar [Xi ] si i = j

5.4.2. Vector de medias y matriz de varianzas-covarianzas de un vector


Dado un vector de N variables, X = (X1 , ..., XN ) , se dene su

vector de medias como

E [X1 ] . , . = . E [XN ]

y su

matriz de varianzas-covarianzas como


CX = (Ci,j )i,j =1,...,N ,

donde

Ci,j =

V ar (Xi ) si i = j Cov (Xi , Xj ) si i = j

Esta matriz contiene las varianzas de cada variable del vector en la diagonal y en el elemento (i, j ) la covarianza entre la isima y la j sima variable. En forma matricial, la matriz de covarianzas puede denirse como

CX N N = E (X X )N 1 (X X )1N .
Por otra parte,

CX = E (X X ) (X X ) = E [XX ] X X ,

118

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

donde a la matriz E [XX ] se le suele denominar le nota RX .

matriz de correlaciones o de autocorrelaciones, y se

Ambas matrices, CX y RX , son matrices simtricas. La linealidad del operador media facilita rpidamente la expresin del vector de medias y la matriz de varianzas-covarianzas de combinaciones lineales de vectores, como se recoge en el siguiente resultado. Concretamente, si tenemos el vector aleatorio XN 1 con vector de medias X y matriz de varianzas covarianzas CX y el vector YM 1 = AM N XN 1 + bM 1 , entonces, el vector de medias y la matriz de varianzas covarianzas de Y vienen dadas por

Y = AX + b CY = ACX A .

Ejemplo.

Vamos a ver que la aplicacin de este resultado facilita bastante determinados clculos. Por

ejemplo, si queremos calcular V ar (X1 + X2 ), podemos tener en cuenta que

X1 + X2 =
de manera que

X1 X2

V ar (X1 + X2 ) =

V arX1 Cov (X1 , X2 )

Cov (X1 , X2 ) V arX2

1 1

= V arX1 + V arX2 + 2Cov (X1 , X2 ) .


De igual forma, si queremos calcular V ar (5X1 3X2 ) , dado que

5X1 3X2 =
se tiene que

X1 X2

V ar (5X1 3X2 ) =

V arX1 Cov (X1 , X2 )

Cov (X1 , X2 ) V arX2

5 3

= 25V arX1 + 9V arX2 30Cov (X1 , X2 ) .

5.5. Distribucin normal multivariante


En el contexto de los modelos de distribuciones de probabilidad para variables aleatorias, la distribucin normal constituye el ejemplo ms relevante, tanto por la frecuencia de su aplicacin en casos reales como por la gran versatilidad de sus propiedades matemtica. En el contexto de los vectores aleatorios que estamos tratando en este captulo, nos ocupamos de la versin multivariante de esta distribucin. De nuevo podemos
Prof. Dr. Antonio Jos Sez Castillo

119

Dpto de Estadstica e I.O. Universidad de Jan

estar seguros de que se trata del caso ms interesante por dos motivos: porque aparece como modelo adecuado en un gran nmero de fenmenos de la naturaleza y porque sus propiedades matemticas on inmejorables. Un vector formado por N variables aleatorias X = (X1 , ..., XN ) se dice que sigue una distribucin

multivariante o distribucin conjuntamente normal o conjuntamente gaussiana,


1 (2 ) det (CX )
donde
N

normal

con vector de

medias X y matriz de varianzas-covarianzas CX , si su funcin de densidad conjunta es de la forma

fX (x) =

1 1 exp (x X ) CX (x x ) , 2

CX = (Ci,j )i,j =1,...,N Cij = V ar [Xi ] si i = j Cov [Xi , Xj ] si i = j

x = (x1 , ..., xN ) X = (EX1 , ..., EXN )


y se nota X NN (X ; CX ) . Vamos a destacar algunas de las excelentes propiedades de la distribucin normal multivariante. Concretamente, nos centraremos en los siguientes resultados: Cualquier marginal sigue tambin una distribucin normal. Cualquier distribucin condicionada sigue tambin una distribucin normal. Cualquier combinacin lineal de un vector normal es tambin normal. Vamos a concretarlos. En primer lugar, si tenemos un vector XN 1 = (X1 , ..., XN ) con distribucin conjuntamente gaussiana de vector de medias y matriz de covarianzas CX , en ese caso, el subconjunto de variables del vector, (Xi1 , ..., XiM ), con M < N tambin sigue distribucin conjuntamente gaussiana, de parmetros

(i1 , ..., iM ) y matriz de covarianzas constituida por las las y las columnas de CX correspondientes a las
variables Xi1 , ..., XiM .

Ejemplo. Sea un vector (X1 , X2 , X3 )

gaussiano, de vector de medias cero y matriz de covarianzas

1 3 1

1 0

1 . 1

En aplicacin del resultado anterior, las marginales univariantes siguen las distribuciones siguientes:

X1 N (0, 2) , X2 N (0, 3) , X3 N (0, 1).

120

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Por su parte, las marginales bivariantes siguen las distribuciones siguientes:

(X1 , X2 ) N2 (X1 , X3 ) N2 (X2 , X3 ) N2

0 0 0 0 0 0

2 1 2 0 3 1

1 3 0 1 1 1

En cuanto a las distribuciones condicionales, cualquier subconjunto de variables de un vector gaussiano condicionado a los valores de cualquier otro subconjunto de variables del propio vector sigue distribucin conjuntamente gaussiana. Concretamente, la distribucin de XN 1 condicionada a YM 1 = yM 1 , siendo

(X, Y )(M +N )1 conjuntamente gaussiano, es gaussiana de vector de medias


1 E [X |Y=y ] = X N 1 + (CXY )N M CY M M

yM 1 Y M 1

y matriz de varianzas-covarianzas
1 V ar X |Y=y = CX CXY CY CXY ,

donde el elemento (i, j ) de CXY es Cov (Xi , Yj ).

Ejemplo. Siguiendo con el ejemplo anterior, vamos a considerar la distribucin de X1


(X2 , X3 ) = (0.5, 0.25) .
Segn el resultado, sta es gaussiana, de vector de medias

condicionada a

E [X1 |X2 =0.5,

X3 =0.25 ]

=0+

3 1

1 1

0.5 0 0.25 0

= 0.125

y matriz de covarianzas (es decir, varianza)

V ar (X1 |X2 =0.5,

X3 =0.25 )

=2

3 1

1 1

1 0

= 1.5

Ejemplo. Como caso particular, vamos a describir con ms detalle el caso bivariante, tanto en lo que
respecta a su densidad como a las distribuciones marginales y condicionadas. Sea por tanto un vector (X, Y )21 , con distribucin conjuntamente gaussiana de vector de medias

Prof. Dr. Antonio Jos Sez Castillo

121

Dpto de Estadstica e I.O. Universidad de Jan

(X , Y ) y matriz de covarianzas C(X,Y ) =


donde =
Cov (X,Y ) X Y 2 X

X Y
2 Y

X Y

2 2 es el coeciente de correlacin lineal. Entonces, det C(X,Y ) = X Y 1 2 y 1 2 X XY

1 C( X,Y ) =

1 1 2

XY
1 2 Y

Por tanto, la funcin de densidad conjunta es

fX,Y (x, y ) =

1 2X Y 1 2
2 2

exp

2 (x x ) (y Y ) (y Y ) (x X ) 1 + 2 2 2 (1 2 ) X X Y Y
1 , 2X Y 12

Esta funcin alcanza su mximo,

en el punto (X , Y ).

2 2 . y N Y , Y Evidentemente, las distribuciones marginales son N X , X

En lo que respecta a las distribuciones condicionadas, aplicando el ltimo resultado tenemos que

X | Y = y0 N Y | X = x0 N

X +

X 2 (y0 Y ) ; X 1 2 Y Y 2 (x0 X ) ; Y 1 2 Y + X

Obsrvese que, curiosamente, la varianza condicionada no depende del valor que condiciona. Esto tendr importantes repercusiones ms adelante.

Continuando con las propiedades, una de las ms tiles es su invarianza frente a transformaciones lineales. Concretamente, si tenemos un vector aleatorio XN 1 = (X1 , ..., XN ) con distribucin gaussiana, vector de medias X y matriz de covarianzas CX , entonces una combinacin lineal suya,

YM 1 = AM N XN 1 + bM 1
tiene distribucin gaussiana de vector de medias Y = A X + b y matriz de covarianzas CY = A CX A .

Ejemplo.

Sean dos variable aleatoria X1 y X2 con distribucin conjuntamente gaussiana con medias

2 2 cero, varianzas X = 4 y X = 9 y covarianza, cX1 ,X2 = 3. Si estas variables se transforman linealmente 1 2

122

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 5.5: Ejemplos de densidades de la normal bivariantes con X = Y = 0, X = Y = 1 y = 0, 0.5, 0.5 y 0.9. (En http://www.ilri.org/InfoServ/Webpub/Fulldocs/Linear_Mixed_Models/AppendixD.htm).
Prof. Dr. Antonio Jos Sez Castillo

123

Dpto de Estadstica e I.O. Universidad de Jan

en las variables

Y1 = X1 2X2 Y2 = 3X1 + 4X2


las nuevas variables tienen distribucin conjuntamente gaussiana, con medias

(Y1 , Y2 ) =
y matriz de covarianzas
2 Y 1

1 3

2 4

0 0

0 0

cY1 ,Y2
2 Y 2

cY1 ,Y2

1 3

2 4

4 3

3 9

1 2

3 4

28 66

66 252

Otra de las ms importantes propiedades es que se trata del nico caso en el que independencia e incorrelacin son equivalentes. Es decir, si XN 1 es un vector con distribucin conjuntamente gaussiana, entonces sus componentes son incorreladas si y slo si son independientes. La demostracin es sencilla. Ya sabemos que si son independientes son incorreladas (incluso si la distribucin no es conjuntamente gaussiana). Por su parte, para probar que si son incorreladas entonces son independientes slo hay que tener en cuenta que si son incorreladas, la matriz de covarianzas es diagonal y la densidad conjunta puede expresarse como producto de las marginales, ya que

fX (x1 , ..., xN ) =

1 (2 ) det (CX )
N

1 1 exp (x X ) CX (x X ) 2
N

=
N

1
2 ... 2 (2 ) 1 N N

1 exp 2

i=1

xi i i

=
i=1

fXi (xi ) .

donde x = (x1 , ..., xN ) , X = (1 , ..., N ) y


2 1 . . = . 0

CX

... .. . ...

0 . . . . 2 N

124

Prof. Dr. Antonio Jos Sez Castillo

Parte III
Inferencia estadstica

125

Captulo 6
Distribuciones en el muestreo

Pocas observaciones y mucho razonamiento conducen al error; muchas observaciones y poco razonamiento, a la verdad. Alexis Carrel

Resumen.

En este captulo se pretende llamar la atencin acerca de que los parmetros muestrales son

en realidad variables aleatorias. Se analiza as la distribucin de probabilidad de la media muestral y de la varianza muestral en diversas situaciones.

Palabras clave: distribuciones en el muestreo, t de Student, F de Snedecor.

6.1. Introduccin
Al estudiar el concepto de variable aleatoria, dijimos que viene motivado porque muchas de las variables que se observan en la vida real, en el ambiente de las Ingenieras en particular, estn sujetas a incertidumbre. Eso quiere decir que si nosotros obtenemos algunas observaciones de esas variables (muestras), los datos no son iguales. Es ms, si obtenemos otras observaciones, las dos muestras tampoco sern ni mucho menos idnticas. Por tanto, al hablar de distribuciones tericas de probabilidad, lo que pretendamos era proponer un modelo que permitiera calcular probabilidades asociadas, no a una muestra en particular de datos, sino a todas las posibles muestras, con todos los posibles datos de la variable. Recordemos el ejemplo que pusimos: las distribuciones de probabilidad son como un traje que elegimos para ponernos cualquier da durante un periodo de tiempo amplio. En la medida que el traje de una variable, su distribucin,
le quede bien,

los resultados que obtengamos mediante el clculo de probabilidades podrn a una variable, los resultados tericos, obtenidos a partir de una

aplicarse a cualquier dato o conjunto de datos de la variable. Pero igualmente, si un traje (una distribucin de probabilidad terica)
no le queda bien

funcin masa o una funcin de densidad tericas, pueden no ser realistas respecto a los resultados empricos que se obtengan mediante muestras de la variable. Qu nos queda por hacer a lo largo del curso? Dado que, en general, las distribuciones tericas de probabilidad dependen de uno o ms parmetros, lo que nos ocupar gran parte del resto del curso es tratar de elegir 127

Dpto de Estadstica e I.O. Universidad de Jan

adecuadamente esos parmetros. En el ejemplo de los trajes podamos pensar que esto es como aprender a escoger la talla del traje. En este captulo vamos a comenzar con algunas cuestiones tericas acerca de lo que implica el proceso de muestreo, previo a la eleccin de los parmetros y, posteriormente, nos vamos a centrar en resultados que implica el muestreo de datos de variables que siguen una distribucin normal.

6.2. Muestreo aleatorio


En multitud de mbitos de la vida real es evidente que la mejor forma de aprender algo es a partir de la experiencia. Eso quiere decir que solemos utilizar aquello que vemos para aprender pautas y conductas que luego generalizamos. En Estadstica pasa algo muy similar: necesitamos basarnos en muestras de una variable para poder aprender de ellas y generalizar, inferir, aspectos referentes a las muestras a toda la poblacin. Sin embargo, como en la vida real, en Estadstica tambin debemos ser muy cuidadosos con los datos sobre los que basamos nuestro aprendizaje. Qu pasara si basamos nuestro aprendizaje en experiencias incorrectas o poco signicativas? Para que esto no ocurra debemos basarnos en muestras donde todos los individuos de la poblacin puedan verse representados. Por otra parte, es evidente que cuanto mayores sean las muestras ms ables deberan ser nuestras inferencias. El concepto clave en este planteamiento es el de
muestra aleatoria simple.

Supongamos que estamos obser-

vando una variable aleatoria, X , en una poblacin determinada. Ya dijimos que una muestra aleatoria simple de X consiste en la recopilacin de datos de la variable, mediante la repeticin del experimento al que est asociada, con dos condiciones bsicas: 1. Que todos los elementos de la poblacin tengan las mismas posibilidades de salir en la muestra. 2. Que las distintas observaciones de la muestra sean independientes entre s. En ese caso, los valores que toma la variable en cada una de las observaciones de una muestra de tamao

n, X1 , ..., Xn , son en s mismos, variables aleatorias independientes que siguen la misma distribucin de
probabilidad, llamada distribucin.

distribucin poblacional.

Esta distribucin es, en principio, desconocida, por lo

que se intentar utilizar la muestra para hacer inferencia sobre ella y, al menos, aproximar la forma de esta

6.3. Distribuciones en el muestreo


Supongamos que estamos observando una variable aleatoria X , y que obtenemos una muestra aleatoria
1 1 , y la desviacin tpica de simple suya, x1 1 , ..., xn . Con esos datos podemos calcular la media de la muestra, x

la muestra, s1 , por ejemplo. Pero debemos ser conscientes de lo que signica muestra
1 x1 1 , ..., xn

aleatoria.

El hecho de que hayan salido los valores

2 es fruto del azar. De hecho, si obtenemos otra muestra, x2 2 y 1 , ..., xn , obtendremos otra media, x

otra desviacin tpica de la muestra, s2 .

128

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Y si, sucesivamente, obtenemos una y otra muestra, obtendremos una y otra media muestral, y una y otra desviacin tpica muestral. Por lo tanto, en realidad, lo que estamos viendo es que la media y la varianza muestrales (y en general, cualquier parmetro de una muestra aleatoria simple) son, en realidad, variables aleatorias que, como tales, deben tener su distribucin, su media, su varianza... Vamos a recordar dos deniciones que ya introdujimos al comienzo del curso. Un Un

parmetro muestral

es un parmetro (media, varianza, ...) referido a una muestra de una variable

aleatoria.

parmetro poblacional es un parmetro (media, varianza, ...) referido a la distribucin poblacional de

una variable aleatoria. Pues bien, asociados a estos dos conceptos tenemos ahora las siguientes deniciones. La El

distribucin en el muestreo de un parmetro muestral es su distribucin de probabilidad. error estandar de un parmetro muestral es la desviacin tpica de su distribucin en el muestreo.

El problema es que, en general, es bastante difcil conocer la distribucin en el muestreo de los parmetros muestrales. Sin embargo, el caso en el que resulta ms sencillo hacerlo es probablemente el ms importante. Como vamos a ver, si la variable que observamos sigue una distribucin normal, podremos conocer de forma exacta las distribuciones en el muestreo de los dos parmetros ms importantes, la media y la varianza. Y si la variable no es normal? Si lo que pretendemos es estudiar la media y la varianza muestrales, recordemos que el Teorema Central del Lmite nos dice que si una variable es suma de otras variables, su distribucin es aproximadamente normal, y la media es suma de las variables de la muestra. Es decir, si la variable no es normal, todava podemos tener conanza de que lo que hagamos para variables normales puede ser vlido.

6.4. Distribuciones en el muestreo relacionadas con la distribucin normal


En este apartado simplemente vamos a presentar una serie de resultados acerca de la distribucin en el muestreo, es decir, acerca de las distribuciones de probabilidad, de algunos parmetros muestrales que pueden obtenerse asociados a una variable aleatoria normal. Algunas de estas distribuciones aparecen por primera vez, as que debemos denirlas previamente. Por otra parte, sus funciones de densidad son bastante poco tratables. Esto no es ningn problema hoy en da, gracias al uso que podemos hacer de los ordenadores para cualquier clculo. Adems, para poder trabajar con ellas cuando no tenemos un ordenador a mano, existen tablas que pueden ser impresas en papel con muchos valores de sus funciones de distribucin.

Nota. Una de las primeras distribuciones en el muestreo ser la 2 . Recordemos que una distribucin 2 con
n grados de libertad es una distribucin Gamma de parmetros
Prof. Dr. Antonio Jos Sez Castillo
n 2

y 1 2.

129

Dpto de Estadstica e I.O. Universidad de Jan

Si Z es una variable aleatoria normal estandar y S una 2 con n grados de libertad, siendo ambas independientes, entonces

t=
sigue una distribucin llamada t

Z S/n

de student con n grados de libertad.

Si S1 y S2 son variables aleatorias con distribucin 2 con n1 y n2 grados de libertad independientes, entonces

F =
sigue una distribucin que se denomina F importantes asociados a la normal:

S1 /n1 S2 /n2

con n1 y n2 grados de libertad.

Con estas deniciones ya podemos dar las distribuciones en el muestreo de algunos parmetros muestrales

Sea X1 , ..., Xn una muestra aleatoria simple de una variable N (, ). Entonces, el parmetro muestral

t=

X Sn1 / n

sigue una t de Student con n 1 grados de libertad. Sea una muestra X1 , ..., Xn una muestra aleatoria simple de una variable N (, ). Entonces, el parmetro muestral

2 =
sigue una 2 con n 1 grados de libertad.

2 (n 1) Sn 1 2

Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables independientes con distribuciones

N (1 , ) y N (2 , ). Entonces, el parmetro muestral t= Y (1 2 ) X Sp


donde
2 Sp = 1 n1

1 n2

1 2 (n1 1) Sn + (n2 1) Sn 1 1 n1 + n2 2

sigue una t de Student con n1 + n2 2 grados de libertad. Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables independientes con distribuciones

N (1 , ) y N (2 , ). Entonces, el parmetro muestral 2 =


sigue una 2 n1 + n2 2 grados de libertad. Sean X1 , ..., Xn1 e Y1 , ..., Yn2 muestras aleatorias simples de variables independientes con distribuciones
2 (n1 + n2 2) Sp , 2

130

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

N (1 , ) y N (2 , ). Entonces, el parmetro muestral F =


1 Sn 1 2 Sn 1 2 2 2 /1 2 /2

sigue una distribucin F con n1 1 y n2 1 grados de libertad.

Prof. Dr. Antonio Jos Sez Castillo

131

Dpto de Estadstica e I.O. Universidad de Jan

132

Prof. Dr. Antonio Jos Sez Castillo

Captulo 7
Estimacin de parmetros de una distribucin

Datos, datos, datos! -grit impacientemente-. No puedo hacer ladrillos sin arcilla. Sherlock Holmes (A. C. Doyle), en
Las aventuras de los bombachos de cobre

Resumen.

Se describen las tcnicas ms usuales para estimar la media, la varianza y otros parmetros

poblacionales mediante valores aislados (estimacin puntual) o mediante intervalos de conanza.

Palabras clave: estimador puntual, mtodo de los momentos, mtodo de mxima verosimilitud, intervalo
de conanza, nivel de conanza.

7.1. Introduccin
En Estadstica hay tres formas de inferir un valor a un parmetro de una poblacin: Estimando el valor concreto de ese parmetro. Estimando una regin de conanza para el valor del parmetro. Tomando una decisin sobre un valor hipottico del parmetro.

Ejemplo. El rendimiento de un equipo de trabajo en una cadena de produccin puede estar representado
por el nmero medio de componentes producidas. Supongamos que un ingeniero pretende proporcionar informacin acerca de este promedio en su equipo. Existen varias posibilidades: Podra simplemente tratar de estimar el promedio de componentes producidas a travs de un nico valor estimado. Podra proporcionar un intervalo de valores en el que tenga mucha conanza que se encuentra el valor promedio. 133

Dpto de Estadstica e I.O. Universidad de Jan

Podra comparar el valor promedio de su equipo con un valor hipottico para, por ejemplo, demostrar a la empresa que tiene un mejor rendimiento que el promedio general de la empresa.

En este captulo nos centraremos en la primera y la segunda forma, que consisten en proporcionar un valor que creemos que est cerca del parmetro (estimacin puntual) o en proporcionar un intervalo en el que conamos que se encuentra el parmetro desconocido (estimacin por intervalos de conanza). La tercera posibilidad se estudiar en el captulo de contrastes de hiptesis.

7.2. Estimacin puntual


7.2.1. Denicin y propiedades deseables de los estimadores puntuales
, es una regla que nos dice cmo calcular una estimacin numrica de un parmetro Un estimador puntual,
poblacional desconocido, , a partir de los datos de una muestra. El nmero concreto que resulta de un clculo, para una muestra dada, se denomina

estimacin puntual.

Ejemplo. Si deseamos obtener estimaciones de la media de una variable aleatoria, lo que parece ms lgico
sera utilizar como estimador la media muestral. Cada media muestral de cada muestra sera una estimacin puntual de la media poblacional. Qu sera deseable que le pasara a cualquier estimador? Qu buenas propiedades debera tener un buen estimador? Vamos a ver dos de ellas. En primer lugar, parece lgico pensar que si bien el estimador no proporcionar siempre el valor exacto del parmetro, al menos deber establecer estimaciones que defecto. Este tipo de estimadores se denominan
se equivoquen

en igual medida por exceso que por

insesgados .

de un parmetro se dice Un estimador

insesgado si
= . E

Se denomina

sesgo de un estimador a

. E

Observemos que para comprobar si un estimador es insesgado, en principio es necesario conocer su distribucin en el muestreo, para poder calcular su esperanza matemtica. Adems de la falta de sesgo, nos gustara que la distribucin de muestreo de un estimador tuviera poca varianza, es decir, que la dispersin de las estimaciones con respecto al valor del parmetro poblacional, fuera baja. En este sentido, se dene el error y se nota
s.e.

estandar de un estimador como la desviacin tpica de dicho estimador,

134

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

El

que tiene la varianza estimador insesgado de mnima varianza de un parmetro es el estimador

ms pequea de entre todos los estimadores insesgados. Hay que decir que no siempre es fcil encontrar este estimador, y que en ocasiones se admite un ligero sesgo con tal que la varianza del estimador sea mnima.

7.2.2. Estimacin de la media de una v.a. La media muestral


Sea una v.a. X , y una muestra aleatoria suya, X1 , ..., XN . Entonces, la media muestral,

= X1 + ... + XN X N
es un estimador insesgado de E [X ] y su error estandar es

X ) = . s.e.(X N
El resultado establece algo que poda haberse intuido desde la denicin de la media o esperanza matemtica de una distribucin de probabilidad: si tenemos unos datos (mas ) de una v.a., una estimacin adecuada de la media de la v.a. es la media de los datos. Hay que tener mucho cuidado con no confundir la media de la v.a., es decir, la media poblacional, con la media de los datos de la muestra, es decir, con la media muestral. Por otra parte, el error estandar hace referencia a X , que es un parmetro poblacional y, por lo tanto, desconocido. Lo que se suele hacer es considerar la desviacin tpica muestral como una aproximacin de la poblacional para evaluar este error estandar.

7.2.3. Estimacin de la varianza de una v.a. Varianza muestral


Sea una v.a. X y una muestra aleatoria simple suya, X1 , ..., XN . Entonces, la varianza muestral,
2 SX,N 1 = N i=1

Xi X N 1

es un estimador insesgado de V ar [X ].

Nota. Al hilo del comentario previo que hicimos sobre la media muestral como estimador natural
En este sentido, si consideramos el estimador
2 SX,N

de la

media, ahora quiz sorprenda que en el denominador de la varianza muestral aparezca N 1 y no N .

N i=1

Xi X N

Prof. Dr. Antonio Jos Sez Castillo

135

Dpto de Estadstica e I.O. Universidad de Jan

se tratara de un estimador no insesgado. A este estimador de la varianza se le conoce habitualmente como

cuasivarianza muestral. Ojo, hay que advertir que en algunos libros la manera de nombrar a la

varianza y a la cuasivarianza muestrales es justo al contrario.

Nota.

2 2 El que la varianza muestral, SN 1 , sea un estimador insesgado de la varianza, , no implica que la 2 SN 1 , sea un estimador insesgado de , pero en este caso s ocurre as.

desviacin tpica muestral, SN 1 =

Ejemplo. Mediante R hemos generado una muestra aleatoria simple de 1000 valores de una distribucin
N (0, 1). Sabemos, por tanto, que la media (poblacional) de los datos es 0 y que la varianza (poblacional)
es 1. No obstante, vamos a suponer que desconocemos de qu distribucin proceden los datos y vamos a tratar de
ajustar

una distribucin terica partiendo de los valores de la muestra:

x11000 = (0.9459, 0.9557, 0.2711, 0.2603, 1.014, ...)


Para empezar, debemos pensar en una distribucin adecuada. Para ello puede observarse el histograma de los datos por si ste recuerda la forma de alguna funcin de densidad conocida. En este caso, el histograma de la muestra aparece en la Figura 7.1, histograma que recuerda claramente la funcin de densidad de una distribucin normal. La pregunta inmediata una vez que se opta por ajustar mediante una distribucin normal es qu normal? Es decir, qu media y qu varianza se proponen para la distribucin que queremos ajustar a estos datos? Una respuesta a esta pregunta la proporcionan los estimadores insesgados que hemos encontrado para estos parmetros. Concretamente,

x = 0.0133
y

s999 = 0.9813,
por lo que ajustaramos los datos de la muestra x mediante una distribucin

N (0.0133, 0.9813) .
La densidad de esta distribucin aparece tambin en la Figura 7.1, en trazo continuo, y se observa que ajusta muy bien la forma del histograma.

136

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Histograma de la muestra
0.5 Densidad 0.0 0.1 0.2 0.3 0.4

Figura 7.1: Histograma para la muestra x11000 con 30 intervalos y funcin de densidad de la distribucin N (0.0133, 0.9813).

7.2.4. Estimacin de una proporcin poblacional


Supongamos que deseamos estimar una proporcin p, desconocida, que representa la probabilidad de un suceso dentro de un espacio muestral. Para ello, se realizan N experimentos asociados al espacio muestral y se cuenta el n de veces que ocurre ese suceso del cul queremos estimar su probabilidad, k . En ese caso, la proporcin muestral,

p =

k , N

es un estimador insesgado de p. Adems, su error estandar es

s.e.( p) =

p(1 p) N

Sobre el error estandar, obsrvese de nuevo que, dado que p es desconocido, en realidad la expresin de s.e.( p) no puede evaluarse. Sin embargo, es bastante comn que si el tamao de la muestra, N , es grande, se utilice el valor de la estimacin, p , en lugar de p en esa expresin. De todas formas, obsrvese tambin que la funcin f (p) = p(1 p) es menor que
1 4

si 0 p 1, luego

s.e.( p)
Es por ello que siempre podemos dar esta cantidad,

1 1 = . 4N 2 N
1 , 2 N

como cota superior del error estandar.

Ejemplo. Si el nmero de varones en una muestra de 1000 individuos de una poblacin es 507, podemos
aproximar la verdadera proporcin de varones en toda la poblacin mediante

p =
con un error estandar por debajo de
1 2 1000

507 = 0.507, 1000 = 0.01581139. La estimacin del error estandar de la

Prof. Dr. Antonio Jos Sez Castillo

137

Dpto de Estadstica e I.O. Universidad de Jan

estimacin sera

0.507 0.493/1000 = 0.01580984: en este caso, las diferencias son inapreciables.

7.2.5. Obtencin de estimadores puntuales. Mtodos de estimacin


Hasta ahora hemos puesto un ejemplo acerca de la estimacin de la media o la varianza de una poblacin mediante la media y la varianza muestral. Sin embargo, nosotros hemos visto muchas distribuciones tericas que no dependen directamente de la media o la varianza. Por ejemplo, la binomial depende de p, la Gamma de dos parmetros, a y , ... Cmo obtener estimadores de estos parmetros? Existen diversos mtodos de estimacin de parmetros. Nosotros vamos a ver dos de los ms sencillos.

7.2.5.1. Mtodo de los momentos


Vamos a explicar el mtodo slo para distribuciones de uno o dos parmetros poblacionales, que son las nicas que hemos visto nosotros. Sea x1 , ..., xn una muestra de una variable aleatoria X : 1. Si la distribucin de X depende de un slo parmetro, , la media poblacional de X, E [X ] = , ser se funcin de , = f (). En ese caso, el estimador mediante el mtodo de los momentos de , ,

. obtiene despejndolo (si es posible) de la ecuacin x =f


2. Si la distribucin de X depende de dos parmetros, 1 y 2 , la media poblacional de X, E [X ] = , ser funcin de ambos, = f (1 , 2 ) e igualmente la varianza poblacional estar expresada como funcin de estos parmetros, V arX = 2 = g (1 , 2 ). En ese caso, los estimadores mediante el mtodo de los 1 y 2 , se obtienen despejndolos (si es posible) del sistema de ecuaciones momentos de 1 y 2 ,

1 , 2 x =f s2 n1 = g 1 , 2 .

Ejemplo. En la distribucin binomial sabemos que EX = np, por lo que p =


p = x . n

EX n .

Por tanto, dada una

muestra de tamao N de la variable, el mtodo de los momentos propone como estimador de p a

Por cierto, este estimador coincide con el que habamos considerado en un principio, que era la proporcin muestral, es decir, p = k/N , pero puede haber alguna confusin en la notacin. Veamos porqu. Se supone que tenemos una muestra de tamao N de datos de una binomial de parmetro n, es decir, tenemos n experimentos, N veces, o sea, un total de n N experimentos, con efecto,
i

xi xitos. Luego, en

p =

x i xi = , n nN

es decir, la proporcin muestral, cociente del n de xitos entre el n total de experimentos. No debemos confundirnos con la expresin k/N que pusimos antes porque N no signica lo mismo en ambos casos.

138

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ejemplo. En la distribucin geomtrica sabemos que EX =


de los momentos propone como estimador a

1 p

1, de donde p =

1 1+EX ,

luego el mtodo

p =

1 . 1+x

Ejemplo. En el caso de la binomial negativa tenemos dos parmetros. Se sabe que


a (1 p) p a (1 p) V arX = p2 EX =
De esta expresin debemos despejar a y p. Dado que

EX = p, V arX
se tiene que
EX p EX 2 = EX V arX = 1p V arX EX 1 VEX arX

a = EX

de donde se proponen como estimadores

p = a =

x s2 X,N 1 x 2 s2 X,N 1 x .

7.2.5.2. Mtodo de mxima verosimilitud


Este mtodo obedece a un principio muy lgico: dada una muestra, escojamos como estimaciones aquellos valores de los parmetros que hagan
ms creibles, ms verosmiles,

los datos de la muestra.

Para desarrollar el mtodo debemos tener en cuenta que si tenemos una muestra aleatoria simple de una variable X , x1 , ..., xn , y la funcin masa o densidad de la variable es p (x), entonces la funcin masa o densidad de la muestra es

p (x1 , ..., xn ) = p (x1 ) ...p (xn ) .


Esta funcin masa o densidad representa en cierto modo la
credibilidad

de los datos de la muestra.

Dada una variable aleatoria X con funcin masa o funcin de densidad p (x) , que depende de uno o dos parmetros, y una muestra aleatoria simple de X , x1 , ..., xn , la verosimilitud de la muestra es la funcin

L = p (x1 ) ...p (xn ) ,


funcin que depender de los parmetros desconocidos de la variable.
Prof. Dr. Antonio Jos Sez Castillo

139

Dpto de Estadstica e I.O. Universidad de Jan

Dada la verosimilitud de una muestra, L, si L depende de un slo parmetro, , entonces el estimador mximo-verosmil de se obtiene resolviendo el problema de mximo siguiente:

= arg m ax L .

si L depende de dos parmetros, 1 y 2 , entonces

los estimadores mximo-verosmiles de

1 y 2 se obtienen resolviendo el problema de mximo siguiente: 1 , 2 = arg m ax L .


1 ,2

Nota.

Dado que el mximo de una funcin coincide con el mximo de su logaritmo, suele ser muy til

maximizar el logaritmo de la funcin de verosimilitud en vez de la funcin de verosimilitud.

Ejemplo. Vamos a calcular el estimador mximo verosmil del parmetro p de una distribucin B (n, p)
basado en una muestra x1 , ..., xN . En primer lugar, la funcin de verosimilitud es
N

Lx1 ,...,xN (p) =


i=1 N

n xi nxi p (1 p) xi n xi p
N i=1

=
i=1

xi

(1 p)

nN

N i=1

xi

Su logaritmo resulta
N

ln Lx1 ,...,xN (p) = ln


i=1

n xi

+
i=1

xi

ln p +

nN
i=1

xi

ln (1 p) .

Para maximizar esta funcin derivamos respecto a p e igualamos a cero:


N i=1

xi

p
de donde

nN i=1 xi = 0, 1p

x p x i=1 xi n = = = N 1p nx 1 nN i=1 xi

x n

Luego el estimador es

p =

x . n

Obsrvese que coincide con el estimador que obtuvimos por el mtodo de los momentos.

Ejemplo. Vamos a calcular el estimador mximo verosmil del parmetro de una distribucin exp ()
basado en una muestra x1 , ..., xN .

140

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Funcin de verosimilitud:

Lx1 ,...,xN () =
i=1

exi = N e

N i=1

xi

Logaritmo de la funcin de verosimilitud:


N

ln Lx1 ,...,xN () = N ln
i=1

xi .

Para maximizar esta funcin, derivamos respecto a e igualamos a cero:

N xi = 0, i=1
de donde

N
N i=1

xi

1 . x

De nuevo el estimador mximo verosmil coincide con el proporcionado por el mtodo de los momentos.

Ejemplo. En el caso de la distribucin normal, tenemos dos parmetros. Veamos cmo proceder en esta
situacin. Vamos a preocuparnos por los estimadores de la media y de la varianza: La funcin de verosimilitud:
N

Lx1 ,...,xN , 2 =
i=1

1 2 2

(xi )2
2 2

1 2 2

2 n i=1 (xi ) 2 2

Su logaritmo:

ln Lx1 ,...,xN , 2 =
variables e igualamos a cero:

N N ln (2 ) ln 2 2 2

N i=1

(xi ) . 2 2

Debemos maximizar esta funcin como funcin de y 2 . Para ello, derivamos respecto de ambas

d ln Lx1 ,...,xN , 2 = d

N i=1

(xi ) =0 2
N i=1

d N 1 ln Lx1 ,...,xN , 2 = 2 + 2 d 2 2
De la primera ecuacin se sigue
N N

(xi )
2

( 2 )

=0

(xi ) =
i=1 i=1

xi N = 0,

de donde

N i=1

xi

=x .

Prof. Dr. Antonio Jos Sez Castillo

141

Dpto de Estadstica e I.O. Universidad de Jan

Modelo
B (n, p) P () Geo (p) BN (a, p) exp () Gamma (a, ) N (, )

Estimadores por el mtodo de los momentos


x p = n =x 1 p = 1+ x 2 , p = s2 x a = s2 x X,N 1 x X,N 1 = 1 x x 2 = 2x a = 2 , sn1 sn1

Estimadores por el mtodo de mxima verosimilitud


x p = n =x 1 p = 1+ x Slo por mtodos numricos = 1

Slo por mtodos numricos

=x , = sn1

=x , = sn

Cuadro 7.1: Estimadores por el mtodo de los momentos y de mxima verosimilitud de los parmetros de las distribuciones ms usuales.

De la segunda, sustituyendo en ella por x ,


N i=1

(xi x )

2 ( 2 )

N , 2

de donde

2 =

N i=1

( xi x ) = s2 n. N

Nota.

De nuevo hay que llamar la atencin sobre el hecho de que hemos buscado un estimador, de

mxima verosimilitud, de 2 , no de . Sin embargo, no es muy difcil demostrar que el estimador de mxima verosimilitud de en la distribucin normal es la cuasidesviacin tpica muestral, sn .

7.2.6. Tabla resumen de los estimadores de los parmetros de las distribuciones ms comunes
En toda esta seccin, supongamos que tenemos una muestra x1 , ..., xN de una variable aleatoria X . Los estimadores segn el mtodo de los momentos y de mxima verosimilitud de los parmetros segn las distribuciones que hemos descrito aparecen en el Cuadro 7.1.

7.3. Estimacin por intervalos de conanza


Sea x1 , ..., xN una muestra de una determinada v.a. X cuya distribucin depende de un parmetro desconocido

. Un

intervalo de conanza para con un nivel de signicacin , I (x1 , ..., xN ) , es un intervalo real
P [ I (x1 , ..., xN )] = 1 .

que depende de la muestra, pero que no depende de tal que

Al valor 1 tambin se le llama

nivel de conanza.
Prof. Dr. Antonio Jos Sez Castillo

142

Apuntes de Estadstica para Ingenieros

Confidence intervals based on z distribution

Confidence intervals based on z distribution

Confidence intervals based on z distribution

50

50

| | | | | | | | | |

| | | | | | | | | |

50

| | | | | | | | | |

40

40

| | | | | | | | | |

| | | | | | | | | |

40

| | | | | | | | | |

30

30

| | | | | | | | | |

| | | | | | | | | Index |

30

| | | | | | | | | |

Index

20

Index 20

| | | | | | | | | |

| | | | | | | | | |

20

| | | | | | | | | |

10

10

| | | | | | | | | |

| | | | | | | | | |

10

| | | | | | | | | |

0.4

0.2

0.0

0.2

0.4

0.6

0.6

0.4

0.2

0.0

0.2

0.4

0.6

0 1.0

0.5

0.0 Confidence Interval

0.5

1.0

Confidence Interval

Confidence Interval

Figura 7.2: Distintos intervalos de conanza para una media a un 68 % (izquierda), a un 90 % (centro) y a un 99 % (derecha). Puede observarse que aumentar el nivel de conanza hace ms amplios los intervalos. Tambin puede observarse que no todos los intervalos contienen a la media poblacional (0), pero que el n de stos malos intervalos disminuye conforme aumentamos el nivel de conanza.

Obsrvese que la losofa de cualquier intervalo de conanza es proporcionar, basndonos en los datos, una regin donde tengamos un determinado nivel de conanza en que el parmetro se encuentra. Como en el caso de los estimadores puntuales, el intervalo de conanza es aleatorio, ya que depende de los datos de una muestra. Adems, se da por hecho que existe la posibilidad de que el
verdadero

parmetro no quede

encerrado dentro del intervalo de conanza, cosa que ocurrira con probabilidad .

Nota. Al respecto de la interpretacin del nivel de conanza, tenemos que decir que, dado que desde el
comienzo del curso hemos adoptado una interpretacin frecuentista de la probabilidad, un intervalo de conanza al 95 %, por ejemplo, garantiza que si tomamos 100 muestras el parmetro poblacional estar dentro del intervalo en aproximadamente 95 intervalos construidos. Sin embargo, esta interpretacin es absurda en la prctica, porque nosotros no tenemos 100 muestras, sino slo una. Nosotros tenemos los datos de una muestra. Con ellos construimos un intervalo de conanza. Y ahora slo caben dos posibilidades: o el parmetro est dentro del intervalo o no lo est. El parmetro es constante, y el intervalo tambin. No podemos repetir el experimento! Es por ello que se habla de intervalos
conanza , de

interpretando que tenemos una

conanza

del 95 % en que el parmetro estar dentro.

Prof. Dr. Antonio Jos Sez Castillo

143

Dpto de Estadstica e I.O. Universidad de Jan

7.3.1. Intervalos de conanza para la media


Sea X una v.a. con distribucin normal de media desconocida y varianza 2 conocida. Sea una muestra

x = (x1 , ..., xN ) de X , y x la media muestral asociada. Entonces, ,x P x z1 + z1 2 2 N N


a es tal que F =1 donde z1 Z z1 2 , siendo Z N (0, 1) . 2 2
a El valor de z debe buscarse en la tabla de la normal o calcularse con ayuda del ordenador. 1

= 1 ,

Es decir, la media se encuentra en el intervalo

,x x z1 + z1 2 2 N N
con un (1 ) % de conanza. No obstante, hay que reconocer que en la prctica es poco probable que se desconozca el valor de la media y s se conozca el de la varianza, de manera que la aplicacin de este teorema es muy limitada. El siguiente resultado responde precisamente a la necesidad de extender el anterior cuando se desconoce el valor de la varianza. Sea X una v.a. con distribucin normal de media y varianza 2 , ambas desconocidas. Sea una muestra

x = (x1 , ..., xN ) de X , la media muestral x y la varianza muestral s2 X,N 1 . Entonces, s2 X,N 1 N s2 X,N 1 N = 1 ,

P x t1 2 ; N 1

,x + t1 2 ;N 1

grados de libertad.
2

donde t;N a es el valor tal que FTN (t;N ) = , siendo TN una v.a. con distribucin T de Student con N

a El valor de t debe buscarse en la tabla de la t o calcularse con ayuda del ordenador 1

Es decir, conamos en un (1 ) % en que el intervalo

x t1 2 ;N 1
contiene a la media, que es desconocida.

s2 X,N 1 N

,x + t1 2 ; N 1

s2 X,N 1 N

Ejemplo.

Mediante R habamos simulado 1000 valores de una distribucin N (0, 1). La media y la

desviacin tpica muestrales de esos 1000 valores resultaron ser x = 0.0133 y s999 = 0.9813. Por tanto, el intervalo de conanza que se establece al 95 % de conanza para la media es

0.9813 0.0133 1.96 1000

= (0.074, 0.0475)

144

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Obsrvese que, en efecto, la verdadera media, = 0, est en el intervalo de conanza.

Los dos resultados que acabamos de enunciar se basan en que se conoce la distribucin exacta de la muestra, normal, lo que permite deducir que la media muestral sigue tambin, y de forma exacta, una distribucin normal de media y varianza
2 N .

Sin embargo, gracias al teorema central del lmite se sabe que sea cual
2 N ,

sea la distribucin de las variables de la muestra aleatoria simple, la media muestral sigue aproximadamente una distribucin normal de media y varianza ya que se obtiene como suma de v.a. independientes con
aproximado

la misma distribucin. Por lo tanto, podemos obtener un intervalo de conanza media de cualquier distribucin, como se recoge en el siguiente resultado.

para cualquier

Sea X una v.a. con distribucin cualquiera de media , desconocida, y con varianza, 2 . Sea una muestra

x = (x1 , ..., xN ) de X y la media muestral, x . Entonces, si N es sucientemente elevado (N > 30 es suciente), + z1/2 P x z1/2 , x N N 1 .

En esta expresin, si es desconocida, puede sustituirse por la desviacin tpica muestral, sn1 .

Ejemplo. Para dimensionar el tamao del buer de un modem ADSL es necesario estimar el promedio
de paquetes de datos por milisegundo que recibe el modem. Se considera que el tiempo (en milisegundos) que transcurre entre paquete y paquete sigue una distribucin exponencial de parmetro . Obsrvese que la media de esta distribucin es =
1 ,

tiempo medio

entre paquetes, por lo que es precisamente el promedio de paquetes por milisegundo que recibe el modem. Por lo tanto, el objetivo es estimar el parmetro , que es el que se utilizar para dimensionar el modem. Mediante un snier acoplado al modem para capturar datos del trco, se toman datos de los tiempos entre paquetes de 1001 paquetes, por lo que se tienen 1000 datos de tiempos entre paquetes. La media de estos tiempos resulta ser x = 2.025, siendo la desviacin tpica muestral de 1.921. En primer lugar, vamos a calcular un intervalo de conanza (al 95 %) para la media de la distribucin,

: sn1 sn1 + z0.975 x z0.975 , x n n


Finalmente, dado que =
1 ,

1.921 = 2.025 1.96 = (1.906, 2.144). 1000


1 1 2.144 , 1.906

el intervalo de conanza al 95 % de es

= (0.466, 0.525) .

A ttulo informativo, el valor que se considera en el dimensionamiento del modem es un mltiplo (el doble, por ejemplo) del extremo superior del intervalo, en este caso 0.525.

Prof. Dr. Antonio Jos Sez Castillo

145

Dpto de Estadstica e I.O. Universidad de Jan

7.3.2. Intervalos de conanza para una proporcin


Sea p la probabilidad desconocida de un determinado evento, que llamaremos xito, que puede ocurrir en un determinado experimento. Supongamos que tenemos una muestra de N realizaciones independientes del experimento, y sea p = (N > 30), se tiene que
k N

la proporcin de xitos en la muestra. Entonces, si N es sucientemente elevado

P p

p z1/2

p (1 p ) ,p + z1/2 N

p (1 p ) N

1 .

Ejemplo. La Junta de Andaluca pretende implantar un programa de ayuda a familias con familiares
dependientes. Dado que la mayor parte de los Servicios Sociales son competencia de los municipios, la Junta proporcionar los medios econmicos, pero sern stos los encargados de ejecutar el programa. Los Servicios Sociales de cualquier municipio asumen que, por errores inevitables, no todas las familias a las que subvencionan reunen los requisitos exigidos, pero la Junta les responsabiliza de que esto no ocurra en ms del 4 % de ellas. Si se supera este porcentaje, penalizar al municipio. En un municipio se muestrean 200 familias y se detecta que 12 de ellas (6 %) no cumplen las condiciones exigidas. Debe la Junta sancionar al municipio? Si nos jamos slo en el valor de la estimacin puntual, 6 %, s debera hacerlo, pero no sera justo: 12 errores en una muestra de 200 pueden no ser una evidencia suciente de que el porcentaje superara el 4 %. Consideremos un un intervalo de conanza para la proporcin de errores (5 % de signicacin) con los datos obtenidos:

0.06 1.96

0.06(1 0.06) = (0.027, 0.093). 200

Por tanto, no hay evidencias de que el porcentaje sea superior al 4 % y no debe sancionarse al municipio.

7.3.3. Intervalos de conanza para la varianza


Anlogamente, pueden darse intervalos de conanza para la varianza con la media conocida o desconocida, pero slo cuando la v.a. observada sigue una distribucin gaussiana. Ambos casos se recogen en el siguiente resultado. Sea X una v.a. con distribucin gaussiana de media (desconocida) y varianza 2 . Sea una muestra

x = (x1 , ..., xN ) de X y la media muestral x . Entoncesa : P


N 2 ) i=1 (Xi x 2 1 2 ; N 1

< 2 <

N i=1 (Xi 2 2 ;N 1

x )

= 1 .

a El valor de 2 2 y debe buscarse en las tablas de la distribucin 2 u obtenerse mediante el ordenador. /2;N 1 1/2;N 1

146

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros


2 2 En esta expresin, 2 ;N corresponde con aquel valor tal que F2 ;N = , donde sigue una distribucin

cuadrado con N grados de libertad. Nota. Un intervalo de conanza para la desviacin tpica puede obtenerse trivialmente como la raiz cuadrada
del intervalo de conanza para la varianza.

Ejemplo. En el ejemplo donde consideramos 1000 valores simulados de una N (0, 1) tenamos que x =
0.0133 y s999 = 0.9813. Por tanto, teniendo en cuenta que
N

(Xi x ) = 999 s2 999 ,


i=1

el intervalo de conanza para la varianza al 95 % que proporciona el teorema es

961.9867 961.9867 , 1.0885 103 913.3010

= (0.8838, 1.0533) .

Obsrvese que = 1 pertenece al intervalo de conanza al 95 %. Puede que alguno de vosotros est pensando cul puede ser el inters de las estimaciones puntuales y, sobre todo, mediante intervalos de conanza de la varianza. Probablemente todos tenemos muy claro qu es una media, incluso una proporcin, pero quiz se nos escape la importancia prctica del concepto de varianza. En este sentido, hay que decir que en el mbito de la Ingeniera la varianza se utiliza muchsimo en lo que se conoce como
control de calidad.

Los japoneses son, en esto, los pioneros y quiz los mejores expertos. A

ellos se les atribuye un principio bsico del control de calidad en cualquier proceso bsico de produccin:

reduccin de la varianza es la clave del xito en la produccin.

la

Pensemos en cualquier proceso de fabricacin genrico. En l se tratar de obtener un producto sujeto a unas especicaciones concretas. Sin embargo, el error inherente a cualquier proceso experimental provocar: 1. Un aumento o una disminucin estructurales del producto con respecto a un valor objetivo. Esto podra detectarse como un sesgo en la media de lo producido con respecto al valor objetivo. 2. Unas diferencias ms o menos importantes en los productos resultantes, que podran ser evaluadas mediante la varianza. De esas dos posibles problemticas, la ms compleja, sin duda es la segunda. Probablemente no es un grave problema
calibrar

la mquina que produce para que la media se site en el valor objetivo, pero ser sin duda

ms complejo modicarla para que produzca de forma ms homognea, reduciendo as la varianza.

7.3.4. Otros intervalos de conanza


Se pueden establecer intervalos de conanza para la diferencia entre las medias de dos variables aleatorias, para la diferencia entre proporciones o para el cociente de varianzas, entre otros parmetros de inters. Asimismo, se pueden obtener intervalos de conanza unilaterales para cualquiera de los parmetros que hemos mencionado, es decir, intervalos acotados slo a un lado, frente a los intervalos aqu.
Prof. Dr. Antonio Jos Sez Castillo

bilaterales

que hemos visto

147

Dpto de Estadstica e I.O. Universidad de Jan

No obstante, no vamos a detallarlos aqu, aunque su interpretacin es anloga a la de los intervalos de conanza que hemos visto. Cualquier paquete de software estadstico puede facilitar estos intervalos sin dicultad.

7.4. Resolucin del ejemplo de los niveles de plomo


Recordemos que al principio del curso plantebamos un problema que aparece en un artculo publicado en
Journal of Environmental Engineering

en 2002, titulado Leachate from Land Disposed Residential Consun sitio de prueba se tomaron 42 muestras

truction Waste, en el que se presenta un estudio de la contaminacin en basureros que contienen desechos de construccin y desperdicios de demoliciones. Decamos all que De
de lixiado, de las cuales 26 contienen niveles detectables de plomo. Una ingeniera desea obtener a partir de esos datos una estimacin de la probabilidad de que una muestra de un basurero contenga niveles detectables de plomo. No obstante, es consciente de que esa estimacin estar basada en esa muestra, que es de slo 42 datos, luego querr tambin obtener una estimacin del error que est cometiendo al hacer la estimacin. Finalmente, se plantea si con la estimacin y el error de sta, podr obtener un rango donde la verdadera probabilidad se encuentre con un alto nivel de conanza.

Ahora estamos en condiciones de resolver este

problema. En primer lugar, tenemos que obtener una estimacin de la proporcin de muestras (o probabilidad) que contienen niveles detectables de plomo. Hemos visto que un estimador insesgado de mnima varianza, que adems coincide con el estimador de mxima verosimilitud, de la proporcin es la proporcin muestral. En nuestro caso, por tanto, podemos estimar la proporcin en p = error estndar de esta estimacin en s.e.( p) = error estandar ser inferior a estandar inferior a un 7.71 %. que el intervalo
1 2 42 0.6190(10.6190) 42 26 42

= 0.6190.. Adems, podemos estimar el

= 0.0749 y, en cualquier caso, decir que este

= 0.0771. En resumen, tenemos una estimacin del 61.90 % con un error

Por ltimo, en funcin de esta estimacin y de su error estandar, puede armar con un 95 % de conanza

0.6190 1.96 0.0749 = (0.4722, 0.7658)


contendr a la verdadera proporcin de muestras con niveles detectables de plomo. Esta ltima armacin pone de maniesto que dar un intervalo de conanza con un nivel de signicacin aceptablemente bajo (5 %) conduce a un intervalo muy amplio, lo que equivale a decir que an hay bastante incertidumbre con respecto a la proporcin que estamos estimando. Por ello, deberamos recomendarle a la ingeniera que aumente el tamao de la muestra.

148

Prof. Dr. Antonio Jos Sez Castillo

Captulo 8
Contrastes de hiptesis paramtricas

La gran tragedia de la ciencia: la destruccin de una bella hiptesis por un antiesttico conjunto de datos. Thomas H. Huxley. La Estadstica puede probar todo, incluso la verdad. N. Moynihan

Resumen. En este captulo explicamos qu se entiende por contraste de hiptesis estadstica y aprendemos
a realizar contrastes de este tipo a partir de datos, referidos a algn parmetro poblacional desconocido.

Palabras clave: contraste de hiptesis, error tipo I, error tipo II, estadstico de contraste, p-valor, nivel de
signicacin, nivel de conanza.

8.1. Introduccin
tesis se utilizan para inferir decisiones que se reeren a un parmetro poblacional basndose en muestras de
la variable. Vamos a comenzar a explicar el funcionamiento de un contraste de hiptesis con un ejemplo. Como apuntbamos en la introduccin del captulo anterior, las llamadas

pruebas o contrastes de hip-

Ejemplo. Los cientcos recomiendan que para prever el calentamiento global, la concentracin de gases
de efecto invernadero no debe exceder las 350 partes por milln. Una organizacin de proteccin del medio ambiente quiere determinar si el nivel medio, , de gases de efecto invernadero en una regin cumple con las pautas requeridas, que establecen un lmite mximo de 350 partes por milln. Para ello tomar una muestra de mediciones diarias de aire para decidir si se supera el lmite, es decir, si > 350 o no. Por tanto, la organizacin desea encontrar apoyo para la hiptesis > 350, llamada

hiptesis alternativa,

obteniendo pruebas en la muestra que indiquen que la hiptesis contraria, = 350 (o 350), llamada

hiptesis nula, es falsa.


inocencia,

Dicho de otra forma, la organizacin va a someter a juicio a la hiptesis nula 350. Partir de

su

suponiendo que es cierta, es decir, suponiendo que, en principio, no se superan los lmites de 149

Dpto de Estadstica e I.O. Universidad de Jan

presencia de gases de efecto invernadero, y slo la rechazar en favor de H1 si hay pruebas evidentes en los datos de la muestra para ello. La decisin de rechazar o no la hiptesis nula en favor de la alternativa deber basarse en la informacin que da la muestra, a travs de alguna medida asociada a ella, que se denomina estadstico de contraste. Por ejemplo, si se toman 30 lecturas de aire y la media muestral es mucho mayor que 350, lo lgico ser rechazar la hiptesis nula en favor de > 350, pero si la media muestral es slo ligeramente mayor que 350 o menor que 350, no habr pruebas sucientes para rechazar 350 en favor de > 350. La cuestin clave es en qu momento se decide rechazar la hiptesis nula en favor de la alternativa. En nuestro ejemplo, en qu momento podemos decir que la media muestral es sucientemente mayor que 350. El conjunto de estos valores del estadstico de contraste, que permiten rechazar = 350 en favor de

> 350 se conoce como

regin de rechazo.

A la luz de este ejemplo, vamos a tratar de denir de forma general los conceptos que acabamos de introducir. Un contraste

de hiptesis es una prueba que se basa en los datos de una muestra de una variable aleatoria mediante la cul podemos rechazar una hiptesis sobre un parmetro de la poblacin, llamada hiptesis nula (H0 ), en favor de una hiptesis contraria, llamada hiptesis alternativa (H1 ). estadstico de

contraste.

La prueba se basa en una transformacin de los datos de la muestra, lo que se denomina

Se rechazar la hiptesis nula en favor de la alternativa cuando el valor del estadstico de contraste se site en una determinada regin, llamada

regin de rechazo.

La hiptesis H0 se suele expresar como una igualdada , del tipo H0 : = 0 , donde es un parmetro de una poblacin y 0 es un valor hipottico para ese parmetro. Por su parte, H1 puede tener tener dos formas:

H1 : > 0 , en cuyo caso se habla de contraste unilateral a la derecha o de una cola a la derecha o de un extremo a la derecha, o H1 : < 0 , en cuyo caso se habla de contraste unilateral a la izquierda o de una cola a la izquierda o de un extremo a la izquierda. H1 : = 0 , en cuyo caso se habla de contraste bilateral o de dos colas o de dos extremos.
a De todas formas, tambin es frecuente expresar H0 como negacin exacta de H1 , en cuyo caso s puede ser una desigualdad no estricta. Matemticamente no hay diferencias en estas dos posibilidades.

Uno de los aspectos ms importantes y que se suele prestar a mayor confusin se reere a qu hiptesis considerar como H0 y cul como H1 . Una regla prctica para hacerlo correctamente puede ser la siguiente: 1. Si estamos intentando probar una hiptesis, sta debe considerarse como la hiptesis alternativa. 2. Por el contrario, si deseamos desacreditar una hiptesis, debemos incluir sta como hiptesis nula.

Ejemplo. Para una determinada edicacin se exige que los tubos de agua tengan una resistencia media
a la ruptura, , por encima de 30 kg por centmetro.

150

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Como primera situacin, supongamos que un proveedor quiere facilitar un nuevo tipo de tubo para ser utilizado en esta edicacin. Lo que deber hacer es poner a trabajar a sus ingenieros, que deben realizar una prueba para decidir si esos tubos cumplen con las especicaciones requeridas. En ese caso, deben proponer un contraste que incluya como hiptesis nula H0 : 30 frente a la alternativa H1 : > 30. Si al realizar el contraste de hiptesis se rechaza H0 en favor de H1 , el tubo podr ser utilizado, pero si no se puede rechazar H0 en favor de H1 , no se tienen sucientes garantas sobre la calidad del tubo y no ser utilizado. Como segunda situacin, un proveedor lleva suministrando su tipo de tubo desde hace aos, sin que se hayan detectado, en principio, problemas con ellos. Sin embargo, un ingeniero que trabaja para el gobierno controlando la calidad en las edicaciones viene teniendo sospechas de que ese tipo de tubo no cumple con las exigencias requeridas. En ese caso, si quiere probar su hiptesis, el ingeniero deber considerar un contraste de la hiptesis nula H0 : 30 frente a H1 : < 30. Dicho de otra forma, slo podr contrastar su hiptesis si encuentra datos empricos que permitan rechazar esa hiptesis nula en favor de su alternativa, que demuestren con un alto nivel de abilidad que el proveedor que estaba siendo aceptado ahora no cumple con los requisitos.

De hecho, es importantsimo que desde el principio tengamos claro qu tipo de decisiones puede proporcionarnos un contraste de hiptesis. Aunque ya las hemos comentado, vamos a insistir en ellas. Son las dos siguientes: 1. Si el valor del estadstico de contraste para los datos de la muestra cae en la regin de rechazo, podremos armar hiptesis nula en favor de la alternativa. 2. Si el valor del estadstico de contraste para los datos de la muestra no cae en la regin de rechazo, no podremos armar

con un determinado nivel de conanza que los datos de la muestra permiten rechazar la

con el nivel de conanza exigido que los datos de la muestra permiten rechazar

la hiptesis nula en favor de la alternativa. La clave radica en que entendamos desde el principio que la hiptesis nula carece de conanza. Es asumida slo como punto de partida, pero ser abandonada cuando los datos empricos muestren evidencias claras en su contra y a favor de la alternativa. La carga de la prueba de hiptesis radica siempre en la hiptesis alternativa, que es la nica hiptesis en la que podremos garantizar un determinado nivel de conanza.

8.2. Errores en un contraste de hiptesis


El contraste de una hiptesis estadstica implica, por tanto, una toma de decisin, a favor de H0 o en contra de H0 y en favor de H1 . Esto implica que podemos equivocarnos al tomar la decisin de dos formas. Se llama

error tipo I o falso negativo a rechazar la hiptesis nula cuando es cierta, y su probabilidad se nota por , llamado nivel de signicacin. nivel de conanza a la probabilidad de aceptar la hiptesis nula cuando es cierta, es decir, 1 . 151

Se llama

Prof. Dr. Antonio Jos Sez Castillo

Dpto de Estadstica e I.O. Universidad de Jan

Estado real Decisin en el contraste


H0 H1 H0 Decisin correcta Error tipo I H1 Error tipo II Decisin correcta

Cuadro 8.1: Esquematizacin de los errorres tipo I y tipo II.

Se llama

error tipo II o falso positivo a aceptar la hiptesis nula cuando es falsa, y su probabilidad se potencia a la probabilidad de rechazar la hiptesis nula cuando es falsa, es decir, 1 .

nota por . Se llama

Cul de los dos errores es ms grave? Probablemente eso depende de cada contraste, pero en general, lo que se pretende es acotar el error tipo I y tratar de minimizar el error tipo II, es decir, tratar de elegir contrastes lo ms potentes posibles garantizando que la probabilidad del error tipo I es inferior a un determinado nivel.

Ejemplo. Un fabricante de minicomputadoras cree que puede vender cierto paquete de software a ms
del 20 % de quienes compran sus computadoras. Se seleccionaron al azar 10 posibles compradores de la computadora y se les pregunt si estaban interesados en el paquete de software. De estas personas, 4 indicaron que pensaban comprar el paquete. Proporciona esta muestra sucientes pruebas de que ms del 20 % de los compradores de la computadora adquirirn el paquete de software? Si p es la verdadera proporcin de compradores que adquirirn el paquete de software, dado que deseamos demostrar p > 0.2, tenemos que H0 : p = 0.2 y H1 : p > 0.2. Sea X : nmero de posibles compradores de la muestra, en cuyo caso, X B (10, p). Utilizaremos el valor de X como estadstico del contraste, rechazando H0 si X es grande. Supongamos que establecemos como regin de rechazo x 4. En ese caso, dado que en la muestra x = 4, rechazaramos H0 en favor de H1 , llegando a la conclusin de que el fabricante tiene razn. Pero, cul es el nivel de conanza de este contraste? Calculemos la probabilidad de error tipo I. Para ello, en el Cuadro 8.2 aparece la distribucin de probabilidad del estadstico de contraste que hemos elegido, suponiendo que H0 es cierta, ya que debemos calcular

= P [Rechazar H0 |H0

es cierta ]
2

= P [X 4|p=0.2 ]

= 0.08808 + 2.6424 10

+ 5.505 103 + 7.8643 104

+ 7.3728 105 + 4.096 106 + 1.024 107 = 0.12087,


luego el nivel de conanza del contraste es del (1 0.12087) 100 % = 87.913 %. La conclusin sera que

a la luz de los datos podemos armar con un 87.913 % de conanza que p > 0.2.

Y si queremos un nivel de conanza mayor, es decir, una probabilidad de error tipo I menor? Debemos reducir la regin de rechazo. Si ponemos como regin de rechazo x 5, ya no podremos rechazar H0 en

152

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

x 0 1 2 3 4 5 6 7 8 9 10

P [X = x] 0.20 0.810 = 0.10737 0.21 0.89 = 0.26844 0.22 0.88 = 0.30199 0.23 0.87 = 0.20133 0.24 0.86 = 0.08808 10 5 5 2 5 0.2 0.8 = 2.6424 10 10 6 4 3 6 0.2 0.8 = 5.505 10 10 7 3 4 7 0.2 0.8 = 7.8643 10 10 8 2 5 8 0.2 0.8 = 7.3728 10 10 9 1 6 9 0.2 0.8 = 4.096 10 10 10 0 7 10 0.2 0.8 = 1.024 10
10 0 10 1 10 2 10 3 10 4

Regin de aceptacin

Regin de rechazo

Cuadro 8.2: Funcin masa del estadstico de contraste suponiendo cierta H0 , es decir, suponiendo que p = 0.2.

favor de H1 , ya que x = 4. Adems, ahora

= 2.6424 102 + 5.505 103 + 7.864 3 104 + 7.3728 105 + 4.096 106 + 1.024 107 = 3.2793 102 ,
luego el nivel de conanza sera 1 3.2793 102 100 % = 96.721 %, y la conclusin sera que

luz de los datos no podemos armar que p > 0.2 con un 96.721 % de conanza.

a la

El estudio de es algo ms complicado y no lo abordaremos.

8.3. p-valor de un contraste de hiptesis


Histricamente, la forma ms comn de actuar en un contraste de hiptesis pasa por elegir un nivel de signicacin (bajo), que determina un lmite para el error tipo I que estamos dispuestos a asumir. Ese nivel de signicacin determina toda la regin de rechazo y, examinando si el valor del estadstico cae en ella, podemos concluir si rechazamos o no la hiptesis nula en favor de la alternativa con el nivel de conanza requerido. Existe, sin embargo, otra forma de actuar que ha tenido un auge enorme desde que las computadoras se han convertido en una herramienta al alcance de cualquiera. Bajo esta forma de actuar, calcularemos el valor del estadstico de contraste y valoraremos cmo es de extremo este valor bajo la distribucin en el muestreo de la hiptesis nula. Si es ms extremo que el nivel de signicacin deseado, se rechazar la hiptesis nula en favor de la alternativa. Esta medida de cun extremo es el valor del estadstico se llama

p-valor.

8.3.1. Denicin de p-valor


De forma general, supongamos que queremos contrastar una hiptesis estadstica simple del tipo H0 : = 0 , frente a alguna de las alternativas siguientes: H1 : = 0 , H1 : > 0 o H1 : < 0 . Supongamos adems
Prof. Dr. Antonio Jos Sez Castillo

153

Dpto de Estadstica e I.O. Universidad de Jan

que el contraste se realiza mediante un estadstico que notaremos S , y que el valor del estadstico para la muestra es s. El

p-valor asociado al contraste se dene como el mnimo nivel de signicacin con el que la hiptesis nula

sera rechazada en favor de la alternativa.

Ejemplo. En el Ejemplo 8.2 hemos visto cmo podemos rechazar la hiptesis nula con un 87.913 % de
conanza, pero no con un 96.721 %. Dicho de otra forma, podemos rechazar la hiptesis nula con un nivel de signicacin del 12.087 %, pero no con un nivel de signicacin del 3.279 %. Esto implica que el p-valor estar justo entre estos dos ltimos valores.

Dado que normalmente se elige como nivel de signicacin mximo = 0.05, se tiene que la regla de decisin en un contraste con ese nivel de signicacin, dado el p-valor, sera la siguiente: Si p < 0.05, rechazamos H0 en favor de H1 con ms de un 95 % de conanza. Si p 0.05, no podemos rechazar H0 en favor de H1 con al menos un 95 % de conanza. Sin embargo, esta regla de decisin, que es la ms habitual, es demasiado reduccionista si no se proporciona el valor exacto del p-valor. La razn es que no es lo mismo rechazar una hiptesis con que eso permite a cada lector decidir por s mismo. En resumen, el p-valor permite utilizar cualquier otro nivel de signicacin, ya que si consideramos un nivel de signicacin : Si p < , rechazamos H0 en favor de H1 con ms de un (1 ) % de conanza. Si p , no podemos rechazar H0 en favor de H1 con al menos un (1 ) % de conanza. Como conclusin, siempre que hagamos un contraste de hiptesis, debemos facilitar el p-valor asociado. Como nota nal sobre el concepto de p-valor, es importante sealar que, al contrario de lo que errneamente se piensa en demasiadas ocasiones, el p-valor no es la probabilidad de la hiptesis nula. Mucha gente piensa esto porque es cierto que cuando el p-valor es pequeo es cuando se rechaza la hiptesis nula. Sin embargo, para empezar, no tiene sentido plantearnos la
probabilidad al menos

un 95 % de

conanza si el p-valor es 0.049 que si es 0.001. Hay que proporcionar siempre el p-valor de un contraste, ya

de la hiptesis nula, ya que sta, o es cierta, o es

falsa: desde una perspectiva clsica de la probabilidad, se habla de la probabilidad de un suceso porque a veces ocurre y a veces no, pero en este caso no podemos pensar as, ya que la hiptesis nula o se da o no se da. En realidad, el p-valor lo que da es un indicio de la certidumbre que tenemos, de la conanza en que la hiptesis nula sea verdad, teniendo en cuenta los datos de la muestra. Esta interpretacin tiene ms que ver con la interpretacin subjetiva de la probabilidad de la que hablamos al principio de curso. Hay que decir que, en relacin a esta interpretacin subjetiva de la probabilidad, existe una visin de la Estadstica, llamada Estadstica Bayesiana, en la que el p-valor s puede entenderse como la probabilidad de la hiptesis nula, pero entendiendo que medimos la probabilidad de la hiptesis nula, no porque pueda ocurrir o no ocurrir en funcin del azar, sino porque tenemos incertidumbre sobre ella.

154

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

0.4

0.3

0.2

Regin de aceptacin

0.2

0.3

0.4

Regin de aceptacin

0.1

0.0

0.1

1
0.0

Figura 8.1: Regiones de rechazo en contrastes unilaterales a la izquierda y a la derecha.

0.2

0.3

0.4

Regin de aceptacin
0.1

0.0

Figura 8.2: Regin de rechazo en un contraste bilateral.

8.3.2. Clculo del p-valor


Para comprender cmo se calcula el p-valor de un contraste es necesario distinguir entre contrastes unilaterales o de una cola frente a contrastes bilaterales o de dos colas. Como ya comentamos, los contrastes del tipo H0 : = 0 , frente a H1 : = 0 son

o de dos colas, ya que el rechazo de la hiptesis nula en favor de la alternativa puede producirse porque el
estadstico de contraste toma valores muy altos o muy bajos. Por contra, los contrastes del tipo H0 : = 0 , frente a H1 : > 0 o H1 : < 0 son altos (cuando H1 : > 0 , llamado

contrastes bilaterales
ya que el rechazo de la

contrastes unilaterales o de una cola,

hiptesis nula en favor de la alternativa puede producirse slo si el estadstico de contraste toma valores muy

contraste a la izquierda).

contraste a la derecha) o muy bajos (cuando H1

: < 0 ,

llamado 155

Prof. Dr. Antonio Jos Sez Castillo

Dpto de Estadstica e I.O. Universidad de Jan

Por tanto, teniendo en cuenta la denicin de p-valor, su clculo se realiza de la siguiente forma: Si el contraste es unilateral a la izquierda (H1 : < 0 ),

p = P [S s/H0 ] .
Si el contraste es unilateral a la derecha (H1 : > 0 ),

p = P [S > s/H0 ] .
Si el contraste es bilateral (H1 : = 0 ),

p = 2 m n {P [S s/H0 ] , P [S > s/H0 ]} .


Hay que decir que el uso del p-valor se ha extendido hasta convertirse en el mtodo ms habitual de toma de las decisiones desde que el uso de los ordenadores y de los software de clculo estn a disposicin de la mayora de los usuarios. Hoy en da casi nadie hace Estadstica a
mano,

y prcticamente todos los programas

estadsticos proporcionan el p-valor como dato para la toma de las decisiones. En lo que resta del tema lo que vamos a hacer es enunciar distintos contrastes de hiptesis para la media, la varianza o la proporcin de una poblacin y para comparar las medias, las varianzas y las proporciones en dos poblaciones distintas. No nos vamos a centrar en los detalles de cmo se deducen sino slo en cmo se utilizan en la prctica. De todas formas, es importante hacer una aclaracin: cuando los datos proceden de una distribucin normal, es muy sencillo obtener la distribucin del estadstico del contraste, gracias a los resultados que vimos en el captulo de distribuciones en el muestreo. Sin embargo, si los datos no proceden de variables normales, esta cuestin es muchsimo ms difcil. Afortunadamente, si el tamao de la muestra es grande, el Teorema Central del Lmite garantiza que los parmetros que se basan en sumas basadas en las muestras siguen aproximadamente una distribucin normal. Es por ello que en cada tipo de contraste que vamos a describir a continuacin se distinguen aquellos que se basan en muestras grandes y los que se basan en muestras reducidas, que slo podrn ser utilizados si la variable es normal. En cada caso, vamos a acompaar el contraste con un ejemplo que comentaremos extensamente.

8.4. Contraste para la media de una poblacin


Vamos a suponer que tenemos una muestra x1 , ..., xn de una variable aleatoria con media poblacional . Notaremos x a la media muestral y s2 n1 a la varianza muestral.

8.4.1. Con muestras grandes (n 30)


El Cuadro 8.3 incluye un resumen del procedimiento para el contraste. En l, zp es el valor de una N (0, 1) tal que P [Z < zp ] = p. A modo de ejemplo, podemos pensar en que los arquelogos utilizan el hecho conocido de que los hmeros de los animales de la misma especie tienden a tener aproximadamente las mismas razones longitud/anchura

156

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Tipo de prueba Hiptesis Estadstico Rechazo p-valor Supuestos

A la izquierda H0 : = 0 H1 : < 0

z < z P [Z < z ]

Bilateral H0 : = 0 H1 : = 0 0 z = snx 1 / n |z | > z1/2 2P [Z > |z |] n 30

A la derecha H0 : = 0 H1 : > 0

z > z1 P [Z > z ]

Cuadro 8.3: Contraste para la media con muestras grandes 9.23 12.57 8.42 9.59 11.37 10.38 8.71 7.84 8.63 10.06 9.76 9.16 9.16 7.48 8.09 7.58 10.80 9.40 7.75 9.19 9.99 9.86 9.03 8.92 10.79 9.46 7.61 9.00 12.85 9.82 10.18 8.98 9.25 11.01 9.37 9.08 10.81 10.39 8.19 9.66 7.09 9.05 8.50 7.44 9.75 9.25 9.39 9.51 11.66 9.66

Cuadro 8.4: Datos del ejemplo de las especies para tratar de discernir si los hmeros fsiles que encuentran en un yacimiento corresponden o no a una nueva especie. Supongamos que una especie comn en la zona donde se enclava un yacimiento, la
Bichus localis,

tiene una

razn media longitud/anchura de 9. Los arquelogos encargados del yacimiento han hallado 50 hmeros fsiles, cuyos datos aparecen en el Cuadro 8.4. Tienen los arquelogos indicios sucientes para concluir que han descubierto en el yacimiento una especie distinta de la
Bichus localis ?

En primer lugar, observemos que no nos han especicado ningn nivel de signicacin en el enunciado. En este caso, lo habitual es considerar = 0.05. En caso de que la decisin sea muy relevante, elegiramos un nivel ms bajo. A continuacin debemos plantear las hiptesis del contraste. En principio, la zona de la excavacin indica que la especie del yacimiento debera ser la especie
Bichus localis,

salvo que demostremos lo contrario, es decir,

la hiptesis nula es H0 : = 9, donde por estamos notando la media de la razn longitud/anchura del hmero de la especie del yacimiento. Como hiptesis alternativa nos planteamos que se trate de otra especie, es decir H1 : = 9. Se trata, por tanto, de un contraste de dos colas. Para realizarlo, debemos calcular en primer lugar el estadstico de contraste. ste, a su vez, requiere del clculo de la media y de la desviacin tpica muestral de los datos. Estos valores son, respectivamente, 9.414 y 1.239. Por tanto,

z=

9.414 9 = 2.363. 1.239/ 50

Ahora tenemos que plantearnos si este valor del estadstico nos permite rechazar la hiptesis nula en favor de la alternativa o no. Podemos hacerlo de dos formas: 1. Obteniendo la regin de rechazo. Dado que z10.05/2 = 1.96, la regin de rechazo es |z | > 1.96. Vemos que, en efecto, 2.363 > 1.96, por lo que podemos rechazar la hiptesis nula en favor de la alternativa con un 95 % de conanza, concluyendo con ese nivel de conanza que se trata de una nueva especie. Nos queda, sin embargo, la duda de saber qu hubiera pasado de tomar un nivel de signicacin ms exigente; por ejemplo, = 0.01.
Prof. Dr. Antonio Jos Sez Castillo

157

Dpto de Estadstica e I.O. Universidad de Jan

Tipo de prueba Hiptesis Estadstico Rechazo p-valor Supuestos

Bilateral A la derecha H0 : = 0 H0 : = 0 H1 : = 0 H1 : > 0 x 0 t = sn1 / n t < t;n1 |t| > t1/2;n1 t > t1;n1 P [Tn1 < t] 2P [Tn1 > |t|] P [Tn1 > t] Distribucin de probabilidad aproximadamente normal

A la izquierda H0 : = 0 H1 : < 0

Cuadro 8.5: Contraste para la media con muestras pequeas 2. Mediante el p-valor. Tenemos que

p = 2 P [Z > |2.363|] = 0.018.


Dado que es inferior al 5 %, podemos rechazar la hiptesis nula en favor de la alternativa con un 95 % de conanza, concluyendo con ese nivel de conanza que la razn media longitud/anchura de los hmeros del yacimiento es distinta de la del un 99 % de conanza (1 % de
Bichus localis,

pero no podramos llegar a hacer esa armacin con

signicacin)1 .

8.4.2. Con muestras pequeas (n < 30)


La principal diferencia es que, al no poder utilizar el Teorema Central del Lmite por tratarse de muestras pequeas, debemos aadir como hiptesis la normalidad de los datos. En ese caso, la distribucin en el muestreo del estadstico ya no es normal, sino t-student. El resumen aparece en el Cuadro 8.5. En ella, tp;v es el valor de una t de Student con v grados de libertad tal que P [Tv < tp;v ] = p. Vamos a aplicar el test en la siguiente situacin. El diario Sur publicaba una noticia el 5 de noviembre de 2008 donde se indicaba que
los niveles de concentracin de benceno, un tipo de hidrocarburo cancergeno que se encuentra como vapor a temperatura ambiente y es indisoluble en agua, no superan el mximo permitido por la Directiva Europea de Calidad del Aire, cinco microgramos por metro cbico. sta es la principal conclusin del estudio elaborado por un equipo de la Escuela Andaluza de Salud Pblica

en el Campo de Gibraltar. La

noticia slo indicaba que el estudio se basaba en una muestra, dando el valor medio muestral en varias zonas del Campo de Gibraltar, pero no el tamao ni la desviacin tpica muestral. Para realizar el ejemplo, nosotros vamos a imaginar unos datos correspondientes a una muestra de 20 hogares donde se midi la concentracin de benceno, arrojando una media muestral de 5.1 microgramos por metro cbico y una desviacin tpica muestral de 1.7. Estoy seguro de que, en ese caso, el peridico habra sacado grandes titulares sobre la contaminacin por benceno en los hogares del Campo de Gibraltar pero, podemos armar que, en efecto, se superan los lmites de la Directiva Europea de Calidad del Aire? En primer lugar, de nuevo no nos indican un nivel de signicacin con el que realizar la prueba. Escogemos, en principio, = 0.05. Tenemos que tener cuidado, porque el planteamiento de la prueba, tal y como se nos ha planteado, ser contrastar la hiptesis nula H0 : = 5 frente a H1 : > 5, en cuyo caso, un error tipo I se traduce en concluir que se viola la normativa cuando en realidad no lo hace, lo cul es grave porque genera alarma injusticada en la poblacin, mientras que el error tipo II, el que no controlamos con el , es concluir que
1 Debe quedar claro que, estadsticamente, lo que hemos demostrado es que la razn media es distinta de 9. Son los arquelogos los que deciden que eso implica una nueva especie.

158

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

se cumple la normativa cuando en realidad no lo hace, lo cual es gravsimo para la poblacin! Con esto quiero incidir en una cuestin importante respecto a lo que se nos pide que demostremos: se nos dice que nos planteemos si se superan los lmites de la normativa, en cuyo caso H1 debe ser > 5, pero en realidad, deberamos plantearnos la pregunta de si podemos estar seguros de que se est por debajo de los lmites mximos permitidos, es decir, deberamos probar H1 : < 5. Centrndonos exclusivamente en lo que se nos pide en el enunciado, tenemos que H1 : > 5 determina que se trata de una prueba unilateral a la derecha. El estadstico de contraste es

t=

5.1 5 = 0.263. 1.7/ 20

1. Si queremos concluir con la regin de rechazo, sta est formada por los valores t > t0.95;19 = 1.729, luego, dado que 0.263 < 1.729, no podemos armar con un 95 % de conanza que se est incumpliendo la normativa. 2. El p-valor es an ms informativo. Su valor es p = P [T19 > 0.263] = 0.398, por lo que tendramos que llegar hasta casi un 40 % de signicacin para rechazar la hiptesis nula en favor de la alternativa armando que se incumple la normativa. Por lo tanto, tal y como est planteado el problema, no podemos armar que se est incumpliendo la normativa (con un 5 % de signicacin), por ms que un valor muestral de la media, 5.1, parezca indicar que s. Lo que yo recomendara a los responsables del cumplimiento la normativa es que aumentaran el tamao de la muestra, ya que, por ejemplo, si esos mismos datos correspondieran a 1000 hogares en vez de a 20, s se podra armar con un 95 % de conanza que se incumple la normativa.

8.5. Contraste para la diferencia de medias de poblaciones independientes


2 2 Sean dos muestras, x1 , ..., xn1 e y1 , ..., yn2 , de v.a. independientes con medias 1 y 2 y varianzas 1 y 2 .

Sean x , y , s1 n1

y s2 n1

medias y varianzas muestrales.

8.5.1. Con muestras grandes (n1 , n2 30)


El resumen del procedimiento para el contraste aparece en el Cuadro 8.6. Vamos a considerar un ejemplo donde aplicar el contraste. Imaginemos que un ingeniero inventa un nuevo mtodo de produccin con el que cree que pueden reducirse los tiempos de produccin. Para comprobarlo, produce 50 unidades con el nuevo proceso y 30 con el antiguo, contabilizando el tiempo (en segundos) que se tarda en producir cada unidad. En el Cuadro 8.7 aparece un resumen de los resultados. Proporcionan estas muestras pruebas sucientes para concluir que el promedio de tiempo de produccin disminuye con el nuevo proceso? Prubese con = 0.05. Llamemos 1 al tiempo medio de produccin bajo el nuevo proceso y 2 al tiempo medio de produccin bajo el antiguo proceso. Nos piden que contrastemos H0 : 1 = 2 frente a H1 : 1 < 2 o, lo que es lo mismo,

H1 : 1 2 < 0: se trata, por tanto, de un test unilateral a la izquierda.


Prof. Dr. Antonio Jos Sez Castillo

159

Dpto de Estadstica e I.O. Universidad de Jan

Tipo de prueba Hiptesis Estadstico de contraste Regin de rechazo p-valor Supuestos

Unilateral a la izquierda H0 : 1 2 = D0 H1 : 1 2 < D0

Bilateral

H0 : 1 2 = D0 H1 : 1 2 = D0 z=
( x y )D0

Unilateral a la derecha H0 : 1 2 = D0 H1 : 1 2 > D0


2

( s1 n1 )
n1

(s2 n1 )
n2

z < z

|z | > z1/2

z > z1

P [Z < z ] 2P [Z > |z |] P [Z > z ] n1 , n2 30. Muestreo independiente y aleatorio

Cuadro 8.6: Contraste para la diferencia de medias con muestras grandes Proceso nuevo n1 = 50 y 1 = 1255 s1 = 215 Proceso antiguo n2 = 30 y 2 = 1330 s2 = 238

Cuadro 8.7: Datos del ejemplo del nuevo proceso de produccin El estadstico es

z=

1255 1330
2152 50

= 1.41.

2382 30

Para tomar la decisin podemos obtener la regin crtica o el p-valor: 1. La regin de rechazo es z < z0.05 = 1.65. Dado que z = 1.41 no cae en esta regin, no podemos rechazar la hiptesis nula en favor de la alternativa con = 0.05, es decir, no tenemos un 95 % de conanza en que el nuevo proceso haya disminuido el tiempo medio de produccin. No obstante, esta respuesta deja abierta la pregunta, si no un 95 % de conanza, cunta?. 2. Dado que el p-valor es p = P [Z < 1.41] = 0.079 > 0.05, no podemos rechazar la hiptesis nula en favor de la alternativa con el nivel de signicacin = 0.05. Hay que decir que no hemos podido probar lo que se sospechaba, que el nuevo proceso reduca el tiempo medio de produccin, pero los datos apuntan en esta direccin. Desde el punto de vista estadstico, deberamos recomendar al ingeniero que aumente el tamao de las muestras porque es posible que en ese caso s pueda probar esa hiptesis.

8.5.2. Con muestras pequeas (n1 < 30 o n2 < 30) y varianzas iguales
El resumen aparece en el Cuadro 8.8. A propsito de la hiptesis de la igualdad de las varianzas, sta debe basarse en razones no estadsticas. Lo habitual es que se suponga que son iguales porque el experto que est realizando el contraste tiene razones experimentales para hacerlo, razones ajenas a la estadstica. Vamos a considerar como ejemplo el de un ingeniero que desea comparar dos equipos de trabajo para analizar si se comportan de forma homognea. Para ello realiza una prueba de destreza entre los trabajadores de ambos equipos: 13 del equipo 1 y 15 del equipo 2, cuyas puntuaciones aparecen en el Cuadro 8.9. Hay indicios sucientes de que existan diferencias entre las puntuaciones medias de los dos equipos? ( = 0.05).

160

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Tipo Hiptesis Estadstico de contraste Regin de Rechazo p-valor Supuestos

A la izquierda H0 : 1 2 = D0 H1 : 1 2 < D0

t=

( xy )D0 s2 p
1 n1 1 +n 2

Bilateral A la derecha H0 : 1 2 = D0 H0 : 1 2 = D0 H1 : 1 2 = D0 H1 : 1 2 > D0 2 2 1 (n1 1)(sn1 ) +(n2 1)(s2 n1 ) , s2 = p n1 +n2 2

t < t;n1 +n2 2

|t| > t1/2;n1 +n2 2

t > t1;n1 +n2 2

P [Tn1 +n2 2 < t] 2P [Tn1 +n2 2 > |t|] P [Tn1 +n2 2 > t] Muestreo independiente y aleatorio. Variables normales. 2 2 1 = 2

Cuadro 8.8: Contraste para la igualdad de medias con muestras pequeas Equipo 1 Equipo 2 59 71 73 63 74 40 61 34 92 38 60 48 84 60 54 75 73 47 47 41 102 44 75 86 33 53 68 39

Cuadro 8.9: Datos de las puntuaciones de los dos equipos de trabajo Nos piden que contrastemos la igualdad de las medias (H0 : 1 = 2 ), frente a la alternativa H1 : 1 = 2 , por lo que se trata de un contraste bilateral. En primer lugar, obtenemos los estadsticos muestrales de ambos equipos. Las medias son, respectivamente, 68.2 y 53.8, mientras que las desviaciones tpicas muestrales son 18.6 y 15.8. Con estos valores podemos calcular s2 p:

s2 p =

12 18.6 + 14 15.8 = 294.09. 13 + 15 2

Con este valor ya podemos calcular el estadstico de contraste:

t=

68.2 53.8
1 294.09( 13 + 1 15 )

= 2.22.

Aunque no hemos dicho nada al respecto, vamos a suponer que las varianzas son iguales. Esto no parece descabellado si admitimos que las condiciones en que trabajan ambos equipos determinan que no debe haber diferencias en la variabilidad de sus puntuaciones. Esta hiptesis debe ser admitida y propuesta por el experto (en este caso, el ingeniero) que maneja los datos. Para obtener la conclusin, como siempre, vamos a obtener la regin de rechazo y valorar el p-valor: 1. La regin de rechazo es |t| > t0.975;26 = 2.055. Dado que t = 2.22 cae en esa regin, podemos rechazar la igualdad de las medias con un 95 % de conanza. 2. Dado que el p-valor, p = 2P [T26 > 2.22] = 0.035 es inferior a 0.05, podemos rechazar la igualdad de las medias con un 95 % de conanza. De hecho, podramos llegar a un 96.5 %.

8.5.3. Con muestras pequeas, varianzas distintas y mismo tamao muestral


El resumen del contraste se recoge en el Cuadro 8.10

8.5.4. Con muestras pequeas, varianzas distintas y distinto tamao muestral


El resumen aparece en el Cuadro 8.11, donde v se redondea al entero ms cercano.
Prof. Dr. Antonio Jos Sez Castillo

161

Dpto de Estadstica e I.O. Universidad de Jan

Tipo de prueba Hiptesis Estadstico de contraste Regin de rechazo p-valor Supuestos

Unilateral a la izquierda H0 : 1 2 = D0 H1 : 1 2 < D0

Bilateral

H0 : 1 2 = D0 H1 : 1 2 = D0 t=
1 n

Unilateral a la derecha H0 : 1 2 = D0 H1 : 1 2 > D0


2

( xy )D0
2 (s1 n1 ) +(sn1 ) 2

t < t;2(n1)

|t| > t1/2;2(n1)

t > t1;2(n1)

P [T;2(n1) < t] 2P [T;2(n1) > |t|] P [T;2(n1) > t] Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales Las muestras tienen el mismo tamao, n1 = n2 = n

Cuadro 8.10: Contraste para la igualdad de medias con muestras pequeas varianzas distintas y mismo tamao muestral Tipo de prueba Hiptesis Estadstico de contraste Regin de rechazo p-valor Supuestos Unilateral a la izquierda H0 : 1 2 = D0 H1 : 1 2 < D0 Unilateral a la derecha H0 : 1 2 = D0 H0 : 1 2 = D0 H1 : 1 2 = D0 H1 : 1 2 > D0 2 2 2 s2 (s1 ( n1 ) n1 ) + Bilateral
n1 n2 2

t=

( xy )D0

(s1 n1 )
n1

( s2 ) + n1
n2

,v =

2 2 s1 n1 n1

(s2 n1 )
n2

2 2

n1 1

n2 1

t < t;v

|t| > t1/2;v

t > t1;v

P [Tv < t] 2P [Tv > |t|] P [Tv > t] Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales

Cuadro 8.11: Contraste para la igualdad de medias con muestras pequeas, varianzas distintas y distinto tamao muestral

8.6. Contraste para la diferencia de medias de poblaciones apareadas


Tenemos una misma poblacin en la que seleccionamos una muestra de n individuos. En cada uno de ellos observamos dos variables, X e Y . Estas variables no son independientes: las muestras estn

apareadas,

(x1 , y1 ) , ..., (xn , yn ). Para comparar ambas variables se considera una nueva variable, D = X Y . Notamos 2 a la media muestral de x1 y1 , ..., xn yn y sd a su varianza muestral. d n1

8.6.1. Con muestras grandes (n 30)


El resumen aparece en el Cuadro 8.12.

8.6.2. Con muestras pequeas (n < 30)


El resumen aparece en el Cuadro 8.13. Veamos un ejemplo. Una empresa farmacetica est investigando un medicamento que reduce la presencia en sangre de un com-

162

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Tipo Hiptesis Estadstico Rechazo p-valor Supuestos

A la izquierda H0 : 1 2 = D0 H1 : 1 2 < D0

Bilateral H0 : 1 2 = D0 H1 : 1 2 = D0 0 z = sddD / n
n1

A la derecha H0 : 1 2 = D0 H1 : 1 2 > D0

z < z P [Z < z ]

|z | > z1/2 2P [Z > |z |] n 30

z > z1 P [Z > z ]

Cuadro 8.12: Contraste para la igualdad de medias en poblaciones apareadas con muestra grande Tipo Hiptesis Estadstico Rechazo p-valor Supuestos A la izquierda H0 : 1 2 = D0 H1 : 1 2 < D0 Bilateral H0 : 1 2 = D0 H1 : 1 2 = D0 0 t = sddD / n
n1

A la derecha H0 : 1 2 = D0 H1 : 1 2 > D0

t < t;n1 |t| > t1/2;n1 t > t1;n1 P [Tn1 < t] 2P [Tn1 > |t|] P [Tn1 > t] D = X Y , es aproximadamente normal

Cuadro 8.13: Contraste para la igualdad de medias en poblaciones apareadas y muestra pequea ponente no deseado2 . Antes de sacarlo al mercado necesita un estudio de casos-controles que demuestre su ecacia. El estudio de casos controles consiste en encontrar un nmero determinado de parejas de personas con caractersticas siolgicas parecidas; en este caso, la ms importante de estas caractersticas sera que las parejas caso-control tengan al inicio del estudio el mismo o muy parecido nivel de presencia en sangre del componente no deseado: en cada una de esas parejas, una acta como caso, tomando la medicacin en estudio, y la otra como control, tomando un producto inocuo llamado placebo. Ninguna de las dos personas, ni siquiera el mdico o el farmacetico que controla el proceso, sabe quin es el caso y quin el control. Slo quien recopila y analiza los resultados, sin contacto alguno con el paciente, tiene esos datos. Esta metodologa se conoce como
doble ciego

y evita que el conocimiento de que se est administrando la medicina provoque un efecto

en s mismo. Los datos aparecen en el Cuadro 8.14. Un anlisis costo-benecio de la empresa farmacetica muestra que ser benecioso sacar al mercado el producto si la disminucin media del componente perjudicial es de al menos 2 puntos. Realicemos una nueva prueba para ayudar a la compaa a tomar la decisin correcta. Los datos son la disminucin de presencia en sangre del componente no deseado despus de tomar el medicamento o el placebo. Empecemos por la notacin. Vamos a llamar muestra 1 a la del medicamento y muestra 2 a la del placebo. Con esta notacin, nos piden que contrastemos H0 : 1 2 = 2 frente a H1 : 1 > 2 +2, o equivalentemente,

H1 : 1 2 > 2. En ese caso, el estadstico de contraste es t= 3.21 2 = 3.375 1.134/ 10

y el p-valor asociado es p = P [T9 > 3.375] = 0.004. Vemos que la signicacin determina un p-valor inferior, por ejemplo, a = 0.05, por lo que podemos concluir con ese nivel de signicacin que la mejora es superior, en media, a 2 puntos y, por tanto, el medicamento es rentable.
2 Podra

ser colesterol, cido rico, ...

Prof. Dr. Antonio Jos Sez Castillo

163

Dpto de Estadstica e I.O. Universidad de Jan

Pareja 1 2 3 4 5 6 7 8 9 10

Medicamento 32.10 36.10 32.30 29.50 34.30 31.90 33.40 34.60 35.20 32.70

Placebo 27.10 31.50 30.40 26.90 29.90 28.70 30.20 31.80 33.60 29.90

Diferencia 5.00 4.60 1.90 2.60 4.40 3.20 3.20 2.80 1.60 2.80

Cuadro 8.14: Datos del ejemplo de la compaa farmacetica Tipo de prueba Hiptesis Estadstico de contraste p-valor Regin de rechazo Supuestos Unilateral a la izquierda H0 : p = p0 H1 : p < p0 Bilateral Unilateral a la derecha H0 : p = p0 H1 : p > p0

H0 : p = p 0 H1 : p = p 0 z=
p p0 p0 (1p0 ) n

P [Z < z ] z < z

2P [Z > |z |] |z | > z1/2 np0 , n (1 p0 ) 10

P [Z > z ] z > z1

Cuadro 8.15: Contraste para una proporcin

8.7. Contraste para la proporcin en una poblacin


En esta ocasin tenemos una poblacin donde una proporcin dada presenta una determinada caracterstica, que denominamos
xito,

y cuya probabilidad es p. Deseamos hacer inferencia sobre esta proporcin. Para

ello seleccionamos una muestra aleatoria simple de tamao n y contabilizamos la proporcin de xitos en la muestra, p . El resumen del contraste aparece en el Cuadro 8.15. Vamos a considerar un primer ejempo relativo a la relacin entre el gnero y los accidentes de trco. Se estima que el 60 % de los conductores son varones. Por otra parte, un estudio realizado sobre los datos de 120 accidentes de trco muestra que en ellos el 70 % de los accidentes fueron provocados por un varn conductor. Podemos, con esos datos, conrmar que los hombres son ms peligrosos al volante? Si notamos por p a la proporcin de varones causantes de accidentes de trco, la pregunta se responder armativamente si logramos contrastar la hiptesis H1 : p > 0.6. El valor del estadstico es

z=

0.7 0.6
0.60.4 120

= 2.236.

Por su parte, la regin de rechazo sera |z | > 1.96 para un = 0.05, luego en efecto, podemos concluir que la proporcin de varones causantes de accidentes es superior a la proporcin de varones conductores en general. El p-valor, de hecho, es 0.013. Vamos a analizar con mucho detalle otro ejemplo sobre igualdad de proporciones. De todas formas, lo que quiero enfatizaros con el ejemplo no est relacionado en s con el hecho de que se reera a una proporcin.
Una marca de nueces arma que, como mximo, el 6 % de las nueces estn vacas. Se eligieron 300 nueces

164

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

al azar y se detectaron 21 vacas. Con un nivel de signicacin del 5 %, se puede aceptar la armacin de la marca?

En primer lugar, pedir un nivel de signicacin del 5 % es equivalente a pedir un nivel de conanza del 95 % ... sobre qu? Nos preguntan si se puede aceptar la armacin de la marca

signicacin del 5 %, es decir, con un nivel de conanza del 95 %. Eso implica que queremos
probar con amplias garantas que la marca no miente, y la nica forma de hacerlo es poner su hiptesis (p < 0.06) en la hiptesis alternativa. Por tanto, tendramos H0 : p 0.06 frente a lo que arma la marca, H1 : p < 0.06.

con un nivel de

Ahora bien, jmonos que la proporcin muestral de nueces vacas es p = 21/300 = 0.07. Es decir, nos piden que veamos si una proporcin muestral de 0.07 da suciente conanza (95 % para ser exactos) de que p < 0.06... No da ninguna! Ni siquiera hace falta hacer el contraste con nmeros. Jams podremos rechazar la hiptesis nula en favor de la hiptesis de la marca, es decir, en absoluto podemos armar lo que dice la marca, p < 0.06, con un 95 % de conanza. De todas formas, por si hay algn incrdulo, 0.070.06 el estadstico de contraste sera z = = 0.729. La regin de rechazo, dado que es un test a la 0.060.94 izquierda, sera z < z0.05 = 1.645. Como vemos, el valor del estadstico de contraste est en la cola de la derecha y la regin de rechazo en la de la izquierda. Por eso deca antes que es imposible rechazar la hiptesis nula en favor de la alternativa, independientemente del nivel de conanza requerido. Hasta ahora hemos demostrado que la marca no puede armar que la proporcin de nueces vacas es inferior al 6 % con un 95 % de conanza. De hecho, no lo puede armar con ningn nivel de conanza, porque los datos tomados proporcionan una estimacin de 0.07 que va justo en contra de su hiptesis. Pero vamos a suponer que nos ponemos gallitos y decimos:  es
la proporcin de nueces vacas superior al 6 % . ms, podra demostrar que hay eviden300

cias empricas que proporcionan un 95 % de conanza en que la compaa miente, siendo en realidad

Ahora somos nosotros los que armamos otra cosa:

armamos p > 0.06 con un 95 % de conanza, lo que equivale a decir que hemos planteado un nuevo contraste de hiptesis en el que H0 : p 0.06 frente a H1 : p > 0.06. Las cuentas estn casi hechas, ya que el valor del estadstico de contraste es el mismo, z = 0.729, mientras que la regin de rechazo es

z > z0.95 = 1.645. Ahora el valor del estadstico, es decir, la informacin que nos dan los datos (21 de
300 nueces vacas), s es coherente con la hiptesis alternativa, de ah que est en la misma cola que la regin de rechazo... pero no cae en ella!. Por lo tanto, no tenemos sucientes evidencias en los datos para rechazar la hiptesis nula en favor de la alternativa con un 95 % de conanza, as que no podemos demostrar con ese nivel de conanza que la marca miente. En resumen, aunque parezca paradjico, no tenemos sucientes evidencias en los datos para armar que la compaa dice la verdad, pero tampoco para demostrar que miente. La diferencia entre ambas hiptesis radica en que no tenemos ninguna conanza en la armacin de la compaa, y s alguna conanza en la armacin contraria. Cunta conanza tenemos en la armacin contraria p > 0.06? Ese valor viene dado por el p-valor, P [Z > 0.729] = 0.233, que determina que el nivel de conanza en

p > 0.06 es (1 0.233) 100 % = 72.9 %.


Finalmente, alguien podra pensar,  y
entonces qu hacemos? .

Desde el punto de vista estadstico

lo nico que podemos recomendar es aumentar el tamao de la muestra, es decir, romper ms de 300 nueces para tomar la decisin. Aparentemente, la informacin recogida con 300 nueces parece indicar
Prof. Dr. Antonio Jos Sez Castillo

165

Dpto de Estadstica e I.O. Universidad de Jan

Tipo de prueba Hiptesis Estadstico de contraste Regin de rechazo p-valor Supuestos

Unilateral a la izquierda H0 : p1 p2 = D0 H1 : p1 p2 < D0

Bilateral

H0 : p1 p2 = D0 H1 : p1 p2 = D0
p 1 p 2 D0 p (1p )
1 n1 1 +n 2

Unilateral a la derecha H0 : p1 p2 = D0 H1 : p1 p2 > D0

z= z < z P [Z < z ]

, p =

n1 p 1 +n2 p 2 n1 +n2

|z | > z1/2 2P [Z > |z |] Al menos 10 xitos y 10 fracasos

z > z1 P [Z > z ]

Cuadro 8.16: Contraste para la diferencia de proporciones que la marca miente. De hecho, si la proporcin muestral de 0.07 proviniera de una muestra de 1600 nueces en vez de 300, s hubiramos podido demostrar con un 95 % de conanza que la marca miente.

8.8. Contraste para la diferencia de proporciones


En esta ocasin partimos de dos poblaciones dentro de las cuales hay proporciones p1 y p2 de individuos con la caracterstica xito. Pretendemos comparar estas proporciones mediante la toma de muestras de tamao n1 y n2 . Notaremos p 1 y p 2 las proporciones de xitos en las muestras. Supondremos de nuevo que las muestras son grandes para poder aplicar el Teorema Central del Lmite a la hora de trabajar con el estadstico de contraste. El resumen del contraste aparece en el Cuadro 8.16. Vamos a considerar un estudio3 con datos reales, aunque algo anticuados, referente a la relacin entre los accidentes de trco y el consumo de alcohol, realizado por la DGT en la Comunidad Autnoma de Navarra en 1991. Se realizaron pruebas de alcoholemia en 274 conductores implicados en accidentes de trco con heridos, de los cuales, 88 dieron positivo. Por su parte, la Guardia Civil de Trco realiz en la misma zona 1044 controles de alcoholemia al azar, de los cuales 15 dieron positivo. Lo que la DGT quiere demostrar es que el alcohol es causante de los accidentes de trco. Sin embargo, desde el punto de vista estadstico slo podemos contrastar la hiptesis de que la proporcin de positivos en la prueba de alcoholemia es mayor en el grupo de conductores implicados en accidentes de trco. Notemos por p1 y p2 a las verdaderas proporciones en el grupo de implicados en accidentes y en el grupo de conductores no implicados. Se nos pide contrastar H0 : p1 = p2 frente a H1 : p1 > p2 . El estadstico de contraste es

z=
88+15 274+1044 (1

88 274

15 1044

= 904.29. +
1 1044 )

88+15 1 274+1044 )( 274

Est claro que el valor del estadstico es bestial, sin necesidad de valorar la regin de rechazo, que sera

z > z0.95 = 1.645, luego podemos rechazar la hiptesis nula en favor de la alternativa con, al menos, el 95 %
de conanza. El p-valor, p = P [Z > 904.29] = 0 indica que la conanza es, de hecho, bastante mayor. No puedo resistirme a concluir el ejemplo sin recordar que lo que la DGT realmente querr dar a entender es que el alcohol es el causante de los accidentes de trco, pero que eso no puede ser demostrado con el contraste.
3 http://www.dgt.es/educacionvial/imagenes/educacionvial/recursos/dgt/EduVial/50/40/index.htm

166

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Tipo de prueba Hiptesis Estadstico de contraste Rechazo p-valor Supuestos

Unilateral a la izquierda 2 H0 : 2 = 0 2 H1 : 2 < 0

Bilateral
2 H0 : 2 = 0 2 H1 : 2 = 0

Unilateral a la derecha 2 H0 : 2 = 0 2 H1 : 2 > 0

2 = 2 < 2 ;n1

(n1)s2 n1 2 0

2 < 2 /2;n1 o 2 > 2 1;n1 2 > 2 1/2;n1 2 2 2 2 2 2 2 P [n1 < ] 2min(P [n1 < ], P [n1 > ]) P [n1 > 2 ] Distribucin de probabilidad aproximadamente normal
Cuadro 8.17: Contraste para la varianza

8.9. Contraste para la varianza de una poblacin


De nuevo consideremos que tenemos una variable aleatoria X con varianza 2 y que tomamos una muestra de
2 tamao n, cuya varianza muestral notamos por s2 n1 . Vamos a tratar de hacer inferencia sobre . El problema

es que ahora no podemos aplicar el Teorema Central del Lmite, por lo que slo utilizar los contrastes cuando
2 2 2 la variable X es normal. 2 p;v es el valor de una de v grados de libertad tal que P < p;v = p.

Las empresa Sidel arma que su mquina de llenado HEMA posee una desviacin tpica en el llenado de contenedores de 500ml de producto homogneo inferior a 0.8 gr.4 Vamos a suponer que el supervisor de control de calidad quiere realizar una comprobacin al respecto. Recopila para ello una muestra del llenado de 50 contenedores, obteniendo una varianza muestral de 0.6 Esta informacin proporciona pruebas sucientes de que la desviacin tpica de su proceso de llenado es realmente inferior a 0.8gr.? Planteamos, en primer lugar, las hiptesis del contraste. Se nos pide que contrastemos H0 : = 0.8 o, equivalentemente, H0 : 2 = 0.64 frente a la alternativa H1 : 2 < 0.64. Se trata, por tanto, de un test unilateral a la izquierda. El estadstico de contraste es

2 =

49 0.6 = 45.938. 0.64

Ahora concluimos a travs de la regin de rechazo (elegimos = 0.05) y del p-valor:


2 2 1. Dado que 2 0.05;9 = 33.930, y = 45.938 > 0.05;9 = 33.930, no podemos concluir con al menos un

95 % de conanza que, en efecto, la desviacin tpica de la cantidad de llenado es inferior a 0.8gr. 2. Dado que el p-valor es p = P [2 49 < 45.938] = 0.4, bastante alto, tenemos muy serias dudas acerca de que, en efecto, la desviacin tpica sea realmente inferior a 0.8gr.

Ojo: antes de que la empresa Sidel se enfade con nosotros, no olvidemos que los datos son imaginarios: slo
son reales las especicaciones tcnicas de < 0.8gr.

8.10. Contraste para el cociente de varianzas


2 Tenemos dos muestras, x1 , ..., xn1 y y1 , ..., yn2 , de dos variables aleatorias independientes con varianzas 1 y 2 2 2 2 2 . Notaremos (s1 n1 ) y (sn1 ) a las varianzas muestrales. De nuevo slo podremos considerar el contraste

4 http://www.sidel.com/es/products/equipment/the-art-of-lling/hema-gw
Prof. Dr. Antonio Jos Sez Castillo

167

Dpto de Estadstica e I.O. Universidad de Jan

Tipo Hiptesis Estadstico Rechazo p-valor Supuestos

Unilateral a la izquierda

Bilateral

Unilateral a la derecha

H0 : H1 :

2 1 2 2 2 1 2 2

=1 <1

H0 : H1 : f=

2 1 2 = 1 2 2 1 2 = 1 2 2 (s1 n1 )

H0 : H1 :

2 1 2 2 2 1 2 2

=1 >1

f < f/2;n1 1,n2 1 o f > f1;n1 1,n2 1 f > f1/2;n1 1,n2 1 P [Fn1 1,n2 1 < f ] 2min(P [Fn1 1,n2 1 < f ], P [Fn1 1,n2 1 > f ]) P [Fn1 1,n2 1 > f ] Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales f < f;n1 1,n2 1
Cuadro 8.18: Contraste para el cociente de varianzas

(s2 n1 )

si ambas variables son normales. El resumen del contraste aparece en el Cuadro 8.18. En l, fp;v1 ,v2 es el valor de una F de v1 y v2 grados de libertad5 tal que P [F < fp;v1 ,v2 ] = p. Para practicar sobre el contraste, consideremos que se han realizado 20 mediciones de la dureza en la escala Vickers de acero con alto contenido en cromo y otras 20 mediciones independientes de la dureza de una soldadura producida sobre ese metal. Las desviaciones estndar de las muestras de dureza del metal y de dureza de la soldadura sobre ste fue de 12.06HV y 11.41HV , respectivamente. Podemos suponer que las durezas corresponden a variables normales e independientes. Podemos concluir que la dureza del metal bsico es ms variable que la dureza medida en la soldadura? Vamos a llamar a la dureza sobre el acero, X , y a la dureza sobre la soldadura, Y . Se nos pide que contrastemos
2 2 2 2 H0 : X = Y frente a la alternativa H1 : X > Y o, equivalentemente, H1 : una prueba unilateral a la derecha. El estadstico de contraste es
2 X 2 Y

> 1. Se trata, por tanto, de

f=

12.062 = 1.1172. 11.412

Vamos a tomar un nivel de signicacin de = 0.05. La regin crtica viene delimitada por el valor f0.95;19,19 =

2.168. Dado que f = 1.1172 < f0.95;19,19 = 2.168, no podemos concluir al nivel de signicacin = 0.05 que
la dureza del metal bsico sea ms variable que la dureza medida en la soldadura. El p-valor, por su parte, es p = P [F19,19 > 1.1172] = 0.4058.

8.11. Contraste para las medias de ms de dos poblaciones independientes. ANOVA


En algunas de las secciones anteriores hemos conseguido contrastes de hiptesis para valorar si existen diferencias signicativas entre dos grupos independientes. Lo que nos planteamos aqu es extender estos contrastes para poder comparar no slo dos sino tres o ms grupos. Se da por hecho, por tanto, que existe un que separa los valores de la variable en varios grupos (dos o ms). Concretamente, supongamos m muestras independientes unas de otras, cada una de ellas con un tamao

factor

ni 6 . Supongamos tambin que cada una de las muestras provienen de poblaciones con distribucin normal
5 De 6 No

cara al uso de las tablas hay una propiedad bastante til: fp;v1 ,v2 = 1/f1p;v2 ,v1 es necesario, aunque s deseable, que todas las muestras tengan el mismo tamao.
Prof. Dr. Antonio Jos Sez Castillo

168

Apuntes de Estadstica para Ingenieros

de medias i y varianzas todas iguales, 2 . Lo que planteamos es contrastar

H0 : 1 = ... = m
frente a

H1 : no todas las medias son iguales.


Obsrvese que la alternativa no dice ellas sean diferentes.
i Denotemos por xi i y s2 1 , ..., xni a la muestra isima, y x i,ni 1 a su media y su varianza muestral, con

que todas las medias sean distintas

sino tan slo que al menos dos de

i = 1, ..., m.
Este contraste se denomina ANOVA como acrnimo de las poblaciones de las que proceden las muestras. Supongamos que
juntamos Analysis of Variance,

ya que, como vamos a ver, se

basa en analizar a qu se debe la variabilidad total que presentan los datos, si al azar o a las diferencias entre todas las muestras, obteniendo una nica muestra global de tamao
m

N=
i=1

ni ,

y calculamos su media,

x =
Ahora, vamos a preguntarnos por las

m i=1

ni j =1

xi j

fuentes de variacin de los datos :

1. En primer lugar, los datos varan globalmente respecto a la media total. Una medida de esta variacin es la

suma de los cuadrados totales,

ni

SCT =
i=1 j =1

xi j x

2. Por otro lado, puede haber diferencias entre las medias de cada grupo y la media total. Podemos medir estas diferencias con la

suma de los cuadrados entre-grupos:


m

SCE =
i=1

ni ( xi x ) .
muestrales

Si la hiptesis nula fuera cierta, slo habra pequeas diferencias muestra, en cuyo caso, la
SCE

entre las medias de cada

sera pequea. Si fuera falsa, habra muchas diferencias entre las medias
SCE

y con respecto a la media total, en cuyo caso

sera grande.

3. Por ltimo, debido a la variabilidad inherente a toda muestra, los datos de cada muestra van a variar respecto a su media particular. Como medida de esta variacin consideramos la

cuadrados dentro de los grupos o intra-grupos:


m ni

suma de los

SCD =
i=1 j =1

xi i j x

=
i=1

(ni 1) s2 i,ni 1 .

Prof. Dr. Antonio Jos Sez Castillo

169

Dpto de Estadstica e I.O. Universidad de Jan

La clave en estas consideraciones lo constituye la siguiente igualdad, conocida como

de la varianza:

teorema de particin

SCT = SCE + SCD.


Teniendo en cuenta este resultado, el ANOVA consiste en ver si de
SCD. SCE

es signicativamente grande respecto

Para ello basta considerar que, suponiendo que la hiptesis nula es cierta: sigue una 2 con N 1 grados de libertad. sigue una 2 con m 1 grados de libertad. sigue una 2 con N m grados de libertad.

SCT 2 SCE 2 SCD 2

As, el estadstico de contraste del test es

F =

SCE m 1 SCD N m

que, suponiendo que la hiptesis nula es cierta, sigue una F de Snedecor con m 1 y N m grados de libertad. Por lo tanto, el test podemos resumirlo de la siguiente forma: 1. Calculamos
m i=1 ni j =1

x =
y con ella
m

xi j

N
m 2

SCE =
i=1

ni ( xi x ) =
i=1

ni x 2 2 . i Nx

2. Calculamos

ni

SCD =
i=1 j =1

xi i j x

=
i=1

(ni 1) s2 i,ni 1 .

3. Calculamos el estadstico del test:

F =
4. Tomamos la decisin:
a)

SCE m1 SCD N m

Si F Fm1,N m;1 , no rechazamos la hiptesis nula en favor de la alternativa con un nivel de signicacin . Si F > Fm1,N m;1 , rechazamos la hiptesis nula en favor de la alternativa con un nivel de signicacin .

b)

Ejemplo. En un experimento se prepararon ujos de soldadura con 4 composiciones qumicas diferentes.


Se hicieron 5 soldaduras con cada composicin sobre la misma base de acero, midiendo la dureza en la escala de Brinell. El Cuadro 8.19 siguiente resume los resultados. Vamos a contrastar si existen diferencias signicativas entre las durezas, suponiendo que estas siguen distribuciones normales todas ellas con la misma varianza.

170

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Composicin A B C D

Media muestral 253.8 263.2 271.0 262.0

Desviacin tpica muestral 9.7570 5.4037 8.7178 7.4498

Cuadro 8.19: Datos del ejemplo de ANOVA

En primer lugar, observemos que los tamaos muestrales son iguales: n1 = ... = n4 = 5. Por otra parte, tenemos:

x =

5 253.8 + 5 263.2 + 5 271.0 + 5 262.0 = 262.5 20

SCE = 5 (253.8 262.5) + ... + 5 (262.0 262.5) = 743.4

SCD = (5 1) 9.75702 + ... + (5 1) 7.44982 = 1023.6.


Por tanto,
743.4 41 1023.6 204

F =

= 3.8734.

Por su parte, el valor de F3,16;0.95 es 3.2389, de manera que podemos armar que existen diferencias signicativas entre las durezas de los 4 compuestos, con un 95 % de conanza.

8.12. El problemas de las pruebas mltiples. Mtodo de Bonferroni


Qu ocurre si en un estudio tenemos que realizar ms de una prueba de hiptesis? Cada prueba lleva consigo un determinado nivel de conanza y, por tanto, una probabilidad de equivocarnos rechazando una hiptesis nula que es cierta (error tipo I). Cuantas ms pruebas hagamos, ms probabilidades tenemos de cometer un error en la decisin rechazando una hiptesis nula cierta o, dicho de otra forma, menor conanza tendremos. El mtodo de Bonferroni es uno de los mtodos ms simples para tratar de corregir este problema asociado a las pruebas mltiples. Se trata de corregir los p-valores de todas las pruebas que se estn realizando simultneamente, multiplicndolos por el n total de pruebas, antes de tomar la decisin.

Ejemplo. En Biologa Molecular se estudia la relacin que puede tener el nivel de expresin de un gen
con la posibilidad de padecer un tipo de cncer. Un investigador consigue analizar el nivel de expresin de 10 genes en una muestra de pacientes y realiza 10 contrastes de hiptesis donde la hiptesis alternativa de cada uno de ellos dice que un gen est relacionado con la posibilidad de padecer ese cncer. Los p-valores obtenidos son los siguientes:

(0.1, 0.01, 0.21, 0.06, 0.32, 0.24, 0.45, 0.7, 0.08, 0.0003)

Prof. Dr. Antonio Jos Sez Castillo

171

Dpto de Estadstica e I.O. Universidad de Jan

En principio, tendramos evidencias de que el 2 y el ltimo gen estn signicativamente relacionados con ese tipo de cncer. Sin embargo, debemos corregir el efecto de la realizacin de las 10 pruebas simultneas. Aplicando el mtodo de Bonferroni, debemos multiplicar por 10 los p-valores. En ese caso, el segundo gen ya no puede ser considerado estadsticamente signicativo para el riesgo de padecer el cncer (0.01

10 > 0.05); por el contrario, dado que 0.0003 10 < 0.05, el ltimo gen sigue siendo considerado
signicativamente relacionado con el cncer.

8.13. Resolucin del ejemplo del del dimetro de los cojinetes


Recordemos el planteamiento:
Un ingeniero industrial es responsable de la produccin de cojinetes de bolas y tiene dos mquinas distintas para ello. Le interesa que los cojinetes producidos tengan dimetros similares, independientemente de la mquina que los produce, pero tiene sospechas de que est produciendo algn problema de falta de calibracin entre ellas. Para analizar esta cuestin, extrae una muestra de 120 cojinetes que se fabricaron en la mquina A, y encuentra que la media del dimetro es de 5.068 mm y que su desviacin estndar es de 0.011 mm. Realiza el mismo experimento con la mquina B sobre 65 cojinetes y encuentra que la media y la desviacin estndar son, respectivamente, 5.072 mm y 0.007 mm. Puede el ingeniero concluir que los cojinetes producidos por las mquinas tienen dimetros medios signicativamente diferentes?

En este caso, afortunadamente tenemos un tamao muestral que va a permitir obviar la hiptesis de normalidad. Vemos que se plantea un supuesto que puede ser analizado a travs de la media, en concreto, comparando la media de ambas mquinas. Si llamamos X al dimetro de la mquina A e Y al dimetro de la mquina B, tenemos que contrastar H0 : X = Y frente a H1 : X = Y . El estadstico de contraste es

z=

5.068 5.072
0.0112 120

= 3.013.

0.0072 65

El p-valor asociado es 2 P [Z < 3.361] = 0.002, luego tenemos evidencias de que, en efecto, el dimetro medio de ambas mquinas es distinto.

172

Prof. Dr. Antonio Jos Sez Castillo

Captulo 9
Contrastes de hiptesis no paramtricas

Todos aprendemos de la experiencia, y la leccin en esta ocasin es que nunca se debe perder de vista la alternativa. Sherlock Holmes (A. C. Doyle), en Las Aventuras de Black Peter

Resumen. Continuando con los contraste de hiptesis, presentamos en este captulo nuevos contrastes que
permitirn decidir si un ajuste mediante una distribucin terica es vlido y valorar si existe relacin entre variables cualitativas.

Palabras clave: bondad de ajuste, test 2


Smirno, test 2 de independencia.

de bondad de ajuste, test de bondad de ajuste de Kolmogorov-

9.1. Introduccin
Todos los contrastes que hemos descrito en el captulo anterior se basan, directa o indirectamente (a travs del teorema central del lmite) en que los datos se ajustan a la distribucin normal, haciendo inferencia de una u otra forma sobre sus parmetros. En este captulo vamos a considerar contrastes que no necesitan de tal hiptesis, por lo que no se enuncian como contrastes sobre algn parmetro desconocido: de ah que formen parte de los llamados contrastes

no paramtricos o contrastes de hiptesis no paramtricas.

9.2. Contrastes de bondad de ajuste


Gracias a lo estudiado en el apartado correspondiente a la estimacin puntual de parmetros ahora somos capaces de ajustar una distribucin a unos datos mediante algn mtodo de estimacin (momentos, mxima verosimilitud, ...). Sin embargo, hasta ahora no disponemos de ninguna herramienta capaz de abierta esta cuestin, ya que slo pudimos valorar esta
bondad del ajuste juzgar

si ese

ajuste es bueno o malo, o cmo de bueno es. De hecho, en la relacin de problemas correspondiente dejamos mediante representaciones grcas, lo que slo nos dio una visin parcial del problema, que puede ser muy subjetiva. Los dos contrastes de hiptesis que vamos a describir ahora van a permitir contrastar como hiptesis nula

H0 : la distribucin se ajusta adecuadamente a los datos,


173

Dpto de Estadstica e I.O. Universidad de Jan

Resultado 1 2 3 4 5 6 Total

Observados 105 107 89 103 111 85 600

Esperados 100 100 100 100 100 100 600

Cuadro 9.1: Frecuencias observadas y esperadas en 600 lanzamientos del dado. frente a la alternativa

H1 : la distribucin no se ajusta adecuadamente a los datos,


facilitando adems un p-valor que permitir, adems, comparar la bondad de distintos ajustes. Decir, por ltimo, que aunque estos dos contrastes de hiptesis pueden aplicarse a cualquier tipo de variables estn especialmente indicados para variables de tipo discreto o cualitativo en el caso del primero de ellos (test

2 de bondad de ajuste) y para variables de tipo continuo en el segundo (test de Kolmogorov-Smirnov).

9.2.1. Test 2 de bondad de ajuste


Ejemplo. Supongamos que un tahur del Missisipi quiere probar un dado para ver si es adecuado para
jugar honestamente con l. En ese caso, si notamos por pi a la probabilidad de que en el lanzamiento del dado resulte el valor i = 1, 2, ..., 6, el tahur quiere probar la hiptesis

H0 : p1 = ... = p6 =
frente a la alternativa de H1 que algn pi sea distinta de 1 6.

1 6

Para realizar la prueba, lanzar el dado 600 veces, anotando el nmero de veces que se da cada resultado. Estas cantidades se denominan
frecuencias observadas.

Por otra parte, si el dado fuera justo (hiptesis H0 ), en 600 lanzamientos deberan darse aproximadamente 100 de cada resultado posible. stas frecuencias se denominan
frecuencias esperadas.

El tahur tomar la decisin con respecto al dado a partir de la comparacin de las frecuencias observadas y las esperadas (ver Cuadro 9.1). Qu decidiras t a la luz de esos datos?

A continuacin, vamos a describir el test 2 , que permite realizar pruebas de este tipo. Como hemos comentado en la introduccin, con ella podremos
juzgar

ajustes de los que hemos logrado en el captulo de estimacin

puntual, pero tambin podremos utilizarla en ejemplos como el que acabamos de ver, en el que el experto est interesado en contrastar datos experimentales con respecto a una distribucin terica que le resulta de inters. En primer lugar y de forma ms general, supongamos que tenemos una muestra de tamao N de una v.a. discreta o cualitativa, X , ajustada a un modelo dado por una distribucin.

174

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Consideremos una particin del conjunto de valores que puede tomar la variable: S1 , ..., Sr . En principio, esta particin podran ser simplemente todos y cada uno de los valores que toma la variable X , pero, como veremos, es posible que tengamos que agrupar algunos de ellos. Seguidamente, consideremos la probabilidad, segn la distribucin dada por el ajuste que queremos evaluar, de cada una de estas partes,

pi = P [X Si /H0 ] > 0.
De igual forma, calculemos Oi , el nmero de observaciones de la muestra que caen en cada conjunto Si . La idea del test es comparar el nmero de observaciones Oi que caen realmente en cada conjunto Si con el nmero esperado de observaciones que deberan caer en Si si el ajuste es el dado por nuestro modelo, que sera N pi . Para ello, una medida que compara estas dos cantidades viene dada por
r

D=
i=1

(Oi N pi ) . N pi
no cuadran

Si, para una muestra dada, esta v.a. toma un valor d muy alto, indica que los valores observados

con el ajuste que hemos propuesto (con lo cul se rechazara la hiptesis nula en favor de la alternativa); si, por el contrario, toma un valor d bajo, indica que nuestro ajuste corresponde bien con los datos de la muestra, por lo que es
aceptable

la hiptesis nula.

El problema nal es decidir cundo el valor de la v.a. D, d, es lo sucientemente alto como para que nos resulte inaceptable el ajuste. Para decidirlo hay que tener en cuenta que cuando N es razonablemente alto y la hiptesis H 0 es cierta, la distribucin de probabilidad de D es 2 con r k 1 grados de libertad, es decir,

D/H0 2 r k1 ,
donde k es el nmero de parmetros que han sido estimados en el ajuste. Teniendo en cuenta este resultado, se calcula bajo esta distribucin la probabilidad de que se de un valor todava ms alto que d (el p-valor, por tanto),

N >>

p = P [D > d/H0 ] .
Si esta probabilidad es inferior al 5 %, se rechaza la hiptesis nula en favor de la alternativa con un 95 % de conanza. Dicho de otra forma, se acepta la hiptesis nula slo si el valor de D entra dentro del 95 % de resultados ms favorables a ella. Esquemticamente, el proceso es el siguiente: 1. Se enuncia el test:

H0 : los datos siguen la distribucin dada por nuestro ajuste H1 : los datos no siguen la distribucin dada por nuestro ajuste
2. Si en la muestra se dan los valores x1 , ..., xm , se calculan las frecuencias esperadas segn el ajuste propuesto de cada valor xi , N P [X = xi ], i = 1, ..., m. Si alguna de estas frecuencias es inferior a 5, se agrupa con alguna de la ms cercana hasta que sumen una frecuencia mayor o igual a 5. Se construye as la particin del conjunto de valores posibles para X , S1 , ...Sr , cuyas frecuencias esperadas
Prof. Dr. Antonio Jos Sez Castillo

175

Dpto de Estadstica e I.O. Universidad de Jan

xi Frec. obs.

0 42

1 28

2 13

3 5

4 7

5 3

6 2

Cuadro 9.2: Frecuencias observadas en la muestra de tiempos entre llegadas. son todas mayores o iguales a 5. En realidad, esto es slo una recomendacin que puede relajarse: si alguna frecuencia esperada es slo ligeramente inferior a 5, no es especialmente grave. 3. Se calculan las frecuencias observadas de cada Si , y lo notamos como Oi . 4. Se calcula el estadstico del test en la muestra
r

d=
i=1

(Oi N pi ) . N pi

5. Se calcula el p-valor asociado al valor del estadstico,

p = P [D > d/H0 ] ,
segn una distribucin 2 con r k 1 grados de libertad. 6. Se toma la decisin (para un nivel de conanza del 95 %):
a) b)

Si p < 0.05, se rechaza la hiptesis nula en favor de la alternativa, con un 95 % de conanza. Si p 0.05, se concluye que no hay evidencias en contra de armar que los datos se ajustan a la distribucin dada.

Ejemplo.

Los datos que se presentan en el Cuadro 9.2 constituyen una muestra aleatoria simple del

tiempo en ms. que transcurre entre la llegada de paquetes transmitidos por un determinado protocolo. En la tabla aparecen los valores junto al nmero de veces que han sido observados en la muestra. Se sospecha que una distribucin geomtrica puede ajustar bien esos datos. Vamos a realizar ese ajuste y contrastar si es aceptable mediante el test de la chi-cuadrado. En primer lugar, para ajustar una distribucin geomtrica debemos estimar el parmetro de la misma. Vamos a hacerlo de forma sencilla por el mtodo de los momentos. El valor de la media de la distribucin es $EX= de donde p =
1 1+EX .

Por tanto, nuestro estimador ser

p =

1 . 1+x

Por su parte,

x =
luego $

0 42 + 1 28 + 2 13 + 3 5 + 4 7 + 5 3 + 6 2 = 1.24, 100

176

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

As pues, deseamos contrastar en qu medida el ajuste de una Geo (0.4464) es vlido para los datos de la muestra. Es decir, deseamos contrastar H0 : X Geo (0.4464) frente a la alternativa H1 : X

Geo (0.4464) .
Vamos a calcular cules son las probabilidades tericas segn esa distribucin de los valores observados en la muestra:

P [X = 0] = 0.4464 (1 0.4464) = 0.4464

P [X = 1] = 0.4464 (1 0.4464) = 0.2471

P [X = 2] = 0.4464 (1 0.4464) = 0.1368

P [X = 3] = 0.4464 (1 0.4464) = 0.0757

P [X = 4] = 0.4464 (1 0.4464) = 0.0419

P [X = 5] = 0.4464 (1 0.4464) = 0.0232

P [X = 6] = 0.4464 (1 0.4464) = 0.0128

P [X > 6] = 1 (0.4464 + 0.2471 + 0.1368 + 0.0757 + 0.0419 + 0.0232 + 0.0128) = 0.0159


Ahora tenemos que construir la particin de los valores de la variable que, como sabemos, son 0,1,... Hay que tener en cuenta que debemos procurar que las frecuencias esperadas sean superiores o iguales a 5. Como hay 100 observaciones, ser necesario agrupar los valores 4 en adelante en un solo conjunto. Vamos a resumir este planteamiento en el Cuadro 9.3 donde, adems, aparecen los residuos al cuadrado entre las frecuencias observadas y esperadas, necesarios para calcular el estadstico del test. El valor de ste se calcula a partir de los resultados de la tabla de la siguiente manera:

d=

6.9696 0.0841 0.4624 6.6049 6.8644 + + + + = 1.7973. 44.64 27.71 13.68 7.57 9.38

Finalmente, el p-valor se calcula como P [D > 1.7973] , donde D sigue una 2 511 , es decir, una Gamma de parmetros (5 1 1)/2 y 1/2. Por tanto,

p valor =

1 2

1 2x

3 2 1

e 2 x

1.7973

3 2

dx = 0.61552.

Al ser superior (muy superior, de hecho) a 0.05, podemos armar que no hay evidencias en los datos de la muestra en contra de que stos sigan una distribucin Geo (0.4464).

Prof. Dr. Antonio Jos Sez Castillo

177

Dpto de Estadstica e I.O. Universidad de Jan


2

xi 0 1 2 3 4

Oi 42 28 13 5 12

N pi 44.64 27.71 13.68 7.57 9.38

(Oi N pi )
2

(42 44.64) = 6.969 6 2 (28 27.71) = 0 .0841 2 (13 13.68) = 0.462 4 2 (5 7.57) = 6.604 9 2 (12 9.38) = 6.864 4

Cuadro 9.3: Frecuencias observadas, frecuencias esperadas y residuos.

9.2.2. Test de Kolmogorov-Smirno


En este caso el test es aplicable sobre todo a variables de tipo continuo. Se basa en la comparacin de la funcin de distribucin terica propuesta por el modelo cuyo ajuste estamos evaluando con la funcin de distribucin emprica de los datos. Concretamente, si tenemos X1 , ..., XN una muestra de una v.a. X , si notamos por F (x) a la funcin de distribucin del modelo propuesto y por SN (x) a la funcin de distribucin emprica asociada a la muestra, el estadstico que se utiliza para este contraste viene dado por

DN = Sup |F (x) SN (x)| .


x

A la hora de calcular este mximo debemos tener en cuenta que la variable x es de tipo continuo. La hiptesis nula a contrastar es

H0 : los datos de la muestra se ajustan a la distribucin dada por F (x) ,


frente a la hiptesis alternativa

H1 : los datos de la muestra no se ajustan a la distribucin dada por F (x) .


Se rechazar la hiptesis nula en favor de la alternativa cuando el p-valor asociado al valor que tome DN sea inferior a 0.05. Esquemticamente, el proceso en el desarrollo del test puede resumirse en los siguientes pasos: 1. Ordenamos los valores de la muestra de menor a mayor: x(1) , ..., x(N ) . 2. Construimos la funcin de distribucin emprica, que en cada valor de la muestra viene dado por
i N.

SN x(i) =

3. El valor del estadstico se calcula como

dN = m ax

1iN

m ax

F x(i) SN x(i)

, F x(i) SN x(i1)

4. Se rechazar la hiptesis nula en favor de la alternativa si p = P [DN > dN ] < 0.05, con un (1 p)

100 % de conanza.
La distribucin de probabilidad de DN , necesaria para calcular el p-valor, no es muy conocida. Adems, para evaluar esta probabilidad hay que tener en cuenta el nmero de parmetros de la distribucin en el

178

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

ajuste. Una metodologa adecuada para ello es conocida como Mtodos de Monte Carlo, aunque excede los contenidos de estos apuntes. Debo advertir que muchos de los paquetes estadsticos ms habituales pueden inducir a error en el clculo de este p-valor, ya que proporcionan por defecto aqul correspondiente a un ajuste en el que no se estime ningn parmetro en la distribucin bajo la hiptesis nula, dando lugar a una sobreestimacin de dicho p-valor. 1.4647 0.2333 0.4995 0.0814 0.7216 0.3035 0.1151 1.7358 0.2717 0.9021 0.7842 0.0667 3.9898 0.0868 0.1967 0.8909 0.8103 0.1124 0.4854 0.0512

Cuadro 9.4: Datos de la muestra.

Ejemplo. Los datos que aparecen en el Cuadro 9.4 corresponden al tiempo en sec. entre conexiones a
un servidor. Nos planteamos si una distribucin exponencial es adecuada para su ajuste. En primer lugar hemos de decidir cul es el ajuste propuesto. El estimador mximo verosmil del par = 1 . En este metro de una exponencial coincide con el estimador del mtodo de los momentos,
m1

= 1/0.6902 = 1. 448 9. caso,


Para calcular el valor del estadstico del contraste, debemos evaluar la funcin de distribucin de una

exp (1.4489), F (x) = 1 e1.4489x , x 0


con la funcin de distribucin emprica. El Cuadro 9.5 muestra ambas funciones de distribucin. De ella se deduce que el valor del estadstico de contraste es 0.172 72. El p-valor asociado (calculado por Mtodos de Monte Carlo con R) toma el valor

P [D20 > 0.172 72] = 0.5707.


Por tanto, no hay en los datos evidencia en contra de asumir que siguen una distribucin exp (1.4489). La Figura 9.1 muestra en una vertiente grca la bondad del ajuste y el punto donde se alcanza la distancia mxima entre las funcin de distribucin terica y emprica.

x(i) 0.0512 0.0667 0.0814 0.0868 0.1124 0.1151 0.1967 0.2333 0.2717 0.3035

F x(i) 7.1499 102 9.2119 102 0.11125 0.11818 0.15029 0.1536 0.24798 0.28682 0.32542 0.3558

i 20

i1 20

0.05 0.1 0.15 0.2 0.25 0.3 0.25 0.4 0.45 0.5

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45

x(i) 0.4854 0.4995 0.7216 0.7842 0.8103 0.8909 0.9021 1.4647 1.7358 3.9898

F x(i) 0.50505 0.51506 0.64849 0.67897 0.69089 0.72496 0.72938 0.88023 0.91914 0.99691

i 20

i1 20

0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1

0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95

Cuadro 9.5: Tabla asociada al Test de Kolmogorov-Smirnov.

Prof. Dr. Antonio Jos Sez Castillo

179

Dpto de Estadstica e I.O. Universidad de Jan

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.5

1.5

2.5

3.5

Figura 9.1: Funciones de distribucin terica y emprica. Valor donde se da el estadstico de KolmogorovSmirnof.

9.3. Contraste de independencia 2


Si nos damos cuenta, desde el captulo de estadstica descriptiva nos hemos centrado exclusivamente en variables de tipo cuantitativo. Sin embargo, en numerosas ocasiones el objeto de estudio viene determinado, no por una cantidad, sino por una cualidad o un estado no cuanticable. Es por ello que vamos a considerar un contraste relativo a variables de tipo cualitativo, concretamente, para valorar si dos de estas variables estn o no signicativamente relacionadas.

Ejemplo.

Est relacionada la ideologa poltica con el gnero del votante? Es decir, nos planteamos si

el que una persona se declare de izquierdas o de derechas depende de si es varn o mujer. Existen dos variables cualitativas o caractersticas que dividen a la poblacin. Lo que nos interesa es si esa divisin est o no relacionada. Sern ms conservadoras las mujeres?

Consideremos en general una poblacin en la que cada individuo se clasica de acuerdo con dos caractersticas, designadas como X e Y . Supongamos que los posibles valores de X son x1 , ..., xr y los posibles valores de Y son y1 , ..., ys . Denotemos por pij a la proporcin de individuos de la poblacin cuyas caractersticas son simultneamente

xi e yj . Denotemos adems, como pi. a la proporcin de individuos con caracterstica xi y p.j a la proporcin
de individuos con caracterstica yj . En trminos de probabilidades, tendremos que si se elige un individuo al azar,

P [X = xi , Y = yj ] = pij
s

P [X = xi ] = pi. =
j =1

pij
Prof. Dr. Antonio Jos Sez Castillo

180

Apuntes de Estadstica para Ingenieros

P [Y = yj ] = p.j =
i=1

pij .

Lo que pretendemos contrastar es si las dos caractersticas son independientes, es decir, si para todo i y para todo j ,

P [X = xi , Y = yj ] = P [X = xi ] P [Y = yj ] ,
es decir, si

pij = pi. p.j .


As pues, podemos enunciar el contraste como

H0 : pij = pi. p.j para todo i = 1, ..., r; j = 1, ..., s


frente a

H1 : pij = pi. p.j para algn valor de i y j .


Para llevar a cabo el contraste tomaremos una muestra de la poblacin de tamao n. Denotemos por nij los individuos de esa muestra que toman simultneamente el valor xi y el valor yj (frecuencias

observadas),

ni. = yj .

s j =1

nij los individuos de la muestra que toman el valor xi y n.j =

r i=1

nij los que toman el valor

De esta forma,

p ij =
ser un estimador basado en la muestra de pij ,

nij n

p i. =
ser un estimador basado en la muestra de pi. y

ni. n

p .j =
ser un estimador basado en la muestra de p.j .

n.j n

Por otra parte, si la hiptesis nula fuera cierta, el nmero de individuos en la muestra, de tamao n, que toman simultneamente los valores xi y yj sera

eij = n pi . p.j .
Basado en la muestra, los valores

e ij = n p i. p .j ni. n.j = n
(frecuencias

esperadas) seran sus estimadores.

Finalmente, el estadstico del contraste se basa en comparar los valores reales en la muestra de nij con los valores e ij que se daran si la hiptesis nula fuera cierta, es decir, si las caractersticas X e Y fueran
Prof. Dr. Antonio Jos Sez Castillo

181

Dpto de Estadstica e I.O. Universidad de Jan

independientes. El valor del estadstico es


r s

d=
i=1 j =1

(nij e ij ) . e ij

Suponiendo que la hiptesis nula es cierta, la distribucin del estadstico del contraste es 2 con (r 1) (s 1) grados de libertad, por lo que decidiremos en funcin del p-valor asociado,

p = P [D > d/H0 ] ,
donde D 2 (r 1)(s1) o bien: Rechazaremos H0 con nivel de signicacin si d > 2 (r 1)(s1);1 . No rechazaremos H0 con nivel de signicacin si d < 2 (r 1)(s1);1 . Hay que hacer una ltima observacin: para que en efecto D 2 con (r 1) (s 1) es necesario que todas (o casi todas) las frecuencias esperadas e ij sean mayores o iguales a 5. Si alguna o algunas de ellas no lo son, la distribucin 2 podra no ser adecuada y el resultado del test incorrecto. Para que esto no ocurra es recomendable que el tamao de la muestra sea grande.

Ejemplo. Se toma una muestra de 300 personas, preguntndoles si se consideran ms de derechas, ms


de izquierdas o de centro y anotando su gnero. El resultado se resume en la siguiente tabla: Izquierda Mujeres Hombres Total Este tipo de tablas se conocen como 68 52 120 Derecha 56 72 128 Centro 32 20 52 Total 156 144 300

tablas de contingencia. Contiene los valores que hemos notado

nij y, en los mrgenes inferior y lateral derecho, los valores ni. y n.j .
Vamos a ver si el gnero est relacionado con la ideologa. Si no fuera as, si la ideologa fuera independiente del gnero, se tendra en una muestra de 300 individuos las frecuencias esperadas seran Izquierda Mujeres Hombres Total
156 300 300 144 300 300 120 300 120 300

Derecha
156 300 300 144 300 300 128 300 128 300

Centro
156 300 300 144 300 300 52 300 52 300

Total 156 144 300 Total 156 144 300

120 Izquierda

128 Derecha 66.56 61.44 128

52 Centro 27.04 24.96 52

Mujeres Hombres Total

62.40 57.60 120

182

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

El valor del estadstico de contraste es, por tanto,

D=

(68 62.40) (56 66.56) (32 27.04) + + + 62.40 66.56 27.04 2 2 2 (52 57.60) (72 61.44) (20 24.96) + + + = 6.433. 57.60 61.44 24.96

Por su parte, 2 (21)(31);0.95 = 5.991, de manera que podemos rechazar la hiptesis nula en favor de la alternativa, armando con un 95 % de conanza que el genero est relacionado con la ideologa. En qu sentido lo estar? Si nos centramos slo en los de izquierdas, tenemos que el porcentaje de hombres y mujeres es de
68 120

100 % = 56.667 % y de

52 120

100 % = 43.333 %, respectivamente.

Si nos centramos slo en los de derechas, tenemos que el porcentaje de hombres y mujeres es de
56 128

100 % = 43.75 % y de

72 128

100 % = 56.25 %, respectivamente.

Finalmente, si nos centramos slo en los de centro, tenemos que el porcentaje de hombres y mujeres es de
32 52

100 = 61.538 % y de

20 52

100 = 38.462 %, respectivamente.

Lo que parece que ocurre es que las mujeres tienen mayor preferencia por la derecha. Sin embargo, esta armacin no se ha contrastado, sino que se basa simplemente en datos descriptivos1 .

9.4. Resolucin del ejemplo de los accidentes laborales


Redordemos el planteamiento:
En una empresa se sospecha que hay franjas horarias donde los accidentes laborales son ms frecuentes. Para estudiar este fenmeno, contabilizan los accidentes laborales que sufren los trabajadores segn franjas horarias, durante un ao. Los resultados aparecen en la tabla.

Horas del da 8-10 h. 10-12 h. 13-15 h. 15-17 h.

Nmero de accidentes 47 52 57 63

Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.

En primer lugar debemos plantearnos la hiptesis que queremos contrastar. El hecho de que ocurran los accidentes absolutamente al azar vendra a decir que la probabilidad de ocurrencia es la misma en cada franja horaria (puesto que todas ellas tienen la misma amplitud). Por ello, si notamos pi a la probabilidad de que ocurra un accidente en la i-sima franja horaria, nos planteamos como hiptesis nula H0 : p1 = ... = p4 = frente a la alternativa de que no todas las probabilidades sean iguales. Para realizar el contraste podemos considerar un contraste de bondad de ajuste en el que la distribucin de probabilidad sea una uniforme discreta, que no tiene parmetros.
Prof. Dr. Antonio Jos Sez Castillo
1 4

183

Dpto de Estadstica e I.O. Universidad de Jan

En este caso, el estadstico de contraste es muy sencillo:

2 =

(47 219 (1/4))2 (52 219 (1/4))2 (57 219 (1/4))2 (63 219 (1/4))2 + + + = 2.571. 219 (1/4) 219 (1/4) 219 (1/4) 219 (1/4)

Por su parte, el p-valor es p = P [2 401 > 2.571] = 0.462, por lo que no tenemos evidencias en estos datos que hagan pensar en que hay franjas horarias ms propicias a los accidentes.

184

Prof. Dr. Antonio Jos Sez Castillo

Captulo 10
Regresin lineal simple

Un poltico debe ser capaz de predecir lo que pasar maana, y la semana, el mes y el ao prximos. Y tambin debe ser capaz de explicar por qu no acert. Winston Churchill

Resumen. En este captulo se describe el modelo de regresin lineal simple, que asume que entre dos variables
dadas existe una relacin de tipo lineal contaminada por un error aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y bajo determinadas hiptesis, podremos extraer predicciones del modelo e inferir la fortaleza de dicha relacin lineal.

Palabras clave: regresin lineal simple, variable dependiente, variable independiente, error aleatorio, nube
de puntos, principio de mnimos cuadrados, coeciente de correlacin lineal, coeciente de determinacin lineal, bondad del ajuste, prediccin, estimacin.

10.1. Introduccin
Uno de los aspectos ms relevantes que aborda la Estadstica se reere al anlisis de las relaciones que se dan entre dos variables aleatorias. El anlisis de estas relaciones est muy frecuentemente ligado al anlisis de una variable, llamada variable

dependiente (Y ) , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s) variable(s) independiente(s) (X ), y permite responder a dos cuestiones bsicas:
Es signicativa la inuencia que tiene la variable independiente sobre la variable dependiente?

Si, en efecto, esa relacin es signicativa, cmo es? y podemos aprovechar esa relacin para predecir valores de la variable dependiente a partir de valores observados de la variable independiente? Ms an, podemos inferir caractersticas sobre esa relacin y con el fenmeno que subyace a ella?

Ejemplo. Un equipo de investigadores que trabajan en seguridad en el trabajo est tratando de analizar
cmo la piel absorbe un cierto componente qumico peligroso. Para ello, coloca diferentes volmenes del compuesto qumico sobre diferentes segmentos de piel durante distintos intervalos de tiempo, midiendo al cabo de ese tiempo el porcentaje de volumen absorbido del compuesto. El diseo del experimento se ha 185

Dpto de Estadstica e I.O. Universidad de Jan

realizado para que la interaccin esperable entre el tiempo y el volumen no inuya sobre los resultados. Los datos aparecen en el Cuadro 10.1 Lo que los investigadores se cuestionan es si la cantidad de compuesto por un lado y el tiempo de exposicin al que se somete por otro, inuyen en el porcentaje que se absorbe. De ser as, sera interesante estimar el porcentaje de absorcin de personas que se sometan a una exposicin de una determinada cantidad, por ejemplo, durante 8 horas. En una primera aproximacin al problema, podemos observar una representacin grca de los datos en los diagramas de dispersin o nubes de puntos de la Figura 10.1. Qu armaramos? Parece que s hay una relacin lineal ms o menos clara (pero no denitiva) entre el tiempo de exposicin y el porcentaje de absorcin, pero la hay entre el volumen y el porcentaje de absorcin?

Experimento 1 2 3 4 5 6 7 8 9

Volumen 0.05 0.05 0.05 2.00 2.00 2.00 5.00 5.00 5.00

Tiempo 2 10 24 2 10 24 2 10 24

Porcentaje Absorbido 50.88 49.96 83.66 54.09 68.27 85.65 48.39 64.88 88.01

Cuadro 10.1: Datos sobre el experimento de la absorcin del compuesto

(variable

Un modelo de regresin lineal simple para una variable, Y (variable dependiente), dada otra variable, X

independiente), es un modelo matemtico que permite obtener una frmula capaz de relacionar
Y = 0 + 1 X + .

Y con X basada slo en relaciones lineales, del tipo

En esta expresin:

Y representa a la variable dependiente, es decir, a aquella variable que deseamos estudiar en relacin
con otras.

X representa a la variable independiente, es decir, aquellas que creemos que puede afectar en alguna
medida a la variable dependiente. La estamos notando en mayscula, indicando que podra ser una variable aleatoria, pero habitualmente se considera que es una constante que el investigador puede jar a su antojo en distintos valores.

representa el error

aleatorio, es decir, aquella cantidad (aleatoria) que provoca que la relacin entre
Prof. Dr. Antonio Jos Sez Castillo

la variable dependiente y la variable independiente no sea perfecta, sino que est sujeta a incertidumbre.

186

Apuntes de Estadstica para Ingenieros

Porcentaje.Absorbido

Porcentaje.Absorbido 5 15 Tiempo

80

70

60

50

50 0

60

70

80

Volumen

Figura 10.1: Nube de puntos Hay que tener en cuenta que el valor de ser siempre desconocido hasta que se observen los valores de X e

Y , de manera que el modelo de prediccin ser realmente = 0 + 1 X. Y


Lo que en primer lugar resultara deseable de un modelo de regresin es que estos errores aleatorios ocurran en la misma medida por exceso que por defecto, sea cual sea el valor de X , de manera que E [/X =x ] = E [] = 0 y, por tanto,

E [Y /X =x ] = 0 + 1 x + E [/X =x ] = 0 + 1 x.
Es decir, las medias de los valores de Y para un valor de X dado son una recta. La Figura 10.2 representa una nube de puntos y la recta de regresin que los ajusta de unos datos genricos. Podemos ver el valor concreto de = y E [Y /X =x ] para un dato, supuesto que hemos obtenido un modelo de regresin. En ella se puede ver tambin la interpretacin de los coecientes del modelo:

0 es

la ordenada al origen del modelo, es decir, el punto donde la recta intercepta o corta al eje y. la pendiente
de la lnea y, por tanto, puede interpretarse como el incremento de la

1 representa

variable dependiente por cada incremento en una unidad de la variable independiente.

Prof. Dr. Antonio Jos Sez Castillo

187

Dpto de Estadstica e I.O. Universidad de Jan

100

105

yi
95 y

0 + 1xi

85

90

xi
50 60 70 x 80 90 100

Figura 10.2: Diagrama de dispersin y lnea de las medias hipotticas.

Nota. Es evidente que la utilidad de un modelo de regresin lineal tiene sentido siempre que la relacin
hipottica entre X e Y sea de tipo lineal, pero qu ocurre si en vez de ser de este tipo es de otro tipo (exponencial, logartmico, hiperblico...)? En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersin antes de comenzar a tratar de obtener un modelo de regresin lineal, ya que si la forma de este diagrama sugiere un perl distinto al de una recta quiz deberamos plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de dispersin es de otro tipo conocido, puede optarse por realizar un cambio de variable para considerar un modelo lineal. Existen tcnicas muy sencillas para esta cuestin, pero no las veremos aqu.

10.2. Estimacin de los coecientes del modelo por mnimos cuadrados


Si queremos obtener el modelo de regresin lineal un nuevo mtodo de estimacin, conocido como estimadores mximo-verosmiles de 0 y 1 . El razonamiento que motiva el mtodo de mnimos cuadrados es el siguiente: si tenemos una muestra de
que mejor se ajuste a los datos de la muestra,

deberemos

estimar los coecientes 0 y 1 del modelo. Para obtener estimadores de estos coecientes vamos a considerar

mtodo de mnimos cuadrados.

Hay que decir que

bajo determinados supuestos que veremos en breve, los estimadores de mnimos cuadrados coinciden con los

188

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

valores de las variables independiente y dependiente,

(x1 , y1 ) , ..., (xn , yn ) , 0 y 1 , de manera que en el modelo ajustado, buscaremos valores estimados de 0 y 1 , que notaremos por 0 + 1 x y x =
minimice la suma de los cuadrados de los errores observados. Recordemos que

E [Y /X =x ] = 0 + 1 x,
luego y x puede interpretarse de dos formas: 1. Como una prediccin del valor que tomar Y si X = x.

2. Como una estimacin del valor medio de Y cuando X = x. Concretando, lo que buscamos es minimizar la

suma de los cuadrados de los errores


n

SSE =
i=1

0 + 1 xi ) yi (

es decir buscamos

0 , 1 = arg m n SSE .
0 ,1

dada X

Se llama

recta de regresin por mnimos cuadrados (o simplemente recta de regresin) de


a la lnea que tiene la SSE ms pequea de entre todos los modelos lineales.

0 La solucin de ese problema de mnimo se obtiene por el mecanismo habitual: se deriva SSE respecto de SS xy 1 , se iguala a cero y se despejan estos. La solucin es 1 = 1 x , donde y SSxx y 0 = y
n n

SSxy =
i=1 n

( xi x ) (yi y ) =
i=1 n

xi yi nx y

SSxx =
i=1

( xi x ) =
i=1

x2 2 . i nx

Con esta notacin, es fcil demostrar que


n

SSE =
i=1

0 + 1 xi ) yi (

2 SSxx SSyy SSxy SSxx

=SSyy

SSxy 2 1 . = SSyy SSxy SSxx

Prof. Dr. Antonio Jos Sez Castillo

189

Dpto de Estadstica e I.O. Universidad de Jan

En este sentido, se dene como medida de la calidad del ajuste de la recta de regresin el ajuste como

error estandar del

se = =

SSE = n2

0 + 1 x yi n2

1 SSxy SSyy . n2

Cuanto mayor sea esta cantidad, peor son las predicciones de la recta de regresin.

Ejemplo. Para los datos sobre el ejemplo de la absorcin del compuesto, vamos a calcular e interpretar
las dos rectas de regresin posibles. En primer lugar, vamos a considerar la recta de regresin para explicar el porcentaje de absorcin (y ) conocido el volumen de sustancia (x):

SSxy = 36.24, SSx = 37.31


luego

1 = SSxy = 0.97 SSxx 0 = y 1 x = 63.69,


as que la recta de regresin ajustada es

y x = 63.69 + 0.97 x. 1 = 0.97 es que el porcentaje de absorcin, Y , aumenta en promedio 0.97 por cada La interpretacin de 0 = 63.69 sera la del valor incremento de 1 unidad de volumen de compuesto. La interpretacin de
promedio de Y cuando x = 0, pero es que en este caso este supuesto no tiene sentido, as que no debe tenerse en cuenta. Vamos con la recta de regresin para explicar el porcentaje de absorcin (y ) en funcin del tiempo de exposicin (x):

SSxy = 1187.96, SSxx = 744


luego

1 = SSxy = 1.60 SSxx 0 = y 1 x = 46.82,

190

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 10.3: Nubes de puntos y rectas de regresin ajustadas en el ejemplo de la absorcin

as que la recta de regresin ajustada es

y x = 46.82 + 1.60 x.
Por cada incremento de una unidad del tiempo de exposicin, el porcentaje de absorcin aumenta en media 1.60. Ahora vamos a representar las nubes de puntos de nuevo con sus rectas de regresin ajustadas. De esa manera podremos comprobar de una forma grca cmo de buenas son las rectas en cuanto a su capacidad de ajuste de los datos. Los resultados aparecen en la Figura 10.3. Podemos ver que el ajuste es mucho mejor cuando la variable explicativa es el tiempo de absorcin, mientras que si la variable explicativa es el volumen, la recta no puede pasar cerca de los datos.

Nota. Hay que hacer una observacin importante que suele conducir a frecuentes errores. La recta de
regresin para la variable dependiente Y , dada la variable independiente X no es la misma que la recta de regresin de X dada Y . La razn es muy sencilla: para obtener la recta de regresin de Y dado X debemos minimizar
n

0 + 1 xi yi
i=1

Prof. Dr. Antonio Jos Sez Castillo

191

Dpto de Estadstica e I.O. Universidad de Jan

mientras que para obtener la recta de regresin de X dado Y deberamos minimizar


n

0 + 1 yi xi
i=1

en cuyo caso obtendramos como solucin

1 = SSxy SSyy 0 = x 1 y , 0 + 1 y . siendo la recta de regresin, x =


El error que suele cometerse con frecuencia es pensar que si tenemos, por ejemplo, la recta de Y dado

X , la de X dado Y puede obtenerse

despejando.

0 y 1 son slo estimaciones de 0 y 1 , Es importante que, para terminar este apartado, recordemos que
estimaciones basadas en los datos que se han obtenido en la muestra. Una forma de hacernos conscientes de que se trata de estimaciones y no de valores exactos (es imposible conocer el valor exacto de ningn parmetro poblacional) es proporcionar las estimaciones de los errores estandar de las estimaciones de 0 y 1 . Se conoce que dichas estimaciones son:

1 = s.e. 0 = s.e.

s2 e SSxx s2 e x 2 1 + n SSxx

Ejemplo.

En el ejemplo de los datos de absorcin hemos estimado los coecientes de las dos rectas

de regresin del porcentaje de absorcin en funcin del volumen y del tiempo de absorcin. Vamos a completar ese anlisis con el clculo de los errores estandares de esas estimaciones. Los resultados aparecen resumidos en la siguiente tabla: Modelo

0
63.69 46.82

0 s.e.
8.80 3.16

1
0.97 1.60

1 s.e.
2.83 0.21

% absorcio n = 0 + 1 V olumen % absorcio n = 0 + 1 T iempo

Obsrvese que los errores estandar en el modelo en funcin del volumen son mayores proporcionalmente que en el modelo en funcin del tiempo de absorcin.

10.3. Supuestos adicionales para los estimadores de mnimos cuadrados


Hasta ahora lo nico que le hemos exigido a la recta de regresin es:

192

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

1. Que las medias de Y para cada valor de x se ajusten

ms o menos

a una lnea recta, algo fcilmente

comprobable con una nube de puntos. Si el aspecto de esta nube no recuerda a una lnea recta sino a otro tipo de funcin, lgicamente no haremos regresin lineal. 2. Que los errores tengan media cero, independientemente del valor de x, lo que, por otra parte, no es una hiptesis sino ms bien un requerimiento lgico al modelo. Lo que ahora vamos a hacer es aadir algunos supuestos al modelo de manera que cuando stos se cumplan, las propiedades de los estimadores de los coecientes del modelo sean muy buenas. Esto nos va a permitir hacer inferencia sobre estos coecientes y sobre las estimaciones que pueden darse de los valores de la variable dependiente. Los supuestos que podemos aadir se reeren al error del modelo, la variable .

Supuesto 1. Tal y como ya hemos dicho, E [ Supuesto 2. La varianza de


para todo x.

/X =x ] = E [ ] = 0, lo que implica que E [Y /X =x ] = 0 + 1 x.

tambin es constante para cualquier valor de x dado, es decir, V ar ( /X =x ) = 2

Supuesto 3. La distribucin de probabilidad de Supuesto 4. Los errores

es normal.

son independientes unos de otros, es decir, la magnitud de un error no inuye en

absoluto en la magnitud de otros errores. En resumen, todos los supuestos pueden resumirse diciendo que |X =x N (0, 2 ) y son independientes entre s. Estos supuestos son restrictivos, por lo que deben comprobarse cuando se aplica la tcnica. Si el tamao de la muestra es grande, la hiptesis de normalidad de los residuos estar bastante garantizada por el teorema central del lmite. En cuanto a la varianza constante respecto a los valores de x, un incumplimiento moderado no es grave, pero s si las diferencias son evidentes. Existen tcnicas especcas para evaluar en qu medida se cumplen estas hiptesis. Tambin existen procedimientos para corregir el incumplimiento de estos supuestos. Estos aspectos sern tratados al nal del tema.

10.4. Inferencias sobre el modelo


10.4.1. Inferencia sobre la pendiente
Al comienzo del captulo nos plantebamos como uno de los objetivos de la regresin el decidir si el efecto de la variable independiente es o no signicativo para la variable dependiente. Si nos jamos, esto es equivalente a contrastar si el coeciente 1 es o no signicativamente distinto de cero. Vamos a profundizar en porqu es as. Observemos la Figura 10.4. En la nube de puntos y la recta de regresin ajustada de la izquierda, observamos una relacin lineal
buena

entre x e y con un buen ajuste de la recta de regresin? Cabra pensar que s, pero

Prof. Dr. Antonio Jos Sez Castillo

193

Dpto de Estadstica e I.O. Universidad de Jan

Figura 10.4: Nubes de puntos y rectas de regresin que las ajustan estaramos equivocados: si la recta de regresin trata de explicar y en funcin de x, cunto vara y conforme vara x? Dado que la pendiente de esa recta es cero o prcticamente cero, por mucho que cambies x, eso no afecta al valor de y , es decir, x

no inuye nada sobre y!

Sin embargo, en la nube de puntos de la

derecha, a pesar de que aparentemente el ajuste es peor, la recta ajustada s tiene pendiente distinta de cero, luego el hecho de que y vare viene dado en buena parte por el hecho de que x vara, y ello ocurre porque la pendiente de esa recta es distinta de cero. As pues, no lo olvidemos: decir que dos variables estn relacionadas linealmente equivale a decir que la pendiente de la recta de regresin que ajusta una en funcin de la otra es distinta de cero. Pues bien, dados los supuestos descritos en la seccin anterior, es posible obtener un contraste de este tipo, tal y como se resumen en el Cuadro 10.2. En ella, si, en efecto, lo que deseamos es contrastar si el efecto de la variable independiente es o no signicativo para la variable dependiente, el valor de b1 ser cero.

Ejemplo. Para los datos del ejemplo sobre la absorcin, partamos del deseo de comprobar si al volumen
y/o el tiempo de exposicin inuan sobre el porcentaje de absorcin. Las nubes de puntos y el ajuste de la recta ya nos dieron pistas: daba la impresin de que el tiempo de absorcin s inua en el porcentaje de absorcin, pero no quedaba tan claro si el volumen lo haca. Es el momento de comprobarlo. Nos planteamos en primer lugar si el tiempo de exposicin inuye o no sobre el porcentaje de absorcin, es decir, nos planteamos si en el modelo lineal

P orcentaje de absorcio n = 0 + 1 T iempo de exposicio n +

194

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Tipo de prueba Hiptesis Estadstico de contraste Regin de rechazo p-valor Supuestos

Unilateral a la izquierda H 0 : 1 = b1 H1 : 1 < b1


1 b1 t = 2

Bilateral

H0 : 1 = b1 H1 : 1 = b1 , s2 e =

Unilateral a la derecha H0 : 1 = b1 H1 : 1 > b1

se /SSxx

1 SSxy SSyy n2

SSE n2

t < t;n2

|t| > t1/2;n2

t > t1;n2

P [Tn2 < t] 2P [Tn2 > |t|] P [T > t] Los dados en la Seccin 10.3
Cuadro 10.2: Contraste sobre 1

el coeciente 1 es o no cero. Formalmente, nos planteamos H0 : 1 = 0 frente a H1 : 1 = 0:

1 = 1.6 s2 e = 1 SSxy SSyy = 32.82 n2

t0.975;92 = 2.364624, t0.025;302 = 2.364624 1.6 0 t= = 7.60, 32.82/744


luego, como caba esperar, podemos armar a la luz de los datos y con un 95 % de conanza que el efecto del tiempo de exposicin sobre el porcentaje de absorcin es signicativo. El p-valor, de hecho, es

p = 2P [T7 > 7.60] = 0.000126.


Vamos ahora a analizar si el efecto lineal del volumen sobre el porcentaje de absorcin es signicativo. Es decir, ahora nos planteamos si en el modelo lineal

P orcentaje de absorcio n = 0 + 1 V olumen +


el coeciente 1 es o no cero, es decir, planteamos el contraste de H0 : 1 = 0 frente a H1 : 1 = 0:

1 = 0.97 s2 e = 1 SSxy SSyy = 298.77 n2

t0.975;92 = 2.364624, t0.025;302 = 2.364624 0.97 0 t= = 0.34, 298.77/37.31


luego, como caba esperar, no podemos armar a la luz de los datos y con un 95 % de conanza que el efecto del volumen sobre el porcentaje de absorcin sea signicativo. El p-valor, de hecho, es p = 2P [T7 >

0.34] = 0.741.
En vista de los resultados, a partir de ahora dejaremos de considerar el efecto del volumen sobre el porcentaje de absorcin, y slo tendremos en cuenta el efecto del tiempo de exposicin.

Prof. Dr. Antonio Jos Sez Castillo

195

Dpto de Estadstica e I.O. Universidad de Jan

Ejemplo. Un ingeniero qumico est calibrando un espectrmetro para medir la concentracin de CO


en muestras de aire. Esta calibracin implica que debe comprobar que no hay diferencias
signicativas

entre la concentracin verdadera de CO (x) y la concentracin medida por el espectrmetro (y ). Para ello toma 11 muestras de aire en las que conoce su verdadera concentracin de CO y las compara con la concentracin medida por el espectrmetro. Los datos son los siguientes (las unidades son ppm):

x y

0 1

10 12

20 20

30 29

40 38

50 48

60 61

70 68

80 79

90 91

100 97

Lo ideal, lo deseado, sera que y = x, es decir, que el modelo lineal que explica y en funcin de x tuviera coecientes 0 = 0 y 1 = 1. Por ahora vamos a centrarnos en el primer paso en la comprobacin de que el espectrmetro est bien calibrado, que implica contrastar que 1 = 1. Para ello,

SSxx = 11000; SSyy = 10506.73; SSxy = 10740 1 = 10460 = 0.976 11000 SS yy 1 SSxy s2 = 2.286 e = n2
por lo tanto,

t=

0.976 1 1.964/11000

= 1.639.

05 Dado que t1 0.2 ;112 = t0.975;9 = 2.262 y |1.639| < 2.262, no hay razones para concluir que 1 = 1.

As pues, el modelo podra ser

y = 0 + x,
aunque lo deseado, insistamos, sera que fuera

y = x,
es decir, que lo que mida el espectrmetro coincida con la cantidad real de CO en el aire. Como hemos dicho, eso ocurrira si 0 = 0, lo que equivale a decir que en ausencia de CO, el espectrmetro est a cero.

Adems del contraste de hiptesis, es trivial proporcionar un intervalo de conanza para la pendiente, ya que conocemos su estimacin, su error estandar y la distribucin en el muestreo (t-student, como aparece en el contraste). Concretamente,

1 t1 ;n2 s.e. 1 , 1 1 + t1 ;n2 s.e. P 1 2 2

= 1 .

Ejemplo.

En el ejemplo que acabamos de ver sobre la calibracin del espectrmetro, el intervalo de

conanza para 1 es (0.94, 1.01). Como podemos ver, el valor 1 = 1 es un valor conable del intervalo, luego raticamos que no podemos armar que el espectrmetro est mal calibrado.

196

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Tipo de prueba Hiptesis Estadstico de contraste Regin de rechazo p-valor Supuestos

Unilateral a la izquierda H 0 : 0 = b0 H1 : 0 < b0

Bilateral

H0 : 0 = b0 H1 : 0 = b0 , s2 e =

Unilateral a la derecha H0 : 0 = b0 H1 : 0 > b0

t=
s2 e

0 b0
1 x 2 n + SSxx

1 SSxy SSyy n2

SSE n2

t < t;n2

|t| > t1/2;n2

t > t1;n2

P [Tn2 < t] 2P [Tn2 > |t|] P [T > t] Los dados en la Seccin 10.3
Cuadro 10.3: Contraste sobre 0

10.4.2. Inferencia sobre la ordenada en el origen


Este ltimo ejemplo pone de maniesto que tambin puede tener inters realizar contrastes sobre el valor de

0 . Para ello, el Cuadro 10.3 describe el procedimiento de un contraste de este tipo.


Finalmente, tengamos en cuenta que podra ser de inters un contraste conjunto sobre 0 y 1 , por ejemplo, del tipo 0 = 0, 1 = 1. Hay que decir que este tipo de contrastes mltiples superan los contenidos de esta asignatura. Lo nico que podramos hacer en un contexto como el nuestro es realizar sendos contrastes sobre

0 y 1 por separado, teniendo en cuenta el nivel de signicacin de ambos contrastes.

Ejemplo. En el ejemplo anterior, vamos a contrastar si, en efecto, 0 = 0, lo que equivaldr a concluir
que no hay razones para pensar que el espectrmetro est mal calibrado. Para ello,

0 = y 1 x = 0.636
por lo tanto,

t=

0.636 0 2.286
1 11

= 0.746.

502 11000

Comoquiera que 0.746 < t0.975;9 = 2.261, tampoco tenemos razones para pensar que 0 = 0 con un 95 % de conanza, luego, en resumen, no existen razones para pensar que el espectrmetro est mal calibrado.

Ejemplo.

Imaginemos que deseamos comprobar experimentalmente que, tal y como predice la ley de

Ohm, la tensin (V ) entre los extremos de una resistencia y la intensidad de corriente (I ) que circula por ella se relacionan siguiendo la ley

V = R I,
donde R es el valor de la resistencia. Nosotros vamos a realizar la comprobacin con una misma resistencia, variando los valores de la intensidad, por lo que la ecuacin equivale a

V = 0 + 1 I,
siendo 0 = 0 y 1 = R. Los datos son los que aparecen en el Cuadro 10.4. Tenemos que realizar un contraste, H0 : 0 = 0 frente a H1 : 0 = 0 que equivale a contrastar en realidad

Prof. Dr. Antonio Jos Sez Castillo

197

Dpto de Estadstica e I.O. Universidad de Jan

Observacin 1 2 3 4 5 6 7 8 9 10 11

I (mA) 0.16 6.54 12.76 19.26 25.63 31.81 38.21 47.40 54.00 60.80 68.00

V (V) 0.26 1.04 2.02 3.05 4.06 5.03 6.03 7.03 8.06 8.99 10.01

Cuadro 10.4: Datos para la comprobacin de la Ley de Ohm

que nuestros aparatos de medida estn bien calibrados, puesto que la ley de Ohm obliga a que 0 = 0. Vamos all:

SSxx = 5105.90 SSyy = 107.25 SSxy = 739.49 1 = 0.14 0 = 0.25 s2 e = 0.022


As pues,

t=

0.25 0 0.022
1 11

= 3.531.

33.142 5105.90

Ohm! Lo que este anlisis pone de maniesto es que tenemos algn problema en nuestras mediciones.

Dado que t0.975,9 = 2.262, tenemos que rechazar la hiptesis H0 : 0 = 0, lo que

contradice la ley de

Dejemos un poco de lado este ltimo resultado. Si queremos estimar el valor de la resistencia, una 1 = 0.14, y un intervalo de conanza al 95 % de conanza = estimacin puntual es, como hemos visto, R (omitimos los detalles de los clculos) resulta ser (0.141, 0.149). Finalmente, podemos tambin proporcionar un intervalo de conanza para la ordenada en el origen, dado por

0 t1 ;n2 s.e. 0 , 0 + t1 ;n2 s.e. 0 P 0 2 2

= 1 .

Ejemplo.

En el ejemplo del espectrmetro, el intervalo de conanza para la ordenada en el origen es

(1.29, 2.57), luego es conable pensar que 0 = 0. En suma, hemos comprobado que es posible 1 = 1 y 0 = 0, luego hemos comprobado que la ecuacin y = x no puede ser rechazada con los datos disponibles,
es decir, que no hay razones para pensar que el espectrmetro est mal calibrado.

198

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Ejemplo. En el ejemplo de la comprobacin de la Ley de Ohm, el intervalo de conanza al 95 % para la


ordenada en el origen es (0.09, 0.41). Dado que ese intervalo no incluye al cero, podemos armar con un 95 % de conanza que la recta de regresin no pasa por el origen, lo que contradice la Ley de Ohm.

10.5. El coeciente de correlacin lineal


1 mide en cierto modo la relacin que existe entre la variable dependiente y la variable independiente, ya
que se interpreta como el incremento que sufre Y por cada incremento unitario de X . Sin embargo, es una s medida sujeta a la escala de las variables X e Y , de manera que se hace difcil poder comparar distintos
1

entre s.

coeciente de correlacin lineal, que ofrece una medida 1 , es cuantitativa de la fortaleza de la relacin lineal entre X e Y en la muestra, pero que a diferencia de
En esta seccin vamos a denir el llamado adimensional, ya que sus valores siempre estn entre 1 y 1, sean cuales sean las unidades de medida de las variables. Dada una muestra de valores de dos variables (x1 , y1 ) , ..., (xn , yn ), el

muestral r se dene como

coeciente de correlacin lineal

r=

SSxy = SSxx SSyy

SSxx 1 . SSyy

Como comentbamos, la interpretacin del valor de r es la siguiente:

r cercano o igual a 0 implica poca o ninguna relacin lineal entre X e Y.


Cuanto ms se acerque a 1 -1, ms fuerte ser la relacin lineal entre X e Y . Si r = 1, todos los puntos caern exactamente en la recta de regresin. Un valor positivo de r implica que Y tiende a aumentar cuando X aumenta, y esa tendencia es ms acusada cuanto ms cercano est r de 1. Un valor negativo de r implica que Y disminuye cuando X aumenta, y esa tendencia es ms acusada cuanto ms cercano est r de -1.

Nota.

En la Figura 10.5 aparecen algunos de los supuestos que acabamos de enunciar respecto a los

distintos valores de r. Hay que hacer hincapi en que r slo es capaz de descubrir la presencia de relacin de tipo lineal. Si, como en el ltimo grco a la derecha de esta gura, la relacin entre X e Y no es de tipo lineal, r no es adecuado como indicador de la fuerza de esa relacin.

Nota. En la Figura 10.6 aparece un valor atpico entre un conjunto de datos con una relacin lineal ms
que evidente. Por culpa de este dato, el coeciente de correlacin lineal ser bajo. Qu debe hacerse en

Prof. Dr. Antonio Jos Sez Castillo

199

Dpto de Estadstica e I.O. Universidad de Jan

100

20

60 40 20

80

60

10

40

10

100

30

20

60

100

20

60

100

20

60

100

0 0

2000

20

20

6000

10000

20

60

100

Correlacin lineal positiva fuerte

Correlacin lineal negativa fuerte

Ausencia de correlacin lineal

Correlacin parablica

Figura 10.5: Valores de r y sus implicaciones.

este caso? En general, no se deben eliminar datos de una muestra, pero podra ocurrir que datos atpicos correspondan a errores en la toma de las muestras, en el registro de los datos o, incluso, que realmente no procedan de la misma poblacin que el resto de los datos: en ese caso, eliminarlos podra estar justicado de cara a analizar de una forma ms precisa la relacin lineal entre los datos.

Nota.

Correlacin frente a causalidad. Hay que hacer una advertencia importante acerca de las inter-

pretaciones del coeciente de correlacin lineal. Es muy frecuente que se utilice para justicar relaciones causa-efecto, y eso es un grave error. r slo indica presencia de relacin entre las variables, pero eso no permite inferir, por ejemplo, que un incremento de X sea la causa de un incremento o una disminucin de Y .

Ejemplo. Para los datos del ejemplo sobre la absorcin, calculemos r e interpretmoslo.
En el caso del porcentaje de absorcin en funcin del volumen de compuesto,

r=

36.24 = 0.129; 37.30 2126.61

vemos que la relacin es muy pequea; de hecho, comprobamos mediante un contraste de hiptesis sobre

1 que era no signicativa.


En el caso del porcentaje de absorcin en funcin del tiempo de absorcin,

r=

36.24 = 0.944. 744 2126.61

Esta relacin s resulta ser muy fuerte y en sentido directo. Por eso al realizar el test sobre 1 , ste s result ser signicativo. No podemos olvidar que el coeciente de correlacin lineal muestral, r, mide la correlacin entre los valores

200

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

r = 0.27 r^2 = 0.07 Slope = 0.26 Intercept = 3.56


End 10

LS Line

Add Point 4

Delete Point

4 x

10

Move Point

Figura 10.6: Un dato atpico entre datos relacionados linealmente.

de X y de Y en la muestra. Existe un coeciente de correlacin lineal similar pero que se reere a todos los posibles valores de la variable. Evidentemente, r es un estimador de este coeciente poblacional.

Dadas dos variables X e Y , el

coeciente de correlacin lineal poblacional, , se dene comoa


E [(X EX ) (Y EY )] V arX = = 1 . V arXV arY V arY

a Este concepto se estudia tambin en el captulo de vectores aleatorios.

Inmediatamente surge la cuestin de las inferencias. Podemos y debemos utilizar r para hacer inferencias sobre . De todas formas, en realidad estas inferencias son equivalentes a las que hacemos sobre 1 , ya que la relacin entre 1 y provoca que la hiptesis H0 : 1 = 0 sea equivalente a la hiptesis H0 : = 0. Podemos, por lo tanto, utilizar el contraste resumido en el Cuadro 10.2 para b1 = 0 y teniendo en cuenta que

r n2 t= . 1 r2

Ejemplo. Vamos a contrastar H0


El estadstico de contraste es t =

H0 : 1 = 0, frente a H1 : 1 = 0. Vemos que, en efecto, es el mismo contraste.

0 .944 92 10.9442

: = 0 frente a H1 : = 0 de nuevo en el ejemplo de la absorcin. = 7.60, que coincide con el valor de t cuando contrastamos

Prof. Dr. Antonio Jos Sez Castillo

201

Dpto de Estadstica e I.O. Universidad de Jan

10.6. Fiabilidad de la recta de regresin. El coeciente de determinacin lineal


Como hemos visto, el coeciente de correlacin lineal puede interpretarse como una medida de la contribucin de una variable a la prediccin de la otra mediante la recta de regresin. En esta seccin vamos a ver una medida ms adecuada para valorar hasta qu punto la variable independiente contribuye a predecir la variable dependiente. Recordemos lo que habamos observado en la Figura 10.4. All tenamos una recta, la de la izquierda, que aparentemente era buena, mientras que la de la derecha aparentemente era peor. Sin embargo, ya dijimos que eso era inexacto. En realidad nosotros no deseamos comprobar exactamente si los puntos estn o no en torno a la recta de regresin, sino en qu medida la recta de regresin explica Y en funcin de X . Vamos a entrar en detalles. Necesitamos que la recta explique Y en funcin de X porque Y tiene datos que presentan una cierta variabilidad: cunta variabilidad? Cuando denimos la varianza, esa variabilidad la medimos como
n

SSyy =
i=1

(yi y ) ,

de tal manera que cuanto ms varen los datos de Y mayor ser SSyy . Por otra parte, cuando ajustamos por 0 + 1 x, medimos el error que cometemos en el ajuste con la recta de regresin y x =
n

SSE =
i=1

(yi y x ) .

Vamos a ponernos en las dos situaciones lmite que pueden darse en cuanto a la precisin de una recta de regresin: Si X no tiene ningn tipo de relacin lineal con Y , entonces = 0, en cuyo caso 1 = la recta es simplemente
V arY V arX

=0y

y i = 0 + 1 xi =y .
Es decir, si X no tiene ningn tipo de relacin lineal con Y , entonces la mejor prediccin que podemos dar por el mtodo de mnimos cuadrados es la media. Adems, en ese caso
n

SSE =
i=1 n

(yi y i )

=
i=1

(yi y ) = SSyy ,

es decir, SSE es el total de la variacin de los valores de Y . Est claro que esta es la peor de las situaciones posibles de cara a la precisin. Si la relacin lineal entre X e Y es total, entonces = 1, en cuyo caso 1 =
V arY . V arX

Adems, si la

202

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

relacin lineal es total, y = y x , de manera que


n

SSE =
i=1

(yi y i ) = 0.

Esta, desde luego, es la mejor de las situaciones posibles. La idea de la medida que vamos a utilizar es cuanticar en qu medida estamos ms cerca o ms lejos de estas dos situaciones. Dado que SSE , que es la medida del error de la recta de regresin, puede ir de 0 (mejor situacin posible) a SSyy (peor situacin posible), tan slo tenemos que relativizar en una escala cmoda una medida de este error. Se dene el

coeciente de determinacin lineal como


r2 = 1 SSE . SSyy

Ntese que la notacin es r al cuadrado, ya que, en efecto, en una regresin lineal simple coincide con el coeciente de correlacin lineal al cuadrado. Por lo tanto, la interpretacin de r2 es la medida en que X contribuye a la explicacin de Y en una escala de 0 a 1, donde el 0 indica que el error es el total de la variacin de los valores de Y y el 1 es la precisin total, el error 0. La medida suele darse en porcentaje. Dicho de otra forma:

Aproximadamente 100 r2 % de la variacin total de los valores de pueden ser explicada mediante la recta de regresin de Y dada X .

respecto de su media

Ejemplo. En el ejemplo de la absorcin explicada por el tiempo de exposicin, r2 = 0.892, de manera


que podemos decir que el 89 % de la variacin total de los valores del porcentaje de absorcin puede ser explicada mediante la recta de mnimos cuadrados dado el tiempo de exposicin. Es evidente que es un porcentaje importante, que proporcionar predicciones relativamente ables.

10.7. Prediccin y estimacin a partir del modelo


Recordemos que en el modelo ajustado de la recta de regresin,

0 + 1 x y x =
y, por otro lado,

E [Y /X =x ] = 0 + 1 x,
luego y x puede interpretarse de dos formas: 1. Como

prediccin del valor que tomar Y

cuando X = x.

Prof. Dr. Antonio Jos Sez Castillo

203

Dpto de Estadstica e I.O. Universidad de Jan

2. Como

estimacin del valor medio de Y

para el valor X = x, es decir, de E [Y /X =x ].

Ambas cantidades estn sujetas a incertidumbre, que ser tanto mayor cuanto ms variabilidad tenga Y, y/o peor sea el ajuste mediante la recta de regresin. Lo que vamos a ver en esta seccin para concluir el tema es cmo establecer
regiones de conanza

para estas

predicciones de los valores de Y y para las estimaciones de los valores medios de Y dados valores de X . Estos resultados requieren que se veriquen los supuestos adicionales sobre los errores dados en la seccin 10.3. Podemos garantizar con un (1 ) 100 % de conanza que cuando X = x, el valor medio de Y se encuentra en el intervalo

y x t1/2;n2 se
es decir, podemos garantizar que

1 (x x ) + ,y x + t1/2;n2 se n SSxx

1 (x x ) + , n SSxx

P E [Y /X =x ] y x t1/2;n2 se

(x x )2 1 + |X =x = 1 . n SSxx

Asimismo, podemos garantizar con un (1 ) 100 % de conanza que cuando X = x, el valor Y se encuentra en el intervalo

y x t1/2;n2 se
es decir, podemos garantizar que

1 (x x ) 1+ + ,y x + t1/2;n2 se n SSxx

2 1 (x x ) 1+ + , n SSxx

P Y y x t1/2;n2 se

1 (x x )2 1+ + |X =x = 1 n SSxx

Nota. No debemos olvidar que los modelos de regresin que podemos estimar lo son a partir de los datos
de una muestra de valores de X e Y . A partir de estos modelos podemos obtener, como acabamos de recordar, predicciones y estimaciones para valores dados de X. Dado que el modelo se basa precisamente en

esos valores de la muestra, no es conveniente hacer predicciones y estimaciones para valores de X

que se encuentren fuera del rango de valores de X en la muestra.

Ejemplo. En la Figura 10.7 aparece la recta de regresin para los datos del ejemplo sobre la absorcin
del compuesto junto con lneas que contienen los intervalos de conanza al 95 % para las predicciones y las estimaciones asociadas a los distintos valores de X .

204

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

110

105

100

Resistencia

95

observed fit conf int pred int

90

85

80

50

60

70

80

90

100

Velocidad

Figura 10.7: Recta de regresin con intervalos de conanza al 95 % para las predicciones (franjas ms exteriores) y para las estimaciones (franjas interiores) en el ejemplo de la absorcin.

Obsrvese que la amplitud de los intervalos se hace mayor en los valores ms extremos de X . Es decir, los errores en las estimaciones y en las predicciones son mayores en estos valores ms extremos. Esto debe ser un motivo a aadir al comentario anterior para no hacer estimaciones ni predicciones fuera del rango de valores de X en la muestra. Por otra parte, nos plantebamos al comienzo de captulo que sera de inters estimar el porcentaje de absorcin que tendr alguien que se someta a un tiempo de exposicin al compuesto de 8 horas. Eso es una prediccin, as que como estimacin puntual daremos

y 8 = 46.82 + 1.60 8 = 59.59


y como intervalo de prediccin al 95 %,

y x t1/2;n2 se

1 (x x )2 1+ + = 59.59 2.36 5.73 n SSxx

2 1 (8 12) 1+ + = (45.17, 74.00) . 9 744

Por el contrario, imaginemos que los trabajadores de una empresa van a estar sometidos todos ellos a un tiempo de exposicin de 8 horas. En ese caso, no tiene sentido que nos planteemos una prediccin para saber cul va a ser su porcentaje de absorcin, ya que cada uno de ellos tendr un porcentaje distinto; lo que s tiene sentido es que nos planteemos cul va a ser el porcentaje medio de absorcin de los trabajadores sometidos a 8 horas de exposicin al compuesto. Esto es un ejemplo de la estimacin de un valor promedio. La estimacin puntual es la misma que en la prediccin, es decir, 59.59, pero el intervalo de conanza al 95 % es

y x t1/2;n2 se

1 (x = 59.59 2.36 5.73 + n SSxx

x )2

1 (8 12) = (54.66, 64.52) . + 9 744

Prof. Dr. Antonio Jos Sez Castillo

205

Dpto de Estadstica e I.O. Universidad de Jan

10.8. Diagnosis del modelo


Todo lo relacionado con inferencia sobre el modelo de regresin se ha basado en el cumplimiento de los supuestos descritos en el apartado 10.3. Como ya comentamos, en la medida en que todos o algunos de estos supuestos no se den, las conclusiones que se extraigan en la inferencia sobre el modelo podran no ser vlidas. Es por ello que es necesario comprobar estos supuestos mediante herramientas de diagnstico. Aqu vamos a ver slo las ms bsicas, vinculadas al anlisis de los residuos y a la grca de residuos frente a los valores ajustados.

10.8.1. Normalidad de los residuos


Entre los supuestos del modelo consideramos que los residuos, es decir,
i

= yi y i

siguen una distribucin normal. Ni que decir tiene que comprobar esta hiptesis en trivial: bastar con calcular los residuos, ajustarles una distribucin normal y realizar un contraste de bondad de ajuste mediante, por ejemplo, el test de KolmogorovSmirno.

10.8.2. Grca de residuos frente a valores ajustados


El resto de supuestos se reeren a la varianza constante de los residuos, a su media cero y a su independencia. Una de las herramientas diagnsticas ms simples para estas hiptesis es la llamada grca
a valores ajustados. de residuos frente

Se trata de representar en unos ejes cartesianos:

1. En el eje X, los valores y i de la muestra. 2. En el eje Y, los residuos,


i

= yi y i .

Habitualmente, se le aade a esta grca la recta de regresin de la nube de puntos resultante. Vamos a ir viendo cmo debe ser esta grca en el caso de que se cumplan cada uno de los supuestos: 1. Si la media de los residuos es cero, la nube de puntos de la grca debe hacernos pensar en una recta de regresin horizontal situada en el cero, indicando que sea cual sea el valor y i , la media de los residuos es cero. 2. Si los errores son independientes, no debe observarse ningn patrn en la grca, es decir, ningn efecto en ella que haga pensar en algn tipo de relacin entre y i y
i.

3. Si los errores tienen una varianza constante (se habla entonces de

homocedasticidad), la dispersin

vertical de los puntos de la grca no debe variar segn vare el eje X. En caso contrario, se habla de

heterocedasticidad.

Una ltima observacin: si se dan todas las condiciones que acabamos de mencionar sobre la grca de residuos frente a valores ajustados, entonces es del modelo sean ciertos.
probable,

pero no se tiene la seguridad, de que los supuestos

206

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Residuals vs Fitted 5
5 4

Residuals

15 10

50

55

60

65

70

75

80

85

Fitted values lm(Porcentaje.Absorbido ~ Tiempo)


Figura 10.8: Grca de valores ajustados vs residuos en el ejemplo de la absorcin

Ejemplo.
requeridas:

Por ltima vez vamos a considerar el ejemplo de la absorcin. En la Figura 10.8 aparece el

grco de residuos vs valores ajustados y podemos ver que a primer vista parece que se dan las condiciones

1. Los puntos se sitan en torno al eje Y = 0, indicando que la media de los residuos parece ser cero. 2. No se observan patrones en los residuos. 3. No se observa mayor variabilidad en algunas partes del grco. Hay que tener en cuenta que son muy pocos datos para sacar conclusiones.

Prof. Dr. Antonio Jos Sez Castillo

207

Dpto de Estadstica e I.O. Universidad de Jan

208

Prof. Dr. Antonio Jos Sez Castillo

Parte IV
Procesos aleatorios

209

Captulo 11
Procesos aleatorios

The best material model of a cat is another, or preferably the same, cat. Norbert Wiener,
Philosophy of Science

(1945) (with A. Rosenblueth)

Resumen.

Los procesos aleatorios suponen el ltimo paso en la utilizacin de modelos matemticos para

describir fenmenos reales no determinsticos: concretamente, se trata de fenmenos aleatorios que dependen del tiempo. Se describen principalmente en trminos de sus medias y sus covarianzas. En este captulo se incluyen adems algunos de los ejemplos ms comunes de tipos de procesos y su comportamiento cuando se transmiten a travs de sistemas lineales invariantes en el tiempo.

Palabras clave.
potencia.

Procesos aleatorios, funcin media, funcin de autocorrelacin, funcin de autocovarian-

za, procesos estacionarios, procesos gaussianos, proceso de Poisson, sistemas lineales, densidad espectral de

11.1. Introduccin
En muchos experimentos de tipo aleatorio el resultado es una funcin del tiempo (o del espacio). Por ejemplo, en sistemas de reconocimiento de voz las decisiones se toman sobre la base de una onda que reproduce las caractersticas de la voz del interlocutor, pero la forma en que el mismo interlocutor dice una misma palabra sufre ligeras variaciones cada vez que lo hace; en un sistema de cola, por ejemplo, en un servidor de telecomunicaciones, el nmero de clientes en el sistema a la espera de ser atendidos evoluciona con el tiempo y est sujeto a condiciones tales que su comportamiento es
impredecible ;

en un sistema de comunicacin tpico, la seal de entrada es una onda que evoluciona con el tiempo y que se introduce en un canal donde es contaminada por un ruido aleatorio, de tal manera que es imposible separar cul es el mensaje original con absoluta ... 211
certeza.

Dpto de Estadstica e I.O. Universidad de Jan

Desde un punto de vista matemtico, todos estos ejemplos tienen en comn que el fenmeno puede ser visto como unas funciones que dependen del tiempo, pero que son desconocidas a priori, porque dependen del
azar.

En este contexto vamos a denir el concepto de proceso aleatorio. Nuestro objetivo, como en captulos

anteriores dedicados a variables y vectores aleatorios, es describir desde un punto de vista estadstico el fenmeno, proporcionando medidas de posicin, medidas sobre la variabilidad, etc.

11.1.1. Denicin
Consideremos un experimento aleatorio sobre un espacio muestral . Supongamos que para cada resultado posible, A, tenemos una observacin del fenmeno dada por una funcin real de variable real, x (t, A), con

t I R. Habitualmente, t representa al tiempo, pero tambin puede referirse a otras magnitudes fsicas.
Para cada A vamos a denominar a x (t, A)

realizacin o funcin muestral.

Obsrvese que para cada t0 I , X (t, ) es una variable aleatoria. Pues bien, al conjunto

{X (t, A) : t I, A }
lo denominamos

proceso aleatorio (en adelante p.a.) o estocstico.

Si recordamos las deniciones de variable aleatoria y vector aleatorio, podemos ver en qu sentido estn relacionados los conceptos de variable, vector y proceso aleatorio. Concretamente, si es un espacio muestral, una variable aleatoria es una funcin

X:R
que a cada suceso posible le asigna funcin

un nmero real. Por su parte, un vector aleatorio es bsicamente una


X : RN

que a cada suceso posible le asigna funcin

un vector real.

Finalmente, un proceso aleatorio es bsicamente una

X : {funciones reales de vble real}


que a cada suceso posible le asigna

una funcin real.

De cara a escribir de ahora en adelante un p.a., lo notaremos normalmente, por ejemplo, como X (t), obviando as la variable que hace referencia al elemento del espacio muestral al que va asociada la funcin muestral. Este convenio es el mismo que nos lleva a escribir X rerindonos a una v.a. o a un vector.

11.1.2. Tipos de procesos aleatorios


El tiempo es una magnitud fsica intrnsecamente continua, es decir, que puede tomar cualquier valor de los nmeros reales. Sin embargo, no siempre es posible observar las cosas el proceso es observado
en cada instante en cada instante del tiempo.

Por eso,

en el mbito de los procesos (no slo estocsticos) es importante preguntarse si el fenmeno que representa o slo
en momentos concretos del tiempo.
Prof. Dr. Antonio Jos Sez Castillo

212

Apuntes de Estadstica para Ingenieros

Figura 11.1: Representacin de un proceso aleatorio.

Dado un espacio muestral y un p.a. denido en l,

{X (t, A) : t I, A } ,
se dice que el proceso es un

p.a. en tiempo discreto si I

es un conjunto numerable.

En el caso de procesos en tiempo discreto se suele escribir Xn o X [n] rerindonos a la notacin ms general

X (n). Por otra parte, el conjunto I normalmente es el conjunto de los enteros o de los enteros positivos,
aunque tambin puede ser un subconjunto de stos. En algunos libros los procesos en tiempo discreto tambin son denominados Dado un espacio muestral y un p.a. denido en l,

secuencias aleatorias.

{X (t, A) : t I, A } ,
se dice que el proceso es un junto de stos. Si nos damos cuenta, esta primera clasicacin de los p.a. la hemos hecho en funcin del carcter discreto o continuo del tiempo, es decir, del conjunto I . Existe otra clasicacin posible en funcin de cmo son las variables aleatorias del proceso, discretas o continuas. Sin embargo, ambos tipos de procesos, con variables discretas o con variables continuas, pueden estudiarse casi siempre de forma conjunta. Por ello slo distinProf. Dr. Antonio Jos Sez Castillo

p.a. en tiempo continuo si I

es un intervalo.

En el caso de procesos en tiempo continuo, I es normalmente el conjunto de los reales positivos o un subcon-

213

Dpto de Estadstica e I.O. Universidad de Jan

Figura 11.2: Distintas funciones muestrales de un proceso aleatorio.

Figura 11.3: Distintas funciones muestrales de un proceso. guiremos p.a. con variables discretas y p.a. con variables continuas si es necesario. En este sentido, cuando nos reramos a la funcin masa (si el p.a. es de variables discretas) o a la funcin de densidad (si el p.a. es de variables continuas), hablaremos en general de funcin de densidad.

Ejemplo.

Sea una variable aleatoria uniforme en (1, 1). Denimos el proceso en tiempo continuo

X (t, ) como X (t, ) = cos (2t) .


Sus funciones muestrales son ondas sinusoidales de amplitud aleatoria en (1, 1) (Figura 11.2).

Ejemplo.

Sea una variable aleatoria uniforme en (, ). Denimos el proceso en tiempo continuo

X (t, ) como X (t, ) = cos (2t + ) .


Sus funciones muestrales son versiones desplazadas aleatoriamente de cos (2t) (Figura 11.3).

214

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

11.2. Descripcin de un proceso aleatorio


11.2.1. Descripcin estadstica mediante distribuciones multidimensionales
En general, para especicar cmo es un p.a. de forma precisa es necesario caracterizar la distribucin de probabilidad de cualquier subconjunto de variables del proceso. Es decir, si X (t) es un p.a., es necesario conocer cul es la distribucin de cualquier vector del tipo

(X (t1 ) , ..., X (tk )) ,


para todo k > 0, (t1 , ..., tk ) I , mediante su funcin de distribucin conjunta

FX (t1 ),...,X (tk ) (x1 , ..., xk )


o mediante su funcin de densidad (o masa) conjunta

fX (t1 ),...,X (tk ) (x1 , ..., xk ) .


Sin embargo, no siempre es fcil conocer todas las posibles distribuciones de todos los posibles vectores de variables del proceso. Por ello, para tener una descripcin ms sencilla aunque puede que incompleta del proceso, se acude a las medias, a las varianzas y a las covarianzas de sus variables.

11.2.2. Funcin media y funciones de autocorrelacin y autocovarianza


Sea un p.a. X (t). Se dene la

funcin media o simplemente la media de X (t) como


(t) = x X (t) = E [X (t)] =

xfX (t) (x) dx,

para cada t I. Ntese que, como su nombre indica, se trata de una funcin determinstica. No tiene ninguna componente aleatoria. Ntese tambin que aunque se est escribiendo el smbolo integral, podramos estar rerindonos a una variable discreta, en cuyo caso se tratara de una suma.

Se dene la

funcin de autocovarianza

o simplemente la

autocovarianza de X (t) como

CX (t, s) = Cov [X (t) , X (s)] = E [(X (t) mX (t)) (X (s) mX (s))] = (x1 x (t)) (x2 x (s)) fX (t),X (s) (x1 , x2 ) dx2 dx1

Prof. Dr. Antonio Jos Sez Castillo

215

Dpto de Estadstica e I.O. Universidad de Jan

Se dene la

funcin de autocorrelacin

o simplemente la

autocorrelacin de X (t) como

RX (t, s) = E [X (t) X (s)] =

x1 x2 fX (t),X (s) (x1 , x2 ) dx2 dx1


Ntese, de cara al clculo, que la diferencia entre ambas funciones tan slo es el producto de las medias1 .

CX (t, s) = RX (t, s) mX (t) mX (s) .


De hecho, si el proceso est funciones coinciden. Por otra parte, la varianza de las variables del proceso puede obtenerse como

centrado en media,

es decir, si su media es constantemente cero, ambas

V ar (X (t)) = CX (t, t) .
La interpretacin de la funcin de autocovarianza CX (t, s) es la de una funcin que proporciona una medida de la interdependencia lineal entre dos v.a. del proceso, X (t) y X (s), que distan = s t unidades de tiempo. De hecho, ya sabemos que podramos analizar esta relacin mediante el coeciente de correlacin lineal

X (t, s) =

CX (t, s) CX (t, t) CX (s, s)

Aparentemente es esperable que tanto ms rpidamente cambie el proceso, ms decrezca la autocorrelacin conforme aumenta , aunque por ejemplo, los procesos peridicos no cumplen esa propiedad. En el campo de la teora de la seal aletatoria, a partir de la funcin de autocorrelacin se puede distinguir una seal cuyos valores cambian muy rpidamente frente a una seal con variaciones ms suaves. En el primer caso, la funcin de autocorrelacin y de autocovarianza en instantes t y t + decrecern lentamente con , mientras que en el segundo, ese descenso ser mucho ms rpido. En otras palabras, cuando la autocorrelacin (o la autocovarianza) es alta, entre dos instantes cercanos del proceso tendremos valorer similares, pero cuando es baja, podremos tener fuertes diferencias entre valores cercanos en el tiempo. La gran importancia de estas funciones asociadas a un proceso, media y autocovarianza (o autocorrelacin), es por tanto que aportan toda la informacin acerca de la relacin lineal que existe entre dos v.a. cualesquiera del proceso. Como hemos dicho, en la prctica, resulta extremadamente complicado conocer completamente la distribucin de un proceso y, cuando esto ocurre, no siempre es sencillo utilizar las tcnicas del clculo de probabilidades para el tratamiento de estos procesos. Sin embargo, tan slo con la informacin dada por la funcin media y la funcin de autocorrelacin pueden ofrecerse resultados muy relevantes acerca de los procesos, tal y como hemos visto en el caso de variables y vectores aleatorios.

Ejemplo. La seal recibida por un receptor AM de radio es una seal sinusoidal con fase aleatoria, dada
por X (t) = A cos (2fc t + ) , donde A y fc son constantes y es una v.a. uniforme en (, ) .
1 Esta

el producto de las medias.

frmula es la misma que cuando veamos la covarianza entre dos variables, calculable como la media del producto menos

216

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

En ese caso,

E [X (t)] =

A cos (2fc t + )

1 A = d = [sin (2fc t + )]= 2 2

A (sin (2fc t) cos ( ) + cos (2fc t) sin ( ) sin (2fc t) cos ( ) cos (2fc t) sin ( )) 2 A = [0 + 0] = 0. 2

RX (t, t + ) = E [X (t + ) X (t)] = E A2 cos (2fc t + 2fc + ) cos (2fc t + ) = A2 A2 E [cos (4fc t + 2fc + 2)] + E [cos (2fc )] 2 2

A2 = 2

1 A2 cos (4fc t + 2fc + 2 ) d + cos (2fc ) 2 2

A2 A2 A2 = 0+ cos (2fc ) = cos (2fc ) . 2 2 2


Por tanto,

CX (t, t + ) = RX (t, t + ) mX (t) mX (t + ) =

A2 cos (2fc ) . 2

11.3. Tipos ms comunes de procesos aleatorios


En este apartado denimos propiedades que pueden ser vericadas por algunos procesos aleatorios y que les coneren caractersticas especiales en las aplicaciones prcticas.

11.3.1. Procesos independientes


Sea un p.a. X (t). Si para cada n instantes de tiempo, t1 , ..., tn , las v.a. del proceso en esos instantes son independientes, es decir,

fX (t1 ),...,X (tn ) (x1 , ..., xn ) = fX (t1 ) (x1 ) ... fX (tn ) (xn ) ,
se dice que el proceso es

independiente.

La interpretacin de este tipo de procesos es la de aquellos en donde el valor de la v.a. que es el proceso en un momento dado no tiene nada que ver con el valor del proceso en cualquier otro instante. Desde un punto de vista fsico estos procesos son muy
caticos

y se asocian en la prctica a ruidos que no guardan en un

momento dado ninguna relacin consigo mismos en momentos adyacentes.


Prof. Dr. Antonio Jos Sez Castillo

217

Dpto de Estadstica e I.O. Universidad de Jan

10

Figura 11.4: Funcin muestral de un proceso independiente formado por v.a gaussianas de media cero y varianza uno.

11.3.2. Procesos con incrementos independientes


Sea un p.a. X (t). Se dice que tiene incrementos independientes si cualquier conjunto de N v.a. del proceso,

X (t1 ) , X (t2 ) , ..., X (tN ), con t1 < t2 < ... < tN son tales que los incrementos X (t1 ) , X (t2 ) X (t1 ) , ..., X (tN ) X (tN 1 )
son independientes entre s.

11.3.3. Procesos de Markov


No debemos perder de vista la complejidad que implica la descripcin estadstica de un proceso aleatorio. Pensemos por ejemplo que un proceso ha evolucionado hasta un instante t y se conoce esa evolucin; es decir, se conoce el valor X (s) = xs para todo s t. Si se desea describir la posicin del proceso en un instante posterior a t, t + , sera necesario calcular la distribucin condicionada

X (t + ) | {X (s) = xs para todo s t} .


Esto, en general, es bastante complejo. Adems, tiene sentido pensar que la evolucin del proceso en el instante t + se vea afectada por toda la historia del proceso, desde el instante inicial s = 0 hasta el ltimo instante de esa historia s = t? Parece lgico pensar que la evolucin del proceso tenga en cuenta la historia ms reciente de ste, pero no toda la historia. Esta hipotesis se ve avalada por los perles ms habituales de las funciones de autocorrelacin, donde observamos que la relacin entre variables del proceso suele decrecer en la mayora de las ocasiones conforme aumenta la distancia en el tiempo entre las mismas. Los procesos de Markov son un caso donde esto ocurre. Se trata de procesos que evolucionan de manera que en cada instante
olvidan

todo su pasado y slo tienen en cuenta para su evolucin futura el instante ms


Prof. Dr. Antonio Jos Sez Castillo

218

Apuntes de Estadstica para Ingenieros

reciente, ms actual. En el siguiente sentido: Un proceso X (t) se dice

markoviano o de Markov

si para cualesquiera t1 < ... < tn < tn+1 instantes

consecutivos de tiempo se verica

fX (tn+1 )|X (t1 )=x1 ,...,X (tn )=xn (xn+1 ) = fX (tn+1 )|X (tn )=xn (xn+1 ) .
Esta denicin se suele enunciar coloquialmente diciendo que un proceso de Markov es
depende del pasado sino tan slo del presente.

aquel cuyo futuro no

11.3.4. Procesos dbilmente estacionarios


Una de las propiedades ms usuales en los procesos estocsticos consiste en una cierta estabilidad en sus medias y en sus covaranzas, en el sentido en que vamos a describir a continuacin.

X (t) es un proceso

dbilmente estacionario si

mX (t) es independiente de t y C (t, s) (o R (t, s)) depende tan slo de s t, en cuyo caso se nota C (s t) ( R (s t)).
Es importante destacar que la primera de las condiciones es irrelevante, ya que siempre se puede centrar en media un proceso para que sta sea cero, constante. Es decir, en la prctica es indiferente estudiar un proceso

X (t) con funcin media X (t) que estudiar el proceso Y (t) = X (t) X (t), con media cero.
La propiedad ms exigente y realmente importante es la segunda. Viene a decir que la relacin entre variables aleatorias del proceso slo depende de la distancia en el tiempo que las separa.

Nota.

Vamos a hacer una puntualizacin muy importante respecto a la notacin que emplearemos en

adelante. Acabamos de ver que si un proceso es dbilmente estacionario, sus funciones de autocovarianza y de autocorrelacin, C (s, t) y R (s, t) no dependen en realidad de s y de t, sino tan slo de t s. Por eso introducimos la notacin

C (t, s) C (s t) R (t, s) = R (s t) .
Por lo tanto, qu queremos decir si escribimos directamente C ( ) o R ( )? Que tenemos un p.a. dbilmente estacionario y que hablamos de

C ( ) = C (t, t + ) R ( ) = R (t, t + ) .

Una medida importante asociada a un proceso dbilmente estacionario es la observaremos con detenimiento esta medida.
Prof. Dr. Antonio Jos Sez Castillo

potencia promedio,
2

deni-

da como la media del cuadrado de ste en cada instante t, es decir RX (0) = E |X (t)|

. Ms adelante

219

Dpto de Estadstica e I.O. Universidad de Jan

Por otra parte, la peculiaridad que dene a los procesos dbilmente estacionarios le conere a su funcin de autocorrelacin y autocovarianza dos propiedades interesantes: sea X (t) un proceso estacionario (dbil). Entonces, si notamos RX ( ) = E [X (t) X (t + )] para todo t, su funcin de autocorrelacin y por CX ( ) a su funcin de autocovarianza:

1. Ambas son funciones pares, es decir, RX ( ) = RX ( ) y CX ( ) = CX ( ).

2. |RX ( )| RX (0) y |CX ( )| CX (0) = 2 para todo .

Ejemplo. En el ejemplo del oscilador vimos que la seal recibida por un receptor AM de radio es una
seal sinusoidal con fase aleatoria, dada por X (t) = A cos (2fc t + ) , donde A y fc son constantes y

es una v.a. uniforme en (, ) tiene por funcin media E [X (t)] = 0


y por funcin de autocorrelacin

RX (t, t + ) =

A2 cos (2fc ) . 2

De esta forma, podemos ver que el proceso es dbilmente estacionario.

Ejemplo. Un proceso binomial es un proceso con funcin de autocovarianza


C (m, n) = m n (m, n) p (1 p) ,
que no depende slo de m n. Por lo tanto no es dbilmente estacionario.

Ejemplo.

Vamos a considerar un proceso en tiempo discreto e independiente, Xn , con media cero y

varianza constante e igual a 2 . Vamos a considerar tambin otro proceso que en cada instante de tiempo considera la media de X en ese instante y el anterior, es decir,

Yn =

Xn + Xn1 . 2

En primer lugar, dado que E [Xn ] = 0 para todo n, lo mismo ocurre con Yn , es decir,

E [Yn ] = E

Xn + Xn1 = 0. 2

220

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Por otra parte,

CY (n, n + m) = RY (n, n + m) 0 = E [Y (n) Y (n + m)] =E = Xn + Xn1 Xn+m + Xn+m1 2 2

1 E [(Xn + Xn1 ) (Xn+m + Xn+m1 )] 4 1 = (E [Xn Xn+m ] + E [Xn Xn+m1 ] + E [Xn1 Xn+m ] + E [Xn1 Xn+m1 ]) 4
Ahora debemos tener en cuenta que

CX (n, m) = RX (n, m) =
ya que Xn es un proceso independiente. Por lo tanto,

0 2

si n = m si n = m

1 2 2 4 +0+0+ 1 0 + 2 + 0 + 0 CY (n, n + m) = 4 1 2 4 0+0+ +0 0 1 2 2 si m = 0 2 = 1 si m = 1 4 0 en otro caso

si m = 0 si m = 1 si m = 1 en otro caso

Podemos decir, por tanto, que el proceso Yn tambin es dbilmente estacionario, porque su media es constante (cero) y CY (n, n + m) no depende de n sino tan slo de m.

11.3.5. Procesos ergdicos


Si nos damos cuenta, estamos describiendo los procesos aleatorios a partir de promedios estadsticos, principalmente a partir de la media de cada una de sus variables y de sus correlaciones. Vamos a centrarnos en procesos dbilmente estacionarios. En ese caso, los promedios estadsticos ms relevantes seran la media,

E [X (t)] = mX (t) = mX =

xfX (t) (x) dx

y la autocorrelacin entre dos variables que disten unidades de tiempo,

RX ( ) = E [X (t) X (t + )] =

x1 x2 fX (t)X (t+ ) (x1 , x2 ) dx1 dx2 .

Hasta ahora quiz no lo habamos pensado, pero ms all de los tpicos ejemplos, cmo podramos tratar de calcular o estimar al menos estas cantidades? Si aplicamos lo que hemos aprendido hasta ahora, estimaramos, por ejemplo, la media con la media muestral, pero para ello necesitaramos una muestra muy grande de
Prof. Dr. Antonio Jos Sez Castillo

221

Dpto de Estadstica e I.O. Universidad de Jan

funciones muestrales del proceso, y eso no siempre ocurre. De hecho, no es nada rara la situacin en la que, en realidad, slo es posible observar una nica funcin muestral del proceso. Ahora bien, dada una nica funcin muestral de un proceso, x (t), en esa funcin hay muchos datos, tantos como instantes de tiempo t hayamos sido capaces de observar. No podra ocurrir que utilizramos todos esos datos que hay en x (t)para estimar las medias y las autocorrelaciones? Por ejemplo, si tenemos observada la seal x (t) en un montn de valores t1 , ...tn , qu tendr que ver

x (t1 ) + ...x (tn ) n


con la media del proceso mX ? De hecho, si n es muy grande y corresponde a un intervalo de observacin

[T, T ], tendramos que x (t1 ) + ... + x (tn ) n


Ahora no es una integral sobre los valores de x (integral

1 2T

x (t) dt.
T

estadstica )

sino sobre el tiempo.

En el caso de la autocorrelacin pasara igual, tendramos que podramos observar un montn de pares de valores de la seal en los instantes t1 , ..., tn y t1 + , ..., tn + en el intervalo [T, T ] y con ellos podramos estimar

1 2T

x (t) x (t + ) dt
T

x (t1 ) x (t1 + ) + ... + x (tn ) x (tn + ) . n

Lo que no sabemos, en general, es si esa integral tiene algo que ver con RX ( ), que es una integral estadstica. Pues bien, se dice que un proceso estacionario es

ergdico cuando las funciones que entraan valores espeestadsticos )

rados a lo largo de las realizaciones (integrales o promedios

pueden obtenerse tambin a partir

de una sola funcin muestral x (t). Es decir, que una sola realizacin es representativa de todo el proceso. Ms concretamente, un proceso ser ergdico en media y en autocorrelacin si

limT
y

1 2T

x (t) dt = mX
T

1 limT 2T

x (t) x (t + ) dt = RX ( ) .
T

11.4. Ejemplos de procesos aleatorios


11.4.1. Ruidos blancos
En telecomunicaciones los ruidos son seales que se adhieren a la seal enviada en cualquier proceso de comunicacin, de tal manera que uno de los objetivos fundamentales en este tipo de procesos es, dada la seal resultante de sumar la seal enviada, X (t), y el ruido del canal, N (t), es decir, dada Y (t) = X (t)+N (t), saber
ltrar

esta seal para estimar cul es el verdadero valor de X (t).

En este apartado nos referimos brevemente a un modelo gastante comn para los fenmenos de ruido, llamado ruido blanco.

222

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Un

ruido blanco es un proceso N (t) centrado, dbilmente estacionario e incorrelado con varianza
N0
2

N0 2 .

Por

tanto, su funcin de autocovarianza (y autocorrelacin) ser si = 0 en otro caso

CN (t, t + ) =

Utilizando la llamada funcin impulso, dada por

1 si t = 0 (t) = , 0 en otro caso


esta funcin de autocovarianza puede escribirse como

CN ( ) =

N0 ( ) . 2

La justicacin de que este sea un modelo habitual para los ruidos, considerando que los valores del ruido estn incorrelados unos con otros, es que suelen ser debidos a fenmenos completamente aleatorios y caticos, por lo que no es esperable que exista relacin entre valores del ruido, ni siquiera cuando stos son muy cercanos en el tiempo.

11.4.2. Procesos gaussianos


Hasta ahora hemos denido y estudiado familias muy genricas de procesos (independientes, estacionarios, ...). En esta seccin vamos a considerar ms concretamente la conocida como familia de procesos aleatorios gaussianos, que constituye, sin duda, la ms importante de entre las que se utilizan en Telecomunicaciones y en cualquier otro mbito de aplicacin de la Estadstica. Un p.a. X (t) se dice

proceso gaussiano si cualquier coleccin de variables del proceso tiene distribucin


1 exp (x ) C 1 (x ) , 2 (2 ) det (C )
n

conjuntamente gaussiana. Es decir, si cualquier coleccin X (t1 ) , ..., X (tn ) tiene funcin de densidad conjunta

fX (t1 ),...,X (tn ) (x1 , ..., xn ) =


donde

x = (x1 , ..., xn ) , = (E [X (t1 )] , ..., E [X (tn )]) , C = (Ci,j )i,j =1,..,n , Cij = Cov [X (ti ) , X (tj )] .
Ntese que un proceso gaussiano est completamente descrito una vez que se conocen su funcin media y su autocovarianza o su autocorrelacin.
Prof. Dr. Antonio Jos Sez Castillo

223

Dpto de Estadstica e I.O. Universidad de Jan

Existen dos razones fundamentales por las que, como hemos comentado, los procesos gaussianos son la familia de procesos ms relevante: Por una parte, las propiedades analticas que verican los hacen fcilmente manejables, como veremos a continuacin. Por otra parte, estos procesos han demostrado ser un excelente modelo matemtico para gran nmero de experimentos o fenmenos reales (resultado amparado en el Teorema Central del Lmite).

Ejemplo. Es muy habitual considerar que los ruidos blancos son gaussianos. En ese caso, si consideramos
ruidos blancos gaussianos, sus variables no slo son incorreladas, sino que tambin son independientes.

Ejemplo.

Sea un proceso gaussiano X (t) dbilmente estacionario con E [X (t)] = 4 y autocorrelacin

RX ( ) = 25e3| | + 16. Obsrvese que la autocorrelacin (y la autocovarianza) decrece rpidamente con


el paso del tiempo. Si deseamos caracterizar la distribucin de probabilidad de tres v.a. del proceso, observadas en los instantes t0 , t1 = t0 +
1 2

y t2 = t1 +

1 2

= t0 + 1, necesitamos las medias, E [X (ti )] = 4 y la matriz de

covarianzas, dada a partir de CX ( ) = 25e3| | .

25 25e6/2

25e3/2 25 25e3/2

25e6/2

CX (t0 ),X (t1 ),X (t2 ) = 25e3/2

25e3/2 . 25

Algunas propiedades de inters de los procesos gaussianos: Un proceso gaussiano es independiente si y slo si C (ti , tj ) = 0 para todo i = j. Sea X (t) un proceso gaussiano. Este proceso es markoviano si y slo si

CX (t1 , t3 ) =
para cualesquiera t1 < t2 < t3 .

CX (t1 , t2 ) CX (t2 , t3 ) , CX (t2 , t2 )

Un proceso X (t) gaussiano, centrado, con incrementos independientes y estacionarios es de Markov.

11.4.3. Procesos de Poisson


El proceso de Poisson es un modelo para procesos de la vida real que cuentan ocurrencias de un suceso a lo largo del tiempo, denominados por ello
procesos de recuento.

Algunos de los ejemplos ms comunes en el campo de las Telecomunicaciones son el proceso que cuenta el nmero de llamadas recibidas en una centralita telefnica o el que cuenta el nmero de visitas a una pgina WEB. En otros mbitos, como la Fsica, estos procesos pueden servir, por ejemplo, para contabilizar el nmero de partculas emitidas por un cuerpo.

224

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

En todas estas aplicaciones, el proceso tendra la expresin

N (t) =
n=1

u (t T [n]) ,

donde T [n] es un proceso en tiempo discreto que representa el momento de la nsima llegada que cuenta el proceso y

0 si t < t 0 u (t t0 ) = 1 si t t 0

es la funcin umbral. El

proceso de Poisson de parmetro es el proceso N (t) =

n=1

u (t T [n]) para el cual la v.a. T [n]

es una suma de n exponenciales independientes del mismo parmetro , lo que genera una distribucin de Erlang de parmetros n y , con funcin de densidad

fT [n] (t) =
Alternativamente, puede decirse que

(t) et u (t) . (n 1)!

n1

llegadas,

el proceso de Poisson es aqul en el que los tiempos entre


[n] = T [n] T [n 1] ,

siguen siempre distribuciones exponenciales independientesa del mismo parmetro, esto es


f[n] (t) = et u (t) .

a Obsrvese por tanto que el proceso T [n] tiene incrementos independientes.

Ejemplo.

En la Figura 11.6 se muestran funciones muestrales de un proceso de Poisson de parmetro

= 1. Vamos a interpretar la funcin muestral de la izquierda pensando, por ejemplo, que representa
el nmero de visitas a una pgina WEB: se observa que poco depus de los tres minutos se han dado 3 visitas; despus pasan casi 5 minutos sin ninguna visita; a continuacin se producen un buen nmero de visitas en poco tiempo; ... Si observamos tan slo el eje del tiempo, podramos sealar los instantes en que se producen las llegadas. Sabemos que esos incrementos en el tiempo desde que se produce una llegada hasta la siguiente siguen una distribucin exponencial, en este caso de parmetro 1. Vamos a describir algunas de las propiedades ms interesantes de los procesos de Poisson: Sea N (t) un proceso de Poisson de parmetro . Entonces, para todo t se tiene que N (t) P (t). La media de un proceso de Poisson de parmetro es N (t) = t. Por tanto, el proceso de Poisson no es estacionario. Sea N (t) un proceso de Poisson de parmetro . Entonces, el proceso tiene incrementos independientes
Prof. Dr. Antonio Jos Sez Castillo

225

Dpto de Estadstica e I.O. Universidad de Jan

Figura 11.5: Representacin grca de una funcin muestral de un p.a. de Poisson. y para cualesquiera t1 < t2 , el incremento N (t2 ) N (t1 ) sigue una distribucin de Poisson de parmetro

(t2 t1 ).
Sea N (t) un proceso de Poisson de parmetro . Entonces

CN (t1 , t2 ) = m n (t1 , t2 ) .
Sea N (t) un proceso de Poisson de parmetro . Entonces, para cualesquiera t1 < ... < tk ,

fN (t1 ),...,N (tk ) (n1 , ..., nk ) nk nk1 n2 n1 1 1 n 2 2 k 2 1 e e ... e n1 ! (n2 n1 )! (nk nk1 )! si n1 ... nk , = 0 en otro caso
donde i = (ti ti1 ) . El proceso de Poisson es de Markov. Sean N1 (t) p.a. de Poisson de parmetro 1 , N2 (t) p.a. de Poisson de parmetro 2 , ambos independientes. Entonces, N1 (t) + N2 (t) es un p.a. de Poisson de parmetro 1 + 2 . Esta propiedad se conoce como
propiedad aditiva.

Sea N (t) un p.a. de Poisson de parmetro . Supongamos que de todos los eventos que cuenta el proceso, slo consideramos una parte de ellos; concretamente los que presentan una caracterstica que tiene probabilidad p entre todos los eventos. En ese caso, si notamos por Np (t) al proceso que cuenta

226

Prof. Dr. Antonio Jos Sez Castillo

Apuntes de Estadstica para Ingenieros

Figura 11.6: Funciones muestrales de un proceso de Poisson de parmetro 1. los eventos con la caracterstica dada, dicho proceso es de Poisson de parmetro p. Esta propiedad se conoce como
propiedad de descomposicin.

El tiempo W que transcurre desde un instante arbitrario t0 hasta la siguiente discontinuidad de un proceso de Poisson de parmetro es una variable aleatoria exponencial de parmetro , independientemente de la eleccin del punto t0 . Esta propiedad aparentemente paradjica se conoce como

propiedad de no memoria del proceso de Poisson. Obsrvese que, en realidad, esta propiedad de no
memoria lo es de la distribucin exponencial.

Ejemplo.
segundo.

Es frecuente considerar que el proceso que cuenta el nmero de partculas emitidas por un

material radiactivo es un proceso de Poisson. Vamos a suponer por tanto, que estamos observando el comportamiento de un determinado material del que se conoce que emite a razn de partculas por Supongamos que se observa el proceso que cuenta el nmero de partculas emitidas desde un instante

t hasta el instante t + T0 . Si en ese intervalo de tiempo se supera un umbral de N0 partculas, debera


sonar una seal de alarma. En ese caso, la probabilidad de que la alarma suene es

P [N (t + T0 ) N (t) > N0 ] =
k=N0 +1

eT0

(T0 ) =1 k!

N0

eT0
k=0

(T0 ) , k!

ya que N (t + T0 ) N (t) P (T0 ).

Ejemplo.

El nmero de visitas a la pgina WEB de una empresa que desea vender sus productos a

travs de INTERNET es adecuadamente descrito mediante un proceso de Poisson. Sabiendo que durante una hora se reciben un promedio de 5 visitas,

Prof. Dr. Antonio Jos Sez Castillo

227

Dpto de Estadstica e I.O. Universidad de Jan

1. cul es la probabilidad de que no se reciba ninguna visita en media hora?

P [N (0.5) = 0] = e50.5
apenas un 8 % de probabilidad.

(5 0.5) = 8.2085 102 , 0!

2. Cul es el promedio de visitas en 5 horas a la WEB? E [N (5)] = 5 5 = 25 visitas. 3. La empresa absorbe otra empresa del sector y opta por establecer un enlace directamente desde la pgina de su lial a la propia, garantizndose que todos los clientes de la lial visitan su pgina. Si el promedio de clientes que visitaban la pgina de la lial era de 2 clientes a la hora, cul es la probabilidad de que tras la fusin no se reciba ninguna visita en 10 minutos? Al hacerse con los clientes de la otra empresa (notemos por M (t) al proceso de Poisson que contaba sus visitas, de parmetro = 2 visitas/hora), lo que ha ocurrido es que ahora el nmero de visitas a la WEB de la empresa es la suma de ambos procesos: T (t) = N (t) + M (t) . Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas fueran independientes, se tiene que T (t), en virtud de la propiedad aditiva del proceso de Poisson, es tambin un proceso de Poisson, de parmetro = 5 + 2 = 7 visitas/hora. Por tanto,

P T
una probabilidad del 31 %.

1 6

=0 =e

7 1 6

1 7 6 0!

= 0.3114,

228

Prof. Dr. Antonio Jos Sez Castillo

Bibliografa

[Canavos, G. C. (1988)] Canavos, G. C. (1988). Probabilidad y Estadstica. Aplicaciones y Mtodos. McGraw-Hill. [DeVore, J. L. (2004)] DeVore, J. L. (2004). Probabilidad y estadstica para ingeniera y ciencias (6 edicin). Thomson. [Johnson, R. A. (1997)] Johnson, R. A. (1997). Probabilidad y estadstica para Ingenieros (5 edicin). Prentice Hall. [Leon-Garcia, A.] Leon-Garcia, A. (1994). Probability and Random Processes for Electrical Engineering (2nd edition). Addison-Wesley. [Lipschutz, S. & Schiller, J. (2000)] Lipschutz, S. & Schiller, J. (2000). Introduccin a la Probabilidad y la Estadstica. McGraw-Hill. [Mendenhal, W & Sincich, T. (1997)] Mendenhal, W & Sincich, T. (1997). Probabilidad y Estadstica para Ingeniera y Ciencias (4 edicin). Prentice Hall. [Montgomery, D. C. & Runger, G. C. (2002)] Montgomery, D. C. & Runger, G. C. (2002). Probabilidad y estadstica aplicadas a la Ingeniera (2 edicin). Wiley. [Navidi, W. (2006)] Navidi, W. (2006). Estadstica para ingenieros y cientcos. McGraw-Hill. [Ross, S. M. (2005)] Ross, S. M. (2005). Introduccin a la Estadstica. Editorial Revert. [Spiegel et al. (2010)] Spiegel, M. R., Schiller, J. y Srinivasan, R. A. (2010). Probabilidad y estadstica (3 edicin), serie Schaum. McGraw-Hill. [Walpole, R. E
et al

(1998)] Walpole, R. E., Myers, R. H. & Myers, S. L. (1998). Probabilidad y Estadstica

para Ingenieros (6 edicin). Prentice Hall.

229

ndice alfabtico
ANOVA, 168170 Bonferroni, mtodo de, 171, 172 Coeciente de asimetra, 31 Coeciente de correlacin lineal, 112, 195199, 212 Coeciente de variacin, 30, 37, 38 Contraste de hiptesis, 134, 149152 Contraste para el cociente de varianzas, 167 Distribucin normal, 86 Distribucin normal multivariante, 120, 219 Distribucin t de Student, 130, 158, 161164, 194, 195, 200, 201 Distribucin uniforme, 82 Distribuciones condicionadas, 104 Error tipo I, 151153, 158, 171

Error tipo II, 152, 158 Contraste para la diferencia de medias, 159, 160, 162 Espacio muestral, 4345, 48, 50, 53, 61, 62, 137 Contraste para la diferencia de proporciones, 166 Estadstico de contraste, 150153, 155, 157, 159, 161, Contraste para la media, 156, 158 164, 166168, 170, 173, 181, 184, 185, 198 Contraste para la varianza, 167 Contraste para proporcin, 164 Covarianza, 112 Cuantil, 27, 92, 93 Datos cualitativos, 20 Datos cuantitativos, 21, 22, 25, 34 de cola pesada, 32 Estimador puntual, 134, 175, 176 Funcin de autocorrelacin, 212, 215 Funcin de autocovarianza, 211, 215 Funcin de densidad, 7578, 8184, 86, 88, 91, 92, 127, 129, 136, 137, 139 Funcin de densidad conjunta, 99 Funcin de distribucin, 7678, 83, 88, 93, 179181

Desviacin tpica o estandar, 2931, 37, 64, 80, 88, Funcin masa conjunta, 99 128, 129, 145, 157 Funcin masa de probabilidad, 62, 63, 68, 70, 71, 74, Diagrama de barras, 22, 23, 25, 31 81, 92, 127, 139 Diagrama de cajas y bigotes, 35, 36, 38 Diagrama de sectores, 20, 21 Diagramas de barras, 2024 Distribucin binomial, 65, 66, 69, 87, 91, 138 Distribucin binomial negativa, 71, 72, 139 Distribucin 2 , 129 Distribucin 2 , 85, 130, 146, 167, 170, 177, 178, 184, 185 Distribucin de Poisson, 68, 83, 87, 222 Distribucin exponencial, 8284, 145, 181, 221, 223 Distribucin F de Snedecor, 130, 131, 170 Distribucin Gamma, 84, 85, 129, 138, 179, 221 Distribucin geomtrica, 70, 71, 139, 178 Distribucin marginal, 101 230 Funcin media, 211 Funcin muestral, 208 Histograma, 2225, 28, 30, 31, 3437, 7375, 77, 90, 91, 136, 137 Incorrelacin, 112 Independencia de sucesos, 4850, 52, 53, 68, 181 Independencia estadstica, 213, 214 Insesgadez, 134137, 148 Intervalos de conanza, 134, 142148, 200 Mtodo de los momentos, 138142, 175, 178, 181 Mtodo de mxima verosimilitud, 139142, 148, 175, 181, 190

Apuntes de Estadstica para Ingenieros

Matriz de correlaciones, 118 Matriz de varianzas-covarianzas, 118 Media, 25, 64, 135, 156

Variable aleatoria, 61, 62, 65, 87, 127129, 138, 139, 142, 150, 189 Variable aleatoria continua, 73, 76, 78

Media muestral, 25, 26, 2831, 34, 64, 81, 87, 128, Variable aleatoria discreta, 6264 Varianza muestral, 28, 29, 64, 81, 129, 135, 136, 144, 129, 135, 144146, 150, 156, 169, 217 Media poblacional, 34, 63, 64, 78, 80, 81, 90, 91, 129, 135, 144147, 150, 156, 192, 199, 202 Mediana, 26, 28, 31, 35 Moda, 26, 31 156, 162, 167, 169 Varianza poblacional, 63, 64, 78, 80, 81, 129, 134136, 138, 144148, 156, 167, 170, 193, 202, 212 Vector aleatorio, 98 Vector de medias, 118

muestra, 15

Muestra aleatoria simple, 20, 29, 33, 36, 37, 63, 65, 74, 183, 196, 197 Nivel de conanza, 142144, 148, 151154, 157, 158, 160, 161, 171, 177, 178, 180, 184, 194, 200 Ortogonalidad, 112 p-valor, 153, 154, 156, 158161, 164, 166168, 171 173, 176181, 183, 185, 194 Percentil, 27, 34, 35, 37, 38, 9294 Probabilidad, 41, 42, 45, 47, 48 Probabilidad condicionada, 4850 Proceso aleatorio, 208 Proceso aleatorio en tiempo continuo, 209 Proceso aleatorio en tiempo discreto, 209 Proceso dbilmente estacionario, 215 Proceso de Markov, 215, 220 Proceso de Poisson, 221 Proceso ergdico, 218 Proceso gaussiano, 219 Procesos independientes, 213 Recta de regresin, 191 Ruido blanco, 219 Tabla de frecuencias, 21 Teorema de Bayes, 5355 Teorema de la probabilidad total, 5355 Test chi2 de bondad de ajuste, 176, 178 Test chi2 de independencia, 181 Test de Kolmogorov-Smirno, 179, 191, 192, 196, 198 202 Valores z , 34, 90
Prof. Dr. Antonio Jos Sez Castillo

231

También podría gustarte