Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Esta Di Stica Ingeniero S
Esta Di Stica Ingeniero S
Prof. Dr. Antonio Jos Sez Castillo Dpto de Estadstica e Investigacin Operativa Universidad de Jan
Esta obra est bajo una licencia Reconocimiento-No comercial-Sin obras derivadas 3.0 Espaa de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-nc-nd/3.0/es/ o envie una carta a Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA.
ndice general
1. Introduccin
1.1. 1.2. Qu signica Estadstica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . La Estadstica en el mbito de la Ciencia y la Ingeniera . . . . . . . . . . . . . . . . . . . . . 1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6. 1.2.7. 1.2.8. 1.2.9. 1.3. Ejemplo del alfalto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo de la bombilla de bajo consumo . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo de los niveles de plomo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo del ndice de masa corporal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
11 12 12 12 13 13 13 13 14 14 14 15
Ejemplo de los cojinetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo del consumo elctrico en relacin con la temperatura . . . . . . . . . . . . . . Ejemplo de los accidentes laborales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo de la cobertura de la antena de telefona mvil Ejemplo de la seal aleatoria . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Deniciones bsicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
I Estadstica descriptiva
2. El tratamiento de los datos. Estadstica descriptiva
2.1. 2.2. 2.3. 2.4. 2.5. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
19
19 19 20 21 25 25 25 26 26 27 28
Mtodos grcos y numricos para describir datos cualitativos . . . . . . . . . . . . . . . . . . Mtodos grcos para describir datos cuantitativos . . . . . . . . . . . . . . . . . . . . . . . . Mtodos numricos para describir datos cuantitativos 2.5.1. Medidas de tendencia central 2.5.1.1. 2.5.1.2. 2.5.1.3. 2.5.2. 2.5.3. Cuantiles . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianza muestral
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28 29 30 31 32 32 33 33 34
Coeciente de variacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Mtodos para detectar datos cuantitativos atpicos o fuera de rango 2.6.1. 2.6.2. Mediante la regla emprica
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.
II Clculo de Probabilidades
3. Probabilidad
3.1. 3.2. 3.3. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Experimentos aleatorios y experimentos determinsticos . . . . . . . . . . . . . . . . . . . . .
39
41
41 42 42 42 43 45 47 47 48 48 53 57 58 59
Denicin de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. 3.3.2. 3.3.3. lgebra de conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funcin de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interpretacin subjetiva de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espacio muestral con resultados equiprobables. Frmula de Laplace . . . . . . . . . . . . . . . Probabilidad condicionada. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . Teorema de la probabilidad total y Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . .
63
63 64 64 64 65 65 66 67
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70 72 73 75 75 75 77 78 79 80 84 84 84 86 88 94 95 96
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5.
Modelos de distribuciones de probabilidad para variables continuas . . . . . . . . . . . . . . . 4.5.1. 4.5.2. 4.5.3. 4.5.4. Distribucin uniforme (continua) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribucin Gamma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribucin normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6.
La bombilla de bajo consumo marca ANTE . . . . . . . . . . . . . . . . . . . . . . . . Las visitas al pediatra de los padres preocupados . . . . . . . . . . . . . . . . . . . . .
99
99 101 101 103 105 109 113 113 120 121
Distribuciones marginales
Distribuciones condicionadas
Independencia estadstica
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Medias, varianzas y covarianzas asociadas a un vector aleatorio . . . . . . . . . . . . . . . . . 5.4.1. 5.4.2. Covarianza y coeciente de correlacin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.5.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
127
129
129 130 130 131
Distribuciones en el muestreo
135
135 136 136 137 137 139 140 140 141
Tabla resumen de los estimadores de los parmetros de las distribuciones ms comunes 144 145 145 147 148 149 149
Estimacin por intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1. 7.3.2. 7.3.3. 7.3.4. Intervalos de conanza para la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . Intervalos de conanza para una proporcin . . . . . . . . . . . . . . . . . . . . . . . . Intervalos de conanza para la varianza Otros intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.
153
153 155 157 157 158 160 160 162 163 163 164 165 165 166 166 166 168 170
p-valor de un contraste de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1. 8.3.2. Denicin de p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Clculo del p-valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.4.
Contraste para la media de una poblacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1. 8.4.2. Con muestras grandes (n
30)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
< 30)
8.5.
Contraste para la diferencia de medias de poblaciones independientes . . . . . . . . . . . . . . 8.5.1. 8.5.2. 8.5.3. 8.5.4. Con muestras grandes (n1 , n2 Con muestras pequeas (n1
30)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . y varianzas iguales . . . . . . . . . . . . .
Con muestras pequeas, varianzas distintas y mismo tamao muestral . . . . . . . . . Con muestras pequeas, varianzas distintas y distinto tamao muestral . . . . . . . .
8.6.
Contraste para la diferencia de medias de poblaciones apareadas 8.6.1. 8.6.2. Con muestras grandes (n
. . . . . . . . . . . . . . . .
30)
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
< 30)
8.7. 8.8.
8.9.
8.10. Contraste para el cociente de varianzas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.11. Contraste para las medias de ms de dos poblaciones independientes. ANOVA . . . . . . . . . 8.12. El problemas de las pruebas mltiples. Mtodo de Bonferroni . . . . . . . . . . . . . . . . . .
8.13. Resolucin de los ejemplos del IMC de los varones y del dimetro de los cojinetes . . . . . . . 8.13.1. Resolucin del ejemplo del ndice de masa corporal . . . . . . . . . . . . . . . . . . . . 8.13.2. Resolucin del ejemplo de los cojinetes . . . . . . . . . . . . . . . . . . . . . . . . . . .
179
179 179 180 184 185 189
de bondad de ajuste
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test de Kolmogorov-Smirno . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contraste de independencia
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
191
191 194 196 197 199 202 204 206 206 206 207
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.5. El coeciente de correlacin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.6. El coeciente de determinacin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7. Prediccin y estimacin a partir del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8. Diagnosis del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.8.1. Normalidad de los residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10.8.2. Grca de residuos frente a valores ajustados . . . . . . . . . . . . . . . . . . . . . . . 10.9. Resolucin del ejemplo del consumo elctrico en relacin con la temperatura . . . . . . . . . .
IV Procesos aleatorios
11.Procesos aleatorios
11.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2. Tipos de procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Descripcin de un proceso aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1. Descripcin estadstica mediante distribuciones multidimensionales . . . . . . . . . . . 11.2.2. Funcin media y funciones de autocorrelacin y autocovarianza . . . . . . . . . . . . .
209
211
211 212 212 215 215 215
11.3. Tipos ms comunes de procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.1. Procesos independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.2. Procesos con incrementos independientes 11.3.3. Procesos de Markov . . . . . . . . . . . . . . . . . . . . . . . . .
217 217 218 218 219 221 222 222 223 224
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11.3.4. Procesos dbilmente estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.5. Procesos ergdicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4. Ejemplos de procesos aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4.1. Ruidos blancos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prlogo
El objeto fundamental de la edicin de este documento es facilitar a los alumnos de ingeniera de la Escuela Politcnica Superior de Linares el desarrollo de los contenidos tericos de la asignatura Estadstica. Desde un punto de vista menos local, espero que sea til, en alguna medida, a todo aquel que necesite conocimientos bsicos de las tcnicas estadsticas ms usuales en el ambiente cientco-tecnolgico. A todos ellos, alumnos y lectores en general, quiero facilitarles el privilegio de aprender de quienes yo he aprendido, sugirindoles cuatro manuales que para m han sido referencias fundamentales. Se trata, en primer lugar, del magnco libro de Sheldon M. Ross, Introduccin a la Estadstica. En l puede encontrarse la mayor parte de lo que vamos a estudiar aqu, explicado de forma sencilla y clara, pero tambin comentarios histricos, reseas bibliogrcas sobre matemticos y estadsticos relevantes y ejemplos muy apropiados. En segundo lugar, recomiendo los trabajos de William Navidi, Estadstica para ingenieros y cientcos, y Jay Devore, Probabilidad y estadstica para ingeniera y ciencias, sobre todo por la actualidad de muchos de sus ejemplos y por cmo enfatizan el carcter aplicado, prctico, de la Estadstica en el mbito de la Ciencia y la Tecnologa. Finalmente, debo mencionar tambin el libro de Mendenhal & Sincich, Probabilidad
y Estadstica para Ingeniera y Ciencias, que incluye, como los dos anteriores, unos ejemplos y ejercicios
propuestos magncos. En el actual contexto del Espacio Europeo de Educacin Superior, la asignatura Estadstica tiene, en la mayor parte de los grados en ingeniera, un carcter bsico y una dotacin de 6 crditos ECTS. As ocurre, por ejemplo, en las ramas de industriales o telecomunicaciones que se imparten en la Universidad de Jan. Otras ramas, como la de ingeniera civil/minera, han optado por incluirla como asignatura obligatoria, compartida con una asignatura de ampliacin de matemticas en la que se proponen 3 crditos ECTS de estadstica. Con todo, creo que estos apuntes pueden adaptarse a esos distintos contextos, aclarando qu temas pueden ser ms adecuados para cada titulacin. En concreto: 1. Para las distintas especialidades de la rama de industriales seran oportunos los captulos 1, 2, 3, 4, 6, 7, 8, 9 y 10. El captulo 9, sobre contrastes no paramtricos puede darse a modo de seminario, si el desarrollo de la docencia as lo sugiere. Sin embargo, el captulo 10, sobre regresin lineal simple, me parece imprescindible en la formacin de un futuro ingeniero industrial. 2. En los grados de la rama de telecomunicaciones, creo que son necesarios los captulos 1, 2, 3, 4, 5, 6, 7, 8 y 11. Resulta as el temario quiz ms exigente, debido a la necesidad de introducir un captulo sobre vectores aleatorios previo a otro sobre procesos estocsticos. Queda a iniciativa del docente la posibilidad de recortar algunos aspectos en los temas tratados en aras a hacer ms ligera la carga docente. 3. Finalmente, en los grados de la rama civil y minera, donde la dotacin de crditos es menor, creo que 9
son adecuados los captulos 1, 2, 3, 4, 6, 7, 8 y 10, si bien eliminando algunos de sus apartados, cuestin sta que dejo, de nuevo, a juicio del docente. Tambin sugiero que se trabajen los problemas sobre estos captulos directamente en el contexto de unas prcticas con ordenador.
Slo me queda pedir disculpas de antemano por las erratas que, probablemente, contienen estas pginas. Os ruego que me las hagis llegar para corregirlas en posteriores ediciones.
10
Captulo 1
Introduccin
Llegar un da en el que el razonamiento estadstico ser tan necesario para el ciudadano como ahora lo es la habilidad de leer y escribir
Resumen. El captulo incluye una introduccin del trmino Estadstica y presenta los conceptos ms bsicos
relativos a poblaciones y muestras.
Palabras clave: estadstica, poblacin, poblacin tangible, poblacin conceptual, variable, muestra, muestra
aleatoria simple.
1. Estudio de los datos cuantitativos de la poblacin, de los recursos naturales e industriales, del trco o
es utilizar datos de un conjunto reducido de casos para inferir caractersticas de stos al conjunto de todos ellos.
30, 75, 79, 80, 80, 105, 126, 138, 149, 179, 179, 191 223, 232, 232, 236, 240, 242, 245, 247, 254, 274, 384, 470
Cmo podr un ingeniero describir en trminos generales la tensin de fractura del asfalto? Esos datos le enfrentan al hecho de que las muestras son bastante distintas entre s, de manera que facilitar una descripcin general de las caractersticas del asfalto puede ser complejo y arriesgado.
Duracin 8 aos .
Debo reconocer de que tengo mis dudas. Para empezar, es que a los 8 aos, de repente, la lmpara se rompe? Por otra parte, creo que todos nosotros hemos experimentado el hecho de que stas lmparas que supuestamente tienen una duracin mayor que las tradicionales lmparas incandescentes (segn el envoltorio, 8 veces mayor), sin embargo, se rompen con facilidad. Luego, qu quiere decir exactamente el envoltorio al armar que su duracin es de 8 aos? En realidad, nosotros deberemos aprender a analizar este problema, asumiendo que la duracin de esta bombilla no es un valor jo y conocido, sino que est sujeto a incertidumbre. Lo que haremos ser dotarnos de un modelo matemtico que nos permita valorar si es probable o no que una lmpara ANTE se rompa antes de un ao, despus de tres aos, etc.
12
1. Es imposible analizar todos los rincones de todos los basureros. 2. Si se basa slo en los datos del artculo, esa estimacin ser slo eso, una estimacin basada en esa muestra, que es de slo 42 datos. Debera, por tanto obtener tambin una estimacin del error que est cometiendo al hacer la estimacin. Con ambos resultados, la estimacin en s y una cuanticacin del error que podra cometer con ella, incluso podr obtener un rango donde la verdadera proporcin se encuentra, con un alto nivel de conanza.
13
a partir de las temperaturas mnimas que se pronostican para el da siguiente. Para ello contabiliza en una muestra la temperatura pronosticada y el consumo real, con los siguientes resultados: T mnima pronosticada Consumo (megawatios)
-1 12
0 12
2 11
5 9
-2 14
2 10
1 11
0 12
3 10
4 9
Qu consumo podra preveer para un da si la temperatura mnima pronosticada para ese da es de -1.5 grados?
Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.
r.
concreto puede estar situado en cualquier punto al azar de ese crculo, pero cmo plasmar eso? Por ejemplo, si nos centramos en la distancia a la antena, cualquier distancia es igualmente probable ? Y qu podemos decir de las coordenadas en un momento concreto del mvil?
14
Se denomina
Una poblacin es
Por ejemplo, si estamos considerando el estudio de la altura de los alumnos de la Escuela, el conjunto de estos alumnos es una poblacin tangible.
conceptual no tiene elementos reales, sino que sus casos se obtienen por la repeticin de un
Por ejemplo, cuando plantebamos las pruebas de resistencia a las que un ingeniero somete a distintas muestras de asfalto, vemos que hay tantos casos como pruebas puedan hacerse, lo que supone un conjunto innito de casos. En poblaciones conceptuales es imposible, por tanto, conocer todos los casos, y tenemos que conformarnos con muestras de los mismos.
Una
Por ejemplo:
Si consideramos la poblacin de todos los alumnos de la Escuela, podemos jarnos en la variable altura. Si consideramos el supuesto de las pruebas de asfalto, podemos considerar la variable presin a la que
se rompe la muestra.
Se denomina
muestra a cualquier subconjunto de datos seleccionados de una poblacin. representen al conjunto de todos los elementos de la poblacin. Esta cuestin, la muestras aleatorias
El objetivo de una muestra, ya sea en una poblacin tangible o en una poblacin conceptual es que los elementos de la muestra
construccin de muestras adecuadas, representativas, es uno de los aspectos ms delicados de la Estadstica. Nosotros vamos a considerar en esta asignatura slo un tipo de muestras, denominadas
simples.
En una muestra aleatoria simple, todos los elementos de la poblacin deben tener las mismas
posibilidades de salir en la muestra y, adems, los elementos de la muestra deben ser independientes: el que salga un resultado en la muestra no debe afectar a que ningn otro resultado salga en la muestra. Por ejemplo, podramos estar interesados en la poblacin de todos los espaoles con derecho a voto (poblacin tangible, pero enorme), de los que querramos conocer un dato o variable, su intencin de voto en las prximas elecciones generales. Dado que estamos hablando de millones de personas, probablemente deberemos escoger una muestra, es decir, un subconjunto de espaoles a los que se les realizara una encuesta. Si queremos que esa muestra sea aleatoria simple, deberemos tener cuidado de que todos los espaoles con derecho a voto
15
tengan las mismas posibilidades de caer en la muestra y de que la respuesta de un entrevistado no afecte a la de ningn otro. Como nota curiosa, sabed que la mayora de las encuestas nacionales se hacen va telefnica, lo cual es una pequea violacin de las hiptesis de muestra aleatoria simple, ya que hay espaoles con derecho a voto que no tienen telfono, luego es imposible que salgan en la muestra.
16
Parte I
Estadstica descriptiva
17
Captulo 2
El tratamiento de los datos. Estadstica descriptiva
Es un error capital el teorizar antes de poseer datos. Insensiblemente uno comienza a alterar los hechos para encajarlos en las teoras, en lugar encajar las teoras en los hechos Sherlock Holmes (A. C. Doyle), en Un escndalo en Bohemia
Resumen. En este captulo aprenderemos mtodos para resumir y describir conjuntos de datos a travs de
distintos tipos de tablas, grcos y medidas estadsticas.
Palabras clave:
frecuencias, diagrama de barras, diagrama de sectores, histograma, media, mediana, moda, cuantiles, varianza, desviacin tpica, asimetra, datos atpicos.
2.1. Introduccin
Obtenidos a travs de encuestas, experimentos o cualquier otro conjunto de medidas, los datos estadsticos suelen ser tan numerosos que resultan prcticamente intiles si no son resumidos de forma adecuada. Para ello la Estadstica utiliza tanto tcnicas grcas como numricas, algunas de las cuales describimos en este captulo. Podemos decir que existe una clasicacin, un tanto articial, de los datos, segn se reeran a una poblacin tangible, en cuyo caso se conocern todos los casos, o a una poblacin conceptual, en cuyo caso slo se conocer una muestra (aleatoria simple). Sin embargo, esta clasicacin no tiene ningn efecto en lo relativo a lo que vamos a estudiar en este captulo.
cuantitativos y cualitativos.
19
cuantitativos son los que representan una cantidad reejada en una escala numrica. A su vez, pueden clasicarse como datos cuantitativos discretos si se reeren al conteo de alguna caracterstica, o datos cuantitativos continuos si se reeren a una medida.
Los datos
Los datos
a cantidades con signicado numrico, sino a caractersticas que slo pueden clasicarse.
Supongamos que tenemos una variable cualitativa, que toma una serie de posibles valores (categoras). El nmero de veces que se da cada valor es la
Las representaciones grcas ms usuales son los diagramas de barras y los diagramas de sectores.
Los
diagramas de barras son una representacin de cada una de las categoras de la variable mediante una diagramas de sectores son crculos divididos en tantos sectores como categoras, sectores cuyo ngulo
barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa de dichas categoras. Los
20
Ejemplo.
Tomamos como poblacin los 98 reactores nucleares ms grandes en todo el mundo. Nos
jamos en la variable o dato referente al pas donde estn localizados. Los datos seran
Blgica, Blgica, Blgica, Blgica, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Francia, Finlandia, Finlandia, Alemania, Alemania, Alemania, Alemania, Alemania, Alemania, Alemania, Holanda, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Japn, Suecia, Suecia, Suecia, Suiza, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos, Estados Unidos.
tabla de fre-
Por su parte, las representaciones mediante diagramas de barras y sectores de estos datos aparecen en la
Ejemplo.
En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza
un estudio sobre la calidad de produccin. Los datos siguientes informan sobre el nmero de piezas defectuosas encontradas en una muestra de cajas examinadas:
0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5 5 6 6 6 6 6 7 7 7 8 8 9
21
10
20
30
40
Alemania
Blgica
EEUU
Finlandia
Francia
Holanda
Japn
Suecia
Suiza
EEUU
Blgica
Alemania
Suiza Suecia
Finlandia
Japn
Holanda Francia
Sin embargo, la mayora de variables cuantitativas son de tipo continuo, de manera que toman demasiados valores como para que la representacin de su distribucin de frecuencias sea til . Por ello el mtodo grco ms comn y tradicional para datos cuantitativos es el histograma.
El
histograma es una variante del diagrama de barras donde se agrupan los valores de la variable en intervalos
para que estos intervalos tengan frecuencias mayores que uno. Para obtener un histograma de forma manual deben seguirse los siguientes pasos: 1. Calculamos el nmero,
N,
igual a la raz cuadrada del nmero de datos. Sin embargo, los programas estadsticos suelen utilizar otro mtodo, llamado Mtodo de Sturges, en el que
N = log2 n + 1
, donde
es el nmero de datos y
[]
1 Si toma muchos valores, muy probablemente la mayor parte de ellos slo aparezca una vez, por lo que la distribucin de frecuencias ser casi siempre constante e igual a 1.
22
2. Calculamos el rango,
R,
del histograma, que ser ligeramente ms amplio que el rango de los datos.
El histograma debe comenzar en un nmero (xm ) ligeramente por debajo del mnimo de los datos y terminar en un nmero (xM ) ligeramente por encima del mximo. El rango del histograma ser, por tanto,
L=
intervalos:
Nota. Por cuestiones que detallaremos ms adelante es importante destacar que el porcentaje de datos
que cae dentro de un intervalo es proporcional al rea de la barra que se construye sobre ese intervalo. Por ejemplo, si el rea de una barra es el 30 % del rea total del intervalo, entonces el 30 % de los datos estn en dicho intervalo.
23
Tiempo de procesado
8 Frecuencias 0 2 4 6
Por otra parte, qu pasara si tomamos un nmero muy grande de datos? El nmero de intervalos del histograma sera tambin muy grande, y las barras seran muy estrechas, de manera que en vez de parecer un diagrama de barras, parecera la grca de una funcin real de variable real. Hablaremos de esta funcin y del rea debajo de ella en breve. Por cierto, cmo se calcula el rea bajo esta funcin?
Ejemplo. Los datos siguientes corresponden al tiempo necesario para procesar 25 trabajos en una CPU.
1.17 0.15 0.92 1.61 2.41 0.75 1.16 0.71 2.59 1.38 0.02 3.07 3.53 1.59 1.4 1.23 0.19 3.76 0.82 1.94 0.47 0.96 2.16 4.75 2.01
1. Dado que
25 = 5,
utilizaremos 5 intervalos.
2. El mnimo de los datos es 0.02 y el mximo 4.75, de manera que podemos considerar como rango del histograma el intervalo
[0, 4.8],
4.8 5
= 0.96.
I1 = [0, 0.96) I2 = [0.96, 1.92) I3 = [1.92, 2.88) I4 = [2.88, 3.84) I5 = [3.84, 4.8)
24
[0, 0.96) [0.96, 1.92) [1.92, 2.88) [2.88, 3.84) [3.84, 4.8)
estn los datos (medidas de posicin), cmo de agrupados estn los datos (medidas de dispersin) y qu forma tienen los datos (medidas de forma).
medidas de tendencia central son medidas de posicin que tratan de establecer un valor que pueda
2.5.1.1. Media
Sea un conjunto de datos de una variable cuantitativa,
x1 , ..., xn . xi .
La
x=
n i=1
Esta medida es la ms comn dentro de las de tendencia central y corresponde al centro de gravedad de los datos. Es inmediato comprobar que si se realiza un cambio de origen y escala sobre los datos, del tipo la media sufre el mismo cambio, es decir,
y = ax + b,
y = a + b. x
De igual forma, si tenemos datos de la suma de dos o ms variables, la media de la suma es la suma de las medias de cada variable.
25
2.5.1.2. Mediana
Sea un conjunto de datos de una variable cuantitativa,
x1 , ..., xn .
La
mediana es el valor de la variable que deja el mismo nmero de datos antes y despus que l, una vez
ordenados estos.
n,
es par o impar:
Si
Me = x( n+1 ) . 2
Si
n es par, la mediana es la media aritmtica de las dos observaciones centrales. Cuando n es par, los dos x n +x n ( ) ( +1) n n datos que estn en el centro de la muestra ocupan las posiciones y +1. Es decir: Me = 2 2 2 . 2 2
La mediana corresponde exactamente con la idea de valor central de los datos. De hecho, puede ser un valor ms representativo de stos que la media, ya que es ms robusta que la media. Vemos qu signica esto en un ejemplo.
0+0+1+2+3+4+5 7
= 2.1429,
y su mediana 2.
Pero imaginemos que por error o por casualidad obtenemos un nuevo dato enormemente grande en relacin al resto de datos, 80. En ese caso, la media sera
0 + 0 + 1 + 2 + 3 + 4 + 5 + 80 = 11.875 8
y la mediana 2.5. Es decir, un solo dato puede desplazar enormemente la media, hasta convertirla en una medida poco representativa, pero slo desplazar ligeramente la mediana. Ese es el motivo por el que se dice que la mediana es una medida
robusta.
moda se dene como el valor ms frecuente de los datos. Lo que ocurre es que si stos son intervalo modal, aqul con mayor frecuencia asociada.
Prof. Dr. Antonio Jos Sez Castillo
datos de una variable continua o discreta con muchos valores, puede que los datos apenas se repitan. En ese caso, en el que, como vimos en las representaciones grcas, se debe agrupar por intervalos, no debe darse un valor como moda, sino un
26
2.5.2. Cuantiles
Los
que responden es muy sencilla y muy prctica. Se trata de valorar de forma relativa cmo es un dato respecto del conjunto global de todos los datos. Si, por ejemplo, un nio de 4 aos pesa 13 kilos, est desnutrido? est sano? La respuesta debe ser que
depende. Dnde vive el nio? Es importante porque, por ejemplo, en Estados Unidos los nios son en general
ms grandes que, por ejemplo, en Japn. Quiz ms que el peso nos interese saber qu posicin relativa tiene el peso del nio dentro de la poblacin de la que forma parte. Por ejemplo, si nos dicen que el nio est entre el 1 % de los nios que menos pesan, probablemente tiene un problema de crecimiento.
El
cuantil p (Qp ) de unos datos (0 p 1), sera un valor de la variable situado de modo que el 100p % de
p) %)
mayores.
No obstante, en la prctica vamos a encontrar un problema para encontrar cuantiles, sobre todo con pocos datos: puede que no exista el valor exacto que deje a la izquierda el
100p %
derecha. En ese caso, aproximaremos el valor del cuantil correspondiente de la siguiente forma: 1. Si el 2. Si el
100p % 100p %
de de
n, n
donde
k,
entonces
Qp =
x(k) +x(k+1) . 2
k,
y entonces
Qp = x(k) .
Hay que decir que algunos programas informticos utilizan otros mtodos para aproximar el valor de los cuantiles, de manera que no debe extraar si se observan pequeas diferencias al comparar nuestros resultados con los de estos programas. Existen diversos nombres para referirse a algunos tipos de cuantiles. Entre ellos: Los
percentiles
son los cuantiles que dividen la muestra en 100 partes, es decir, son los cuantiles
0.01 (percentil 1), 0.02 (percentil 2), ..., 0.99 (percentil 99). Si notamos por
al percentil
con
= 1, 2, 3, ..., 99,
se tiene que
P = Q/100 .
percentiles que de cuantiles porque se reeren a cantidades entre 0 y 100, en tanto por ciento, que son ms habituales de valorar por todo el mundo. Los
cuartiles
Ejemplo. Consideremos de nuevo los datos correspondientes al tiempo de procesado de 25 tareas en una
CPU. Ahora los hemos ordenado de menor a mayor (en 5 las): 0.02 0.15 0.19 0.47 0.71 0.75 0.82 0.92 0.96 1.16 1.17 1.23 1.38 1.40 1.59 1.61 1.94 2.01 2.16 2.41 2.59 3.07 3.53 3.76 4.75
27
Vamos a calcular distintas medidas de posicin y a comentarlas. En primer lugar, la media es 1.63. La mediana ocupa el lugar 13 en la muestra ordenada, y su valor es 1.38. Obsrvese que la media es algo mayor que la mediana: esto es debido a la presencia de algunos valores signicativamente ms altos que el resto, como pudimos ver en el histograma. Por su parte, el De igual forma,
P25
P25 = 0.82.
el valor que ocupa la posicin 19. Podemos ver, por tanto, que los
valores ms bajos estn muy agrupados al principio, y se van dispersando ms conforme se hacen ms altos.
medidas de variacin o dispersin estn relacionadas con las medidas de tendencia central, ya que
lo que pretenden es cuanticar cmo de concentrados o dispersos estn los datos respecto a estas medidas. Nosotros nos vamos a limitar a dar medidas de dispersin asociadas a la media. La idea de estas medidas es valorar en qu medida los datos estn agrupados en torno a la media. Esta cuestin tan simple es uno de los motivos ms absurdos de la mala prensa que tiene la Estadstica en la sociedad en general. La gente no se fa de lo que ellos llaman la Estadstica entre otros motivos, porque parece que todo el mundo cree que una media tiene que ser un valor vlido para todos, y eso es materialmente imposible.
Ejemplo. Pensemos en la media del salario de los espaoles. En 2005 fue de 18.750 euros al ao. Ahora bien,
esa media incluye tanto a las regiones ms desarrolladas como a las ms desfavorecidas y, evidentemente, la cifra generar mucho malestar en gran parte de la poblacin (con toda seguridad, ms del 50 %), cuyo salario est por debajo.
Ejemplo. Existe una frase muy conocida que dice que la Estadstica es el arte por el cul si un espaol se
come un pollo y otro no se come ninguno, se ha comido medio pollo cada uno . Esa frase se usa en muchas
ocasiones para ridiculizar a la Estadstica, cuando en realidad debera servir para desacreditar a quien la dice, por su ignorancia. Hay que decir que la Estadstica no tiene la culpa de que la gente espere de una media ms de lo que es capaz de dar, ni de que muy poca gente conozca medidas de dispersin asociadas a la media.
x1 , ..., xn ,
n i=1
la
s2 = n1
(xi x) . n1
28
Nota. Para calcular a mano la varianza resulta ms cmodo desarrollar un poco su frmula, como vamos
a ver:
s2 = n1 =
x)2 = n1 n 2 x2 i=1 xi n . n1
n i=1 (xi
n i=1
x2 2 i=1 xi + n2 x x i = n1
n i=1
x2 2n + n2 x x x i n1
Tanto mayor sea la varianza de unos datos, ms dispersos, heterogneos o variables son esos datos. Cuanto ms pequea sea una varianza de unos datos, ms agrupados u homogneos son dichos datos.
Ejemplo. Una muestra aleatoria simple de la altura de 5 personas arroja los siguientes resultados:
1.76 1.72 1.80 1.73 1.79
5 i=1
xi = 8.8
5 i=1
x2 = 15.493. i
x=
y
8.8 = 1.76 5
s2 = n1
En lo que respecta al comportamiento de la varianza muestral frente a cambios de origen y escala, slo le afectan los segundos. Es decir, si tenemos que
y = ax + b,
se verica que
2 2 s2 y;n1 = a sx;n1 .
Finalmente, si bien habamos comentado que en el caso de la media, si tenemos la suma de varias variables, la media total es la suma de las medias de cada variable, no ocurre as con la varianza en general.
sn1 =
s2 , n1
29
Regla Emprica:
1. Aproximadamente el 68 % de los datos estar en el intervalo 2. Aproximadamente el 95 % de los datos estar en el intervalo 3. Casi todos los datos estarn en el intervalo
( 3sn1 , x + 3sn1 ) . x
coeciente de variacin.
x y desviacin tpica sn1 , se dene su coeciente CV = sn1 . || x
de variacin como
La principal ventaja del coeciente de variacin es que no tiene unidades de medida, lo que hace ms fcil su interpretacin.
30
Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, la varianza es 1.42, luego su
desviacin estandar es 1.19, y el coeciente de variacin
1.19 1.63
= 0.73.
algo ms del 70 % de la media. Esto indica que los datos no estn muy concentrados en torno a la media, probablemente debido a la presencia de los valores altos que hemos comentado antes.
Nota.
El coeciente de variacin, tal y como est denido, slo tiene sentido para conjuntos de datos
con el mismo signo, es decir, todos positivos o todos negativos. Si hubiera datos de distinto signo, la media podra estar prxima a cero o ser cero, imposibilitando que aparezca en el denominador.
Nota. Suele ser frecuente el error de pensar que el coeciente de variacin no puede ser mayor que 1, lo
cual es rigurosamente falso. Si lo expresamos en porcentaje, el coeciente de variacin puede ser superior al 100 % sin ms que la desviacin tpica sea mayor que la media, cosa bastante frecuente, por cierto.
medidas de forma comparan la forma que tiene la representacin grca, bien sea el histograma o el
diagrama de barras de la distribucin, con una situacin ideal en la que los datos se reparten en igual medida a la derecha y a la izquierda de la media.
Esa situacin en la que los datos estn repartidos de igual forma a uno y otro lado de la media se conoce como
simetra, y se dice en ese caso que la distribucin de los datos es simtrica. En ese caso, adems, su asimtrica a la derecha si las frecuencias (absolutas o relativas) asimtrica a la izquierda.
mediana, su moda y su media coinciden. Por contra, se dice que una distribucin es
descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente por la izquierda que por la derecha diremos que la distribucin es
n x 3 i=1 (xi )
As =
n1
s3 n1
Obsrvese que para evitar el problema de la unidad y hacer que la medida sea escalar y por lo tanto relativa, dividimos por el cubo de su desviacin tpica. De esta forma podemos valorar si unos datos son ms o menos simtricos que otros, aunque no estn medidos en la misma unidad de medida. La interpretacin de este coeciente de asimetra es la siguiente:
Tanto mayor sea el coeciente en valor absoluto, ms asimtricos sern los datos. El signo del coeciente nos indica el sentido de la asimetra:
31
Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, el coeciente de asimetra
de Fisher es 0.91, lo que, como habamos visto y comentado con anterioridad, pone de maniesto que la distribucin es asimtrica a la derecha, debido a la presencia de tiempos de procesado bastante altos en relacin al resto.
parmetros muestrales.
prcticamente siempre se trabaja con muestras, ya que o bien trabajamos con poblaciones conceptuales o con poblaciones tangibles (nitas, por tanto), pero con muchsimos elementos. Frente a estos parmetros muestrales se encuentran los parmetros anlogos referidos a toda la poblacin. Estos parmetros, llamados
plo, la media poblacional se calculara igual que la media muestral de unos datos, pero aplicada la frmula a todos los elementos de la poblacin. Como eso es prcticamente imposible de poner en la prctica, veremos en captulos posteriores que los parmetros muestrales se utilizan en la prctica para aproximar o estimar los parmetros poblacionales.
3 Salvo
32
una observacin ms, igual a 85, debido a que la CPU se bloque y hubo que reiniciarla. Este dato, que probablemente no deseemos incluir, es un ejemplo de caso de dato atpico o valor fuera de rango.
En general, una observacin que es inusualmente grande o pequea en relacin con los dems valores de un conjunto de datos se denomina
Estos valores son atribuibles, por lo general, a una de las siguientes causas: 1. El valor ha sido introducido en la base de datos incorrectamente. 2. El valor proviene de una poblacin distinta a la que estamos estudiando. 3. El valor es correcto pero representa un suceso muy poco comn. A continuacin vamos a proponer dos maneras de determinar si un dato es un valor fuera de rango.
[ 3sn1 , x + 3sn1 ], x
atpicos los
xi
[ 3sn1 , x + 3sn1 ] . x
x1 , ..., xn .
El procedimiento es el siguiente:
1. Se calculan los cuartiles primero y tercero, es decir, los percentiles 25 y 75, llamado rango intercuartlico, 2. Se consideran 3. Se consideran
P25
P75 .
Se calcula el
IR = P75 P25 .
datos atpicos aquellos inferiores a P25 1.5IR o superiores a P75 + 1.5IR. datos atpicos extremos aquellos inferiores a P25 3IR o superiores a P75 + 3IR.
Ejemplo. Vamos a ver si hay algn dato atpico entre los datos de tiempo de procesado en una CPU de
25 tareas. Dado que el histograma no tena forma de campana, el mtodo de la regla emprica no es el mtodo ms adecuado para la deteccin de valores atpicos. Por su parte,
P50 = 1.38, P25 = 0.82 y P75 = 2.16. Por tanto, IR = 2.160.82 = 1.34, y el intervalo fuera [0.82 1.5 1.34, 2.16 + 1.5 1.34] = [1.19, 4.17].
De
esta forma, el valor 4.75 es un valor fuera de rango. Finalmente, el intervalo fuera del cul se encuentran los datos atpicos extremos es
33
Hay una versin grca de este mtodo para detectar valores atpicos mediante los percentiles: se llama
diagrama de caja o diagrama de cajas y bigotes o (en ingls) boxplot. Este diagrama incluye en un
grco: 1. El valor de la mediana. 2. El valor de los percentiles 25 y 75. 3. Una caja cuyos laterales son el percentil 25 y el percentil 75. 4. Los ltimos puntos no extremos a la izquierda y a la derecha los representa como bigotes que salen de la caja. 5. Normalmente, representa con crculos los datos atpicos. 6. Algunos programas representan, adems, con cruces, los datos atpicos extremos.
34
30 149 240
75 179 242
79 179 245
80 191 247
80 223 254
Lo que el ingeniero se plantea es algo, en principio, muy genrico: cmo podr describir en trminos generales la tensin de fractura del asfalto producido? En primer lugar, es lgico pensar que el ingeniero experimente cierta sorpresa al ver que los resultados obtenidos son distintos en las distintas muestras. No se supone que todas las muestras proceden de la misma planta, o que estn obtenidas en las mismas condiciones? Probablemente eso es as, pero hay que tener en cuenta que en cualquier proceso de produccin existen condiciones incontrolables que provocan diferencias en los resultados de los experimentos. Desde el punto de vista estadstico, observar esas distintas tensiones de fractura equivale a constatar que el experimento es de tipo aleatorio. Una vez que hemos aceptado este hecho, es evidente que debemos utilizar tcnicas estadsticas para alcanzar el objetivo deseado, que es, no lo olvidemos, describir la tensin de fractura del asfalto producido. En este caso, es bastante obvio que las tcnicas adecuadas para ello son las que proporciona la Estadstica Descriptiva, incluyendo las que hemos estudiado en este tema. Vamos a comenzar por ofrecer medidas de posicin, en primer lugar de tendencia central, que siten al menos de una forma general, en torno a qu valores aparecen las tensiones de fractura. En este sentido, la media de los datos es 195.42 megapascales. La mediana, por su parte, es 207. Observamos que hay diferencias entre el valor medio, 195.42 y la mediana, 207, que analizaremos enseguida. Para ofrecer un intervalo modal deberamos agrupar por intervalos y calcular las frecuencias en esos intervalos, lo cual, por otra parte, nos servira para obtener un histograma para los datos. Dado que son 24 datos, un nmero razonable de intervalos podra ser 5. Vamos a considerar un rango de 0 a 500 para el histograma, que har muy fcil la construccin de los intervalos. El histograma asociado al recuento de frecuencias aparece en la Figura 2.8.
100
200
300
400
500
Figura 2.8: Histograma de la tensin de fractura (en megapascales) para los datos del ejemplo del asfalto
Observamos, en primer lugar, que el intervalo modal est entre 200 y 300 megapascales. Observamos tambin que los datos no tienen una distribucin de frecuencias simtrica con forma acampanada. De hecho, la forma es la de una distribucin asimtrica a la derecha. Esto lo corroboramos por el valor del coeciente de asimetra, 0.66.
35
Qu indica el hecho de que los datos sean asimtricos a la derecha? La presencia de algunas muestras con valores de tensin muy superiores al conjunto ms representativo de los datos. En el histograma observamos esas muestras en la cola de la derecha. El ingeniero debera plantearse qu puede provocar que, ocasionalmente, aparezcan muestras con valores ms altos, aunque an no podemos decir que sean excesivamente altos. Tenemos, por tanto, que el promedio de la tensin de fractura est en torno a 195 megapascales, valor cercano a la mediana, y un intervalo modal entre 200 y 300 megapascales. Ahora vamos a obtener y analizar algunos percentiles. En concreto, centrmonos en el percentil 25 y el percentil 75. El percentil 25 est aproximadamente en el valor 115.5 y el percentil 75 en torno a 243.5. Eso implica, por ejemplo, que el 50 % de los valores centrales est precisamente entre 115.5 y 243.5. Parece una franja muy amplia para los datos ms normales. Esto puede ser un indicio de una variabilidad importante en los datos. Vamos a valorar ahora explcitamente la dispersin de los datos. La desviacin tpica muestral es de 121.39 megapascales. Eso supone un coeciente de variacin de 0.52, lo que, en principio, parece indicar que hay una dispersin importante de las distintas tensiones de ruptura con respecto al valor medio. Decimos en principio porque desconocemos cmo es el comportamiento de esta variable en otras muestras. El ingeniero debera comparar esta dispersin con la que habitualmente se produce en otras plantas. Si como parece, la dispersin es importante, los resultados ponen de maniesto que hay unas diferencias mayores a las esperadas entre las tensiones de ruptura de las muestras que estamos analizando, lo cual, desde el punto de vista del ingeniero, no puede ser una buena noticia. Vamos a terminar analizando si hay valores atpicos en la muestra. Teniendo en cuenta lo que acabamos de decir acerca de la dispersin, esta cuestin es bastante relevante: podra ocurrir que esa dispersin importante se deba a la presencia de algunos datos atpicos, aunque ya hemos visto que el rango intercuartlico, es decir, la distancia entre el percentil 25 y el percentil 75 indica que hay diferencias importantes entre los datos ms centrales. Dado que los datos no tienen forma acampanada, el mtodo ms adecuado para analizar la presencia de valores atpicos es el de los percentiles. Los valores atpicos estarn por debajo de
36
24
Tension
Figura 2.9: Diagrama de caja de las tensiones de fractura en el ejemplo del asfalto.
100
200
300
400
37
38
Parte II
Clculo de Probabilidades
39
Captulo 3
Probabilidad
Vemos que la teora de la probabilidad en el fondo slo es sentido comn reducido a clculo; nos hace apreciar con exactitud lo que las mentes razonables toman por un tipo de instinto, incluso sin ser capaces de darse cuenta[...] Es sorprendente que esta ciencia, que surgi del anlisis de los juegos de azar, llegara a ser el objeto ms importante del conocimiento humano[...] Las principales cuestiones de la vida son, en gran medida, meros problemas de probabilidad. Pierre Simon, Marqus de Laplace
Resumen. El captulo proporciona un tratamiento de los experimentos cuyos resultados no se pueden predecir
con certeza a travs del concepto de probabilidad. Se analizan las propiedades de la probabilidad y se introduce tambin el concepto de probabilidad condicionada, que surge cuando un suceso modica la asignacin de probabilidades previa.
Palabras clave: experimento aleatorio, experimento determinstico, espacio muestral, suceso, probabilidad,
probabilidad condicionada, independencia de sucesos.
3.1. Introduccin
En nuestra vida cotidiana asociamos usualmente el concepto de considerando
probables aquellos eventos en los que tenemos un alto grado de creencia en su ocurrencia. En esta lnea, Probabilidad es un concepto asociado a la medida del azar. Tambin pensamos en el azar
vinculado, fundamentalmente, con los juegos de azar, pero desde esa ptica tan reducida se nos escapan otros muchsimos ejemplos de fenmenos de la vida cotidiana o asociados a disciplinas de distintas ciencias donde el azar juega un papel fundamental. Por citar algunos:
Qu nmero de unidades de produccin salen cada da de una cadena de montaje? No existe un nmero jo que pueda ser conocido a priori, sino un conjunto de posibles valores que podran darse, cada uno de ellos con un cierto grado de certeza.
Cul es el tamao de un paquete de informacin que se transmite a travs de HTTP? No existe en realidad un nmero jo, sino que ste es desconocido a priori. 41
Cul es la posicin de un objeto detectado mediante GPS? Dicho sistema obtiene, realmente, una estimacin de dicha posicin, pero existen mrgenes de error que determinan una regin del plano donde el objeto se encuentra con alta probabilidad. Qu ruido se adhiere a una seal que se enva desde un emisor a un receptor? Dependiendo de las caractersticas del canal, dicho ruido ser ms o menos relevante, pero su presencia no podr ser conocida a priori, y deber ser diferenciada de la seal primitiva, sin que se conozca sta, teniendo en cuenta que se trata de un ruido aleatorio. En todos estos ejemplos el azar es un factor insoslayable para conocer el comportamiento del fenmeno en estudio.
experimento aleatorio.
se obtengan los mismos resultados. Lo que el Clculo de Probabilidades busca es encontrar una medida de la incertidumbre o de la certidumbre que se tiene de todos los posibles resultados, ya que jams (o muy difcilmente) se podr conocer a priori el resultado de cualquier experimento donde el azar est presente: a esta medida de la incertidumbre la denominaremos probabilidad .
Un
conjunto es una coleccin de elementos. Se dice que B es un subconjunto de A si todos sus elementos lo son tambin de A, y se notar B A.
1 Es mejor que aceptemos desde el principio que la Estadstica no es la ciencia de la adivinacin: tan slo se ocupa de cuanticar cmo de incierto es un evento y, ocasionalmente, de proponer estrategias de prediccin basadas en dicha medida de la incertidumbre.
42
Para cada Si
A
y
se verica
A A . C A.
Esto se conoce como propiedad transitiva.
CB
B A,
entonces,
La
unin
A B,
de
B,
y se nota
A B.
Esta
A B = B.
La
interseccin
A
de
B,
y se nota
AB
A B.
Dos conjuntos,
B,
se dicen
A B = .
y
A1 , ..., AN
se dicen
particin
A1 ... AN = Ai Aj =
para todo
i = j.
conjunto complementario de un conjunto A, A Ac , est formado por todos los elementos de que A.
no pertenecen a
AB =AB
A B = A B.
43
El conjunto formado por todos los posibles resultados del experimento aleatorio recibe el nombre de
espacio
ensayo o realizacin
A.
suceso o evento.
si se observa en dicho ensayo cualquier
ocurre un suceso A
Una observacin importante es que el espacio muestral no tiene por qu ser nico, sino que depender de lo que deseemos observar del experimento aleatorio. Vamos a poner este hecho de maniesto en los siguientes ejemplos.
= {par, impar}.
Ejemplo. Un experimento habitual en Biologa consiste en extraer, por ejemplo, peces de un ro, hasta
dar con un pez de una especie que se desea estudiar. El nmero de peces que habra que extraer hasta conseguir el ejemplar deseado de la especie en estudio formara el espacio muestral,
= {1, 2, 3, ...}, si es
que el investigador desea observar exactamente el nmero de peces hasta extraer ese ejemplar deseado. Obsrvese que se trata de un conjunto no acotado, pero numerable. Como ejemplos de posibles sucesos de inters podramos poner los eventos {1,2,3,4,5}, {mayor o igual a 5},... Supongamos ahora que el investigador slo est interesado en comprobar si hacen falta ms de 5 extracciones para obtener un ejemplar de la especie en estudio. En ese caso, el espacio muestral sera
= {> 5, 5}.
Ejemplo.
muestral no es nito, ni siquiera numerable. Como ejemplo de sucesos posibles en este espacio muestral podemos destacar, entre otros, {menor que 0.5} , {mayor que 0.25}, {menor que 0.75} ,... Otro espacio muestral podra ser observar el valor decimal mayor ms cercano. Por ejemplo, si sale 0.25, me interesa 0.3. En ese caso el espacio muestral sera por ejemplo, para sortear nmeros entre 1 y
10,
44
En estos ltimos ejemplos podemos ver que hay dos grandes tipos de espacios muestrales segn el nmero de sucesos elementales.
discreto si est formado por un conjunto nito o innito numerable de sucesos continuo
si est formado por un conjunto no numerable de
funcin de probabilidad
[0, 1]
y que
para ese espacio muestral es cualquier funcin que asigne a cada suceso un nmero en el intervalo verique
P [A] 0, P [] = 1.
A.
mutuamente excluyentes, es decir, tales que
A1 , A2 , ..., An
Ai Aj =
para
i = j,
n
P [n Ai ] = i=1
i=1
P [Ai ] .
Nota. Hay que notar que se puede dar ms de una funcin de probabilidad asociada al mismo espacio
muestral. Por ejemplo, asociado al espacio muestral
= {cara, cruz},
pueden darse un nmero innito no numerable de medidas de la probabilidad; concretamente, asociadas a cada eleccin
P [cara] = p P [cruz] = 1 p,
para cada
p [0, 1] . p=
1 2.
caso en que
Ejemplo. Volviendo sobre el lanzamiento del dado, si ste no est cargado, podemos denir la siguiente
funcin de probabilidad:
P [{i}] =
1 , i = 1, 2, ..., 6. 6
45
Como consecuencia de la denicin se verican, entre otras, las siguientes propiedades, que adems facilitan bastante los clculos:
P [] = 0.
Sea
Sean Sean
A A
B B
Ejemplo. El circuito que aparece en la Figura 3.1 est constituido por dos interruptores (switches ) en
paralelo. La probabilidad de que cualquiera de ellos est cerrado es de
1 2.
Para que pase corriente a travs del circuito basta con que pase corriente por alguno de los dos interruptores, esto es, que al menos uno de ellos est cerrado. Por tanto, si notamos por E al suceso que pase
46
N de lanzamientos N de caras
N. de caras N. de lanzamientos
10 4 0.4
100 46 0.46
A, P [A] ,
es
P [A] = l m
donde
nA , n n
nA
es el nmero de ocurrencias de
en
Esta interpretacin se conoce como denicin frecuentista de la probabilidad. Se trata de una interpretacin de carcter eminentemente prctico porque permite una aproximacin fsica al concepto de probabilidad, pero se ve limitada por las complicaciones que supone la denicin en trminos de un lmite que, como tal, slo se alcanza en el innito. Adems, desde un punto de vista realista, en qu ocasiones podremos repetir el experimento un gran nmero de veces?
Ejemplo. Se han realizado 1000 lanzamientos de una moneda. En el Cuadro 3.1 aparece un resumen de ese
proceso. Puede observarse como cuanto mayor es el nmero de lanzamientos, ms se aproxima la frecuencia
1 2 , de manera que podramos pensar que la probabilidad de cara es igual que la probabilidad 1 de cruz e iguales ambas a 2 , aunque esto slo es una suposicin, o una aproximacin, ya que para aplicar
relativa al valor estrictamente la denicin frecuentista deberamos continuar hasta el innito, lo que resulta imposible.
Esta interpretacin frecuentista de la probabilidad permite inferir lo que podemos llamar frecuencias espe-
radas. Si un evento
P [A],
ser
n P [A] .
Ms adelante
Ejemplo. Siguiendo con el ejemplo de la moneda, si la lanzamos 348 veces, lo esperable es que salgan
alrededor de
caras.
47
La interpretacin subjetiva de la probabilidad tiene que ver con la vinculacin de este concepto con el grado de incertidumbre que tenemos sobre las cosas. Si tenemos un experimento aleatorio, el resultado de dicho experimento es incierto. La probabilidad de un resultado del experimento es el grado de creencia que yo tengo en la ocurrencia de dicho resultado. Ese grado de creencia es personal, luego es subjetivo, pero lgicamente, deber estar acorde con la informacin que tenemos sobre el experimento.
A, P [A] ,
es
P [A] =
donde
NA , N A.
NA
Esta frmula, conocida como frmula de Laplace tambin es fundamentalmente prctica. Por ejemplo, nos permite deducir que
P [cara] =
1 2
en el lanzamiento de una moneda sin tener que lanzar la moneda un gran nmero de veces. Sin embargo, la denicin tiene dos grandes inconvenientes: el conjunto de resultados posibles,
N,
tiene que
ser nito y, adems, todos los resultados posibles deben tener la misma probabilidad (con lo cual, lo denido queda implcitamente inmerso en la denicin).
A,
en el que, en principio,
P [A] ; pero supongamos que conocemos algo del resultado de dicho experimento; B.
Parece lgico pensar que esa informacin conocida
A:
P [A | B],
P [A]
P [A | B] ,
48
Ejemplo. Consideremos el experimento aleatorio de extraer una carta de una baraja espaola. Sea el suceso
A:
obtener una sota, el suceso
B1 :
B2 :
Las distintas probabilidades, condicionadas o no, bajo la denicin clsica, son las siguientes:
B1
B2 .
B2
no ofrece
informacin acerca de
A,
B2
son
La
siempre que
P [B] = 0. P [/B ]
es una funcin de probabilidad en toda regla: por tanto,
cumple las mismas propiedades que cualquier funcin de probabilidad sin condicionar. Como hemos comentado, la idea de la probabilidad condicionada es utilizar la informacin que nos da un suceso conocido sobre la ocurrencia de otro suceso. Pero, como ya hemos puesto de maniesto en un ejemplo, no siempre un suceso da informacin sobre otro. En este caso se dice que ambos sucesos son Por tanto:
independientes.
Dos sucesos
se dicen independientes si
P [A | B] = P [A] ,
o equivalentemente si
P [B | A] = P [B],
equivalentemente si
P [A B] = P [A] P [B] .
Ejemplo. Continuando con el Ejemplo 3.3.3, lo ms lgico es pensar que los dos interruptores actan
de forma independiente, en cuyo caso
y tenemos que,
1 1 + P [E1 E1 ] 2 2 1 1 11 3 = + = . 2 2 22 4
Nota. Es muy importante no confundir la probabilidad condicionada de un suceso a otro con la probabilidad de la interseccin de ambos sucesos. En la Figura 3.2 puede verse la diferencia entre las probabilidades condicionadas entre dos sucesos y la probabilidad de su interseccin. En trminos coloquiales, podemos
49
analizar estas probabilidades como el cociente entre una parte y un todo. Cuando la probabilidad es condicionada ese todo es el suceso que condiciona. Cuando la probabilidad no es condicionada, ese todo es todo el espacio muestral. En ambos casos esa parte es la interseccin.
Nota. Tambin suele ser bastante comn la confusin entre sucesos independientes y sucesos incompatibles o mutuamente excluyentes. En este sentido, recordemos que dos sucesos
A B = ,
en cuyo caso
P [A B] = 0. P [A B] = P [A] P [B].
Por su parte,
sern independientes si
Ejemplo. La probabilidad de que el producto no sea elaborado a tiempo es 0.05. Se solicitan tres pedidos
del producto con la suciente separacin en el tiempo como para considerarlos eventos independientes. 1. Cul es la probabilidad de que todos los pedidos se enven a tiempo? En primer lugar, notemos
Ei
P [Ei ] = 0.95.
Por su parte, nos piden
50
P E1 E2 E3 E1 E2 E3 E1 E2 E3
= P E1 E2 E3 + P E1 E2 E3 + P E1 E2 E3
E1 E2 E3 , E1 E2 E3
E1 E2 E3
son incompatibles.
3. Cul es la probabilidad de que dos o ms pedidos no se enven a tiempo? Tengamos en cuenta que ya hemos calculado la probabilidad de que todos se enven a tiempo y de que todos menos uno se enven a tiempo. Entonces,
P [dos
= 1 P [todos
se enven a tiempo
un
= 1 (0.953 + 0.135).
Ejemplo.
esquema se pone de maniesto que una unidad ser producidad con xito si pasa en primer lugar un chequeo previo (A); despus puede ser montada directamente (B), redimensionada (C) y despus montada (D) o adaptada (E) y despus montada (F); posteriormente debe ser pintada (G) y nalmente embalada (H). Consideremos que las probabilidades de pasar exitosamente cada subproceso son todas ellas iguales a 0.95, y que los subprocesos tienen lugar de forma independiente unos de otros. Vamos a calcular en esas condiciones la probabilidad de que una unidad sea exitosamente producida. Si nos damos cuenta, A, G y H son ineludibles, mientras que una unidad puede ser producida si pasa por B, por C y D o por E y F. En notacin de conjuntos, la unidad ser producida si se da
A (B C D E F ) G H.
Como los procesos son independientes unos de otros, no tenemos problemas con las probabilidades de las intersecciones, pero tenemos que calcular la probabilidad de una unin de tres conjuntos, En general,
BC DEF .
P [A1 A2 A3 ] = P [(A1 A2 ) A3 ] = P [A1 A2 ] + P [A3 ] P [(A1 A2 ) A3 ] = P [A1 ] + P [A2 ] P [A1 A2 ] + P [A3 ] P [A1 A3 A2 A3 ]
51
En estos ejemplos, el clculo de la probabilidad de las intersecciones ha resultado trivial porque los sucesos son independientes. Son embargo, esto no siempre ocurre. Cmo podemos, en general, obtener la probabilidad de la interseccin de dos o ms sucesos no necesariamente independientes?
B,
P [A B] = P [A|B] P [B]
directamente de la denicin de probabilidad condicionada. A partir de esta frmula, por induccin, se puede obtener la llamada frmula producto, que se enuncia de la siguiente forma: si un espacio muestral no necesariamente independientes, se verica
A1 , A2 , ..., An
son sucesos de
P [A1 A2 ... An ] = P [A1 ]P [A2 |A1 ]...P [An |A1 A2 ... An1 ]
52
Ejemplo. Un lote de 50 arandelas contiene 30 arandelas cuyo grosor excede las especicaciones de diseo.
Suponga que se seleccionan 3 arandelas al azar y sin reemplazo del lote. 1. Cul es la probabilidad de que las tres arandelas seleccionadas sean ms gruesas que las especicaciones de diseo? Comenzamos notando los sucesos caciones de diseo, Entonces, nos piden
Ai :
i = 1, 2, 3.
P A3 /A1 A2 =
30 . 48
respectivamente, y juegan un importante papel a la hora de calcular probabilidades. Los dos utilizan como
Sea
y sea
Ejemplo.
Supongamos que tenemos 4 cajas con componentes electrnicas dentro. La caja 1 contiene
2000 componentes, con un 5 % de defectuosas; la caja 2 contiene 500 componentes, con un 40 % de defectuosas; las cajas 3 y 4 contienen 1000 componentes, con un 10 % de defectuosas.
D:
componente defectuosa y
Ci :
componente de la caja
i-sima.
P [C1 ] =
2000 2000 + 500 + 1000 + 1000 500 P [C2 ] = 2000 + 500 + 1000 + 1000 1000 P [C3 ] = 2000 + 500 + 1000 + 1000 1000 P [C4 ] = 2000 + 500 + 1000 + 1000
y
4 9 1 = 9 2 = 9 2 = 9 =
Adems,
P [D | C4 ] = 0.1.
P [D] = P [D | C1 ] P [C1 ] + P [D | C2 ] P [C2 ] + P [D | C3 ] P [C3 ] + P [D | C4 ] P [C4 ] 4 1 2 2 = 0.05 + 0.4 + 0.1 + 0.1 = 0. 11111 9 9 9 9
2. Si se escoge una componente al azar y resulta ser defectuosa, cul es la probabilidad de que pertenezca a la caja 1?
P [C1 | D] =
54
F
0.01 0.1 1.0 Total
1 20 55 70 145
Ejemplo. Se disponen tres cajas donde se almacenan acumuladores segn aparece en el Cuadro 3.2.
Se escoge al azar una caja y de ella, a su vez, un acumulador.
0.01F, 0.1F
1.0F
0.01F , 0.1F
1.0F
c1, c2
c3
P [0.01F ] = P [0.01F / c1] P [c1] + P [0.01F / c2] P [c2] + P [0.01F / c3] P [c3] 95 1 25 1 5903 20 1 + + = = 0.23078. = 145 3 210 3 245 3 25 578
2. Si ha sido seleccionado un acumulador de 1.0F , cul es la probabilidad de que proceda de la caja 1? Utilizando el teorema de Bayes,
P [c1 / 1.0F ] =
Por su parte,
P [1.0F ] = P [1.0F / c1] P [c1] + P [1.0F / c2] P [c2] + P [1.0F / c3] P [c3] 70 1 80 1 145 1 6205 = + + = = 0.48518, 145 3 210 3 245 3 12 789
luego
P [c1 / 1.0F ] =
Ejemplo. Siguiendo con el ejemplo de las arandelas con grosor fuera de las especicaciones de diseo,
cul es la probabilidad de que la tercera arandela seleccionada sea ms gruesa que las especicaciones de diseo?
55
= P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ] + P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ]
+P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ] + P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ] 28 30 29 29 20 30 + 48 50 49 48 50 49 29 30 20 30 20 19 + . 48 50 49 48 50 49
Ejemplo.
que el dgito 3 es enviado tres veces ms frecuentemente que 1, y 2 dos veces ms frecuentemente que 1. Calculemos la probabilidad de que un dgito cualquiera enviado a travs del canal sea recibido correctamente. En primer lugar, si notamos como
P [X = 1] = p,
entonces
P [X = 2] = 2p
P [X = 3] = 3p.
1 = P [X = 1] + P [X = 2] + P [X = 3] = 6p,
se tiene que
P [X = 1] =
1 1 , P [X = 2] = 6 3
P [X = 3] =
1 . 2
Ejemplo.
P [X = 1 / Y = 1] =
P [Y = 1 / X = 1] P [X = 1] . P [Y = 1]
56
Por su parte,
P [Y = 1] = P [Y = 1 / X = 1] P [X = 1] + P [Y = 1 / X = 2] P [X = 2] + P [Y = 1 / X = 3] P [X = 3] =
luego
1 + + , 6 6 4
1 6 1 + 6 6
P [X = 1 / Y = 1] =
=2
1 + . 2 + 2 2 3
da. Tanto es as que tenemos que determinar la probabilidad de dicho suceso, que nosotros somos conscientes de que
P [A].
Es importante entender
P [A]
A.
P [A].
probabilidad a priori. 57
que tenemos nueva informacin que nos dar pistas acerca de si est recogida en un suceso que llamaremos de
A basndonos en esta nueva informacin, proporcionando una nueva probabilidad de A que tenga en cuenta
es decir,
B1 ,
P [A |B1 ],
que llamaremos
probabilidad a posteriori.
P [B1 |A ] P [A] . P [B1 |A ] P [A] + P [B1 |A ] P A
En esa actualizacin de la probabilidad es donde entra el Teorema de Bayes, ya que nos dice que
P [A |B1 ] =
Obsrvese que la probabilidad a posteriori es proporcional a la probabilidad a priori. Finalmente, es muy importante ver que podemos extender esta forma de trabajar aplicando el teorema de una forma recursiva. Despus de conocer
B1 ,
es
P [A |B1 ].
Abusando de
la notacin, podemos decir que esa es nuestra nueva probabilidad a priori y si, por ejemplo, tenemos ms informacin sobre a posteriori sera
A,
B2 ,
P [A |B1 B2 ] = =
P [B2 |AB1 ] P [A |B1 ] P [B2 |AB1 ] P [A |B1 ] + P B2 |AB1 P A |B1 P [B2 |A ] P [A |B1 ] . P [B2 |A ] P [A |B1 ] + P [B2 |A ] P A |B1 P [A |B1 ]
ocupa el lugar que antes ocupaba la probabilidad
a priori. Adems, esta segunda probabilidad a posteriori podra considerarse como la nueva probabilidad a priori para una nueva aplicacin del teorema basada en el conocimiento de nueva informacin dada por un suceso
B3 .
puede realizarse cuantas veces sea necesario. Vamos a ilustrar esto en un par de ejemplos.
P [culpable] = 0.1,
58
P [culpable |ADN + ] =
P [ADN + |culpable ] P [culpable] P [ADN + |culpable ] P [culpable] + P [ADN + |inocente ] P [inocente] 0.995 0.1 = = 0.999548 0.995 0.1 + 0.00005 0.9
Es decir, ahora piensa que el sospechoso es culpable con un 99.9548 % de certeza. Fijmonos en que nuestra probabilidad a priori aparece en los trminos 0.1 en el numerador y 0.1 y 0.9 en el denominador. Esa, 0.1, era la probabilidad que tenamos
despus de la prueba esa probabilidad es 0.999548 de que sea culpable (y 0.000452 de que sea inocente).
Sin embargo, el sospechoso insiste en su inocencia, y propone someterse a una prueba de un detector de mentiras. Los expertos saben que un culpable es capaz de engaar a esta mquina en el 10 % de las veces, y que la mquina dir el 1 % de las veces que un inocente miente. Nuestro sospechoso se somete a la mquina y sta dice que es inocente. Cul ser ahora la probabilidad que el juez asigna a la culpabilidad del sospechoso? Teniendo en cuenta que:
P [culpable |maquina ] =
P [maquina |culpable ] P [culpable] P [maquina |culpable ] P [culpable] + P [maquina |inocente ] P [inocente] 0.1 0.999548 = 0.9955431. = 0.1 0.999548 + (1 0.01) (1 0.999548)
Es decir, an con esa prueba negativa, el juez an tiene un 99.55431 % de certidumbre de que el sospechoso es culpable. De nuevo, podemos resumir este paso diciendo que
nuestra
probabilidad de que fuera culpable era de 0.999548 (que aparece en la frmula ocupando la posicin de la probabilidad a priori), mientras que
59
Antes de la prueba
0.1 0.999548
P [Culpable]
P [ADN +|culpable ]0.1 P [ADN +|culpable ]0.1+P [ADN +|inocente ](10.1) = 0.999548 P [maquina|culpable ]0.999548 P [maquina|culpable ]0.999548+P [maquina|inocente ](10.999548) = 0.9955431
Despus de la prueba
Cuadro 3.3: Esquema del proceso iterativo del teorema de Bayes en el ejemplo del juez. La probabilidad a
priori (antes de cada prueba) es la que se utiliza en la frmula para obtener la probabilidad a posteriori
(desps de cada prueba). La probabilidad a posteriori (despus) de una prueba es la probabilidad a priori (antes) de la siguiente prueba.
Supongamos que una pieza pasa las tres veces y da no defectuosa: cul es la probabilidad de que realmente sea no defectuosa? Vamos a empezar notando adecuadamente los sucesos. Notaremos
a dar
P [D] = 0.05,
P [+ |D ] = 0.9
P [+ |D ] = 0.05.
La probabilidad a priori de que una pieza sea no defectuosa es de 0.95, pero si es detectada como defectuosa una primera vez, dicha probabilidad pasa a ser
P D |+ =
Esa probabilidad pasa a ser la probabilidad a priori para la segunda vez que da no defectuosa. Por tanto, la probabilidad de que sea no defectuosa si da negativo por segunda vez es
P D |++ =
P [+ |D ] 0.9944904 |D ] 0.9944904 + P [+ |D ] (1 0.9944904) P [+ 0.95 0.9944904 = = 0.9994172. 0.95 0.9944904 + 0.1 (1 0.9944904)
P D |+++ =
P [+ |D ] 0.9994172 P [+ |D ] 0.9994172 + P [+ |D ] (1 0.9994172) 0.95 0.9994172 = = 0.9999386. 0.95 0.9994172 + 0.1 (1 0.9994172)
Como podemos ver, si una pieza da no defectuosa tres veces, la probabilidad de que sea realmente no defectuosa es altsima, del orden del 99.99 %, as que el mtodo ideado por el responsable de calidad parece consistente.
60
Antes de la prueba
0.95 0.9944904 0.9994172
P D
P [+|D ]0.95 P [+|D ]0.95+P [+|D ](10.95) = 0.9944904 P [+|D ]0.9944904 P [+|D ]0.9944904+P [+|D ](10.9944904) = 0.9994172 P [+|D ]0.9994172 P [+|D ]0.9994172+P [+|D ](10.9994172) = 0.9999386
Despus de la prueba
Cuadro 3.4: Esquema del proceso iterativo del teorema de Bayes en el ejemplo de la mquina de deteccin de fallos. La probabilidad a priori (antes de cada prueba) es la que se utiliza en la frmula para obtener la probabilidad a posteriori (desps de cada prueba). La probabilidad a posteriori (despus) de una prueba es la probabilidad a priori (antes) de la siguiente prueba.
61
62
Captulo 4
Variable aleatoria. Modelos de distribuciones de probabilidad
Mas a pesar de todo eso, aunque la mala suerte exista, muy pocos reporteros veteranos creen de verdad en ella. En la guerra, las cosas suelen discurrir ms bien segn la ley de las probabilidades: tanto va el cntaro a la fuente que al nal hace bang. Arturo Prez Reverte, en Territorio Comanche
Resumen. En este captulo continuamos con el estudio de la probabilidad, utilizando el concepto de variable
aleatoria para referirnos a experimentos donde el resultado queda caracterizado por un valor numrico. Se presentan algunos de los modelos ms habituales de asignacin de probabilidades y sus propiedades ms relevantes.
Palabras clave: variable aleatoria, variable discreta, funcin masa de probabilidad, variable continua, funcin
de densidad de probabilidad, funcin de distribucin, media, varianza, distribucin binomial, distribucin de Poisson, distribucin geomtrica, distribucin uniforme, distribucin exponencial, distribucin Gamma, distribucin normal.
4.1. Introduccin
En el tema anterior hemos visto que la Estadstica se ocupa de experimentos aleatorios. En general, en Ciencia y Tecnologa se suele analizar cualquier experimento mediante una o varias medidas del mismo. Por ejemplo, se analiza un objeto segn su peso, su volumen, su densidad, su contenido de agua...; o se analiza el trco de Internet segn el nmero de conexiones a un servidor, el volumen total de trco generado, la velocidad... En estos sencillos ejemplos observamos que se ha descrito un fenmeno fsico, como puede ser un objeto o el estado de una red de comunicaciones en un momento dado, mediante uno o varios nmeros o variables. Cuando ese fenmeno es de tipo aleatorio, vamos a llamar a esa asignacin variable aleatoria . Consideremos un experimento probabilstico con un espacio muestral de probabilidad
P [] .
63
Una
variable aleatoria (a partir de ahora v.a.) es un nmero real asociado al resultado de un experimento
X : R.
aleatorio. Se trata, por tanto, de una funcin real con dominio en el espacio muestral,
Podemos pensar en una v.a. como en una variable asociada a una poblacin conceptual, ya que slo podr observarse cuando se tomen muestras suyas. En la notacin que vamos a utilizar representaremos las variables aleatorias como funciones siempre en maysculas, y a sus valores concretos siempre en minscula. Es decir, si queremos referirnos a una v.a. antes de observar su valor, podemos notarla como
X,
variable (ya no es, por tanto, algo aleatorio), debemos notar a ese valor en minscula, por ejemplo, como Por ejemplo, podemos decir que la variable aleatoria dado puede tomar los valores el valor
x.
x = 1, 2, 3, 4, 5, 6.
tome
x=4
o de que
X 6.
x = 6.
No olvidemos que el objeto de la Estadstica con respecto a la observacin de fenmenos aleatorios es medir la certidumbre o la incertidumbre asociada a sus posibles resultados. Al describir estos resultados mediante variables aleatorias, lo que tenemos son resultados numricos sujetos a incertidumbre. El objetivo ahora es cuanticar la probabilidad de esos resultados numricos de alguna forma.
discreta
X,
se dene su
para cada
x R.
Prof. Dr. Antonio Jos Sez Castillo
64
Nota. Obsrvese que una funcin masa de una v.a. discreta est denida en todos los puntos de la recta
real, pero slo valdr distinto de cero en un conjunto, a lo sumo, numerable, que corresponde con los nicos valores que pueden darse de la variable.
Sea
f (x)
1. 2.
f (x) 0
xR
x R.
f (x) = 1. B, P [X B] =
xi B
f (xi ) ,
donde
xi
X.
X , x1 , ..., xN ,
la
femp (x) =
Si el tamao,
N,
Ejemplo. En la Figura 4.1 aparece la funcin masa emprica correspondiente al lanzamiento de un dado
600 veces. Esta funcin emprica aparece representada en barras verticales, mientras que la funcin masa
terica,
f (x) =
1 6 , para
se cmo proporcionan probabilidades tericas y empricas bastante parecidas. No obstante, deberamos concluir a la luz de estos 600 datos que el dado no est cargado?
x f (x).
65
Figura 4.1: Funcin masa emprica de una muestra de 600 lanzamientos de un dado.
Como en el caso de la media muestral de unos datos, la media de una v.a. se interpreta como el centro de gravedad de los valores que puede tomar la variable, con la diferencia que en una media muestral, el peso de cada valor lo da la frecuencia de dicho valor en los datos y aqu el peso lo determina la probabilidad, dada por la funcin masa.
X,
f (x),
V arX =
x
(x EX)2 f (x).
La forma ms cmoda de calcular en la prctica la varianza es desarrollando previamente el cuadrado que aparece en su denicin, ya que
V arX =
x
(x EX)2 f (x) =
x
=
x
x2 f (x) 2EX
f (x)
V arX ,
que tiene las mismas unidades que la media y que se puede interpretar como una media del
grado de variacin del conjunto de valores que puede tomar la v.a. respecto del valor de la media.
66
babilidad. Se trata de frmulas tericas de funciones masa que pueden resultar adecuadas para determinadas
variables aleatorias. Hay una metfora que puede ayudar a entender cmo se asigna una distribucin de probabilidad y sobre la que abundaremos en lo sucesivo: qu ocurre cuando queremos comprar unos pantalones? En general acudimos a una tienda de moda y:
1. De entre una serie de modelos, elegimos el modelo que creemos que mejor nos va. 2. Buscamos la talla que hace que mejor se ajuste a nosotros, segn nuestras caractersticas.
nuestras caractersticas son las posibles observaciones que tenemos sobre la v.a. que, por ejemplo,
pueden determinar una distribucin emprica asociada a una muestra;
los modelos de la tienda, entre los que elegimos el que ms nos gusta, son los modelos tericos que
vamos a empezar a estudiar a continuacin; y la talla que hace que los pantalones se ajusten a nosotros adecuadamente son los parmetros de los modelos tericos.
En lo que resta de este captulo vamos a describir algunos de los modelos tericos de probabilidad ms habituales en el mbito de las Ingenieras, comenzando por el caso de v.a. discretas.
X X
x = 0, 1, ..., n,
donde
f (x) = =
px (1 p)
n! nx px (1 p) , x = 0, 1, 2, ..., n. x! (n x)!
67
0.4 B(10,0.25) 0.3 0.2 0.1 0 0.4 B(10,0.5) 0.3 0.2 0.1 0 0.4 B(10,0.75) 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Sea
X B (n, p).
Entonces
EX = np V arX = np (1 p) .
veces de forma independiente y que en ese experimento hay un suceso que denominamos xito,
p.
B (n, p).
En esta caracterizacin es importante observar que las dos hiptesis fundamentales de esta distribucin son: los experimentos se repiten de forma la probabilidad de xito es
independiente y
constante.
En la medida en que estas dos hiptesis no sean vlidas, la distribucin binomial no ser adecuada para la variable que cuenta el nmero de xitos. Un ejemplo particular de distribucin binomial lo constituye la denominada Se trata de una distribucin
distribucin de Bernouilli.
B (1, p),
f (x) =
1p p
si
si
x=0
x=1
68
x P [X = x]
4 0
4 1
4 2
4 3
4 4
B (4, 0.2)
Ejemplo.
Consideremos como v.a. el nmero de das a la semana que un joven de hoy consu-
B (7, p),
donde
p =
Ejemplo.
nicaciones bastante imperfecto. Por estudios previos, estima que la probabilidad de que un dgito se transmita incorrectamente es del 20 %. El ingeniero enva un mensaje de 4 dgitos y se pregunta cuntos se recibirn incorrectamente. Desde el punto de vista estadstico nosotros no podemos responder a esa pregunta. En realidad, nadie puede responder a esa pregunta con certeza, porque existe incertidumbre latente en ella: el azar determinar cuntos dgitos se cruzan. Lo que s podemos hacer es facilitarle el grado de certeza, es decir, la probabilidad, de cada uno de los posibles resultados. Concretamente, si analizamos la variable
X:
en cuenta que el ensayo de cada envo de cada dgito se har de forma independiente y que nos ha dicho que la probabilidad de que un dgito se reciba incorrectamente es 0.2, podemos armar que un modelo de probabilidad adecuado para dicha variable es una distribucin
B(4, 0.2).
calcular la probabilidad de que se crucen 0, 1, 2, 3 o 4 de los dgitos. Lo esquematizamos en la tabla adjunta. Vistos los resultados, debemos decirle al ingeniero que es hartamente improbable que le fallen los 4 dgitos, pero que tiene una probabilidad (ver Cuadro 4.1) de
69
x = 0, 1, 2, ...
Se dice que
sigue una
distribucin
Sea
X P ().
Entonces
EX = V arX = .
el promedio
Ejemplo. La distribucin de Poisson suele utilizarse como modelo para el nmero de accidentes ocurridos
en los individuos de una poblacin a lo largo de un periodo de tiempo. Lo que mucha gente no termina de asumir es que hacer esa suposicin equivale a decir que todos esos individuos tienen el mismo riesgo de tener un accidente y que el hecho de que un individuo tenga un accidente no modica para nada la probabilidad de sufrir un nuevo accidente. Es evidente que en muchas situaciones de la vida real eso no es cierto, as que el modelo no ser adecuado en ellas.
Ejemplo. Otra aplicacin muy comn de la distribucin de Poisson es al nmero de partculas por unidad
de volumen en un uido cuando una disolucin est realmente bien disuelta. En caso de que los datos indiquen que la distribucin de Poisson no es adecuada, podramos de hecho inferir que la disolucin no est bien disuelta.
Ejemplo.
Poisson es en el mbito del nmero de solicitudes de servicio a un servidor. Por ejemplo, se suele considerar que el n de llamadas a una centralita o el n de conexiones a un servidor sigue una distribucin de Poisson.
70
Sin embargo, hay que decir que aunque este uso de la distribucin de Poisson es muy comn, es evidente que la hiptesis de que el promedio
los fenmenos ms conocidos en telecomunicaciones es el de la hora cargada : no es el mismo promedio de llamadas el que se produce a las 12 del medioda que a las 3 de la maana. Lo que se suele hacer es aplicar uno de los principios ms importantes aunque menos escritos de la ingeniera, la ley de Murphy (si algo
puede ir mal, preprate para ello, porque en algun momento ir mal ): as, las redes de telecomunicaciones
suelen dimensionarse para ser capaces de funcionar en el peor de los escenarios posibles, es decir, cuando el promedio de solicitudes es el que se da en la hora cargada.
y que en ese experimento hay un suceso que denominamos xito, que ocurre con probabilidad constante Adicionalmente, supongamos que el experimento se repite un gran nmero de veces, es decir, que el xito es un suceso raro, es decir, la variable aleatoria
p.
es grande y
p < 0.05.
Si
n > 100,
np < 10. n
para esos valores de los parmetros, la distribucin binomial tendra bastantes problemas para ser computada, ya que se exigira, entre otros clculos, el clculo de es muy til.
n!
para un valor de
Ejemplo.
es de
generadores de gran tamao. Si la probabilidad de que cualquiera de ellos falle durante el ao en curso
a. b.
= np = (3840)(1/1200) = 3.2. x =
la variable que dene el nmero de motores que pueden fallar en el ao, con valores
0, 1, 2, 3, ...., 3840.
En principio, considerar que
es muy grande y
P [X = 4] =
Por su parte,
P [X > 1] = 1 P [X = 0, 1] = 1
71
0.4 P(1) 0.3 0.2 0.1 0 5 0.2 P(5) 0.15 0.1 0.05 0 5 0.2 P(10) 0.15 0.1 0.05 0 5 0 5 10 15 20 25 0 5 10 15 20 25 0 5 10 15 20 25
x = 0, 1, 2, ...
geomtrica de parmetro p (y se nota X Geo (p)), con 0 < p < 1, si su funcin masa es
f (x) = p (1 p) ,
x
para
distribucin
x = 0, 1, 2, ...
Sea
X Geo (p).
Entonces,
1p p 1p V arX = . p2 EX =
p.
Geo (p).
72
0.4 Geo(0.25) 0.3 0.2 0.1 0 5 0.8 Geo(0.5) 0.6 0.4 0.2 0 5 0.8 Geo(0.75) 0.6 0.4 0.2 0 5 0 5 10 15 20 25 0 5 10 15 20 25 0 5 10 15 20 25
Ejemplo. Siguiendo con un ejemplo anterior, sobre el ingeniero que enva dgitos a travs de un canal
imperfecto, ahora se plantea cuntos dgitos se recibirn correctamente hasta que uno se cruce, sabiendo que la probabilidad de que uno cualquiera lo haga es de 0.2. La variable de inters ahora es
Y : n
Geo(0.2).
decirle, por ejemplo, que la probabilidad de que enve bien dos y que falle el tercero es de
x = 0, 1, 2, ...
X
y
sigue una
distribucin
si su funcin
BN (a, p)),
para
a>0
0 < p < 1,
f (x) =
donde
(a + x) x pa (1 p) (a) (x + 1)
x = 0, 1, 2, ...
(x) =
sx1 es ds
es la funcin gamma.
a = 1.
73
Sea
X BN (a, p).
Entonces
1p p 1p V arX = a 2 p EX = a
p.
BN (k, p).
(r) = (r 1)!
si
es un
f (x) = =
para
x = 0, 1, 2, ... x = 0, 1, 2, ...
pk (1 p)
para
Caracterizacin de la distribucin binomial negativa. Sean X1 , ..., Xn v.a. independientesa con distribucin
Geo (p).
En ese caso,
X=
n i=1
Xi
sigue una
BN (n, p).
es un entero.
a Podemos quedarnos por ahora con la idea de que v.a. independientes son aquellas tales que el resultado de cualquiera de ellas no afecta al resto.
Ejemplo.
to, cuntos dgitos se transmitirn correctamente hasta que dos lo hagan incorrectamente? De nuevo tenemos que asumir que no hay una respuesta para esto, pero s podemos considerar un modelo de probabilidad para ello que nos ayude a tomar decisiones. Sea
Z:
n de dgitos que se reciben bien hasta que dos se cruzan. Esta v.a. sigue una distribucin
Gracias a este modelo, podemos decirle al ingeniero, por ejemplo, que la probabilidad de
BN (2, 0.2).
P [Z 8] =
z=0
P [Z = z] =
74
0.1 BN(2.5,0.25)
0.05 0.02 0 10 0.4 BN(2.5,0.5) 0.3 0.2 0.1 0 10 0.8 BN(2.5,0.75) 0.6 0.4 0.2 0 10 0 10 20 30 40 0.3 0.2 0.1 0 10 0 10 20 30 40 0 10 20 30 40 0.15 0.1 0.05 0 10 0.4 BN(5,0.75) 0 10 20 30 40 0 10 0.2 BN(5,0.5)
10
20
30
40
10
20
30
40
continua
intervalos, formando, por tanto, un conjunto con un nmero innito no numerable de elementos.
4.4.2. Histograma
Hay una diferencia fundamental entre las variables discretas y las continuas: en las discretas podemos, al menos, numerar los posibles valores y contar el nmero de veces que sale cada valor posible en una muestra. Sin embargo, por el carcter que tienen los intervalos de nmeros reales, por muy grande que fuera la muestra
75
0.8
Densidad
0.6
Densidad 0 1 2 3 4 5 6
0.4
0.0
0.2
0.0 0
0.2
0.4
0.6
0.8
que tomramos de una variable continua, jams tendramos ms de un valor de algunos puntos que puede tomar la variable . Por esa razn, en una variable continua no podemos denir una funcin masa emprica, precisamente porque los valores de una variable continua no tienen masa de probabilidad. Sin embargo, como sabemos, existe una representacin anloga a la funcin masa emprica que permite aproximar las probabilidades de los valores de una variable continua: el histograma. Vamos a considerar un sencillo ejemplo para ilustrar esta cuestin: mediante R simulamos dos muestras de una variable, una con
N = 100
N = 1000.
10 y 31 intervalos, respectivamente, aparecen en la Figura 4.6. Teniendo en cuenta que el rea de las barras representa la frecuencia relativa con que se dan los valores de los sucesivos intervalos en la muestra, en estos histogramas podemos ver que la variable toma mayoritariamente valores cercanos a cero; tanto ms lejano al cero es un valor, menos probable parece ser. Este descenso de la probabilidad es adems, muy acusado, casi exponencial. Por otra parte, obsrvese que al pasar de 100 datos en la muestra a 1000 datos, el histograma esboza la forma de una funcin real de variable real. En general, cuanto mayor es
forma de una funcin continua. Vamos a ir viendo cul es la utilidad de esa funcin desde el punto de vista del Clculo de Probabilidades. Si en el histograma de la izquierda de la Figura 4.6 quisiramos calcular la probabilidad en la muestra de alguno de los intervalos que denen el grco, la respuesta sera el rea de la barra sobre dicho intervalo. Si quisiramos la probabilidad en la muestra de varios intervalos, sumaramos las reas de las barras. El problema es que para que las probabilidades en la muestra se parezcan a las verdaderas probabilidades es necesario que el tamao de la muestra sea grande, cuanto mayor, mejor. En ese caso, tendramos un
1 Esto
76
histograma ms parecido al de la derecha de la Figura 4.6. En l, de nuevo, si queremos, por ejemplo, calcular
P [a < X < b] ,
deberamos sumar las reas de las barras que forman el intervalo exactamente, el intervalo
(a, b),
(a, b) . f (x)
Pero si el tamao de la muestra es lo sucientemente amplio para poder pasar al lmite y encontrar una funcin real de variable real del tipo que represente la lnea que dene el histograma, calcular una probabilidad
P [a < X < b] sumando las reas de las barras de los intervalos innitesimales que forman el intervalo (a, b), P [a < X < b] =
a b
es decir,
(a, b)
f (x) dx.
X,
la
de
es aquella funcin
f (x)
tal
a, b R
a, b = , P [a < X < b] =
a b
f (x) dx
Nota.
Dado que a efectos del clculo de integrales un punto no afecta al resultado de la integral, si podemos decir que
a, b R,
f (x) ,
b
f (x) ,
b
f (x) ,
b
f (x) .
Este hecho pone de maniesto que los valores concretos de una variable aleatoria continua no tienen masa de probabilidad, ya que
P [X = x0 ] =
x0
f (x) dx = 0,
x0
de los intervalos innitesimales de valores alrededor de un valor alto, querr decir que los valores alrededor de
P [X = x0 ] = 0,
si
f (x0 )
toma
f (x):
77
1. 2.
f (x) 0
para todo
x R.
P [X B] =
como
f (t) dt.
Si
X
1. 2. 3. 4. 5.
f (x)
y funcin de distribucin
F (x),
entonces
l x F (x) = 0. m l x F (x) = 1. m F F
es creciente. es continua.
f (x) = F (x) .
Ejemplo.
X,
f (x) = cea|x| .
c,
la funcin de distribucin y
P [X 0].
f (x) dx =
1=
0
f (x) dx +
f (x) dx
0
c exp (ax) dx +
c exp (ax) dx =
2c , a
c=
a 2.
F (x) =
f (t) dt =
1 ax si x < 0 2e 1 1eax si x 2 + 2
Por ltimo,
P [X 0] =
f (x) dx = 1 . 2 a = 1,
aparecen en la Figura 4.7.
78
Ejemplo. Consideremos una v.a. continua con funcin de distribucin dada por
F (x) =
En ese caso, la funcin de densidad es
0 x
si
si
x<0 x1
0x<1 .
si
f (x) = F (x) =
1 0
si
0x1
en otro caso
Grcamente, ambas funciones aparecen en la Figura 4.8. En esta variable, todos los puntos tienen la misma densidad de probabilidad, indicando que todos los intervalos de la misma longitud, dentro de
[0, 1] ,
Esta funcin se utiliza para aproximarse a la funcin de distribucin, ya que para un gran nmero de valores,
79
N
para cada
l SN (x) = F (x) , m
x.
Ejemplo. En el ejemplo anterior se hablaba de una variable aleatoria continua cuya funcin de distribucin es
F (x) =
0 x 1
si
x<0 x>1
si
x [0, 1] .
si
En la Figura 4.9 hemos representado dos funciones de distribucin empricas asociadas a sendas muestras de tamao
N = 10
(izquierda) y
N = 100
(derecha).
Obsrvese que cuando aumenta el tamao de la muestra (N ), la funcin de distribucin emprica se parece cada vez ms a la funcin de distribucin.
f (x).
EX =
x f (x)dx.
La interpretacin de la media de una v.a. continua es, de nuevo, la de un valor central alrededor del que se dan el conjunto de realizaciones de la v.a. Otra interpretacin es la de
80
1 x2 x1 si
x1 x x2
en otro caso
EX =
x2
x
x1
1 dx x2 x1
x2
x2 1 x2 x1 2
=
x1
1 x2 x2 1 2 2 x2 x1
[x1 , x2 ].
x0
en otro caso
81
Calculemos su media:
EX =
0
x ex dx u=x +
0
dv = ex dx = 1 = 0 + ex
0
x ex 1 = .
ex dx
Vamos a introducir ahora el concepto de varianza de una v.a. continua, que de nuevo se interpreta como una medida de la concentracin de los valores de la v.a. en torno a su media.
X.
Se dene su
(X EX)
Es decir, es la media de las desviaciones al cuadrado de los valores de la variable respecto de su media.
V ar [X]
se conoce como
desviacin tpica.
Como en el caso de las v.a. discretas, existe un mtodo ms cmodo para el clculo de cualquier varianza. En concreto,
V ar [X] = E (X EX)
= E X 2 2X EX + (EX)
2
2 2
= E X 2 2 EX EX + (EX) = E X 2 (EX) .
Como se comentaba anteriormente, la interpretacin de la varianza es la de un promedio que mide la distancia de los valores de la variable a la media de sta. Si la varianza es pequea, indica una alta concentracin de los valores de la variable en torno a la media; y viceversa, si la varianza es grande, indica alta dispersin de los valores de la variable respecto de la media.
x1 x x2
en otro caso
E X
2
x2
=
x1
x2
1 1 x3 x3 2 1 dx = x2 x1 3 x2 x1
x2 + x1 x2 + x2 1 = 2 . 3
82
EX =
por tanto,
x1 + x2 , 2
aX + b.
Ya comentamos en el captulo de Estadstica Descriptiva el comportamiento de la media y la varianza muestral frente a estos cambios de origen y escala. Ahora nos referimos aqu al comportamiento de sus homlogos poblacionales. Este resultado es muy til en la prctica y es vlido tanto para variables continuas como para discretas. Concretamente, si
es una v.a. y
a, b R,
entonces
Nota. Si tenemos una coleccin de variables aleatorias independientes, es decir, que son observadas sin
que ninguna de ellas pueda inuir sobre las otras, es muy til plantearse en ocasiones por la media y la varianza de la suma de todas ellas. Vamos a considerar las variables
X1 , ..., Xn , que pueden ser discretas o continuas. Pues bien, se tiene que
la media de la suma es la suma de las medias y que la varianza de la suma es la suma de las varianzas;
83
es decir,
E [X1 + ... + Xn ] = EX1 + ... + EXn V ar [X1 + ... + Xn ] = V arX1 + ... + V arXn
uniforme entre x1 y x2
(y se nota
X U (x1 , x2 )) f (x) =
si su funcin de densidad es
1 x2 x1 si
x1 < x < x 2
en otro caso
Sea
X U (x1 , x2 ).
Entonces
x1 + x2 2 2 (x2 x1 ) V arX = . 12 EX =
x2
X U (x1 , x2 ) . (0, 1) ;
valores simulados de
El ejemplo ms habitual de esta variable es la variable uniforme en el intervalo esta variable son los que se calculan con la orden
84
Sea
x 0. Se dice que X
sigue una
distribucin exponencial
F (x) = P [X x] =
1 ex si x 0 . 0 en otro caso
Sea
X exp ().
Entonces,
1 1 V arX = 2 . EX =
Caracterizacin de la distribucin exponencial. Sea X P () una v.a. discreta que cuenta el nmero
de xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre dos xitos consecutivos,
T,
exp ().
Ejemplo. Un elemento radiactivo emite partculas segn una variable de Poisson con un promedio de
15 partculas por minuto. En ese caso, el tiempo,
T,
= 15
nos permite, por ejemplo, calcular la probabilidad de que entre partcula y partcula pasen ms de 10 segundos, dado por
P [T > 10/60] =
15e15t dt = e15/6 .
1/6
Ejemplo.
contexto de las redes de comunicaciones como modelo para el nmero de solicitudes a un servidor por unidad de tiempo. Segn esta caracterizacin que acabamos de ver, eso equivale a decir que el tiempo que pasa entre dos solicitudes a un servidor sigue una distribucin exponencial. Por ejemplo, supongamos que el nmero de conexiones a un servidor FTP sigue una distribucin de Poisson de media 2.5 conexiones a la hora. En ese caso, podramos preguntarnos cul es la probabilidad de que pasen ms de dos horas sin que se produzca ninguna conexin. Teniendo en cuenta que el tiempo entre conexiones seguira una distribucin exponencial de parmetro 2.5, esa probabilidad sera
P [T > 2] =
2
2.5e2.5x dx = e5
85
o bien
Hay una interesante y curiosa propiedad de la distribucin exponencial, conocida como propiedad de no
memoria. Si
exp()
Ejemplo. El tiempo de vida, T , de un circuito, sigue una distribucin exponencial de media dos aos.
Calculemos la probabilidad de que un circuito dure ms de tres aos:
P [T > 3] = e 2 3
Supongamos que un circuito lleva 5 aos funcionando, y que nos planteamos la probabilidad de que an funcione 3 aos ms. Segn la propiedad de no memoria, esa probabilidad es la misma que si el circuito acabara de comenzar a funcionar, es decir,
x 0.
Se dice que
sigue una
distribucin Gamma de
parmetros
(y se nota
si su funcin de densidad es
a1
donde
(x) =
sx1 es ds
es la funcin gamma.
a=1
86
1 exp(1)
0.5
0 0.2
10
12
14
16
18 exp(5)
20
0.05
10
12
14
16
18
20
a = n, nmero natural, la
Erlang. Lo que la hace interesante es que esta distribucin se utiliza como modelo
n
llamadas telefnicas, por ejemplo.
Gamma
r 1 2 , 2 . Esta distribucin se utiliza, por ejemplo, para evaluar la bondad del ajuste de una distribucin
X Gamma (a, ).
Entonces
a a V arX = 2 . EX =
Caracterizacin de la distribucin Gamma. Sea X P () una v.a. discreta que cuenta el nmero de
xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre el
ksimo
xito y el
k + r, T ,
Gamma (r, ).
Dado que
Erlang (r, ).
Caracterizacin de la distribucin Gamma. Sean X1 , ..., Xn v.a. independientes con distribucin exp ().
En ese caso,
X=
n i=1
Xi sigue una Gamma (n, ). De nuevo obsrvese que el primer parmetro es un entero,
87
Gamma(2.5,1) 0.20
Gamma(5,1)
0.00
0.10
10
15
20
25
30
10
15
20
25
30
Gamma(2.5,0.2) 0.04
0.02
0.06
Gamma(5,0.2)
0.00
10
15
20
25
30
10
15
20
25
30
0.030
Gamma(2.5,0.1)
0.010
0.020
Gamma(5,0.1)
0.000
10
15
20
25
30
10
15
20
25
30
X una v.a. continua que puede tomar cualquier valor real. Se dice que X sigue una distribucin normal o gaussiana, de parmetros y (y se nota X N (, )), si su funcin de densidad es f (x) = 1 2 2 exp (x ) 2 2
2
para todo
x R.
Obsrvese que es la nica distribucin que hemos visto hasta ahora que toma todos los valores entre
+.
Sea
X N (, ).
Entonces
EX = V arX = 2 .
El propio nombre de la distribucin normal indica su frecuente uso en cualquier mbito cientco y tecnolgico. Este uso tan extendido se justica por la frecuencia o normalidad con la que ciertos fenmenos tienden a parecerse en su comportamiento a esta distribucin, ya que muchas variables aleatorias continuas presentan una funcin de densidad cuya grca tiene forma de campana. Esto, a su vez, es debido a que hay muchas variables asociadas a fenmenos naturales cuyas caractersticas son compatibles con el modelo aleatorio que supone el modelo de la normal:
Caracteres morfolgicos de individuos (personas, animales, plantas, ...) de una especie (tallas, pesos, envergaduras, dimetros, permetros, ...).
88
0.4 N(0,1) 0.3 0.2 0.1 0 10 0.4 N(1,1) 0.3 0.2 0.1 0 10 0.4 N(1,1) 0.3 0.2 0.1 0 10 5 0 5 10 5 0 5 10 5 0 5 10
0.1 N(0,4)
0.05
0 10 0.1
10 N(1,4)
0.05
0 10 0.1
10 N(1,4)
0.05
0 10
10
Caracteres siolgicos (efecto de una misma dosis de un frmaco, o de una misma cantidad de abono).
Caracteres sociolgicos (consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen...).
Otras distribuciones como la binomial o la de Poisson son aproximadas por la normal, ...
En general, como veremos enseguida, cualquier caracterstica que se obtenga como suma de muchos factores independientes encuentra en la distribucin normal un modelo adecuado. Existe otra razn ms pragmtica para el uso tan extendido de la distribucin normal: sus propiedades matemticas son, como iremos viendo, casi inmejorables. Eso conduce a que casi siempre se trate de forzar al modelo normal como modelo para cualquier variable aleatoria, lo cual, en ocasiones puede conducir a errores importantes en las aplicaciones prcticas. Lo cierto es que tambin son frecuentes las aplicaciones en las que los datos no siguen una distribucin normal. En ese caso puede ser relevante estudiar qu factores son los que provocan la prdida de la normalidad y, en cualquier caso, pueden aplicarse tcnicas estadsticas que no requieran de esa hiptesis.
89
Sea
X N (, ).
Entonces,
Z=
X N (0, 1) ,
propiedad que suele conocerse como tipicacin de la normal. Esta conocida propiedad tiene una aplicacin prctica muy usual. Dadas las caractersticas de la densidad gaussiana, no es posible calcular probabilidades asociadas a la normal de forma exacta, ya que las integrales del tipo
1 2 2
exp
(x ) 2 2
dx
no pueden ser expresadas en trminos de las funciones usuales, y slo pueden calcularse por mtodos numricos. No obstante, existen tablas donde aparecen multitud de valores de la funcin de distribucin de la distribucin
N (0, 1) y a partir de ellos se pueden calcular otras tantas probabilidades, utilizando la propiedad X N (, )
est en tenemos
de tipicacin. Por ejemplo, si queremos calcular la probabilidad de que una variable el intervalo
[a, b],
P [a X b] = P
donde
a X b = FZ
FZ
FZ ()
Z N (0, 1),
Ejemplo. En el artculo ndices de relacin peso-talla como indicadores de masa muscular en el adulto del sexo masculino de la revista Revista Cubana Aliment. Nutr. (1998;12(2):91-5) aparece un
colectivo de varones con un peso cuya media y desviacin estndar son, respectivamente, 65.6 y 11.7. 1. Cmo podemos, mediante las tablas de la
N (0, 1),
P [X > 76.25] = P
P [X < 60] = P
P [60 < X < 76.25] = P [X < 76.25] P [X < 60] = 0.819 (1 0.684)
90
N (0, 1).
4. Cunto pesar aquel varn tal que un 5 % de varones de ese colectivo pesan ms que l? Es decir, cul ser el valor de
tal que
P [X > x] = 0.05
o, equivalentemente,
P [X < x] = 0.95.
Dado que
P [X < x] = P
91
y desviacin tpica
X .
es elevado, es decir,
Xi N N X , N X .
i=1
Tipicando, podemos reenunciar el Teorema Central del Lmite diciendo que
N i=1
Xi N X N (0, 1) . N X
Este teorema es el que proporciona una justicacin matemtica del porqu la distribucin gaussiana es un modelo adecuado para un gran nmero de fenmenos reales en donde la v.a. observada en un momento dado es el resultado de sumar un gran nmero de sucesos aleatorios elementales.
U [0, 1].
Segn el teorema
N i=1
Xi N 0.5N,
N 12
N = 1, 2, 5
10,
N i=1
Xi ,
dibujando su histograma
92
0.5
1.5
100 50 0 0 1 2 3 4 5
100 50 0 0 2 4 6 8 10
en cada caso. Estos histogramas aparecen en la Figura 4.15. En ella se pone de maniesto como segn
Ejemplo. Supongamos que estamos realizando un examen de 150 preguntas, cada una de ellas con una
puntuacin de 1 punto y que en funcin de cmo hemos estudiado, consideramos que la probabilidad de contestar acertadamente una pregunta cualquiera es de 0.7. Dmonos cuenta que el resultado de una pregunta cualquiera sigue una distribucin
B (1, 0.7),
cuya media es
1 0.7 = 0.7
y cuya varianza es
B (150, 0.7), pero los clculos seran muy tediosos debido a los factoriales de la funcin X,
seguira aproximadamente una distribucin
masa de la distribucin binomial. En este caso, merece la pena que utilicemos el Teorema Central del Lmite, segn el cul el resultado nal,
X N (105, 5.612) .
X,
de las variables
X1 , ..., XN ,
podemos
es grande,
X N (, / N )
93
Ejemplo. Un ingeniero disea un aparato de medida que realiza una aproximacin ms imprecisa que
el aparato tradicional pero mucho ms barata. Para reducir el margen de error de la medida realizada, el ingeniero propondr que se realicen un nmero determinado de medidas sobre el mismo objeto y que se considere la media de estas medidas como valor nal de la medida del objeto. Inicialmente, el ingeniero hace una valoracin que le lleva a concluir que el aparato est bien calibrado, es decir, que la media de la medida del aparato coincide con la medida real, y que la desviacin tpica de las medidas del aparato es igual a 0.75. Cuntas medidas debe proponer el ingeniero para que el error de medida sea inferior a 0.1 con un 95 % de probabilidad? Empecemos considerando que cada medida, objeto,
Xi ,
Xi
0.1 n 0.1 n X x0 < 0.1 = P x0 0.1 < X < x0 + 0.1 = P <Z< 0.75 0.75 0.1 n . =12 1P Z < 0.75 P X x0 < 0.1 0.95,
entonces
P Z<
0.1 n 0.75
0.975,
de donde
0.1 n 0.75
1.96
n 216.09.
Como conclusin, ms le vale al ingeniero disminuir la desviacin tpica del aparato de medida.
cuantil
X.
Se dene el cuantil
p, Qp
x,
P [X x] p:
Si la variable es discreta,
Qp
f (x) p.
xi x
94
Ntese que, al ser la variable discreta, puede que no logremos obtener una igualdad del tipo
xi x
f (x) =
p.
Si la variable es continua,
Qp
tal que
f (t) dt = p,
tal que
F (x) = p,
siendo
la funcin de distribucin de la
Descriptiva, se reere al valor de la variable que deja por debajo de s una proporcin
Entonces, si un valor concreto corresponde con un cuantil alto, podemos decir que realmente es un valor alto dentro de la distribucin de probabilidad de la variable, y viceversa. Vamos a tratar de aclararlo con algunos ejemplos.
duracin media
es de 8 aos (lo cul, por cierto, tambin podra ser objeto de controversia).
En segundo lugar, dado que tenemos que proponer un modelo de distribucin de probabilidad para la duracin de la lmpara, vamos a considerar el ms sencillo que suele emplearse en este tipo de aplicaciones: la distribucin exponencial. Esta hiptesis tambin podra ser discutida, pero otros modelos ms complejos, como la distribucin Weibull, complicaran bastante nuestros clculos que, por otra parte, tienen slo nes ilustrativos. Por tanto, vamos a suponer que la duracin de la bombilla es una variable aleatoria, exponencial de media 8 aos y, por tanto, con parmetro probabilstico podemos plantearnos muchas cosas:
D,
con distribucin
= 1/8.
P [D > 8] =
8
1 x e 8 dx = e8/8 = 0.3678794. 8
Obsrvese que eso es algo que ocurrir con cualquier exponencial: la probabilidad de que se supere la media es slo del 36.79 %. Dicho de otra forma, la media es el percentil 63 aproximadamente, lo que implica que slo el 37 % aproximadamente de las lmparas superan su vida media... sorprendente?
95
M e = F 1 (0.5) ,
F ()
1 eM e = 0.5,
que resulta ser
Me =
log0.5
= 8 log2 = 5.545177.
Para terminar, animo a los lectores interesados a que busquen informacin sobre el cmputo de la vida media de este tipo de lmparas, basado en la realizacin de pruebas aceleradas sobre una muestra (bastante reducida, por cierto) de lmparas.
N (6, 1.2). X
Lo que se plantea es en qu
P [X 5.6] = 0.369,
el pediatra me dir que mi hijo est en el percentil 37, lo que quiere decir que es un peln bajo de peso, pero dentro de niveles razonables.
2 Fuente:
http://www.familia.cl/salud/curvas_de_crecimiento/curvas_de_crecimiento.htm
Prof. Dr. Antonio Jos Sez Castillo
96
97
98
Captulo 5
Variables aleatorias con distribucin conjunta
Resumen. En el estudio de las variables aleatorias hemos pasado por alto el hecho de que un conjunto de
dos o ms variables puede verse afectado por una serie de relaciones entre ellas. El anlisis desde el punto de vista estadstico de estas relaciones es el objetivo de este captulo. Como caso especial, describiremos de forma detallada el modelo que para estas relaciones proporciona la distribucin normal multivariante
Palabras clave: distribucin conjunta, distribucin marginal, distribucin condicionada, covarianza, coeciente de correlacin, normal multivariante.
5.1. Introduccin
El mundo real est repleto de relaciones a todos los niveles. Nosotros, por razones obvias, estaremos interesados principalmente en las relaciones que afectan a variables que describen fenmenos propios del ambiente cientco-tecnolgico. Estas relaciones pueden tener muy diversas tipologias. Por ejemplo, podramos pensar en relaciones causa-efecto, como la que, por ejemplo, explicara que una pgina Web tenga un tamao considerable debido a que lleva incrustado varios archivos de vdeo y audio, o la que se establece entre la edad en aos de un vestigio y su contenido en carbono 14 . Pero no slo tendremos relaciones causa-efecto: por ejemplo, sabemos que el peso y la estatura de un ser humano son variables muy relacionadas, hasta el punto que no podemos decir que una persona este obesa slo con saber su peso, sino que debemos valorarlo en
relacin a su estatura.
Por otra parte, cuando un fenmeno es determinstico y est bien estudiado, las relaciones entre variables son leyes ms o menos sencillas, pero, en cualquier caso, son inmutables. Por ejemplo,
densidad =
1 Relacin
masa . vol.
Pero, qu ocurre cuando el fenmeno es aleatorio? Las variables en ese caso son aleatorias y las relaciones que se puedan dar entre ellas no siempre tienen por qu obedecer a una ley objetiva e inamovible. Por ejemplo, todos somos conscientes de que, como decamos, existe una relacin entre el peso y la altura de una persona, pero no existe una razn de conversin capaz de calcular el peso exacto de alguien a partir de su altura. Es evidente que el tiempo de descarga de una pgina web estar relacionado con el tamao de los archivos que la conguran, pero cmo de evidente ? y de qu forma es esa relacin? Ambas preguntas tratarn de ser contestadas a lo largo de este captulo.
Sean
X1 , ..., XN
X1
. . .
XN
es un
vector aleatorio de dimensin N . vectores aleatorios continuos o vectores aleatorios discretos cuando cada una de sus
Hablaremos de
variables sean continuas o discretas, respectivamente. Podran darse vectores mixtos, pero su tratamiento estadstico no nos interesa por ahora.
Ejemplo. Consideremos el valor de una seal analgica que depende del tiempo, x (t). En esta notacin,
entendemos que el valor de la seal podra ser distinto en cada instante de tiempo
t.
Es muy frecuente
que la seal se observe realmente contaminada por un ruido aleatorio que tambin depender del tiempo,
N (t).
t1 , ..., tN ,
el vector
x (t1 ) + N (t1 )
. . .
x (tn ) + N (tn )
es un vector aleatorio.
Ejemplo. Se estudia el tiempo que un usuario de Internet dedica a ver una pgina WEB (T ) en relacin
con variables como la cantidad de texto que contiene Flash
(T x),
el nmero de imgenes
(I)
y animaciones
(F )
Tx I F
es un vector aleatorio.
100
Ejemplo. Se contabiliza la duracin de las llamadas telefnicas a una centralita. Para cada conjunto de
n-usuarios de la centralita, cada uno de ellos ocupa un tiempo
Ti
T1
. . .
Tn
es un vector aleatorio.
se reparte la probabilidad entre todos los posibles resultados del vector. Para describirla vamos a denir los conceptos de funcin de densidad o funcin masa anlogos a los asociados a una variable aleatoria.
Sea
(X1 , ..., XN )
Por su parte, si
(X1 , ..., XN )
P (X1 , ..., XN ) A RN =
ARN
0<y<x
en otro caso
101
Por ello,
1=
0
ce
x y
dy dx =
0
cex 1 ex dx =
c , 2
de donde
c = 2. P [X + Y 1] = =
0 0 1 y
1y
=
(ver Figura 5.1)
Y,
1 15 si
0 x 3, 0 y 5 0
en otro caso
Esta densidad constante en el rectngulo denido indica que la distribucin de probabilidad es uniforme en dicho rectngulo. Vamos a calcular la probabilidad de que
P [Y > X] =
0
x 3
1 dy dx 15
5x = dx 15 0 x x2 3 7 = | = . 3 30 0 10
102
distribucin marginal.
un subvector de variables suyo. En ese caso:
Sea
(X1 , ..., XN )
un vector aleatorio y
Si el vector es continuo,
dxj .
Si el vector es discreto,
Ejemplo. Sea el vector bidimensional (X, Y ) con funcin de densidad conjunta fX,Y
para
(x, y) = x ex(y+1)
x, y > 0. X,
fX (x) =
fX,Y (x, y) dy =
0
xex(y+1) dy = ex
para
fY (y) =
para
xex(y+1) dx =
1 (1 + y)
2
y > 0.
103
Ejemplo. Consideremos dos variables discretas, Q y G, cuya funcin masa, fQ,G (q, g) , viene dada por
fQ,G (q, g) q=0 q=1
Sus marginales respectivas son:
fQ (q) =
g
fQ,G (q, g) 0.06 + 0.18 + 0.24 + 0.12 0.04 + 0.12 + 0.16 + 0.08 0.6 0.4
si si si si
q=0 q=1
=
y
q=0 q=1
si si si si
1 15 si
0 x 3, 0 y 5 0
en otro caso
fX (x) = =
fX,Y (x, y) dy 5 1 dy si 0 x 0 15 0
1 3 si
en otro caso
0x3
en otro caso
104
fY (y) = =
fX,Y (x, y) dx 3 1 dx si 0 y 0 15 0
1 5 si
en otro caso
0y5
en otro caso
es
fX,Y (x, y) =
Calculemos ambas marginales:
2x
si
0 x 1, |y| < x2 0
en otro caso
fX (x) =
fX,Y (x, y) dy
x2
x2
2xdy
si
0x1
0 4x3 0
si
en otro caso
0x1
en otro caso
fY (y) = =
fX,Y (x, y) dx
1 |y|
2xdx 0
si
1y 1
en otro caso si
1 |y| 0
1y 1
en otro caso
X = (X1 , ..., XN ) ,
105
Esta distribucin vendr caracterizada por su funcin masa o su funcin de densidad sea el vector discreto o continuo, y tendr la expresin
condicionadas, segn
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) fXj1 ,...,Xjl (xj1 , ..., xjl )
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) Xi1 , ..., Xik , Xj1 , ..., Xjl Xj1 , ..., Xjl .
y
las variables
En el caso ms habitual en el que el vector tenga dimensin dos, tenemos la densidad o la funcin masa de
condicionada a
condicionada a
fY |X=x (y) =
1 9/28 3/14 0
2 3/28 0 0
fX (x) =
y
3 3 1 28 + 14 + 28 si x = 0 9 3 28 + 14 + 0 si x = 1 3 28 + 0 + 0 si x = 2 3 9 3 28 + 28 + 28 si y = 0 3 3 14 + 14 + 0 si y = 1 1 28 + 0 + 0 si y = 2
fY (y) =
condicionada a
Y =1
y la de
condicionada a
X = 1.
3 14 6 14 3 14 6 14
si si si
fX|Y =1 (x) =
0
6 14
fY |X=1 (y) =
9 28 15 28 3 14 15 28
si si si
0
15 28
106
Como es evidente, una vez que tenemos caracterizada la distribucin condicionada de una variable aleatoria al valor de otra, cualquier caracterstica de dicha distribucin, como la media o la varianza, puede calcularse a partir de su funcin masa o su funcin de densidad.
Ejemplo. Tal y como plantebamos al comienzo del captulo, supongamos que la posicin (X, Y ) de un
telfono mvil que recibe cobertura de una antena de telefona se encuentra dentro de un crculo de radio
alrededor de esa antena, que supondremos sin prdida de generalidad que se encuentra en el origen
del plano. Vamos a suponer que esa posicin es completamente al azar dentro del crculo. Eso equivale a considerar que la densidad conjunta debe ser constante en el crculo; para que su integral sea la unidad, es evidente que
fX,Y (x, y) =
si
1 r2
x2 + y 2 r 2 X
y cero en cualquier punto fuera del crculo. Vamos a ver qu podemos averiguar sobre las e
coordenadas
En primer lugar,
fX (x) =
r 2 x2
r 2 x2
2 r 2 x2 1 dy = r2 r2
si
r < x < r.
La marginal de
es anloga,
fY (y) =
si
r2 y2 r2
densos, ms probables,
r < y < r. Est claro que para cada coordenada por separado, los puntos ms
son los cercanos al origen, que es donde se da el mximo de ambas funciones. Ahora supongamos que conocemos una de las coordenadas y veamos qu podemos decir sobre la otra:
1 r2
2 y0
2 r 2 y0 < x <
2 r 2 y0 .
Anlogamente,
fY |X=x0 (y) =
si
1 r 2 x2 0
r 2 x2 < y < 0
a decir que saber una coordenada no me da ninguna informacin sobre la otra coordenada.
Ejemplo. A las 12 de la noche de un da de la semana comienzan a ser registrados las nuevas llamadas
a un switch de telefona. Sea
107
fX,Y (x, y) =
donde
2 ey 0
si
0x<y
en otro caso
es una constante positiva. Vamos a calcular las distribuciones marginales y condicionadas que
pueden darse:
Marginal de
X: fX (x) =
2 ey dy = ex
x
si
0 x,
Y : fY (y) =
si
y 0. 2
y
a los valores de
fY /X=x (y) =
y > x.
a los valores de
fX/Y =y (x) =
0 x < y. (y),
no se sabe nada de cundo lleg es uniforme en
Es decir, conocido el instante en que lleg la segunda llamada la primera llamada, ya que la distribucin de
condicionada a
Y =y
(0, y).
Ejemplo. Consideremos que la variable X representa el input de un canal de comunicacin, con posibles
valores
+1
equiprobables, y sea
+1
1.
El
canal es un canal binario simtrico con probabilidad de cruce del 5 %. Con los datos expuestos podemos caracterizar mediante sus funciones masa las distribuciones marginales de
Y,
fX (x) =
1 2 si x = 1 1 2 si x = 1
108
La distribucin marginal de
fY (y) =
La distribucin de
1 2 si y = 1 1 2 si y = 1
viene dada por:
condicionada al suceso
X = +1
fY |X=+1 (y) =
0.95 0.05
si
y=1
si
y = 1
La distribucin de
condicionada al suceso
X = 1
fY |X=1 (y) =
0.95
si
y = 1 y=1
0.05
si
La distribucin conjunta de
fX,Y (x, y) = P [Y = y | X = x] P [X = x] 0.95 0.5 si x = +1, y = +1 0.05 0.5 si x = +1, y = 1 = 0.05 0.5 si x = 1, y = +1 0.95 0.5 si x = 1, y = 1 0 en otro caso
La distribucin de
condicionada al suceso
Y = +1
0.95 si x = 1 . 0.05 si x = 1
La distribucin de
condicionada al suceso
fX|Y =1 (x) =
0.05 0.95
si
x=1
si
x = 1
P [A B] = P [A] P [B] .
109
Esta denicin puede extenderse al caso en que tengamos dos variables aleatorias
Y.
donde
fX,Y (), fX ()
fY ()
discretas o continuas. La interpretacin del hecho de que dos variables aleatorias sean estadsticamente independientes es que el comportamiento de una no tiene ningn efecto sobre la otra y viceversa. Cabe preguntarse en ese caso, qu sentido tiene una distribucin condicionada de una variable a otra que no guarda ninguna relacin con ella. Vamos a comprobarlo calculando las distribuciones condicionadas de variables aleatorias estadsticamente independientes:
fX|Y =y (x) =
es decir, el comportamiento aleatorio de una variable aleatoria condicionada al valor de otra que es estadsticamente independiente de ella (descrito mediante la funcin se condiciona a dicho valor (descrito por la funcin
fX (x)).
24xy
si
x, y 0
x+y 1
en otro caso
X:
1x
fX (x) =
0
La funcin de densidad marginal de
24xy dy = 12x (1 x) Y:
1y
si
0x1
fY (y) =
0
Como
24xy dx = 12y (1 y)
si
0 y 1.
no son independientes.
0 x, y
x, y 1
en otro caso
110
X:
1
fX (x) =
0
La funcin de densidad marginal de
4xy dy = 2x
si
0x1
Y:
1
fY (y) =
0
Como
4xy dx = 2y
si
0 y 1.
son independientes.
Ejemplo. Supongamos que dos componentes electrnicas tienen una duracin cuya distribucin de probabilidad puede considerarse exponencial de parmetro
= 2 horas1 .
paralelo, por lo que podemos considerar que son independientes. Por lo tanto, su funcin de densidad conjunta ser
x, y > 0.
Cul ser la probabilidad de que alguna de las componentes dure ms de dos horas? Podemos plantearlo como
P [X > 2 Y > 2] = P [X > 2] + P [Y > 2] P [X > 2 Y > 2] = P [X > 2] + P [Y > 2] P [X > 2] P [Y > 2] ,
donde se ha utilizado en la probabilidad de la interseccin el hecho de que las variables son independientes. Ahora slo bastara recordar que
P [X > 2] = e22
P [Y > 2] = e22 .
Cul sera la probabilidad de que la duracin total de ambas componentes sea inferior a dos horas? La duracin total vendra dada por
X +Y,
P [X + Y < 2] = = =
0 0 0
2x
4e2(x+y) dydx
2
2e2x 1 e2(2x)
2
dx
2e2x 2e4 dx
= 1 e4 2e4 2 = 1 5e4
De la interpretacin que hemos dado de variables independientes se sigue de manera inmediata que si dos variables aleatorias son independientes, esto es, no mantienen ninguna relacin, tampoco lo harn funciones
111
suyas. Este hecho se recoge en el siguiente resultado. Lo podemos enunciar ms formalmente diciendo que si
X W
V = g (X)
W = h (Y )
En el mbito de las Telecomunicaciones se dan numerosas situaciones donde aparece una variable aleatoria
W,
e
suma de otras dos variables aleatorias (generalmente continuas) estadsticamente independientes, es decir,
Y,
W = X + Y.
Y.
de convolucin.
Concretamente, sean Si
W =X +Y.
Entonces:
son continuas,
fW (w) =
fY (y) fX (w y) dy
= fX fY (w)
donde Si
fX Y
fY
Y,
respectivamente.
son discretas,
fW (w) =
y
fY (y) fX (w y)
= fX fY (w)
donde
fX
fY
Y,
respectivamente.
Ejemplo.
T1 ,
ponencial de parmetro
componente exactamente igual que hasta entonces ha funcionado en standby, cuya duracin notamos por
T2 ,
T1 .
podemos poner en prctica el teorema de convolucin. Para ello,
Si pretendemos conocer la distribucin de probabilidad de la duracin total del sistema, que vendr dada por la variable aleatoria tengamos en cuenta que
T = T1 + T2 ,
fTi (x) = ex , i = 1, 2,
para
x > 0.
Por tanto,
fT (z) =
0
ex e(zx) dx = 2 zez 2
y
para
z > 0.
Si recordamos, esta
En el caso de que en vez de dos variables aleatorias se tenga un vector de extender el concepto de independencia es inmediata.
X = (X1 , ..., XN ) ,
la manera natural
112
componentes independientes si
XN 1
YM 1 ,
independientes si
X1 , ..., XN
g ()
...
E [g (X1 , ..., XN )] =
donde
este ltimo caso la integral como una suma). Como consecuencia inmediata de esta denicin, tenemos una primera e importante propiedad: este operador esperanza multivariante tambin es lineal, en el sentido que se recoge en el siguiente resultado. Concretamente, podemos formalizarlo diciendo que si tenemos un vector aleatorio escalares cualesquiera, entonces
(X1 , ..., XN )
1 , ..., N
113
(X, Y ),
se dene la
correlacin entre X
como
covarianza entre
como
la relacin entre ambas es directa (si crece una crece la otra) y negativa si es inversa (si crece una decrece la otra); adems, ser tanto mayor en valor absoluto cuanto ms fuerte sea la relacin lineal existente.
Para poder valorar esta relacin lineal en trminos relativos se estandariza la covarianza, dando lugar a lo que se conoce como
y su interpretacin:
Si es cero, indica una ausencia total de relacin lineal entre las variables.
Si es uno o menos uno indica una relacin lineal total entre las variables, directa o inversa segn lo indique el signo (esto lo veremos enseguida).
En la medida en que est ms lejos del cero indica una relacin lineal ms intensa entre las variables.
RXY = EX EY, = 0,
incorreladas. Por su parte, si dos variables aleatorias son tales que RXY
ortogonales.
Dos variables aleatorias son incorreladas si carecen de cualquier tipo de relacin lineal. Por otra parte, denimos anteriormente el concepto de independencia entre variable aleatoria, que implicaba la ausencia de relacin entre ellas. Tenemos, as, dos conceptos, independencia e incorrelacin, que estn bastante relacionados. En concreto, dos variable aleatoria independientes, razn es que, por ser independientes,
Y,
X,Y = 0.
La
114
luego
RXY =
en cuyo caso
Cov [X, Y ] = 0.
La pregunta obvia que surge a la luz de este resultado es: y al contrario? Dos variable aleatoria incorreladas sern independientes? O equivalentemente, si dos variable aleatoria no tienen ninguna relacin de tipo lineal (incorreladas), ocurrir que tampoco tienen ninguna relacin de ningn tipo (independientes)? La respuesta es que no en general.
Ejemplo. Sea una variable aleatoria con distribucin uniforme en (0, 2). Sean
X = cos Y = sin .
Se tiene que
EX = EY = E [XY ] =
0 0 0
cos
2
1 d = 0 2 1 d = 0 2 1 d 2
sin
2
sin cos
0 2
1 = 2
por lo que
sin 2d = 0,
son variables incorreladas. Sin embargo, puede demostrarse fcilmente que no son
independientes.
Nota.
La relacin ms fuerte de tipo lineal que puede darse corresponde al caso en que una variable
aleatoria
X,
es decir,
Y = aX + b.
En ese caso,
XY = 1 signo (a) .
La demostracin es muy sencilla. Tengamos en cuenta que
115
luego
Cov (X, Y ) = E [XY ] EX EY = aE X 2 + bE [X] EX (aEX + b) = a E X 2 EX 2 = aV arX V arY = E ((aX + b) (aEX + b)) = E (aX aEX) = a2 E (X EX)
y
2 2
= E a2 (X EX) = a2 V arX,
XY =
Nota. Es importante insistir en que la covarianza y su versin estandarizada, el coeciente de correlacin lineal, proporcionan una medida de la relacin lineal, no de otro tipo. Por ejemplo, supongamos que la
Figura 5.3 representa los valores conjuntos de dos variables clarsima relacin dada por una parbola: de hecho,
X
2
Y.
Y =X
lineal entre ambas ser muy bajo, ya que en realidad, la relacin que las une no es lineal en absoluto, sino parablica. En este caso, lo recomendable sera, a la vista del grco, decir que s existe una fuerte relacin lineal entre
Y.
Cuando se tienen muestras de pares de variables aleatorias, podemos calcular la versin muestral del coeciente de correlacin lineal. Esa versin muestral dar una estimacin del verdadero valor del coeciente de correlacin (poblacional). Esta cuestin se aborda con ms detalle en el captulo de regresin. Aqu tan slo queremos plasmar con ejemplos cmo se traduce el hecho de que dos variables tengan un mayor o menor coeciente de correlacin. En la Figura 5.4 observamos representaciones conjuntas de muestras de pares de variables en unos ejes cartesianos (nubes de puntos). Cada punto de cada eje cartesiano representa un valor
116
(X, Y )
ro=1 8 6 4 2 2 0 2 4 4 2 0 2 4 1 0 1 4 2 6 5 4 3
ro=1
ro=0 4 3 2 1 0 1 2 3 4 2 0 2 4 2 4 4 2 0 6 4
ro=0.7075
Figura 5.4: Nubes de puntos correspondientes a distintos posibles coecientes de correlacin lineal.
Ejemplo. Sean X
es
las variable aleatoria que miden el tiempo que transcurre hasta la primera y la
segunda llamada, respectivamente, a una centralita telefnica. La densidad conjunta de estas variables
fX,Y (x, y) = ey
para
0 < x < y.
la segunda llamada depende del tiempo hasta la primera llamada, pero en qu grado? Vamos a abordar este problema calculando el coeciente de correlacin lineal entre ambas variables.
117
Como
X,Y =
V arY.
yey
y y e dy = 3. 2
0 3
x2 2
dy
0
fX (x) =
luego
fX,Y (x, y) dy =
x
ey dy = ex ,
para
x > 0,
xfX (x) dx =
0
xex dx = 1.
ey dx = yey ,
para
y > 0,
luego
EY = yfY (y) dy =
y 2 ey dy = 2.
0
Por tanto,
Cov (X, Y ) = 3 1 2 = 1.
Por su parte,
E X
2
x fX (x) dx =
0 2
x2 ex dx = 2
V arX = 2 12 = 1
y
E Y2 = y 2 fY (y) dy = V arY = 6 22 = 2,
as que, nalmente,
y 3 ey dy = 6
X,Y =
1 = 0.707. 12
Las propiedades del operador esperanza son muy tiles en la prctica, por ejemplo, cuando se trata de conocer la varianza de combinaciones lineales de varias variables. Veamos algn ejemplo al respecto y despus un resultado general que los englobe todos.
118
V ar (X1 + X2 ) = E (X1 + X2 )
E [X1 + X2 ]
2 2
2 2 2 2 = E X1 + E X2 + 2E [X1 X2 ] EX1 EX2 2EX1 EX2 2 2 2 2 = E X1 EX1 + E X2 EX2 + 2 (E [X1 X2 EX1 EX2 ])
V ar (X1 X2 ) = E (X1 X2 )
E [X1 X2 ]
2 2
2 2 2 2 = E X1 + E X2 2E [X1 X2 ] EX1 EX2 + 2EX1 EX2 2 2 2 2 = E X1 EX1 + E X2 EX2 2 (E [X1 X2 EX1 EX2 ])
Podemos generalizar estos ejemplos en el siguiente resultado. Sea una suma de Entonces,
N variables, X =
N i=1
i Xi .
V ar [X] =
i=1 j=1
donde
i j Cov (Xi , Xj ) ,
para
i = 1, ..., N .
119
X= X X
N
N i=1 2
i EXi ,
V ar [X] = E =E
i Xi Xi
i=1 i=1 N
i Xi Xi Xj Xj
=
i=1 j=1 N N
i j E
Xi Xi
=
i=1 j=1
i j Cov (Xi , Xj )
V ar [X] =
i=1 j=1
ya que
i j Cov (Xi , Xj ) =
i=1
2 i V ar [Xi ] ,
Cov [X, Y ] =
si
i=j
si
V ar [Xi ]
i=j
se dene su
E [X1 ]
. . .
E [XN ]
y su
donde
Ci,j =
V ar (Xi )
si
i=j
si
Cov (Xi , Xj )
i=j
. (i, j) la covarianza
Esta matriz contiene las varianzas de cada variable del vector en la diagonal y en el elemento entre la
isima
y la
jsima
variable.
CX N N = E (X X )N 1 (X X )1N .
Por otra parte,
CX = E (X X ) (X X ) = E [XX ] X X ,
120
E [XX ]
se le suele denominar
RX . CX
y
Ambas matrices,
RX ,
La linealidad del operador media facilita rpidamente la expresin del vector de medias y la matriz de varianzas-covarianzas de combinaciones lineales de vectores, como se recoge en el siguiente resultado. Concretamente, si tenemos el vector aleatorio y el vector de
XN 1
CX
Y = AX + b CY = ACX A .
Ejemplo.
Vamos a ver que la aplicacin de este resultado facilita bastante determinados clculos. Por
V ar (X1 + X2 ),
X1 + X2 =
de manera que
X1 X2
V ar (X1 + X2 ) =
1 1
V ar (5X1 3X2 ) , 5
dado que
5X1 3X2 =
se tiene que
X1 X2
V ar (5X1 3X2 ) =
5 3
121
estar seguros de que se trata del caso ms interesante por dos motivos: porque aparece como modelo adecuado en un gran nmero de fenmenos de la naturaleza y porque sus propiedades matemticas on inmejorables.
N variables aleatorias X = (X1 , ..., XN ) se dice que sigue una distribucin normal multivariante o distribucin conjuntamente normal o conjuntamente gaussiana, con vector de
medias
y matriz de varianzas-covarianzas
CX ,
fX (x) =
1 1 exp (x X ) CX (x x ) , 2
donde
i=j
si
Cov [Xi , Xj ]
i=j
X NN (X ; CX ) .
Vamos a destacar algunas de las excelentes propiedades de la distribucin normal multivariante. Concretamente, nos centraremos en los siguientes resultados:
Vamos a concretarlos. En primer lugar, si tenemos un vector tamente gaussiana de vector de medias del vector,
XN 1 = (X1 , ..., XN )
con
M <N
(i1 , ..., iM )
variables
CX
correspondientes a las
1 3 1
1 0
1 . 1
En aplicacin del resultado anterior, las marginales univariantes siguen las distribuciones siguientes:
122
0 0 0 0 0 0
2 1 2 0 3 1
1 3 0 1 1 1
En cuanto a las distribuciones condicionales, cualquier subconjunto de variables de un vector gaussiano condicionado a los valores de cualquier otro subconjunto de variables del propio vector sigue distribucin conjuntamente gaussiana. Concretamente, la distribucin de
XN 1
condicionada a
YM 1 = yM 1 ,
siendo
(X, Y )(M +N )1
1 E [X |Y=y ] = X 1 + (CXY )N M CY N
y matriz de varianzas-covarianzas
M M
yM 1 Y 1 M
(i, j)
de
CXY
es
Cov (Xi , Yj ).
condicionada a
X3 =0.25 ]
=0+
3 1
1 1
0.5 0 0.25 0
= 0.125
X3 =0.25 )
=2
3 1
1 1
1 0
= 1.5
Ejemplo. Como caso particular, vamos a describir con ms detalle el caso bivariante, tanto en lo que
respecta a su densidad como a las distribuciones marginales y condicionadas. Sea por tanto un vector
(X, Y )21 ,
123
(X , Y )
y matriz de covarianzas
C(X,Y ) =
2 X
X Y
2 Y
X Y
donde
2 2 det C(X,Y ) = X Y 1 2
1 C(X,Y ) =
1 1 2
XY
1 2 Y
fX,Y (x, y) =
1 2X Y 1 2
2 2
exp
2 (x x ) (y Y ) (y Y ) (x X ) 1 + 2 2 2 (1 2 ) X X Y Y
1 , en el punto 2X Y 12 2 N X , X
(X , Y ).
y
2 N Y , Y
En lo que respecta a las distribuciones condicionadas, aplicando el ltimo resultado tenemos que
X | Y = y0 N Y | X = x0 N
X +
X 2 (y0 Y ) ; X 1 2 Y Y 2 (x0 X ) ; Y 1 2 Y + X
Obsrvese que, curiosamente, la varianza condicionada no depende del valor que condiciona. Esto tendr importantes repercusiones ms adelante.
Continuando con las propiedades, una de las ms tiles es su invarianza frente a transformaciones lineales. Concretamente, si tenemos un vector aleatorio medias
XN 1 = (X1 , ..., XN )
y matriz de covarianzas
CX ,
YM 1 = AM N XN 1 + bM 1
tiene distribucin gaussiana de vector de medias
Y = A X + b
y matriz de covarianzas
CY = A CX A .
Ejemplo.
X1
X2
2 cero, varianzas X 1
=4
2 y X 2
124
X = Y = 0, X = Y = 1
= 0, 0.5,
0.5
0.9.
(En http://www.ilri.org/InfoServ/Webpub/Fulldocs/Linear_Mixed_Models/AppendixD.htm).
125
en las variables
(Y1 , Y2 ) =
y matriz de covarianzas
1 3
2 4
0 0
0 0
2 Y1
cY1 ,Y2
2 Y2
cY1 ,Y2
1 3
2 4
4 3
3 9
1 2
3 4
28 66
66 252
Otra de las ms importantes propiedades es que se trata del nico caso en el que independencia e incorrelacin son equivalentes. Es decir, si
XN 1
componentes son incorreladas si y slo si son independientes. La demostracin es sencilla. Ya sabemos que si son independientes son incorreladas (incluso si la distribucin no es conjuntamente gaussiana). Por su parte, para probar que si son incorreladas entonces son independientes slo hay que tener en cuenta que si son incorreladas, la matriz de covarianzas es diagonal y la densidad conjunta puede expresarse como producto de las marginales, ya que
fX (x1 , ..., xN ) =
1 1 exp (x X ) CX (x X ) 2
N
=
N
1
2 2 (2) 1 ...N N
1 exp 2
i=1
xi i i
=
i=1
donde
fXi (xi ) .
CX =
2 1
. . .
...
.. .
0
. . .
...
2 N
126
Parte III
Inferencia estadstica
127
Captulo 6
Distribuciones en el muestreo
Pocas observaciones y mucho razonamiento conducen al error; muchas observaciones y poco razonamiento, a la verdad. Alexis Carrel
Resumen.
En este captulo se pretende llamar la atencin acerca de que los parmetros muestrales son
en realidad variables aleatorias. Se analiza as la distribucin de probabilidad de la media muestral y de la varianza muestral en diversas situaciones.
6.1. Introduccin
Al estudiar el concepto de variable aleatoria, dijimos que viene motivado porque muchas de las variables que se observan en la vida real, en el ambiente de las Ingenieras en particular, estn sujetas a incertidumbre. Eso quiere decir que si nosotros obtenemos algunas observaciones de esas variables (muestras), los datos no son iguales. Es ms, si obtenemos otras observaciones, las dos muestras tampoco sern ni mucho menos idnticas. Por tanto, al hablar de distribuciones tericas de probabilidad, lo que pretendamos era proponer un modelo que permitiera calcular probabilidades asociadas, no a una muestra en particular de datos, sino a todas las posibles muestras, con todos los posibles datos de la variable. Recordemos el ejemplo que pusimos: las distribuciones de probabilidad son como un traje que elegimos para ponernos cualquier da durante un periodo de tiempo amplio. En la medida que el traje de una variable, su distribucin, le quede bien, los resultados que obtengamos mediante el clculo de probabilidades podrn aplicarse a cualquier dato o conjunto de datos de la variable. Pero igualmente, si un traje (una distribucin de probabilidad terica) no le queda bien a una variable, los resultados tericos, obtenidos a partir de una funcin masa o una funcin de densidad tericas, pueden no ser realistas respecto a los resultados empricos que se obtengan mediante muestras de la variable. Qu nos queda por hacer a lo largo del curso? Dado que, en general, las distribuciones tericas de probabilidad dependen de uno o ms parmetros, lo que nos ocupar gran parte del resto del curso es tratar de elegir 129
adecuadamente esos parmetros. En el ejemplo de los trajes podamos pensar que esto es como aprender a escoger la talla del traje. En este captulo vamos a comenzar con algunas cuestiones tericas acerca de lo que implica el proceso de muestreo, previo a la eleccin de los parmetros y, posteriormente, nos vamos a centrar en resultados que implica el muestreo de datos de variables que siguen una distribucin normal.
consiste en la recopilacin de datos de la variable, mediante la repeticin del experimento al que est
1. Que todos los elementos de la poblacin tengan las mismas posibilidades de salir en la muestra. 2. Que las distintas observaciones de la muestra sean independientes entre s.
En ese caso, los valores que toma la variable en cada una de las observaciones de una muestra de tamao
n, X1 , ..., Xn ,
probabilidad, llamada
distribucin poblacional.
que se intentar utilizar la muestra para hacer inferencia sobre ella y, al menos, aproximar la forma de esta distribucin.
X,
1 1 simple suya, x1 , ..., xn . Con esos datos podemos calcular la media de la muestra,
la muestra,
x1 ,
y la desviacin tpica de
s1 ,
por ejemplo.
Pero debemos ser conscientes de lo que signica muestra aleatoria. El hecho de que hayan salido los valores
x1 , ..., x1 n 1
x2 , ..., x2 , n 1
x2
s2 .
Prof. Dr. Antonio Jos Sez Castillo
130
Y si, sucesivamente, obtenemos una y otra muestra, obtendremos una y otra media muestral, y una y otra desviacin tpica muestral. Por lo tanto, en realidad, lo que estamos viendo es que la media y la varianza muestrales (y en general, cualquier parmetro de una muestra aleatoria simple) son, en realidad, variables aleatorias que, como tales, deben tener su distribucin, su media, su varianza... Vamos a recordar dos deniciones que ya introdujimos al comienzo del curso.
Un
parmetro muestral
aleatoria. Un
una variable aleatoria. Pues bien, asociados a estos dos conceptos tenemos ahora las siguientes deniciones.
La El
distribucin en el muestreo de un parmetro muestral es su distribucin de probabilidad. error estandar de un parmetro muestral es la desviacin tpica de su distribucin en el muestreo.
El problema es que, en general, es bastante difcil conocer la distribucin en el muestreo de los parmetros muestrales. Sin embargo, el caso en el que resulta ms sencillo hacerlo es probablemente el ms importante. Como vamos a ver, si la variable que observamos sigue una distribucin normal, podremos conocer de forma exacta las distribuciones en el muestreo de los dos parmetros ms importantes, la media y la varianza. Y si la variable no es normal? Si lo que pretendemos es estudiar la media y la varianza muestrales, recordemos que el Teorema Central del Lmite nos dice que si una variable es suma de otras variables, su distribucin es aproximadamente normal, y la media es suma de las variables de la muestra. Es decir, si la variable no es normal, todava podemos tener conanza de que lo que hagamos para variables normales puede ser vlido.
Nota. Una de las primeras distribuciones en el muestreo ser la 2 . Recordemos que una distribucin 2 con
n
grados de libertad es una distribucin Gamma de parmetros
n 1 2 y 2.
131
Si
una
con
dientes, entonces
t=
sigue una distribucin llamada
Z S/n
Si
S1
S2
n1
n2
F =
sigue una distribucin que se denomina
S1 /n1 S2 /n2
Con estas deniciones ya podemos dar las distribuciones en el muestreo de algunos parmetros muestrales importantes asociados a la normal:
Sea
X1 , ..., Xn
N (, ).
t=
sigue una
X Sn1 / n
de Student con
n1
grados de libertad.
X1 , ..., Xn
N (, ).
Entonces, el par-
2 =
sigue una Sean
2 (n 1) Sn1 2
con
n1
e
X1 , ..., Xn1
y
Y1 , ..., Yn2
N (1 , )
N (2 , ).
t=
X Y (1 2 ) Sp
1 n1
1 n2
donde
2 Sp =
sigue una Sean
de Student con e
n1 + n2 2
X1 , ..., Xn1
y
Y1 , ..., Yn2
N (1 , )
N (2 , ).
2 =
sigue una Sean
2 (n1 + n2 2) Sp , 2
2 n1 + n2 2
e
X1 , ..., Xn1
Y1 , ..., Yn2
132
N (1 , )
N (2 , ).
F = F n1 1 n2 1
1 Sn1 2 Sn1
2 2
2 /1 2 /2
con
grados de libertad.
133
134
Captulo 7
Estimacin de parmetros de una distribucin
Datos, datos, datos! -grit impacientemente-. No puedo hacer ladrillos sin arcilla. Sherlock Holmes (A. C. Doyle), en Las aventuras de los bombachos de cobre
Resumen.
Se describen las tcnicas ms usuales para estimar la media, la varianza y otros parmetros
Palabras clave: estimador puntual, mtodo de los momentos, mtodo de mxima verosimilitud, intervalo
de conanza, nivel de conanza.
7.1. Introduccin
En Estadstica hay tres formas de inferir un valor a un parmetro de una poblacin: Estimando el valor concreto de ese parmetro. Estimando una regin de conanza para el valor del parmetro. Tomando una decisin sobre un valor hipottico del parmetro.
Ejemplo. El rendimiento de un equipo de trabajo en una cadena de produccin puede estar representado
por el nmero medio de componentes producidas. Supongamos que un ingeniero pretende proporcionar informacin acerca de este promedio en su equipo. Existen varias posibilidades:
Podra simplemente tratar de estimar el promedio de componentes producidas a travs de un nico valor estimado. Podra proporcionar un intervalo de valores en el que tenga mucha conanza que se encuentra el valor promedio.
135
Podra comparar el valor promedio de su equipo con un valor hipottico para, por ejemplo, demostrar a la empresa que tiene un mejor rendimiento que el promedio general de la empresa.
En este captulo nos centraremos en la primera y la segunda forma, que consisten en proporcionar un valor que creemos que est cerca del parmetro (estimacin puntual) o en proporcionar un intervalo en el que conamos que se encuentra el parmetro desconocido (estimacin por intervalos de conanza). La tercera posibilidad se estudiar en el captulo de contrastes de hiptesis.
estimador puntual, , es una regla que nos dice cmo calcular una estimacin numrica de un parmetro , a partir de los datos de una muestra. El nmero concreto que resulta de un clculo,
poblacional desconocido,
estimacin puntual.
Ejemplo. Si deseamos obtener estimaciones de la media de una variable aleatoria, lo que parece ms lgico
sera utilizar como estimador la media muestral. Cada media muestral de cada muestra sera una estimacin puntual de la media poblacional. Qu sera deseable que le pasara a cualquier estimador? Qu buenas propiedades debera tener un buen estimador? Vamos a ver dos de ellas. En primer lugar, parece lgico pensar que si bien el estimador no proporcionar siempre el valor exacto del parmetro, al menos deber establecer estimaciones que se equivoquen en igual medida por exceso que por defecto. Este tipo de estimadores se denominan insesgados .
Un estimador
de
un parmetro
se dice
insesgado si
E = .
Se denomina
sesgo de un estimador a
E .
Observemos que para comprobar si un estimador es insesgado, en principio es necesario conocer su distribucin en el muestreo, para poder calcular su esperanza matemtica. Adems de la falta de sesgo, nos gustara que la distribucin de muestreo de un estimador tuviera poca varianza, es decir, que la dispersin de las estimaciones con respecto al valor del parmetro poblacional, fuera baja.
136
El
ms pequea de entre todos los estimadores insesgados. Hay que decir que no siempre es fcil encontrar este estimador, y que en ocasiones se admite un ligero sesgo con tal que la varianza del estimador sea mnima.
X,
X1 , ..., XN .
X1 + ... + XN X= N
es un estimador insesgado de
E [X]
y su error estandar es
X s.e.(X) = . N
El resultado establece algo que poda haberse intuido desde la denicin de la media o esperanza matemtica de una distribucin de probabilidad: si tenemos unos datos (mas ) de una v.a., una estimacin adecuada de la media de la v.a. es la media de los datos. Hay que tener mucho cuidado con no confundir la media de la v.a., es decir, la media poblacional, con la media de los datos de la muestra, es decir, con la media muestral. Por otra parte, el error estandar hace referencia a
X ,
desconocido. Lo que se suele hacer es considerar la desviacin tpica muestral como una aproximacin de la poblacional para evaluar este error estandar.
X1 , ..., XN .
N i=1
2 SX,N 1 =
Xi X N 1
es un estimador insesgado de
V ar [X].
Nota. Al hilo del comentario previo que hicimos sobre la media muestral como estimador natural
media, ahora quiz sorprenda que en el denominador de la varianza muestral aparezca En este sentido, si consideramos el estimador
de la
N 1
y no
N.
2 SX,N
N i=1
Xi X N
137
cuasivarianza muestral. Ojo, hay que advertir que en algunos libros la manera de nombrar a la
Nota.
2 SN 1 ,
2 ,
no implica que la
SN 1 =
Ejemplo. Mediante R hemos generado una muestra aleatoria simple de 1000 valores de una distribucin
N (0, 1). Sabemos, por tanto, que la media (poblacional) de los datos es 0 y que la varianza (poblacional)
es 1. No obstante, vamos a suponer que desconocemos de qu distribucin proceden los datos y vamos a tratar de ajustar una distribucin terica partiendo de los valores de la muestra:
x = 0.0133
y
s999 = 0.9813,
por lo que ajustaramos los datos de la muestra
N (0.0133, 0.9813) .
La densidad de esta distribucin aparece tambin en la Figura 7.1, en trazo continuo, y se observa que ajusta muy bien la forma del histograma.
138
Histograma de la muestra
0.5 Densidad 0.0 0.1 0.2 0.3 0.4
x11000
N (0.0133, 0.9813).
p,
se cuenta el n de veces que ocurre ese suceso del cul queremos estimar su probabilidad, proporcin muestral,
k.
En ese caso, la
p=
es un estimador insesgado de
k , N
p.
s.e.() = p
p(1 p) N
no puede evaluarse. Sin embargo, es bastante comn que si el tamao de la muestra, el valor de la estimacin,
p,
en lugar de
en esa expresin.
f (p) = p(1 p) 1 1 = . 4N 2 N
es menor que
1 4 si
0 p 1,
luego
s.e.() p
Es por ello que siempre podemos dar esta cantidad,
Ejemplo. Si el nmero de varones en una muestra de 1000 individuos de una poblacin es 507, podemos
aproximar la verdadera proporcin de varones en toda la poblacin mediante
p=
139
1 2 1000
= 0.01581139.
p,
la Gamma
Existen diversos mtodos de estimacin de parmetros. Nosotros vamos a ver dos de los ms sencillos.
x1 , ..., xn
X: ,
la media poblacional de
1. Si la distribucin de funcin de
X, E [X] = ,
ser se
, = f ().
, ,
x=f 1
y
= f (1 , 2 )
2
p=
x . n
Por cierto, este estimador coincide con el que habamos considerado en un principio, que era la proporcin muestral, es decir,
p = k/N , N
n,
es decir,
experimentos,
nN
experimentos, con
i xi
xitos. Luego, en
p=
x i xi = , n nN
140
es decir, la proporcin muestral, cociente del n de xitos entre el n total de experimentos. No debemos confundirnos con la expresin
k/N
1 p
1, de donde p =
p=
1 . 1+x
p.
Dado que
EX = p, V arX
se tiene que
a = EX
p= a=
x s2 1 X,N x2 s2 1 x X,N .
X , x1 , ..., xn ,
p (x),
densidad de la muestra es
X , x1 , ..., xn ,
la verosimilitud de la muestra
141
es la funcin
L,
= arg mx L . a
si
L
y
2 ,
entonces
1 , 2 = arg mx L . a
1 ,2
Nota.
Dado que el mximo de una funcin coincide con el mximo de su logaritmo, suele ser muy til
Ejemplo. Vamos a calcular el estimador mximo verosmil del parmetro p de una distribucin B (n, p)
basado en una muestra
x1 , ..., xN .
n xi nxi p (1 p) xi n xi p
N i=1
=
i=1
Su logaritmo resulta
xi
(1 p)
nN
N i=1
xi
n xi
+
i=1
xi p
ln p +
nN
i=1
xi
ln (1 p) .
e igualamos a cero:
N i=1
xi
p
de donde
nN i=1 xi = 0, 1p
x x p i=1 xi = = = n N 1p nx 1 nN i=1 xi
x n
Luego el estimador es
p=
x . n
Obsrvese que coincide con el estimador que obtuvimos por el mtodo de los momentos.
142
Ejemplo. Vamos a calcular el estimador mximo verosmil del parmetro de una distribucin exp ()
basado en una muestra
x1 , ..., xN .
N
N i=1
Funcin de verosimilitud:
Lx1 ,...,xN () =
i=1
Logaritmo de la funcin de verosimilitud:
exi = N e
xi
ln Lx1 ,...,xN () = N ln
i=1
Para maximizar esta funcin, derivamos respecto a
xi .
e igualamos a cero:
N xi = 0, i=1
de donde
N
N i=1
xi
1 . x
De nuevo el estimador mximo verosmil coincide con el proporcionado por el mtodo de los momentos.
Ejemplo. En el caso de la distribucin normal, tenemos dos parmetros. Veamos cmo proceder en esta
situacin. Vamos a preocuparnos por los estimadores de la media y de la varianza: La funcin de verosimilitud:
Lx1 ,...,xN , 2 =
i=1
Su logaritmo:
1 2 2
(xi )2
2 2
1 2 2
2 n i=1 (xi ) 2 2
ln Lx1 ,...,xN , 2 =
N N ln (2) ln 2 2 2
y
N i=1
(xi ) . 2 2
2 .
d ln Lx1 ,...,xN , 2 = d
N i=1
(xi ) =0 2
N i=1
d N 1 ln Lx1 ,...,xN , 2 = 2 + d 2 2 2
De la primera ecuacin se sigue
(xi )
2
( 2 )
=0
(xi ) =
i=1 i=1
xi N = 0,
143
Modelo
B (n, p) P () Geo (p) BN (a, p) exp () Gamma (a, ) N (, )
1 x
= x, = sn1
= x, = sn
Cuadro 7.1: Estimadores por el mtodo de los momentos y de mxima verosimilitud de los parmetros de las distribuciones ms usuales.
de donde
=
De la segunda, sustituyendo en ella
N i=1
xi
= x.
por
x,
N i=1
(xi x)
2
( 2 )
de donde
N , 2
2 =
N i=1
(xi x) = s2 . n N
Nota.
De nuevo hay que llamar la atencin sobre el hecho de que hemos buscado un estimador, de
2 ,
no de
sn .
7.2.6. Tabla resumen de los estimadores de los parmetros de las distribuciones ms comunes
En toda esta seccin, supongamos que tenemos una muestra
x1 , ..., xN
X.
Los
estimadores segn el mtodo de los momentos y de mxima verosimilitud de los parmetros segn las distribuciones que hemos descrito aparecen en el Cuadro 7.1.
144
x1 , ..., xN
Un
intervalo de conanza para con un nivel de signicacin , I (x1 , ..., xN ) , es un intervalo real
tal que
P [ I (x1 , ..., xN )] = 1 .
Al valor
tambin se le llama
nivel de conanza.
Obsrvese que la losofa de cualquier intervalo de conanza es proporcionar, basndonos en los datos, una regin donde tengamos un determinado nivel de conanza en que el parmetro se encuentra. Como en el caso de los estimadores puntuales, el intervalo de conanza es aleatorio, ya que depende de los datos de una muestra. Adems, se da por hecho que existe la posibilidad de que el verdadero parmetro encerrado dentro del intervalo de conanza, cosa que ocurrira con probabilidad
no quede
Nota. Al respecto de la interpretacin del nivel de conanza, tenemos que decir que, dado que desde el
comienzo del curso hemos adoptado una interpretacin frecuentista de la probabilidad, un intervalo de conanza al 95 %, por ejemplo, garantiza que si tomamos 100 muestras el parmetro poblacional estar dentro del intervalo en aproximadamente 95 intervalos construidos. Sin embargo, esta interpretacin es absurda en la prctica, porque nosotros no tenemos 100 muestras, sino slo una. Nosotros tenemos los datos de una muestra. Con ellos construimos un intervalo de conanza. Y ahora slo caben dos posibilidades: o el parmetro est dentro del intervalo o no lo est. El parmetro es constante, y el intervalo tambin. No podemos repetir el experimento! Es por ello que se habla de intervalos de
conanza , interpretando que tenemos una conanza del 95 % en que el parmetro estar dentro.
desconocida y varianza
x = (x1 , ..., xN )
X,
P x z1 , x + z1 2 2 N N
donde
= 1 ,
z1 a 2
es tal que
FZ z1 = 1 2
2 , siendo
Z N (0, 1) .
a El valor de z debe buscarse en la tabla de la normal o calcularse con ayuda del ordenador. 1
2
x z1 , x + z1 2 2 N N
Prof. Dr. Antonio Jos Sez Castillo
145
con un
(1 ) %
de conanza.
No obstante, hay que reconocer que en la prctica es poco probable que se desconozca el valor de la media y s se conozca el de la varianza, de manera que la aplicacin de este teorema es muy limitada. El siguiente resultado responde precisamente a la necesidad de extender el anterior cuando se desconoce el valor de la varianza.
Sea
y varianza
2 ,
x = (x1 , ..., xN )
X,
la media muestral
y la varianza muestral
s2 1 . X,N
P x t1 ;N 1 2 t;N a
s2 1 X,N N
, x + t1 ;N 1 2 TN
s2 1 X,N N
= 1 ,
donde
grados de libertad
FTN (t;N ) = ,
siendo
Es decir, conamos en un
(1 ) %
en que el intervalo
x t1 ;N 1 2
contiene a la media, que es desconocida.
s2 1 X,N N
, x + t1 ;N 1 2
s2 1 X,N N
Ejemplo.
N (0, 1).
x = 0.0133
s999 = 0.9813.
0.0133
= (0.074, 0.0475)
est en el intervalo de conanza.
Los dos resultados que acabamos de enunciar se basan en que se conoce la distribucin exacta de la muestra, normal, lo que permite deducir que la media muestral sigue tambin, y de forma exacta, una distribucin normal de media
y varianza
2 N . Sin embargo, gracias al teorema central del lmite se sabe que sea cual 2 N , ya que se obtiene como suma de v.a. independientes con
sea la distribucin de las variables de la muestra aleatoria simple, la media muestral sigue aproximadamente una distribucin normal de media
y varianza
la misma distribucin. Por lo tanto, podemos obtener un intervalo de conanza aproximado para cualquier media de cualquier distribucin, como se recoge en el siguiente resultado.
146
Sea
2 .
x = (x1 , ..., xN ) de X
x. Entonces, si N
es sucientemente elevado (N
> 30 es suciente),
P x z1/2 , x + z1/2 N N
En esta expresin, si
1 . sn1 .
Ejemplo.
Se considera que el tiempo de fallo de una componente electrnica sigue una distribucin
desconocido. Se toma una muestra de 50 tiempos de fallo y la media muestral = 0.1: = 19.2 19.2 17.5 1.645 , 17.5 + 1.645 50 50
es
= (13.033, 21.967).
1 EX , el intervalo de conanza al 90 % de
1 1 21.967 , 13.033
= (0.046, 0.077) .
la probabilidad desconocida de un determinado evento, que llamaremos xito, que puede ocurrir en
p=
es sucientemente elevado
> 30),
se tiene que
P p
p z1/2
p (1 p) , p + z1/2 N
p (1 p) N
1 .
Ejemplo. La Junta de Andaluca pretende implantar un programa de ayuda a familias con familiares
dependientes. Dado que la mayor parte de los Servicios Sociales son competencia de los municipios, la Junta proporcionar los medios econmicos, pero sern stos los encargados de ejecutar el programa. Los Servicios Sociales de cualquier municipio asumen que, por errores inevitables, no todas las familias a las que subvencionan reunen los requisitos exigidos, pero la Junta les responsabiliza de que esto no ocurra en ms del 4 % de ellas. Si se supera este porcentaje, penalizar al municipio. En un municipio se muestrean 200 familias y se detecta que 12 de ellas (6 %) no cumplen las condiciones exigidas. Debe la Junta sancionar al municipio? Si nos jamos slo en el valor de la estimacin puntual, 6 %, s debera hacerlo, pero no sera justo: 12 errores en una muestra de 200 pueden no ser una evidencia suciente de que el porcentaje superara el 4 %.
147
Consideremos un un intervalo de conanza para la proporcin de errores (5 % de signicacin) con los datos obtenidos:
0.06
1.96
Por tanto, no hay evidencias de que el porcentaje sea superior al 4 % y no debe sancionarse al municipio.
Sea
(desconocida) y varianza
2 .
x = (x1 , ..., xN )
y la media muestral
N 2 i=1 (Xi x) 2 ;N 1 1 2
N i=1 (Xi 2 ;N 1 2
x)
= 1 .
a El valor de 2 2 y debe buscarse en las tablas de la distribucin 2 u obtenerse mediante el ordenador. /2;N 1 1/2;N 1
En esta expresin,
cuadrado con N grados de libertad. Nota. Un intervalo de conanza para la desviacin tpica puede obtenerse trivialmente como la raiz cuadrada
del intervalo de conanza para la varianza.
2 ;N
2 F2 2 ;N = , donde
Ejemplo. En el ejemplo donde consideramos 1000 valores simulados de una N (0, 1) tenamos que x =
0.0133
y
s999 = 0.9813.
= (0.8838, 1.0533) .
=1
Puede que alguno de vosotros est pensando cul puede ser el inters de las estimaciones puntuales y, sobre todo, mediante intervalos de conanza de la varianza. Probablemente todos tenemos muy claro qu es una media, incluso una proporcin, pero quiz se nos escape la importancia prctica del concepto de varianza. En este sentido, hay que decir que en el mbito de la Ingeniera la varianza se utiliza muchsimo en lo que se conoce como control de calidad. Los japoneses son, en esto, los pioneros y quiz los mejores expertos. A
148
ellos se les atribuye un principio bsico del control de calidad en cualquier proceso bsico de produccin:
la
Pensemos en cualquier proceso de fabricacin genrico. En l se tratar de obtener un producto sujeto a unas
1. Un aumento o una disminucin estructurales del producto con respecto a un valor objetivo. Esto podra detectarse como un sesgo en la media de lo producido con respecto al valor objetivo. 2. Unas diferencias ms o menos importantes en los productos resultantes, que podran ser evaluadas mediante la varianza.
De esas dos posibles problemticas, la ms compleja, sin duda es la segunda. Probablemente no es un grave problema calibrar la mquina que produce para que la media se site en el valor objetivo, pero ser sin duda ms complejo modicarla para que produzca de forma ms homognea, reduciendo as la varianza.
Journal of Environmental Engineering en 2002, titulado Leachate from Land Disposed Residential Construction Waste, en el que se presenta un estudio de la contaminacin en basureros que contienen desechos de construccin y desperdicios de demoliciones. Decamos all que De un sitio de prueba se tomaron 42 muestras
de lixiado, de las cuales 26 contienen niveles detectables de plomo. Una ingeniera desea obtener a partir de esos datos una estimacin de la probabilidad de que una muestra de un basurero contenga niveles detectables de plomo. No obstante, es consciente de que esa estimacin estar basada en esa muestra, que es de slo 42 datos, luego querr tambin obtener una estimacin del error que est cometiendo al hacer la estimacin. Finalmente, se plantea si con la estimacin y el error de sta, podr obtener un rango donde la verdadera probabilidad se encuentre con un alto nivel de conanza. Ahora estamos en condiciones de resolver este
problema. En primer lugar, tenemos que obtener una estimacin de la proporcin de muestras (o probabilidad) que contienen niveles detectables de plomo. Hemos visto que un estimador insesgado de mnima varianza, que adems coincide con el estimador de mxima verosimilitud, de la proporcin es la proporcin muestral. En nuestro caso, por tanto, podemos estimar la proporcin en error estndar de esta estimacin en
p=
26 42
= 0.6190..
s.e.() = p
0.6190(10.6190) 42
= 0.0749
149
= 0.0771.
Por ltimo, en funcin de esta estimacin y de su error estandar, puede armar con un 95 % de conanza que el intervalo
0.6190
contendr a la verdadera proporcin de muestras con niveles detectables de plomo. Esta ltima armacin pone de maniesto que dar un intervalo de conanza con un nivel de signicacin aceptablemente bajo (5 %) conduce a un intervalo muy amplio, lo que equivale a decir que an hay bastante incertidumbre con respecto a la proporcin que estamos estimando. Por ello, deberamos recomendarle a la ingeniera que aumente el tamao de la muestra.
150
0.5 | 0.2 | 0.4 | | 0.4 0 10 0.2 | Confidence Interval | | | | | | | 0.0 | | | 0.2 | 0.6 | 0.6 0.4 0.2 0 | 0.0 | | | | 0.4 0.6 1.0 0.5 | | | | | | | | | Confidence Interval | | | | | | | | | | | 10 | | | | | Confidence Interval | | | | | | | | | | | | | | | | | | | | | | 0.0 0 | | 10 20 20 20
| | |
| |
| |
| |
Figura 7.2: Distintos intervalos de conanza para una media a un 68 % (izquierda), a un 90 % (centro) y a un 99 % (derecha). Puede observarse que aumentar el nivel de conanza hace ms amplios los intervalos. Tambin puede observarse que no todos los intervalos contienen a la media poblacional (0), pero que el n de stos malos intervalos disminuye conforme aumentamos el nivel de conanza.
Index
Index
| |
Index
1.0 30 30 30 40 40 40 50 50 50
151
152
Captulo 8
Contrastes de hiptesis paramtricas
La gran tragedia de la ciencia: la destruccin de una bella hiptesis por un antiesttico conjunto de datos. Thomas H. Huxley. La Estadstica puede probar todo, incluso la verdad. N. Moynihan
Resumen. En este captulo explicamos qu se entiende por contraste de hiptesis estadstica y aprendemos
a realizar contrastes de este tipo a partir de datos, referidos a algn parmetro poblacional desconocido.
Palabras clave: contraste de hiptesis, error tipo I, error tipo II, estadstico de contraste, p-valor, nivel de
signicacin, nivel de conanza.
8.1. Introduccin
Como apuntbamos en la introduccin del captulo anterior, las llamadas
tesis se utilizan para inferir decisiones que se reeren a un parmetro poblacional basndose en muestras de
la variable. Vamos a comenzar a explicar el funcionamiento de un contraste de hiptesis con un ejemplo.
Ejemplo. Los cientcos recomiendan que para prever el calentamiento global, la concentracin de gases
de efecto invernadero no debe exceder las 350 partes por milln. Una organizacin de proteccin del medio ambiente quiere determinar si el nivel medio,
las pautas requeridas, que establecen un lmite mximo de 350 partes por milln. Para ello tomar una muestra de mediciones diarias de aire para decidir si se supera el lmite, es decir, si tanto, la organizacin desea encontrar apoyo para la hiptesis
> 350,
llamada
hiptesis alternativa,
(o
= 350
350),
llamada
350.
Partir de su
inocencia, suponiendo que es cierta, es decir, suponiendo que, en principio, no se superan los lmites de
153
presencia de gases de efecto invernadero, y slo la rechazar en favor de los datos de la muestra para ello.
H1
La decisin de rechazar o no la hiptesis nula en favor de la alternativa deber basarse en la informacin que da la muestra, a travs de alguna medida asociada a ella, que se denomina
estadstico de contraste.
Por ejemplo, si se toman 30 lecturas de aire y la media muestral es mucho mayor que 350, lo lgico ser rechazar la hiptesis nula en favor de
> 350,
350
en favor de
> 350.
La cuestin clave es en qu momento se decide rechazar la hiptesis nula en favor de la alternativa. En nuestro ejemplo, en qu momento podemos decir que la media muestral es sucientemente mayor que 350. El conjunto de estos valores del estadstico de contraste, que permiten rechazar
= 350
en favor de
> 350
se conoce como
regin de rechazo.
A la luz de este ejemplo, vamos a tratar de denir de forma general los conceptos que acabamos de introducir.
Un
contraste de hiptesis es una prueba que se basa en los datos de una muestra de una variable aleatoria mediante la cul podemos rechazar una hiptesis sobre un parmetro de la poblacin, llamada hiptesis nula (H0 ), en favor de una hiptesis contraria, llamada hiptesis alternativa (H1 ). estadstico de
Se rechazar la hiptesis nula en favor de la alternativa cuando el valor del estadstico de contraste se site en una determinada regin, llamada
La hiptesis poblacin y
H0 0
H0 : = 0 , H1
donde
es un parmetro de una
H1 : > 0 , en cuyo caso se habla de contraste unilateral a la derecha o de una cola a la derecha o de un extremo a la derecha, o H1 : < 0 , en cuyo caso se habla de contraste unilateral a la izquierda o de una cola a la izquierda o de un extremo a la izquierda. H1 : = 0 , en cuyo caso se habla de contraste bilateral o de dos colas o de dos extremos.
a De todas formas, tambin es frecuente expresar H0 como negacin exacta de H1 , en cuyo caso s puede ser una desigualdad no estricta. Matemticamente no hay diferencias en estas dos posibilidades.
Uno de los aspectos ms importantes y que se suele prestar a mayor confusin se reere a qu hiptesis considerar como
H0
y cul como
H1 .
1. Si estamos intentando probar una hiptesis, sta debe considerarse como la hiptesis alternativa. 2. Por el contrario, si deseamos desacreditar una hiptesis, debemos incluir sta como hiptesis nula.
Ejemplo. Para una determinada edicacin se exige que los tubos de agua tengan una resistencia media
a la ruptura,
154
Como primera situacin, supongamos que un proveedor quiere facilitar un nuevo tipo de tubo para ser utilizado en esta edicacin. Lo que deber hacer es poner a trabajar a sus ingenieros, que deben realizar una prueba para decidir si esos tubos cumplen con las especicaciones requeridas. En ese caso, deben proponer un contraste que incluya como hiptesis nula alternativa
H0 : 30 H0
frente a la
H1 : > 30.
en favor de
H1 ,
el
tubo podr ser utilizado, pero si no se puede rechazar garantas sobre la calidad del tubo y no ser utilizado.
H0
en favor de
H1 ,
no se tienen sucientes
Como segunda situacin, un proveedor lleva suministrando su tipo de tubo desde hace aos, sin que se hayan detectado, en principio, problemas con ellos. Sin embargo, un ingeniero que trabaja para el gobierno controlando la calidad en las edicaciones viene teniendo sospechas de que ese tipo de tubo no cumple con las exigencias requeridas. En ese caso, si quiere probar su hiptesis, el ingeniero deber considerar un contraste de la hiptesis nula
H0 : 30
frente a
H1 : < 30.
Dicho de
otra forma, slo podr contrastar su hiptesis si encuentra datos empricos que permitan rechazar esa hiptesis nula en favor de su alternativa, que demuestren con un alto nivel de abilidad que el proveedor que estaba siendo aceptado ahora no cumple con los requisitos.
De hecho, es importantsimo que desde el principio tengamos claro qu tipo de decisiones puede proporcionarnos un contraste de hiptesis. Aunque ya las hemos comentado, vamos a insistir en ellas. Son las dos siguientes: 1. Si el valor del estadstico de contraste para los datos de la muestra cae en la regin de rechazo, podremos armar
con un determinado nivel de conanza que los datos de la muestra permiten rechazar la
hiptesis nula en favor de la alternativa. 2. Si el valor del estadstico de contraste para los datos de la muestra no cae en la regin de rechazo, no podremos armar
con el nivel de conanza exigido que los datos de la muestra permiten rechazar
la hiptesis nula en favor de la alternativa. La clave radica en que entendamos desde el principio que la hiptesis nula carece de conanza. Es asumida slo como punto de partida, pero ser abandonada cuando los datos empricos muestren evidencias claras en su contra y a favor de la alternativa. La carga de la prueba de hiptesis radica siempre en la hiptesis alternativa, que es la nica hiptesis en la que podremos garantizar un determinado nivel de conanza.
H0
o en contra
H0
y en favor de
H1 .
Se llama
error tipo I o falso negativo a rechazar la hiptesis nula cuando es cierta, y su probabilidad se nota por , llamado nivel de signicacin. nivel de conanza a la probabilidad de aceptar la hiptesis nula cuando es cierta, es decir, 1 . 155
Se llama
H1
Error tipo II Decisin correcta
error tipo II o falso positivo a aceptar la hiptesis nula cuando es falsa, y su probabilidad se
.
Se llama
Cul de los dos errores es ms grave? Probablemente eso depende de cada contraste, pero en general, lo que se pretende es acotar el error tipo I y tratar de minimizar el error tipo II, es decir, tratar de elegir contrastes lo ms potentes posibles garantizando que la probabilidad del error tipo I es inferior a un determinado nivel.
Ejemplo.
del 20 % de quienes compran sus computadoras. Se seleccionaron al azar 10 posibles compradores de la computadora y se les pregunt si estaban interesados en el paquete de software. De estas personas, 4 indicaron que pensaban comprar el paquete. Proporciona esta muestra sucientes pruebas de que ms del 20 % de los compradores de la computadora adquirirn el paquete de software? Si
es la verdadera proporcin de compradores que adquirirn el paquete de software, dado que deseamos
demostrar Sea de
p > 0.2,
tenemos que
H0 : p = 0.2
X :
H0
si
x 4.
x = 4,
H0
en favor de
H1 ,
Pero, cul es el nivel de conanza de este contraste? Calculemos la probabilidad de error tipo I. Para ello, en el Cuadro 8.2 aparece la distribucin de probabilidad del estadstico de contraste que hemos elegido, suponiendo que
H0
= P [Rechazar H0 |H0
es cierta ]
= P [X 4|p=0.2 ]
= 0.08808 + 2.6424 102 + 5.505 103 + 7.8643 104 + 7.3728 105 + 4.096 106 + 1.024 107 = 0.12087,
luego el nivel de conanza del contraste es del
la luz de los datos podemos armar con un 87.913 % de conanza que p > 0.2.
reducir la regin de rechazo. Si ponemos como regin de rechazo
Y si queremos un nivel de conanza mayor, es decir, una probabilidad de error tipo I menor? Debemos
x 5, ya no podremos rechazar H0
en favor
156
x
0 1 2 3 4 5 6 7 8 9 10
P [X = x] 0.20 0.810 = 0.10737 0.21 0.89 = 0.26844 0.22 0.88 = 0.30199 0.23 0.87 = 0.20133 0.24 0.86 = 0.08808 10 5 5 2 5 0.2 0.8 = 2.6424 10 10 6 4 3 6 0.2 0.8 = 5.505 10 10 7 3 4 7 0.2 0.8 = 7.8643 10 10 8 2 5 8 0.2 0.8 = 7.3728 10 10 9 1 6 9 0.2 0.8 = 4.096 10 10 10 0 7 10 0.2 0.8 = 1.024 10
10 0 10 1 10 2 10 3 10 4
Regin de aceptacin
Regin de rechazo
de
H1 ,
ya que
x = 4.
Adems, ahora
= 2.6424 102 + 5.505 103 + 7.864 3 104 + 7.3728 105 + 4.096 106 + 1.024 107 = 3.2793 102 ,
luego el nivel de conanza sera
de los datos no podemos armar que p > 0.2 con un 96.721 % de conanza.
El estudio de
a la luz
p-valor.
H0 : = 0 ,
H1 : = 0 , H1 : > 0 S,
H1 : < 0 .
Supongamos adems
s.
157
El
p-valor asociado al contraste se dene como el mnimo nivel de signicacin con el que la hiptesis nula
Ejemplo. En el Ejemplo 8.2 hemos visto cmo podemos rechazar la hiptesis nula con un 87.913 % de
conanza, pero no con un nivel de signicacin del
96.721 %.
12.087 %,
3.279 %.
rechazamos
H0
en favor de
H1
con ms de un 95 % de conanza.
no podemos rechazar
H0
en favor de
H1
Sin embargo, esta regla de decisin, que es la ms habitual, es demasiado reduccionista si no se proporciona el valor exacto del p-valor. La razn es que no es lo mismo rechazar una hiptesis con al menos un 95 % de conanza si el p-valor es 0.049 que si es 0.001. Hay que proporcionar siempre el p-valor de un contraste, ya que eso permite a cada lector decidir por s mismo.
En resumen, el p-valor permite utilizar cualquier otro nivel de signicacin, ya que si consideramos un nivel de signicacin Si Si
: H0
en favor de
p < , p ,
rechazamos
H1
con ms de un
(1 ) %
de conanza. de conanza.
no podemos rechazar
H0
en favor de
H1
con al menos un
(1 ) %
Como conclusin, siempre que hagamos un contraste de hiptesis, debemos facilitar el p-valor asociado. Como nota nal sobre el concepto de p-valor, es importante sealar que, al contrario de lo que errneamente se piensa en demasiadas ocasiones, el p-valor no es la probabilidad de la hiptesis nula. Mucha gente piensa esto porque es cierto que cuando el p-valor es pequeo es cuando se rechaza la hiptesis nula. Sin embargo, para empezar, no tiene sentido plantearnos la probabilidad de la hiptesis nula, ya que sta, o es cierta, o es falsa: desde una perspectiva clsica de la probabilidad, se habla de la probabilidad de un suceso porque a veces ocurre y a veces no, pero en este caso no podemos pensar as, ya que la hiptesis nula o se da o no se da. En realidad, el p-valor lo que da es un indicio de la certidumbre que tenemos, de la conanza en que la hiptesis nula sea verdad, teniendo en cuenta los datos de la muestra. Esta interpretacin tiene ms que ver con la interpretacin subjetiva de la probabilidad de la que hablamos al principio de curso. Hay que decir que, en relacin a esta interpretacin subjetiva de la probabilidad, existe una visin de la Estadstica, llamada Estadstica Bayesiana, en la que el p-valor s puede entenderse como la probabilidad de la hiptesis nula, pero entendiendo que medimos la probabilidad de la hiptesis nula, no porque pueda ocurrir o no ocurrir en funcin del azar, sino porque tenemos incertidumbre sobre ella.
158
0.4
0.3
0.2
Regin de aceptacin
0.2
0.3
0.4
Regin de aceptacin
0.1
0.0
0.1
1
0.0
0.2
0.3
0.4
Regin de aceptacin
0.1
0.0
H0 : = 0 ,
frente a
H1 : = 0
son
o de dos colas, ya que el rechazo de la hiptesis nula en favor de la alternativa puede producirse porque el
estadstico de contraste toma valores muy altos o muy bajos. Por contra, los contrastes del tipo frente a
contrastes bilaterales
H0 : = 0 ,
H1 : > 0
H1 : < 0
llamado
son
ya que el rechazo de la
hiptesis nula en favor de la alternativa puede producirse slo si el estadstico de contraste toma valores muy altos (cuando
H1 : > 0 ,
contraste a la izquierda).
: < 0 ,
llamado 159
Por tanto, teniendo en cuenta la denicin de p-valor, su clculo se realiza de la siguiente forma: Si el contraste es unilateral a la izquierda (H1
: < 0 ),
p = P [S s/H0 ] .
Si el contraste es unilateral a la derecha (H1
Hay que decir que el uso del p-valor se ha extendido hasta convertirse en el mtodo ms habitual de toma de las decisiones desde que el uso de los ordenadores y de los software de clculo estn a disposicin de la mayora de los usuarios. Hoy en da casi nadie hace Estadstica a mano, y prcticamente todos los programas estadsticos proporcionan el p-valor como dato para la toma de las decisiones. En lo que resta del tema lo que vamos a hacer es enunciar distintos contrastes de hiptesis para la media, la varianza o la proporcin de una poblacin y para comparar las medias, las varianzas y las proporciones en dos poblaciones distintas. No nos vamos a centrar en los detalles de cmo se deducen sino slo en cmo se utilizan en la prctica. De todas formas, es importante hacer una aclaracin: cuando los datos proceden de una distribucin normal, es muy sencillo obtener la distribucin del estadstico del contraste, gracias a los resultados que vimos en el captulo de distribuciones en el muestreo. Sin embargo, si los datos no proceden de variables normales, esta cuestin es muchsimo ms difcil. Afortunadamente, si el tamao de la muestra es grande, el Teorema Central del Lmite garantiza que los parmetros que se basan en sumas basadas en las muestras siguen aproximadamente una distribucin normal. Es por ello que en cada tipo de contraste que vamos a describir a continuacin se distinguen aquellos que se basan en muestras grandes y los que se basan en muestras reducidas, que slo podrn ser utilizados si la variable es normal. En cada caso, vamos a acompaar el contraste con un ejemplo que comentaremos extensamente.
x1 , ..., xn de una variable aleatoria con media poblacional 2 a la media muestral y sn1 a la varianza muestral.
zp
es el valor de una
N (0, 1)
P [Z < zp ] = p.
A modo de ejemplo, podemos pensar en que los arquelogos utilizan el hecho conocido de que los hmeros de los animales de la misma especie tienden a tener aproximadamente las mismas razones longitud/anchura
160
A la izquierda
Bilateral
A la derecha
para tratar de discernir si los hmeros fsiles que encuentran en un yacimiento corresponden o no a una nueva especie. Supongamos que una especie comn en la zona donde se enclava un yacimiento, la Bichus localis, tiene una razn media longitud/anchura de 9. Los arquelogos encargados del yacimiento han hallado 50 hmeros fsiles, cuyos datos aparecen en el Cuadro 8.4. Tienen los arquelogos indicios sucientes para concluir que han descubierto en el yacimiento una especie distinta de la Bichus localis ? En primer lugar, observemos que no nos han especicado ningn nivel de signicacin en el enunciado. En este caso, lo habitual es considerar nivel ms bajo. A continuacin debemos plantear las hiptesis del contraste. En principio, la zona de la excavacin indica que la especie del yacimiento debera ser la especie Bichus localis, salvo que demostremos lo contrario, es decir, la hiptesis nula es
= 0.05.
H0 : = 9,
donde por
hmero de la especie del yacimiento. Como hiptesis alternativa nos planteamos que se trate de otra especie, es decir
H1 : = 9.
Para realizarlo, debemos calcular en primer lugar el estadstico de contraste. ste, a su vez, requiere del clculo de la media y de la desviacin tpica muestral de los datos. Estos valores son, respectivamente, 9.414 y 1.239. Por tanto,
z=
Ahora tenemos que plantearnos si este valor del estadstico nos permite rechazar la hiptesis nula en favor de la alternativa o no. Podemos hacerlo de dos formas:
z10.05/2 = 1.96,
la regin de rechazo es
Vemos
con un 95 % de conanza, concluyendo con ese nivel de conanza que se trata de una nueva especie. Nos queda, sin embargo, la duda de saber qu hubiera pasado de tomar un nivel de signicacin ms exigente; por ejemplo,
= 0.01.
161
A la izquierda
Bilateral
A la derecha
tp;v
de Student con
Vamos a aplicar el test en la siguiente situacin. El diario Sur publicaba una noticia el 5 de noviembre de 2008 donde se indicaba que los niveles de concentracin de benceno, un tipo de hidrocarburo cancergeno que se
encuentra como vapor a temperatura ambiente y es indisoluble en agua, no superan el mximo permitido por la Directiva Europea de Calidad del Aire, cinco microgramos por metro cbico. sta es la principal conclusin del estudio elaborado por un equipo de la Escuela Andaluza de Salud Pblica en el Campo de Gibraltar. La
noticia slo indicaba que el estudio se basaba en una muestra, dando el valor medio muestral en varias zonas del Campo de Gibraltar, pero no el tamao ni la desviacin tpica muestral. Para realizar el ejemplo, nosotros vamos a imaginar unos datos correspondientes a una muestra de 20 hogares donde se midi la concentracin de benceno, arrojando una media muestral de 5.1 microgramos por metro cbico y una desviacin tpica muestral de 1.7. Estoy seguro de que, en ese caso, el peridico habra sacado grandes titulares sobre la contaminacin por benceno en los hogares del Campo de Gibraltar pero, podemos armar que, en efecto, se superan los lmites de la Directiva Europea de Calidad del Aire? En primer lugar, de nuevo no nos indican un nivel de signicacin con el que realizar la prueba. Escogemos, en principio,
= 0.05. H0 : = 5
frente a
Tenemos que tener cuidado, porque el planteamiento de la prueba, tal y como se nos ha planteado, ser contrastar la hiptesis nula
H1 : > 5,
concluir que se viola la normativa cuando en realidad no lo hace, lo cul es grave porque genera alarma injusticada en la poblacin, mientras que el error tipo II, el que no controlamos con el
es concluir que
1 Debe quedar claro que, estadsticamente, lo que hemos demostrado es que la razn media es distinta de 9. Son los arquelogos los que deciden que eso implica una nueva especie.
162
se cumple la normativa cuando en realidad no lo hace, lo cual es gravsimo para la poblacin! Con esto quiero incidir en una cuestin importante respecto a lo que se nos pide que demostremos: se nos dice que nos planteemos si se superan los lmites de la normativa, en cuyo caso
H1
debe ser
> 5,
pero en realidad,
deberamos plantearnos la pregunta de si podemos estar seguros de que se est por debajo de los lmites mximos permitidos, es decir, deberamos probar
H1 : < 5. H1 : > 5
determina que
Centrndonos exclusivamente en lo que se nos pide en el enunciado, tenemos que se trata de una prueba unilateral a la derecha. El estadstico de contraste es
t=
1. Si queremos concluir con la regin de rechazo, sta est formada por los valores luego, dado que la normativa. 2. El p-valor es an ms informativo. Su valor es
que llegar hasta casi un 40 % de signicacin para rechazar la hiptesis nula en favor de la alternativa armando que se incumple la normativa.
Por lo tanto, tal y como est planteado el problema, no podemos armar que se est incumpliendo la normativa (con un 5 % de signicacin), por ms que un valor muestral de la media, 5.1, parezca indicar que s. Lo que yo recomendara a los responsables del cumplimiento la normativa es que aumentaran el tamao de la muestra, ya que, por ejemplo, si esos mismos datos correspondieran a 1000 hogares en vez de a 20, s se podra armar con un 95 % de conanza que se incumple la normativa.
x1 , ..., xn1
y
y1 , ..., yn2 ,
y varianzas
2 1
2 2 .
x, y , s1 n1
s2 n1
= 0.05. 2
al tiempo medio de produccin bajo
H0 : 1 = 2
frente a
H1 : 1 < 2
o, lo que es lo mismo,
H1 : 1 2 < 0:
163
Unilateral a la izquierda
Bilateral
Unilateral a la derecha
H0 : 1 2 = D0 H1 : 1 2 < D0
H0 : 1 2 = D0 H1 : 1 2 = D0 z=
()D0 x y
H0 : 1 2 = D0 H1 : 1 2 > D0
2
( s1 ) n1
n1
(s2 ) n1
n2
z > z1 P [Z > z]
Cuadro 8.6: Contraste para la diferencia de medias con muestras grandes Proceso nuevo Proceso antiguo
n1 = 50 y1 = 1255 s1 = 215
n2 = 30 y2 = 1330 s2 = 238
El estadstico es
z=
1255 1330
2152 50
= 1.41.
2382 30
1. La regin de rechazo es
Dado que
z = 1.41
= 0.05,
conanza en que el nuevo proceso haya disminuido el tiempo medio de produccin. No obstante, esta respuesta deja abierta la pregunta, si no un 95 % de conanza, cunta?. 2. Dado que el p-valor es
Hay que decir que no hemos podido probar lo que se sospechaba, que el nuevo proceso reduca el tiempo medio de produccin, pero los datos apuntan en esta direccin. Desde el punto de vista estadstico, deberamos recomendar al ingeniero que aumente el tamao de las muestras porque es posible que en ese caso s pueda probar esa hiptesis.
8.5.2. Con muestras pequeas (n1 < 30 o n2 < 30) y varianzas iguales
El resumen aparece en el Cuadro 8.8. A propsito de la hiptesis de la igualdad de las varianzas, sta debe basarse en razones no estadsticas. Lo habitual es que se suponga que son iguales porque el experto que est realizando el contraste tiene razones experimentales para hacerlo, razones ajenas a la estadstica. Vamos a considerar como ejemplo el de un ingeniero que desea comparar dos equipos de trabajo para analizar si se comportan de forma homognea. Para ello realiza una prueba de destreza entre los trabajadores de ambos equipos: 13 del equipo 1 y 15 del equipo 2, cuyas puntuaciones aparecen en el Cuadro 8.9. Hay indicios sucientes de que existan diferencias entre las puntuaciones medias de los dos equipos?
( = 0.05).
164
A la izquierda
Bilateral
A la derecha
H0 : 1 2 = D0 H1 : 1 2 < D0 t=
()D0 x y s2 p
1 n1 1 +n 2
H0 : 1 2 = D0 H0 : 1 2 = D0 H1 : 1 2 = D0 H1 : 1 2 > D0 2 2 1 (n1 1)(sn1 ) +(n2 1)(s2 ) n1 , s2 = p n1 +n2 2 |t| > t1/2;n1 +n2 2 2P [Tn1 +n2 2 > |t|] t > t1;n1 +n2 2 P [Tn1 +n2 2 > t]
Cuadro 8.8: Contraste para la igualdad de medias con muestras pequeas Equipo 1 Equipo 2 59 71 73 63 74 40 61 34 92 38 60 48 84 60 54 75 73 47 47 41 102 44 75 86 33 53 68 39
Nos piden que contrastemos la igualdad de las medias (H0 por lo que se trata de un contraste bilateral.
: 1 = 2 ),
frente a la alternativa
H1 : 1 = 2 ,
En primer lugar, obtenemos los estadsticos muestrales de ambos equipos. Las medias son, respectivamente, 68.2 y 53.8, mientras que las desviaciones tpicas muestrales son 18.6 y 15.8. Con estos valores podemos calcular
s2 : p s2 = p
t=
68.2 53.8
1 294.09( 13 + 1 15 )
= 2.22.
Aunque no hemos dicho nada al respecto, vamos a suponer que las varianzas son iguales. Esto no parece descabellado si admitimos que las condiciones en que trabajan ambos equipos determinan que no debe haber diferencias en la variabilidad de sus puntuaciones. Esta hiptesis debe ser admitida y propuesta por el experto (en este caso, el ingeniero) que maneja los datos. Para obtener la conclusin, como siempre, vamos a obtener la regin de rechazo y valorar el p-valor: 1. La regin de rechazo es
Dado que
t = 2.22
165
Unilateral a la izquierda
Bilateral
Unilateral a la derecha
H0 : 1 2 = D0 H1 : 1 2 < D0
H0 : 1 2 = D0 H1 : 1 2 = D0 t=
1 n
H0 : 1 2 = D0 H1 : 1 2 > D0
2
()D0 x y
(s1 ) +(s2 ) n1 n1
Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales Las muestras tienen el mismo tamao,
n1 = n2 = n
Cuadro 8.10: Contraste para la igualdad de medias con muestras pequeas varianzas distintas y mismo tamao muestral Unilateral a la izquierda Unilateral a la derecha
Bilateral
H0 : 1 2 = D0 H1 : 1 2 < D0 t=
Estadstico de contraste
()D0 x y
(s1 ) n1
n1
( s2 ) + n1
n2
,v =
2 2 s1 n1 n1
(s2 ) n1
n2
2 2
n1 1
n2 1
Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales
Cuadro 8.11: Contraste para la igualdad de medias con muestras pequeas, varianzas distintas y distinto tamao muestral
Y.
Estas variables no son independientes: las muestras estn se considera una nueva variable,
apareadas,
Notamos
(x1 , y1 ) , ..., (xn , yn ). Para comparar ambas variables d a la media muestral de x1 y1 , ..., xn yn y sd
D = X Y.
n1
a su varianza muestral.
166
A la izquierda
Bilateral
A la derecha
H0 : 1 2 = D0 H1 : 1 2 = D0 0 z = sddDn /
n1
Cuadro 8.12: Contraste para la igualdad de medias en poblaciones apareadas con muestra grande
A la izquierda
Bilateral
A la derecha
H0 : 1 2 = D0 H1 : 1 2 < D0
H0 : 1 2 = D0 H1 : 1 2 = D0 0 t = sddDn /
n1
t < t;n1 |t| > t1/2;n1 P [Tn1 < t] 2P [Tn1 > |t|] D = X Y , es aproximadamente
Cuadro 8.13: Contraste para la igualdad de medias en poblaciones apareadas y muestra pequea
ponente no deseado . Antes de sacarlo al mercado necesita un estudio de casos-controles que demuestre su ecacia. El estudio de casos controles consiste en encontrar un nmero determinado de parejas de personas con caractersticas siolgicas parecidas; en este caso, la ms importante de estas caractersticas sera que las parejas caso-control tengan al inicio del estudio el mismo o muy parecido nivel de presencia en sangre del componente no deseado: en cada una de esas parejas, una acta como caso, tomando la medicacin en estudio, y la otra como control, tomando un producto inocuo llamado placebo. Ninguna de las dos personas, ni siquiera el mdico o el farmacetico que controla el proceso, sabe quin es el caso y quin el control. Slo quien recopila y analiza los resultados, sin contacto alguno con el paciente, tiene esos datos. Esta metodologa se conoce como doble ciego y evita que el conocimiento de que se est administrando la medicina provoque un efecto en s mismo. Los datos aparecen en el Cuadro 8.14. Un anlisis costo-benecio de la empresa farmacetica muestra que ser benecioso sacar al mercado el producto si la disminucin media del componente perjudicial es de al menos 2 puntos. Realicemos una nueva prueba para ayudar a la compaa a tomar la decisin correcta. Los datos son la disminucin de presencia en sangre del componente no deseado despus de tomar el medicamento o el placebo. Empecemos por la notacin. Vamos a llamar muestra 1 a la del medicamento y muestra 2 a la del placebo. Con esta notacin, nos piden que contrastemos
H1 : 1 2 > 2.
t=
y el p-valor asociado es por ejemplo, a
= 0.05,
por lo que podemos concluir con ese nivel de signicacin que la mejora es superior,
2 Podra
167
Pareja 1 2 3 4 5 6 7 8 9 10
Medicamento 32.10 36.10 32.30 29.50 34.30 31.90 33.40 34.60 35.20 32.70
Placebo 27.10 31.50 30.40 26.90 29.90 28.70 30.20 31.80 33.60 29.90
Diferencia 5.00 4.60 1.90 2.60 4.40 3.20 3.20 2.80 1.60 2.80
Cuadro 8.14: Datos del ejemplo de la compaa farmacetica Unilateral a la izquierda Unilateral a la derecha
Bilateral
H0 : p = p0 H1 : p < p0
H0 : p = p 0 H1 : p = p 0 z=
pp0 p0 (1p0 ) n
H0 : p = p0 H1 : p > p0
P [Z < z] z < z
P [Z > z] z > z1
p.
p.
Vamos a considerar un primer ejempo relativo a la relacin entre el gnero y los accidentes de trco. Se estima que el 60 % de los conductores son varones. Por otra parte, un estudio realizado sobre los datos de 120 accidentes de trco muestra que en ellos el 70 % de los accidentes fueron provocados por un varn conductor. Podemos, con esos datos, conrmar que los hombres son ms peligrosos al volante? Si notamos por
H1 : p > 0.6.
z=
0.7 0.6
0.60.4 120
= 2.236.
para un
= 0.05,
proporcin de varones causantes de accidentes es superior a la proporcin de varones conductores en general. El p-valor, de hecho, es 0.013. Vamos a analizar con mucho detalle otro ejemplo sobre igualdad de proporciones. De todas formas, lo que quiero enfatizaros con el ejemplo no est relacionado en s con el hecho de que se reera a una proporcin.
Una marca de nueces arma que, como mximo, el 6 % de las nueces estn vacas. Se eligieron 300 nueces
168
al azar y se detectaron 21 vacas. Con un nivel de signicacin del 5 %, se puede aceptar la armacin de la marca?
En primer lugar, pedir un nivel de signicacin del 5 % es equivalente a pedir un nivel de conanza del 95 % ... sobre qu? Nos preguntan si se puede aceptar la armacin de la marca
signicacin del 5 %, es decir, con un nivel de conanza del 95 %. Eso implica que queremos
probar con amplias garantas que la marca no miente, y la nica forma de hacerlo es poner su hiptesis (p
con un nivel de
< 0.06)
H0 : p 0.06
marca,
piden que veamos si una proporcin muestral de 0.07 da suciente conanza (95 % para ser exactos) de que
p < 0.06...
No da ninguna! Ni siquiera hace falta hacer el contraste con nmeros. Jams podremos
rechazar la hiptesis nula en favor de la hiptesis de la marca, es decir, en absoluto podemos armar lo que dice la marca,
p < 0.06,
la derecha y la regin de rechazo en la de la izquierda. Por eso deca antes que es imposible rechazar la hiptesis nula en favor de la alternativa, independientemente del nivel de conanza requerido. Hasta ahora hemos demostrado que la marca no puede armar que la proporcin de nueces vacas es inferior al 6 % con un 95 % de conanza. De hecho, no lo puede armar con ningn nivel de conanza, porque los datos tomados proporcionan una estimacin de 0.07 que va justo en contra de su hiptesis. Pero vamos a suponer que nos ponemos gallitos y decimos: es ms, podra demostrar que hay eviden-
cias empricas que proporcionan un 95 % de conanza en que la compaa miente, siendo en realidad la proporcin de nueces vacas superior al 6 % . Ahora somos nosotros los que armamos otra cosa:
armamos
p > 0.06
H0 : p 0.06
frente a
Ahora el valor del estadstico, es decir, la informacin que nos dan los datos (21 de
300 nueces vacas), s es coherente con la hiptesis alternativa, de ah que est en la misma cola que la regin de rechazo... pero no cae en ella!. Por lo tanto, no tenemos sucientes evidencias en los datos para rechazar la hiptesis nula en favor de la alternativa con un 95 % de conanza, as que no podemos demostrar con ese nivel de conanza que la marca miente. En resumen, aunque parezca paradjico, no tenemos sucientes evidencias en los datos para armar que la compaa dice la verdad, pero tampoco para demostrar que miente. La diferencia entre ambas hiptesis radica en que no tenemos ninguna conanza en la armacin de la compaa, y s alguna conanza en la armacin contraria. Cunta conanza tenemos en la armacin contraria Ese valor viene dado por el p-valor,
p > 0.06?
p > 0.06
es
Finalmente, alguien podra pensar, y entonces qu hacemos? . Desde el punto de vista estadstico lo nico que podemos recomendar es aumentar el tamao de la muestra, es decir, romper ms de 300 nueces para tomar la decisin. Aparentemente, la informacin recogida con 300 nueces parece indicar
169
Unilateral a la izquierda
Bilateral
Unilateral a la derecha
H0 : p1 p2 = D0 H1 : p1 p2 = D0
p1 p2 D0 p(1p)
1 n1 1 +n 2
H0 : p1 p2 = D0 H1 : p1 p2 > D0
, p=
n1 p1 +n2 p2 n1 +n2
z > z1 P [Z > z]
que la marca miente. De hecho, si la proporcin muestral de 0.07 proviniera de una muestra de 1600 nueces en vez de 300, s hubiramos podido demostrar con un 95 % de conanza que la marca miente.
p1
p2
de individuos con
la caracterstica xito. Pretendemos comparar estas proporciones mediante la toma de muestras de tamao y
n1
n2 .
Notaremos
p1
p2
las proporciones de xitos en las muestras. Supondremos de nuevo que las muestras
son grandes para poder aplicar el Teorema Central del Lmite a la hora de trabajar con el estadstico de contraste. El resumen del contraste aparece en el Cuadro 8.16. Vamos a considerar un estudio
3 con datos reales, aunque algo anticuados, referente a la relacin entre los
accidentes de trco y el consumo de alcohol, realizado por la DGT en la Comunidad Autnoma de Navarra en 1991. Se realizaron pruebas de alcoholemia en 274 conductores implicados en accidentes de trco con heridos, de los cuales, 88 dieron positivo. Por su parte, la Guardia Civil de Trco realiz en la misma zona 1044 controles de alcoholemia al azar, de los cuales 15 dieron positivo. Lo que la DGT quiere demostrar es que el alcohol es causante de los accidentes de trco. Sin embargo, desde el punto de vista estadstico slo podemos contrastar la hiptesis de que la proporcin de positivos en la prueba de alcoholemia es mayor en el grupo de conductores implicados en accidentes de trco. Notemos por
p1
p2
H0 : p1 = p2
frente a
H1 : p1 > p2 .
El estadstico de
z=
88+15 274+1044 (1
88 274
15 1044
= 904.29. +
1 1044 )
Est claro que el valor del estadstico es bestial, sin necesidad de valorar la regin de rechazo, que sera
de conanza. El p-valor,
p = P [Z > 904.29] = 0
No puedo resistirme a concluir el ejemplo sin recordar que lo que la DGT realmente querr dar a entender es que el alcohol es el causante de los accidentes de trco, pero que eso no puede ser demostrado con el contraste.
3 http://www.dgt.es/educacionvial/imagenes/educacionvial/recursos/dgt/EduVial/50/40/index.htm
170
Unilateral a la izquierda
Bilateral
Unilateral a la derecha
2 H0 : 2 = 0 2 H1 : 2 < 0
2 H0 : 2 = 0 2 H1 : 2 = 0
2 H0 : 2 = 0 2 H1 : 2 > 0
(n1)s2 n1 2 0
con varianza
2 tamao n, cuya varianza muestral notamos por sn1 . Vamos a tratar de hacer inferencia sobre
2 . El problema
es que ahora no podemos aplicar el Teorema Central del Lmite, por lo que slo utilizar los contrastes cuando la variable
es normal.
2 p;v
es el valor de una
de
P 2 < 2 = p. p;v
Las empresa Sidel arma que su mquina de llenado HEMA posee una desviacin tpica en el llenado de contenedores de 500ml de producto homogneo inferior a 0.8 gr.
de calidad quiere realizar una comprobacin al respecto. Recopila para ello una muestra del llenado de 50 contenedores, obteniendo una varianza muestral de 0.6 Esta informacin proporciona pruebas sucientes de que la desviacin tpica de su proceso de llenado es realmente inferior a 0.8gr.? Planteamos, en primer lugar, las hiptesis del contraste. Se nos pide que contrastemos equivalentemente,
H0 : = 0.8
o,
H0 : = 0.64
frente a la alternativa
H1 : < 0.64.
2 =
1. Dado que
2 0.05;9 = 33.930,
95 % de conanza que, en efecto, la desviacin tpica de la cantidad de llenado es inferior a 0.8gr. 2. Dado que el p-valor es
Ojo: antes de que la empresa Sidel se enfade con nosotros, no olvidemos que los datos son imaginarios: slo
son reales las especicaciones tcnicas de
< 0.8gr.
x1 , ..., xn1
y1 , ..., yn2 ,
2 1
2 2 . Notaremos
(s1 )2 y n1
4 http://www.sidel.com/es/products/equipment/the-art-of-lling/hema-gw
Prof. Dr. Antonio Jos Sez Castillo
171
Tipo
Unilateral a la izquierda
2 1 2 2 2 1 2 2
Bilateral
Unilateral a la derecha
2 1 2 2 2 1 2 2
Hiptesis
H0 : H1 :
=1 <1
H0 : H1 : f=
2 1 2 = 1 2 2 1 2 = 1 2 2 (s1 ) n1
H0 : H1 :
=1 >1
(s2 ) n1
f < f/2;n1 1,n2 1 o f > f1/2;n1 1,n2 1 2min(P [Fn1 1,n2 1 < f ], P [Fn1 1,n2 1 > f ])
Las dos muestras se recogen de forma independiente y aleatoria Ambas variables siguen distribuciones aproximadamente normales Cuadro 8.18: Contraste para el cociente de varianzas
si ambas variables son normales. El resumen del contraste aparece en el Cuadro 8.18. En l, valor de una
fp;v1 ,v2
es el
de
v1
v2
grados de libertad
5 tal que
Para practicar sobre el contraste, consideremos que se han realizado 20 mediciones de la dureza en la escala Vickers de acero con alto contenido en cromo y otras 20 mediciones independientes de la dureza de una soldadura producida sobre ese metal. Las desviaciones estndar de las muestras de dureza del metal y de dureza de la soldadura sobre ste fue de 12.06HV y 11.41HV , respectivamente. Podemos suponer que las durezas corresponden a variables normales e independientes. Podemos concluir que la dureza del metal bsico es ms variable que la dureza medida en la soldadura? Vamos a llamar a la dureza sobre el acero,
H0 :
2 X
2 Y frente a la alternativa
X , y a la dureza sobre la soldadura, Y . Se nos pide que contrastemos 2 2 2 H1 : X > Y o, equivalentemente, H1 : X > 1. Se trata, por tanto, de 2
Y
f=
Vamos a tomar un nivel de signicacin de
2.168.
Dado que
= 0.05
que
la dureza del metal bsico sea ms variable que la dureza medida en la soldadura. El p-valor, por su parte, es
factor
ni 6 . Supongamos tambin que cada una de las muestras provienen de poblaciones con distribucin normal
5 De 6 No
cara al uso de las tablas hay una propiedad bastante til: fp;v1 ,v2 = 1/f1p;v2 ,v1 es necesario, aunque s deseable, que todas las muestras tengan el mismo tamao.
Prof. Dr. Antonio Jos Sez Castillo
172
de medias
2 . H0 : 1 = ... = m
frente a
H1 :
Obsrvese que la alternativa no dice que todas las medias sean distintas sino tan slo que al menos dos de ellas sean diferentes. Denotemos por
xi , ..., xi i n 1
a la muestra
isima,
xi
s2 i 1 i,n
i = 1, ..., m.
Este contraste se denomina ANOVA como acrnimo de Analysis of Variance, ya que, como vamos a ver, se basa en analizar a qu se debe la variabilidad total que presentan los datos, si al azar o a las diferencias entre las poblaciones de las que proceden las muestras. Supongamos que juntamos todas las muestras, obteniendo una nica muestra global de tamao
N=
i=1
y calculamos su media,
ni ,
x=
m i=1
ni j=1
xi j
1. En primer lugar, los datos varan globalmente respecto a la media total. Una medida de esta variacin es la
SCT =
i=1 j=1
xi x j
2. Por otro lado, puede haber diferencias entre las medias de cada grupo y la media total. Podemos medir estas diferencias con la
SCE =
i=1
ni (i x) . x
Si la hiptesis nula fuera cierta, slo habra pequeas diferencias muestrales entre las medias de cada muestra, en cuyo caso, la SCE sera pequea. Si fuera falsa, habra muchas diferencias entre las medias y con respecto a la media total, en cuyo caso SCE sera grande. 3. Por ltimo, debido a la variabilidad inherente a toda muestra, los datos de cada muestra van a variar respecto a su media particular. Como medida de esta variacin consideramos la
suma de los
SCD =
i=1 j=1
xi xi j
=
i=1
(ni 1) s2 i 1 . i,n
173
de la varianza:
SCT = SCE + SCD.
teorema de particin
Teniendo en cuenta este resultado, el ANOVA consiste en ver si SCE es signicativamente grande respecto de SCD. Para ello basta considerar que, suponiendo que la hiptesis nula es cierta:
2 2 2
N 1 m1
N m
F =
SCE m1 SCD N m
, F
de Snedecor con
m1
N m
grados de
1. Calculamos
x=
y con ella
m i=1
ni j=1
xi j
N
m 2
SCE =
i=1
2. Calculamos
ni (i x) = x
i=1
ni x2 N x2 . i
ni
SCD =
i=1 j=1
3. Calculamos el estadstico del test:
xi xi j
=
i=1
(ni 1) s2 i 1 . i,n
F =
4. Tomamos la decisin:
SCE m1 SCD N m
a ) Si
F Fm1,N m;1 , .
signicacin
b ) Si
signicacin
174
En primer lugar, observemos que los tamaos muestrales son iguales: Por otra parte, tenemos:
n1 = ... = n4 = 5.
x=
F =
Por su parte, el valor de
= 3.8734.
F3,16;0.95
Ejemplo. En Biologa Molecular se estudia la relacin que puede tener el nivel de expresin de un gen
con la posibilidad de padecer un tipo de cncer. Un investigador consigue analizar el nivel de expresin de 10 genes en una muestra de pacientes y realiza 10 contrastes de hiptesis donde la hiptesis alternativa de cada uno de ellos dice que un gen est relacionado con la posibilidad de padecer ese cncer. Los p-valores obtenidos son los siguientes:
(0.1, 0.01, 0.21, 0.06, 0.32, 0.24, 0.45, 0.7, 0.08, 0.0003)
175
Histogram of x
14 Frequency 0 2 4 6 8 10 12
20
30
En principio, tendramos evidencias de que el 2 y el ltimo gen estn signicativamente relacionados con ese tipo de cncer. Sin embargo, debemos corregir el efecto de la realizacin de las 10 pruebas simultneas. Aplicando el mtodo de Bonferroni, debemos multiplicar por 10 los p-valores. En ese caso, el segundo gen ya no puede ser considerado estadsticamente signicativo para el riesgo de padecer el cncer
(0.01
10 > 0.05);
8.13. Resolucin de los ejemplos del IMC de los varones y del dimetro de los cojinetes
8.13.1. Resolucin del ejemplo del ndice de masa corporal
Recordemos que en este ejemplo plantebamos que en una encuesta realizada por alumnos de la asignatura en el curso 2008/2009 stos sacaron la impresin de que el IMC medio de los varones estaba por encima de la medida ideal indicada, 22.5. La cuestin es, si realmente tienen evidencias sucientes de ello y cmo de fuertes son esas evidencias. Los datos muestrales arrojan una media de de la muestra fue de 45 varones. Si notamos por
x = 24.736
sn1 = 10.202.
El tamao
a la media poblacional del IMC de los varones, lo que nos planteamos es el contraste de
H0 : 22.5
frente a la alternativa
H1 : > 22.5.
En primer lugar, el histograma de los datos (ver Figura 8.3) hace pensar que stos no estn lejos de la normalidad. De todas formas, dado que tenemos 45 datos, no es necesario suponer que los datos siguen una normal, ya que el tamao muestral es sucientemente grande. El estadstico de contraste sera
z=
El p-valor,
176
superior a 22.5, no podemos concluir con un 95 % de conanza que el IMC medio de la poblacin de los varones sea superior a 22.5.
de bolas y tiene dos mquinas distintas para ello. Le interesa que los cojinetes producidos tengan dimetros similares, independientemente de la mquina que los produce, pero tiene sospechas de que est produciendo algn problema de falta de calibracin entre ellas. Para analizar esta cuestin, extrae una muestra de 120 cojinetes que se fabricaron en la mquina A, y encuentra que la media del dimetro es de 5.068 mm y que su desviacin estndar es de 0.011 mm. Realiza el mismo experimento con la mquina B sobre 65 cojinetes y encuentra que la media y la desviacin estndar son, respectivamente, 5.072 mm y 0.007 mm. Puede el ingeniero concluir que los cojinetes producidos por las mquinas tienen dimetros medios signicativamente diferentes?
En este caso, afortunadamente tambin tenemos un tamao muestral que va a permitir obviar la hiptesis de normalidad. Vemos que de nuevo se plantea un supuesto que puede ser analizado a travs de la media, en concreto, comparando la media de ambas mquinas. Si llamamos dimetro de la mquina B, tenemos que contrastar El estadstico de contraste es
al dimetro de la mquina A e
al
H0 : X = Y
frente a
H1 : X = Y .
z=
5.068 5.072
0.0112 120
= 3.013.
0.0072 65
El p-valor asociado es
177
178
Captulo 9
Contrastes de hiptesis no paramtricas
Todos aprendemos de la experiencia, y la leccin en esta ocasin es que nunca se debe perder de vista la alternativa. Sherlock Holmes (A. C. Doyle), en Las Aventuras de Black Peter
Resumen. Continuando con los contraste de hiptesis, presentamos en este captulo nuevos contrastes que
permitirn decidir si un ajuste mediante una distribucin terica es vlido y valorar si existe relacin entre variables cualitativas.
de independencia.
9.1. Introduccin
Todos los contrastes que hemos descrito en el captulo anterior se basan, directa o indirectamente (a travs del teorema central del lmite) en que los datos se ajustan a la distribucin normal, haciendo inferencia de una u otra forma sobre sus parmetros. En este captulo vamos a considerar contrastes que no necesitan de tal hiptesis, por lo que no se enuncian como contrastes sobre algn parmetro desconocido: de ah que formen parte de los llamados
H0 :
Resultado 1 2 3 4 5 6 Total
frente a la alternativa
H1 :
facilitando adems un p-valor que permitir, adems, comparar la bondad de distintos ajustes. Decir, por ltimo, que aunque estos dos contrastes de hiptesis pueden aplicarse a cualquier tipo de variables estn especialmente indicados para variables de tipo discreto o cualitativo en el caso del primero de ellos (test
pi
i = 1, 2, ..., 6,
H0 : p1 = ... = p6 =
frente a la alternativa de
1 6
H1
que algn
pi
sea distinta de
1 6.
Para realizar la prueba, lanzar el dado 600 veces, anotando el nmero de veces que se da cada resultado. Estas cantidades se denominan frecuencias observadas. Por otra parte, si el dado fuera justo (hiptesis
100 de cada resultado posible. stas frecuencias se denominan frecuencias esperadas. El tahur tomar la decisin con respecto al dado a partir de la comparacin de las frecuencias observadas y las esperadas (ver Cuadro 9.1). Qu decidiras t a la luz de esos datos?
en la introduccin, con ella podremos juzgar ajustes de los que hemos logrado en el captulo de estimacin puntual, pero tambin podremos utilizarla en ejemplos como el que acabamos de ver, en el que el experto est interesado en contrastar datos experimentales con respecto a una distribucin terica que le resulta de inters. En primer lugar y de forma ms general, supongamos que tenemos una muestra de tamao discreta o cualitativa,
de una v.a.
X,
180
Consideremos una particin del conjunto de valores que puede tomar la variable:
S1 , ..., Sr .
esta particin podran ser simplemente todos y cada uno de los valores que toma la variable veremos, es posible que tengamos que agrupar algunos de ellos.
X,
Seguidamente, consideremos la probabilidad, segn la distribucin dada por el ajuste que queremos evaluar, de cada una de estas partes,
pi = P [X Si /H0 ] > 0.
De igual forma, calculemos
Oi ,
Si .
con el
La idea del test es comparar el nmero de observaciones nmero esperado de observaciones que deberan caer en sera
Oi Si
Si
N pi .
Para ello, una medida que compara estas dos cantidades viene dada por
D=
i=1
(Oi N pi ) . N pi d
muy alto, indica que los valores observados no cuadran
con el ajuste que hemos propuesto (con lo cul se rechazara la hiptesis nula en favor de la alternativa); si, por el contrario, toma un valor
bajo, indica que nuestro ajuste corresponde bien con los datos de la
muestra, por lo que es aceptable la hiptesis nula. El problema nal es decidir cundo el valor de la v.a.
D, d, D
resulte inaceptable el ajuste. Para decidirlo hay que tener en cuenta que cuando la hiptesis H 0 es cierta, la distribucin de probabilidad de es
es razonablemente alto y
con
D/H0 2 rk1 ,
donde
N >>
es el nmero de parmetros que han sido estimados en el ajuste. Teniendo en cuenta este resultado,
se calcula bajo esta distribucin la probabilidad de que se de un valor todava ms alto que tanto),
p = P [D > d/H0 ] .
Si esta probabilidad es inferior al 5 %, se rechaza la hiptesis nula en favor de la alternativa con un 95 % de conanza. Dicho de otra forma, se acepta la hiptesis nula slo si el valor de resultados ms favorables a ella. Esquemticamente, el proceso es el siguiente:
1. Se enuncia el test:
H0 : H1 :
los datos siguen la distribucin dada por nuestro ajuste los datos no siguen la distribucin dada por nuestro ajuste
x1 , ..., xm ,
se calculan las frecuencias esperadas segn el ajuste Si alguna de estas frecuencias es inferior
xi , N P [X = xi ], i = 1, ..., m.
a 5, se agrupa con alguna de la ms cercana hasta que sumen una frecuencia mayor o igual a 5. Se construye as la particin del conjunto de valores posibles para
181
xi
Frec. obs.
0 42
1 28
2 13
3 5
4 7
5 3
6 2
son todas mayores o iguales a 5. En realidad, esto es slo una recomendacin que puede relajarse: si alguna frecuencia esperada es slo ligeramente inferior a 5, no es especialmente grave.
Si ,
y lo notamos como
Oi .
d=
i=1
(Oi N pi ) . N pi
p = P [D > d/H0 ] ,
segn una distribucin
con
rk1
grados de libertad.
95 %): 95 %
de conanza.
a ) Si b ) Si
se concluye que no hay evidencias en contra de armar que los datos se ajustan a la
distribucin dada.
Ejemplo.
Los datos que se presentan en el Cuadro 9.2 constituyen una muestra aleatoria simple del
tiempo en ms. que transcurre entre la llegada de paquetes transmitidos por un determinado protocolo. En la tabla aparecen los valores junto al nmero de veces que han sido observados en la muestra. Se sospecha que una distribucin geomtrica puede ajustar bien esos datos. Vamos a realizar ese ajuste y contrastar si es aceptable mediante el test de la chi-cuadrado. En primer lugar, para ajustar una distribucin geomtrica debemos estimar el parmetro de la misma. Vamos a hacerlo de forma sencilla por el mtodo de los momentos. El valor de la media de la distribucin es $EX= de donde
p=
p=
1 . 1+x
Por su parte,
x=
luego $
0 42 + 1 28 + 2 13 + 3 5 + 4 7 + 5 3 + 6 2 = 1.24, 100
182
As pues, deseamos contrastar en qu medida el ajuste de una la muestra. Es decir, deseamos contrastar
Geo (0.4464)
H0 : X Geo (0.4464)
frente a la alternativa
H1 : X
Geo (0.4464) .
Vamos a calcular cules son las probabilidades tericas segn esa distribucin de los valores observados en la muestra:
d=
6.9696 0.0841 0.4624 6.6049 6.8644 + + + + = 1.7973. 44.64 27.71 13.68 7.57 9.38 P [D > 1.7973] , donde D p valor =
1.7973
sigue una
(5 1 1)/2
1/2.
Por tanto,
1 2
1 2x
3 2 1
e 2 x
3 2
dx = 0.61552.
Al ser superior (muy superior, de hecho) a 0.05, podemos armar que no hay evidencias en los datos de la muestra en contra de que stos sigan una distribucin
Geo (0.4464).
183
xi 0 1 2 3 4
Oi 42 28 13 5 12
(Oi N pi )
2
(42 44.64) = 6.969 6 2 (28 27.71) = 0 .0841 2 (13 13.68) = 0.462 4 2 (5 7.57) = 6.604 9 2 (12 9.38) = 6.864 4
X1 , ..., XN
X,
si notamos por
F (x)
a la funcin de
SN (x)
es de tipo continuo.
H0 :
F (x) ,
H1 :
F (x) . DN
sea
Se rechazar la hiptesis nula en favor de la alternativa cuando el p-valor asociado al valor que tome inferior a 0.05. Esquemticamente, el proceso en el desarrollo del test puede resumirse en los siguientes pasos: 1. Ordenamos los valores de la muestra de menor a mayor:
2. Construimos la funcin de distribucin emprica, que en cada valor de la muestra viene dado por
SN x(i) =
i N.
dN = mx a
1iN
mx a
F x(i) SN x(i)
. (1 p)
con un
100 %
de conanza.
La distribucin de probabilidad de
DN ,
esta probabilidad hay que echar mano de algn paquete matemtico o consultar tablas de dicha distribucin.
184
1.4647 0.2333
0.4995 0.0814
0.7216 0.3035
0.1151 1.7358
0.2717 0.9021
0.7842 0.0667
3.9898 0.0868
0.1967 0.8909
0.8103 0.1124
0.4854 0.0512
Ejemplo. Los datos que aparecen en el Cuadro 9.4 corresponden al tiempo en sec. entre conexiones a
un servidor. Nos planteamos si una distribucin exponencial es adecuada para su ajuste. En primer lugar hemos de decidir cul es el ajuste propuesto. El estimador mximo verosmil del parmetro caso,
1 m1 . En este
Para calcular el valor del estadstico del contraste, debemos evaluar la funcin de distribucin de una
exp (1.4489).
La Figura 9.1 muestra en una vertiente grca la bondad del ajuste y el punto donde se alcanza la distancia mxima entre las funcin de distribucin terica y emprica.
x(i) 0.0512 0.0667 0.0814 0.0868 0.1124 0.1151 0.1967 0.2333 0.2717 0.3035
F x(i) 7.1499 102 9.2119 102 0.11125 0.11818 0.15029 0.1536 0.24798 0.28682 0.32542 0.3558
i 20
i1 20
0.05 0.1 0.15 0.2 0.25 0.3 0.25 0.4 0.45 0.5
x(i) 0.4854 0.4995 0.7216 0.7842 0.8103 0.8909 0.9021 1.4647 1.7358 3.9898
F x(i) 0.50505 0.51506 0.64849 0.67897 0.69089 0.72496 0.72938 0.88023 0.91914 0.99691
i 20
i1 20
0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95
185
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.5
1.5
2.5
3.5
Figura 9.1: Funciones de distribucin terica y emprica. Valor donde se da el estadstico de KolmogorovSmirnof.
Ejemplo.
Est relacionada la ideologa poltica con el gnero del votante? Es decir, nos planteamos si
el que una persona se declare de izquierdas o de derechas depende de si es varn o mujer. Existen dos variables cualitativas o caractersticas que dividen a la poblacin. Lo que nos interesa es si esa divisin est o no relacionada. Sern ms conservadoras las mujeres?
Consideremos en general una poblacin en la que cada individuo se clasica de acuerdo con dos caractersticas, designadas como son
Y.
son
x1 , ..., xr
y1 , ..., ys . pij
a la proporcin de individuos de la poblacin cuyas caractersticas son simultneamente a la proporcin de individuos con caracterstica
Denotemos por
xi
xi
p.j
a la proporcin
P [X = xi , Y = yj ] = pij
s
P [X = xi ] = pi. =
j=1 r
pij
P [Y = yj ] = p.j =
i=1
pij . i
y para
Lo que pretendemos contrastar es si las dos caractersticas son independientes, es decir, si para todo todo
j, P [X = xi , Y = yj ] = P [X = xi ] P [Y = yj ] ,
es decir, si
186
para todo
i = 1, ..., r; j = 1, ..., s
j. n.
Denotemos por
Para llevar a cabo el contraste tomaremos una muestra de la poblacin de tamao individuos de esa muestra que toman simultneamente el valor
nij
los
xi
y el valor y
yj
ni. = yj .
s j=1
nij
xi
n.j =
( r i=1
frecuencias observadas),
nij
los que toman el valor
De esta forma,
pij =
ser un estimador basado en la muestra de
nij n
pi.
p.j =
ser un estimador basado en la muestra de
n.j n
p.j . n,
que
Por otra parte, si la hiptesis nula fuera cierta, el nmero de individuos en la muestra, de tamao toman simultneamente los valores
xi
yj
sera
eij = n pi . p.j .
Basado en la muestra, los valores
Finalmente, el estadstico del contraste se basa en comparar los valores reales en la muestra de los valores
eij
fueran
d=
i=1 j=1
Suponiendo que la hiptesis nula es cierta, la distribucin del estadstico del contraste es grados de libertad, por lo que decidiremos en funcin del p-valor asociado,
p = P [D > d/H0 ] ,
Prof. Dr. Antonio Jos Sez Castillo
187
donde
D 2 (r1)(s1) H0
Rechazaremos
si
d > 2 (r1)(s1);1 .
si
No rechazaremos
H0
d < 2 (r1)(s1);1 . D 2
con
Hay que hacer una ltima observacin: para que en efecto (o casi todas) las frecuencias esperadas son, la distribucin
(r 1) (s 1)
eij
podra no ser adecuada y el resultado del test incorrecto. Para que esto no ocurra es
nij
n.j .
Vamos a ver si el gnero est relacionado con la ideologa. Si no fuera as, si la ideologa fuera independiente del gnero, se tendra en una muestra de 300 individuos las frecuencias esperadas seran
Derecha
Centro
52 300 52 300
D=
(68 62.40) (56 66.56) (32 27.04) + + + 62.40 66.56 27.04 2 2 2 (52 57.60) (72 61.44) (20 24.96) + + + = 6.433. 57.60 61.44 24.96
de manera que podemos rechazar la hiptesis nula en favor de la
Por su parte,
2 (21)(31);0.95 = 5.991,
alternativa, armando con un 95 % de conanza que el genero est relacionado con la ideologa. En qu sentido lo estar?
Si nos centramos slo en los de izquierdas, tenemos que el porcentaje de hombres y mujeres es de
68 120
100 % = 56.667 %
y de
52 120
100 % = 43.333 %,
respectivamente.
188
Si nos centramos slo en los de derechas, tenemos que el porcentaje de hombres y mujeres es de
56 128
100 % = 43.75 %
y de
72 128
100 % = 56.25 %,
respectivamente.
Finalmente, si nos centramos slo en los de centro, tenemos que el porcentaje de hombres y mujeres es de
32 52
100 = 61.538 %
y de
20 52
100 = 38.462 %,
respectivamente.
Lo que parece que ocurre es que las mujeres tienen mayor preferencia por la derecha. Sin embargo, esta armacin no se ha contrastado, sino que se basa simplemente en datos descriptivos .
laborales son ms frecuentes. Para estudiar este fenmeno, contabilizan los accidentes laborales que sufren los trabajadores segn franjas horarias, durante un ao. Los resultados aparecen en la tabla.
Horas del da 8-10 h. 10-12 h. 13-15 h. 15-17 h. Nmero de accidentes 47 52 57 63
Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.
En primer lugar debemos plantearnos la hiptesis que queremos contrastar. El hecho de que ocurran los accidentes absolutamente al azar vendra a decir que la probabilidad de ocurrencia es la misma en cada franja horaria (puesto que todas ellas tienen la misma amplitud). Por ello, si notamos
pi
a la probabilidad de que
ocurra un accidente en la i-sima franja horaria, nos planteamos como hiptesis nula frente a la alternativa de que no todas las probabilidades sean iguales.
H0 : p1 = ... = p4 =
1 4
Para realizar el contraste podemos considerar un contraste de bondad de ajuste en el que la distribucin de probabilidad sea una uniforme discreta, que no tiene parmetros. En este caso, el estadstico de contraste es muy sencillo:
2 =
(47 219 (1/4))2 (52 219 (1/4))2 (57 219 (1/4))2 (63 219 (1/4))2 + + + = 2.571. 219 (1/4) 219 (1/4) 219 (1/4) 219 (1/4) p = P [2 401 > 2.571] = 0.462,
por lo que no tenemos evidencias en estos datos
que hagan pensar en que hay franjas horarias ms propicias a los accidentes.
189
190
Captulo 10
Regresin lineal simple
Un poltico debe ser capaz de predecir lo que pasar maana, y la semana, el mes y el ao prximos. Y tambin debe ser capaz de explicar por qu no acert. Winston Churchill
Resumen. En este captulo se describe el modelo de regresin lineal simple, que asume que entre dos variables
dadas existe una relacin de tipo lineal contaminada por un error aleatorio. Aprenderemos a estimar dicho modelo y, a partir de estas estimaciones y bajo determinadas hiptesis, podremos extraer predicciones del modelo e inferir la fortaleza de dicha relacin lineal.
Palabras clave:
regresin lineal simple, variable dependiente, variable independiente, error aleatorio, dia-
grama de dispersin, principio de mnimos cuadrados, coeciente de correlacin lineal, coeciente de determinacin lineal, bondad del ajuste, prediccin, estimacin.
10.1. Introduccin
Uno de los aspectos ms relevantes que aborda la Estadstica se reere al anlisis de las relaciones que se dan entre dos variables aleatorias. El anlisis de estas relaciones est muy frecuentemente ligado al anlisis de una variable, llamada
variable dependiente (Y ) , y del efecto que sobre ella tiene otra (u otras) variable(s), llamada(s) variable(s) independiente(s) (X), y permite responder a dos cuestiones bsicas:
Es signicativa la inuencia que tiene la variable independiente sobre la variable dependiente? Si, en efecto, esa relacin es signicativa, cmo es? y podemos aprovechar esa relacin para predecir valores de la variable dependiente a partir de valores observados de la variable independiente?
Ejemplo. Hay un tipo de soldadura llamada soldadura por rozamiento que consiste en que el roce entre
dos piezas provoca un calentamiento que, a su vez, produce la soldadura entre ambas. Supongamos que realizamos un experimento sobre este tipo de soldadura haciendo rodar a una velocidad jada de antemano (x, en
m/mn)
una pieza y llevndola hasta el reposo mediante el rozamiento con otra pieza.
El calor generado por este rozamiento provoca una soldadura de presin caliente cuya resistencia
(y)
191
medimos en
ksi.
Los datos del experimento se recogen en el Cuadro 10.1. Se est tratando de analizar
el efecto que tiene la velocidad (variable independiente) sobre la resistencia de la soldadura (variable dependiente). Afecta de una forma relevante? Si es as, cmo? Podramos ser capaces de predecir la resistencia de la soldadura conocida la velocidad inicial que genera el rozamiento? Si dibujamos los datos de
una relacin latente entre las variables, que parece ser de tipo lineal. A esta representacin en los ejes cartesianos se le denomina
nube de puntos.
Velocidad 50.00 51.72 53.45 55.17 56.90 58.62 60.34 62.07 63.79 65.52 67.24 68.97 70.69 72.41 74.14
Resistencia 86.65 89.81 84.02 83.58 87.32 92.48 87.84 87.38 90.31 95.60 92.06 92.06 91.18 92.31 87.35
Velocidad 75.86 77.59 79.31 81.03 82.76 84.48 86.21 87.93 89.66 91.38 93.10 94.83 96.55 98.28 100.00
Resistencia 92.09 97.55 96.97 99.21 100.77 101.83 99.42 100.98 106.03 99.81 106.38 103.73 105.20 99.14 100.09
Resistencia
85
90
95
100
105
50
60
70 Velocidad
80
90
100
192
regresin lineal simple para una variable, Y (variable dependiente), dada otra variable, X (variable independiente), es un modelo matemtico que permite obtener una frmula capaz de relacionar
Un modelo de
con
Y = 0 + 1 X + .
En esta expresin:
representa a la variable dependiente, es decir, a aquella variable que deseamos estudiar en relacin
con otras.
representa a la variable independiente, es decir, aquellas que creemos que puede afectar en alguna
medida a la variable dependiente. La estamos notando en mayscula, indicando que podra ser una variable aleatoria, pero habitualmente se considera que es una constante que el investigador puede jar a su antojo en distintos valores.
representa el error
aleatorio, es decir, aquella cantidad (aleatoria) que provoca que la relacin entre
la variable dependiente y la variable independiente no sea perfecta, sino que est sujeta a incertidumbre.
Y,
Y = 0 + 1 X.
Lo que en primer lugar resultara deseable de un modelo de regresin es que estos errores aleatorios ocurran en la misma medida por exceso que por defecto, sea cual sea el valor de y, por tanto,
E [Y /X=x ] = 0 + 1 x + E [/X=x ] = 0 + 1 x.
Es decir, las medias de los valores de
para un valor de
= y E [Y /X=x ]
obtenido un modelo de regresin. En ella se puede ver tambin la interpretacin de los coecientes del modelo:
0 1
es
la ordenada al origen del modelo, es decir, el punto donde la recta intercepta o corta al eje y. la pendiente
de la lnea y, por tanto, puede interpretarse como el incremento de la
representa
Nota. Es evidente que la utilidad de un modelo de regresin lineal tiene sentido siempre que la relacin
hipottica entre
sea de tipo lineal, pero qu ocurre si en vez de ser de este tipo es de otro tipo
193
100
105
yi
95 y
0 + 1xi
85
90
xi
50 60 70 x 80 90 100
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersin antes de comenzar a tratar de obtener un modelo de regresin lineal, ya que si la forma de este diagrama sugiere un perl distinto al de una recta quiz deberamos plantearnos otro tipo de modelo. Y, por otra parte, si se observa que el diagrama de dispersin es de otro tipo conocido, puede optarse por realizar un cambio de variable para considerar un modelo lineal. Existen tcnicas muy sencillas para esta cuestin, pero no las veremos aqu.
bajo determinados supuestos que veremos en breve, los estimadores de mnimos cuadrados coinciden con los estimadores mximo-verosmiles de
1 .
El razonamiento que motiva el mtodo de mnimos cuadrados es el siguiente: si tenemos una muestra de valores de las variables independiente y dependiente,
1 ,
1 ,
y x = 0 + 1 x
minimice la suma de los cuadrados de los errores observados. Recordemos que
E [Y /X=x ] = 0 + 1 x,
194
luego
yx
1. Como una prediccin del valor que tomar 2. Como una estimacin del valor medio de Concretando, lo que buscamos es minimizar la
si
X = x. X = x.
cuando
SSE =
i=1
es decir buscamos
yi (0 + 1 xi )
0 , 1 = arg m SSE . n
0 ,1
Se llama
dada X
y
SSE
SSE
respecto de
1 ,
1 =
SSxy SSxx y n
0 = y 1 x,
donde
SSxy =
i=1 n
(xi x) (yi y ) =
i=1 n
xi yi ny x
SSxx =
i=1
Con esta notacin, es fcil demostrar que
(xi x) =
i=1
x2 n2 . x i
SSE =
i=1
y i ( 0 + 1 x i )
=SSyy
Ejemplo. Para los datos sobre el ejemplo sobre la resistencia de la soldadura, vamos a calcular e interpretar la recta de regresin.
yx = 65.4374 + 0.3938x
y est representada en la Figura 10.2.
195
La interpretacin de de 1 unidad
1 es que la resistencia, Y , aumenta en promedio 0.398 unidades por cada incremento de la velocidad. La interpretacin de 0 sera la del valor promedio de Y cuando x = 0, pero
es que en este caso este supuesto no tiene sentido, as que no debe tenerse en cuenta.
Nota. Hay que hacer una observacin importante que suele conducir a frecuentes errores. La recta de
regresin para la variable dependiente de regresin de
Y,
dada
Y.
dado
debemos minimizar
yi 0 + 1 xi
i=1
mientras que para obtener la recta de regresin de
,
deberamos minimizar
dado
xi 0 + 1 yi
i=1
en cuyo caso obtendramos como solucin
SSxy 1 = SSyy 0 = x 1 y ,
siendo la recta de regresin,
x = 0 + 1 y . Y
dado
El error que suele cometerse con frecuencia es pensar que si tenemos, por ejemplo, la recta de
X,
la de
dado
1 ,
comprobable con una nube de puntos. Si el aspecto de esta nube no recuerda a una lnea recta sino a otro tipo de funcin, lgicamente no haremos regresin lineal. 2. Que los errores tengan media cero, independientemente del valor de hiptesis sino ms bien un requerimiento lgico al modelo. Lo que ahora vamos a hacer es aadir algunos supuestos al modelo de manera que cuando stos se cumplan, las propiedades de los estimadores de los coecientes del modelo sean muy buenas. Esto nos va a permitir
196
hacer inferencia sobre estos coecientes y sobre las estimaciones que pueden darse de los valores de la variable dependiente. Los supuestos que podemos aadir se reeren al error del modelo, la variable
. E [Y /X=x ] = 0 + 1 x.
/X=x ] = E [ ] = 0,
x.
es normal.
absoluto en la magnitud de otros errores. En resumen, todos los supuestos pueden resumirse diciendo que s. Estos supuestos son restrictivos, por lo que deben comprobarse cuando se aplica la tcnica. Si el tamao de la muestra es grande, la hiptesis de normalidad de los residuos estar bastante garantizada por el teorema central del lmite. En cuanto a la varianza constante respecto a los valores de no es grave, pero s si las diferencias son evidentes. Existen tcnicas especcas para evaluar en qu medida se cumplen estas hiptesis. Tambin existen procedimientos para corregir el incumplimiento de estos supuestos. Estos aspectos sern tratados al nal del tema.
x, un incumplimiento moderado
descritos en la seccin anterior, es posible obtener un contraste de este tipo, tal y como se resumen en el Cuadro 10.2. En ella, si, en efecto, lo que deseamos es contrastar si el efecto de la variable independiente es o no signicativo para la variable dependiente, el valor de
b1
ser cero.
Ejemplo. Para los datos del ejemplo sobre la resistencia de la soldadura, vamos a probar si la velocidad
es o no signicativa (
197
Unilateral a la izquierda
Bilateral
Unilateral a la derecha
H 0 : 1 = b1 H1 : 1 < b1
1 t = 2 b1
H0 : 1 = b1 H1 : 1 = b1 , s2 = e
H0 : 1 = b1 H1 : 1 > b1 =
SSE n2
se /SSxx
SSyy 1 SSxy n2
luego, como caba esperar, podemos armar a la luz de los datos y con un 95 % de conanza que el efecto de la velocidad sobre la resistencia es signicativo. El p-valor, de hecho, es
5.41 10
11
x y
0 1
10 12
20 20
30 29
40 38
50 48
60 61
70 68
80 79
90 91
100 97
Un primer paso en la comprobacin de que el espectrmetro est bien calibrado implica contrastar que
= 1.
Para ello,
SSxx = 11000; SSyy = 10506.73; SSxy = 10740 10460 1 = = 0.976 11000 SSyy 1 SSxy s2 = = 2.286 e n2
por lo tanto,
t=
Dado que
0.951 1 1.964/11000
y
= 1.639.
habra no hay razones para concluir que
1 = 1.
y = x,
198
Unilateral a la izquierda
Bilateral
Unilateral a la derecha
H 0 : 0 = b0 H1 : 0 < b0 t=
s2 e 0 b0
1 x2 n + SSxx
H0 : 0 = b0 H1 : 0 = b0 , s2 = e
H0 : 0 = b0 H1 : 0 > b0 =
SSE n2
SSyy 1 SSxy n2
es decir, que lo que mida el espectrmetro coincida con la cantidad real de CO en el aire. Eso ocurrira si
0 = 0,
Este ltimo ejemplo pone de maniesto que tambin puede tener inters realizar contrastes sobre el valor de
0 .
Finalmente, tengamos en cuenta que podra ser de inters un contraste conjunto sobre del tipo
1 ,
por ejemplo,
0 = 1 , 1 = 1 .
Hay que decir que este tipo de contrastes mltiples superan los contenidos de esta
asignatura. Lo nico que podramos hacer en un contexto como el nuestro es realizar sendos contrastes sobre
Ejemplo. En el ejemplo anterior, vamos a contrastar si, en efecto, 0 = 0, lo que equivaldr a concluir
que no hay razones para pensar que el espectrmetro est mal calibrado. Para ello,
0 = y 1 x = 0.636
por lo tanto,
0.636 0 2.286
1 11
= 0.746. 0 = 0
502 11000
con un 95 %
Comoquiera que
de conanza, luego, en resumen, no existen razones para pensar que el espectrmetro est mal calibrado.
X.
Y,
1 s
1 ,
es
199
100
20
60 40 20
80
60
10
40
10
100
30
20
60
100
20
60
100
20
60
100
0 0
2000
20
20
6000
10000
20
60
100
Correlacin parablica
y sus implicaciones.
1,
el
SSxx 1 . SSyy
es la siguiente:
Y. X
e
Y.
Si
r = 1,
Un valor positivo de
implica que
de 1.
Un valor negativo de
implica que
disminuye cuando
de -1.
Nota.
En la Figura 10.3 aparecen algunos de los supuestos que acabamos de enunciar respecto a los
distintos valores de
de tipo lineal. Si, como en el ltimo grco a la derecha de esta gura, la relacin entre tipo lineal,
no es de
200
LS Line
Add Point 4
Delete Point
4 x
10
Move Point
Nota. En la Figura 10.4 aparece un valor atpico entre un conjunto de datos con una relacin lineal ms
que evidente. Por culpa de este dato, el coeciente de correlacin lineal ser bajo. Qu debe hacerse en este caso? En general, no se deben eliminar datos de una muestra, pero podra ocurrir que datos atpicos correspondan a errores en la toma de las muestras, en el registro de los datos o, incluso, que realmente no procedan de la misma poblacin que el resto de los datos: en ese caso, eliminarlos podra estar justicado de cara a analizar de una forma ms precisa la relacin lineal entre los datos.
Nota.
Correlacin frente a causalidad. Hay que hacer una advertencia importante acerca de las inter-
pretaciones del coeciente de correlacin lineal. Es muy frecuente que se utilice para justicar relaciones causa-efecto, y eso es un grave error.
Y.
Ejemplo. Para los datos del ejemplo sobre la resistencia de la soldadura, calculemos r e interpretmoslo.
Sabemos que
SSyy =
i=1
2 yi 292 = 1311.511, y
201
luego
r=
2630.975 6681.0341311.511
= 0.8888.
Por tanto, la resistencia de la soldadura y la velocidad que genera el rozamiento tienen una correlacin importante para esta muestra de 30 piezas soldadas, lo que implica que existe una relacin lineal positiva entre estas variables.
r,
y de
en la muestra. Existe un coeciente de correlacin lineal similar pero que se reere a todos los
Y,
el
. De todas formas, en realidad estas inferencias son equivalentes a las que hacemos sobre 1 , ya que la 1
y
relacin entre
H0 : 1 = 0
H0 : = 0.
Podemos,
b1 = 0
r n2 . t= 1 r2
t=
H0 : 1 = 0,
frente a
H1 : 1 =
: = 0 frente a H1 : = 0 de nuevo en el ejemplo de la soldadura. 0.888 28 = 10.26, que coincide con el valor de t cuando contrastamos 10.8882 0. Vemos que, en efecto, es el mismo contraste.
Si
Y,
entonces
= 0,
en cuyo caso
1 =
V arY V arX
=0
la recta es simplemente
yi = 0 + 1 xi = y.
202
Es decir, si
Y,
SSE =
i=1 n
(yi yi )
=
i=1
es decir,
(yi y ) = SSyy , Y.
Est claro que esta es la peor de las
SSE
es total, entonces
= 1,
en cuyo caso
1 =
y = y,
de manera que
SSE =
i=1
(yi yi ) = 0.
La idea de la medida que vamos a utilizar es cuanticar en qu medida estamos ms cerca o ms lejos de estas dos situaciones. Dado que situacin posible) a
SSy
(peor situacin posible), tan slo tenemos que relativizar en una escala cmoda una
Se dene el
r2
es la medida en que
contribuye a la prediccin de
en una escala de
0 a 1, donde el 0 indica que el error es el total de la variacin de los valores de el error 0. La medida suele darse en porcentaje. Dicho de otra forma:
y el 1 es la precisin total,
Aproximadamente 100 r2 % de la variacin total de los valores de pueden ser explicada mediante la recta de regresin de Y dada X . Ejemplo.
En el ejemplo de la soldadura,
respecto de su media
r2 = 0.79,
variacin total de los valores de la resistencia de la soldadura puede ser explicada mediante la recta de mnimos cuadrados dada la velocidad que genera el rozamiento. Es evidente que es un porcentaje importante, que proporcionar predicciones relativamente ables.
203
y x = 0 + 1 x
y, por otro lado,
E [Y /X=x ] = 0 + 1 x,
luego
yx
1. Como
cuando
X = x.
2. Como
para el valor
X = x,
es decir, de
E [Y /X=x ].
Ambas cantidades estn sujetas a incertidumbre, que ser tanto mayor cuanto ms variabilidad tenga
Y,
y/o
peor sea el ajuste mediante la recta de regresin. En este sentido, se dene el error estandar de la estimacin
X=x
como
yi 0 + 1 x n2
Cuanto mayor sea esta cantidad, peor son las predicciones de la recta de regresin. Lo que vamos a ver en esta seccin para concluir el tema es cmo establecer regiones de conanza para estas predicciones de los valores de
dados valores de
X . Estos
resultados requieren que se veriquen los supuestos adicionales sobre los errores dados en la seccin 10.3.
se encuentra
yx t1/2;n2 se
1 (x x) + , yx + t1/2;n2 se n SSxx
2 1 (x x) + , n SSxx
t1/2;n2 se
P E[Y /X=x ] yx
204
110
105
100
Resistencia
95
90
85
80
50
60
70
80
90
100
Velocidad
Figura 10.5: Recta de regresin con intervalos de conanza al 95 % para las predicciones (franjas ms exteriores) y para las estimaciones (franjas interiores).
se encuentra
yx t1/2;n2 se
1 (x x) 1+ + , yx + t1/2;n2 se n SSxx
2 1 (x x) 1+ + , n SSxx
t1/2;n2 se
P Y yx
Nota. No debemos olvidar que los modelos de regresin que podemos estimar lo son a partir de los datos
de una muestra de valores de
Y.
Ejemplo. En la Figura 10.5 aparece la recta de regresin para los datos del ejemplo sobre la soldadura
junto con lneas que contienen los intervalos de conanza al 95 % para las predicciones y las estimaciones asociadas a los distintos valores de
X. X.
Es decir,
Obsrvese que la amplitud de los intervalos se hace mayor en los valores ms extremos de
los errores en las estimaciones y en las predicciones son mayores en estos valores ms extremos. Esto debe ser un motivo a aadir al comentario anterior para no hacer estimaciones ni predicciones fuera del rango de valores de
en la muestra.
205
= yi yi
siguen una distribucin normal. Ni que decir tiene que comprobar esta hiptesis en trivial: bastar con calcular los residuos, ajustarles una distribucin normal y realizar un contraste de bondad de ajuste mediante, por ejemplo, el test de KolmogorovSmirno.
yi
de la muestra.
= yi yi .
Habitualmente, se le aade a esta grca la recta de regresin de la nube de puntos resultante. Vamos a ir viendo cmo debe ser esta grca en el caso de que se cumplan cada uno de los supuestos: 1. Si la media de los residuos es cero, la nube de puntos de la grca debe hacernos pensar en una recta de regresin horizontal situada en el cero, indicando que sea cual sea el valor es cero. 2. Si los errores son independientes, no debe observarse ningn patrn en la grca, es decir, ningn efecto en ella que haga pensar en algn tipo de relacin entre
yi ,
yi
i.
homocedasticidad), la dispersin
vertical de los puntos de la grca no debe variar segn vare el eje X. En caso contrario, se habla de
heterocedasticidad.
Una ltima observacin: si se dan todas las condiciones que acabamos de mencionar sobre la grca de residuos frente a valores ajustados, entonces es probable, pero no se tiene la seguridad, de que los supuestos del modelo sean ciertos.
206
Residuals vs Fitted
24
Residuals
29
15
85
90
100
105
Ejemplo. Por ltima vez vamos a considerar el ejemplo de la soldadura. En la Figura 10.6 aparece el
grco de residuos vs valores ajustados y podemos ver que a primer vista parece que se dan las condiciones requeridas:
Y = 0,
2. No se observan patrones en los residuos. 3. No se observa mayor variabilidad en algunas partes del grco.
10.9. Resolucin del ejemplo del consumo elctrico en relacin con la temperatura
Aqu plantebamos una situacin donde un ingeniero que trabaja en una distribuidora elctrica quiere utilizar el hecho evidente de que en invierno las bajas temperaturas hacen aumentar el consumo elctrico para tratar de predecir el consumo en su localidad a partir de las temperaturas mnimas que se pronostican para el da siguiente. Los datos que tiene son una muestra la temperatura pronosticada y el consumo real: T mnima pronosticada Consumo (megawatios) -1 12 0 12 2 11 5 9 -2 14 2 10 1 11 0 12 3 10 4 9
Lo que se plantea es cul ser el consumo para un da cuya temperatura mnima pronosticada es de -1.5 grados.
207
No es estrictamente necesario, pero podemos empezar diciendo que la relacin entre ambas variables es altamente signicativa: de
H0 : = 0
frente a
H1 : = 0
1.08 10
Lo que realmente se nos plantea es el valor de una prediccin, concretamente para un valor de la temperatura de -1.5, que nosotros vamos a complementar con un intervalo de prediccin al 95 %. En primer lugar, la recta de regresin es
de prediccin nos permite armar que el consumo estar entre 11.7419 y 14.1771 con una probabilidad del 95 %.
208
Parte IV
Procesos aleatorios
209
Captulo 11
Procesos aleatorios
The best material model of a cat is another, or preferably the same, cat. Norbert Wiener, Philosophy of Science (1945) (with A. Rosenblueth)
Resumen.
Los procesos aleatorios suponen el ltimo paso en la utilizacin de modelos matemticos para
describir fenmenos reales no determinsticos: concretamente, se trata de fenmenos aleatorios que dependen del tiempo. Se describen principalmente en trminos de sus medias y sus covarianzas. En este captulo se incluyen adems algunos de los ejemplos ms comunes de tipos de procesos y su comportamiento cuando se transmiten a travs de sistemas lineales invariantes en el tiempo.
Palabras clave.
potencia.
za, procesos estacionarios, procesos gaussianos, proceso de Poisson, sistemas lineales, densidad espectral de
11.1. Introduccin
En muchos experimentos de tipo aleatorio el resultado es una funcin del tiempo (o del espacio). Por ejemplo,
en sistemas de reconocimiento de voz las decisiones se toman sobre la base de una onda que reproduce las caractersticas de la voz del interlocutor, pero la forma en que el mismo interlocutor dice una misma palabra sufre ligeras variaciones cada vez que lo hace; en un sistema de cola, por ejemplo, en un servidor de telecomunicaciones, el nmero de clientes en el sistema a la espera de ser atendidos evoluciona con el tiempo y est sujeto a condiciones tales que su comportamiento es impredecible ; en un sistema de comunicacin tpico, la seal de entrada es una onda que evoluciona con el tiempo y que se introduce en un canal donde es contaminada por un ruido aleatorio, de tal manera que es imposible separar cul es el mensaje original con absoluta certeza. ... 211
Desde un punto de vista matemtico, todos estos ejemplos tienen en comn que el fenmeno puede ser visto como unas funciones que dependen del tiempo, pero que son desconocidas a priori, porque dependen del
azar. En este contexto vamos a denir el concepto de proceso aleatorio. Nuestro objetivo, como en captulos
anteriores dedicados a variables y vectores aleatorios, es describir desde un punto de vista estadstico el fenmeno, proporcionando medidas de posicin, medidas sobre la variabilidad, etc.
11.1.1. Denicin
Consideremos un experimento aleatorio sobre un espacio muestral posible,
A,
tenemos una observacin del fenmeno dada por una funcin real de variable real, Habitualmente,
x (t, A),
con
t I R.
Para cada
vamos a denominar a
x (t, A)
t0 I , X (t, )
{X (t, A) : t I, A }
lo denominamos
Si recordamos las deniciones de variable aleatoria y vector aleatorio, podemos ver en qu sentido estn relacionados los conceptos de variable, vector y proceso aleatorio. Concretamente, si una variable aleatoria es una funcin
X:R
que a cada suceso posible le asigna funcin
un vector real.
X : {funciones
que a cada suceso posible le asigna
De cara a escribir de ahora en adelante un p.a., lo notaremos normalmente, por ejemplo, como
as la variable que hace referencia al elemento del espacio muestral al que va asociada la funcin muestral. Este convenio es el mismo que nos lleva a escribir
212
y un p.a. denido en l,
{X (t, A) : t I, A } ,
se dice que el proceso es un
es un conjunto numerable. o
Xn
X [n] rerindonos
a la notacin ms general
X (n).
aunque tambin puede ser un subconjunto de stos. En algunos libros los procesos en tiempo discreto tambin son denominados
secuencias aleatorias.
y un p.a. denido en l,
{X (t, A) : t I, A } ,
se dice que el proceso es un
es un intervalo.
Si nos damos cuenta, esta primera clasicacin de los p.a. la hemos hecho en funcin del carcter discreto o continuo del tiempo, es decir, del conjunto
I.
variables aleatorias del proceso, discretas o continuas. Sin embargo, ambos tipos de procesos, con variables discretas o con variables continuas, pueden estudiarse casi siempre de forma conjunta. Por ello slo distin-
213
guiremos p.a. con variables discretas y p.a. con variables continuas si es necesario. En este sentido, cuando nos reramos a la funcin masa (si el p.a. es de variables discretas) o a la funcin de densidad (si el p.a. es de variables continuas), hablaremos en general de funcin de densidad.
Ejemplo.
X (t, )
Sea
(1, 1).
como
(1, 1)
(Figura 11.2).
Ejemplo.
X (t, )
Sea
(, ).
como
cos (2t)
(Figura 11.3).
214
X (t)
es un p.a., es necesario
X (t).
Se dene la
para cada
t I.
Ntese que, como su nombre indica, se trata de una funcin determinstica. No tiene ninguna componente aleatoria. Ntese tambin que aunque se est escribiendo el smbolo integral, podramos estar rerindonos a una variable discreta, en cuyo caso se tratara de una suma.
Se dene la
funcin de autocovarianza
o simplemente la
CX (t, s) = Cov [X (t) , X (s)] = E [(X (t) mX (t)) (X (s) mX (s))] = (x1 x (t)) (x2 x (s)) fX(t),X(s) (x1 , x2 ) dx2 dx1
215
Se dene la
funcin de autocorrelacin
o simplemente la
Ntese, de cara al clculo, que la diferencia entre ambas funciones tan slo es el producto de las medias .
centrado en media,
V ar (X (t)) = CX (t, t) .
La interpretacin de la funcin de autocovarianza
CX (t, s)
X (t)
X (s),
que distan
= st
unidades de
tiempo. De hecho, ya sabemos que podramos analizar esta relacin mediante el coeciente de correlacin lineal
X (t, s) =
Aparentemente es esperable que tanto ms rpidamente cambie el proceso, ms decrezca la autocorrelacin conforme aumenta
En el campo de la teora de la seal aletatoria, a partir de la funcin de autocorrelacin se puede distinguir una seal cuyos valores cambian muy rpidamente frente a una seal con variaciones ms suaves. En el primer caso, la funcin de autocorrelacin y de autocovarianza en instantes
t+
mientras que en el segundo, ese descenso ser mucho ms rpido. En otras palabras, cuando la autocorrelacin (o la autocovarianza) es alta, entre dos instantes cercanos del proceso tendremos valorer similares, pero cuando es baja, podremos tener fuertes diferencias entre valores cercanos en el tiempo. La gran importancia de estas funciones asociadas a un proceso, media y autocovarianza (o autocorrelacin), es por tanto que aportan toda la informacin acerca de la relacin lineal que existe entre dos v.a. cualesquiera del proceso. Como hemos dicho, en la prctica, resulta extremadamente complicado conocer completamente la distribucin de un proceso y, cuando esto ocurre, no siempre es sencillo utilizar las tcnicas del clculo de probabilidades para el tratamiento de estos procesos. Sin embargo, tan slo con la informacin dada por la funcin media y la funcin de autocorrelacin pueden ofrecerse resultados muy relevantes acerca de los procesos, tal y como hemos visto en el caso de variables y vectores aleatorios.
Ejemplo. La seal recibida por un receptor AM de radio es una seal sinusoidal con fase aleatoria, dada
por
donde
fc
son constantes y
(, ) .
1 Esta
frmula es la misma que cuando veamos la covarianza entre dos variables, calculable como la media del producto menos
216
En ese caso,
E [X (t)] =
A cos (2fc t + )
A (sin (2fc t) cos () + cos (2fc t) sin () sin (2fc t) cos () cos (2fc t) sin ()) 2 A = [0 + 0] = 0. 2
RX (t, t + ) = E [X (t + ) X (t)] = E A2 cos (2fc t + 2fc + ) cos (2fc t + ) = A2 A2 E [cos (4fc t + 2fc + 2)] + E [cos (2fc )] 2 2
A2 = 2
A2 cos (2fc ) . 2
X (t).
Si para cada
instantes de tiempo,
t1 , ..., tn ,
independientes, es decir,
independiente.
La interpretacin de este tipo de procesos es la de aquellos en donde el valor de la v.a. que es el proceso en un momento dado no tiene nada que ver con el valor del proceso en cualquier otro instante. Desde un punto de vista fsico estos procesos son muy caticos y se asocian en la prctica a ruidos que no guardan en un momento dado ninguna relacin consigo mismos en momentos adyacentes.
217
10
Figura 11.4: Funcin muestral de un proceso independiente formado por v.a gaussianas de media cero y varianza uno.
X (t).
X (s) = xs
para todo
s t.
t, t + ,
X (t + ) | {X (s) = xs
Esto, en general, es bastante complejo.
para todo
s t} .
Adems, tiene sentido pensar que la evolucin del proceso en el instante la historia del proceso, desde el instante inicial
t+
s=0
s = t?
Parece
lgico pensar que la evolucin del proceso tenga en cuenta la historia ms reciente de ste, pero no toda la historia. Esta hipotesis se ve avalada por los perles ms habituales de las funciones de autocorrelacin, donde observamos que la relacin entre variables del proceso suele decrecer en la mayora de las ocasiones conforme aumenta la distancia en el tiempo entre las mismas. Los procesos de Markov son un caso donde esto ocurre. Se trata de procesos que evolucionan de manera que en cada instante olvidan todo su pasado y slo tienen en cuenta para su evolucin futura el instante ms
218
Un proceso
X (t)
se dice
markoviano o de Markov
si para cualesquiera
instantes
fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .
Esta denicin se suele enunciar coloquialmente diciendo que un proceso de Markov es aquel cuyo futuro no
X (t)
es un proceso
dbilmente estacionario si
t
y
mX (t) C (t, s)
es independiente de (o
R (t, s))
s t,
C (s t)
R (s t)).
Es importante destacar que la primera de las condiciones es irrelevante, ya que siempre se puede centrar en media un proceso para que sta sea cero, constante. Es decir, en la prctica es indiferente estudiar un proceso
X (t)
X (t)
La propiedad ms exigente y realmente importante es la segunda. Viene a decir que la relacin entre variables aleatorias del proceso slo depende de la distancia en el tiempo que las separa.
Nota.
Vamos a hacer una puntualizacin muy importante respecto a la notacin que emplearemos en
adelante. Acabamos de ver que si un proceso es dbilmente estacionario, sus funciones de autocovarianza y de autocorrelacin,
C (s, t)
R (s, t)
no dependen en realidad de
y de
t,
t s.
Por
C (t, s) C (s t) R (t, s) = R (s t) .
Por lo tanto, qu queremos decir si escribimos directamente mente estacionario y que hablamos de
C ( )
R ( )?
C ( ) = C (t, t + ) R ( ) = R (t, t + ) .
Una medida importante asociada a un proceso dbilmente estacionario es la da como la media del cuadrado de ste en cada instante observaremos con detenimiento esta medida.
potencia promedio,
2
deni-
t,
es decir
RX (0) = E |X (t)|
Ms adelante
219
Por otra parte, la peculiaridad que dene a los procesos dbilmente estacionarios le conere a su funcin de autocorrelacin y autocovarianza dos propiedades interesantes: sea Entonces, si notamos
X (t)
RX ( ) = E [X (t) X (t + )]
para todo
t,
CX ( )
su funcin de autocovarianza:
RX ( ) = RX ( )
CX ( ) = CX ( ).
2.
|RX ( )| RX (0)
|CX ( )| CX (0) = 2
para todo
Ejemplo. En el ejemplo del oscilador vimos que la seal recibida por un receptor AM de radio es una
seal sinusoidal con fase aleatoria, dada por
donde
fc
son constantes y
(, )
E [X (t)] = 0
y por funcin de autocorrelacin
RX (t, t + ) =
A2 cos (2fc ) . 2
m n.
Ejemplo.
Xn ,
. Vamos a considerar tambin otro proceso que en cada instante de en ese instante y el anterior, es decir,
Yn =
En primer lugar, dado que
Xn + Xn1 . 2 n,
lo mismo ocurre con
E [Xn ] = 0
para todo
Yn ,
es decir,
E [Yn ] = E
Xn + Xn1 = 0. 2
220
1 E [(Xn + Xn1 ) (Xn+m + Xn+m1 )] 4 1 = (E [Xn Xn+m ] + E [Xn Xn+m1 ] + E [Xn1 Xn+m ] + E [Xn1 Xn+m1 ]) 4
Ahora debemos tener en cuenta que
CX (n, m) = RX (n, m) =
0 2
si si
n=m n=m
ya que
Xn
si si si
m=0 m=1 m = 1
en otro caso
Yn
CY (n, n + m)
no depende de
m.
E [X (t)] = mX (t) = mX =
xfX(t) (x) dx
unidades de tiempo,
RX ( ) = E [X (t) X (t + )] =
Hasta ahora quiz no lo habamos pensado, pero ms all de los tpicos ejemplos, cmo podramos tratar de calcular o estimar al menos estas cantidades? Si aplicamos lo que hemos aprendido hasta ahora, estimaramos, por ejemplo, la media con la media muestral, pero para ello necesitaramos una muestra muy grande de
221
funciones muestrales del proceso, y eso no siempre ocurre. De hecho, no es nada rara la situacin en la que, en realidad, slo es posible observar una nica funcin muestral del proceso. Ahora bien, dada una nica funcin muestral de un proceso, como instantes de tiempo datos que hay en seal
x (t),
t hayamos sido capaces de observar. No podra ocurrir que utilizramos todos esos
estimar las medias y las autocorrelaciones? Por ejemplo, si tenemos observada la
x (t)para
x (t)
en un montn de valores
t1 , ...tn ,
mX ?
De hecho, si
[T, T ],
tendramos que
1 2T
x (t) dt.
T
En el caso de la autocorrelacin pasara igual, tendramos que podramos observar un montn de pares de valores de la seal en los instantes estimar
t1 , ..., tn
t1 + , ..., tn +
en el intervalo
[T, T ]
1 2T
x (t) x (t + ) dt
T
Lo que no sabemos, en general, es si esa integral tiene algo que ver con
rados a lo largo de las realizaciones (integrales o promedios estadsticos ) pueden obtenerse tambin a partir de una sola funcin muestral
x (t).
limT
y
1 2T
x (t) dt = mX
T
1 limT 2T
x (t) x (t + ) dt = RX ( ) .
T
X (t), y el ruido del canal, N (t), es decir, dada Y (t) = X (t)+N (t), X (t).
En este apartado nos referimos brevemente a un modelo gastante comn para los fenmenos de ruido, llamado ruido blanco.
222
Un
ruido blanco es un proceso N (t) centrado, dbilmente estacionario e incorrelado con varianza
N0
2
N0 2 . Por
CN (t, t + ) =
si
=0
en otro caso
(t) =
1 0
si
t=0
en otro caso
CN ( ) =
N0 ( ) . 2
La justicacin de que este sea un modelo habitual para los ruidos, considerando que los valores del ruido estn incorrelados unos con otros, es que suelen ser debidos a fenmenos completamente aleatorios y caticos, por lo que no es esperable que exista relacin entre valores del ruido, ni siquiera cuando stos son muy cercanos en el tiempo.
Un p.a.
X (t)
se dice
x = (x1 , ..., xn ) , = (E [X (t1 )] , ..., E [X (tn )]) , C = (Ci,j )i,j=1,..,n , Cij = Cov [X (ti ) , X (tj )] .
Ntese que un proceso gaussiano est completamente descrito una vez que se conocen su funcin media y su autocovarianza o su autocorrelacin.
223
Existen dos razones fundamentales por las que, como hemos comentado, los procesos gaussianos son la familia de procesos ms relevante:
Por una parte, las propiedades analticas que verican los hacen fcilmente manejables, como veremos a continuacin. Por otra parte, estos procesos han demostrado ser un excelente modelo matemtico para gran nmero de experimentos o fenmenos reales (resultado amparado en el Teorema Central del Lmite).
Ejemplo. Es muy habitual considerar que los ruidos blancos son gaussianos. En ese caso, si consideramos
ruidos blancos gaussianos, sus variables no slo son incorreladas, sino que tambin son independientes.
Ejemplo.
X (t)
E [X (t)] = 4
y autocorrelacin
RX ( ) = 25e
3| |
+ 16.
el paso del tiempo. Si deseamos caracterizar la distribucin de probabilidad de tres v.a. del proceso, observadas en los instantes
t0 , t1 = t0 +
1 2 y
t2 = t1 +
1 2
= t0 + 1,
3| |
.
E [X (ti )] = 4
y la matriz de
CX ( ) = 25e
25 25e6/2
25e3/2 25 25e3/2
25e6/2
25e3/2 . 25
C (ti , tj ) = 0
para todo
i = j.
X (t)
CX (t1 , t3 ) =
para cualesquiera Un proceso
t1 < t2 < t3 .
gaussiano, centrado, con incrementos independientes y estacionarios es de Markov.
X (t)
224
N (t) =
n=1
donde
u (t T [n]) , nsima
T [n]
el proceso y
u (t t0 ) =
es la funcin umbral.
0 1
si si
t < t0 t t0
El
n=1
u (t T [n]) ,
T [n]
es una suma de
Erlang de parmetros
fT [n] (t) =
Alternativamente, puede decirse que
n1
llegadas,
Ejemplo.
= 1.
Vamos a interpretar la funcin muestral de la izquierda pensando, por ejemplo, que representa
el nmero de visitas a una pgina WEB: se observa que poco depus de los tres minutos se han dado 3 visitas; despus pasan casi 5 minutos sin ninguna visita; a continuacin se producen un buen nmero de visitas en poco tiempo; ... Si observamos tan slo el eje del tiempo, podramos sealar los instantes en que se producen las llegadas. Sabemos que esos incrementos en el tiempo desde que se produce una llegada hasta la siguiente siguen una distribucin exponencial, en este caso de parmetro 1.
Sea
N (t)
se tiene que
N (t) P (t).
es
N (t) = t.
225
y para cualesquiera t1
(t2 t1 ).
Sea
N (t)
Entonces
CN (t1 , t2 ) = m (t1 , t2 ) . n
Sea
N (t)
fN (t1 ),...,N (tk ) (n1 , ..., nk ) n n n 1 n1 2 2 2 n1 k k1 1 e e ... ek (n2 nk1 )! n1 ! (n2 n1 )! k = 0 en otro caso
donde
si
n1 ... nk
i = (ti ti1 ) .
Sean
N1 (t)
1 , N2 (t)
2 ,
ambos indepen-
dientes. Entonces,
Sea
N (t)
proceso, slo consideramos una parte de ellos; concretamente los que presentan una caracterstica que tiene probabilidad
Np (t)
226
los eventos con la caracterstica dada, dicho proceso es de Poisson de parmetro se conoce como propiedad de descomposicin.
p.
Esta propiedad
El tiempo
t0
indepen-
t0 .
propiedad de no memoria del proceso de Poisson. Obsrvese que, en realidad, esta propiedad de no
memoria lo es de la distribucin exponencial.
Ejemplo.
Es frecuente considerar que el proceso que cuenta el nmero de partculas emitidas por un
material radiactivo es un proceso de Poisson. Vamos a suponer por tanto, que estamos observando el comportamiento de un determinado material del que se conoce que emite a razn de segundo. Supongamos que se observa el proceso que cuenta el nmero de partculas emitidas desde un instante
partculas por
hasta el instante
t + T0 .
N0
partculas, debera
sonar una seal de alarma. En ese caso, la probabilidad de que la alarma suene es
P [N (t + T0 ) N (t) > N0 ] =
k=N0 +1
ya que
eT0
(T0 ) =1 k!
N0
eT0
k=0
(T0 ) , k!
N (t + T0 ) N (t) P (T0 ).
Ejemplo.
El nmero de visitas a la pgina WEB de una empresa que desea vender sus productos a
travs de INTERNET es adecuadamente descrito mediante un proceso de Poisson. Sabiendo que durante una hora se reciben un promedio de 5 visitas,
227
P [N (0.5) = 0] = e50.5
apenas un 8 % de probabilidad.
E [N (5)] = 5 5 = 25 visitas.
3. La empresa absorbe otra empresa del sector y opta por establecer un enlace directamente desde la pgina de su lial a la propia, garantizndose que todos los clientes de la lial visitan su pgina. Si el promedio de clientes que visitaban la pgina de la lial era de 2 clientes a la hora, cul es la probabilidad de que tras la fusin no se reciba ninguna visita en 10 minutos? Al hacerse con los clientes de la otra empresa (notemos por sus visitas, de parmetro
= 2 visitas/hora), lo que ha ocurrido es que ahora el nmero de visitas T (t) = N (t) + M (t) .
Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas fueran independientes, se tiene que
T (t),
= 5 + 2 = 7 visitas/hora. =0 =e
7 1 6 1 7 6 0! 0
Por tanto,
P T
una probabilidad del 31 %.
1 6
= 0.3114,
228
Bibliografa
G.
C.
(1988).
Probabilidad
Estadstica.
Aplicaciones
Mtodos.
[DeVore, J. L. (2004)] DeVore, J. L. (2004). Probabilidad y estadstica para ingeniera y ciencias (6 edicin). Thomson. [Johnson, R. A. (1997)] Johnson, R. A. (1997). Probabilidad y estadstica para Ingenieros (5 edicin). Prentice Hall. [Leon-Garcia, A.] Leon-Garcia, A. (1994). Probability and Random Processes for Electrical Engineering (2nd edition). Addison-Wesley. [Lipschutz, S. & Schiller, J. (2000)] Lipschutz, S. & Schiller, J. (2000). Introduccin a la Probabilidad y la Estadstica. McGraw-Hill. [Mendenhal, W & Sincich, T. (1997)] Mendenhal, W & Sincich, T. (1997). Probabilidad y Estadstica para Ingeniera y Ciencias (4 edicin). Prentice Hall. [Montgomery, D. C. & Runger, G. C. (2002)] Montgomery, D. C. & Runger, G. C. (2002). Probabilidad y estadstica aplicadas a la Ingeniera (2 edicin). Wiley. [Navidi, W. (2006)] Navidi, W. (2006). Estadstica para ingenieros y cientcos. McGraw-Hill. [Ross, S. M. (2005)] Ross, S. M. (2005). Introduccin a la Estadstica. Editorial Revert. [Spiegel et al. (2010)] Spiegel, M. R., Schiller, J. y Srinivasan, R. A. (2010). Probabilidad y estadstica (3 edicin), serie Schaum. McGraw-Hill. [Walpole, R. E et al (1998)] Walpole, R. E., Myers, R. H. & Myers, S. L. (1998). Probabilidad y Estadstica para Ingenieros (6 edicin). Prentice Hall.
229
ndice alfabtico
ANOVA, 172174
Distribucin normal multivariante, 122, 223 Distribucin t de Student, 132, 162, 165167, 198,
199, 204, 205 Distribucin uniforme, 84 Distribuciones condicionadas, 106 Error tipo I, 155157, 162, 175 Error tipo II, 156, 162 Espacio muestral, 4345, 48, 50, 52, 54, 63, 64, 139 Estadstico de contraste, 154157, 159, 161, 163, 165, 167, 170172, 174, 177, 185, 188, 189, 202 Estimador puntual, 136, 179, 180 Funcin de autocorrelacin, 216, 219 Funcin de autocovarianza, 215, 219 Funcin de densidad, 7780, 8386, 88, 90, 93, 94, 129, 131, 138, 139, 141
Coeciente de asimetra, 31 Coeciente de correlacin lineal, 114, 199203, 216 Coeciente de variacin, 30, 36 Contraste de hiptesis, 136, 153156 Contraste para el cociente de varianzas, 171 Contraste para la diferencia de medias, 163, 164, 166 Contraste para la diferencia de proporciones, 170 Contraste para la media, 160, 162 Contraste para la varianza, 171 Contraste para proporcin, 168 Covarianza, 114 Cuantil, 27, 94, 95
Datos cualitativos, 20 Datos cuantitativos, 21, 22, 25, 32 Desviacin tpica o estandar, 2931, 36, 66, 82, 90, 130, 131, 147, 161 Diagrama de barras, 22, 23, 25, 31 Diagrama de cajas y bigotes, 34, 37 Diagrama de sectores, 20, 21 Diagramas de barras, 2024 Distribucin binomial, 67, 68, 71, 89, 93, 140 Distribucin binomial negativa, 73, 74, 141 Distribucin Distribucin 189 Distribucin de Poisson, 70, 85, 89, 226 Distribucin exponencial, 8486, 147, 185, 225, 227 Distribucin F de Snedecor, 132, 133, 174 Distribucin Gamma, 86, 87, 131, 140, 183, 225 Distribucin geomtrica, 72, 73, 141, 182 Distribucin marginal, 103 Distribucin normal, 88
Funcin de densidad conjunta, 101 Funcin de distribucin, 7880, 85, 90, 95, 184, 185 Funcin masa conjunta, 101 Funcin masa de probabilidad, 64, 65, 70, 72, 73, 76, 83, 94, 129, 141 Funcin media, 215 Funcin muestral, 212 Histograma, 2225, 28, 30, 31, 33, 35, 36, 7577, 79, 92, 93, 138, 139 Incorrelacin, 114 Independencia de sucesos, 4850, 52, 70, 185 Independencia estadstica, 217, 218 Insesgadez, 136139, 149 Intervalos de conanza, 136, 145150, 204 Mtodo de los momentos, 140144, 179, 182, 185 Mtodo de mxima verosimilitud, 141144, 149, 179, 185, 194 Matriz de correlaciones, 121 230
2 ,
2
131
Matriz de varianzas-covarianzas, 120 Media, 25, 66, 137, 160 Media muestral, 25, 26, 2832, 66, 83, 89, 130, 131, 137, 145148, 154, 160, 173, 221 Media poblacional, 32, 65, 66, 80, 82, 83, 92, 93, 131, 137, 145149, 154, 160, 196, 203, 206 Mediana, 26, 28, 31, 34 Moda, 26, 31
Variable aleatoria, 63, 64, 67, 89, 129131, 140, 141, 144, 154, 193 Variable aleatoria continua, 75, 78, 80 Variable aleatoria discreta, 6466 Varianza muestral, 28, 29, 66, 83, 131, 137, 138, 146, 160, 166, 171, 173 Varianza poblacional, 65, 66, 80, 82, 83, 131, 136138, 140, 145149, 160, 171, 174, 197, 206, 216 Vector aleatorio, 100 Vector de medias, 120
muestra, 15
Muestra aleatoria simple, 20, 29, 32, 35, 36, 65, 67, 76, 187, 200, 201
Nivel de conanza, 145, 146, 150, 151, 155158, 161, 162, 164, 165, 175, 181, 182, 184, 188, 198, 204
Ortogonalidad, 114
p-valor, 157, 158, 160, 162165, 167, 170172, 175 177, 180185, 187, 189, 198 Percentil, 27, 33, 34, 36, 9496 Probabilidad, 41, 42, 45, 47, 48 Probabilidad condicionada, 4850 Proceso aleatorio, 212 Proceso aleatorio en tiempo continuo, 213 Proceso aleatorio en tiempo discreto, 213 Proceso dbilmente estacionario, 219 Proceso de Markov, 219, 224 Proceso de Poisson, 225 Proceso ergdico, 222 Proceso gaussiano, 223 Procesos independientes, 217
Tabla de frecuencias, 21 Teorema de Bayes, 5355 Teorema de la probabilidad total, 5355 Test Test
chi2 chi
2
Valores
z,
33, 92
231