Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica General
Estadistica General
para Ingenieros
Versin 1.3, junio de 2012
Apuntes de
Estadstica para Ingenieros
Prof. Dr. Antonio Jos Sez Castillo
Departamento de Estadstica e Investigacin Operativa
Universidad de Jan
Versin 1.3
Junio de 2012
ndice general
1. Introduccin
11
11
12
12
12
14
14
14
15
15
15
15
I Estadstica descriptiva
17
19
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
19
20
21
. . . . . . . . . . . . . . . . . . . . . .
25
25
2.5.1.1. Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.5.1.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
26
2.5.2. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
28
28
29
30
31
32
33
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
33
34
II Clculo de Probabilidades
37
3. Probabilidad
39
3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
40
40
40
41
43
45
45
46
46
51
55
56
57
61
4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
62
4.2.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
62
63
63
64
65
68
70
71
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.4.1. Denicin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
4.4.2. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
75
76
77
78
82
82
82
84
86
92
93
94
97
5.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
99
99
125
6. Distribuciones en el muestreo
127
133
149
173
185
. . . . . . . . . . . . . . . 192
IV Procesos aleatorios
209
11.Procesos aleatorios
211
Prlogo
El objeto fundamental de la edicin de este documento es facilitar a los alumnos de ingeniera de la Escuela
Politcnica Superior de Linares el desarrollo de los contenidos tericos de la asignatura Estadstica. Desde un
punto de vista menos local, espero que sea til, en alguna medida, a todo aquel que necesite conocimientos
bsicos de las tcnicas estadsticas ms usuales en el ambiente cientco-tecnolgico.
A todos ellos, alumnos y lectores en general, quiero facilitarles el privilegio de aprender de quienes yo he
aprendido, sugirindoles cuatro manuales que para m han sido referencias fundamentales. Se trata, en primer
lugar, del magnco libro de Sheldon M. Ross,
Introduccin a la Estadstica.
En l puede encontrarse la
mayor parte de lo que vamos a estudiar aqu, explicado de forma sencilla y clara, pero tambin comentarios
histricos, reseas bibliogrcas sobre matemticos y estadsticos relevantes y ejemplos muy apropiados.
En segundo lugar, recomiendo los trabajos de William Navidi,
Jay Devore,
de sus ejemplos y por cmo enfatizan el carcter aplicado, prctico, de la Estadstica en el mbito de la
Ciencia y la Tecnologa. Finalmente, debo mencionar tambin el libro de Mendenhal & Sincich,
y Estadstica para Ingeniera y Ciencias,
Probabilidad
propuestos magncos.
En el actual contexto del Espacio Europeo de Educacin Superior, la asignatura Estadstica tiene, en la mayor
parte de los grados en ingeniera, un carcter bsico y una dotacin de 6 crditos ECTS. As ocurre, por
ejemplo, en las ramas de industriales o telecomunicaciones que se imparten en la Universidad de Jan. Otras
ramas, como la de ingeniera civil/minera, han optado por incluirla como asignatura obligatoria, compartida
con una asignatura de ampliacin de matemticas en la que se proponen 3 crditos ECTS de estadstica. Con
todo, creo que estos apuntes pueden adaptarse a esos distintos contextos, aclarando qu temas pueden ser
ms adecuados para cada titulacin. En concreto:
1. Para las distintas especialidades de la rama de industriales seran oportunos los captulos 1, 2, 3, 4, 6,
7, 8, 9 y 10. El captulo 9, sobre contrastes no paramtricos puede darse a modo de seminario, si el
desarrollo de la docencia as lo sugiere. Sin embargo, el captulo 10, sobre regresin lineal simple, me
parece imprescindible en la formacin de un futuro ingeniero industrial.
2. En los grados de la rama de telecomunicaciones, creo que son necesarios los captulos 1, 2, 3, 4, 5, 6,
7, 8 y 11. Resulta as el temario quiz ms exigente, debido a la necesidad de introducir un captulo
sobre vectores aleatorios previo a otro sobre procesos estocsticos. Queda a iniciativa del docente la
posibilidad de recortar algunos aspectos en los temas tratados en aras a hacer ms ligera la carga
docente.
3. Finalmente, en los grados de la rama civil y minera, donde la dotacin de crditos es menor, creo que
9
son adecuados los captulos 1, 2, 3, 4, 6, 7, 8 y 10, si bien eliminando algunos de sus apartados, cuestin
sta que dejo, de nuevo, a juicio del docente. Tambin sugiero que se trabajen los problemas sobre estos
captulos directamente en el contexto de unas prcticas con ordenador.
Slo me queda pedir disculpas de antemano por las erratas que, probablemente, contienen estas pginas. Os
ruego que me las hagis llegar para corregirlas en posteriores ediciones.
Linares, junio de 2012.
10
Captulo 1
Introduccin
Llegar un da en el que el razonamiento estadstico ser tan necesario para el ciudadano como
ahora lo es la habilidad de leer y escribir
H.G. Wells (1866-1946)
Resumen. El captulo incluye una introduccin del trmino Estadstica y presenta los conceptos ms bsicos
relativos a poblaciones y muestras.
Palabras clave: estadstica, poblacin, poblacin tangible, poblacin conceptual, variable, muestra, muestra
aleatoria simple.
Estadstica
palabra1 :
Estudio de los datos cuantitativos de la poblacin, de los recursos naturales e industriales, del trco o
de cualquier otra manifestacin de las sociedades humanas.
2.
3.
Rama de la matemtica que utiliza grandes conjuntos de datos numricos para obtener inferencias
basadas en el clculo de probabilidades.
Probablemente el ms comn de los signicados conocidos de la palabra sea el segundo, y por ello solemos
ver en los medios de comunicacin que cualquier recopilacin de cifras referentes a algn asunto es llamado
(de forma muy reduccionista)
estadstica
Estadstica
estadsticas.
acepcin del DRAE. Concretamente, el primero de los signicados se corresponde con lo que vamos a estudiar
como
Estadstica Descriptiva,
Inferencia Estadstica,
11
es utilizar datos de un conjunto reducido de casos para inferir caractersticas de stos al conjunto de todos
ellos.
un proceso para el crecimiento de una capa delgada de dixido de silicio sobre placas de silicio que se usan en
la fabricacin de semiconductores. En l aparecen datos relativos a las mediciones del espesor, en angstroms
(A), de la capa de xido para pruebas realizadas en 24 placas: en concreto, se realizaron 9 mediciones en cada
una de las 24 placas. Las placas se fabricaron en dos series distintas, 12 placas en cada serie. Estas placas
eran de distintos tipos y se procesaron en distintas posiciones en el horno, ya que entre otros aspectos, el
propsito de la recopilacin de los datos era determinar si el espesor de la capa de xido estaba afectado por
el tipo de placa y por la posicin en el horno. Por el contrario, el experimento se dise de tal manera que
no se esperaba ninguna diferencia sistemtica entre las dos series. Los datos se muestran en la Tabla 1.1.
Lo primero que salta a la vista al mirar esos datos es que es muy complicado hacerse una idea global de los
resultados. Parecen estar en torno a 90 A, pero con variaciones importantes respecto de ese valor. Algunas de
esas variaciones son especialmente llamativas (77.5, 106.7, ...): qu pas en esas placas? En suma, es evidente
que se hace necesaria una manera sistemtica de analizar los datos, tratando de describirlos de forma precisa
y objetiva, respondiendo a las preguntas que subyacen en el diseo del experimento: son las dos series de
experimentos homogneas? afecta el tipo de placa? afecta la posicin en el horno? ...
ahorradora de energa.
Duracin 8 aos .
Debo reconocer de que tengo mis dudas. Para empezar, es que a los 8 aos, de repente, la lmpara se
rompe? Por otra parte, creo que todos nosotros hemos experimentado el hecho de que stas lmparas que
supuestamente tienen una duracin mayor que las tradicionales lmparas incandescentes (segn el envoltorio,
8 veces mayor), sin embargo, se rompen con facilidad. Luego, qu quiere decir exactamente el envoltorio al
armar que su duracin es de 8 aos?
12
Serie
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
Placa
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
12
90.00
91.80
90.30
92.60
91.10
76.10
92.40
91.30
96.70
92.00
94.10
91.70
93.00
91.40
91.90
90.60
93.10
90.80
88.00
88.30
94.20
101.50
92.80
92.10
92.20
94.50
91.10
90.30
89.80
90.20
91.70
90.10
93.70
94.60
91.50
97.40
89.90
90.60
91.80
91.30
91.80
91.50
91.80
96.00
92.20
103.10
90.80
93.40
94.90
93.90
93.30
92.80
91.50
96.80
91.60
95.40
93.90
93.70
95.30
95.10
93.60
92.20
92.80
94.90
94.60
91.50
90.50
92.80
95.80
103.20
92.20
94.00
92.70
77.30
93.50
91.60
91.50
84.60
91.10
89.60
87.90
94.00
92.80
96.70
89.00
91.90
96.40
88.30
88.90
91.50
90.40
93.70
92.50
103.50
91.70
94.70
A
91.6
92.0
87.2
92.7
90.6
93.3
88.0
90.7
90.4
89.3
93.4
77.5
93.6
92.4
93.8
87.9
90.0
94.0
90.3
89.6
91.0
96.1
89.0
90.8
88.20
89.90
88.10
91.70
93.10
95.70
92.40
95.80
92.00
90.10
92.20
91.40
90.90
87.60
86.50
92.20
97.90
91.00
91.50
89.60
91.40
102.50
88.50
92.10
92.00
87.90
90.10
89.30
88.90
90.90
88.70
91.70
90.50
91.30
89.40
90.50
89.80
88.90
92.70
90.70
92.10
92.10
89.40
90.20
92.80
102.00
87.50
91.20
98.20
92.80
91.90
95.50
92.50
100.30
92.90
97.90
95.20
92.70
94.50
95.20
92.40
90.90
90.90
91.30
91.60
91.80
93.20
95.30
93.60
106.70
93.80
92.30
96.00
93.30
94.50
93.60
92.40
95.20
92.60
95.70
94.30
94.50
95.40
93.10
93.00
92.80
92.80
93.60
98.40
94.00
93.90
93.00
91.00
105.40
91.40
91.10
13
En realidad, nosotros deberemos aprender a analizar este problema, asumiendo que la duracin de esta
bombilla no es un valor jo y conocido, sino que est sujeto a incertidumbre. Lo que haremos ser dotarnos
de un modelo matemtico que nos permita valorar si es probable o no que una lmpara ANTE se rompa
antes de un ao, despus de tres aos, etc.
posed Residential Construction Waste, presenta un estudio de la contaminacin en basureros que contienen
desechos de construccin y desperdicios de demoliciones. De un sitio de prueba se tomaron 42 muestras de
lixiado, de las cuales 26 contienen niveles detectables de plomo. Se pone as de maniesto que slo una parte
de los basureros est contaminada por plomo. La cuestin es qu proporcin supone esta parte contaminada
de la supercie total de los basureros?
Si una ingeniera desea obtener a partir de esos datos una estimacin de la proporcin de los basureros que
contiene niveles detectables de plomo debe ser consciente de dos cuestiones:
1. Es imposible analizar todos los rincones de todos los basureros.
2. Si se basa slo en los datos del artculo, esa estimacin ser slo eso, una estimacin basada en esa
muestra, que es de slo 42 datos. Debera, por tanto obtener tambin una estimacin del error que est
cometiendo al hacer la estimacin. Con ambos resultados, la estimacin en s y una cuanticacin del
error que podra cometer con ella, incluso podr obtener un rango donde la verdadera proporcin se
encuentra, con un alto nivel de conanza.
14
Lo que los investigadores se cuestionan es si la cantidad de compuesto por un lado y el tiempo de exposicin
al que se somete por otro, inuyen en el porcentaje que se absorbe. De ser as, sera interesante estimar
el porcentaje de absorcin de personas que se sometan a una exposicin de una determinada cantidad, por
ejemplo, durante 8 horas.
Nmero de accidentes
47
52
57
63
Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde
los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.
igualmente probable ?
Y qu podemos
15
Se denomina
Por ejemplo, si estamos considerando el estudio de la altura de los alumnos de la Escuela, el conjunto de
estos alumnos es una poblacin tangible.
Una poblacin
conceptual no tiene elementos reales, sino que sus casos se obtienen por la repeticin de un
experimento.
Por ejemplo, cuando plantebamos las pruebas sobre placas de silicio, vemos que hay tantos casos como pruebas puedan hacerse, lo que supone un conjunto innito de casos. En poblaciones conceptuales es imposible,
por tanto, conocer todos los casos, y tenemos que conformarnos con muestras de los mismos.
Una
Por ejemplo:
Si consideramos la poblacin de todos los alumnos de la Escuela, podemos jarnos en la variable altura.
Si consideramos el supuesto de las pruebas sobre placas de silicio, podemos considerar la variable espesor
de la capa de xido de silicio generada.
Se denomina
El objetivo de una muestra, ya sea en una poblacin tangible o en una poblacin conceptual es que los
elementos de la muestra
simples.
aleatorias
En una muestra aleatoria simple, todos los elementos de la poblacin deben tener las mismas
posibilidades de salir en la muestra y, adems, los elementos de la muestra deben ser independientes: el que
salga un resultado en la muestra no debe afectar a que ningn otro resultado salga en la muestra.
Por ejemplo, podramos estar interesados en la poblacin de todos los espaoles con derecho a voto (poblacin
tangible, pero enorme), de los que querramos conocer un dato o variable, su intencin de voto en las prximas
elecciones generales. Dado que estamos hablando de millones de personas, probablemente deberemos escoger
una muestra, es decir, un subconjunto de espaoles a los que se les realizara una encuesta. Si queremos que
esa muestra sea aleatoria simple, deberemos tener cuidado de que todos los espaoles con derecho a voto
tengan las mismas posibilidades de caer en la muestra y de que la respuesta de un entrevistado no afecte a la
de ningn otro. Como nota curiosa, sabed que la mayora de las encuestas nacionales se hacen va telefnica,
lo cual es una pequea violacin de las hiptesis de muestra aleatoria simple, ya que hay espaoles con
derecho a voto que no tienen telfono, luego es imposible que salgan en la muestra.
16
Parte I
Estadstica descriptiva
17
Captulo 2
El tratamiento de los datos. Estadstica
descriptiva
Es un error capital el teorizar antes de poseer datos. Insensiblemente uno comienza a alterar
los hechos para encajarlos en las teoras, en lugar encajar las teoras en los hechos
Sherlock Holmes (A. C. Doyle), en
Un escndalo en Bohemia
Resumen. En este captulo aprenderemos mtodos para resumir y describir conjuntos de datos a travs de
distintos tipos de tablas, grcos y medidas estadsticas.
Palabras clave:
frecuencias, diagrama de barras, diagrama de sectores, histograma, media, mediana, moda, cuantiles, varianza,
desviacin tpica, asimetra, datos atpicos.
2.1. Introduccin
Obtenidos a travs de encuestas, experimentos o cualquier otro conjunto de medidas, los datos estadsticos
suelen ser tan numerosos que resultan prcticamente intiles si no son resumidos de forma adecuada. Para
ello la Estadstica utiliza tanto tcnicas grcas como numricas, algunas de las cuales describimos en este
captulo.
Podemos decir que existe una clasicacin, un tanto articial, de los datos, segn se reeran a una poblacin
tangible, en cuyo caso se conocern todos los casos, o a una poblacin conceptual, en cuyo caso slo se
conocer una muestra (aleatoria simple). Sin embargo, esta clasicacin no tiene ningn efecto en lo relativo
a lo que vamos a estudiar en este captulo.
cuantitativos y cualitativos.
19
cuantitativos son los que representan una cantidad reejada en una escala numrica. A su vez,
pueden clasicarse como datos cuantitativos discretos si se reeren al conteo de alguna caracterstica, o
datos cuantitativos continuos si se reeren a una medida.
Los datos
Los datos
a cantidades con signicado numrico, sino a caractersticas que slo pueden clasicarse.
espesor
es cuantitativa continua.
En el ejemplo de los niveles de plomo, se est analizando si una muestra contiene niveles detectables o no. Se trata, por tanto, de una variable cualitativa con dos categoras:
detectables
s contiene niveles
de accidentes laborales
es cuantitativa
discreta, mientras que las franjas horarias constituyen una variable cualitativa.
Las representaciones grcas ms usuales son los diagramas de barras y los diagramas de sectores.
Los diagramas
de barras son una representacin de cada una de las categoras de la variable mediante una
barra colocada sobre el eje X y cuya altura sea la frecuencia o la frecuencia relativa de dichas categoras.
Los
diagramas de sectores son crculos divididos en tantos sectores como categoras, sectores cuyo ngulo
20
Categora
Pas
Blgica
Francia
Finlandia
Alemania
Holanda
Japn
Suecia
Suiza
Estados Unidos
TOTAL
Frecuencia
Nmero de reactores nucleares
4
22
2
7
1
11
3
1
47
98
Frecuencia relativa
Proporcin
0.041
0.225
0.020
0.071
0.010
0.112
0.031
0.010
0.480
1.000
Ejemplo.
Tomamos como poblacin los 98 reactores nucleares ms grandes en todo el mundo. Nos
tabla de fre-
Por su parte, las representaciones mediante diagramas de barras y sectores de estos datos aparecen en la
Figura 2.1 y la Figura 2.2 respectivamente.
Ejemplo.
En una empresa con cadena de montaje donde se empaquetan piezas en cajas se realiza
un estudio sobre la calidad de produccin. Los datos siguientes informan sobre el nmero de piezas
defectuosas encontradas en una muestra de cajas examinadas:
000000111111111222222222233333334444444555566666777889
Prof. Dr. Antonio Jos Sez Castillo
21
10
20
30
40
Alemania
Blgica
EEUU
Finlandia
Francia
Holanda
Japn
Suecia
Suiza
EEUU
Blgica
Alemania
Suiza
Suecia
Japn
Finlandia
Holanda
Francia
Mtodo de Sturges,
22
10
R
N.
I1 = [xm , xm + L)
I2 = [xm + L, xm + 2L)
I3 = [xm + 2L, xm + 3L)
...
IN = [xm + N L, xM ).
5. Para cada intervalo, contamos el nmero de datos que hay en l, es decir, la frecuencia del intervalo.
6. El histograma es un diagrama de barras donde en el eje X se colocan los intervalos y sobre ellos se
construyen barras cuya altura sea la frecuencia o la frecuencia relativa del intervalo. En este caso, las
barras deben dibujarse sin espacio entre ellas. En ocasiones, en vez de tomar la frecuencia relativa como
altura de las barras, se toma dicha frecuencia relativa como rea de las barras: en ese caso, se habla de
un histograma en escala de densidad.
Nota. Por cuestiones que detallaremos ms adelante es importante destacar que el porcentaje de datos
que cae dentro de un intervalo es proporcional al rea de la barra que se construye sobre ese intervalo.
Por ejemplo, si el rea de una barra es el 30 % del rea total del intervalo, entonces el 30 % de los datos
estn en dicho intervalo.
Prof. Dr. Antonio Jos Sez Castillo
23
5
4
1
Frecuencia
Tiempos de procesado
0.00
0.96
1.92
2.88
3.84
4.80
Por otra parte, qu pasara si tomamos un nmero muy grande de datos? El nmero de intervalos
del histograma sera tambin muy grande, y las barras seran muy estrechas, de manera que en vez de
parecer un diagrama de barras, parecera la grca de una funcin real de variable real. Hablaremos de
esta funcin y del rea debajo de ella en breve. Por cierto, cmo se calcula el rea bajo esta funcin?
Ejemplo. Los datos siguientes corresponden al tiempo necesario para procesar 25 trabajos en una CPU.
1.17
1.61
1.16
1.38
3.53
1.23
3.76
1.94
0.96
4.75
0.15
2.41
0.71
0.02
1.59
0.19
0.82
0.47
2.16
2.01
0.92
0.75
2.59
3.07
1.4
25 = 5, utilizaremos 5 intervalos.
2. El mnimo de los datos es 0.02 y el mximo 4.75, de manera que podemos considerar como rango
del histograma el intervalo [0, 4.8], cuya longitud (rango del histograma) es 4.8.
3. La longitud de los intervalos es, en ese caso,
4.8
5
= 0.96.
I1 = [0, 0.96)
I2 = [0.96, 1.92)
I3 = [1.92, 2.88)
I4 = [2.88, 3.84)
I5 = [3.84, 4.8)
24
Frecuencia
[0, 0.96)
[0.96, 1.92)
[1.92, 2.88)
[2.88, 3.84)
[3.84, 4.8)
(medidas de posicin),
por dnde
(medidas de dispersin) y
qu
(medidas de forma).
medidas de tendencia central son medidas de posicin que tratan de establecer un valor que pueda
considerarse
el centro
2.5.1.1. Media
Sea un conjunto de datos de una variable cuantitativa, x1 , ..., xn . La
Pn
x
=
i=1
xi
centro de gravedad
de los
datos.
Es inmediato comprobar que si se realiza un cambio de origen y escala sobre los datos, del tipo y = ax + b,
la media sufre el mismo cambio, es decir, y = a
x + b.
De igual forma, si tenemos datos de la suma de dos o ms variables, la media de la suma es la suma de las
medias de cada variable.
Prof. Dr. Antonio Jos Sez Castillo
25
2.5.1.2. Mediana
Sea un conjunto de datos de una variable cuantitativa, x1 , ..., xn . Ordenemos la muestra de menor a mayor,
mediana es el valor de la variable que deja el mismo nmero de datos antes y despus que l, una vez
ordenados estos.
n+1
2
(en orden creciente o decreciente), porque ste es el valor central. Es decir: Me = x( n+1 ) .
2
Si n es par, la mediana es la media aritmtica de las dos observaciones centrales. Cuando n es par, los dos
x n +x n
( ) ( +1)
datos que estn en el centro de la muestra ocupan las posiciones n2 y n2 +1. Es decir: Me = 2 2 2
.
La mediana corresponde exactamente con la idea de valor central de los datos. De hecho, puede ser un valor
ms representativo de stos que la media, ya que es ms
robusta
un ejemplo.
0+0+1+2+3+4+5
7
= 2.1429, y su mediana 2.
Pero imaginemos que por error o por casualidad obtenemos un nuevo dato enormemente grande en
relacin al resto de datos, 80. En ese caso, la media sera
0 + 0 + 1 + 2 + 3 + 4 + 5 + 80
= 11.875
8
y la mediana 2.5. Es decir, un solo dato puede desplazar enormemente la media, hasta convertirla en una
medida poco representativa, pero slo desplazar ligeramente la mediana. Ese es el motivo por el que se
dice que la mediana es una medida
robusta.
moda se dene como el valor ms frecuente de los datos. Lo que ocurre es que si stos son
datos de una variable continua o discreta con muchos valores, puede que los datos apenas se repitan. En ese
caso, en el que, como vimos en las representaciones grcas, se debe agrupar por intervalos, no debe darse
un valor como moda, sino un
26
2.5.2. Cuantiles
Los
que responden es muy sencilla y muy prctica. Se trata de valorar de forma relativa cmo es un dato respecto
del conjunto global de todos los datos.
Si, por ejemplo, un nio de 4 aos pesa 13 kilos, est desnutrido? est sano? La respuesta debe ser que
depende.
Dnde vive el nio? Es importante porque, por ejemplo, en Estados Unidos los nios son en general
ms grandes que, por ejemplo, en Japn. Quiz ms que el peso nos interese saber qu posicin relativa tiene
el peso del nio dentro de la poblacin de la que forma parte. Por ejemplo, si nos dicen que el nio est entre
el 1 % de los nios que menos pesan, probablemente tiene un problema de crecimiento.
El
cuantil p (Qp ) de unos datos (0 p 1), sera un valor de la variable situado de modo que el 100p % de
No obstante, en la prctica vamos a encontrar un problema para encontrar cuantiles, sobre todo con pocos
datos: lo ms habitual es que no exista el valor exacto que deje a la izquierda el 100p % de los valores y el
resto a la derecha. Por ese motivo, los programas estadsticos utilizan unas frmulas de interpolacin para
obtener el valor del cuantil entre los dos valores de los datos que lo contienen. En nuestro caso, a la hora
de obtener cuantiles, la aplicacin de esas frmulas de interpolacin
a mano
los clculos, por lo que vamos a aplicar un convenio mucho ms sencillo: aproximaremos el valor del cuantil
correspondiente de la siguiente forma:
1. Si el 100p % de n, donde n es el nmero de datos, es un entero, k , entonces Qp =
x(k) +x(k+1)
.
2
a mano
Existen diversos nombres para referirse a algunos tipos de cuantiles. Entre ellos:
Los
percentiles
son los cuantiles que dividen la muestra en 100 partes, es decir, son los cuantiles
0.01 (percentil 1), 0.02 (percentil 2), ..., 0.99 (percentil 99). Si notamos por P al percentil , con
cuartiles
Ejemplo. Consideremos de nuevo los datos correspondientes al tiempo de procesado de 25 tareas en una
CPU. Ahora los hemos ordenado de menor a mayor (en 5 las):
27
0.02
0.75
1.17
1.61
2.59
0.15
0.82
1.23
1.94
3.07
0.19
0.92
1.38
2.01
3.53
0.47
0.96
1.40
2.16
3.76
0.71
1.16
1.59
2.41
4.75
medidas de variacin o dispersin estn relacionadas con las medidas de tendencia central, ya que
lo que pretenden es cuanticar cmo de concentrados o dispersos estn los datos respecto a estas medidas.
Nosotros nos vamos a limitar a dar medidas de dispersin asociadas a la media.
La idea de estas medidas es valorar en qu medida los datos estn agrupados en torno a la media. Esta cuestin
tan simple es uno de los motivos ms absurdos de la mala prensa que tiene la Estadstica en la sociedad en
general. La gente no se fa de lo que ellos llaman
la Estadstica
el mundo cree que una media tiene que ser un valor vlido para todos, y eso es materialmente imposible.
Ejemplo. Pensemos en la media del salario de los espaoles. En 2005 fue de 18.750 euros al ao. Ahora bien,
esa media incluye tanto a las regiones ms desarrolladas como a las ms desfavorecidas y, evidentemente, la
cifra generar mucho malestar en gran parte de la poblacin (con toda seguridad, ms del 50 %), cuyo salario
est por debajo.
Ejemplo. Existe una frase muy conocida que dice que la Estadstica es el arte por el cul si un espaol se
come un pollo y otro no se come ninguno, se ha comido medio pollo cada uno .
ocasiones para ridiculizar a la Estadstica, cuando en realidad debera servir para desacreditar a quien la dice,
por su ignorancia.
Hay que decir que la Estadstica no tiene la culpa de que la gente espere de una media ms de lo que es capaz
de dar, ni de que muy poca gente conozca medidas de dispersin asociadas a la media.
s2n1
28
Pn
=
(xi x
)
.
n1
i=1
Nota. Para calcular a mano la varianza resulta ms cmodo desarrollar un poco su frmula, como vamos
a ver:
s2n1
Pn
x
)2
=
=
n1
Pn
x2 n
x2
= i=1 i
.
n1
i=1 (xi
Pn
i=1
Pn
Pn
x i=1 xi + n
x2
xn
x + n
x2
x2i 2
x2 2
= i=1 i
n1
n1
Cuanto mayor sea la varianza de unos datos, ms dispersos, heterogneos o variables son esos datos. Cuanto
ms pequea sea una varianza de unos datos, ms agrupados u homogneos son dichos datos.
Ejemplo. Una muestra aleatoria simple de la altura de 5 personas arroja los siguientes resultados:
1.76
1.72
1.80
1.73
1.79
x
=
y
s2n1 =
8.8
= 1.76
5
15.493 5 1.762
= 0.00125
4
En lo que respecta al comportamiento de la varianza muestral frente a cambios de origen y escala, slo le
afectan los segundos. Es decir, si tenemos que y = ax + b, se verica que s2y;n1 = a2 s2x;n1 .
Finalmente, si bien habamos comentado que en el caso de la media, si tenemos la suma de varias variables,
la media total es la suma de las medias de cada variable, no ocurre as con la varianza en general.
q
s2n1 ,
29
Regla Emprica:
coeciente de variacin.
CV =
de variacin como
sn1
.
|
x|
La principal ventaja del coeciente de variacin es que no tiene unidades de medida, lo que hace ms fcil
su interpretacin.
30
Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, la varianza es 1.42, luego su
desviacin estandar es 1.19, y el coeciente de variacin
1.19
1.63
algo ms del 70 % de la media. Esto indica que los datos no estn muy concentrados en torno a la media,
probablemente debido a la presencia de los valores altos que hemos comentado antes.
Nota.
El coeciente de variacin, tal y como est denido, slo tiene sentido para conjuntos de datos
con el mismo signo, es decir, todos positivos o todos negativos. Si hubiera datos de distinto signo, la
media podra estar prxima a cero o ser cero, imposibilitando que aparezca en el denominador.
Nota. Suele ser frecuente el error de pensar que el coeciente de variacin no puede ser mayor que 1, lo
cual es rigurosamente falso. Si lo expresamos en porcentaje, el coeciente de variacin puede ser superior
al 100 % sin ms que la desviacin tpica sea mayor que la media, cosa bastante frecuente, por cierto.
depende del contexto de los datos que estemos analizando. Si, por ejemplo, estamos analizando unos datos
que por su naturaleza deben ser muy homogneos, un coeciente de variacin del 10 % sera enorme, pero
si por el contrario estamos analizando datos que por su naturaleza son muy variables, un coeciente de
variacin del 10 % sera muy pequeo.
Por todo ello, lo recomendable es analizar el coeciente de variacin entendiendo su signicado numrico,
es decir, entendiendo que se reere a la comparacin de la desviacin tpica con la media, e interpretando
su valor en relacin al contexto en el que estemos trabajando.
medidas de forma comparan la forma que tiene la representacin grca, bien sea el histograma o el
diagrama de barras de la distribucin, con una situacin ideal en la que los datos se reparten en igual medida
a la derecha y a la izquierda de la media.
Esa situacin en la que los datos estn repartidos de igual forma a uno y otro lado de la media se conoce
como
simetra, y se dice en ese caso que la distribucin de los datos es simtrica. En ese caso, adems, su
descienden ms lentamente por la derecha que por la izquierda. Si las frecuencias descienden ms lentamente
por la izquierda que por la derecha diremos que la distribucin es
Para valorar la simetra de unos datos se suele utilizar el
asimtrica a la izquierda.
Pn
x)3
i=1 (xi
As =
Prof. Dr. Antonio Jos Sez Castillo
n1
s3n1
31
Obsrvese que para evitar el problema de la unidad y hacer que la medida sea escalar y por lo tanto relativa,
dividimos por el cubo de su desviacin tpica. De esta forma podemos valorar si unos datos son ms o menos
simtricos que otros, aunque no estn medidos en la misma unidad de medida. La interpretacin de este
coeciente de asimetra es la siguiente:
Tanto mayor sea el coeciente en valor absoluto, ms asimtricos sern los datos.
El signo del coeciente nos indica el sentido de la asimetra:
Si es positivo indica que la asimetra es a la derecha.
Si es negativo, indica que la asimetra es a la izquierda.
Ejemplo. Para los datos de tiempo de procesado en una CPU de 25 tareas, el coeciente de asimetra
de Fisher es 0.91, lo que, como habamos visto y comentado con anterioridad, pone de maniesto que la
distribucin es asimtrica a la derecha, debido a la presencia de tiempos de procesado bastante altos en
relacin al resto.
parmetros muestrales.
prcticamente siempre se trabaja con muestras, ya que o bien trabajamos con poblaciones conceptuales o
con poblaciones tangibles (nitas, por tanto), pero con muchsimos elementos.
Frente a estos parmetros muestrales se encuentran los parmetros anlogos referidos a toda la poblacin.
Estos parmetros, llamados parmetros
plo, la media poblacional se calculara igual que la media muestral de unos datos, pero aplicada la frmula a
todos los elementos de la poblacin. Como eso es prcticamente imposible de poner en la prctica, veremos
3 Salvo
32
en captulos posteriores que los parmetros muestrales se utilizan en la prctica para aproximar o estimar los
parmetros poblacionales.
Estos valores son atribuibles, por lo general, a una de las siguientes causas:
1. El valor ha sido introducido en la base de datos incorrectamente.
2. El valor proviene de una poblacin distinta a la que estamos estudiando.
3. El valor es correcto pero representa un suceso muy poco comn.
A continuacin vamos a proponer dos maneras de determinar si un dato es un valor fuera de rango.
lgicos
xi
se considerarn datos
[
x 3sn1 , x
+ 3sn1 ] .
rango intercuartlico
2. Se consideran
(IR o
RI ),
IR = P75 P25 .
33
Serie 1
Serie 2
Medias
92.01
92.74
Desv. Tpica
3.62
3.73
CV
25.40
24.86
Coef. Asimetra
-1.79
1.71
Ejemplo. Vamos a ver si hay algn dato atpico entre los datos de tiempo de procesado en una CPU de
25 tareas.
Dado que el histograma no tena forma de campana, el mtodo de la regla emprica no es el mtodo ms
adecuado para la deteccin de valores atpicos.
Por su parte, P50 = 1.38, P25 = 0.82 y P75 = 2.16. Por tanto, IR = 2.160.82 = 1.34, y el intervalo fuera
del cal consideramos valores fuera de rango es [0.82 1.5 1.34, 2.16 + 1.5 1.34] = [1.19, 4.17]. De
esta forma, el valor 4.75 es un valor fuera de rango.
Hay una versin grca de este mtodo para detectar valores atpicos mediante los percentiles: se llama
diagrama de caja o diagrama de cajas y bigotes o (en ingls) boxplot. Este diagrama incluye en un
grco:
1. El valor de la mediana (o segundo cuartil, Q2 ): ese es el centro de la caja.
2. El valor de los percentiles 25 y 75, cuartiles primero y tercero respectivamente (Q1 y Q3 ): son los lados
inferior y superior de la caja.
3. El diagrama no representa los lmites P25 1.5 IR y P75 + 1.5 IR. En su lugar, seala los ltimos
puntos no atpicos por debajo (Li ) y por encima (Ls ), es decir, seala el ltimo dato por encima de
P25 1.5 IR y el ltimo dato por debajo de P75 + 1.5 IR, y los representa como
bigotes
que salen
de la caja.
4. Normalmente representa con crculos los datos atpicos.
34
35
Figura 2.8: Diagramas de caja de los datos del espesor de las capas de dixido de silicio
36
Parte II
Clculo de Probabilidades
37
Captulo 3
Probabilidad
Vemos que la teora de la probabilidad en el fondo slo es sentido comn reducido a clculo; nos
hace apreciar con exactitud lo que las mentes razonables toman por un tipo de instinto, incluso
sin ser capaces de darse cuenta[...] Es sorprendente que esta ciencia, que surgi del anlisis de los
juegos de azar, llegara a ser el objeto ms importante del conocimiento humano[...] Las principales
cuestiones de la vida son, en gran medida, meros problemas de probabilidad.
Pierre Simon, Marqus de Laplace
Resumen. El captulo proporciona un tratamiento de los experimentos cuyos resultados no se pueden predecir
con certeza a travs del concepto de probabilidad. Se analizan las propiedades de la probabilidad y se introduce
tambin el concepto de probabilidad condicionada, que surge cuando un suceso modica la asignacin de
probabilidades previa.
Palabras clave: experimento aleatorio, experimento determinstico, espacio muestral, suceso, probabilidad,
probabilidad condicionada, independencia de sucesos.
3.1. Introduccin
En nuestra vida cotidiana asociamos usualmente el concepto de
probables aquellos eventos en los que tenemos un alto grado de creencia en su ocurrencia.
En esta lnea, Probabilidad es un concepto asociado a la medida del azar. Tambin pensamos en el azar
considerando
vinculado, fundamentalmente, con los juegos de azar, pero desde esa ptica tan reducida se nos escapan otros
muchsimos ejemplos de fenmenos de la vida cotidiana o asociados a disciplinas de distintas ciencias donde
el azar juega un papel fundamental. Por citar algunos:
Qu nmero de unidades de produccin salen cada da de una cadena de montaje? No existe un nmero
jo que pueda ser conocido a priori, sino un conjunto de posibles valores que podran darse, cada uno
de ellos con un cierto grado de certeza.
Cul es el tamao de un paquete de informacin que se transmite a travs de HTTP? No existe en
realidad un nmero jo, sino que ste es desconocido a priori.
39
Cul es la posicin de un objeto detectado mediante GPS? Dicho sistema obtiene, realmente, una
estimacin de dicha posicin, pero existen mrgenes de error que determinan una regin del plano
donde el objeto se encuentra con alta probabilidad.
Qu ruido se adhiere a una seal que se enva desde un emisor a un receptor? Dependiendo de las
caractersticas del canal, dicho ruido ser ms o menos relevante, pero su presencia no podr ser conocida
a priori, y deber ser diferenciada de la seal primitiva, sin que se conozca sta, teniendo en cuenta que
se trata de un ruido
aleatorio.
En todos estos ejemplos el azar es un factor insoslayable para conocer el comportamiento del fenmeno en
estudio.
experimento aleatorio.
1.
probabilidad
coherente.
axiomas,
que
Un
1 Es mejor que aceptemos desde el principio que la Estadstica no es la ciencia de la adivinacin: tan slo se ocupa de
cuanticar cmo de incierto es un evento y, ocasionalmente, de proponer estrategias de prediccin basadas en dicha medida de
la incertidumbre.
40
unin
interseccin
es vaca, es decir, A B = .
Si dos conjuntos A y B son disjuntos, su unin suele notarse A + B .
Los conjuntos A1 , ..., AN se dicen
Una
particin
a) A1 ... AN =
b) Ai Aj = para todo i 6= j.
El
conjunto complementario de un conjunto A, A Ac , est formado por todos los elementos de que
no pertenecen a A.
Se sigue por tanto,
A A =
A A =
c
(Ac ) = A
=
Si B A A B
Si A = B A = B.
Finalmente, mencionemos las llamadas Leyes de Morgan:
A B = A B
A B = A B.
41
El conjunto formado por todos los posibles resultados del experimento aleatorio recibe el nombre de espacio
ensayo o realizacin
suceso o evento.
ocurre un suceso A
Ejemplo. Un experimento habitual en Biologa consiste en extraer, por ejemplo, peces de un ro, hasta
dar con un pez de una especie que se desea estudiar. El nmero de peces que habra que extraer hasta
conseguir el ejemplar deseado de la especie en estudio formara el espacio muestral, = {1, 2, 3, ...}, si es
que el investigador desea observar exactamente el nmero de peces hasta extraer ese ejemplar deseado.
Obsrvese que se trata de un conjunto no acotado, pero numerable.
Como ejemplos de posibles sucesos de inters podramos poner los eventos {1,2,3,4,5}, {mayor o igual a
5},...
Supongamos ahora que el investigador slo est interesado en comprobar si hacen falta ms de 5 extracciones para obtener un ejemplar de la especie en estudio. En ese caso, el espacio muestral sera
= {> 5, 5}.
Ejemplo.
azar entre 0 y 1, un espacio muestral sera = [0, 1]. A diferencia de los anteriores ejemplos, este espacio
muestral no es nito, ni siquiera numerable.
Como ejemplo de sucesos posibles en este espacio muestral podemos destacar, entre otros, {menor que
0.5} , {mayor que 0.25}, {menor que 0.75} ,...
Otro espacio muestral podra ser observar el valor decimal mayor ms cercano. Por ejemplo, si sale 0.25,
me interesa 0.3. En ese caso el espacio muestral sera = 0.1, 0.2, ...1. Este espacio muestral servira,
por ejemplo, para sortear nmeros entre 1 y 10, sin ms que multiplicar el resultado obtenido por 10.
42
En estos ltimos ejemplos podemos ver que hay dos grandes tipos de espacios muestrales segn el nmero de
sucesos elementales.
Un espacio muestral se dice
elementales.
Por el contrario, un espacio muestral se dice
continuo
sucesos elementales.
funcin de probabilidad
para ese espacio muestral es cualquier funcin que asigne a cada suceso un nmero en el intervalo [0, 1] y que
verique
P [ni=1 Ai ] =
n
X
P [Ai ] .
i=1
Nota. Hay que notar que se puede dar ms de una funcin de probabilidad asociada al mismo espacio
muestral. Por ejemplo, asociado al espacio muestral = {cara, cruz}, del lanzamiento de una moneda,
pueden darse un nmero innito no numerable de medidas de la probabilidad; concretamente, asociadas
a cada eleccin
P [cara] = p
P [cruz] = 1 p,
para cada p [0, 1] . Aunque si la moneda no est cargada, como sucede habitualmente, se considera el
caso en que p = 12 .
Ejemplo. Volviendo sobre el lanzamiento del dado, si ste no est cargado, podemos denir la siguiente
funcin de probabilidad:
P [{i}] =
1
, i = 1, 2, ..., 6.
6
43
P [] = 0.
Sea A un suceso cualquiera. Entonces, P A = 1 P [A] .
= P [A] P [A B] .
Sean A y B dos sucesos cualesquiera. Entonces, P A B
Sean A y B dos sucesos cualesquiera. Entonces, P [A B] = P [A] + P [B] P [A B] .
Ejemplo. El circuito que aparece en la Figura 3.1 est constituido por dos interruptores (switches ) en
paralelo. La probabilidad de que cualquiera de ellos est cerrado es de 12 .
Para que pase corriente a travs del circuito basta con que pase corriente por alguno de los dos interruptores, esto es, que al menos uno de ellos est cerrado. Por tanto, si notamos por
corriente a travs del circuito
Ei
al suceso
que el interruptor
est cerrado,
al suceso
que pase
entonces,
44
N de lanzamientos
N de caras
N. de caras
N. de lanzamientos
10
4
0.4
100
46
0.46
250
124
0.496
500
244
0.488
750
379
0.5053
1000
501
0.501
nA
,
n n
P [A] = lm
de carcter eminentemente prctico porque permite una aproximacin fsica al concepto de probabilidad,
pero se ve limitada por las complicaciones que supone la denicin en trminos de un lmite que, como tal,
slo se alcanza
en el innito.
Ejemplo. Se han realizado 1000 lanzamientos de una moneda. En el Cuadro 3.1 aparece un resumen de ese
proceso. Puede observarse como cuanto mayor es el nmero de lanzamientos, ms se aproxima la frecuencia
relativa al valor 21 , de manera que podramos pensar que la probabilidad de cara es igual que la probabilidad
de cruz e iguales ambas a
1
2,
aunque esto slo es una suposicin, o una aproximacin, ya que para aplicar
estrictamente la denicin frecuentista deberamos continuar hasta el innito, lo que resulta imposible.
Esta interpretacin frecuentista de la probabilidad permite inferir lo que podemos llamar
radas.
frecuencias espe-
Si un evento A tiene asignada una probabilidad P [A], entonces, si repetimos el experimento aleatorio
n veces,
lo ms esperable
lo ms esperable.
Ejemplo. Siguiendo con el ejemplo de la moneda, si la lanzamos 348 veces, lo esperable es que salgan
alrededor de 348 0.5 = 174 caras.
de maana
muchas veces y
contar cuntas veces llueve. Podramos pensar si hubiera muchos das como el de maana, aproximadamente
llovera en el 35 % de ellos ?
45
La interpretacin subjetiva de la probabilidad tiene que ver con la vinculacin de este concepto con el grado
de incertidumbre que tenemos sobre las cosas. Si tenemos un experimento aleatorio, el resultado de dicho
experimento es incierto. La probabilidad de un resultado del experimento es el grado de creencia que yo tengo
en la ocurrencia de dicho resultado. Ese grado de creencia es personal, luego es subjetivo, pero lgicamente,
deber estar acorde con la informacin que tenemos sobre el experimento.
ms probable
P [A] =
NA
,
N
frmula de Laplace
P [cara] =
1
2
en el lanzamiento de una moneda sin tener que lanzar la moneda un gran nmero de veces.
Sin embargo, la denicin tiene dos grandes inconvenientes: el conjunto de resultados posibles, N , tiene que
ser nito y, adems, todos los resultados posibles deben tener la misma probabilidad (con lo cual, lo denido
queda implcitamente inmerso en la denicin).
Obviamente, la probabilidad P [A] ser menor que la probabilidad P [A | B] , ya que el hecho de que est
nublado refuerza nuestra creencia en que llueva.
46
Ejemplo. Consideremos el experimento aleatorio de extraer una carta de una baraja espaola. Sea el suceso
A : obtener una sota, el suceso B1 : obtener una gura y el suceso B2 : obtener una carta de copas.
Las distintas probabilidades, condicionadas o no, bajo la denicin clsica, son las siguientes:
4 sotas
1
=
40 cartas
10
4 sotas
1
P [A | B1 ] =
=
12 f iguras
3
1 sota de copas
1
P [A | B2 ] =
=
.
10 copas
10
P [A] =
Como puede verse, B1 modica la probabilidad a priori, pero no as B2 . Puede decirse que B2 no ofrece
independientes.
denicin de probabilidad condicionada
P [A | B] =
P [A B]
,
P [B]
no siempre un suceso da informacin sobre otro. En este caso se dice que ambos sucesos son independientes.
Por tanto:
Dos sucesos A y B se dicen independientes si P [A | B] = P [A] , o equivalentemente si P [B | A] = P [B], o
equivalentemente si P [A B] = P [A] P [B] .
Ejemplo. Continuando con el Ejemplo 3.3.3, lo ms lgico es pensar que los dos interruptores actan
de forma independiente, en cuyo caso P [E1 E2 ] = P [E1 ] P [E2 ] y tenemos que,
1 1
+ P [E1 E1 ]
2 2
1 1 11
3
= +
= .
2 2 22
4
P [E] =
Nota. Es muy importante no confundir la probabilidad condicionada de un suceso a otro con la probabilidad de la interseccin de ambos sucesos. En la Figura 3.2 puede verse la diferencia entre las probabilidades
condicionadas entre dos sucesos y la probabilidad de su interseccin. En trminos coloquiales, podemos
47
todo
una parte
un todo.
Cuando la probabilidad es
parte
todo
es la interseccin.
Nota. Tambin suele ser bastante comn la confusin entre sucesos independientes y sucesos incompatibles o mutuamente excluyentes.
En este sentido, recordemos que dos sucesos A y B son incompatibles o mutuamente excluyentes si
A B = , en cuyo caso P [A B] = 0.
Por su parte, A y B sern independientes si P [A B] = P [A] P [B].
Las diferencias entre ambos conceptos son obvias.
Ejemplo. La probabilidad de que el producto no sea elaborado a tiempo es 0.05. Se solicitan tres pedidos
del producto con la suciente separacin en el tiempo como para considerarlos eventos independientes.
1. Cul es la probabilidad de que todos los pedidos se enven a tiempo?
En primer lugar, notemos Ei al suceso enviar
P [Ei ] = 0.95.
Por su parte, nos piden
48
1 E2 E3 E1 E
2 E3 E1 E2 E
3
P E
1 E2 E3 + P E1 E
2 E3 + P E1 E2 E
3
=P E
Ejemplo.
esquema se pone de maniesto que una unidad ser producidad con xito si pasa en primer lugar un
chequeo previo (A); despus puede ser montada directamente (B), redimensionada (C) y despus montada
(D) o adaptada (E) y despus montada (F); posteriormente debe ser pintada (G) y nalmente embalada
(H). Consideremos que las probabilidades de pasar exitosamente cada subproceso son todas ellas iguales
a 0.95, y que los subprocesos tienen lugar de forma independiente unos de otros. Vamos a calcular en
esas condiciones la probabilidad de que una unidad sea exitosamente producida.
Si nos damos cuenta, A, G y H son ineludibles, mientras que una unidad puede ser producida si pasa
por B, por C y D o por E y F. En notacin de conjuntos, la unidad ser producida si se da
A (B C D E F ) G H.
Como los procesos son independientes unos de otros, no tenemos problemas con las probabilidades de las
intersecciones, pero tenemos que calcular la probabilidad de una unin de tres conjuntos, BC DEF .
En general,
49
P [B C D E F ] = P [B] + P [C D] + P [E F ]
P [B C D] P [B E F ] P [C D E F ]
+ P [B C D E F ]
= 0.95 + 2 0.952 20.953 0.954 + 0.955
= 0.9995247
Ya estamos en condiciones de obtener la probabilidad que se nos pide:
En estos ejemplos, el clculo de la probabilidad de las intersecciones ha resultado trivial porque los sucesos son
independientes. Son embargo, esto no siempre ocurre. Cmo podemos, en general, obtener la probabilidad
de la interseccin de dos o ms sucesos no necesariamente independientes?
En el caso de slo dos sucesos, A y B , podemos deducir que
P [A B] = P [A|B] P [B]
directamente de la denicin de probabilidad condicionada. A partir de esta frmula, por induccin, se puede
obtener la llamada frmula producto, que se enuncia de la siguiente forma: si A1 , A2 , ..., An son sucesos de
un espacio muestral no necesariamente independientes, se verica
P [A1 A2 ... An ] = P [A1 ]P [A2 |A1 ]...P [An |A1 A2 ... An1 ]
50
Ejemplo. Un lote de 50 arandelas contiene 30 arandelas cuyo grosor excede las especicaciones de diseo.
Suponga que se seleccionan 3 arandelas al azar y sin reemplazo del lote.
1. Cul es la probabilidad de que las tres arandelas seleccionadas sean ms gruesas que las especicaciones de diseo?
Comenzamos notando los sucesos Ai : la -sima arandela extraida es ms gruesa que las especicaciones de diseo, i = 1, 2, 3.
Entonces, nos piden
30
P A3 /A1 A2 =
.
48
respectivamente, y juegan un importante papel a la hora de calcular probabilidades. Los dos utilizan como
Prof. Dr. Antonio Jos Sez Castillo
51
{A1 , ..., AN } F una particin del espacio muestral y sea B un suceso cualquiera. Entonces,
P [B] = P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ] .
Ejemplo.
P [B | Ai ] P [Ai ]
.
P [B | A1 ] P [A1 ] + ... + P [B | AN ] P [AN ]
Supongamos que tenemos 4 cajas con componentes electrnicas dentro. La caja 1 contiene
2000
2000 + 500 + 1000 + 1000
500
P [C2 ] =
2000 + 500 + 1000 + 1000
1000
P [C3 ] =
2000 + 500 + 1000 + 1000
1000
P [C4 ] =
2000 + 500 + 1000 + 1000
P [C1 ] =
4
9
1
=
9
2
=
9
2
=
9
=
P [C1 | D] =
52
0.05 49
P [D | C1 ] P [C1 ]
=
= 0.2
P [D]
0.11111
F
0.01
0.1
1.0
Total
Nmero
1
20
55
70
145
en cada
2
95
35
80
210
caja
3
25
75
145
245
Total
140
165
295
600
Ejemplo. Se disponen tres cajas donde se almacenan acumuladores segn aparece en el Cuadro 3.2.
Se escoge al azar una caja y de ella, a su vez, un acumulador.
1. Cul es la probabilidad de que se haya seleccionado un acumulador de 0.01F ?
Notemos 0.01F, 0.1F y 1.0F a los sucesos
extraer un acumulador de
P [0.01F ] = P [0.01F / c1] P [c1] + P [0.01F / c2] P [c2] + P [0.01F / c3] P [c3]
95 1
25 1
5903
20 1
+
+
=
= 0.23078.
=
145 3 210 3 245 3
25 578
2. Si ha sido seleccionado un acumulador de 1.0F , cul es la probabilidad de que proceda de la caja
1? Utilizando el teorema de Bayes,
P [c1 / 1.0F ] =
Por su parte,
P [1.0F ] = P [1.0F / c1] P [c1] + P [1.0F / c2] P [c2] + P [1.0F / c3] P [c3]
70 1
80 1 145 1
6205
=
+
+
=
= 0.48518,
145 3 210 3 245 3
12 789
luego
P [c1 / 1.0F ] =
70 1
145 3
6205
12 789
2058
= 0.33167.
6205
Ejemplo. Siguiendo con el ejemplo de las arandelas con grosor fuera de las especicaciones de diseo,
cul es la probabilidad de que la tercera arandela seleccionada sea ms gruesa que las especicaciones
de diseo?
53
= P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ] + P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ]
+P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ] + P [A3 |A1 A2 ]P [A1 ]P [A2 |A1 ]
Ejemplo.
28 30 29 29 20 30
+
48 50 49 48 50 49
29 30 20 30 20 19
+
.
48 50 49 48 50 49
que el dgito 3 es enviado tres veces ms frecuentemente que 1, y 2 dos veces ms frecuentemente
que 1. Calculemos la probabilidad de que un dgito cualquiera enviado a travs del canal sea recibido
correctamente.
En primer lugar, si notamos P [X = 1] = p, entonces P [X = 2] = 2p y P [X = 3] = 3p. Por otra parte,
como
1 = P [X = 1] + P [X = 2] + P [X = 3] = 6p,
se tiene que
P [X = 1] =
1
1
1
, P [X = 2] = y P [X = 3] = .
6
3
2
Ejemplo.
enviado un 1?
Utilizando el teorema de Bayes,
P [X = 1 / Y = 1] =
54
P [Y = 1 / X = 1] P [X = 1]
.
P [Y = 1]
Por su parte,
P [Y = 1] = P [Y = 1 / X = 1] P [X = 1]
+ P [Y = 1 / X = 2] P [X = 2]
+ P [Y = 1 / X = 3] P [X = 3]
=
luego
P [X = 1 / Y = 1] =
1
+ + ,
6
6
4
1
6
1
+
6
6
=2
1 +
.
2 + 2 2 3
Estadstica Bayesiana.
probabilidad de que A
Es posible que no tengamos, en principio, datos para conocer de forma exacta cul es la probabilidad de A.
An as, podramos atrevernos, como
expertos en el tema,
probabilidad a priori.
Ahora bien, hemos dado una probabilidad a priori P [A] sin ninguna informacin sobre A. Supongamos ahora
Prof. Dr. Antonio Jos Sez Castillo
55
que tenemos nueva informacin que nos dar pistas acerca de si A ha ocurrido o no, y que dicha informacin
est recogida en un suceso que llamaremos B1 . En ese caso, podramos y deberamos actualizar la probabilidad
de A basndonos en esta nueva informacin, proporcionando una nueva probabilidad de A que tenga en cuenta
probabilidad a posteriori.
En esa
actualizacin de la probabilidad
P [A |B1 ] =
P [B1 |A ] P [A]
.
P [B1 |A ] P [A] + P [B1 |A ] P A
a posteriori sera
P [A |B1 B2 ] =
=
1
P [B2 |A ] P [A |B1 ]
.
P [B2 |A ] P [A |B1 ] + P [B2 |A ] P A |B1
Es muy importante observar que en este cociente P [A |B1 ] ocupa el lugar que antes ocupaba la probabilidad
a priori. Adems, esta segunda probabilidad a posteriori podra considerarse como la nueva probabilidad a
priori para una nueva aplicacin del teorema basada en el conocimiento de nueva informacin dada por un
suceso B3 . Este proceso de actualizacin de las probabilidades a priori basada en la informacin disponible
puede realizarse cuantas veces sea necesario.
Vamos a ilustrar esto en un par de ejemplos.
56
P [culpable |ADN + ] =
Es decir, ahora piensa que el sospechoso es culpable con un 99.9548 % de certeza. Fijmonos en que nuestra
probabilidad a priori aparece en los trminos 0.1 en el numerador y 0.1 y 0.9 en el denominador. Esa, 0.1,
era la probabilidad que tenamos
despus de la prueba esa probabilidad es 0.999548 de que sea culpable (y 0.000452 de que sea inocente).
Sin embargo, el sospechoso insiste en su inocencia, y propone someterse a una prueba de un detector de
mentiras. Los expertos saben que un culpable es capaz de engaar a esta mquina en el 10 % de las veces, y
que la mquina dir el 1 % de las veces que un inocente miente. Nuestro sospechoso se somete a la mquina y
sta dice que es inocente. Cul ser ahora la probabilidad que el juez asigna a la culpabilidad del sospechoso?
Teniendo en cuenta que:
P [culpable |maquina ] =
Es decir, an con esa prueba negativa, el juez an tiene un 99.55431 % de certidumbre de que el sospechoso
es culpable. De nuevo, podemos resumir este paso diciendo que
nuestra
probabilidad de que fuera culpable era de 0.999548 (que aparece en la frmula ocupando la posicin de la
probabilidad a priori), mientras que
57
1 prueba: ADN +
2 prueba: maquina
Antes de
la prueba
0.1
0.999548
P [Culpable]
Despus de
la prueba
Cuadro 3.3: Esquema del proceso iterativo del teorema de Bayes en el ejemplo del juez. La probabilidad a
(antes de cada prueba) es la que se utiliza en la frmula para obtener la probabilidad a posteriori
(desps de cada prueba). La probabilidad a posteriori (despus) de una prueba es la probabilidad a priori
(antes) de la siguiente prueba.
priori
Supongamos que una pieza pasa las tres veces y da no defectuosa: cul es la probabilidad de que realmente
sea no defectuosa?
Vamos a empezar notando adecuadamente los sucesos. Notaremos D al suceso ser defectuosa y por + a dar
positivo como defectuosa en la prueba de la mquina. Sabemos que:
|D ] P D
P [+
P [+ |D ] P D + P [+ |D ] P [D]
0.95 0.95
=
= 0.9944904.
0.95 0.95 + 0.1 0.05
|+
P D
=
Esa probabilidad pasa a ser la probabilidad a priori para la segunda vez que da no defectuosa. Por tanto, la
probabilidad de que sea no defectuosa si da negativo por segunda vez es
|D ] 0.9944904
P [+
|D ] (1 0.9944904)
P [+ |D ] 0.9944904 + P [+
0.95 0.9944904
=
= 0.9994172.
0.95 0.9944904 + 0.1 (1 0.9944904)
|+
P D
+
=
|D ] 0.9994172
P [+
|D ] 0.9994172 + P [+
|D ] (1 0.9994172)
P [+
0.95 0.9994172
=
= 0.9999386.
0.95 0.9994172 + 0.1 (1 0.9994172)
|+
P D
+
+
=
Como podemos ver, si una pieza da no defectuosa tres veces, la probabilidad de que sea realmente no
defectuosa es altsima, del orden del 99.99 %, as que el mtodo ideado por el responsable de calidad parece
consistente.
58
1 prueba: +
2 prueba: +
3 prueba: +
Antes de
la prueba
0.95
0.9944904
0.9994172
P D
Despus de
la prueba
D
P [+|
]0.95
D
D ](10.95) = 0.9944904
P [+|
]0.95+P [+|
D
]0.9944904
P [+|
D ](10.9944904) = 0.9994172
D
P [+|
]0.9944904+P [+|
D
P [+|
]0.9994172
D
D ](10.9994172) = 0.9999386
P [+|
]0.9994172+P [+|
Cuadro 3.4: Esquema del proceso iterativo del teorema de Bayes en el ejemplo de la mquina de deteccin
de fallos. La probabilidad a priori (antes de cada prueba) es la que se utiliza en la frmula para obtener la
probabilidad a posteriori (desps de cada prueba). La probabilidad a posteriori (despus) de una prueba es
la probabilidad a priori (antes) de la siguiente prueba.
59
60
Captulo 4
Variable aleatoria. Modelos de
distribuciones de probabilidad
Mas a pesar de todo eso, aunque la mala suerte exista, muy pocos reporteros veteranos creen de
verdad en ella. En la guerra, las cosas suelen discurrir ms bien segn la ley de las probabilidades:
tanto va el cntaro a la fuente que al nal hace bang.
Arturo Prez Reverte, en
Territorio Comanche
Resumen. En este captulo continuamos con el estudio de la probabilidad, utilizando el concepto de variable
aleatoria para referirnos a experimentos donde el resultado queda caracterizado por un valor numrico. Se
presentan algunos de los modelos ms habituales de asignacin de probabilidades y sus propiedades ms
relevantes.
Palabras clave: variable aleatoria, variable discreta, funcin masa de probabilidad, variable continua, funcin
de densidad de probabilidad, funcin de distribucin, media, varianza, distribucin binomial, distribucin
de Poisson, distribucin geomtrica, distribucin uniforme, distribucin exponencial, distribucin Gamma,
distribucin normal.
4.1. Introduccin
En el tema anterior hemos visto que la Estadstica se ocupa de experimentos aleatorios. En general, en Ciencia
y Tecnologa se suele analizar cualquier experimento mediante una o varias medidas del mismo. Por ejemplo,
se analiza un objeto segn su peso, su volumen, su densidad, su contenido de agua...; o se analiza el trco
de Internet segn el nmero de conexiones a un servidor, el volumen total de trco generado, la velocidad...
En estos sencillos ejemplos observamos que se ha descrito un fenmeno fsico, como puede ser un objeto o
el estado de una red de comunicaciones en un momento dado, mediante uno o varios nmeros o variables.
Cuando ese fenmeno es de tipo aleatorio, vamos a llamar a esa asignacin
variable aleatoria .
Consideremos un experimento probabilstico con un espacio muestral en el que se ha denido una funcin
de probabilidad P [] .
61
Una
variable aleatoria (a partir de ahora v.a.) es un nmero real asociado al resultado de un experimento
aleatorio. Se trata, por tanto, de una funcin real con dominio en el espacio muestral, X : R.
Podemos pensar en una v.a. como en una variable asociada a una poblacin conceptual, ya que slo podr
observarse cuando se tomen muestras suyas.
En la notacin que vamos a utilizar representaremos las variables aleatorias como funciones siempre en
maysculas, y a sus valores concretos siempre en minscula. Es decir, si queremos referirnos a una v.a. antes
de observar su valor, podemos notarla como X, por ejemplo; pero una vez que se observa el valor de dicha
variable (ya no es, por tanto, algo aleatorio), debemos notar a ese valor en minscula, por ejemplo, como x.
Por ejemplo, podemos decir que la variable aleatoria X que corresponde a la puntuacin obtenida al lanzar el
dado puede tomar los valores x = 1, 2, 3, 4, 5, 6. Podremos preguntarnos por la probabilidad de que X tome
el valor x = 4 o de que X 6. Si lanzamos el dado y observamos que ha salido un 6, diremos que x = 6.
No olvidemos que el objeto de la Estadstica con respecto a la observacin de fenmenos aleatorios es medir
la certidumbre o la incertidumbre asociada a sus posibles resultados. Al describir estos resultados mediante
variables aleatorias, lo que tenemos son resultados numricos sujetos a incertidumbre. El objetivo ahora es
cuanticar la probabilidad de esos resultados numricos de alguna forma.
discreta
para cada x R.
62
Nota. Obsrvese que una funcin masa de una v.a. discreta est denida en todos los puntos de la recta
real, pero slo valdr distinto de cero en un conjunto, a lo sumo, numerable, que corresponde con los
nicos valores que pueden darse de la variable.
Sea X una v.a. discreta y f (x) su funcin masa. Entonces:
1. f (x) 0 para todo x R.
P
2.
xR f (x) = 1.
3. En general, para cualquier conjunto B,
P [X B] =
f (xi ) ,
xi B
Si tenemos una coleccin de posibles resultados de la variable X , x1 , ..., xN , esta funcin asigna al valor x la
frecuencia con la que dicho valor se da en la muestra, es decir,
femp (x) =
n
umero de valores xi iguales a x
.
N
Si el tamao, N , de la muestra es grande, esta funcin tiende a la autntica, es decir, para cada x R.
Ejemplo. En la Figura 4.1 aparece la funcin masa emprica correspondiente al lanzamiento de un dado
600 veces. Esta funcin emprica aparece representada en barras verticales, mientras que la funcin masa
terica,
f (x) = 16 , para x = 1, 2, 3, 4, 5, 6 aparece representada como una lnea horizontal. Puede apreciar-
EX =
x f (x).
63
Figura 4.1: Funcin masa emprica de una muestra de 600 lanzamientos de un dado.
Como en el caso de la media muestral de unos datos, la media de una v.a. se interpreta como el centro de
gravedad de los valores que puede tomar la variable, con la diferencia que en una media muestral, el
cada valor lo da la frecuencia de dicho valor en los datos y aqu el
peso
peso
de
V arX =
(x EX)2 f (x).
V arX =
(x EX)2 f (x) =
x2 f (x) 2EX
x f (x) + EX 2
f (x)
= V arX , que tiene las mismas unidades que la media y que se puede interpretar como una media del
grado de variacin del conjunto de valores que puede tomar la v.a. respecto del valor de la media.
64
probabilidad asociada a los resultados de la variable la vamos a llamar a partir de ahora distribucin de
probabilidad de una v.a. Dmonos cuenta que, como acabamos de comentar, para determinar la distribucin
de probabilidad de una v.a. slo tenemos que dar su funcin funcin masa de probabilidad.
Sin embargo, debemos tener en cuenta que en la vida real nadie conoce cul es la autntica distribucin de
probabilidad de una v.a., porque nadie sabe a priori cul es la funcin masa de dicha variable. Todo lo ms,
podemos calcular la funcin masa emprica a partir de los datos de una muestra. An as, llegar el momento
de
pasar al lmite,
paso al lmite,
en Estadstica se estudian
babilidad. Se trata de frmulas tericas de funciones masa que pueden resultar adecuadas para determinadas
variables aleatorias.
Hay una metfora que puede ayudar a entender cmo se asigna una distribucin de probabilidad y sobre la que
abundaremos en lo sucesivo: qu ocurre cuando queremos comprar unos pantalones? En general acudimos
a una tienda de moda y:
1. De entre una serie de modelos, elegimos el modelo que creemos que mejor nos va.
2. Buscamos la talla que hace que mejor se ajuste a nosotros, segn nuestras caractersticas.
Pues bien, en el caso de las v.a.
nuestras caractersticas
son las posibles observaciones que tenemos sobre la v.a. que, por ejemplo,
de la tienda, entre los que elegimos el que ms nos gusta, son los modelos tericos que
la talla
que hace que los pantalones se ajusten a nosotros adecuadamente son los parmetros de los
modelos tericos.
En lo que resta de este captulo vamos a describir algunos de los modelos tericos de probabilidad ms
habituales en el mbito de las Ingenieras, comenzando por el caso de v.a. discretas.
es
f (x) =
=
nx
px (1 p)
n!
nx
px (1 p)
, x = 0, 1, 2, ..., n.
x! (n x)!
65
0.4
B(10,0.25)
0.3
0.2
0.1
0
10
0.4
B(10,0.5)
0.3
0.2
0.1
0
10
0.4
B(10,0.75)
0.3
0.2
0.1
0
10
EX = np
V arX = np (1 p) .
se repite n veces de forma independiente y que en ese experimento hay un suceso que denominamos
xito,
que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que mide el nmero de xitos
sigue una B (n, p).
En esta caracterizacin es importante observar que las dos hiptesis fundamentales de esta distribucin son:
los experimentos se repiten de forma
la probabilidad de xito es
independiente y
constante.
En la medida en que estas dos hiptesis no sean vlidas, la distribucin binomial no ser adecuada para la
variable que cuenta el nmero de xitos.
Un ejemplo particular de distribucin binomial lo constituye la denominada
distribucin de Bernouilli.
(
f (x) =
66
1 p si x = 0
p si x = 1
x
P [X = x]
4
0
1
0
0.2 0.8
= 0.41
4
1
2
1
0.2 0.8
= 0.41
4
2
3
2
0.2 0.8
= 0.15
4
3
4
3
0.2 0.8
= 0.03
4
4
0.24 0.80
= 0.00
Ejemplo.
Consideremos como v.a. el nmero de das a la semana que un joven de hoy consu-
me alcohol. Podramos pensar que se trata de una v.a. con distribucin B (7, p), donde p =
n
umero medio de d
as de consumo
?
7
1. Puede darse el efecto resaca, es decir, si se consume mucho un da, huir del alcohol al da siguiente; o
el efecto inverso un clavo quita otro clavo ; o ...; en denitiva, circunstancias que rompan la hiptesis
de independencia en el consumo en das distintos.
2. Est claro que la probabilidad de consumir un martes no es, en general, la misma que un sbado.
Tampoco todos los jvenes tienen la misma probabilidad de consumir alcohol un da cualquiera.
Ejemplo.
nicaciones bastante imperfecto. Por estudios previos, estima que la probabilidad de que un dgito se
transmita incorrectamente es del 20 %. El ingeniero enva un mensaje de 4 dgitos y se pregunta cuntos
se recibirn incorrectamente.
Desde el punto de vista estadstico nosotros no podemos responder a esa pregunta. En realidad, nadie
puede responder a esa pregunta con certeza, porque existe incertidumbre latente en ella: el azar determinar cuntos dgitos se cruzan. Lo que s podemos hacer es facilitarle el grado de certeza, es decir, la
probabilidad, de cada uno de los posibles resultados.
Concretamente, si analizamos la variable X :
teniendo
en cuenta que el ensayo de cada envo de cada dgito se har de forma independiente y que nos ha dicho
que la probabilidad de que un dgito se reciba incorrectamente es 0.2, podemos armar que un modelo de
probabilidad adecuado para dicha variable es una distribucin B(4, 0.2). Esta distribucin nos permite
calcular la probabilidad de que se crucen 0, 1, 2, 3 o 4 de los dgitos. Lo esquematizamos en la tabla
adjunta. Vistos los resultados, debemos decirle al ingeniero que es hartamente improbable que le fallen
los 4 dgitos, pero que tiene una probabilidad (ver Cuadro 4.1) de
67
distribucin
x
, x = 0, 1, 2, ...
x!
EX =
V arX = .
tiempo donde los xitos acontecen a razn de veces por unidad de tiempo (en promedio) y de forma
independiente. En ese caso
X : n
umero de ocurrencias del suceso por unidad de tiempo
es una variable de
el promedio
Ejemplo. La distribucin de Poisson suele utilizarse como modelo para el nmero de accidentes ocurridos
en los individuos de una poblacin a lo largo de un periodo de tiempo. Lo que mucha gente no termina
de asumir es que hacer esa suposicin equivale a decir que todos esos individuos tienen el mismo riesgo
de tener un accidente y que el hecho de que un individuo tenga un accidente no modica para nada la
probabilidad de sufrir un nuevo accidente. Es evidente que en muchas situaciones de la vida real eso no
es cierto, as que el modelo no ser adecuado en ellas.
Ejemplo. Otra aplicacin muy comn de la distribucin de Poisson es al nmero de partculas por unidad
de volumen en un uido cuando una disolucin est realmente bien disuelta. En caso de que los datos
indiquen que la distribucin de Poisson no es adecuada, podramos de hecho inferir que la disolucin no
est bien disuelta.
Ejemplo.
Poisson es en el mbito del nmero de solicitudes de servicio a un servidor. Por ejemplo, se suele considerar
que el n de llamadas a una centralita o el n de conexiones a un servidor sigue una distribucin de Poisson.
68
Sin embargo, hay que decir que aunque este uso de la distribucin de Poisson es muy comn, es evidente
que la hiptesis de que el promedio debe ser constante, no se da en estas aplicaciones, ya que uno de
los fenmenos ms conocidos en telecomunicaciones es el de la
hora cargada :
no es el mismo promedio de
llamadas el que se produce a las 12 del medioda que a las 3 de la maana. Lo que se suele hacer es aplicar
uno de los principios ms importantes aunque menos escritos de la ingeniera, la ley de Murphy (si
puede ir mal, preprate para ello, porque en algun momento ir mal ):
algo
suelen dimensionarse para ser capaces de funcionar en el peor de los escenarios posibles, es decir, cuando
el promedio de solicitudes es el que se da en la hora cargada.
xito,
Adicionalmente, supongamos que el experimento se repite un gran nmero de veces, es decir, n es grande y
que el xito es un suceso raro, es decir, p es pequeo, siendo el promedio de ocurrencias, = np. En ese caso,
la variable aleatoria X que mide el nmero de xitos sigue (aproximadamente) una P ().
En esta segunda caracterizacin se suele considerar aceptable la aproximacin si n > 20 y p < 0.05. Si
n > 100, la aproximacin es generalmente excelente siempre y cuando np < 10. Hay que tener en cuenta que
para esos valores de los parmetros, la distribucin binomial tendra bastantes problemas para ser computada,
ya que se exigira, entre otros clculos, el clculo de n! para un valor de n alto, por lo que la aproximacin
es muy til.
Ejemplo.
generadores de gran tamao. Si la probabilidad de que cualquiera de ellos falle durante el ao en curso
es de
1
1200 ,
a.
b.
0, 1, 2, 3, ...., 3840.
En principio, X B (3840, 1/1200) , pero dado que n es muy grande y p muy pequeo, podemos
considerar que X P (3.2). Por tanto,
P [X = 4] =
e3.2 3.24
= 0.178 09
4!
Por su parte,
P [X > 1] = 1 P [X = 0, 1] = 1
e3.2 3.20
e3.2 3.21
= 0.828 80
0!
1!
69
0.4
P(1)
0.3
0.2
0.1
0
5
10
15
20
25
0.2
P(5)
0.15
0.1
0.05
0
5
10
15
20
25
0.2
P(10)
0.15
0.1
0.05
0
5
10
15
20
25
geomtrica de parmetro p (y se nota X Geo (p)), con 0 < p < 1, si su funcin masa es
distribucin
1p
p
1p
V arX =
.
p2
EX =
que ocurre con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el nmero de
fracasos hasta que ocurre el primer xito sigue una Geo (p).
70
0.4
Geo(0.25)
0.3
0.2
0.1
0
5
10
15
20
25
0.8
Geo(0.5)
0.6
0.4
0.2
0
5
10
15
20
25
0.8
Geo(0.75)
0.6
0.4
0.2
0
5
10
15
20
25
Ejemplo. Siguiendo con un ejemplo anterior, sobre el ingeniero que enva dgitos a travs de un canal
imperfecto, ahora se plantea cuntos dgitos se recibirn correctamente hasta que uno se cruce, sabiendo
que la probabilidad de que uno cualquiera lo haga es de 0.2.
La variable de inters ahora es Y : n
Esta
variable tiene como modelo de probabilidad una distribucin Geo(0.2). Gracias a este modelo, podemos
decirle, por ejemplo, que la probabilidad de que enve bien dos y que falle el tercero es de
f (x) =
donde (x) =
distribucin
(a + x)
x
pa (1 p) para x = 0, 1, 2, ...
(a) (x + 1)
71
1p
p
1p
V arX = a 2
p
EX = a
xito,
que ocurre
con probabilidad constante p. En ese caso, la variable aleatoria X que cuenta el nmero de fracasos hasta
que ocurre el
k-simo
xito sigue una BN (k, p). En este caso, adems, y dado que (r) = (r 1)! si r es un
entero,
(k + x 1)! k
x
p (1 p) para x = 0, 1, 2, ...
(k 1)!x!
!
k+x1
x
=
pk (1 p) para x = 0, 1, 2, ...
k1
f (x) =
Caracterizacin de la distribucin binomial negativa. Sean X1 , ..., Xn v.a. independientesa con distribucin Geo (p). En ese caso, X =
Pn
i=1
es un entero.
a Podemos quedarnos por ahora con la idea de que v.a. independientes son aquellas tales que el resultado de cualquiera de
ellas no afecta al resto.
Ejemplo.
to, cuntos dgitos se transmitirn correctamente hasta que dos lo hagan incorrectamente? De nuevo
tenemos que asumir que no hay una respuesta para esto, pero s podemos considerar un modelo de
probabilidad para ello que nos ayude a tomar decisiones.
Sea Z :
BN (2, 0.2). Gracias a este modelo, podemos decirle al ingeniero, por ejemplo, que la probabilidad de
que se le crucen 2 dgitos con 10 o menos envos es
P [Z 8] =
8
X
z=0
72
P [Z = z] =
8
X
(2 + z 1)!
z=0
(2 1)!z!
0.1
0.06
BN(2.5,0.25)
BN(5,0.25)
0.04
0.05
0.02
0
10
10
20
30
0
10
40
0.4
10
20
BN(5,0.5)
0.3
0.15
0.2
0.1
0.1
0.05
0
10
20
30
40
0.8
0
10
10
20
30
40
0.4
BN(2.5,0.75)
BN(5,0.75)
0.6
0.3
0.4
0.2
0.2
0.1
0
10
40
0.2
BN(2.5,0.5)
0
10
30
10
20
30
40
0
10
10
20
30
40
continua
intervalos, formando, por tanto, un conjunto con un nmero innito no numerable de elementos.
4.4.2. Histograma
Hay una diferencia fundamental entre las variables discretas y las continuas: en las discretas podemos, al
menos, numerar los posibles valores y contar el nmero de veces que sale cada valor posible en una muestra.
Sin embargo, por el carcter que tienen los intervalos de nmeros reales, por muy grande que fuera la muestra
Prof. Dr. Antonio Jos Sez Castillo
73
0.2
0.4
Densidad
0.4
0.0
0.0
0.2
Densidad
0.6
0.6
0.8
0.8
74
histograma ms parecido al de la derecha de la Figura 4.6. En l, de nuevo, si queremos, por ejemplo, calcular
P [a < X < b] ,
deberamos sumar las reas de las barras que forman el intervalo (a, b), si es que hay intervalos que forman,
exactamente, el intervalo (a, b) .
Pero si el tamao de la muestra es lo sucientemente amplio para poder
pasar al lmite
y encontrar una
funcin real de variable real f (x) que represente la lnea que dene el histograma, calcular una probabilidad
del tipo P [a < X < b] sumando las reas de las barras de los intervalos innitesimales que forman el intervalo
P [a < X < b] =
f (x) dx.
a
P [a < X < b] =
f (x) dx
a
Nota.
Dado que a efectos del clculo de integrales un punto no afecta al resultado de la integral, si
P [a < X < b] =
f (x) ,
a
P [a X < b] =
f (x) ,
a
P [a < X b] =
f (x) ,
a
P [a X b] =
f (x) .
a
Este hecho pone de maniesto que los valores concretos de una variable aleatoria continua no tienen
masa de probabilidad, ya que
x0
P [X = x0 ] =
f (x) dx = 0,
x0
pero s tienen densidad de probabilidad, f (x0 ). Esta densidad de probabilidad representa la probabilidad
de los intervalos innitesimales de valores alrededor de x0 . As, aunque P [X = x0 ] = 0, si f (x0 ) toma
un valor alto, querr decir que los valores alrededor de x0 son muy probables.
75
f (x) = 1.
P [X B] =
f (x) dx.
B
como
F (x) = P [X x] =
f (t) dt.
Si X es una v.a. continua con funcin de densidad f (x) y funcin de distribucin F (x), entonces
1. lmx F (x) = 0.
2. lmx F (x) = 1.
3. F es creciente.
4. F es continua.
5. f (x) = F 0 (x) .
Ejemplo.
Considrese una variable aleatoria continua, X, con funcin de densidad f (x) = cea|x| .
1=
f (x) dx =
f (x) dx +
c exp (ax) dx +
f (x) dx
0
c exp (ax) dx =
0
2c
,
a
F (x) =
f (t) dt =
Por ltimo, P [X 0] =
1 ax
si x < 0
2e
1
1eax
si x
2 +
2
f (x) dx = 12 .
76
Ejemplo. Consideremos una v.a. continua con funcin de distribucin dada por
F (x) =
0 si x < 0
x si 0 x < 1 .
1 si x 1
(
0
f (x) = F (x) =
1 si 0 x 1
0 en otro caso
Grcamente, ambas funciones aparecen en la Figura 4.8. En esta variable, todos los puntos tienen la
misma densidad de probabilidad, indicando que todos los intervalos de la misma longitud, dentro de
versin muestral.
Concretamente, si tenemos una variable aleatoria X y una muestra suya de tamao N, (x1 , ..., xN ) , la funcin
SN (x) =
n
umero de valores x
.
N
Esta funcin se utiliza para aproximarse a la funcin de distribucin, ya que para un gran nmero de valores,
Prof. Dr. Antonio Jos Sez Castillo
77
lm SN (x) = F (x) ,
para cada x.
Ejemplo. En el ejemplo anterior se hablaba de una variable aleatoria continua cuya funcin de distribucin es
F (x) =
0 si x < 0
x si x [0, 1] .
1 si x > 1
En la Figura 4.9 hemos representado dos funciones de distribucin empricas asociadas a sendas muestras
de tamao N = 10 (izquierda) y N = 100 (derecha).
Obsrvese que cuando aumenta el tamao de la muestra (N ), la funcin de distribucin emprica se
parece cada vez ms a la funcin de distribucin.
x f (x)dx.
EX =
La interpretacin de la media de una v.a. continua es, de nuevo, la de un valor central alrededor del que se
dan el conjunto de realizaciones de la v.a. Otra interpretacin es la de
78
1
x2 x1
si x1 x x2
0 en otro caso
Calculemos su media:
x2
1
dx
x
x1
2
x1
2 x2
x
1 x2 x21
1
= 2
=
x2 x1
2 x1
2 x2 x1
EX =
1 (x2 x1 ) (x2 + x1 )
1
= (x1 + x2 ) ,
2
x2 x1
2
ex si x 0
0 en otro caso
79
Calculemos su media:
x ex dx
EX =
0
u=x
dv = ex dx
ex dx
=
x ex 0 +
0
1 x
1
=0+ e
= .
Vamos a introducir ahora el concepto de varianza de una v.a. continua, que de nuevo se interpreta como una
medida de la concentracin de los valores de la v.a. en torno a su media.
h
i
2
(X EX) .
Es decir, es la media de las desviaciones al cuadrado de los valores de la variable respecto de su media.
desviacin tpica.
Como en el caso de las v.a. discretas, existe un mtodo ms cmodo para el clculo de cualquier varianza.
En concreto,
h
i
h
i
2
2
V ar [X] = E (X EX) = E X 2 2X EX + (EX)
2
2
= E X 2 2 EX EX + (EX) = E X 2 (EX) .
Como se comentaba anteriormente, la interpretacin de la varianza es la de un promedio que mide la distancia
de los valores de la variable a la media de sta. Si la varianza es pequea, indica una alta concentracin de
los valores de la variable en torno a la media; y viceversa, si la varianza es grande, indica alta dispersin de
los valores de la variable respecto de la media.
1
x2 x1
0 en otro caso
x2
E X2 =
x2
x1
si x1 x x2
1
1 x32 x31
dx =
x2 x1
3 x2 x1
x2 + x1 x2 + x21
= 2
.
3
80
EX =
x1 + x2
,
2
por tanto,
V ar [X] = E X 2 EX 2
2
(x1 + x2 )
(x2 x1 )
x22 + x1 x2 + x21
=
.
3
4
12
E [aX + b] = aE [X] + b
V ar [aX + b] = a2 V arX
Nota. Si tenemos una coleccin de variables aleatorias independientes, es decir, que son observadas sin
que ninguna de ellas pueda inuir sobre las otras, es muy til plantearse en ocasiones por la media y la
varianza de la suma de todas ellas.
Vamos a considerar las variables X1 , ..., Xn , que pueden ser discretas o continuas. Pues bien, se tiene que
la media de la suma es la suma de las medias y que la varianza de la suma es la suma de las varianzas;
81
es decir,
uniforme entre x1 y x2
(
f (x) =
1
x2 x1
si x1 < x < x2
0 en otro caso
x1 + x2
2
2
(x2 x1 )
V arX =
.
12
EX =
82
Sea X una v.a. continua que puede tomar valores x 0. Se dice que X sigue una distribucin
exponencial
ex si x 0
.
0 en otro caso
F (x) = P [X x] =
1 ex si x 0
.
0 en otro caso
1
V arX = 2 .
EX =
Caracterizacin de la distribucin exponencial. Sea X P () una v.a. discreta que cuenta el nmero
de xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre dos xitos consecutivos,
Ejemplo. Un elemento radiactivo emite partculas segn una variable de Poisson con un promedio de
15 partculas por minuto. En ese caso, el tiempo, T , que transcurre entre la emisin de una partcula y
la siguiente sigue una distribucin exponencial de parmetro = 15 partculas por minuto. Este modelo
nos permite, por ejemplo, calcular la probabilidad de que entre partcula y partcula pasen ms de 10
segundos, dado por
15e15t dt = e15/6 .
P [T > 10/60] =
1/6
Ejemplo.
contexto de las redes de comunicaciones como modelo para el nmero de solicitudes a un servidor por
unidad de tiempo. Segn esta caracterizacin que acabamos de ver, eso equivale a decir que el tiempo
que pasa entre dos solicitudes a un servidor sigue una distribucin exponencial.
Por ejemplo, supongamos que el nmero de conexiones a un servidor FTP sigue una distribucin de
Poisson de media 2.5 conexiones a la hora. En ese caso, podramos preguntarnos cul es la probabilidad
de que pasen ms de dos horas sin que se produzca ninguna conexin. Teniendo en cuenta que el tiempo
entre conexiones seguira una distribucin exponencial de parmetro 2.5, esa probabilidad sera
2.5e2.5x dx = e5
P [T > 2] =
2
83
o bien
P [T > 2] = 1 P [T 2] = 1 FT (2) = 1 1 e2.52 = e5 .
propiedad de no
Si X es una v.a. con distribucin exp() y t y s son dos nmeros positivos. Entonces:
P [X > t + s X > s]
P [X > t + s]
=
P [X > s]
P [X > s]
e(s+t)
= et = P [X > t]
es
Ejemplo. El tiempo de vida, T , de un circuito, sigue una distribucin exponencial de media dos aos.
Calculemos la probabilidad de que un circuito dure ms de tres aos:
1
P [T > 3] = e 2 3
Supongamos que un circuito lleva 5 aos funcionando, y que nos planteamos la probabilidad de que an
funcione 3 aos ms. Segn la propiedad de no memoria, esa probabilidad es la misma que si el circuito
acabara de comenzar a funcionar, es decir,
1
distribucin Gamma de
f (x) =
donde (x) =
(x)
ex
u (x) ,
(a)
84
1
exp(1)
0.5
10
12
14
16
18
20
0.2
exp(5)
0.15
0.1
0.05
0
10
12
14
16
18
20
0.1
exp(10)
0.05
10
12
14
16
18
20
Erlang. Lo que la hace interesante es que esta distribucin se utiliza como modelo
a
V arX = 2 .
EX =
Caracterizacin de la distribucin Gamma. Sea X P () una v.a. discreta que cuenta el nmero de
xitos en un determinado periodo de tiempo. En ese caso, el tiempo que pasa entre el ksimo xito y el
k + r, T , es una v.a. que sigue una Gamma (r, ). Dado que r es un entero, en realidad es una Erlang (r, ).
Caracterizacin de la distribucin Gamma. Sean X1 , ..., Xn v.a. independientes con distribucin exp ().
En ese caso, X =
Pn
i=1
Xi sigue una Gamma (n, ). De nuevo obsrvese que el primer parmetro es un entero,
85
0.00
0.10
0.20
Gamma(2.5,1)
10
15
20
25
30
0.00
0.02
0.04
Gamma(2.5,0.2)
10
15
20
25
10
15
20
10
15
10
15
0.020
0.010
0.000
Gamma(2.5,0.1)
25
20
25
30
Gamma(5,0.2)
30
0.030
0.06
Gamma(5,1)
20
25
30
Gamma(5,0.1)
30
10
15
20
25
30
(x )
f (x) =
exp
2
2 2
2
1
#
para todo x R.
Obsrvese que es la nica distribucin que hemos visto hasta ahora que toma todos los valores entre y
+.
Sea X N (, ). Entonces
EX =
V arX = 2 .
El propio nombre de la distribucin normal indica su frecuente uso en cualquier mbito cientco y tecnolgico.
Este uso tan extendido se justica por la frecuencia o normalidad con la que ciertos fenmenos tienden a
parecerse en su comportamiento a esta distribucin, ya que muchas variables aleatorias continuas presentan
una funcin de densidad cuya grca tiene forma de campana. Esto, a su vez, es debido a que hay muchas
variables asociadas a fenmenos naturales cuyas caractersticas son compatibles con el modelo aleatorio que
supone el modelo de la normal:
Caracteres morfolgicos de individuos (personas, animales, plantas, ...) de una especie (tallas, pesos,
envergaduras, dimetros, permetros, ...).
86
0.4
0.1
N(0,4)
N(0,1)
0.3
0.2
0.05
0.1
0
10
10
0.4
0
10
10
0.1
N(1,1)
N(1,4)
0.3
0.2
0.05
0.1
0
10
10
0.4
0
10
10
0.1
N(1,1)
N(1,4)
0.3
0.2
0.05
0.1
0
10
10
0
10
10
87
Sea X N (, ). Entonces,
Z=
propiedad que suele conocerse como
X
N (0, 1) ,
tipicacin de la normal.
Esta conocida propiedad tiene una aplicacin prctica muy usual. Dadas las caractersticas de la densidad
gaussiana, no es posible calcular probabilidades asociadas a la normal de forma exacta, ya que las integrales
del tipo
"
(x )
exp
2
2 2
2
1
#
dx
no pueden ser expresadas en trminos de las funciones usuales, y slo pueden calcularse por mtodos numricos. No obstante, existen tablas donde aparecen multitud de valores de la funcin de distribucin de la
distribucin N (0, 1) y a partir de ellos se pueden calcular otras tantas probabilidades, utilizando la propiedad
de tipicacin. Por ejemplo, si queremos calcular la probabilidad de que una variable X N (, ) est en
el intervalo [a, b], tenemos
P [a X b] = P
a
X
b
b
a
= FZ
FZ
,
donde FZ () es la funcin de distribucin de una variable Z N (0, 1), que puede evaluarse mediante el uso
de tablas. Vamos a verlo en un ejemplo.
Ejemplo. En el artculo ndices de relacin peso-talla como indicadores de masa muscular en el adulto
del sexo masculino de la revista Revista Cubana Aliment. Nutr. (1998;12(2):91-5) aparece un
colectivo de varones con un peso cuya media y desviacin estndar son, respectivamente, 65.6 y 11.7.
1. Cmo podemos, mediante las tablas de la N (0, 1), calcular, por ejemplo, la probabilidad de que
uno de esos varones pese ms de 76.25 kilos?
P [X > 76.25] = P
76.25 65.6
X 65.6
>
11.7
11.7
X 65.6
60 65.6
P [X < 60] = P
<
11.7
11.7
P [60 < X < 76.25] = P [X < 76.25] P [X < 60] = 0.819 (1 0.684)
88
Figura 4.13: Bsqueda de probabilidades en la tabla de la N (0, 1). Valor de la probabilidad a la izquierda de
0.91
4. Cunto pesar aquel varn tal que un 5 % de varones de ese colectivo pesan ms que l? Es decir,
cul ser el valor de x tal que P [X > x] = 0.05 o, equivalentemente, P [X < x] = 0.95. Dado que
P [X < x] = P
x 65.6
x 65.6
X 65.6
<
=P Z<
11.7
11.7
11.7
x65.6
11.7
89
Figura 4.14: Bsqueda de valores z en la tabla de la N (0, 1). Valor de Z que deja a la derecha una probabilidad
de 0.95
de probabilidad, distribucin de media X y desviacin tpica X . En ese caso, la suma de estas variables
sigue aproximadamente una distribucin normal cuando N es elevado, es decir,
N
X
Xi N N X , N X .
i=1
PN
Xi N X
N (0, 1) .
N X
i=1
Este teorema es el que proporciona una justicacin matemtica del porqu la distribucin gaussiana es un
modelo adecuado para un gran nmero de fenmenos reales en donde la v.a. observada en un momento dado
es el resultado de sumar un gran nmero de sucesos aleatorios elementales.
PN
variables
q independientes con distribucin U [0, 1]. Segn el teorema
N
12 . Para poner este resultado de maniesto se ha realizado
i=1 Xi N 0.5N,
el siguiente experimento:
Para N = 1, 2, 5 y 10, se ha simulado una muestra de 10000 datos de
90
PN
i=1
Xi , dibujando su histograma
140
250
N=1
N=2
120
200
100
80
150
60
100
40
50
20
0
0.2
0.4
0.6
0.8
300
0.5
1.5
350
N=5
N=10
300
250
250
200
200
150
150
100
100
50
0
50
0
10
en cada caso. Estos histogramas aparecen en la Figura 4.15. En ella se pone de maniesto como segn
Ejemplo. Supongamos que estamos realizando un examen de 150 preguntas, cada una de ellas con una
puntuacin de 1 punto y que en funcin de cmo hemos estudiado, consideramos que la probabilidad
de contestar acertadamente una pregunta cualquiera es de 0.7. Dmonos cuenta que el resultado de una
pregunta cualquiera sigue una distribucin B (1, 0.7), cuya media es 1 0.7 = 0.7 y cuya varianza es
N 150 0.7, 150 0.21 ,
es decir, X N (105, 5.612) . As, si por ejemplo, nos planteamos cul es la probabilidad de aprobar,
sta ser
N (, / N )
X
91
Ejemplo. Un ingeniero disea un aparato de medida que realiza una aproximacin ms imprecisa que
el aparato tradicional pero mucho ms barata. Para reducir el margen de error de la medida realizada,
el ingeniero propondr que se realicen un nmero determinado de medidas sobre el mismo objeto y que
se considere la media de estas medidas como valor nal de la medida del objeto.
Inicialmente, el ingeniero hace una valoracin que le lleva a concluir que el aparato est bien calibrado,
es decir, que la media de la medida del aparato coincide con la medida real, y que la desviacin tpica
de las medidas del aparato es igual a 0.75.
Cuntas medidas debe proponer el ingeniero para que el error de medida sea inferior a 0.1 con un 95 %
de probabilidad?
Empecemos considerando que cada medida, Xi , tiene como media el verdadero
valor de la medida del
Pn
i=1 Xi
interesa conocer el valor de n. Para ello, tengamos en cuenta que se nos pide que
x0 < 0.1 0.95.
P X
N x0 , 0.75
. Por su parte,
y que, considerando el Teorema Central del Lmite, X
n
x0 < 0.1 = P x0 0.1 < X
< x0 + 0.1 = P 0.1 n < Z < 0.1 n
P X
0.75
0.75
0.1 n
.
=12 1P Z <
0.75
h
x0 < 0.1 0.95, entonces P Z <
Si queremos que P X
i
0.1 n
0.75
0.975, de donde
0.1 n
0.75
1.96 y
entonces, n 216.09.
Como conclusin, ms le vale al ingeniero disminuir la desviacin tpica del aparato de medida.
grosso modo,
cuantil
sntesis de ellas.
de una v.a. X . Sea sta discreta o continua, denominemos f (x) a su funcin masa o de densidad.
Se dene el cuantil p, Qp de su distribucin como el primer valor, x, de la variable tal que P [X x] p:
Si la variable es discreta, Qp ser, por tanto, el primer valor tal que
f (x) p.
xi x
92
Ntese que, al ser la variable discreta, puede que no logremos obtener una igualdad del tipo
xi x
f (x) =
p.
Si la variable es continua, Qp s puede obtenerse como el valor x tal que
f (t) dt = p,
o lo que es lo mismo, como el valor x tal que F (x) = p, siendo F la funcin de distribucin de la
variable.
Es muy frecuente que la probabilidad p a la que se asocia un cuantil se exprese en porcentaje. En ese caso,
los cuantiles tambin se pueden llamar percentiles. Por ejemplo, el cuantil 0.5 es el percentil 50, la mediana.
Desde luego, lo ms importante es que interpretemos qu signica el cuantil p de una v.a. Como en Estadstica
Descriptiva, se reere al valor de la variable que deja por debajo de s una proporcin p de valores de la variable.
Entonces, si un valor concreto corresponde con un cuantil
alto,
alto
dentro de la distribucin de probabilidad de la variable, y viceversa. Vamos a tratar de aclararlo con algunos
ejemplos.
duracin media
es de 8 aos (lo cul, por cierto, tambin podra ser objeto de controversia).
En segundo lugar, dado que tenemos que proponer un modelo de distribucin de probabilidad para la duracin de la lmpara, vamos a considerar el ms sencillo que suele emplearse en este tipo de aplicaciones:
la distribucin exponencial. Esta hiptesis tambin podra ser discutida, pero otros modelos ms complejos,
como la distribucin Weibull, complicaran bastante nuestros clculos que, por otra parte, tienen slo nes
ilustrativos.
Por tanto, vamos a suponer que la duracin de la bombilla es una variable aleatoria, D, con distribucin
exponencial de media 8 aos y, por tanto, con parmetro = 1/8. Ahora que ya tenemos un modelo
probabilstico podemos plantearnos muchas cosas:
Es muy probable que la lmpara alcance su vida media?
P [D > 8] =
8
1 x
e 8 dx = e8/8 = 0.3678794.
8
Obsrvese que eso es algo que ocurrir con cualquier exponencial: la probabilidad de que se supere la
media es slo del 36.79 %. Dicho de otra forma, la media es el percentil 63 aproximadamente, lo que
implica que slo el 37 % aproximadamente de las lmparas superan su vida media... sorprendente?
Prof. Dr. Antonio Jos Sez Castillo
93
1 eM e = 0.5,
que resulta ser M e =
log0.5
cmo est.
basta con que me diga cunto pesa y mide mi hijo o mi hija, sino que me diga cunto pesa y cunto mide en
relacin con los nios o nias de su misma edad. En esa cuestin es dnde entran los percentiles.
En este caso jugamos con la ventaja de que se han hecho multitud de estudios previos que determinan que
tanto el peso como la altura son variables que siguen una distribucin normal. Ms an, se han determinado
las medias y las desviaciones tpicas de nios y nias desde los 0 meses hasta la edad adulta.
Vamos a ponernos en una situacin concreta, centrndonos en el peso. Tengo un hijo de tres meses que pesa
5.6 kilos. La pregunta es
sabe por estudios
previos2
En cualquier caso,
El pediatra
que el peso de nios de tres meses es una N (6, 1.2). Lo que se plantea es en qu
posicin se sita el peso de mi hijo, 5.6 kilos, dentro de esa distribucin. Si X es el peso, dado que
P [X 5.6] = 0.369,
el pediatra me dir que mi hijo est en el percentil 37, lo que quiere decir que es un peln bajo de peso, pero
dentro de niveles razonables.
2 Fuente:
94
http://www.familia.cl/salud/curvas_de_crecimiento/curvas_de_crecimiento.htm
Prof. Dr. Antonio Jos Sez Castillo
95
96
Captulo 5
Variables aleatorias con distribucin
conjunta
Resumen. En el estudio de las variables aleatorias hemos pasado por alto el hecho de que un conjunto de
dos o ms variables puede verse afectado por una serie de relaciones entre ellas. El anlisis desde el punto
de vista estadstico de estas relaciones es el objetivo de este captulo. Como caso especial, describiremos de
forma detallada el modelo que para estas relaciones proporciona la distribucin normal multivariante
Palabras clave: distribucin conjunta, distribucin marginal, distribucin condicionada, covarianza, coeciente de correlacin, normal multivariante.
5.1. Introduccin
El mundo real est repleto de relaciones a todos los niveles. Nosotros, por razones obvias, estaremos interesados principalmente en las relaciones que afectan a variables que describen fenmenos propios del ambiente
cientco-tecnolgico. Estas relaciones pueden tener muy diversas tipologias. Por ejemplo, podramos pensar
en relaciones causa-efecto, como la que, por ejemplo, explicara que una pgina Web tenga un tamao considerable
debido
a que lleva incrustado varios archivos de vdeo y audio, o la que se establece entre la edad
en aos de un vestigio y su contenido en carbono 141 . Pero no slo tendremos relaciones causa-efecto: por
ejemplo, sabemos que el peso y la estatura de un ser humano son variables muy relacionadas, hasta el punto
que no podemos decir que una persona este obesa slo con saber su peso, sino que debemos valorarlo
relacin a
en
su estatura.
Por otra parte, cuando un fenmeno es determinstico y est bien estudiado, las relaciones entre variables
son leyes ms o menos sencillas, pero, en cualquier caso, son inmutables. Por ejemplo,
densidad =
1 Relacin
masa
.
vol.
97
Pero, qu ocurre cuando el fenmeno es aleatorio? Las variables en ese caso son aleatorias y las relaciones que
se puedan dar entre ellas no siempre tienen por qu obedecer a una ley objetiva e inamovible. Por ejemplo,
todos somos conscientes de que, como decamos, existe una relacin entre el peso y la altura de una persona,
pero no existe una
razn de conversin
evidente que el tiempo de descarga de una pgina web estar relacionado con el tamao de los archivos que
la conguran, pero cmo de
evidente ?
X1
.
.
.
XN
es un
Hablaremos de
vectores aleatorios continuos o vectores aleatorios discretos cuando cada una de sus
vectores mixtos,
pero su tratamiento
Ejemplo. Consideremos el valor de una seal analgica que depende del tiempo, x (t). En esta notacin,
entendemos que el valor de la seal podra ser distinto en cada instante de tiempo t. Es muy frecuente
que la seal se observe realmente contaminada por un ruido aleatorio que tambin depender del tiempo,
x (t1 ) + N (t1 )
..
x (tn ) + N (tn )
es un vector aleatorio.
Ejemplo. Se estudia el tiempo que un usuario de Internet dedica a ver una pgina WEB (T ) en relacin
con variables como la cantidad de texto que contiene (T x), el nmero de imgenes (I) y animaciones
Flash (F ) de la pgina. Entonces, el vector
Tx
es un vector aleatorio.
98
Ejemplo. Se contabiliza la duracin de las llamadas telefnicas a una centralita. Para cada conjunto de
n-usuarios
de la centralita, cada uno de ellos ocupa un tiempo Ti en su llamada. En ese caso, el vector
T1
.
.
.
Tn
es un vector aleatorio.
se reparte la probabilidad entre todos los posibles resultados del vector. Para describirla vamos a denir los
conceptos de funcin de densidad o funcin masa anlogos a los asociados a una variable aleatoria.
Sea (X1 , ..., XN ) un vector aleatorio discreto. Entonces, se dene su
P (X1 , ..., XN ) A RN =
...
ARN
99
Por ello,
x
x y
ce
1=
0
dy dx =
c
cex 1 ex dx = ,
2
de donde c = 2.
En segundo lugar, por ejemplo, calculemos
1y
2ex ey dxdy
P [X + Y 1] =
y
h
i
2ey ey e(1y) dy
=
0
1 2e + e2
=
.
e2
(ver Figura 5.1)
(
fX,Y (x, y) =
1
15
si 0 x 3, 0 y 5
0 en otro caso
Esta densidad constante en el rectngulo denido indica que la distribucin de probabilidad es uniforme
en dicho rectngulo. Vamos a calcular la probabilidad de que Y sea mayor que X (ver Figura 5.2)
P [Y > X] =
0
1
dy dx
15
5x
=
dx
15
0
x x2 3 7
=
| =
.
3
30 0 10
100
distribucin marginal.
Sea (X1 , ..., XN ) un vector aleatorio y (Xi1 , ..., Xik ) un subvector de variables suyo. En ese caso:
Si el vector es continuo,
...
xj
/ (xi1 ,...,xik )
dxj .
xj
/ (xi1 ,...,xik )
Si el vector es discreto,
xj
/ (xi1 ,...,xik )
Ejemplo. Sea el vector bidimensional (X, Y ) con funcin de densidad conjunta fX,Y
(x, y) = x ex(y+1)
para x, y > 0.
La funcin de densidad marginal de X ,
fX (x) =
xex(y+1) dy = ex
fX,Y (x, y) dy =
0
para x > 0.
Anlogamente, la funcin de densidad marginal de Y ,
xex(y+1) dx =
fX,Y (x, y) dx =
fY (y) =
1
(1 + y)
para y > 0.
101
Ejemplo. Consideremos dos variables discretas, Q y G, cuya funcin masa, fQ,G (q, g) , viene dada por
fQ,G (q, g)
g=0
g=1
g=2
g=3
q=0
0.06
0.18
0.24
0.12 .
q=1
0.04
0.12
0.16
0.08
fQ (q) =
fQ,G (q, g)
(
=
=
y
0.06 + 0.04
0.18 + 0.12
fG (g) =
0.24 + 0.16
0.12 + 0.08
si g = 0
si g = 1
si g = 2
si g = 3
1
15
si 0 x 3, 0 y 5
0 en otro caso
fX (x) =
=
fX,Y (x, y) dy
( 5
1
dy si 0 x
0 15
102
0 en otro caso
(
1
3
si 0 x 3
0 en otro caso
fY (y) =
=
fX,Y (x, y) dx
( 3
1
dx si 0 y
0 15
0 en otro caso
(
1
5
si 0 y 5
0 en otro caso
e Y es
(
fX,Y (x, y) =
2x si 0 x 1, |y| < x2
0 en otro caso
fX (x) =
fX,Y (x, y) dy
( 2
x
x2
2xdy si 0 x 1
0 en otro caso
(
fY (y) =
4x3 si 0 x 1
0 en otro caso
fX,Y (x, y) dx
( 1
|y|
2xdx si 1 y 1
0 en otro caso
(
=
1 |y| si 1 y 1
0 en otro caso
formado por un subconjunto de variables de X , (Xi1 , ..., Xik ) , condicionada al hecho de que se han dado
determinados valores en otro subconjunto de variables de X, Xj1 = xj1 , ..., Xjl = xjl .
Prof. Dr. Antonio Jos Sez Castillo
103
condicionadas, segn
fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl )
fXj1 ,...,Xjl (xj1 , ..., xjl )
donde fXi1 ,...,Xik ,Xj1 ,...,Xjl (xi1 , ..., xik , xj1 , ..., xjl ) es la funcin masa o la funcin de densidad conjunta de
las variables Xi1 , ..., Xik , Xj1 , ..., Xjl y fXj1 ,...,Xjl (xj1 , ..., xjl ) es la funcin masa o la funcin de densidad
conjunta de las variables Xj1 , ..., Xjl .
En el caso ms habitual en el que el vector tenga dimensin dos, tenemos la densidad o la funcin masa de
X condicionada a Y = y,
fX|Y =y (x) =
fX,Y (x, y)
fY (y)
fY |X=x (y) =
fX,Y (x, y)
.
fX (x)
3/28
9/28
3/28
3/14
3/14
1/28
fX (x) =
3
3
1
28 + 14 + 28 si x = 0
9
3
28 + 14 + 0 si x = 1
3
28 + 0 + 0 si x = 2
fY (y) =
3
9
3
28 + 28 + 28 si y = 0
3
3
14 + 14 + 0 si y = 1
1
28 + 0 + 0 si y = 2
Como ejemplos de las condicionadas (hay 6 en total) calculemos la funcin masa de X condicionada a
Y = 1 y la de Y condicionada a X = 1.
fX|Y =1 (x) =
fY |X=1 (y) =
104
3
14
6
14
3
14
6
14
si x = 0
si x = 2
6
14
9
28
15
28
3
14
15
28
0
15
28
si x = 1 .
si y = 0
si x = 1 .
si x = 2
Prof. Dr. Antonio Jos Sez Castillo
Como es evidente, una vez que tenemos caracterizada la distribucin condicionada de una variable aleatoria
al valor de otra, cualquier caracterstica de dicha distribucin, como la media o la varianza, puede calcularse
a partir de su funcin masa o su funcin de densidad.
Ejemplo. Tal y como plantebamos al comienzo del captulo, supongamos que la posicin (X, Y ) de un
telfono mvil que recibe cobertura de una antena de telefona se encuentra dentro de un crculo de radio
r alrededor de esa antena, que supondremos sin prdida de generalidad que se encuentra en el origen
del plano. Vamos a suponer que esa posicin es
completamente al azar
considerar que la densidad conjunta debe ser constante en el crculo; para que su integral sea la unidad,
es evidente que
fX,Y (x, y) =
1
r2
si x2 + y 2 r2 y cero en cualquier punto fuera del crculo. Vamos a ver qu podemos averiguar sobre las
coordenadas X e Y por separado (marginales) y sobre cmo afectan la una a la otra (condicionadas).
En primer lugar,
fX (x) =
r 2 x2
r 2 x2
2 r 2 x2
1
dy
=
r2
r2
p
r2 y2
fY (y) =
r2
2
si r < y < r. Est claro que para cada coordenada por separado, los puntos ms
densos, ms probables,
fX,Y (x, y0 )
1
= p
2
fY (y0 )
2 r y02
p
p
si r2 y02 < x < r2 y02 . Anlogamente,
fY |X=x0 (y) =
fX,Y (x0 , y)
1
= p
fX (x0 )
2 r2 x20
p
p
si r2 x20 < y < r2 x20 . Si nos damos cuenta, ambas son distribuciones uniformes, lo que equivale
a decir que saber una coordenada no me da ninguna informacin sobre la otra coordenada.
Ejemplo. A las 12 de la noche de un da de la semana comienzan a ser registrados las nuevas llamadas
a un switch de telefona. Sea X el instante de llegada de la primera llamada, medida en segundos
transcurridos tras la medianoche. Sea Y el instante de llegada de la segunda llamada. En el modelo ms
105
habitual utilizado en telefona, X e Y son variables aleatorias continuas con densidad conjunta dada por
(
fX,Y (x, y) =
2 ey si 0 x < y
0 en otro caso
donde es una constante positiva. Vamos a calcular las distribuciones marginales y condicionadas que
pueden darse:
Marginal de X :
2 ey dy = ex si 0 x,
fX (x) =
x
2 ey dx = 2 yey si y 0.
fY (y) =
0
Si nos jamos, esta densidad es una Gamma (2, ), es decir una Erlang de parmetros 2 y .
Condicionada de Y a los valores de X :
fY /X=x (y) =
fX,Y (x, y)
= e(yx) si y > x.
fX (x)
fX/Y =y (x) =
1
fX,Y (x, y)
= si 0 x < y.
fY (y)
y
Es decir, conocido el instante en que lleg la segunda llamada (y), no se sabe nada de cundo lleg
la primera llamada, ya que la distribucin de X condicionada a Y = y es uniforme en (0, y).
Ejemplo. Consideremos que la variable X representa el input de un canal de comunicacin, con posibles
valores +1 y 1 equiprobables, y sea Y el dgito que llega al destino, con valores tambin +1 y 1. El
canal es un canal binario simtrico con probabilidad de cruce del 5 %.
Con los datos expuestos podemos caracterizar mediante sus funciones masa las distribuciones marginales
de X e Y , la distribucin conjunta de ambos y las dos distribuciones condicionadas posibles de cada
variable respecto de la otra.
La distribucin marginal de X viene dada por
(
fX (x) =
106
1
2 si x = 1
1
2 si x = 1
(
fY (y) =
1
2 si y = 1
1
2 si y = 1
(
fY |X=+1 (y) =
0.95 si y = 1
0.05 si y = 1
(
fY |X=1 (y) =
0.95 si y = 1
0.05 si y = 1
fX,Y (x, y) = P [Y = y | X = x] P [X = x]
0.95 0.5 si x = 1, y = 1
0
en otro caso
La distribucin de X condicionada al suceso Y = +1 viene dada por
0.95 si x = 1
.
0.05 si x = 1
fX,Y (x, 1)
fX|Y =1 (x) =
=
fY (1)
0.05 si x = 1
0.95 si x = 1
107
Esta denicin puede extenderse al caso en que tengamos dos variables aleatorias X e Y .
donde fX,Y (), fX () y fY () son funcin de densidad o funcin masa, dependiendo de si las variables son
discretas o continuas.
La interpretacin del hecho de que dos variables aleatorias sean estadsticamente independientes es que el
comportamiento de una no tiene ningn efecto sobre la otra y viceversa. Cabe preguntarse en ese caso, qu
sentido tiene una distribucin condicionada de una variable a otra que no guarda ninguna relacin con ella.
Vamos a comprobarlo calculando las distribuciones condicionadas de variables aleatorias estadsticamente
independientes:
fX|Y =y (x) =
fX (x) fY (y)
fX,Y (x, y)
=
= fX (x) ;
fY (y)
fY (y)
es decir, el comportamiento aleatorio de una variable aleatoria condicionada al valor de otra que es estadsticamente independiente de ella (descrito mediante la funcin fX|Y =y (x)) es completamente igual que si no
se condiciona a dicho valor (descrito por la funcin fX (x)).
24xy si x, y 0 y x + y 1
0 en otro caso
1x
24xy dy = 12x (1 x) si 0 x 1
fX (x) =
0
1y
24xy dx = 12y (1 y) si 0 y 1.
fY (y) =
0
Como
108
4xy si 0 x, y y x, y 1
0 en otro caso
4xy dy = 2x si 0 x 1
fX (x) =
0
4xy dx = 2y si 0 y 1.
fY (y) =
0
Como
Ejemplo. Supongamos que dos componentes electrnicas tienen una duracin cuya distribucin de probabilidad puede considerarse exponencial de parmetro = 2 horas1 . Las componentes funcionan en
paralelo, por lo que podemos considerar que son independientes. Por lo tanto, su funcin de densidad
conjunta ser
2x
4e2(x+y) dydx
P [X + Y < 2] =
0
0
2
h
i
2e2x 1 e2(2x) dx
2e2x 2e4 dx
=
0
= 1 e4 2e4 2
= 1 5e4
De la interpretacin que hemos dado de variables independientes se sigue de manera inmediata que si dos
variables aleatorias son independientes, esto es, no mantienen ninguna relacin, tampoco lo harn funciones
Prof. Dr. Antonio Jos Sez Castillo
109
suyas. Este hecho se recoge en el siguiente resultado. Lo podemos enunciar ms formalmente diciendo que si
de convolucin.
fY (y) fX (w y) dy
fW (w) =
= fX fY (w)
donde fX y fY son las funciones de densidad de X e Y , respectivamente.
Si X e Y son discretas,
fW (w) =
fY (y) fX (w y)
= fX fY (w)
donde fX y fY son las funciones masa de X e Y , respectivamente.
Ejemplo.
Un sistema opera con una componente clave cuya duracin, T1 , sigue una distribucin ex-
fTi (x) = ex , i = 1, 2,
para x > 0. Por tanto,
ex e(zx) dx = 2 zez
fT (z) =
0
para z > 0. Como vemos, se trata de una distribucin Erlang de parmetros 2 y . Si recordamos, esta
era una de las caracterizaciones de la distribucin Erlang, suma de exponenciales independientes.
En el caso de que en vez de dos variables aleatorias se tenga un vector X = (X1 , ..., XN ) , la manera natural
de extender el concepto de independencia es inmediata.
110
componentes independientes si
independientes si
E [g (X1 , ..., XN )] =
...
donde fX1 ,...,XN (x1 , ..., xN ) es la funcin de densidad o la funcin masa del vector aleatorio (entendiendo en
este ltimo caso la integral como una suma).
Como consecuencia inmediata de esta denicin, tenemos una primera e importante propiedad: este operador
esperanza multivariante tambin es lineal, en el sentido que se recoge en el siguiente resultado.
0
Concretamente, podemos formalizarlo diciendo que si tenemos un vector aleatorio (X1 , ..., XN ) y 1 , ..., N
escalares cualesquiera, entonces
parte
111
correlacin entre X
e Y como
covarianza entre
X e Y como
Cov [X, Y ]
= p
.
V ar [X] V ar [Y ]
Vamos a detallar claramente los posibles valores de y su interpretacin:
Este coeciente es siempre un nmero real entre -1 y 1.
Si es cero, indica una ausencia total de relacin lineal entre las variables.
Si es uno o menos uno indica una relacin lineal total entre las variables, directa o inversa segn lo
indique el signo (esto lo veremos enseguida).
En la medida en que est ms lejos del cero indica una relacin lineal ms intensa entre las variables.
Si dos variables aleatorias tienen covarianza cero o equivalentemente, si RXY = EX EY, se dicen que son
incorreladas. Por su parte, si dos variables aleatorias son tales que RXY
ortogonales.
Dos variables aleatorias son incorreladas si carecen de cualquier tipo de relacin lineal. Por otra parte, denimos anteriormente el concepto de independencia entre variable aleatoria, que implicaba la ausencia de relacin
entre ellas. Tenemos, as, dos conceptos, independencia e incorrelacin, que estn bastante relacionados.
En concreto, dos variable aleatoria independientes, X e Y , son siempre incorreladas, es decir, X,Y = 0. La
razn es que, por ser independientes,
112
luego
RXY =
xy fX (x) fY (y) dy dx
yfY (y) dy = EX EY,
xfX (x) dx
Ejemplo. Sea una variable aleatoria con distribucin uniforme en (0, 2). Sean
X = cos
Y = sin .
Se tiene que
EX =
cos
1
d = 0
2
sin
1
d = 0
2
EY =
0
E [XY ] =
sin cos
0
1
=
2
1
d
2
sin 2d = 0,
0
por lo que X e Y son variables incorreladas. Sin embargo, puede demostrarse fcilmente que no son
independientes.
Nota.
La relacin ms fuerte de tipo lineal que puede darse corresponde al caso en que una variable
XY = 1 signo (a) .
La demostracin es muy sencilla. Tengamos en cuenta que
E [XY ] = E [X (aX + b)] = aE X 2 + bE [X] ,
113
luego
XY =
aV arX
Cov (X, Y )
=
= 1 signo (a) .
V arX V arY
V arXa2 V arX
114
dado de la muestra del par (X, Y ). Aparecen 4 guras, correspondientes a 4 simulaciones de pares de variables
ro=1
ro=1
5
4
3
2
2
0
2
4
4
0
2
1
4
ro=0
ro=0.7075
2
1
1
2
2
3
4
4
4
Figura 5.4: Nubes de puntos correspondientes a distintos posibles coecientes de correlacin lineal.
Ejemplo. Sean X
e Y las variable aleatoria que miden el tiempo que transcurre hasta la primera y la
segunda llamada, respectivamente, a una centralita telefnica. La densidad conjunta de estas variables
es fX,Y (x, y) = ey para 0 < x < y . En un ejemplo anterior ya vimos que, lgicamente, el tiempo hasta
la segunda llamada depende del tiempo hasta la primera llamada, pero en qu grado? Vamos a abordar
este problema calculando el coeciente de correlacin lineal entre ambas variables.
115
Como X,Y =
Cov(X,Y )
V arXV arY
y
xyey dxdy =
=
0
3
yey
x2
2
y
dy
0
y y
e dy = 3.
2
=
0
fX (x) =
ey dy = ex , para x > 0,
fX,Y (x, y) dy =
x
luego
EX =
xex dx = 1.
xfX (x) dx =
0
fY (y) =
fX,Y (x, y) dx =
0
luego
EY =
y 2 ey dy = 2.
yfY (y) dy =
0
Por tanto,
Cov (X, Y ) = 3 1 2 = 1.
Por su parte,
E X2 =
x2 ex dx = 2
x fX (x) dx =
0
V arX = 2 12 = 1
y
E Y2 =
y 3 ey dy = 6
y 2 fY (y) dy =
0
V arY = 6 22 = 2,
as que, nalmente,
X,Y =
1
= 0.707.
12
Las propiedades del operador esperanza son muy tiles en la prctica, por ejemplo, cuando se trata de conocer
la varianza de combinaciones lineales de varias variables. Veamos algn ejemplo al respecto y despus un
resultado general que los englobe todos.
116
h
i
2
2
V ar (X1 + X2 ) = E (X1 + X2 ) E [X1 + X2 ]
2
= E X12 + E X22 + 2E [X1 X2 ] (EX1 + EX2 )
2
2
= E X1 + E X2 + 2E [X1 X2 ] EX12 EX22 2EX1 EX2
= E X12 EX12 + E X22 EX22 + 2 (E [X1 X2 EX1 EX2 ])
= V arX1 + V arX2 + 2Cov (X1 , X2 ) .
h
i
2
2
V ar (X1 X2 ) = E (X1 X2 ) E [X1 X2 ]
2
= E X12 + E X22 2E [X1 X2 ] (EX1 EX2 )
2
2
= E X1 + E X2 2E [X1 X2 ] EX12 EX22 + 2EX1 EX2
= E X12 EX12 + E X22 EX22 2 (E [X1 X2 EX1 EX2 ])
= V arX1 + V arX2 2Cov (X1 , X2 ) .
Podemos generalizar estos ejemplos en el siguiente resultado. Sea una suma de N variables, X =
PN
i=1
i Xi .
Entonces,
V ar [X] =
N X
N
X
i j Cov (Xi , Xj ) ,
i=1 j=1
117
= PN i EXi ,
La demostracin es bien sencilla. Como X
i=1
V ar [X] = E
h
"
=E
X X
N
X
2 i
!
i
i Xi X
i=1
N X
N
X
N
X
!#
i
i Xi X
i=1
i j E
i
Xi X
j
Xj X
i=1 j=1
N X
N
X
i j Cov (Xi , Xj )
i=1 j=1
V ar [X] =
N X
N
X
i j Cov (Xi , Xj ) =
i=1 j=1
N
X
i2 V ar [Xi ] ,
i=1
ya que
(
Cov [X, Y ] =
0 si i 6= j
V ar [Xi ] si i = j
E [X1 ]
..
,
=
.
E [XN ]
y su
donde
(
Ci,j =
V ar (Xi ) si i = j
Cov (Xi , Xj ) si i 6= j
Esta matriz contiene las varianzas de cada variable del vector en la diagonal y en el elemento (i, j) la covarianza
entre la isima y la jsima variable.
En forma matricial, la matriz de covarianzas puede denirse como
0
CX N N = E (X X )N 1 (X X )1N .
Por otra parte,
0
CX = E (X X ) (X X ) = E [XX 0 ] X 0X ,
118
le nota RX .
Ambas matrices, CX y RX , son matrices simtricas.
La linealidad del operador media facilita rpidamente la expresin del vector de medias y la matriz de
varianzas-covarianzas de combinaciones lineales de vectores, como se recoge en el siguiente resultado. Concretamente, si tenemos el vector aleatorio XN 1 con vector de medias X y matriz de varianzas covarianzas CX
y el vector YM 1 = AM N XN 1 + bM 1 , entonces, el vector de medias y la matriz de varianzas covarianzas
de Y vienen dadas por
Y = AX + b
CY = ACX A0 .
Ejemplo.
Vamos a ver que la aplicacin de este resultado facilita bastante determinados clculos. Por
X1 + X2 =
X1
!
,
X2
de manera que
V ar (X1 + X2 ) =
V arX1
Cov (X1 , X2 )
Cov (X1 , X2 )
V arX2
5X1 3X2 =
X1
X2
!
,
se tiene que
V ar (5X1 3X2 ) =
V arX1
Cov (X1 , X2 )
Cov (X1 , X2 )
V arX2
119
estar seguros de que se trata del caso ms interesante por dos motivos: porque aparece como modelo adecuado
en un gran nmero de fenmenos de la naturaleza y porque sus propiedades matemticas on inmejorables.
Un vector formado por N variables aleatorias X = (X1 , ..., XN ) se dice que sigue una distribucin
0
normal
con vector de
fX (x) = q
1
N
1
0
1
exp (x X ) CX (x x ) ,
2
donde
CX = (Ci,j )i,j=1,...,N
(
V ar [Xi ] si i = j
Cij =
Cov [Xi , Xj ] si i 6= j
x = (x1 , ..., xN )
y se nota X NN (X ; CX ) .
Vamos a destacar algunas de las excelentes propiedades de la distribucin normal multivariante. Concretamente, nos centraremos en los siguientes resultados:
Cualquier marginal sigue tambin una distribucin normal.
Cualquier distribucin condicionada sigue tambin una distribucin normal.
Cualquier combinacin lineal de un vector normal es tambin normal.
0
Vamos a concretarlos. En primer lugar, si tenemos un vector XN 1 = (X1 , ..., XN ) con distribucin conjuntamente gaussiana de vector de medias y matriz de covarianzas CX , en ese caso, el subconjunto de variables
del vector, (Xi1 , ..., XiM ), con M < N tambin sigue distribucin conjuntamente gaussiana, de parmetros
0
(i1 , ..., iM ) y matriz de covarianzas constituida por las las y las columnas de CX correspondientes a las
variables Xi1 , ..., XiM .
Ejemplo. Sea un vector (X1 , X2 , X3 )0 gaussiano, de vector de medias cero y matriz de covarianzas
1
0
1 .
1
En aplicacin del resultado anterior, las marginales univariantes siguen las distribuciones siguientes:
120
(X1 , X2 ) N2
!
,
0
0
(X1 , X3 ) N2
!
,
0
0
(X2 , X3 ) N2
!
,
!!
!!
!!
M M
yM 1 Y
M 1
y matriz de varianzas-covarianzas
0
V ar X |Y=y = CX CXY CY1 CXY
,
donde el elemento (i, j) de CXY es Cov (Xi , Yj ).
condicionada a
X3 =0.25 ]
=0+
=2
!1
0.5 0
!
= 0.125
0.25 0
X3 =0.25 )
!1
1
0
!
= 1.5
Ejemplo. Como caso particular, vamos a describir con ms detalle el caso bivariante, tanto en lo que
respecta a su densidad como a las distribuciones marginales y condicionadas.
0
Sea por tanto un vector (X, Y )21 , con distribucin conjuntamente gaussiana de vector de medias
121
(X , Y ) y matriz de covarianzas
C(X,Y ) =
donde =
Cov(X,Y )
X Y
2
X
X Y
X Y
Y2
!
,
2 2
es el coeciente de correlacin lineal. Entonces, det C(X,Y ) = X
Y 1 2 y
1
C(X,Y
)
1
=
1 2
1
2
X
XY
XY
1
2
Y
!
.
1
p
2X Y 1 2
#)
"
(
2
2
2 (x x ) (y Y ) (y Y )
(x X )
1
.
exp
+
2
2 (1 2 )
X
X Y
Y2
fX,Y (x, y) =
en el punto (X , Y ).
2
y N Y , Y2 .
Evidentemente, las distribuciones marginales son N X , X
1
,
2X Y 12
En lo que respecta a las distribuciones condicionadas, aplicando el ltimo resultado tenemos que
X
2
X +
(y0 Y ) ; X
1 2
Y
Y
(x0 X ) ; Y2 1 2 .
Y | X = x0 N Y +
X
X | Y = y0 N
Obsrvese que, curiosamente, la varianza condicionada no depende del valor que condiciona. Esto tendr
importantes repercusiones ms adelante.
Continuando con las propiedades, una de las ms tiles es su invarianza frente a transformaciones lineales.
0
Concretamente, si tenemos un vector aleatorio XN 1 = (X1 , ..., XN ) con distribucin gaussiana, vector de
medias X y matriz de covarianzas CX , entonces una combinacin lineal suya,
YM 1 = AM N XN 1 + bM 1
tiene distribucin gaussiana de vector de medias Y = A X + b y matriz de covarianzas CY = A CX A0 .
Ejemplo.
Sean dos variable aleatoria X1 y X2 con distribucin conjuntamente gaussiana con medias
2
2
cero, varianzas X
= 4 y X
= 9 y covarianza, cX1 ,X2 = 3. Si estas variables se transforman linealmente
1
2
122
123
en las variables
Y1 = X1 2X2
Y2 = 3X1 + 4X2
las nuevas variables tienen distribucin conjuntamente gaussiana, con medias
0
(Y1 , Y2 ) =
y matriz de covarianzas
Y2 1
cY1 ,Y2
cY1 ,Y2
Y2 2
!
=
!
=
28
66
66
252
Otra de las ms importantes propiedades es que se trata del nico caso en el que independencia e incorrelacin
son equivalentes. Es decir, si XN 1 es un vector con distribucin conjuntamente gaussiana, entonces sus
componentes son incorreladas si y slo si son independientes.
La demostracin es sencilla. Ya sabemos que si son independientes son incorreladas (incluso si la distribucin
no es conjuntamente gaussiana). Por su parte, para probar que si son incorreladas entonces son independientes
slo hay que tener en cuenta que si son incorreladas, la matriz de covarianzas es diagonal y la densidad
conjunta puede expresarse como producto de las marginales, ya que
fX (x1 , ..., xN ) = q
N
(2) det (CX )
=q
N
2
(2) 12 ...N
=
N
Y
1
0 1
exp (x X ) CX (x X )
2
N
1X
exp
2 i=1
xi i
i
2 )
fXi (xi ) .
i=1
0
CX
124
12
.
.
=
.
0
...
..
.
...
0
..
. .
2
N
Parte III
Inferencia estadstica
125
Captulo 6
Distribuciones en el muestreo
Resumen.
En este captulo se pretende llamar la atencin acerca de que los parmetros muestrales son
6.1. Introduccin
Al estudiar el concepto de variable aleatoria, dijimos que viene motivado porque muchas de las variables que
se observan en la vida real, en el ambiente de las Ingenieras en particular, estn sujetas a incertidumbre.
Eso quiere decir que si nosotros obtenemos algunas observaciones de esas variables (muestras), los datos
no son iguales. Es ms, si obtenemos otras observaciones, las dos muestras tampoco sern ni mucho menos
idnticas.
Por tanto, al hablar de distribuciones tericas de probabilidad, lo que pretendamos era proponer un modelo
que permitiera calcular probabilidades asociadas, no a una muestra en particular de datos, sino a todas las
posibles muestras, con todos los posibles datos de la variable.
Recordemos el ejemplo que pusimos: las distribuciones de probabilidad son como un traje que elegimos para
ponernos cualquier da durante un periodo de tiempo amplio. En la medida que el traje de una variable,
su distribucin,
le quede bien,
aplicarse a cualquier dato o conjunto de datos de la variable. Pero igualmente, si un traje (una distribucin
de probabilidad terica)
no le queda bien
funcin masa o una funcin de densidad tericas, pueden no ser realistas respecto a los resultados empricos
que se obtengan mediante muestras de la variable.
Qu nos queda por hacer a lo largo del curso? Dado que, en general, las distribuciones tericas de probabilidad
dependen de uno o ms parmetros, lo que nos ocupar gran parte del resto del curso es tratar de elegir
127
adecuadamente esos parmetros. En el ejemplo de los trajes podamos pensar que esto es como aprender a
escoger la talla del traje.
En este captulo vamos a comenzar con algunas cuestiones tericas acerca de lo que implica el proceso de
muestreo, previo a la eleccin de los parmetros y, posteriormente, nos vamos a centrar en resultados que
implica el muestreo de datos de variables que siguen una distribucin normal.
vando una variable aleatoria, X , en una poblacin determinada. Ya dijimos que una muestra aleatoria simple
de X consiste en la recopilacin de datos de la variable, mediante la repeticin del experimento al que est
asociada, con dos condiciones bsicas:
1. Que todos los elementos de la poblacin tengan las mismas posibilidades de salir en la muestra.
2. Que las distintas observaciones de la muestra sean independientes entre s.
En ese caso, los valores que toma la variable en cada una de las observaciones de una muestra de tamao
n, X1 , ..., Xn , son en s mismos, variables aleatorias independientes que siguen la misma distribucin de
probabilidad, llamada
distribucin poblacional.
que se intentar utilizar la muestra para hacer inferencia sobre ella y, al menos, aproximar la forma de esta
distribucin.
1 , y la desviacin tpica de
simple suya, x11 , ..., x1n . Con esos datos podemos calcular la media de la muestra, x
la muestra, s1 , por ejemplo.
Pero debemos ser conscientes de lo que signica muestra
aleatoria.
es fruto del azar. De hecho, si obtenemos otra muestra, x21 , ..., x2n , obtendremos otra media, x
2 y
128
Y si, sucesivamente, obtenemos una y otra muestra, obtendremos una y otra media muestral, y una y otra
desviacin tpica muestral. Por lo tanto, en realidad, lo que estamos viendo es que la media y la varianza
muestrales (y en general, cualquier parmetro de una muestra aleatoria simple) son, en realidad, variables
aleatorias que, como tales, deben tener su distribucin, su media, su varianza...
Vamos a recordar dos deniciones que ya introdujimos al comienzo del curso.
Un
parmetro muestral
aleatoria.
Un
El problema es que, en general, es bastante difcil conocer la distribucin en el muestreo de los parmetros
muestrales.
Sin embargo, el caso en el que resulta ms sencillo hacerlo es probablemente el ms importante. Como vamos
a ver, si la variable que observamos sigue una distribucin normal, podremos conocer de forma exacta las
distribuciones en el muestreo de los dos parmetros ms importantes, la media y la varianza.
Y si la variable no es normal? Si lo que pretendemos es estudiar la media y la varianza muestrales, recordemos
que el Teorema Central del Lmite nos dice que si una variable es suma de otras variables, su distribucin es
aproximadamente normal, y la media es suma de las variables de la muestra. Es decir, si la variable no es
normal, todava podemos tener conanza de que lo que hagamos para variables normales puede ser vlido.
Nota. Una de las primeras distribuciones en el muestreo ser la 2 . Recordemos que una distribucin 2 con
n grados de libertad es una distribucin Gamma de parmetros
Prof. Dr. Antonio Jos Sez Castillo
n
2
y 12 .
129
Si Z es una variable aleatoria normal estandar y S una 2 con n grados de libertad, siendo ambas independientes, entonces
Z
t= p
S/n
Si S1 y S2 son variables aleatorias con distribucin 2 con n1 y n2 grados de libertad independientes, entonces
F =
sigue una distribucin que se denomina F
S1 /n1
S2 /n2
Con estas deniciones ya podemos dar las distribuciones en el muestreo de algunos parmetros muestrales
importantes asociados a la normal:
Sea X1 , ..., Xn una muestra aleatoria simple de una variable N (, ). Entonces, el parmetro muestral
t=
Sn1 / n
2 =
2
(n 1) Sn1
2
Sp2 =
2
2
1
2
(n1 1) Sn1
+ (n2 1) Sn1
,
n1 + n2 2
(n1 + n2 2) Sp2
,
2
130
1
Sn1
2
/12
2
Sn1
2
/22
131
132
Captulo 7
Estimacin de parmetros de una
distribucin
Datos, datos, datos! -grit impacientemente-. No puedo hacer ladrillos sin arcilla.
Sherlock Holmes (A. C. Doyle), en
Resumen.
Se describen las tcnicas ms usuales para estimar la media, la varianza y otros parmetros
Palabras clave: estimador puntual, mtodo de los momentos, mtodo de mxima verosimilitud, intervalo
de conanza, nivel de conanza.
7.1. Introduccin
En Estadstica hay tres formas de inferir un valor a un parmetro de una poblacin:
Estimando el valor concreto de ese parmetro.
Estimando una regin de conanza para el valor del parmetro.
Tomando una decisin sobre un valor hipottico del parmetro.
Ejemplo. El rendimiento de un equipo de trabajo en una cadena de produccin puede estar representado
por el nmero medio de componentes producidas. Supongamos que un ingeniero pretende proporcionar
informacin acerca de este promedio en su equipo. Existen varias posibilidades:
Podra simplemente tratar de estimar el promedio de componentes producidas a travs de un nico
valor estimado.
Podra proporcionar un intervalo de valores en el que tenga mucha conanza que se encuentra el
valor promedio.
133
Podra comparar el valor promedio de su equipo con un valor hipottico para, por ejemplo, demostrar a la empresa que tiene un mejor rendimiento que el promedio general de la empresa.
En este captulo nos centraremos en la primera y la segunda forma, que consisten en proporcionar un valor
que creemos que est cerca del parmetro (estimacin puntual) o en proporcionar un intervalo en el que
conamos que se encuentra el parmetro desconocido (estimacin por intervalos de conanza). La tercera
posibilidad se estudiar en el captulo de contrastes de hiptesis.
estimacin puntual.
Ejemplo. Si deseamos obtener estimaciones de la media de una variable aleatoria, lo que parece ms lgico
sera utilizar como estimador la media muestral. Cada media muestral de cada muestra sera una estimacin
puntual de la media poblacional.
Qu sera deseable que le pasara a cualquier estimador? Qu buenas propiedades debera tener un buen
estimador? Vamos a ver dos de ellas.
En primer lugar, parece lgico pensar que si bien el estimador no proporcionar siempre el valor exacto del
parmetro, al menos deber establecer estimaciones que
defecto. Este tipo de estimadores se denominan
Un estimador de un parmetro se dice
se equivoquen
insesgados .
insesgado si
h i
E = .
Se denomina
sesgo de un estimador a E
h i
.
Observemos que para comprobar si un estimador es insesgado, en principio es necesario conocer su distribucin
en el muestreo, para poder calcular su esperanza matemtica.
Adems de la falta de sesgo, nos gustara que la distribucin de muestreo de un estimador tuviera poca
varianza, es decir, que la dispersin de las estimaciones con respecto al valor del parmetro poblacional, fuera
baja.
En este sentido, se dene el error
y se nota
134
s.e.
El
= X1 + ... + XN
X
N
es un estimador insesgado de E [X] y su error estandar es
X
=
.
s.e.(X)
N
El resultado establece algo que poda haberse intuido desde la denicin de la media o esperanza matemtica
de una distribucin de probabilidad: si tenemos unos datos (mas ) de una v.a., una estimacin adecuada de
la media de la v.a. es la media de los datos.
Hay que tener mucho cuidado con no confundir la media de la v.a., es decir, la media poblacional, con la
media de los datos de la muestra, es decir, con la media muestral.
Por otra parte, el error estandar hace referencia a X , que es un parmetro poblacional y, por lo tanto,
desconocido. Lo que se suele hacer es considerar la desviacin tpica muestral como una aproximacin de la
poblacional para evaluar este error estandar.
PN
Xi X
N 1
2
i=1
Nota. Al hilo del comentario previo que hicimos sobre la media muestral como estimador natural
de la
PN
=
i=1
Xi X
N
2
,
135
cuasivarianza muestral. Ojo, hay que advertir que en algunos libros la manera de nombrar a la
Nota.
2
El que la varianza muestral, SN
, sea un estimador insesgado de la varianza, 2 , no implica que la
q 1
2
desviacin tpica muestral, SN 1 = SN
1 , sea un estimador insesgado de , pero en este caso s ocurre as.
Ejemplo. Mediante R hemos generado una muestra aleatoria simple de 1000 valores de una distribucin
N (0, 1). Sabemos, por tanto, que la media (poblacional) de los datos es 0 y que la varianza (poblacional)
es 1. No obstante, vamos a suponer que desconocemos de qu distribucin proceden los datos y vamos a
tratar de
ajustar
x
= 0.0133
y
s999 = 0.9813,
por lo que ajustaramos los datos de la muestra x mediante una distribucin
N (0.0133, 0.9813) .
La densidad de esta distribucin aparece tambin en la Figura 7.1, en trazo continuo, y se observa que
ajusta muy bien la forma del histograma.
136
0.0
0.1
0.2
Densidad
0.3
0.4
0.5
Histograma de la muestra
Figura 7.1: Histograma para la muestra x11000 con 30 intervalos y funcin de densidad de la distribucin
N (0.0133, 0.9813).
p =
k
,
N
r
s.e.(
p) =
p(1 p)
N
Sobre el error estandar, obsrvese de nuevo que, dado que p es desconocido, en realidad la expresin de s.e.(
p)
no puede evaluarse. Sin embargo, es bastante comn que si el tamao de la muestra, N , es grande, se utilice
el valor de la estimacin, p, en lugar de p en esa expresin.
De todas formas, obsrvese tambin que la funcin f (p) = p(1 p) es menor que
r
s.e.(
p)
Es por ello que siempre podemos dar esta cantidad,
1
4
si 0 p 1, luego
1
1
= .
4N
2 N
,
2 N
Ejemplo. Si el nmero de varones en una muestra de 1000 individuos de una poblacin es 507, podemos
aproximar la verdadera proporcin de varones en toda la poblacin mediante
p =
con un error estandar por debajo de
1
2 1000
507
= 0.507,
1000
= 0.01581139. La estimacin del error estandar de la
137
estimacin sera
p
0.507 0.493/1000 = 0.01580984: en este caso, las diferencias son inapreciables.
x
= f 1 , 2
s2n1 = g 1 , 2 .
EX
n .
p =
.
n
Por cierto, este estimador coincide con el que habamos considerado en un principio, que era la proporcin
muestral, es decir, p = k/N , pero puede haber alguna confusin en la notacin. Veamos porqu.
Se supone que tenemos una muestra de tamao N de datos de una binomial de parmetro n, es decir,
P
tenemos n experimentos, N veces, o sea, un total de n N experimentos, con i xi xitos. Luego, en
efecto,
p =
P
x
i xi
=
,
n
nN
es decir, la proporcin muestral, cociente del n de xitos entre el n total de experimentos. No debemos
confundirnos con la expresin k/N que pusimos antes porque N no signica lo mismo en ambos casos.
138
1
p
1, de donde p =
1
1+EX ,
luego el mtodo
p =
1
.
1+x
EX
= p,
V arX
se tiene que
a = EX
EX
p
EX 2
= EX V arX
=
1p
V arX EX
1 VEX
arX
p =
a
=
s2X,N 1
x
2
s2X,N 1 x
ms creibles, ms verosmiles,
Para desarrollar el mtodo debemos tener en cuenta que si tenemos una muestra aleatoria simple de una
variable X , x1 , ..., xn , y la funcin masa o densidad de la variable es p (x), entonces la funcin masa o
densidad de la muestra es
credibilidad
Dada una variable aleatoria X con funcin masa o funcin de densidad p (x) , que depende de uno
o dos parmetros, y una muestra aleatoria simple de X , x1 , ..., xn , la verosimilitud de la muestra
es la funcin
139
= arg max L .
1 , 2 = arg max L .
1 ,2
Nota.
Dado que el mximo de una funcin coincide con el mximo de su logaritmo, suele ser muy til
Ejemplo. Vamos a calcular el estimador mximo verosmil del parmetro p de una distribucin B (n, p)
basado en una muestra x1 , ..., xN .
En primer lugar, la funcin de verosimilitud es
N
Y
n
nx
i
pxi (1 p)
x
i
i=1
!
N
P
Y
PN
n
nN N
i=1 xi
=
.
p i=1 xi (1 p)
x
i
i=1
Su logaritmo resulta
N
Y
n
i=1
!
+
xi
N
X
!
xi
ln p +
nN
i=1
N
X
!
xi
ln (1 p) .
i=1
PN
i=1
p
de donde
xi
PN
nN i=1 xi
= 0,
1p
PN
x
p
x
i=1 xi
=
=
= n
PN
1p
nx
1
nN i=1 xi
Luego el estimador es
p =
.
n
Obsrvese que coincide con el estimador que obtuvimos por el mtodo de los momentos.
Ejemplo. Vamos a calcular el estimador mximo verosmil del parmetro de una distribucin exp ()
basado en una muestra x1 , ..., xN .
140
Funcin de verosimilitud:
Lx1 ,...,xN () =
N
Y
exi = N e
PN
i=1
xi
i=1
ln Lx1 ,...,xN () = N ln
N
X
xi .
i=1
N X
xi = 0,
i=1
de donde
= PN
i=1
xi
1
.
x
De nuevo el estimador mximo verosmil coincide con el proporcionado por el mtodo de los momentos.
Ejemplo. En el caso de la distribucin normal, tenemos dos parmetros. Veamos cmo proceder en esta
situacin. Vamos a preocuparnos por los estimadores de la media y de la varianza:
La funcin de verosimilitud:
N
(xi )2
Y
1
Lx1 ,...,xN , 2 =
e 22 =
2 2
i=1
N
1
2 2
Su logaritmo:
N
N
ln Lx1 ,...,xN , 2 = ln (2)
ln 2
2
2
PN
i=1
Pn
2
i=1 (xi )
2 2
(xi )
.
2 2
Debemos maximizar esta funcin como funcin de y 2 . Para ello, derivamos respecto de ambas
variables e igualamos a cero:
PN
(xi )
d
2
ln Lx1 ,...,xN , = i=1 2
=0
d
PN
2
d
N
1 i=1 (xi )
2
=0
ln
L
,
+
x
,...,x
1
N
2
d 2
2 2
2
( 2 )
De la primera ecuacin se sigue
N
X
(xi ) =
i=1
xi N = 0,
i=1
de donde
PN
N
X
i=1
xi
=x
.
141
Modelo
Estimadores por el
mtodo de los momentos
exp ()
Gamma (a, )
p = nx
=x
1
p = 1+
x
2
a
= s2 x x , p = s2 x
X,N 1
X,N 1
= 1
2
= 2x
a
= 2x ,
N (, )
=x
,
= sn1
B (n, p)
P ()
Geo (p)
BN (a, p)
sn1
1
p = 1+
x
Slo por mtodos numricos
= 1
sn1
=x
,
= sn
Cuadro 7.1: Estimadores por el mtodo de los momentos y de mxima verosimilitud de los parmetros de las
distribuciones ms usuales.
PN
i=1
(xi x
)
2
( 2 )
de donde
2
Nota.
PN
i=1
N
,
2
(xi x
)
= s2n .
N
De nuevo hay que llamar la atencin sobre el hecho de que hemos buscado un estimador, de
. Un
intervalo de conanza para con un nivel de signicacin , I (x1 , ..., xN ) , es un intervalo real
P [ I (x1 , ..., xN )] = 1 .
Al valor 1 tambin se le llama
142
nivel de conanza.
Prof. Dr. Antonio Jos Sez Castillo
|
|
|
|
|
|
|
|
|
|
40
|
40
40
|
|
|
|
|
|
|
|
|
|
|
|
|
30
30
30
|
|
|
|
|
|
|
|
|
Index
Index
Index
|
|
|
|
|
|
|
20
20
20
|
|
|
|
|
|
|
10
10
10
|
|
|
|
|
|
|
|
|
|
|
|
|
0.0
0.2
0.4
0.6
Confidence Interval
0.2
|
|
|
0.4
50
50
50
0.6
0.4
0.2
0.0
0.2
0.4
0.6
1.0
Confidence Interval
0.5
0.0
0.5
1.0
Confidence Interval
Figura 7.2: Distintos intervalos de conanza para una media a un 68 % (izquierda), a un 90 % (centro) y
a un 99 % (derecha). Puede observarse que aumentar el nivel de conanza hace ms amplios los intervalos.
Tambin puede observarse que no todos los intervalos contienen a la media poblacional (0), pero que el n
de stos malos intervalos disminuye conforme aumentamos el nivel de conanza.
Obsrvese que la losofa de cualquier intervalo de conanza es proporcionar, basndonos en los datos, una
regin donde tengamos un determinado nivel de conanza en que el parmetro se encuentra. Como en el
caso de los estimadores puntuales, el intervalo de conanza es aleatorio, ya que depende de los datos de
una muestra. Adems, se da por hecho que existe la posibilidad de que el
verdadero
parmetro no quede
encerrado dentro del intervalo de conanza, cosa que ocurrira con probabilidad .
Nota. Al respecto de la interpretacin del nivel de conanza, tenemos que decir que, dado que desde el
comienzo del curso hemos adoptado una interpretacin frecuentista de la probabilidad, un intervalo de
conanza al 95 %, por ejemplo, garantiza que si tomamos 100 muestras el parmetro poblacional estar
dentro del intervalo en aproximadamente 95 intervalos construidos.
Sin embargo, esta interpretacin es absurda en la prctica, porque nosotros no tenemos 100 muestras,
sino slo una.
Nosotros tenemos los datos de una muestra. Con ellos construimos un intervalo de conanza. Y ahora slo
caben dos posibilidades: o el parmetro est dentro del intervalo o no lo est. El parmetro es constante,
y el intervalo tambin. No podemos repetir el experimento! Es por ello que se habla de intervalos
conanza ,
conanza
de
143
x = (x1 , ..., xN ) de X , y x
la media muestral asociada. Entonces,
P x
z1 2 , x
+ z1 2
= 1 ,
N
N
donde z1 2 a es tal que FZ z1 2 = 1 2 , siendo Z N (0, 1) .
a El valor de z debe buscarse en la tabla de la normal o calcularse con ayuda del ordenador.
1
2
x
z1 2 , x
+ z1 2
N
N
con un (1 ) % de conanza.
No obstante, hay que reconocer que en la prctica es poco probable que se desconozca el valor de la media
y s se conozca el de la varianza, de manera que la aplicacin de este teorema es muy limitada. El siguiente
resultado responde precisamente a la necesidad de extender el anterior cuando se desconoce el valor de la
varianza.
Sea X una v.a. con distribucin normal de media y varianza 2 , ambas desconocidas. Sea una muestra
P x
t1 2 ;N 1
s2X,N 1
N
s
,x
+ t1 2 ;N 1
s2X,N 1
N
= 1 ,
donde t;N a es el valor tal que FTN (t;N ) = , siendo TN una v.a. con distribucin T de Student con N
grados de libertad.
x
t1 2 ;N 1
s2X,N 1
N
s
,x
+ t1 2 ;N 1
s2X,N 1
Ejemplo.
Mediante R habamos simulado 1000 valores de una distribucin N (0, 1). La media y la
144
0.9813
0.0133 1.96
1000
= (0.074, 0.0475)
Los dos resultados que acabamos de enunciar se basan en que se conoce la distribucin exacta de la muestra,
normal, lo que permite deducir que la media muestral sigue tambin, y de forma exacta, una distribucin
normal de media y varianza
2
N .
Sin embargo, gracias al teorema central del lmite se sabe que sea cual
sea la distribucin de las variables de la muestra aleatoria simple, la media muestral sigue aproximadamente
una distribucin normal de media y varianza
2
N ,
aproximado
para cualquier
Sea X una v.a. con distribucin cualquiera de media , desconocida, y con varianza, 2 . Sea una muestra
+ z1/2
' 1 .
P x
z1/2 , x
N
N
En esta expresin, si es desconocida, puede sustituirse por la desviacin tpica muestral, sn1 .
Ejemplo. Para dimensionar el tamao del buer de un modem ADSL es necesario estimar el promedio
de paquetes de datos por milisegundo que recibe el modem.
Se considera que el tiempo (en milisegundos) que transcurre entre paquete y paquete sigue una distribucin exponencial de parmetro . Obsrvese que la media de esta distribucin es =
1
,
tiempo medio
entre paquetes, por lo que es precisamente el promedio de paquetes por milisegundo que recibe el
modem. Por lo tanto, el objetivo es estimar el parmetro , que es el que se utilizar para dimensionar
el modem.
Mediante un snier acoplado al modem para capturar datos del trco, se toman datos de los tiempos
entre paquetes de 1001 paquetes, por lo que se tienen 1000 datos de tiempos entre paquetes. La media
de estos tiempos resulta ser x
= 2.025, siendo la desviacin tpica muestral de 1.921.
En primer lugar, vamos a calcular un intervalo de conanza (al 95 %) para la media de la distribucin,
:
sn1
1.921
sn1
+ z0.975
= 2.025 1.96
= (1.906, 2.144).
x
z0.975 , x
n
n
1000
Finalmente, dado que =
1
,
el intervalo de conanza al 95 % de es
1
1
2.144 , 1.906
= (0.466, 0.525) .
A ttulo informativo, el valor que se considera en el dimensionamiento del modem es un mltiplo (el
doble, por ejemplo) del extremo superior del intervalo, en este caso 0.525.
145
k
N
"
P p
p z1/2
p (1 p)
, p + z1/2
N
p (1 p)
N
!#
' 1 .
Ejemplo. La Junta de Andaluca pretende implantar un programa de ayuda a familias con familiares
dependientes. Dado que la mayor parte de los Servicios Sociales son competencia de los municipios, la
Junta proporcionar los medios econmicos, pero sern stos los encargados de ejecutar el programa.
Los Servicios Sociales de cualquier municipio asumen que, por errores inevitables, no todas las familias
a las que subvencionan reunen los requisitos exigidos, pero la Junta les responsabiliza de que esto no
ocurra en ms del 4 % de ellas. Si se supera este porcentaje, penalizar al municipio.
En un municipio se muestrean 200 familias y se detecta que 12 de ellas (6 %) no cumplen las condiciones
exigidas. Debe la Junta sancionar al municipio?
Si nos jamos slo en el valor de la estimacin puntual, 6 %, s debera hacerlo, pero no sera justo: 12
errores en una muestra de 200 pueden no ser una evidencia suciente de que el porcentaje superara el
4 %.
Consideremos un un intervalo de conanza para la proporcin de errores (5 % de signicacin) con los
datos obtenidos:
r
0.06 1.96
0.06(1 0.06)
= (0.027, 0.093).
200
Por tanto, no hay evidencias de que el porcentaje sea superior al 4 % y no debe sancionarse al municipio.
N
2
)
i=1 (Xi x
21 ;N 1
2
< 2 <
PN
)
i=1 (Xi x
2 ;N 1
#
= 1 .
a El valor de 2
2
y debe buscarse en las tablas de la distribucin 2 u obtenerse mediante el ordenador.
/2;N 1 1/2;N 1
146
En esta expresin, 2;N corresponde con aquel valor tal que F2 2;N = , donde 2 sigue una distribucin
Ejemplo. En el ejemplo donde consideramos 1000 valores simulados de una N (0, 1) tenamos que x =
0.0133 y s999 = 0.9813. Por tanto, teniendo en cuenta que
N
X
(Xi x
) = 999 s2999 ,
i=1
961.9867
961.9867
,
1.0885 103 913.3010
= (0.8838, 1.0533) .
control de calidad.
Los japoneses son, en esto, los pioneros y quiz los mejores expertos. A
ellos se les atribuye un principio bsico del control de calidad en cualquier proceso bsico de produccin:
la
Pensemos en cualquier proceso de fabricacin genrico. En l se tratar de obtener un producto sujeto a unas
especicaciones concretas. Sin embargo, el error inherente a cualquier proceso experimental provocar:
1. Un aumento o una disminucin estructurales del producto con respecto a un valor objetivo. Esto podra
detectarse como un sesgo en la media de lo producido con respecto al valor objetivo.
2. Unas diferencias ms o menos importantes en los productos resultantes, que podran ser evaluadas
mediante la varianza.
De esas dos posibles problemticas, la ms compleja, sin duda es la segunda. Probablemente no es un grave
problema
calibrar
la mquina que produce para que la media se site en el valor objetivo, pero ser sin duda
bilaterales
aqu.
Prof. Dr. Antonio Jos Sez Castillo
147
No obstante, no vamos a detallarlos aqu, aunque su interpretacin es anloga a la de los intervalos de conanza
que hemos visto. Cualquier paquete de software estadstico puede facilitar estos intervalos sin dicultad.
truction Waste, en el que se presenta un estudio de la contaminacin en basureros que contienen desechos de
construccin y desperdicios de demoliciones. Decamos all que De
de lixiado, de las cuales 26 contienen niveles detectables de plomo. Una ingeniera desea obtener a partir de
esos datos una estimacin de la probabilidad de que una muestra de un basurero contenga niveles detectables
de plomo. No obstante, es consciente de que esa estimacin estar basada en esa muestra, que es de slo 42
datos, luego querr tambin obtener una estimacin del error que est cometiendo al hacer la estimacin.
Finalmente, se plantea si con la estimacin y el error de sta, podr obtener un rango donde la verdadera probabilidad se encuentre con un alto nivel de conanza.
problema.
En primer lugar, tenemos que obtener una estimacin de la proporcin de muestras (o probabilidad) que
contienen niveles detectables de plomo. Hemos visto que un estimador insesgado de mnima varianza, que
adems coincide con el estimador de mxima verosimilitud, de la proporcin es la proporcin muestral. En
nuestro caso, por tanto, podemos estimar la proporcin en p = 26
42 = 0.6190.. Adems, podemos estimar el
q
0.6190(10.6190)
= 0.0749 y, en cualquier caso, decir que este
error estndar de esta estimacin en s.e.(
p) =
42
error estandar ser inferior a
estandar inferior a un 7.71 %.
1
2 42
Por ltimo, en funcin de esta estimacin y de su error estandar, puede armar con un 95 % de conanza
que el intervalo
148
Captulo 8
Contrastes de hiptesis paramtricas
La gran tragedia de la ciencia: la destruccin de una bella hiptesis por un antiesttico conjunto
de datos.
Thomas H. Huxley.
La Estadstica puede probar todo, incluso la verdad.
N. Moynihan
Resumen. En este captulo explicamos qu se entiende por contraste de hiptesis estadstica y aprendemos
a realizar contrastes de este tipo a partir de datos, referidos a algn parmetro poblacional desconocido.
Palabras clave: contraste de hiptesis, error tipo I, error tipo II, estadstico de contraste, p-valor, nivel de
signicacin, nivel de conanza.
8.1. Introduccin
Como apuntbamos en la introduccin del captulo anterior, las llamadas
tesis se utilizan para inferir decisiones que se reeren a un parmetro poblacional basndose en muestras de
la variable. Vamos a comenzar a explicar el funcionamiento de un contraste de hiptesis con un ejemplo.
Ejemplo. Los cientcos recomiendan que para prever el calentamiento global, la concentracin de gases
de efecto invernadero no debe exceder las 350 partes por milln. Una organizacin de proteccin del medio
ambiente quiere determinar si el nivel medio, , de gases de efecto invernadero en una regin cumple con
las pautas requeridas, que establecen un lmite mximo de 350 partes por milln. Para ello tomar una
muestra de mediciones diarias de aire para decidir si se supera el lmite, es decir, si > 350 o no. Por
tanto, la organizacin desea encontrar apoyo para la hiptesis > 350, llamada
hiptesis alternativa,
obteniendo pruebas en la muestra que indiquen que la hiptesis contraria, = 350 (o 350), llamada
Dicho de otra forma, la organizacin va a someter a juicio a la hiptesis nula 350. Partir de
inocencia,
su
suponiendo que es cierta, es decir, suponiendo que, en principio, no se superan los lmites de
149
presencia de gases de efecto invernadero, y slo la rechazar en favor de H1 si hay pruebas evidentes en
los datos de la muestra para ello.
La decisin de rechazar o no la hiptesis nula en favor de la alternativa deber basarse en la informacin
que da la muestra, a travs de alguna medida asociada a ella, que se denomina estadstico de contraste.
Por ejemplo, si se toman 30 lecturas de aire y la media muestral es mucho mayor que 350, lo lgico ser
rechazar la hiptesis nula en favor de > 350, pero si la media muestral es slo ligeramente mayor que
350 o menor que 350, no habr pruebas sucientes para rechazar 350 en favor de > 350.
La cuestin clave es en qu momento se decide rechazar la hiptesis nula en favor de la alternativa. En
nuestro ejemplo, en qu momento podemos decir que la media muestral es sucientemente mayor que
350. El conjunto de estos valores del estadstico de contraste, que permiten rechazar = 350 en favor de
regin de rechazo.
A la luz de este ejemplo, vamos a tratar de denir de forma general los conceptos que acabamos de introducir.
Un contraste
de hiptesis es una prueba que se basa en los datos de una muestra de una variable aleatoria
mediante la cul podemos rechazar una hiptesis sobre un parmetro de la poblacin, llamada hiptesis
nula (H0 ), en favor de una hiptesis contraria, llamada hiptesis alternativa (H1 ).
contraste.
estadstico de
Se rechazar la hiptesis nula en favor de la alternativa cuando el valor del estadstico de contraste se site
en una determinada regin, llamada
regin de rechazo.
La hiptesis H0 se suele expresar como una igualdada , del tipo H0 : = 0 , donde es un parmetro de una
poblacin y 0 es un valor hipottico para ese parmetro. Por su parte, H1 puede tener tener dos formas:
H1 : > 0 , en cuyo caso se habla de contraste unilateral a la derecha o de una cola a la derecha o de
un extremo a la derecha, o H1 : < 0 , en cuyo caso se habla de contraste unilateral a la izquierda
o de una cola a la izquierda o de un extremo a la izquierda.
H1 : 6= 0 , en cuyo caso se habla de contraste bilateral o de dos colas o de dos extremos.
a De todas formas, tambin es frecuente expresar H0 como negacin exacta de H1 , en cuyo caso s puede ser una desigualdad
no estricta. Matemticamente no hay diferencias en estas dos posibilidades.
Uno de los aspectos ms importantes y que se suele prestar a mayor confusin se reere a qu hiptesis
considerar como H0 y cul como H1 . Una regla prctica para hacerlo correctamente puede ser la siguiente:
1. Si estamos intentando probar una hiptesis, sta debe considerarse como la hiptesis alternativa.
2. Por el contrario, si deseamos desacreditar una hiptesis, debemos incluir sta como hiptesis nula.
Ejemplo. Para una determinada edicacin se exige que los tubos de agua tengan una resistencia media
a la ruptura, , por encima de 30 kg por centmetro.
150
Como primera situacin, supongamos que un proveedor quiere facilitar un nuevo tipo de tubo para
ser utilizado en esta edicacin. Lo que deber hacer es poner a trabajar a sus ingenieros, que
deben realizar una prueba para decidir si esos tubos cumplen con las especicaciones requeridas.
En ese caso, deben proponer un contraste que incluya como hiptesis nula H0 : 30 frente a la
alternativa H1 : > 30. Si al realizar el contraste de hiptesis se rechaza H0 en favor de H1 , el
tubo podr ser utilizado, pero si no se puede rechazar H0 en favor de H1 , no se tienen sucientes
garantas sobre la calidad del tubo y no ser utilizado.
Como segunda situacin, un proveedor lleva suministrando su tipo de tubo desde hace aos, sin que
se hayan detectado, en principio, problemas con ellos. Sin embargo, un ingeniero que trabaja para
el gobierno controlando la calidad en las edicaciones viene teniendo sospechas de que ese tipo de
tubo no cumple con las exigencias requeridas. En ese caso, si quiere probar su hiptesis, el ingeniero
deber considerar un contraste de la hiptesis nula H0 : 30 frente a H1 : < 30. Dicho de
otra forma, slo podr contrastar su hiptesis si encuentra datos empricos que permitan rechazar
esa hiptesis nula en favor de su alternativa, que demuestren con un alto nivel de abilidad que el
proveedor que estaba siendo aceptado ahora no cumple con los requisitos.
De hecho, es importantsimo que desde el principio tengamos claro qu tipo de decisiones puede proporcionarnos un contraste de hiptesis. Aunque ya las hemos comentado, vamos a insistir en ellas. Son las dos
siguientes:
1. Si el valor del estadstico de contraste para los datos de la muestra cae en la regin de rechazo, podremos
armar
con un determinado nivel de conanza que los datos de la muestra permiten rechazar la
con el nivel de conanza exigido que los datos de la muestra permiten rechazar
error tipo I o falso negativo a rechazar la hiptesis nula cuando es cierta, y su probabilidad se
nota por , llamado nivel de signicacin.
Se llama
Se llama
151
Estado real
Decisin en
el contraste
H0
H1
H0
Decisin correcta
Error tipo I
H1
Error tipo II
Decisin correcta
Se llama
error tipo II o falso positivo a aceptar la hiptesis nula cuando es falsa, y su probabilidad se
nota por .
Se llama
Cul de los dos errores es ms grave? Probablemente eso depende de cada contraste, pero en general, lo que
se pretende es acotar el error tipo I y tratar de minimizar el error tipo II, es decir, tratar de elegir contrastes
lo ms potentes posibles garantizando que la probabilidad del error tipo I es inferior a un determinado nivel.
Ejemplo. Un fabricante de minicomputadoras cree que puede vender cierto paquete de software a ms
del 20 % de quienes compran sus computadoras. Se seleccionaron al azar 10 posibles compradores de la
computadora y se les pregunt si estaban interesados en el paquete de software. De estas personas, 4
indicaron que pensaban comprar el paquete. Proporciona esta muestra sucientes pruebas de que ms
del 20 % de los compradores de la computadora adquirirn el paquete de software?
Si p es la verdadera proporcin de compradores que adquirirn el paquete de software, dado que deseamos
demostrar p > 0.2, tenemos que H0 : p = 0.2 y H1 : p > 0.2.
Sea X : nmero de posibles compradores de la muestra, en cuyo caso, X B (10, p). Utilizaremos el
valor de X como estadstico del contraste, rechazando H0 si X es grande.
Supongamos que establecemos como regin de rechazo x 4. En ese caso, dado que en la muestra x = 4,
rechazaramos H0 en favor de H1 , llegando a la conclusin de que el fabricante tiene razn.
Pero, cul es el nivel de conanza de este contraste? Calculemos la probabilidad de error tipo I. Para
ello, en el Cuadro 8.2 aparece la distribucin de probabilidad del estadstico de contraste que hemos
elegido, suponiendo que H0 es cierta, ya que debemos calcular
= P [Rechazar H0 |H0
es cierta ]
2
= 0.08808 + 2.6424 10
= P [X 4|p=0.2 ]
a la luz de los datos podemos armar con un 87.913 % de conanza que p > 0.2.
Y si queremos un nivel de conanza mayor, es decir, una probabilidad de error tipo I menor? Debemos
reducir la regin de rechazo. Si ponemos como regin de rechazo x 5, ya no podremos rechazar H0 en
152
x
0
1
2
3
4
5
6
7
8
9
10
P [X = x]
10
0
10
= 0.10737
0 0.2 0.8
10
1
9
0.2
0.8
=
0.26844
1
10
2
8
0.2
0.8
=
0.30199
2
10
3
7
0.2
0.8
=
0.20133
3
10
4
6
0.2
0.8
=
0.08808
4 5 5
10
0.2
0.8
=
2.6424
102
5
10
6
4
3
6 0.2 0.8 = 5.505 10
10
7
3
4
7 0.2 0.8 = 7.8643 10
10
8
2
5
8 0.2 0.8 = 7.3728 10
10
9
1
6
9 0.2 0.8 = 4.096 10
10
10
0
7
10 0.2 0.8 = 1.024 10
Regin de
aceptacin
Regin
de
rechazo
Cuadro 8.2: Funcin masa del estadstico de contraste suponiendo cierta H0 , es decir, suponiendo que p = 0.2.
luz de los datos no podemos armar que p > 0.2 con un 96.721 % de conanza.
a la
p-valor.
153
que el contraste se realiza mediante un estadstico que notaremos S , y que el valor del estadstico para la
muestra es s.
El
p-valor asociado al contraste se dene como el mnimo nivel de signicacin con el que la hiptesis nula
Ejemplo. En el Ejemplo 8.2 hemos visto cmo podemos rechazar la hiptesis nula con un 87.913 % de
conanza, pero no con un 96.721 %. Dicho de otra forma, podemos rechazar la hiptesis nula con un
nivel de signicacin del 12.087 %, pero no con un nivel de signicacin del 3.279 %. Esto implica que el
p-valor estar justo entre estos dos ltimos valores.
Dado que normalmente se elige como nivel de signicacin mximo = 0.05, se tiene que la regla de decisin
en un contraste con ese nivel de signicacin, dado el p-valor, sera la siguiente:
Si p < 0.05, rechazamos H0 en favor de H1 con ms de un 95 % de conanza.
Si p 0.05, no podemos rechazar H0 en favor de H1 con al menos un 95 % de conanza.
Sin embargo, esta regla de decisin, que es la ms habitual, es demasiado reduccionista si no se proporciona
el valor exacto del p-valor. La razn es que no es lo mismo rechazar una hiptesis con
al menos
un 95 % de
conanza si el p-valor es 0.049 que si es 0.001. Hay que proporcionar siempre el p-valor de un contraste, ya
que eso permite a cada lector decidir por s mismo.
En resumen, el p-valor permite utilizar cualquier otro nivel de signicacin, ya que si consideramos un nivel
de signicacin :
Si p < , rechazamos H0 en favor de H1 con ms de un (1 ) % de conanza.
Si p , no podemos rechazar H0 en favor de H1 con al menos un (1 ) % de conanza.
Como conclusin, siempre que hagamos un contraste de hiptesis, debemos facilitar el p-valor asociado.
Como nota nal sobre el concepto de p-valor, es importante sealar que, al contrario de lo que errneamente
se piensa en demasiadas ocasiones, el p-valor no es la probabilidad de la hiptesis nula. Mucha gente piensa
esto porque es cierto que cuando el p-valor es pequeo es cuando se rechaza la hiptesis nula. Sin embargo,
para empezar, no tiene sentido plantearnos la
probabilidad
falsa: desde una perspectiva clsica de la probabilidad, se habla de la probabilidad de un suceso porque a
veces ocurre y a veces no, pero en este caso no podemos pensar as, ya que la hiptesis nula o se da o no se
da. En realidad, el p-valor lo que da es un indicio de la certidumbre que tenemos, de la conanza en que la
hiptesis nula sea verdad, teniendo en cuenta los datos de la muestra. Esta interpretacin tiene ms que ver
con la interpretacin subjetiva de la probabilidad de la que hablamos al principio de curso.
Hay que decir que, en relacin a esta interpretacin subjetiva de la probabilidad, existe una visin de la
Estadstica, llamada Estadstica Bayesiana, en la que el p-valor s puede entenderse como la probabilidad
de la hiptesis nula, pero entendiendo que medimos la probabilidad de la hiptesis nula, no porque pueda
ocurrir o no ocurrir en funcin del azar, sino porque tenemos incertidumbre sobre ella.
154
0.4
0.3
0.2
0.2
0.3
0.4
0.1
Regin de aceptacin
0.1
Regin de aceptacin
0.0
0.0
0.2
0.3
0.4
0.1
Regin de aceptacin
0.0
contrastes bilaterales
o de dos colas, ya que el rechazo de la hiptesis nula en favor de la alternativa puede producirse porque el
estadstico de contraste toma valores muy altos o muy bajos. Por contra, los contrastes del tipo H0 : = 0 ,
frente a H1 : > 0 o H1 : < 0 son
ya que el rechazo de la
hiptesis nula en favor de la alternativa puede producirse slo si el estadstico de contraste toma valores muy
altos (cuando H1 : > 0 , llamado
contraste a la izquierda).
: < 0 ,
llamado
155
Por tanto, teniendo en cuenta la denicin de p-valor, su clculo se realiza de la siguiente forma:
Si el contraste es unilateral a la izquierda (H1 : < 0 ),
p = P [S s/H0 ] .
Si el contraste es unilateral a la derecha (H1 : > 0 ),
p = P [S > s/H0 ] .
Si el contraste es bilateral (H1 : 6= 0 ),
mano,
156
Tipo de prueba
Hiptesis
Estadstico
Rechazo
p-valor
Supuestos
A la izquierda
H0 : = 0
H1 : < 0
z < z
P [Z < z]
Bilateral
H0 : = 0
H1 : 6= 0
x
0
z = sn1
/ n
|z| > z1/2
2P [Z > |z|]
n 30
A la derecha
H0 : = 0
H1 : > 0
z > z1
P [Z > z]
10.38
8.71
7.84
8.63
10.06
9.76
9.16
9.16
7.48
8.09
7.58
10.80
9.40
7.75
9.19
9.99
9.86
9.03
8.92
10.79
9.46
7.61
9.00
12.85
9.82
10.18
8.98
9.25
11.01
9.37
9.08
10.81
10.39
8.19
9.66
7.09
9.05
8.50
7.44
9.75
9.25
9.39
9.51
11.66
9.66
Bichus localis,
tiene una
razn media longitud/anchura de 9. Los arquelogos encargados del yacimiento han hallado 50 hmeros
fsiles, cuyos datos aparecen en el Cuadro 8.4. Tienen los arquelogos indicios sucientes para concluir que
han descubierto en el yacimiento una especie distinta de la
Bichus localis ?
En primer lugar, observemos que no nos han especicado ningn nivel de signicacin en el enunciado. En
este caso, lo habitual es considerar = 0.05. En caso de que la decisin sea muy relevante, elegiramos un
nivel ms bajo.
A continuacin debemos plantear las hiptesis del contraste. En principio, la zona de la excavacin indica que
la especie del yacimiento debera ser la especie
Bichus localis,
la hiptesis nula es H0 : = 9, donde por estamos notando la media de la razn longitud/anchura del
hmero de la especie del yacimiento. Como hiptesis alternativa nos planteamos que se trate de otra especie,
es decir H1 : 6= 9. Se trata, por tanto, de un contraste de dos colas.
Para realizarlo, debemos calcular en primer lugar el estadstico de contraste. ste, a su vez, requiere del
clculo de la media y de la desviacin tpica muestral de los datos. Estos valores son, respectivamente, 9.414
y 1.239. Por tanto,
z=
9.414 9
= 2.363.
1.239/ 50
Ahora tenemos que plantearnos si este valor del estadstico nos permite rechazar la hiptesis nula en favor
de la alternativa o no. Podemos hacerlo de dos formas:
1. Obteniendo la regin de rechazo. Dado que z10.05/2 = 1.96, la regin de rechazo es |z| > 1.96. Vemos
que, en efecto, 2.363 > 1.96, por lo que podemos rechazar la hiptesis nula en favor de la alternativa
con un 95 % de conanza, concluyendo con ese nivel de conanza que se trata de una nueva especie.
Nos queda, sin embargo, la duda de saber qu hubiera pasado de tomar un nivel de signicacin ms
exigente; por ejemplo, = 0.01.
Prof. Dr. Antonio Jos Sez Castillo
157
Tipo de prueba
Hiptesis
Estadstico
Rechazo
p-valor
Supuestos
A la izquierda
H0 : = 0
H1 : < 0
Bilateral
A la derecha
H0 : = 0
H0 : = 0
H1 : 6= 0
H1 : > 0
x
0
t = sn1 / n
t < t;n1
|t| > t1/2;n1
t > t1;n1
P [Tn1 < t]
2P [Tn1 > |t|]
P [Tn1 > t]
Distribucin de probabilidad aproximadamente normal
Bichus localis,
signicacin)1 .
encuentra como vapor a temperatura ambiente y es indisoluble en agua, no superan el mximo permitido por
la Directiva Europea de Calidad del Aire, cinco microgramos por metro cbico. sta es la principal conclusin
del estudio elaborado por un equipo de la Escuela Andaluza de Salud Pblica
en el Campo de Gibraltar. La
noticia slo indicaba que el estudio se basaba en una muestra, dando el valor medio muestral en varias zonas
del Campo de Gibraltar, pero no el tamao ni la desviacin tpica muestral.
Para realizar el ejemplo, nosotros vamos a imaginar unos datos correspondientes a una muestra de 20 hogares
donde se midi la concentracin de benceno, arrojando una media muestral de 5.1 microgramos por metro
cbico y una desviacin tpica muestral de 1.7. Estoy seguro de que, en ese caso, el peridico habra sacado
grandes titulares sobre la contaminacin por benceno en los hogares del Campo de Gibraltar pero, podemos
armar que, en efecto, se superan los lmites de la Directiva Europea de Calidad del Aire?
En primer lugar, de nuevo no nos indican un nivel de signicacin con el que realizar la prueba. Escogemos,
en principio, = 0.05.
Tenemos que tener cuidado, porque el planteamiento de la prueba, tal y como se nos ha planteado, ser
contrastar la hiptesis nula H0 : = 5 frente a H1 : > 5, en cuyo caso, un error tipo I se traduce en
concluir que se viola la normativa cuando en realidad no lo hace, lo cul es grave porque genera alarma
injusticada en la poblacin, mientras que el error tipo II, el que no controlamos con el , es concluir que
1 Debe quedar claro que, estadsticamente, lo que hemos demostrado es que la razn media es distinta de 9. Son los arquelogos
los que deciden que eso implica una nueva especie.
158
se cumple la normativa cuando en realidad no lo hace, lo cual es gravsimo para la poblacin! Con esto
quiero incidir en una cuestin importante respecto a lo que se nos pide que demostremos: se nos dice que
nos planteemos si se superan los lmites de la normativa, en cuyo caso H1 debe ser > 5, pero en realidad,
deberamos plantearnos la pregunta de si podemos estar seguros de que se est por debajo de los lmites
mximos permitidos, es decir, deberamos probar H1 : < 5.
Centrndonos exclusivamente en lo que se nos pide en el enunciado, tenemos que H1 : > 5 determina que
se trata de una prueba unilateral a la derecha. El estadstico de contraste es
t=
5.1 5
= 0.263.
1.7/ 20
1. Si queremos concluir con la regin de rechazo, sta est formada por los valores t > t0.95;19 = 1.729,
luego, dado que 0.263 < 1.729, no podemos armar con un 95 % de conanza que se est incumpliendo
la normativa.
2. El p-valor es an ms informativo. Su valor es p = P [T19 > 0.263] = 0.398, por lo que tendramos
que llegar hasta casi un 40 % de signicacin para rechazar la hiptesis nula en favor de la alternativa
armando que se incumple la normativa.
Por lo tanto, tal y como est planteado el problema, no podemos armar que se est incumpliendo la normativa
(con un 5 % de signicacin), por ms que un valor muestral de la media, 5.1, parezca indicar que s. Lo
que yo recomendara a los responsables del cumplimiento la normativa es que aumentaran el tamao de la
muestra, ya que, por ejemplo, si esos mismos datos correspondieran a 1000 hogares en vez de a 20, s se
podra armar con un 95 % de conanza que se incumple la normativa.
159
Tipo de
prueba
Hiptesis
Unilateral a
la izquierda
H0 : 1 2 = D0
H1 : 1 2 < D0
Estadstico
de contraste
Regin de
rechazo
p-valor
Supuestos
Unilateral
a la derecha
H0 : 1 2 = D0
H1 : 1 2 > D0
Bilateral
H0 : 1 2 = D0
H1 : 1 2 6= D0
z=
(
x
y )D0
s
(s1n1 )
n1
z < z
(s2n1 )
n2
z > z1
P [Z < z]
2P [Z > |z|]
P [Z > z]
n1 , n2 30. Muestreo independiente y aleatorio
Proceso antiguo
n2 = 30
y2 = 1330
s2 = 238
1255 1330
= 1.41.
z=q
2152
2382
+
50
30
8.5.2. Con muestras pequeas (n1 < 30 o n2 < 30) y varianzas iguales
El resumen aparece en el Cuadro 8.8. A propsito de la hiptesis de la igualdad de las varianzas, sta debe
basarse en razones no estadsticas. Lo habitual es que se suponga que son iguales porque el experto que est
realizando el contraste tiene razones experimentales para hacerlo, razones ajenas a la estadstica.
Vamos a considerar como ejemplo el de un ingeniero que desea comparar dos equipos de trabajo para analizar
si se comportan de forma homognea. Para ello realiza una prueba de destreza entre los trabajadores de
ambos equipos: 13 del equipo 1 y 15 del equipo 2, cuyas puntuaciones aparecen en el Cuadro 8.9. Hay
indicios sucientes de que existan diferencias entre las puntuaciones medias de los dos equipos? ( = 0.05).
160
Tipo
A la izquierda
H0 : 1 2 = D0
H1 : 1 2 < D0
Hiptesis
Estadstico
de contraste
t=
(
x
y )D0
r
s2p n1 + n1
1
Regin de
Rechazo
p-valor
Bilateral
A la derecha
H0 : 1 2 = D0
H0 : 1 2 = D0
H1 : 1 2 6= D0
H1 : 1 2 > D0
2
2
1
(n1 1)(sn1 ) +(n2 1)(s2n1 )
2
, sp =
n1 +n2 2
Supuestos
59
71
73
63
74
40
61
34
92
38
60
48
84
60
54
75
73
47
47
41
102
44
75
86
33
53
68
39
s2p =
12 18.6 + 14 15.8
= 294.09.
13 + 15 2
t= q
68.2 53.8
1
294.09( 13
+
= 2.22.
1
15 )
Aunque no hemos dicho nada al respecto, vamos a suponer que las varianzas son iguales. Esto no parece
descabellado si admitimos que las condiciones en que trabajan ambos equipos determinan que no debe haber
diferencias en la variabilidad de sus puntuaciones. Esta hiptesis debe ser admitida y propuesta por el experto
(en este caso, el ingeniero) que maneja los datos.
Para obtener la conclusin, como siempre, vamos a obtener la regin de rechazo y valorar el p-valor:
1. La regin de rechazo es |t| > t0.975;26 = 2.055. Dado que t = 2.22 cae en esa regin, podemos rechazar
la igualdad de las medias con un 95 % de conanza.
2. Dado que el p-valor, p = 2P [T26 > 2.22] = 0.035 es inferior a 0.05, podemos rechazar la igualdad de las
medias con un 95 % de conanza. De hecho, podramos llegar a un 96.5 %.
161
Tipo de prueba
Hiptesis
Unilateral a
la izquierda
H0 : 1 2 = D0
H1 : 1 2 < D0
H0 : 1 2 = D0
H1 : 1 2 6= D0
Estadstico
de contraste
Regin de
rechazo
p-valor
Supuestos
Unilateral
a la derecha
H0 : 1 2 = D0
H1 : 1 2 > D0
Bilateral
(
x
y )D0
t=
r
1
n
(s1n1 ) +(s2n1 )
t < t;2(n1)
t > t1;2(n1)
P [T;2(n1) < t]
2P [T;2(n1) > |t|]
P [T;2(n1) > t]
Las dos muestras se recogen de forma independiente y aleatoria
Ambas variables siguen distribuciones aproximadamente normales
Las muestras tienen el mismo tamao, n1 = n2 = n
Cuadro 8.10: Contraste para la igualdad de medias con muestras pequeas varianzas distintas y mismo
tamao muestral
Tipo de prueba
Hiptesis
Estadstico
de contraste
Unilateral a
la izquierda
H0 : 1 2 = D0
H1 : 1 2 < D0
t=
Supuestos
n1
(
x
y )D0
s
(s1n1 )
n1
Regin
de rechazo
p-valor
Unilateral
a la derecha
H0 : 1 2 = D0
H0 : 1 2 = D0
H1 : 1 2 6= D0
H1 : 1 2 > D0
2
2 !2
(s1n1 ) + (s2n1 )
Bilateral
( s2 )
+ n1
n2
,v =
n1 1
t < t;v
n2
2 2
s1
n1
n1
(s2n1 )
n2
2 2
n2 1
t > t1;v
P [Tv < t]
2P [Tv > |t|]
P [Tv > t]
Las dos muestras se recogen de forma independiente y aleatoria
Ambas variables siguen distribuciones aproximadamente normales
Cuadro 8.11: Contraste para la igualdad de medias con muestras pequeas, varianzas distintas y distinto
tamao muestral
apareadas,
(x1 , y1 ) , ..., (xn , yn ). Para comparar ambas variables se considera una nueva variable, D = X Y . Notamos
2
d a la media muestral de x1 y1 , ..., xn yn y sdn1 a su varianza muestral.
162
Tipo
Hiptesis
A la izquierda
H0 : 1 2 = D0
H1 : 1 2 < D0
Bilateral
H0 : 1 2 = D0
H1 : 1 2 6= D0
z = sddD
/ n
A la derecha
H0 : 1 2 = D0
H1 : 1 2 > D0
z < z
P [Z < z]
z > z1
P [Z > z]
Estadstico
Rechazo
p-valor
Supuestos
n1
Cuadro 8.12: Contraste para la igualdad de medias en poblaciones apareadas con muestra grande
Tipo
Estadstico
Bilateral
H0 : 1 2 = D0
H1 : 1 2 6= D0
t = sddD
/ n
Rechazo
p-valor
Supuestos
t < t;n1
|t| > t1/2;n1
t > t1;n1
P [Tn1 < t]
2P [Tn1 > |t|]
P [Tn1 > t]
D = X Y , es aproximadamente normal
Hiptesis
A la izquierda
H0 : 1 2 = D0
H1 : 1 2 < D0
A la derecha
H0 : 1 2 = D0
H1 : 1 2 > D0
n1
Cuadro 8.13: Contraste para la igualdad de medias en poblaciones apareadas y muestra pequea
ponente no deseado2 . Antes de sacarlo al mercado necesita un estudio de casos-controles que demuestre su
ecacia.
El estudio de casos controles consiste en encontrar un nmero determinado de parejas de personas con
caractersticas siolgicas parecidas; en este caso, la ms importante de estas caractersticas sera que las
parejas caso-control tengan al inicio del estudio el mismo o muy parecido nivel de presencia en sangre del
componente no deseado: en cada una de esas parejas, una acta como caso, tomando la medicacin en estudio,
y la otra como control, tomando un producto inocuo llamado placebo. Ninguna de las dos personas, ni siquiera
el mdico o el farmacetico que controla el proceso, sabe quin es el caso y quin el control. Slo quien recopila
y analiza los resultados, sin contacto alguno con el paciente, tiene esos datos. Esta metodologa se conoce
como
doble ciego
3.21 2
= 3.375
1.134/ 10
y el p-valor asociado es p = P [T9 > 3.375] = 0.004. Vemos que la signicacin determina un p-valor inferior,
por ejemplo, a = 0.05, por lo que podemos concluir con ese nivel de signicacin que la mejora es superior,
en media, a 2 puntos y, por tanto, el medicamento es rentable.
2 Podra
163
Pareja
1
2
3
4
5
6
7
8
9
10
Medicamento
32.10
36.10
32.30
29.50
34.30
31.90
33.40
34.60
35.20
32.70
Placebo
27.10
31.50
30.40
26.90
29.90
28.70
30.20
31.80
33.60
29.90
Diferencia
5.00
4.60
1.90
2.60
4.40
3.20
3.20
2.80
1.60
2.80
Unilateral a
la izquierda
H0 : p = p0
H1 : p < p0
Bilateral
H0 : p = p 0
H1 : p 6= p0
z=
Unilateral
a la derecha
H0 : p = p0
H1 : p > p0
0
q pp
p0 (1p0 )
n
P [Z < z]
2P [Z > |z|]
P [Z > z]
z < z
z > z1
np0 , n (1 p0 ) 10
xito,
ello seleccionamos una muestra aleatoria simple de tamao n y contabilizamos la proporcin de xitos en la
muestra, p. El resumen del contraste aparece en el Cuadro 8.15.
Vamos a considerar un primer ejempo relativo a la relacin entre el gnero y los accidentes de trco. Se
estima que el 60 % de los conductores son varones. Por otra parte, un estudio realizado sobre los datos de 120
accidentes de trco muestra que en ellos el 70 % de los accidentes fueron provocados por un varn conductor.
Podemos, con esos datos, conrmar que los hombres son ms peligrosos al volante?
Si notamos por p a la proporcin de varones causantes de accidentes de trco, la pregunta se responder
armativamente si logramos contrastar la hiptesis H1 : p > 0.6. El valor del estadstico es
0.7 0.6
= 2.236.
z=q
0.60.4
120
Por su parte, la regin de rechazo sera |z| > 1.96 para un = 0.05, luego en efecto, podemos concluir que la
proporcin de varones causantes de accidentes es superior a la proporcin de varones conductores en general.
El p-valor, de hecho, es 0.013.
Vamos a analizar con mucho detalle otro ejemplo sobre igualdad de proporciones. De todas formas, lo que
quiero enfatizaros con el ejemplo no est relacionado en s con el hecho de que se reera a una proporcin.
Una marca de nueces arma que, como mximo, el 6 % de las nueces estn vacas. Se eligieron 300 nueces
164
al azar y se detectaron 21 vacas. Con un nivel de signicacin del 5 %, se puede aceptar la armacin de
la marca?
En primer lugar, pedir un nivel de signicacin del 5 % es equivalente a pedir un nivel de conanza del
95 % ... sobre qu? Nos preguntan si se puede aceptar la armacin de la marca
con un nivel de
signicacin del 5 %, es decir, con un nivel de conanza del 95 %. Eso implica que queremos
probar con amplias garantas que la marca no miente, y la nica forma de hacerlo es poner su hiptesis
(p < 0.06) en la hiptesis alternativa. Por tanto, tendramos H0 : p 0.06 frente a lo que arma la
marca, H1 : p < 0.06.
Ahora bien, jmonos que la proporcin muestral de nueces vacas es p = 21/300 = 0.07. Es decir, nos
piden que veamos si una proporcin muestral de 0.07 da suciente conanza (95 % para ser exactos) de
que p < 0.06... No da ninguna! Ni siquiera hace falta hacer el contraste con nmeros. Jams podremos
rechazar la hiptesis nula en favor de la hiptesis de la marca, es decir, en absoluto podemos armar
lo que dice la marca, p < 0.06, con un 95 % de conanza. De todas formas, por si hay algn incrdulo,
0.070.06
el estadstico de contraste sera z =
= 0.729. La regin de rechazo, dado que es un test a la
0.060.94
300
izquierda, sera z < z0.05 = 1.645. Como vemos, el valor del estadstico de contraste est en la cola de
la derecha y la regin de rechazo en la de la izquierda. Por eso deca antes que es imposible rechazar la
hiptesis nula en favor de la alternativa, independientemente del nivel de conanza requerido.
Hasta ahora hemos demostrado que la marca no puede armar que la proporcin de nueces vacas es
inferior al 6 % con un 95 % de conanza. De hecho, no lo puede armar con ningn nivel de conanza,
porque los datos tomados proporcionan una estimacin de 0.07 que va justo en contra de su hiptesis.
Pero vamos a suponer que nos ponemos gallitos y decimos: es
cias empricas que proporcionan un 95 % de conanza en que la compaa miente, siendo en realidad
la proporcin de nueces vacas superior al 6 % .
armamos p > 0.06 con un 95 % de conanza, lo que equivale a decir que hemos planteado un nuevo
contraste de hiptesis en el que H0 : p 0.06 frente a H1 : p > 0.06. Las cuentas estn casi hechas, ya
que el valor del estadstico de contraste es el mismo, z = 0.729, mientras que la regin de rechazo es
z > z0.95 = 1.645. Ahora el valor del estadstico, es decir, la informacin que nos dan los datos (21 de
300 nueces vacas), s es coherente con la hiptesis alternativa, de ah que est en la misma cola que la
regin de rechazo... pero no cae en ella!. Por lo tanto, no tenemos sucientes evidencias en los datos
para rechazar la hiptesis nula en favor de la alternativa con un 95 % de conanza, as que no podemos
demostrar con ese nivel de conanza que la marca miente.
En resumen, aunque parezca paradjico, no tenemos sucientes evidencias en los datos para armar
que la compaa dice la verdad, pero tampoco para demostrar que miente. La diferencia entre ambas
hiptesis radica en que no tenemos ninguna conanza en la armacin de la compaa, y s alguna
conanza en la armacin contraria. Cunta conanza tenemos en la armacin contraria p > 0.06?
Ese valor viene dado por el p-valor, P [Z > 0.729] = 0.233, que determina que el nivel de conanza en
entonces qu hacemos? .
lo nico que podemos recomendar es aumentar el tamao de la muestra, es decir, romper ms de 300
nueces para tomar la decisin. Aparentemente, la informacin recogida con 300 nueces parece indicar
Prof. Dr. Antonio Jos Sez Castillo
165
Tipo de
prueba
Hiptesis
Unilateral a
la izquierda
H0 : p1 p2 = D0
H1 : p1 p2 < D0
Estadstico
de contraste
Regin
de rechazo
p-valor
Supuestos
Bilateral
H0 : p1 p2 = D0
H1 : p1 p2 6= D0
z=
p1 p2 D0
,
1
1
n +n
p(1
p)
p =
Unilateral
a la derecha
H0 : p1 p2 = D0
H1 : p1 p2 > D0
n1 p1 +n2 p2
n1 +n2
z < z
z > z1
P [Z < z]
2P [Z > |z|]
Al menos 10 xitos y 10 fracasos
P [Z > z]
z=q
88
274
88+15
274+1044 (1
15
1044
88+15
1
274+1044 )( 274
= 904.29.
+
1
1044 )
Est claro que el valor del estadstico es bestial, sin necesidad de valorar la regin de rechazo, que sera
z > z0.95 = 1.645, luego podemos rechazar la hiptesis nula en favor de la alternativa con, al menos, el 95 %
de conanza. El p-valor, p = P [Z > 904.29] = 0 indica que la conanza es, de hecho, bastante mayor.
No puedo resistirme a concluir el ejemplo sin recordar que lo que la DGT realmente querr dar a entender
es que el alcohol es el causante de los accidentes de trco, pero que eso no puede ser demostrado con el
contraste.
3 http://www.dgt.es/educacionvial/imagenes/educacionvial/recursos/dgt/EduVial/50/40/index.htm
166
Tipo de prueba
Hiptesis
Estadstico
de contraste
Rechazo
p-valor
Supuestos
Unilateral a
la izquierda
H0 : 2 = 02
H1 : 2 < 02
Bilateral
H0 : 2 = 02
H1 : 2 6= 02
2 =
Unilateral
a la derecha
H0 : 2 = 02
H1 : 2 > 02
(n1)s2n1
02
2 < 2/2;n1 o
2 > 21;n1
2 > 21/2;n1
P [2n1 < 2 ]
2min(P [2n1 < 2 ], P [2n1 > 2 ])
P [2n1 > 2 ]
Distribucin de probabilidad aproximadamente normal
2 < 2;n1
2 =
49 0.6
= 45.938.
0.64
Ojo: antes de que la empresa Sidel se enfade con nosotros, no olvidemos que los datos son imaginarios: slo
son reales las especicaciones tcnicas de < 0.8gr.
22 . Notaremos (s1n1 )2 y (s2n1 )2 a las varianzas muestrales. De nuevo slo podremos considerar el contraste
4 http://www.sidel.com/es/products/equipment/the-art-of-lling/hema-gw
Prof. Dr. Antonio Jos Sez Castillo
167
Tipo
Hiptesis
Unilateral a
la izquierda
H0 :
H1 :
12
22
12
22
=1
H0 :
<1
H1 :
Estadstico
Rechazo
p-valor
Supuestos
Unilateral
a la derecha
Bilateral
f=
12
=1
22
12
6= 1
22
2
(s1n1 )
H0 :
H1 :
12
22
12
22
=1
>1
(s2n1 )
f=
2
X
2
Y
12.062
= 1.1172.
11.412
Vamos a tomar un nivel de signicacin de = 0.05. La regin crtica viene delimitada por el valor f0.95;19,19 =
2.168. Dado que f = 1.1172 < f0.95;19,19 = 2.168, no podemos concluir al nivel de signicacin = 0.05 que
la dureza del metal bsico sea ms variable que la dureza medida en la soldadura.
El p-valor, por su parte, es p = P [F19,19 > 1.1172] = 0.4058.
factor
ni 6 . Supongamos tambin que cada una de las muestras provienen de poblaciones con distribucin normal
5 De
6 No
168
cara al uso de las tablas hay una propiedad bastante til: fp;v1 ,v2 = 1/f1p;v2 ,v1
es necesario, aunque s deseable, que todas las muestras tengan el mismo tamao.
Prof. Dr. Antonio Jos Sez Castillo
H0 : 1 = ... = m
frente a
i = 1, ..., m.
Este contraste se denomina ANOVA como acrnimo de
Analysis of Variance,
basa en analizar a qu se debe la variabilidad total que presentan los datos, si al azar o a las diferencias entre
las poblaciones de las que proceden las muestras.
Supongamos que
juntamos
N=
m
X
ni ,
i=1
y calculamos su media,
Pm Pni
i=1
x
=
Ahora, vamos a preguntarnos por las
j=1
xij
1. En primer lugar, los datos varan globalmente respecto a la media total. Una medida de esta variacin
es la
SCT =
ni
m X
X
xij x
2
i=1 j=1
2. Por otro lado, puede haber diferencias entre las medias de cada grupo y la media total. Podemos medir
estas diferencias con la
m
X
ni (
xi x
) .
i=1
SCE
muestrales
sera pequea. Si fuera falsa, habra muchas diferencias entre las medias
SCE
sera grande.
3. Por ltimo, debido a la variabilidad inherente a toda muestra, los datos de cada muestra van a variar respecto a su media particular. Como medida de esta variacin consideramos la
ni
m X
X
i=1 j=1
xij x
i
2
m
X
suma de los
(ni 1) s2i,ni 1 .
i=1
169
de la varianza:
teorema de particin
SCD.
SCE
Para ello basta considerar que, suponiendo que la hiptesis nula es cierta:
SCT
2
SCE
2
SCD
2
F =
SCE
m1
SCD
N m
que, suponiendo que la hiptesis nula es cierta, sigue una F de Snedecor con m 1 y N m grados de
libertad.
Por lo tanto, el test podemos resumirlo de la siguiente forma:
1. Calculamos
Pm Pni
x
=
y con ella
SCE =
m
X
i=1
j=1
N
2
ni (
xi x
) =
i=1
2. Calculamos
SCD =
ni
m X
X
xij
m
X
ni x
2i N x
2 .
i=1
xij x
i
2
i=1 j=1
m
X
(ni 1) s2i,ni 1 .
i=1
F =
SCE
m1
SCD
N m
4. Tomamos la decisin:
a)
b)
Si F > Fm1,N m;1 , rechazamos la hiptesis nula en favor de la alternativa con un nivel de
signicacin .
170
Composicin
A
B
C
D
Media muestral
253.8
263.2
271.0
262.0
En primer lugar, observemos que los tamaos muestrales son iguales: n1 = ... = n4 = 5.
Por otra parte, tenemos:
x
=
F =
743.4
41
1023.6
204
= 3.8734.
Por su parte, el valor de F3,16;0.95 es 3.2389, de manera que podemos armar que existen diferencias
signicativas entre las durezas de los 4 compuestos, con un 95 % de conanza.
Ejemplo. En Biologa Molecular se estudia la relacin que puede tener el nivel de expresin de un gen
con la posibilidad de padecer un tipo de cncer. Un investigador consigue analizar el nivel de expresin de
10 genes en una muestra de pacientes y realiza 10 contrastes de hiptesis donde la hiptesis alternativa de
cada uno de ellos dice que un gen est relacionado con la posibilidad de padecer ese cncer. Los p-valores
obtenidos son los siguientes:
(0.1, 0.01, 0.21, 0.06, 0.32, 0.24, 0.45, 0.7, 0.08, 0.0003)
171
En principio, tendramos evidencias de que el 2 y el ltimo gen estn signicativamente relacionados con
ese tipo de cncer. Sin embargo, debemos corregir el efecto de la realizacin de las 10 pruebas simultneas.
Aplicando el mtodo de Bonferroni, debemos multiplicar por 10 los p-valores. En ese caso, el segundo
gen ya no puede ser considerado estadsticamente signicativo para el riesgo de padecer el cncer (0.01
10 > 0.05); por el contrario, dado que 0.0003 10 < 0.05, el ltimo gen sigue siendo considerado
signicativamente relacionado con el cncer.
tiene dos mquinas distintas para ello. Le interesa que los cojinetes producidos tengan dimetros similares,
independientemente de la mquina que los produce, pero tiene sospechas de que est produciendo algn problema de falta de calibracin entre ellas. Para analizar esta cuestin, extrae una muestra de 120 cojinetes que
se fabricaron en la mquina A, y encuentra que la media del dimetro es de 5.068 mm y que su desviacin
estndar es de 0.011 mm. Realiza el mismo experimento con la mquina B sobre 65 cojinetes y encuentra que
la media y la desviacin estndar son, respectivamente, 5.072 mm y 0.007 mm. Puede el ingeniero concluir
que los cojinetes producidos por las mquinas tienen dimetros medios signicativamente diferentes?
En este caso, afortunadamente tenemos un tamao muestral que va a permitir obviar la hiptesis de normalidad. Vemos que se plantea un supuesto que puede ser analizado a travs de la media, en concreto, comparando
la media de ambas mquinas. Si llamamos X al dimetro de la mquina A e Y al dimetro de la mquina
B, tenemos que contrastar H0 : X = Y frente a H1 : X 6= Y .
El estadstico de contraste es
5.068 5.072
= 3.013.
z=q
0.0072
0.0112
+
120
65
El p-valor asociado es 2 P [Z < 3.361] = 0.002, luego tenemos evidencias de que, en efecto, el dimetro
medio de ambas mquinas es distinto.
172
Captulo 9
Contrastes de hiptesis no paramtricas
Todos aprendemos de la experiencia, y la leccin en esta ocasin es que nunca se debe perder
de vista la alternativa.
Sherlock Holmes (A. C. Doyle), en Las Aventuras de Black Peter
Resumen. Continuando con los contraste de hiptesis, presentamos en este captulo nuevos contrastes que
permitirn decidir si un ajuste mediante una distribucin terica es vlido y valorar si existe relacin entre
variables cualitativas.
9.1. Introduccin
Todos los contrastes que hemos descrito en el captulo anterior se basan, directa o indirectamente (a travs
del teorema central del lmite) en que los datos se ajustan a la distribucin normal, haciendo inferencia de
una u otra forma sobre sus parmetros. En este captulo vamos a considerar contrastes que no necesitan
de tal hiptesis, por lo que no se enuncian como contrastes sobre algn parmetro desconocido: de ah que
formen parte de los llamados contrastes
juzgar
si ese
ajuste es bueno o malo, o cmo de bueno es. De hecho, en la relacin de problemas correspondiente dejamos
abierta esta cuestin, ya que slo pudimos valorar esta
lo que slo nos dio una visin parcial del problema, que puede ser muy subjetiva.
Los dos contrastes de hiptesis que vamos a describir ahora van a permitir contrastar como hiptesis nula
Resultado
1
2
3
4
5
6
Total
Observados
105
107
89
103
111
85
600
Esperados
100
100
100
100
100
100
600
H0 : p1 = ... = p6 =
1
6
frecuencias observadas.
Por otra parte, si el dado fuera justo (hiptesis H0 ), en 600 lanzamientos deberan darse aproximadamente
100 de cada resultado posible. stas frecuencias se denominan
frecuencias esperadas.
El tahur tomar la decisin con respecto al dado a partir de la comparacin de las frecuencias observadas
y las esperadas (ver Cuadro 9.1). Qu decidiras t a la luz de esos datos?
A continuacin, vamos a describir el test 2 , que permite realizar pruebas de este tipo. Como hemos comentado
en la introduccin, con ella podremos
juzgar
puntual, pero tambin podremos utilizarla en ejemplos como el que acabamos de ver, en el que el experto
est interesado en contrastar datos experimentales con respecto a una distribucin terica que le resulta de
inters.
En primer lugar y de forma ms general, supongamos que tenemos una muestra de tamao N de una v.a.
discreta o cualitativa, X , ajustada a un modelo dado por una distribucin.
174
Consideremos una particin del conjunto de valores que puede tomar la variable: S1 , ..., Sr . En principio,
esta particin podran ser simplemente todos y cada uno de los valores que toma la variable X , pero, como
veremos, es posible que tengamos que agrupar algunos de ellos.
Seguidamente, consideremos la probabilidad, segn la distribucin dada por el ajuste que queremos evaluar,
de cada una de estas partes,
pi = P [X Si /H0 ] > 0.
De igual forma, calculemos Oi , el nmero de observaciones de la muestra que caen en cada conjunto Si .
La idea del test es comparar el nmero de observaciones Oi que caen realmente en cada conjunto Si con el
nmero esperado de observaciones que deberan caer en Si si el ajuste es el dado por nuestro modelo, que
sera N pi . Para ello, una medida que compara estas dos cantidades viene dada por
D=
r
2
X
(Oi N pi )
.
N pi
i=1
Si, para una muestra dada, esta v.a. toma un valor d muy alto, indica que los valores observados
no cuadran
con el ajuste que hemos propuesto (con lo cul se rechazara la hiptesis nula en favor de la alternativa);
si, por el contrario, toma un valor d bajo, indica que nuestro ajuste corresponde bien con los datos de la
muestra, por lo que es
aceptable
la hiptesis nula.
El problema nal es decidir cundo el valor de la v.a. D, d, es lo sucientemente alto como para que nos
resulte inaceptable el ajuste. Para decidirlo hay que tener en cuenta que cuando N es razonablemente alto y
la hiptesis H 0 es cierta, la distribucin de probabilidad de D es 2 con r k 1 grados de libertad, es decir,
N >>
D/H0 2rk1 ,
donde k es el nmero de parmetros que han sido estimados en el ajuste. Teniendo en cuenta este resultado,
se calcula bajo esta distribucin la probabilidad de que se de un valor todava ms alto que d (el p-valor, por
tanto),
p = P [D > d/H0 ] .
Si esta probabilidad es inferior al 5 %, se rechaza la hiptesis nula en favor de la alternativa con un 95 % de
conanza. Dicho de otra forma, se acepta la hiptesis nula slo si el valor de D entra dentro del 95 % de
resultados ms favorables a ella.
Esquemticamente, el proceso es el siguiente:
1. Se enuncia el test:
175
xi
Frec. obs.
0
42
1
28
2
13
3
5
4
7
5
3
6
2
d=
r
2
X
(Oi N pi )
.
N pi
i=1
p = P [D > d/H0 ] ,
segn una distribucin 2 con r k 1 grados de libertad.
6. Se toma la decisin (para un nivel de conanza del 95 %):
a)
b)
Si p 0.05, se concluye que no hay evidencias en contra de armar que los datos se ajustan a la
distribucin dada.
Ejemplo.
Los datos que se presentan en el Cuadro 9.2 constituyen una muestra aleatoria simple del
tiempo en ms. que transcurre entre la llegada de paquetes transmitidos por un determinado protocolo.
En la tabla aparecen los valores junto al nmero de veces que han sido observados en la muestra.
Se sospecha que una distribucin geomtrica puede ajustar bien esos datos. Vamos a realizar ese ajuste
y contrastar si es aceptable mediante el test de la chi-cuadrado.
En primer lugar, para ajustar una distribucin geomtrica debemos estimar el parmetro de la misma.
Vamos a hacerlo de forma sencilla por el mtodo de los momentos. El valor de la media de la distribucin
es $EX= de donde p =
1
1+EX .
p =
1
.
1+x
Por su parte,
x
=
0 42 + 1 28 + 2 13 + 3 5 + 4 7 + 5 3 + 6 2
= 1.24,
100
luego $
176
As pues, deseamos contrastar en qu medida el ajuste de una Geo (0.4464) es vlido para los datos de
la muestra. Es decir, deseamos contrastar H0 : X Geo (0.4464) frente a la alternativa H1 : X 9
Geo (0.4464) .
Vamos a calcular cules son las probabilidades tericas segn esa distribucin de los valores observados
en la muestra:
0
d=
Finalmente, el p-valor se calcula como P [D > 1.7973] , donde D sigue una 2511 , es decir, una Gamma
de parmetros (5 1 1)/2 y 1/2. Por tanto,
p valor =
1.7973
1
2
32 1 1 x
e 2
dx = 0.61552.
3
2
1
2x
Al ser superior (muy superior, de hecho) a 0.05, podemos armar que no hay evidencias en los datos de
la muestra en contra de que stos sigan una distribucin Geo (0.4464).
177
xi
Oi
N pi
(Oi N pi )
0
1
2
3
4
42
28
13
5
12
44.64
27.71
13.68
7.57
9.38
A la hora de calcular este mximo debemos tener en cuenta que la variable x es de tipo continuo.
La hiptesis nula a contrastar es
dN = m
ax
1iN
m
ax F x(i) SN x(i) , F x(i) SN x(i1) .
4. Se rechazar la hiptesis nula en favor de la alternativa si p = P [DN > dN ] < 0.05, con un (1 p)
100 % de conanza.
La distribucin de probabilidad de DN , necesaria para calcular el p-valor, no es muy conocida. Adems,
para evaluar esta probabilidad hay que tener en cuenta el nmero de parmetros de la distribucin en el
178
ajuste. Una metodologa adecuada para ello es conocida como Mtodos de Monte Carlo, aunque excede los
contenidos de estos apuntes. Debo advertir que muchos de los paquetes estadsticos ms habituales pueden
inducir a error en el clculo de este p-valor, ya que proporcionan por defecto aqul correspondiente a un
ajuste en el que no se estime ningn parmetro en la distribucin bajo la hiptesis nula, dando lugar a una
sobreestimacin de dicho p-valor.
1.4647
0.2333
0.4995
0.0814
0.7216
0.3035
0.1151
1.7358
0.2717
0.9021
0.7842
0.0667
3.9898
0.0868
0.1967
0.8909
0.8103
0.1124
0.4854
0.0512
Ejemplo. Los datos que aparecen en el Cuadro 9.4 corresponden al tiempo en sec. entre conexiones a
un servidor. Nos planteamos si una distribucin exponencial es adecuada para su ajuste.
En primer lugar hemos de decidir cul es el ajuste propuesto. El estimador mximo verosmil del par = 1 . En este
metro de una exponencial coincide con el estimador del mtodo de los momentos,
m1
= 1/0.6902 = 1. 448 9.
caso,
Para calcular el valor del estadstico del contraste, debemos evaluar la funcin de distribucin de una
exp (1.4489),
F (x) = 1 e1.4489x , x 0
con la funcin de distribucin emprica. El Cuadro 9.5 muestra ambas funciones de distribucin. De ella
se deduce que el valor del estadstico de contraste es 0.172 72. El p-valor asociado (calculado por Mtodos
de Monte Carlo con R) toma el valor
x(i)
0.0512
0.0667
0.0814
0.0868
0.1124
0.1151
0.1967
0.2333
0.2717
0.3035
F x(i)
7.1499 102
9.2119 102
0.11125
0.11818
0.15029
0.1536
0.24798
0.28682
0.32542
0.3558
i
20
i1
20
0.05
0.1
0.15
0.2
0.25
0.3
0.25
0.4
0.45
0.5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
x(i)
0.4854
0.4995
0.7216
0.7842
0.8103
0.8909
0.9021
1.4647
1.7358
3.9898
F x(i)
0.50505
0.51506
0.64849
0.67897
0.69089
0.72496
0.72938
0.88023
0.91914
0.99691
i
20
i1
20
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
1
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
179
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.5
1.5
2.5
3.5
Figura 9.1: Funciones de distribucin terica y emprica. Valor donde se da el estadstico de KolmogorovSmirnof.
Ejemplo.
Est relacionada la ideologa poltica con el gnero del votante? Es decir, nos planteamos si
el que una persona se declare de izquierdas o de derechas depende de si es varn o mujer. Existen dos
variables cualitativas o caractersticas que dividen a la poblacin. Lo que nos interesa es si esa divisin
est o no relacionada. Sern ms conservadoras las mujeres?
Consideremos en general una poblacin en la que cada individuo se clasica de acuerdo con dos caractersticas,
designadas como X e Y . Supongamos que los posibles valores de X son x1 , ..., xr y los posibles valores de Y
son y1 , ..., ys .
Denotemos por pij a la proporcin de individuos de la poblacin cuyas caractersticas son simultneamente
xi e yj . Denotemos adems, como pi. a la proporcin de individuos con caracterstica xi y p.j a la proporcin
de individuos con caracterstica yj . En trminos de probabilidades, tendremos que si se elige un individuo al
azar,
P [X = xi , Y = yj ] = pij
P [X = xi ] = pi. =
s
X
pij
j=1
180
P [Y = yj ] = p.j =
r
X
pij .
i=1
Lo que pretendemos contrastar es si las dos caractersticas son independientes, es decir, si para todo i y para
todo j ,
P [X = xi , Y = yj ] = P [X = xi ] P [Y = yj ] ,
es decir, si
individuos de esa muestra que toman simultneamente el valor xi y el valor yj (frecuencias observadas),
Ps
Pr
ni. = j=1 nij los individuos de la muestra que toman el valor xi y n.j = i=1 nij los que toman el valor
yj .
De esta forma,
pij =
nij
n
pi. =
ni.
n
p.j =
n.j
n
eij = n pi . p.j .
Basado en la muestra, los valores
Finalmente, el estadstico del contraste se basa en comparar los valores reales en la muestra de nij con
los valores eij que se daran si la hiptesis nula fuera cierta, es decir, si las caractersticas X e Y fueran
Prof. Dr. Antonio Jos Sez Castillo
181
d=
r X
s
2
X
(nij eij )
.
eij
i=1 j=1
Suponiendo que la hiptesis nula es cierta, la distribucin del estadstico del contraste es 2 con (r 1) (s 1)
grados de libertad, por lo que decidiremos en funcin del p-valor asociado,
p = P [D > d/H0 ] ,
donde D 2(r1)(s1) o bien:
Rechazaremos H0 con nivel de signicacin si d > 2(r1)(s1);1 .
No rechazaremos H0 con nivel de signicacin si d < 2(r1)(s1);1 .
Hay que hacer una ltima observacin: para que en efecto D 2 con (r 1) (s 1) es necesario que todas
(o casi todas) las frecuencias esperadas eij sean mayores o iguales a 5. Si alguna o algunas de ellas no lo
son, la distribucin 2 podra no ser adecuada y el resultado del test incorrecto. Para que esto no ocurra es
recomendable que el tamao de la muestra sea grande.
Derecha
Centro
Total
Mujeres
68
56
32
156
Hombres
52
72
20
144
Total
120
128
52
300
nij y, en los mrgenes inferior y lateral derecho, los valores ni. y n.j .
Vamos a ver si el gnero est relacionado con la ideologa. Si no fuera as, si la ideologa fuera independiente
del gnero, se tendra en una muestra de 300 individuos las frecuencias esperadas seran
Izquierda
Mujeres
Hombres
Total
182
156
300 300
144
300 300
120
300
120
300
120
Derecha
156
300 300
144
300 300
128
300
128
300
128
Centro
156
300 300
144
300 300
52
Total
52
300
52
300
156
144
300
Izquierda
Derecha
Centro
Total
Mujeres
62.40
66.56
27.04
156
Hombres
57.60
61.44
24.96
144
Total
120
128
52
300
(68 62.40)
(56 66.56)
(32 27.04)
+
+
+
62.40
66.56
27.04
2
2
2
(52 57.60)
(72 61.44)
(20 24.96)
+
+
+
= 6.433.
57.60
61.44
24.96
D=
Por su parte, 2(21)(31);0.95 = 5.991, de manera que podemos rechazar la hiptesis nula en favor de la
alternativa, armando con un 95 % de conanza que el genero est relacionado con la ideologa. En qu
sentido lo estar?
Si nos centramos slo en los de izquierdas, tenemos que el porcentaje de hombres y mujeres es de
68
120
100 % = 56.667 % y de
52
120
Si nos centramos slo en los de derechas, tenemos que el porcentaje de hombres y mujeres es de
56
128
100 % = 43.75 % y de
72
128
Finalmente, si nos centramos slo en los de centro, tenemos que el porcentaje de hombres y mujeres
es de
32
52
100 = 61.538 % y de
20
52
Lo que parece que ocurre es que las mujeres tienen mayor preferencia por la derecha. Sin embargo, esta
armacin no se ha contrastado, sino que se basa simplemente en datos descriptivos1 .
En una empresa se sospecha que hay franjas horarias donde los accidentes
laborales son ms frecuentes. Para estudiar este fenmeno, contabilizan los accidentes laborales que sufren
los trabajadores segn franjas horarias, durante un ao. Los resultados aparecen en la tabla.
Horas del da
8-10 h.
10-12 h.
13-15 h.
15-17 h.
Nmero de accidentes
47
52
57
63
Con esa informacin, los responsables de seguridad de la empresa deben decidir si hay franjas horarias donde
los accidentes son ms probables o si, por el contrario, stos ocurren absolutamente al azar.
En primer lugar debemos plantearnos la hiptesis que queremos contrastar. El hecho de que ocurran los
accidentes absolutamente al azar vendra a decir que la probabilidad de ocurrencia es la misma en cada franja
horaria (puesto que todas ellas tienen la misma amplitud). Por ello, si notamos pi a la probabilidad de que
ocurra un accidente en la i-sima franja horaria, nos planteamos como hiptesis nula H0 : p1 = ... = p4 =
1
4
183
2 =
Por su parte, el p-valor es p = P [2401 > 2.571] = 0.462, por lo que no tenemos evidencias en estos datos
que hagan pensar en que hay franjas horarias ms propicias a los accidentes.
184
Captulo 10
Regresin lineal simple
Un poltico debe ser capaz de predecir lo que pasar maana, y la semana, el mes y el ao
prximos. Y tambin debe ser capaz de explicar por qu no acert.
Winston Churchill
Resumen. En este captulo se describe el modelo de regresin lineal simple, que asume que entre dos variables
dadas existe una relacin de tipo lineal contaminada por un error aleatorio. Aprenderemos a estimar dicho
modelo y, a partir de estas estimaciones y bajo determinadas hiptesis, podremos extraer predicciones del
modelo e inferir la fortaleza de dicha relacin lineal.
Palabras clave: regresin lineal simple, variable dependiente, variable independiente, error aleatorio, nube
de puntos, principio de mnimos cuadrados, coeciente de correlacin lineal, coeciente de determinacin
lineal, bondad del ajuste, prediccin, estimacin.
10.1. Introduccin
Uno de los aspectos ms relevantes que aborda la Estadstica se reere al anlisis de las relaciones que se dan
entre dos variables aleatorias. El anlisis de estas relaciones est muy frecuentemente ligado al anlisis de
una variable, llamada variable
dependiente (Y ) , y del efecto que sobre ella tiene otra (u otras) variable(s),
llamada(s) variable(s) independiente(s) (X), y permite responder a dos cuestiones bsicas:
Es signicativa la inuencia que tiene la variable independiente sobre la variable dependiente?
Si, en efecto, esa relacin es signicativa, cmo es? y podemos aprovechar esa relacin para predecir
valores de la variable dependiente a partir de valores observados de la variable independiente? Ms an,
podemos inferir caractersticas sobre esa relacin y con el fenmeno que subyace a ella?
Ejemplo. Un equipo de investigadores que trabajan en seguridad en el trabajo est tratando de analizar
cmo la piel absorbe un cierto componente qumico peligroso. Para ello, coloca diferentes volmenes del
compuesto qumico sobre diferentes segmentos de piel durante distintos intervalos de tiempo, midiendo
al cabo de ese tiempo el porcentaje de volumen absorbido del compuesto. El diseo del experimento se ha
185
realizado para que la interaccin esperable entre el tiempo y el volumen no inuya sobre los resultados.
Los datos aparecen en el Cuadro 10.1
Lo que los investigadores se cuestionan es si la cantidad de compuesto por un lado y el tiempo de
exposicin al que se somete por otro, inuyen en el porcentaje que se absorbe. De ser as, sera interesante
estimar el porcentaje de absorcin de personas que se sometan a una exposicin de una determinada
cantidad, por ejemplo, durante 8 horas.
En una primera aproximacin al problema, podemos observar una representacin grca de los datos en
los diagramas de dispersin o nubes de puntos de la Figura 10.1. Qu armaramos? Parece que s hay
una relacin lineal ms o menos clara (pero no denitiva) entre el tiempo de exposicin y el porcentaje
de absorcin, pero la hay entre el volumen y el porcentaje de absorcin?
Experimento
1
2
3
4
5
6
7
8
9
Volumen
0.05
0.05
0.05
2.00
2.00
2.00
5.00
5.00
5.00
Tiempo
2
10
24
2
10
24
2
10
24
Porcentaje Absorbido
50.88
49.96
83.66
54.09
68.27
85.65
48.39
64.88
88.01
Un modelo de regresin lineal simple para una variable, Y (variable dependiente), dada otra variable, X
(variable
independiente), es un modelo matemtico que permite obtener una frmula capaz de relacionar
Y representa a la variable dependiente, es decir, a aquella variable que deseamos estudiar en relacin
con otras.
X representa a la variable independiente, es decir, aquellas que creemos que puede afectar en alguna
medida a la variable dependiente. La estamos notando en mayscula, indicando que podra ser una
variable aleatoria, pero habitualmente se considera que es una constante que el investigador puede jar
a su antojo en distintos valores.
representa el error
aleatorio, es decir, aquella cantidad (aleatoria) que provoca que la relacin entre
la variable dependiente y la variable independiente no sea perfecta, sino que est sujeta a incertidumbre.
186
80
70
60
50
Porcentaje.Absorbido
80
70
60
50
Porcentaje.Absorbido
15
Tiempo
Volumen
E [Y /X=x ] = 0 + 1 x + E [/X=x ]
= 0 + 1 x.
Es decir, las medias de los valores de Y para un valor de X dado son una recta.
La Figura 10.2 representa una nube de puntos y la recta de regresin que los ajusta de unos datos genricos.
Podemos ver el valor concreto de = y E [Y /X=x ] para un dato, supuesto que hemos obtenido un modelo
de regresin. En ella se puede ver tambin la interpretacin de los coecientes del modelo:
0 es
la ordenada al origen del modelo, es decir, el punto donde la recta intercepta o corta al eje y.
1 representa
la pendiente
187
100
105
0 + 1xi
85
90
95
yi
xi
50
60
70
80
90
100
Nota. Es evidente que la utilidad de un modelo de regresin lineal tiene sentido siempre que la relacin
hipottica entre X e Y sea de tipo lineal, pero qu ocurre si en vez de ser de este tipo es de otro tipo
(exponencial, logartmico, hiperblico...)?
En primer lugar, es absolutamente conveniente dibujar el diagrama de dispersin antes de comenzar a
tratar de obtener un modelo de regresin lineal, ya que si la forma de este diagrama sugiere un perl
distinto al de una recta quiz deberamos plantearnos otro tipo de modelo.
Y, por otra parte, si se observa que el diagrama de dispersin es de otro tipo conocido, puede optarse
por realizar un cambio de variable para considerar un modelo lineal. Existen tcnicas muy sencillas para
esta cuestin, pero no las veremos aqu.
deberemos
estimar los coecientes 0 y 1 del modelo. Para obtener estimadores de estos coecientes vamos a considerar
un nuevo mtodo de estimacin, conocido como
bajo determinados supuestos que veremos en breve, los estimadores de mnimos cuadrados coinciden con los
estimadores mximo-verosmiles de 0 y 1 .
El razonamiento que motiva el mtodo de mnimos cuadrados es el siguiente: si tenemos una muestra de
188
yx = 0 + 1 x
minimice la suma de los cuadrados de los errores observados. Recordemos que
E [Y /X=x ] = 0 + 1 x,
luego yx puede interpretarse de dos formas:
1. Como una prediccin del valor que tomar Y si X = x.
SSE =
n
X
2
yi (0 + 1 xi ) ,
i=1
es decir buscamos
0 , 1 = arg mn SSE .
0 ,1
Se llama
dada X
a la lnea que tiene la SSE ms pequea de entre todos los modelos lineales.
La solucin de ese problema de mnimo se obtiene por el mecanismo habitual: se deriva SSE respecto de 0
SSxy
y 0 = y 1 x
, donde
y 1 , se iguala a cero y se despejan estos. La solucin es 1 = SSxx
SSxy =
SSxx =
n
X
i=1
n
X
(xi x
) (yi y) =
n
X
xi yi n
xy
i=1
2
(xi x
) =
i=1
n
X
x2i n
x2 .
i=1
SSE =
n
X
i=1
2
2
SSxx SSyy SSxy
yi (0 + 1 xi ) =
SSxx
=SSyy
SSxy 2
= SSyy SSxy 1 .
SSxx
189
En este sentido, se dene como medida de la calidad del ajuste de la recta de regresin el
ajuste como
r
se =
s
=
SSE
=
n2
v
2
uP
u
t i yi 0 + 1 x
n2
SSyy 1 SSxy
.
n2
Cuanto mayor sea esta cantidad, peor son las predicciones de la recta de regresin.
Ejemplo. Para los datos sobre el ejemplo de la absorcin del compuesto, vamos a calcular e interpretar
las dos rectas de regresin posibles.
En primer lugar, vamos a considerar la recta de regresin para explicar el porcentaje de absorcin (y)
conocido el volumen de sustancia (x):
SSxy
= 0.97
1 =
SSxx
0 = y 1 x
= 63.69,
as que la recta de regresin ajustada es
yx = 63.69 + 0.97 x.
La interpretacin de 1 = 0.97 es que el porcentaje de absorcin, Y , aumenta en promedio 0.97 por cada
incremento de 1 unidad de volumen de compuesto. La interpretacin de 0 = 63.69 sera la del valor
promedio de Y cuando x = 0, pero es que en este caso este supuesto no tiene sentido, as que no debe
tenerse en cuenta.
Vamos con la recta de regresin para explicar el porcentaje de absorcin (y ) en funcin del tiempo de
exposicin (x):
SSxy
1 =
= 1.60
SSxx
0 = y 1 x
= 46.82,
190
yx = 46.82 + 1.60 x.
Por cada incremento de una unidad del tiempo de exposicin, el porcentaje de absorcin aumenta en
media 1.60.
Ahora vamos a representar las nubes de puntos de nuevo con sus rectas de regresin ajustadas. De
esa manera podremos comprobar de una forma grca cmo de buenas son las rectas en cuanto a su
capacidad de ajuste de los datos. Los resultados aparecen en la Figura 10.3. Podemos ver que el ajuste
es mucho mejor cuando la variable explicativa es el tiempo de absorcin, mientras que si la variable
explicativa es el volumen, la recta no puede pasar cerca de los datos.
Nota. Hay que hacer una observacin importante que suele conducir a frecuentes errores. La recta de
regresin para la variable dependiente Y , dada la variable independiente X no es la misma que la recta
de regresin de X dada Y . La razn es muy sencilla: para obtener la recta de regresin de Y dado X
debemos minimizar
n
X
2
yi 0 + 1 xi
,
i=1
191
2
xi 0 + 1 yi
,
i=1
SSxy
1 =
SSyy
0 = x
1 y,
siendo la recta de regresin, x
= 0 + 1 y .
El error que suele cometerse con frecuencia es pensar que si tenemos, por ejemplo, la recta de Y dado
despejando.
Es importante que, para terminar este apartado, recordemos que 0 y 1 son slo estimaciones de 0 y 1 ,
estimaciones basadas en los datos que se han obtenido en la muestra.
Una forma de hacernos conscientes de que se trata de estimaciones y no de valores exactos (es imposible
conocer el valor exacto de ningn parmetro poblacional) es proporcionar las estimaciones de los errores
estandar de las estimaciones de 0 y 1 . Se conoce que dichas estimaciones son:
s2e
SSxx
s
x
2
1
s.e. 0 = s2e
+
n SSxx
s.e. 1 =
Ejemplo.
En el ejemplo de los datos de absorcin hemos estimado los coecientes de las dos rectas
de regresin del porcentaje de absorcin en funcin del volumen y del tiempo de absorcin. Vamos
a completar ese anlisis con el clculo de los errores estandares de esas estimaciones. Los resultados
aparecen resumidos en la siguiente tabla:
Modelo
s.e. 0
s.e. 1
% absorci
on = 0 + 1 V olumen
63.69
8.80
0.97
2.83
% absorci
on = 0 + 1 T iempo
46.82
3.16
1.60
0.21
Obsrvese que los errores estandar en el modelo en funcin del volumen son mayores proporcionalmente
que en el modelo en funcin del tiempo de absorcin.
192
ms o menos
comprobable con una nube de puntos. Si el aspecto de esta nube no recuerda a una lnea recta sino a
otro tipo de funcin, lgicamente no haremos regresin lineal.
2. Que los errores tengan media cero, independientemente del valor de x, lo que, por otra parte, no es una
hiptesis sino ms bien un requerimiento lgico al modelo.
Lo que ahora vamos a hacer es aadir algunos supuestos al modelo de manera que cuando stos se cumplan,
las propiedades de los estimadores de los coecientes del modelo sean muy buenas. Esto nos va a permitir
hacer inferencia sobre estos coecientes y sobre las estimaciones que pueden darse de los valores de la variable
dependiente.
Los supuestos que podemos aadir se reeren al error del modelo, la variable .
Supuesto 1. Tal y como ya hemos dicho, E [/X=x ] = E [] = 0, lo que implica que E [Y /X=x ] = 0 + 1 x.
Supuesto 2. La varianza de tambin es constante para cualquier valor de x dado, es decir, V ar (/X=x ) = 2
para todo x.
buena
entre x e y con un buen ajuste de la recta de regresin? Cabra pensar que s, pero
193
derecha, a pesar de que aparentemente el ajuste es peor, la recta ajustada s tiene pendiente distinta de cero,
luego el hecho de que y vare viene dado en buena parte por el hecho de que x vara, y ello ocurre porque la
pendiente de esa recta es distinta de cero. As pues, no lo olvidemos: decir que dos variables estn relacionadas
linealmente equivale a decir que la pendiente de la recta de regresin que ajusta una en funcin de la otra es
distinta de cero.
Pues bien, dados los supuestos descritos en la seccin anterior, es posible obtener un contraste de este tipo,
tal y como se resumen en el Cuadro 10.2. En ella, si, en efecto, lo que deseamos es contrastar si el efecto de
la variable independiente es o no signicativo para la variable dependiente, el valor de b1 ser cero.
Ejemplo. Para los datos del ejemplo sobre la absorcin, partamos del deseo de comprobar si al volumen
y/o el tiempo de exposicin inuan sobre el porcentaje de absorcin. Las nubes de puntos y el ajuste de
la recta ya nos dieron pistas: daba la impresin de que el tiempo de absorcin s inua en el porcentaje
de absorcin, pero no quedaba tan claro si el volumen lo haca. Es el momento de comprobarlo.
Nos planteamos en primer lugar si el tiempo de exposicin inuye o no sobre el porcentaje de absorcin,
es decir, nos planteamos si en el modelo lineal
P orcentaje de absorci
on = 0 + 1 T iempo de exposici
on +
194
Tipo de prueba
Hiptesis
Estadstico
de contraste
Regin
de rechazo
p-valor
Supuestos
Unilateral a
la izquierda
H 0 : 1 = b1
H1 : 1 < b1
Bilateral
H0 : 1 = b1
H1 : 1 6= b1
t = 21 b1
se /SSxx
t < t;n2
, s2e =
Unilateral
a la derecha
H0 : 1 = b1
H1 : 1 > b1
SSyy 1 SSxy
n2
SSE
n2
t > t1;n2
P [Tn2 < t]
2P [Tn2 > |t|]
P [T > t]
Los dados en la Seccin 10.3
Cuadro 10.2: Contraste sobre 1
1 = 1.6
s2e =
SSyy 1 SSxy
= 32.82
n2
P orcentaje de absorci
on = 0 + 1 V olumen +
el coeciente 1 es o no cero, es decir, planteamos el contraste de H0 : 1 = 0 frente a H1 : 1 6= 0:
1 = 0.97
s2e =
SSyy 1 SSxy
= 298.77
n2
0.34] = 0.741.
En vista de los resultados, a partir de ahora dejaremos de considerar el efecto del volumen sobre el
porcentaje de absorcin, y slo tendremos en cuenta el efecto del tiempo de exposicin.
195
signicativas
10
20
30
40
50
60
70
80
90
100
12
20
29
38
48
61
68
79
91
97
Lo ideal, lo deseado, sera que y = x, es decir, que el modelo lineal que explica y en funcin de x tuviera
coecientes 0 = 0 y 1 = 1. Por ahora vamos a centrarnos en el primer paso en la comprobacin de que
el espectrmetro est bien calibrado, que implica contrastar que 1 = 1. Para ello,
0.976 1
= 1.639.
t= p
1.964/11000
y = 0 + x,
aunque lo deseado, insistamos, sera que fuera
y = x,
es decir, que lo que mida el espectrmetro coincida con la cantidad real de CO en el aire. Como hemos
dicho, eso ocurrira si 0 = 0, lo que equivale a decir que en ausencia de CO, el espectrmetro est a
cero.
Adems del contraste de hiptesis, es trivial proporcionar un intervalo de conanza para la pendiente, ya que
conocemos su estimacin, su error estandar y la distribucin en el muestreo (t-student, como aparece en el
contraste). Concretamente,
h
i
P 1 1 t1 2 ;n2 s.e. 1 , 1 + t1 2 ;n2 s.e. 1
= 1 .
Ejemplo.
conanza para 1 es (0.94, 1.01). Como podemos ver, el valor 1 = 1 es un valor conable del intervalo,
luego raticamos que no podemos armar que el espectrmetro est mal calibrado.
196
Tipo de prueba
Hiptesis
Unilateral a
la izquierda
H 0 : 0 = b0
H1 : 0 < b0
Estadstico
de contraste
Regin
de rechazo
p-valor
Supuestos
t=
Bilateral
H0 : 0 = b0
H1 : 0 6= b0
0 b0
,
1
x
2
s2e n
+ SS
xx
s2e =
SSyy 1 SSxy
n2
t < t;n2
Unilateral
a la derecha
H0 : 0 = b0
H1 : 0 > b0
SSE
n2
t > t1;n2
P [Tn2 < t]
2P [Tn2 > |t|]
P [T > t]
Los dados en la Seccin 10.3
Cuadro 10.3: Contraste sobre 0
Ejemplo. En el ejemplo anterior, vamos a contrastar si, en efecto, 0 = 0, lo que equivaldr a concluir
que no hay razones para pensar que el espectrmetro est mal calibrado. Para ello,
0 = y 1 x
= 0.636
por lo tanto,
t= q
0.636 0
2.286
1
11
502
11000
= 0.746.
Comoquiera que 0.746 < t0.975;9 = 2.261, tampoco tenemos razones para pensar que 0 = 0 con un 95 %
de conanza, luego, en resumen, no existen razones para pensar que el espectrmetro est mal calibrado.
Ejemplo.
Imaginemos que deseamos comprobar experimentalmente que, tal y como predice la ley de
Ohm, la tensin (V ) entre los extremos de una resistencia y la intensidad de corriente (I ) que circula
por ella se relacionan siguiendo la ley
V = R I,
donde R es el valor de la resistencia. Nosotros vamos a realizar la comprobacin con una misma resistencia,
variando los valores de la intensidad, por lo que la ecuacin equivale a
V = 0 + 1 I,
siendo 0 = 0 y 1 = R. Los datos son los que aparecen en el Cuadro 10.4.
Tenemos que realizar un contraste, H0 : 0 = 0 frente a H1 : 0 6= 0 que equivale a contrastar en realidad
197
Observacin
1
2
3
4
5
6
7
8
9
10
11
I (mA)
0.16
6.54
12.76
19.26
25.63
31.81
38.21
47.40
54.00
60.80
68.00
V (V)
0.26
1.04
2.02
3.05
4.06
5.03
6.03
7.03
8.06
8.99
10.01
que nuestros aparatos de medida estn bien calibrados, puesto que la ley de Ohm obliga a que 0 = 0.
Vamos all:
SSxx = 5105.90
SSyy = 107.25
SSxy = 739.49
1 = 0.14
0 = 0.25
s2e = 0.022
As pues,
t= q
0.25 0
0.022
1
11
33.142
5105.90
= 3.531.
contradice la ley de
Ohm! Lo que este anlisis pone de maniesto es que tenemos algn problema en nuestras mediciones.
Dejemos un poco de lado este ltimo resultado. Si queremos estimar el valor de la resistencia, una
= 1 = 0.14, y un intervalo de conanza al 95 % de conanza
estimacin puntual es, como hemos visto, R
(omitimos los detalles de los clculos) resulta ser (0.141, 0.149).
Finalmente, podemos tambin proporcionar un intervalo de conanza para la ordenada en el origen, dado
por
h
i
P 0 0 t1 2 ;n2 s.e. 0 , 0 + t1 2 ;n2 s.e. 0
= 1 .
Ejemplo.
(1.29, 2.57), luego es conable pensar que 0 = 0. En suma, hemos comprobado que es posible 1 = 1 y
0 = 0, luego hemos comprobado que la ecuacin y = x no puede ser rechazada con los datos disponibles,
es decir, que no hay razones para pensar que el espectrmetro est mal calibrado.
198
entre s.
adimensional, ya que sus valores siempre estn entre 1 y 1, sean cuales sean las unidades de medida de las
variables.
Dada una muestra de valores de dos variables (x1 , y1 ) , ..., (xn , yn ), el
r= p
SSxy
SSxx
=p
1 .
SSxx SSyy
SSyy
Nota.
En la Figura 10.5 aparecen algunos de los supuestos que acabamos de enunciar respecto a los
distintos valores de r. Hay que hacer hincapi en que r slo es capaz de descubrir la presencia de relacin
de tipo lineal. Si, como en el ltimo grco a la derecha de esta gura, la relacin entre X e Y no es de
tipo lineal, r no es adecuado como indicador de la fuerza de esa relacin.
Nota. En la Figura 10.6 aparece un valor atpico entre un conjunto de datos con una relacin lineal ms
que evidente. Por culpa de este dato, el coeciente de correlacin lineal ser bajo. Qu debe hacerse en
199
20
60
100
10000
20
6000
10
0
2000
10
20
0
20
60
100
30
100
20
40
60
80
60 40 20
100
20
60
100
20
60
100
Correlacin parablica
este caso? En general, no se deben eliminar datos de una muestra, pero podra ocurrir que datos atpicos
correspondan a errores en la toma de las muestras, en el registro de los datos o, incluso, que realmente no
procedan de la misma poblacin que el resto de los datos: en ese caso, eliminarlos podra estar justicado
de cara a analizar de una forma ms precisa la relacin lineal entre los datos.
Nota.
Correlacin frente a causalidad. Hay que hacer una advertencia importante acerca de las inter-
pretaciones del coeciente de correlacin lineal. Es muy frecuente que se utilice para justicar relaciones
causa-efecto, y eso es un grave error. r slo indica presencia de relacin entre las variables, pero eso no
permite inferir, por ejemplo, que un incremento de X sea la causa de un incremento o una disminucin
de Y .
Ejemplo. Para los datos del ejemplo sobre la absorcin, calculemos r e interpretmoslo.
En el caso del porcentaje de absorcin en funcin del volumen de compuesto,
r=
36.24
= 0.129;
37.30 2126.61
vemos que la relacin es muy pequea; de hecho, comprobamos mediante un contraste de hiptesis sobre
r=
36.24
= 0.944.
744 2126.61
Esta relacin s resulta ser muy fuerte y en sentido directo. Por eso al realizar el test sobre 1 , ste s
result ser signicativo.
No podemos olvidar que el coeciente de correlacin lineal muestral, r, mide la correlacin entre los valores
200
End
LS Line
Add Point
Delete Point
10
Move Point
de X y de Y en la muestra. Existe un coeciente de correlacin lineal similar pero que se reere a todos los
posibles valores de la variable. Evidentemente, r es un estimador de este coeciente poblacional.
E [(X EX) (Y EY )]
V arX
=
=
1 .
V arXV arY
V arY
Inmediatamente surge la cuestin de las inferencias. Podemos y debemos utilizar r para hacer inferencias
sobre . De todas formas, en realidad estas inferencias son equivalentes a las que hacemos sobre 1 , ya que la
relacin entre 1 y provoca que la hiptesis H0 : 1 = 0 sea equivalente a la hiptesis H0 : = 0. Podemos,
por lo tanto, utilizar el contraste resumido en el Cuadro 10.2 para b1 = 0 y teniendo en cuenta que
r n2
t=
.
1 r2
92
0.944
10.9442
201
SSyy =
n
X
(yi y) ,
i=1
de tal manera que cuanto ms varen los datos de Y mayor ser SSyy . Por otra parte, cuando ajustamos por
la recta de regresin yx = 0 + 1 x, medimos el error que cometemos en el ajuste con
SSE =
n
X
(yi yx ) .
i=1
Vamos a ponernos en las dos situaciones lmite que pueden darse en cuanto a la precisin de una recta de
regresin:
Si X no tiene ningn tipo de relacin lineal con Y , entonces = 0, en cuyo caso 1 =
la recta es simplemente
V arY
V arX
=0y
yi = 0 + 1 xi
= y.
Es decir, si X no tiene ningn tipo de relacin lineal con Y , entonces la mejor prediccin que podemos
dar por el mtodo de mnimos cuadrados es la media. Adems, en ese caso
SSE =
n
X
(yi yi )
i=1
n
X
(yi y) = SSyy ,
i=1
es decir, SSE es el total de la variacin de los valores de Y . Est claro que esta es la peor de las
situaciones posibles de cara a la precisin.
Si la relacin lineal entre X e Y es total, entonces = 1, en cuyo caso 1 =
202
V arY .
V arX
Adems, si la
SSE =
n
X
(yi yi ) = 0.
i=1
SSE
.
SSyy
Ntese que la notacin es r al cuadrado, ya que, en efecto, en una regresin lineal simple coincide con el
coeciente de correlacin lineal al cuadrado.
Por lo tanto, la interpretacin de r2 es la medida en que X contribuye a la explicacin de Y en una escala de
0 a 1, donde el 0 indica que el error es el total de la variacin de los valores de Y y el 1 es la precisin total,
el error 0. La medida suele darse en porcentaje. Dicho de otra forma:
respecto de su media
yx = 0 + 1 x
y, por otro lado,
E [Y /X=x ] = 0 + 1 x,
luego yx puede interpretarse de dos formas:
1. Como
cuando X = x.
203
2. Como
Ambas cantidades estn sujetas a incertidumbre, que ser tanto mayor cuanto ms variabilidad tenga Y, y/o
peor sea el ajuste mediante la recta de regresin.
Lo que vamos a ver en esta seccin para concluir el tema es cmo establecer
regiones de conanza
para estas
predicciones de los valores de Y y para las estimaciones de los valores medios de Y dados valores de X . Estos
resultados requieren que se veriquen los supuestos adicionales sobre los errores dados en la seccin 10.3.
Podemos garantizar con un (1 ) 100 % de conanza que cuando X = x, el valor medio de Y se encuentra
en el intervalo
yx t1/2;n2 se
1
(x x
)
+
, yx + t1/2;n2 se
n
SSxx
1
(x x
)
+
,
n
SSxx
(x x
)2
1
+
|X=x = 1 .
n
SSxx
Asimismo, podemos garantizar con un (1 )100 % de conanza que cuando X = x, el valor Y se encuentra
en el intervalo
yx t1/2;n2 se
1
(x x
)
1+ +
, yx + t1/2;n2 se
n
SSxx
2
1
(x x
)
1+ +
,
n
SSxx
P Y yx t1/2;n2 se
1
(x x
)2
1+ +
|X=x = 1
n
SSxx
Nota. No debemos olvidar que los modelos de regresin que podemos estimar lo son a partir de los datos
de una muestra de valores de X e Y . A partir de estos modelos podemos obtener, como acabamos de
recordar, predicciones y estimaciones para valores dados de X. Dado que el modelo se basa precisamente
en
Ejemplo. En la Figura 10.7 aparece la recta de regresin para los datos del ejemplo sobre la absorcin
del compuesto junto con lneas que contienen los intervalos de conanza al 95 % para las predicciones y
las estimaciones asociadas a los distintos valores de X .
204
110
105
Resistencia
100
observed
fit
conf int
pred int
95
90
85
80
50
60
70
80
90
100
Velocidad
Figura 10.7: Recta de regresin con intervalos de conanza al 95 % para las predicciones (franjas ms exteriores) y para las estimaciones (franjas interiores) en el ejemplo de la absorcin.
Obsrvese que la amplitud de los intervalos se hace mayor en los valores ms extremos de X . Es decir,
los errores en las estimaciones y en las predicciones son mayores en estos valores ms extremos. Esto
debe ser un motivo a aadir al comentario anterior para no hacer estimaciones ni predicciones fuera del
rango de valores de X en la muestra.
Por otra parte, nos plantebamos al comienzo de captulo que sera de inters estimar el porcentaje de
absorcin que tendr alguien que se someta a un tiempo de exposicin al compuesto de 8 horas. Eso es
una prediccin, as que como estimacin puntual daremos
yx t1/2;n2 se
2
1
(x x
)2
1 (8 12)
1+ +
= 59.59 2.36 5.73 1 + +
= (45.17, 74.00) .
n
SSxx
9
744
Por el contrario, imaginemos que los trabajadores de una empresa van a estar sometidos todos ellos a
un tiempo de exposicin de 8 horas. En ese caso, no tiene sentido que nos planteemos una prediccin
para saber cul va a ser su porcentaje de absorcin, ya que cada uno de ellos tendr un porcentaje
distinto; lo que s tiene sentido es que nos planteemos cul va a ser el porcentaje medio de absorcin de
los trabajadores sometidos a 8 horas de exposicin al compuesto. Esto es un ejemplo de la estimacin
de un valor promedio. La estimacin puntual es la misma que en la prediccin, es decir, 59.59, pero el
intervalo de conanza al 95 % es
yx t1/2;n2 se
x
)2
1
(x
= 59.59 2.36 5.73
+
n
SSxx
1 (8 12)
= (54.66, 64.52) .
+
9
744
205
i = yi yi
siguen una distribucin normal.
Ni que decir tiene que comprobar esta hiptesis en trivial: bastar con calcular los residuos, ajustarles una
distribucin normal y realizar un contraste de bondad de ajuste mediante, por ejemplo, el test de KolmogorovSmirno.
de residuos frente
homocedasticidad), la dispersin
vertical de los puntos de la grca no debe variar segn vare el eje X. En caso contrario, se habla de
heterocedasticidad.
Una ltima observacin: si se dan todas las condiciones que acabamos de mencionar sobre la grca de
residuos frente a valores ajustados, entonces es
probable,
206
15 10
Residuals
Residuals vs Fitted
50
55
60
65
70
75
80
85
Fitted values
lm(Porcentaje.Absorbido ~ Tiempo)
Figura 10.8: Grca de valores ajustados vs residuos en el ejemplo de la absorcin
Ejemplo.
Por ltima vez vamos a considerar el ejemplo de la absorcin. En la Figura 10.8 aparece el
grco de residuos vs valores ajustados y podemos ver que a primer vista parece que se dan las condiciones
requeridas:
1. Los puntos se sitan en torno al eje Y = 0, indicando que la media de los residuos parece ser cero.
2. No se observan patrones en los residuos.
3. No se observa mayor variabilidad en algunas partes del grco. Hay que tener en cuenta que son
muy pocos datos para sacar conclusiones.
207
208
Parte IV
Procesos aleatorios
209
Captulo 11
Procesos aleatorios
The best material model of a cat is another, or preferably the same, cat.
Norbert Wiener,
Resumen.
Philosophy of Science
Los procesos aleatorios suponen el ltimo paso en la utilizacin de modelos matemticos para
describir fenmenos reales no determinsticos: concretamente, se trata de fenmenos aleatorios que dependen
del tiempo. Se describen principalmente en trminos de sus medias y sus covarianzas. En este captulo se
incluyen adems algunos de los ejemplos ms comunes de tipos de procesos y su comportamiento cuando se
transmiten a travs de sistemas lineales invariantes en el tiempo.
Palabras clave.
za, procesos estacionarios, procesos gaussianos, proceso de Poisson, sistemas lineales, densidad espectral de
potencia.
11.1. Introduccin
En muchos experimentos de tipo aleatorio el resultado es una funcin del tiempo (o del espacio).
Por ejemplo,
en sistemas de reconocimiento de voz las decisiones se toman sobre la base de una onda que reproduce
las caractersticas de la voz del interlocutor, pero la forma en que el mismo interlocutor dice una misma
palabra sufre ligeras variaciones cada vez que lo hace;
en un sistema de cola, por ejemplo, en un servidor de telecomunicaciones, el nmero de clientes en el
sistema a la espera de ser atendidos evoluciona con el tiempo y est sujeto a condiciones tales que su
comportamiento es
impredecible ;
en un sistema de comunicacin tpico, la seal de entrada es una onda que evoluciona con el tiempo
y que se introduce en un canal donde es contaminada por un ruido aleatorio, de tal manera que es
imposible separar cul es el mensaje original con absoluta
...
211
certeza.
Desde un punto de vista matemtico, todos estos ejemplos tienen en comn que el fenmeno puede ser visto
como unas funciones que dependen del tiempo, pero que son desconocidas a priori, porque dependen del
azar.
En este contexto vamos a denir el concepto de proceso aleatorio. Nuestro objetivo, como en captulos
anteriores dedicados a variables y vectores aleatorios, es describir desde un punto de vista estadstico el
fenmeno, proporcionando medidas de posicin, medidas sobre la variabilidad, etc.
11.1.1. Denicin
Consideremos un experimento aleatorio sobre un espacio muestral . Supongamos que para cada resultado
posible, A, tenemos una observacin del fenmeno dada por una funcin real de variable real, x (t, A), con
t I R. Habitualmente, t representa al tiempo, pero tambin puede referirse a otras magnitudes fsicas.
Para cada A vamos a denominar a x (t, A)
Obsrvese que para cada t0 I , X (t, ) es una variable aleatoria. Pues bien, al conjunto
{X (t, A) : t I, A }
lo denominamos
Si recordamos las deniciones de variable aleatoria y vector aleatorio, podemos ver en qu sentido estn
relacionados los conceptos de variable, vector y proceso aleatorio. Concretamente, si es un espacio muestral,
una variable aleatoria es una funcin
X:R
que a cada suceso posible le asigna
funcin
X : RN
que a cada suceso posible le asigna
un vector real.
funcin
De cara a escribir de ahora en adelante un p.a., lo notaremos normalmente, por ejemplo, como X (t), obviando
as la variable que hace referencia al elemento del espacio muestral al que va asociada la funcin muestral.
Este convenio es el mismo que nos lleva a escribir X rerindonos a una v.a. o a un vector.
Por eso,
en el mbito de los procesos (no slo estocsticos) es importante preguntarse si el fenmeno que representa
el proceso es observado
212
en cada instante
o slo
{X (t, A) : t I, A } ,
se dice que el proceso es un
es un conjunto numerable.
En el caso de procesos en tiempo discreto se suele escribir Xn o X [n] rerindonos a la notacin ms general
X (n). Por otra parte, el conjunto I normalmente es el conjunto de los enteros o de los enteros positivos,
aunque tambin puede ser un subconjunto de stos.
En algunos libros los procesos en tiempo discreto tambin son denominados
secuencias aleatorias.
{X (t, A) : t I, A } ,
se dice que el proceso es un
es un intervalo.
En el caso de procesos en tiempo continuo, I es normalmente el conjunto de los reales positivos o un subconjunto de stos.
Si nos damos cuenta, esta primera clasicacin de los p.a. la hemos hecho en funcin del carcter discreto
o continuo del tiempo, es decir, del conjunto I . Existe otra clasicacin posible en funcin de cmo son las
variables aleatorias del proceso, discretas o continuas. Sin embargo, ambos tipos de procesos, con variables
discretas o con variables continuas, pueden estudiarse casi siempre de forma conjunta. Por ello slo distinProf. Dr. Antonio Jos Sez Castillo
213
Ejemplo.
Sea una variable aleatoria uniforme en (1, 1). Denimos el proceso en tiempo continuo
X (t, ) como
X (t, ) = cos (2t) .
Sus funciones muestrales son ondas sinusoidales de amplitud aleatoria en (1, 1) (Figura 11.2).
Ejemplo.
X (t, ) como
X (t, ) = cos (2t + ) .
Sus funciones muestrales son versiones desplazadas aleatoriamente de cos (2t) (Figura 11.3).
214
(t) = x
X
(t) = E [X (t)] =
para cada t I.
Ntese que, como su nombre indica, se trata de una funcin determinstica. No tiene ninguna componente
aleatoria. Ntese tambin que aunque se est escribiendo el smbolo integral, podramos estar rerindonos
a una variable discreta, en cuyo caso se tratara de una suma.
Se dene la
funcin de autocovarianza
o simplemente la
215
Se dene la
funcin de autocorrelacin
o simplemente la
Ntese, de cara al clculo, que la diferencia entre ambas funciones tan slo es el producto de las medias1 .
centrado en media,
funciones coinciden.
Por otra parte, la varianza de las variables del proceso puede obtenerse como
V ar (X (t)) = CX (t, t) .
La interpretacin de la funcin de autocovarianza CX (t, s) es la de una funcin que proporciona una medida
de la interdependencia lineal entre dos v.a. del proceso, X (t) y X (s), que distan = s t unidades de
tiempo. De hecho, ya sabemos que podramos analizar esta relacin mediante el coeciente de correlacin
lineal
X (t, s) = p
CX (t, s)
CX (t, t) CX (s, s)
Ejemplo. La seal recibida por un receptor AM de radio es una seal sinusoidal con fase aleatoria, dada
por X (t) = A cos (2fc t + ) , donde A y fc son constantes y es una v.a. uniforme en (, ) .
1 Esta
frmula es la misma que cuando veamos la covarianza entre dos variables, calculable como la media del producto menos
216
En ese caso,
A cos (2fc t + )
E [X (t)] =
1
A
=
d =
[sin (2fc t + )]=
2
2
A
(sin (2fc t) cos () + cos (2fc t) sin () sin (2fc t) cos () cos (2fc t) sin ())
2
A
=
[0 + 0] = 0.
2
RX (t, t + ) = E [X (t + ) X (t)] = E A2 cos (2fc t + 2fc + ) cos (2fc t + )
=
A2
A2
E [cos (4fc t + 2fc + 2)] +
E [cos (2fc )]
2
2
A2
=
2
1
A2
cos (4fc t + 2fc + 2) d +
cos (2fc )
2
2
A2
A2
A2
=
0+
cos (2fc ) =
cos (2fc ) .
2
2
2
Por tanto,
A2
cos (2fc ) .
2
independiente.
La interpretacin de este tipo de procesos es la de aquellos en donde el valor de la v.a. que es el proceso en
un momento dado no tiene nada que ver con el valor del proceso en cualquier otro instante. Desde un punto
de vista fsico estos procesos son muy
caticos
217
10
Figura 11.4: Funcin muestral de un proceso independiente formado por v.a gaussianas de media cero y
varianza uno.
X (t1 ) , X (t2 ) , ..., X (tN ), con t1 < t2 < ... < tN son tales que los incrementos
X (t1 ) , X (t2 ) X (t1 ) , ..., X (tN ) X (tN 1 )
son independientes entre s.
218
olvidan
markoviano o de Markov
fX(tn+1 )|X(t1 )=x1 ,...,X(tn )=xn (xn+1 ) = fX(tn+1 )|X(tn )=xn (xn+1 ) .
Esta denicin se suele enunciar coloquialmente diciendo que un proceso de Markov es
X (t) es un proceso
dbilmente estacionario si
mX (t) es independiente de t y
C (t, s) (o R (t, s)) depende tan slo de s t, en cuyo caso se nota C (s t) ( R (s t)).
Es importante destacar que la primera de las condiciones es irrelevante, ya que siempre se puede centrar en
media un proceso para que sta sea cero, constante. Es decir, en la prctica es indiferente estudiar un proceso
X (t) con funcin media X (t) que estudiar el proceso Y (t) = X (t) X (t), con media cero.
La propiedad ms exigente y realmente importante es la segunda. Viene a decir que la relacin entre variables
aleatorias del proceso slo depende de la distancia en el tiempo que las separa.
Nota.
Vamos a hacer una puntualizacin muy importante respecto a la notacin que emplearemos en
adelante. Acabamos de ver que si un proceso es dbilmente estacionario, sus funciones de autocovarianza
y de autocorrelacin, C (s, t) y R (s, t) no dependen en realidad de s y de t, sino tan slo de t s. Por
eso introducimos la notacin
C (t, s) C (s t)
R (t, s) = R (s t) .
Por lo tanto, qu queremos decir si escribimos directamente C ( ) o R ( )? Que tenemos un p.a. dbilmente estacionario y que hablamos de
C ( ) = C (t, t + )
R ( ) = R (t, t + ) .
potencia
promedio
,
h
i
da como la media del cuadrado de ste en cada instante t, es decir RX (0) = E |X (t)|
deni-
. Ms adelante
219
Por otra parte, la peculiaridad que dene a los procesos dbilmente estacionarios le conere a su funcin
de autocorrelacin y autocovarianza dos propiedades interesantes: sea X (t) un proceso estacionario (dbil).
Entonces, si notamos RX ( ) = E [X (t) X (t + )] para todo t, su funcin de autocorrelacin y por CX ( ) a
su funcin de autocovarianza:
Ejemplo. En el ejemplo del oscilador vimos que la seal recibida por un receptor AM de radio es una
seal sinusoidal con fase aleatoria, dada por X (t) = A cos (2fc t + ) , donde A y fc son constantes y
RX (t, t + ) =
A2
cos (2fc ) .
2
Ejemplo.
varianza constante e igual a 2 . Vamos a considerar tambin otro proceso que en cada instante de
tiempo considera la media de X en ese instante y el anterior, es decir,
Yn =
Xn + Xn1
.
2
En primer lugar, dado que E [Xn ] = 0 para todo n, lo mismo ocurre con Yn , es decir,
E [Yn ] = E
220
Xn + Xn1
= 0.
2
CX (n, m) = RX (n, m) =
si n 6= m
si n = m
1
2 + 0 + 0 + 2
1 0 + 2 + 0 + 0
CY (n, n + m) = 4
1
0 + 0 + 2 + 0
1 2
2 si m = 0
= 14 2 si m = 1
0
en otro caso
si m = 0
si m = 1
si m = 1
en otro caso
Podemos decir, por tanto, que el proceso Yn tambin es dbilmente estacionario, porque su media es
constante (cero) y CY (n, n + m) no depende de n sino tan slo de m.
E [X (t)] = mX (t) = mX =
xfX(t) (x) dx
RX ( ) = E [X (t) X (t + )] =
Hasta ahora quiz no lo habamos pensado, pero ms all de los tpicos ejemplos, cmo podramos tratar de
calcular o estimar al menos estas cantidades? Si aplicamos lo que hemos aprendido hasta ahora, estimaramos,
por ejemplo, la media con la media muestral, pero para ello necesitaramos una muestra muy grande de
Prof. Dr. Antonio Jos Sez Castillo
221
funciones muestrales del proceso, y eso no siempre ocurre. De hecho, no es nada rara la situacin en la que,
en realidad, slo es posible observar una nica funcin muestral del proceso.
Ahora bien, dada una nica funcin muestral de un proceso, x (t), en esa funcin hay muchos datos, tantos
como instantes de tiempo t hayamos sido capaces de observar. No podra ocurrir que utilizramos todos esos
datos que hay en x (t)para estimar las medias y las autocorrelaciones? Por ejemplo, si tenemos observada la
seal x (t) en un montn de valores t1 , ...tn , qu tendr que ver
x (t) dt.
T
estadstica )
En el caso de la autocorrelacin pasara igual, tendramos que podramos observar un montn de pares de
valores de la seal en los instantes t1 , ..., tn y t1 + , ..., tn + en el intervalo [T, T ] y con ellos podramos
estimar
1
2T
x (t) x (t + ) dt '
T
Lo que no sabemos, en general, es si esa integral tiene algo que ver con RX ( ), que es una integral estadstica.
Pues bien, se dice que un proceso estacionario es
estadsticos )
de una sola funcin muestral x (t). Es decir, que una sola realizacin es representativa de todo el proceso.
Ms concretamente, un proceso ser ergdico en media y en autocorrelacin si
limT
y
1
limT
2T
1
2T
x (t) dt = mX
T
x (t) x (t + ) dt = RX ( ) .
T
ltrar
En este apartado nos referimos brevemente a un modelo gastante comn para los fenmenos de ruido, llamado
ruido blanco.
222
Un
ruido blanco es un proceso N (t) centrado, dbilmente estacionario e incorrelado con varianza
N0
2 .
Por
CN (t, t + ) =
N0
si = 0
en otro caso
1 si t = 0
(t) =
,
0 en otro caso
esta funcin de autocovarianza puede escribirse como
CN ( ) =
N0
( ) .
2
La justicacin de que este sea un modelo habitual para los ruidos, considerando que los valores del ruido
estn incorrelados unos con otros, es que suelen ser debidos a fenmenos completamente aleatorios y caticos,
por lo que no es esperable que exista relacin entre valores del ruido, ni siquiera cuando stos son muy cercanos
en el tiempo.
conjuntamente gaussiana. Es decir, si cualquier coleccin X (t1 ) , ..., X (tn ) tiene funcin de densidad conjunta
1
0
1
exp
(x
(x
)
,
n
2
(2) det (C)
1
donde
0
x = (x1 , ..., xn ) ,
0
223
Existen dos razones fundamentales por las que, como hemos comentado, los procesos gaussianos son la familia
de procesos ms relevante:
Por una parte, las propiedades analticas que verican los hacen fcilmente manejables, como veremos
a continuacin.
Por otra parte, estos procesos han demostrado ser un excelente modelo matemtico para gran nmero
de experimentos o fenmenos reales (resultado amparado en el Teorema Central del Lmite).
Ejemplo. Es muy habitual considerar que los ruidos blancos son gaussianos. En ese caso, si consideramos
ruidos blancos gaussianos, sus variables no slo son incorreladas, sino que tambin son independientes.
Ejemplo.
1
2
y t2 = t1 +
1
2
25
25e3/2
25
25e3/2
25e6/2
25e3/2 .
25
CX (t1 , t3 ) =
CX (t1 , t2 ) CX (t2 , t3 )
,
CX (t2 , t2 )
procesos de recuento.
Algunos de los ejemplos ms comunes en el campo de las Telecomunicaciones son el proceso que cuenta el
nmero de llamadas recibidas en una centralita telefnica o el que cuenta el nmero de visitas a una pgina
WEB. En otros mbitos, como la Fsica, estos procesos pueden servir, por ejemplo, para contabilizar el
nmero de partculas emitidas por un cuerpo.
224
N (t) =
u (t T [n]) ,
n=1
donde T [n] es un proceso en tiempo discreto que representa el momento de la nsima llegada que cuenta
el proceso y
0 si t < t
0
u (t t0 ) =
1 si t t
0
es la funcin umbral.
El
n=1
es una suma de n exponenciales independientes del mismo parmetro , lo que genera una distribucin de
Erlang de parmetros n y , con funcin de densidad
n1
fT [n] (t) =
Alternativamente, puede decirse que
llegadas,
(t)
et u (t) .
(n 1)!
Ejemplo.
= 1. Vamos a interpretar la funcin muestral de la izquierda pensando, por ejemplo, que representa
el nmero de visitas a una pgina WEB: se observa que poco depus de los tres minutos se han dado 3
visitas; despus pasan casi 5 minutos sin ninguna visita; a continuacin se producen un buen nmero de
visitas en poco tiempo; ...
Si observamos tan slo el eje del tiempo, podramos sealar los instantes en que se producen las llegadas.
Sabemos que esos incrementos en el tiempo desde que se produce una llegada hasta la siguiente siguen
una distribucin exponencial, en este caso de parmetro 1.
Vamos a describir algunas de las propiedades ms interesantes de los procesos de Poisson:
Sea N (t) un proceso de Poisson de parmetro . Entonces, para todo t se tiene que N (t) P (t).
La media de un proceso de Poisson de parmetro es N (t) = t. Por tanto, el proceso de Poisson no
es estacionario.
Sea N (t) un proceso de Poisson de parmetro . Entonces, el proceso tiene incrementos independientes
Prof. Dr. Antonio Jos Sez Castillo
225
(t2 t1 ).
Sea N (t) un proceso de Poisson de parmetro . Entonces
CN (t1 , t2 ) = mn (t1 , t2 ) .
Sea N (t) un proceso de Poisson de parmetro . Entonces, para cualesquiera t1 < ... < tk ,
nk nk1
1 n1 1 2 2n2 n1
k 2
e
...
e
n1 !
(n2 n1 )!
(nk nk1 )! si n1 ... nk ,
=
0 en otro caso
donde i = (ti ti1 ) .
El proceso de Poisson es de Markov.
Sean N1 (t) p.a. de Poisson de parmetro 1 , N2 (t) p.a. de Poisson de parmetro 2 , ambos independientes. Entonces, N1 (t) + N2 (t) es un p.a. de Poisson de parmetro 1 + 2 . Esta propiedad se conoce
como
propiedad aditiva.
Sea N (t) un p.a. de Poisson de parmetro . Supongamos que de todos los eventos que cuenta el
proceso, slo consideramos una parte de ellos; concretamente los que presentan una caracterstica que
tiene probabilidad p entre todos los eventos. En ese caso, si notamos por Np (t) al proceso que cuenta
226
propiedad de descomposicin.
propiedad de no memoria del proceso de Poisson. Obsrvese que, en realidad, esta propiedad de no
memoria lo es de la distribucin exponencial.
Ejemplo.
Es frecuente considerar que el proceso que cuenta el nmero de partculas emitidas por un
material radiactivo es un proceso de Poisson. Vamos a suponer por tanto, que estamos observando el
comportamiento de un determinado material del que se conoce que emite a razn de partculas por
segundo.
Supongamos que se observa el proceso que cuenta el nmero de partculas emitidas desde un instante
P [N (t + T0 ) N (t) > N0 ] =
k=N0 +1
eT0
0
X
(T0 )
(T0 )
=1
eT0
,
k!
k!
k=0
Ejemplo.
El nmero de visitas a la pgina WEB de una empresa que desea vender sus productos a
travs de INTERNET es adecuadamente descrito mediante un proceso de Poisson. Sabiendo que durante
una hora se reciben un promedio de 5 visitas,
227
P [N (0.5) = 0] = e50.5
(5 0.5)
= 8.2085 102 ,
0!
apenas un 8 % de probabilidad.
2. Cul es el promedio de visitas en 5 horas a la WEB? E [N (5)] = 5 5 = 25 visitas.
3. La empresa absorbe otra empresa del sector y opta por establecer un enlace directamente desde la
pgina de su lial a la propia, garantizndose que todos los clientes de la lial visitan su pgina.
Si el promedio de clientes que visitaban la pgina de la lial era de 2 clientes a la hora, cul es la
probabilidad de que tras la fusin no se reciba ninguna visita en 10 minutos?
Al hacerse con los clientes de la otra empresa (notemos por M (t) al proceso de Poisson que contaba
sus visitas, de parmetro = 2 visitas/hora), lo que ha ocurrido es que ahora el nmero de visitas
a la WEB de la empresa es la suma de ambos procesos: T (t) = N (t) + M (t) .
Suponiendo que los procesos de Poisson que contaban las visitas a ambas empresas fueran independientes, se tiene que T (t), en virtud de la propiedad aditiva del proceso de Poisson, es tambin
un proceso de Poisson, de parmetro = 5 + 2 = 7 visitas/hora. Por tanto,
1 0
1
7 16 7 6
P T
=0 =e
= 0.3114,
6
0!
una probabilidad del 31 %.
228
Bibliografa
et al
229
ndice alfabtico
ANOVA, 168170
Distribucin normal, 86
Distribucin normal multivariante, 120, 219
Coeciente de asimetra, 31
Distribucin uniforme, 82
Covarianza, 112
Datos cualitativos, 20
de cola pesada, 32
Desviacin tpica o estandar, 2931, 37, 64, 80, 88, Funcin masa conjunta, 99
128, 129, 145, 157
Funcin masa de probabilidad, 62, 63, 68, 70, 71, 74,
Diagrama de barras, 22, 23, 25, 31
81, 92, 127, 139
Diagrama de cajas y bigotes, 35, 36, 38
Incorrelacin, 112
Independencia de sucesos, 4850, 52, 53, 68, 181
Independencia estadstica, 213, 214
Insesgadez, 134137, 148
Intervalos de conanza, 134, 142148, 200
Media muestral, 25, 26, 2831, 34, 64, 81, 87, 128, Variable aleatoria discreta, 6264
Varianza muestral, 28, 29, 64, 81, 129, 135, 136, 144,
129, 135, 144146, 150, 156, 169, 217
Media poblacional, 34, 63, 64, 78, 80, 81, 90, 91, 129,
135, 144147, 150, 156, 192, 199, 202
Mediana, 26, 28, 31, 35
Moda, 26, 31
muestra, 15
Muestra aleatoria simple, 20, 29, 33, 36, 37, 63, 65,
74, 183, 196, 197
Nivel de conanza, 142144, 148, 151154, 157, 158,
160, 161, 171, 177, 178, 180, 184, 194, 200
Ortogonalidad, 112
p-valor, 153, 154, 156, 158161, 164, 166168, 171
173, 176181, 183, 185, 194
Percentil, 27, 34, 35, 37, 38, 9294
Probabilidad, 41, 42, 45, 47, 48
Probabilidad condicionada, 4850
Proceso aleatorio, 208
Proceso aleatorio en tiempo continuo, 209
Proceso aleatorio en tiempo discreto, 209
Proceso dbilmente estacionario, 215
Proceso de Markov, 215, 220
Proceso de Poisson, 221
Proceso ergdico, 218
Proceso gaussiano, 219
Procesos independientes, 213
Recta de regresin, 191
Ruido blanco, 219
Tabla de frecuencias, 21
Teorema de Bayes, 5355
Teorema de la probabilidad total, 5355
Test chi2 de bondad de ajuste, 176, 178
Test chi2 de independencia, 181
Test de Kolmogorov-Smirno, 179, 191, 192, 196, 198
202
Valores z , 34, 90
Prof. Dr. Antonio Jos Sez Castillo
231