Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Estadistica Elementales PDF
Probabilidad y Estadistica Elementales PDF
Ricardo A. Maronna
Facultad de Ciencias Exactas
Universidad Nacional de La Plata
Prefacio
Este libro es una introducci on a las ideas basicas de la Teora de Probabilidad y la Es-
tadstica, destinado a estudiantes de Ciencias Exactas, Informatica e Ingeniera, con un
buen conocimiento de An
alisis de una variable y de Algebra elemental, y algunas nociones
de An alisis de varias variables. He procurado enfatizar la forma correcta de encarar los
problemas, ya que muchos a nos de ensenanza y de pr actica me han convencido de la inu-
tilidad de las recetas, y de que lo unico que realmente sirve es la correcta percepci on de los
problemas y de las posibles vas de acci on.
La Teora de Probabilidad tiene la enga nosa caracterstica de que resultados intuiti-
vamente plausibles tienen demostraciones que requieren conocimientos avanzados de Matem atica
(la llamada Teora de la Medida). En este libro he procurado seguir un camino interme-
dio, demostrando lo que se pueda probar a nivel elemental, e indicando los casos en que
esto no es posible.
Los ejercicios son una parte importante del curso: contienen ejemplos y material com-
plementario, y, especialmente, sirven para que el lector compruebe su comprensi on de la
teora, y desarrolle su habilidad para pensar correctamente por su cuenta, lo que debiera
ser el objeto u ltimo de toda ense nanza.
Este libro es el resultado de muchos a nos de ensenar Probabilidad y Estadstica, en las
Universidades Nacionales de Buenos Aires y de La Plata, y en la E.S.L.A.I. (Escuela Supe-
rior Latinoamericana de Inform atica), cuyos alumnos han contribuido con sus comentarios
no siempre elogiosos al mejoramiento de mis cursos.
Abreviaturas: El smbolo se usar a para indicar el fin de una demostraci on. Los
numeros entre corchetes (como [8]) indican las referencias bibliogr aficas al final del libro.
Un asterisco (*) indica las secciones que se pueden omitir sin afectar la continuidad de la
lectura.
Dedico este libro a Susana Estela, Liliana Litvin y Rosa Wachenchauzer, que siempre
me han impulsado a dar un paso m as adelante.
i
ii
Indice
I PROBABILIDAD 1
1 Espacios de Probabilidad 3
1.1 Los axiomas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Experimentos con resultados equiprobables . . . . . . . . . . . . . . . . . . 6
1.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3 Variables Aleatorias 27
3.1 Distribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.2 Distribuciones continuas . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.3 Mezclas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2 Transformaciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . 34
3.2.1 Aplicaciones a simulaci on . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3 Distribuci
on conjunta de varias variables . . . . . . . . . . . . . . . . . . . . 37
3.4 Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . 40
3.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
iii
iv INDICE
7 Teoremas Lmites 83
7.1 Ley de Grandes N umeros . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2 Teorema Central del Lmite . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3 Aplicaciones del Teorema Central del Lmite . . . . . . . . . . . . . . . . . . 86
7.3.1 Aproximaci on normal a la binomial . . . . . . . . . . . . . . . . . . . 86
7.3.2 Aproximaci on normal a la Poisson . . . . . . . . . . . . . . . . . . . 87
7.3.3 Movimiento browniano . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.3.4 Tama nos de piedras . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
INDICE v
II ESTADISTICA 93
8 Descripci
on de una Muestra 95
8.1 Resumenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
8.1.1 Media y varianza muestrales . . . . . . . . . . . . . . . . . . . . . . 95
8.1.2 Diagrama de tallo y hoja . . . . . . . . . . . . . . . . . . . . . . . . 96
8.1.3 Cuantiles muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.1.4 Diagrama de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
8.2 La forma de la distribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.2.1 Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.2.2 Diagrama de cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . 99
8.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A TABLAS 165
BIBLIOGRAFIA 171
PROBABILIDAD
1
Captulo 1
Espacios de Probabilidad
3
4 CAPTULO 1. ESPACIOS DE PROBABILIDAD
del mismo. A estos los llamaremos experimentos aleatorios (en un experimento deter-
minstico una repetici on en las mismas condiciones tendra que dar el mismo resultado).
Notese sin embargo que no interesa aqu discutir si una situaci on es realmente aleatoria o
determinstica, o si existe realmente el azar. Se trata de elegir el modelo matem atico mas
adecuado para tratar una situaci on. El ejemplo de la moneda es claramente determinista;
pero sera poco u til tratarlo como tal.
El concepto de probabilidad se refiere a la proporci on de ocurrencias (o frecuencia re-
lativa) de un resultado, en una larga serie de repeticiones de un experimento aleatorio.
Pero cu ando es una serie lo bastante larga?. Podramos responder que lo es cuando
las frecuencias relativas varan poco al realizar nuevas repeticiones. Y cu ando se puede
decir que varan poco?. Una forma de precisar estas ideas para definir rigurosamente
el concepto de probabilidad, es la elegida por Richard von Mises, quien en 1921 parti o de
la idea de una serie ilimitada de repeticiones del experimento, y defini o a la probabilidad
como el lmite de las frecuencias relativas, cuando el n umero de repeticiones tiende a in-
finito. Este planteo, pese a lo natural que parece, encontr o dificultades insalvables para
llegar a convertirse en una teora consistente. La formulaci on que se utiliza actualmente
fue desarrollada en 1933 por el celebre matem atico ruso A. Kolmogorov, quien defini o la
probabilidad mediante un sistema de axiomas. La idea de partida com un en el enfoque
axiom atico de la Matem atica fue: si se pudiera definir la probabilidad como lmite de fre-
cuencias relativas: que propiedades tendra que cumplir?. Estas propiedades se convierten
precisamente en los axiomas de la definici on de Kolmogorov. La Ley de Grandes Numeros
(Captulo 7) mostrar a que esta definici
on es coherente con la nocion de probabilidad como
frecuencia relativa.
Todo lo expuesto se refiere al llamado concepto frecuentista de la probabilidad. Esta
puede tambien ser concebida como medida de creencia, dando lugar a la llamada proba-
bilidad subjetiva. Pero este es un tema que no trataremos en este curso. Una exposici on
sobre los distintos conceptos de azar y probabilidad se puede encontrar en [11].
Para exponer la definici on de Kolmogorov, veamos primero algunos ejemplos de expe-
rimentos aleatorios:
d. Registrar en dicha central el tiempo transcurrido desde las 10 hs. hasta que pide lnea
el primer abonado
Definici
on 1.1 Una probabilidad (o medida de probabilidad) es una funcion P que a cada
evento A le hace corresponder un n
umero real P(A) con las siguientes propiedades:
0 fN (A) fN () = N,
A B = = fN (A B) = fN (A) + fN (B).
6 CAPTULO 1. ESPACIOS DE PROBABILIDAD
Sea gN (A) = fN (A)/N (la proporci on de veces que ocurre A, o frecuencia relativa).
Entonces gN como funci on de A cumple P1, P2 y P3. Si se pudiera definir P(A) como
lmN gN (A) , entonces P cumplira esos tres axiomas.
El axioma P4 no se puede deducir de los anteriores, y es necesario por motivos
tecnicos: muchos resultados importantes no se podran demostrar sin usarlo.
Es f
acil extender P3 a cualquier familia finita de eventos. Sean Ai (i = 1, . . . n) eventos
disjuntos (o sea, i = j = Ai Aj = ). Entonces
n n
P Ai = P(Ai ). (1.1)
i=1 i=1
El lector puede demostrar esta propiedad, llamada naditividad finita, por inducci
on, teniendo
en cuenta que para cada n, los eventos An+1 y i=1 Ai son disjuntos.
El mismo resultado vale para n = (sigma-aditividad). Sea Ai (i = 1, 2, . . .) una
familia infinita de eventos disjuntos. Entonces:
P Ai = P(Ai ). (1.2)
i i=1
n
Para demostrarla, sean Bn = i=1 Ai y B = i Ai = n Bn . Entonces hay que probar
que P(B) = lmn P(Bn ), lo que es consecuencia inmediata de P4, pues Bn Bn+1 .
La demostraci
on es muy sencilla por inducci
on sobre card(A).
Permutaciones: La cantidad de formas distintas en que se pueden ordenar los n
umeros
1, 2, . . . , n (permutaciones de n) es el factorial de n:
n! = 1 2 . . . n. (1.4)
La demostraci
on es muy simple por inducci on.
Para completar, se define 0! = 1, con lo que la propiedad n! = n(n 1)! vale para todo
n 1.
Variaciones: Se llama variaciones de n en k (con k n) a la cantidad de subconjuntos
ordenados de k elementos, del conjunto {1, 2, . . . , n}; y se la indica con (n)k . Se verifica
enseguida que
n!
(n)k = n(n 1) . . . (n k + 1) = . (1.5)
(n k)!
Combinaciones: Se llama combinaciones (o n umero combinatorio) de n en k a la can-
tidad de subconjuntos (sin ordenar) de k elementos, contenidos en un conjunto de n
(0 k n); se lo denota con (nk ). Entonces
n!
n = . (1.6)
k k!(n k)!
En efecto: cada subconjunto ordenado de k elementos se caracteriza por: (1) los k elemen-
tos, y (2) el orden en que est
an. Como estos dos factores se pueden combinar de todas las
maneras posibles, resulta por (1.3) y (1.4)
n
(n)k = k k!,
En este caso el espacio es el conjunto de las m-uplas formadas por m barajas distintas:
= {(b1 , ..., bm ) : bi B, bi = bj si i = j}. De la definici
on se deduce que card() = (n)m .
Se representa matem aticamente la idea de que el mazo est a bien barajado postulando que
los elementos de son equiprobables. Esta es la definici on del muestreo sin reemplazo de
m objetos de entre n.
Si no interesa el orden en que salen, sino solamente el conjunto {b1 , ..., bm }, de la
definici
on se deduce f acilmente que los (nm ) conjuntos posibles son equiprobables.
Consideremos en cambio el experimento descripto por el siguiente procedimiento:
Hacer m veces lo siguiente:
Barajar bien. Sacar una carta y registrarla. Reponerla.
En este caso = {(b1 , ..., bm ), bi B} = B . . . B. Por lo tanto, card() = nm . Se
representa el buen barajado postulando que los elementos de son equiprobables. Esta es
la definici
on de muestreo con reemplazo.
Un ejemplo de esta situaci on es: m tiros sucesivos de un dado equilibrado. Aqu
B = {1, 2, ..., 6}.
Ejemplo 1.A: Repartos En una fiesta se reparten al azar c caramelos a n ni nos. Cual
es la probabilidad de que mi sobrinito se quede sin caramelo?. Es conveniente suponer que
tanto los caramelos como los ni nos est
an numerados. Cada uno de los caramelos puede ser
nos; y por lo tanto los casos posibles son nc , y los favorables (o
dado a cualquiera de los n ni
mas bien desfavorables para mi sobrino) son todas las maneras de distribuir los caramelos
nos restantes, o sea (n 1)c , y por lo tanto la probabilidad es (1 1/n)c .
entre los n 1 ni
Si c = n, dicha probabilidad es practicamente independiente de n, siendo aproximada-
mente igual a e1 0.37.
Ejemplo 1.B: Flor Un ejemplo de muestreo sin reemplazo y del uso de las ideas
elementales del An
alisis Combinatorio est a dado por el siguiente problema: de un mazo de
baraja espa
nola se extraen tres al azar sin reemplazo. Calcular la probabilidad del evento
A que sean todas del mismo palo.
Aqu no interesa el orden de las cartas, y por lo tanto los elementos de son los
subconjuntos de 3 cartas de un conjunto de 40, lo que implica card() = (40 3 ). Cada
elemento de A esta caracterizado por: (a) los n umeros de las 3 cartas, y (b) de que palo
son. Usando (1.3) resulta card(A) = (103 ) 4; y por lo tanto P(A) 0.049.
Ejemplo 1.C: Control de calidad En una canasta hay N manzanas, de las cuales M
estan machucadas. Elijo n al azar (sin reemplazo). Cu al es la probabilidad p de que me
toquen exactamente m machucadas? (con m n y m M).
umero de casos posibles es (Nn ). Cada caso favorable se caracteriza por: un sub-
El n
conjunto de m de entre las M machucadas, y uno de n m de entre las N M sanas.
Luego:
M N M
m nm
p= . (1.7)
N
n
1.3. EJERCICIOS 9
N (N 1) . . . (N n + 1)
p=1 . (1.8)
Nn
1.3 Ejercicios
Secci
on 1.1
1.1 Probar que P(A ) = 1 P(A). Deducir que P() = 0.
1.2 Probar que A B = P(B A) = P(B) P(A). Vale esta igualdad en general?.
Deducir que A B = P(A) P(B).
1.3 Probar que P(A B) = P(A) + P(B) P(A B) (haga el diagrama!). Deducir que
P(A B) P(A) + P(B) (desigualdad de Bonferroni).
1.4 Sea{An } una familia infinita de eventos tales que A1 A2 A3 . . .. Probar que
P( n An ) = lmn P(An ). [Usar P4 y el ejercicio 1.1].
1.5 Un sistema de control est a formado por 10 componentes. La falla de cualquiera de
ellos provoca la del sistema. Se sabe que la probabilidad de falla de cada componente
es 0.0002. Probar que la probabiidad de que el sistema funcione es 0.998.
1.6 Sobre una mesa hay tres cartas boca abajo: son un as, un dos y un tres, y hay que
acertar cual de ellas es el as. Usted elige una. El croupier le muestra una de las
otras dos, que resulta no ser el as, y le da una oportunidad de cambiar su elecci on en
este instante. Que le conviene m as: mantener su decisi
on o elegir la restante carta
desconocida? [construya un modelo para la opci on de cambiar siempre de carta].
10 CAPTULO 1. ESPACIOS DE PROBABILIDAD
Secci
on 1.2
1.7 a. Una canasta roja contiene 5 botellas de champagne brut y 6 de vino com un de
mesa; una canasta blanca contiene 3 de champagne y 4 de vino com un. Si se le
ofrece extraer al azar una botella, de cu
al canasta le conviene tomarla?.
b. Una canasta roja contiene 6 botellas de champagne de primera y 3 de vino de
cuarta; una blanca tiene 9 de champagne y 5 de dicho vino. De cu
al le conviene
extraer?.
c. Los contenidos de las dos canastas blancas se unen, y lo mismo se hace con
los de las dos rojas. De cu
al le conviene extraer ahora?. (El resultado es un
ejemplo de la llamada Paradoja de Simpson).
1.8 Calcular la probabilidad de obtener un boleto capic
ua, en un colectivo que emite
boletos con 5 cifras.
1.9 Se arroja repetidamente un dado equilibrado. Calcular la probabilidad de obtener:
a. dos n
umeros pares, tirando dos veces
b. al menos un as, tirando cuatro veces.
1.10 Se arrojan 5 dados equilibrados. Calcular la probabilidad de obtener
a. cinco n
umeros iguales (generala servida)
b. cuatro iguales y uno distinto (poker)
c. tres de un n
umero y dos de otro (full).
[conviene considerar a los dados como distinguibles].
1.11 En un programa de television se presentan 4 hombres y 4 mujeres. Cada hombre
elige a una mujer (ignorando lo que eligen los/las dem as) y viceversa. Si un hombre
y una mujer se eligen mutuamente, se forma una pareja. Si las elecciones fueran
completamente al azar, cual sera la probabilidad de que se formen 4 parejas?.
1.12 Un senor tiene un llavero con n llaves. Ha olvidado cu
al es la de su casa, y las prueba
ordenadamente una por una. Calcular la probabilidad de que acierte en el k-esimo
intento (1 k n).
1.13 En una pecera hay 7 peces rojos y 3 azules. Se extraen 5 al azar (sin reemplazo).
Calcular la probabilidad de obtener:
a. 3 rojos
b. 2 o m
as rojos.
1.14 En una caja de madera de sandalo persa hay 20 bolillas, de las cuales exactamente
8 son de color fucsia. Se extraen sucesivamente 10 al azar, sin reposici
on. Calcular
la probabilidad de que
1.3. EJERCICIOS 11
Probabilidad Condicional e
Independencia
card(A B)
p= . (2.2)
card(B)
P(A B)
p= = P(A|B). (2.3)
P(B)
Comparando (2.2) y (2.3) surge que P(A|B) se puede considerar como la probabilidad de
obtener un elemento de A, cuando uno se limita a elegir de entre los de B.
En terminos de frecuencias relativas (ver p
agina 5), el significado intuitivo sera: P(A|B)
es la proporci
on de veces que se observa A, en una larga serie de repeticiones del experi-
mento en la que registramos s olo aquellas en que sucede B,
13
14 CAPTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
De la definici
on es inmediato que
En el pensamiento cotidiano suele haber una cierta confusion entre P(A|B) y P(B|A).
Para aclararla, notemos que mientras la totalidad de los futbolistas profesionales tiene dos
piernas, s
olo una nfima proporci
on de las personas que tienen dos piernas son futbolistas
profesionales. El Ejemplo 2.E mostrar a un caso menos obvio.
Definici
on 2.2 Los eventos A y B son independientes si
P(A B) = P(A)P(B). (2.5)
Esta es la llamada formula de probabilidad compuesta. Para probarla, basta notar que
los eventos A Bi (i = 1, . . . , n) son disjuntos, su uni
on es A, y sus probabilidades son
P(A|Bi )P(Bi ) por (2.4).
En las mismas condiciones se cumple para todo k = 1, . . . , n:
P(A|Bk )P(Bk )
P(Bk |A) = n . (2.8)
i=1 P(A|Bi )P(Bi )
Ejemplo 2.D: Se tienen dos cajas: la primera tiene 5 bolillas blancas y 3 negras, y la
segunda tiene 4 blancas y 8 negras. Se elige una caja al azar y de ella una bolilla al azar.
Se desea calcular la probabilidad de que la bolilla sea negra.
Antes de poder calcularla, hay que plantear un modelo para esta situaci on. Aqu es
el conjnto de pares {(caja,bolilla)}, donde caja puede ser 1 o 2, y bolilla puede ser
blanca o negra. Definimos los eventos: A = bolilla negra = {(1,negra), (2,negra)}, B1 =
elegir caja 1= {(1,blanca), (1,negra)} y B2 = elegir caja 2. El enunciado del problema
equivale a postular:
P(B1 ) = P(B2 ) = 1/2,
P(A|B1 ) = 3/8 y P(A|B2 ) = 8/12.
Entonces el resultado se obtiene de (2.7):
3 1 8 1 25
P(A) = + = .
8 2 12 2 48
La probabilidad condicional de que la caja sea la 1, dado que sali o bolilla negra, es
seg un (2.8)
(3/8)(1/2) 9
= .
25/48 25
El significado intuitivo de esta probabilidad es: si se repite el experimento muchas veces,
de todos los casos en que sale bolilla negra, una proporcion 9/25 corresponde a la caja 1.
Ejemplo 2.E: Falsos positivos Un test para detectar cierta enfermedad tiene proba-
bilidad 0.005 de dar como enfermas a personas sanas (falsos positivos), y probabilidad
0.007 de dar como sanas a personas enfermas (falsos negativos). Los enfermos consti-
tuyen el 1% de la poblacion. Si se aplica el test a toda la poblaci
on, que proporci
on de
los positivos corresponder
a a sanos?.
Sean A, B1 y B2 los eventos test positivo, sano y enfermo. Entonces
P(A|B1 ) = 0.005, P(A |B2 ) = 0.007, P(B2 ) = 0.01;
y la f
ormula de Bayes da
0.005 0.99
P(B1 |A) = = 0.333;
0.005 0.99 + 0.993 0.01
de modo que el 33% de los positivos son sanos!. Aunque el resultado pueda ser sorpren-
dente, no es diferente del comentario sobre futbolistas en p
ag. 14.
Para abreviar, sea g(t) = P{A(s, s + t)} (no depende de s). Para calcular la forma de g,
notemos que si s y t son 0, entonces los eventos A(0, s) y A(s, s + t) son independientes,
y adem
as su interseccion es A(0, s + t). Por lo tanto:
*Demostraci
on general de (2.10)
Lema 2.4 Sea g una funci on mon otona (creciente o decreciente) que cumple (2.9), y
g(0) = 1. Entonces g es de la forma
g(t) = bt , (2.12)
b. A1 A2 es independiente de A3 (y de A3 ).
c. A1 A2 es independiente de A3 (y de A3 ).
Demostraciones
(a): (Notese que el hecho debe ser demostrado, pues la palabra independientes se usa
primero en el sentido de la definici
on 2.5 o sea, de a tres y luego en el sentido de la
Definici
on 2.2, o sea, de a dos).
Para demostrarla, tener en cuenta que
Pero si A1 , A2 , A3 , adem
as de ser independientes de a pares, cumplen
Se quiere representar las suposiciones de que las condiciones son las mismas en todos los
tiros, y que el cubilete est
a bien batido. Para ello se postula:
A1 , . . . , An son independientes.
Este modelo de una sucesi on de eventos independientes y con la misma probabilidad, como
los Aj , sirve para representar repeticiones de un experimento con solo dos resultados, y se
llama esquema de Bernouilli. Cada repetici on se denomina intento. La realizaci on de
on o sea, los complementos Aj
los eventos se suele llamar exitos, y la no realizaci
fracasos. Ahora se calcular a la probabilidad de obtener exactamente k ases en los n tiros.
Para probarlo, notemos que Bk equivale a que haya alg un subconjunto de k intentos con
exitos, y que los restantes n k sean fracasos. M as formalmente: sea C la familia de
todos los conjuntos C {1, 2, . . . , n} con card(C) = k. Entonces
Bk = Aj Aj . (2.14)
CC jC jC
Cada uno de los eventos dentro del parentesis tiene, por la independencia, probabilidad
pk (1 p)nk . Estos eventos son disjuntos, y hay (nk ) de ellos.
A las probabilidades de (2.13) se las llama distribuci on binomial, y se las denotar
a
con b(k; n, p) (la palabra distribuci
on ser
a definida en el Captulo siguiente).
Supongamos ahora que los tiros del dado contin uan indefinidamente. Entonces la pro-
babilidad de que el primer as salga en el k-esimo tiro es la de que no salga as en ninguno
de los primeros k 1 tiros, y salga as en el k-esimo, o sea
2.5 La aproximaci
on de Poisson y sus aplicaciones
Consideramos ahora una aproximaci on a la distribuci
on binomial, para n grande y p
chico. Para representar esto consideramos una sucesi on b(k; n, pn ) donde n y pn
cumple npn , donde es una constante > 0 (y por lo tanto pn 0). Se probar a que
k
lmn b(k; n, pn ) = e . (2.17)
k!
Para ello desarrollamos el coeficiente seg
un la definici
on, multiplicando y dividiendo
por nk :
n(n 1) . . . (n k + 1) 1
b(k; n, pn ) = (npn )k (1 pn )k (1 pn )n . (2.18)
nk k!
Cuando n , el primer factor del segundo miembro tiende a 1, el segundo es constante,
el tercero tiende a k , el cuarto a 1, y el quinto a e , pues
Homogeneidad espacial: Para cada una de las n bacterias, y cada regi on D del recipiente,
la probabilidad de que la bacteria este en D depende s
olo del volumen de D (y no de su
forma o posici
on)
No interacci
on: Los eventos la j-esima bacteria est
a en D (j = 1, . . . , n) son independi-
entes.
Dada ahora una regi on D con volumen v, se desea calcular la probabilidad del evento en
D hay exactamente k bacterias. Esta probabilidad depende s olo de v, por la primera
suposici
on; la llamaremos gk (v). Sea h(v) la probabilidad de que una bacteria dada este
en D (depende s olo de v). Si D1 y D2 son dos regiones disjuntas con vol umenes v1 , v2
22 CAPTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
Adem as h es creciente. El lector puede probar facilmente (ejercicio 2.18) que h(v) = av
donde a es una constante. Como h(V ) = 1, debe ser a = 1/V y por lo tanto h(v) = v/V que
es la proporci
on del volumen total correspondiente a D, como era de esperar intuitivamente.
Notemos ahora que estamos en la situaci on de la binomial, con p = v/V , de modo que
gk (v) = b(k; n, v/V ). En la mayora de las situaciones pr
acticas, n es muy grande, y las
regiones que se consideran son peque nas comparadas con el recipiente total; de manera
que se puede tomar n y V , con n/V c, donde c se puede interpretar como
cantidad media de bacterias por unidad de volumen. En estas circunstancias, por (2.17)
resulta para todos los efectos practicos:
Por ejemplo, cuando se toma una muestra de sangre para hacer un recuento de gl obulos
rojos, V y v son los vol
umenes de sangre en el cuerpo y en la muestra, y n es la cantidad de
globulos en el organismo, que es de varios millones (salvo en caso de una anemia galopante);
y por lo tanto se puede suponer que las probabilidades correspondientes a la cantidad de
globulos en la muestra se expresan mediante los coeficientes de Poisson.
S2) Para todo n, cualesquiera sean t0 < t1 < t2 < . . . < tn y k1 , k2 , . . . , kn , los eventos
Ak1 (t0 , t1 ), . . . , Akn (tn1 , tn ) son independientes.
A las dos suposiciones anteriores hace falta agregar la de que las partculas se emiten de
a una, que informalmente sera:
Sea
gk (t) = P{Ak (s, s + t)}
(depende s olo de t por S1). La g0 es la g de la Secci on 2.2.1.
Para formalizar la tercera suposici on, notemos que la probabilidad de dos o m
as partculas
en [s, s + t) es 1 g0 (t) g1 (t). La idea de que esto es muy peque no para t pequeno, se
expresa con el siguiente postulado:
S3) g0 y g1 son diferenciables en 0, y
1 g0 (t) g1 (t)
lmt0 = 0.
t
Esto son los coeficientes de Poisson definidos anteriormente, con = ct. El valor de c
depende de la situaci on, y se lo puede estimar empricamente. Como se ver a mas adelante
en (4.16), su significado intuitivo es cantidad media de partculas por unidad de tiempo,
y el de 1/c es tiempo medio entre dos partculas.
El modelo descripto por S1, S2 y S3 se llama Proceso de Poisson temporal, y c es la
intensidad del proceso. Note que si t se mide en segundos, c se debe medir en segundos1 .
Se lo usa para modelizar sucesos (emisiones de partculas, llegadas de clientes a una
cola, llamadas telefonicas) que se producen en el tiempo en condiciones representables por
dichas suposiciones.
Demostraci on del Teorema: Dado t, se divide el intervalo [0, t) en n subintervalos
de longitud t/n: [ti , ti+1 ), con ti = (i 1)/n, i = 1, . . . , n. Sea Cn el evento en ninguno
de los n subintervalos se emite m as de una partcula, o sea
n
Cn = {A0 (ti , ti+1 ) A1 (ti , ti+1 )}.
i=1
Pongamos para abreviar: h(s) = (1g0 (s)g1 (s))/s. Entonces P(Cn ) = {1(t/n)h(t/n)}n .
Cuando n , t/n 0, y S3 implica que h(t/n) 0; y por lo tanto P(Cn ) 1.
Descompongamos ahora
gk (t) = P{Ak (0, t)} = P{Ak (0, t) Cn } + P{Ak (0, t) Cn }. (2.20)
cuando n y V tienden a infinito. De esta forma se cumplen los analogos de las suposiciones
S1 y S2 del modelo temporal, pero con regiones del espacio en vez de intervalos de la recta.
2.6 Ejercicios
2.1 Probar que, para cada B fijo con P(B) > 0, P(A|B) (como funci on de A) es una
probabilidad; o sea, cumple P1, P2, P3 y P4 de la definici
on 1.1.
2.4 En la situaci
on del problema 2.2, que proporci
on de los tornillos defectuosos proviene
de la maquina A?.
2.6 De un mazo de baraja espa nola se extrae una carta al azar. Los eventos es un as
y es una carta de bastos son independientes?.
2.7 a. Si A B pueden A y B ser independientes?.
b. Si A B = pueden A y B ser independientes?.
2.8 Se supone que las probabilidades de que un ni no nazca var
on o mujer son iguales, y
que los sexos de hijos sucesivos son independientes. Consideramos s
olo familias tipo
(dos hijos).
a. Si una familia tipo elegida al azar tiene (al menos) una ni
na, cu
al es la proba-
bilidad de que esta tenga una hermana?
b. Se elige al azar una ni
na de entre todas las hijas de familias tipo; cu
al es la
probabilidad de que esta tenga una hermana?.
2.9 El dado A tiene 4 caras rojas y 2 blancas; el B tiene 2 rojas y 4 blancas. Se arroja
una vez una moneda equilibrada. Si sale cara se arroja repetidamente el dado A; si
sale ceca, el B.
a. Calcular la probabilidad de rojo en el tiro k-esimo del dado
b. Si los 2 primeros tiros del dado dieron rojo, cu
al es la probabilidad de rojo
en el tercero?
c. Si los n primeros tiros dieron rojo, cu
al es la probabilidad de que el dado sea
el A?.
2.10 Una caja contiene 6 caramelos de menta y 4 de lim on. Se extrae uno al azar. Si es
de menta, se lo reemplaza por dos de lim
on, y viceversa. Luego se vuelve a extraer.
Calcular la probabilidad de que:
a. el segundo caramelo extrado sea de menta
b. el primero sea de menta, si el segundo es de lim
on.
2.11 Se arroja repetidamente un dado para el que la probabilidad de obtener as es p.
Calcular la probabilidad de que:
a. el as no salga jamas
b. el m-esimo as salga en el k-esimo tiro.
2.12 Un borracho camina por la u nica calle de su pueblo. En cada esquina sigue otra
cuadra adelante o atras con probabilidad 1/2. Despues de caminar 6 cuadras, cu al
es la probabilidad de que se encuentre en el punto de partida?. [Este modelo se llama
paseo al azar].
2.13 (Para polemizar) Un jugador observa en una mesa de ruleta que sale colorado 80
veces seguidas. Quiere decidir si en la pr
oxima jugada apuesta a colorado a o a negro.
Como proceder racionalmente?.
26 CAPTULO 2. PROBABILIDAD CONDICIONAL E INDEPENDENCIA
2.14 a. Hallar para que valor(es) de k se maximiza b(k; n, p) para n y p dados [ayuda:
ando es el cociente b(k 1; n, p)/b(k; n, p) mayor o menor que 1].
determinar cu
b. Se arroja 12 veces un dado equilibrado. Cu
al es la cantidad de ases con mayor
probabilidad de aparecer?.
c. Encontrar k que maximice p(k; ), procediendo como en el punto (a).
2.15 En (1.7), probar que si N y M/N p, entonces la probabilidad correspondiente
tiende a b(k; n, p) (aproximaci
on del muestreo sin reemplazo por el muestreo con
reemplazo).
2.16 En un bosque hay 100 elefantes: 50 son grises, 30 blancos y 20 rosados. Se eligen al
azar 9 elefantes, con reemplazo. Calcular la probabilidad de que resulten: 4 grises, 2
blancos y 3 rosados.
2.17 Comparar b(k; n, p) con su aproximaci
on de Poisson p(k, np) para n = 100,
p = 0.01, y k = 0, 1, 2.
2.18 Probar que si h es una funci otona tal que h(s+t) = h(s)+h(t) s, t, entonces
on mon
h(t) = at para alguna constante a [notar que eh(t) cumple (2.10)].
Captulo 3
Variables Aleatorias
3.1 Distribuciones
La idea intuitiva de una variable aleatoria es un valor que depende del resultado de un
experimento aleatorio. Mas formalmente tenemos:
El caso mas usual es X = R, y mientras no se diga otra cosa, nos referiremos a variables
aleatorias con valores reales. En general se denotar an las variables aleatorias con letras
mayusculas: X, Y, . . ., y las min
usculas corresponder
an a constantes (es decir, cantidades
no aleatorias). Para abreviar, escribiremos variable en vez de variable aleatoria.
Ejemplo 3.A: Se arroja un dado 2 veces, de modo que = {(1 , 2 )} con 1 , 2
{1, . . . , 6}. Ejemplos de variables definidas para este experimento son:
X = n
umero de veces que sali
o as = card{i : i = 1}
Definici
on 3.2 La funcion de distribuci
on (FD) de una variable X es la funci
on FX
de R R definida por: FX (x) = P( : X() x) (o abreviadamente, P(X x) ).
27
28 CAPTULO 3. VARIABLES ALEATORIAS
Proposici
on 3.3 Sea F la FD de X. Entonces:
a. a < b = P(a < X b) = F (b) F (a)
b. a < b = F (a) F (b) (F es no decreciente)
c. lmx F (x) = 1, lmx F (x) = 0
d. x R : P(X = x) = lmtx+ F (t) lmtx F (t) (el salto de F en x)
e. x R : F (x) = lmtx+ F (t) (continuidad por la derecha).
Demostraci on:
a) Sean respectivamente A y B los eventos {X a} y {X b}. Entonces A B, y
por el ejercicio 1.2 es P(a < X b) = P(B A) = P(B) P(A) = F (b) F (a).
b) Por (a): F (b) F (a) = P(B A) 0.
c) Como F es mon otona y acotada (pues 0 F 1), existe el lmx F (x), el que
adem as es igual al lmn F (n) para n entero. Basta probar que este u ltimo lmite es
1. Para ello consideremos la sucesi
on de eventos A n = {X n}, los cuales cumplen
An An+1 , y adem as n An = . Entonces por P4 de la Definici on 1.1 es P() =
lmn P(An ) = lmn F (n).
El otro lmite se prueba usando los eventos {X n} y el ejercicio 1.4.
d) Se razona igual que en la demostraci on de (c), definiendo los eventos
que cumplen:
An An+1 , An = {X = x} y P(An ) = F (x + 1/n) F (x 1/n).
n
En particular,
pX (x) = 1. (3.2)
xC
y por lo tanto FX es una escalera con saltos en los x C, de tama no pX (x), como se vio
en el ejemplo 3.B.
La funcion pX de C en [0, 1] es llamada funci
on de frecuencia.
Una distribuci a dada por un conjunto finito o infinito numerable C R
on discreta est
on p(x) 0 definida para x C, que cumpla (3.2).
y una funci
Una verificacion algebraica de (3.3) se puede obtener haciendo el desarrollo del binomio
1 = [p + (1 p)]n (lo cual explica ademas el nombre de binomial).
Si A es cualquier conjunto, se llama indicador de A y se lo escribe IA o I(A) a la
on que vale 1 en A y 0 en A . En An
funci alisis se la suele llamar funci
on caracterstica
de un conjunto; pero en Teora de Probabilidad este u ltimo nombre recibe otro uso, por lo
cual se prefiere el de indicador.
En particular, si A es un evento con probabilidad p, X = IA es una variable
discreta con P(X = 1) = p, P(X = 0) = 1 p; o sea, con distribuci on Bi(1, p). En el
30 CAPTULO 3. VARIABLES ALEATORIAS
En (2.15), es la distribuci
on del n
umero del intento en que se da por primera vez un exito
en el esquema de Bernouilli. Se la indicara con Ge(p). Es facil probar que cumple (3.2),
recordando que
(1 p)x = p1 . (3.5)
x=0
Distribuci
on binomial negativa con par ametros p [0, 1] y m Z+ :
p(x) = p b(m 1, x 1, p) = mx 1 pm (1 p)xm (x m). (3.6)
1
Es la distribuci
on de numero del intento correspondiente al m-esimo exito en un esquema
de Bernouilli (ver (2.16) y ejercicio 2.11), de modo que la geometrica es el caso particular
m = 1.
Es necesario probar (3.2), pues podra ser que nunca hubiera m exitos. Para ello basta
con derivar m veces la identidad (3.5).
Distribuci
on hipergeom ametros N, M, n (M N, n N):
etrica con par
M N M
x nx
p(x) = , (0 x mn(n, M )). (3.7)
N
n
Para verificar (3.2) se puede razonar en forma probabilstica como en el caso binomial:
dado que los p(x) corresponden a la distribuci on de una variable aleatoria, la validez de
(3.2) est
a autom aticamente garantizada. Si quiere una verificaci on puramente algebraica,
resuelva el ejercicio 1.18.
on uniforme discreta en el intervalo [n1 , n2 ] (con n1 n2 ):
Distribuci
1
p(x) = (n1 x n2 ).
n2 n1 + 1
Ejemplos simples son los juegos de azar honestos: un tiro de un dado equilibrado
(n1 = 1, n2 = 6) o de ruleta (n1 = 0, n2 = 36). Un uso mas interesante es la generaci
on
computacional de numeros pseudoaleatorios (Secci
on 3.2.1).
Si se hace a = queda x
FX (x) = fX (t) dt x; (3.9)
y por lo tanto
fX (x) dx = 1.
Aplicando en (3.9) el Teorema Fundamental del C alculo Integral, se obtiene que para
una distribuci
on absolutamente continua, FX (x) es una funci on continua para todo x, y su
derivada es fX (x) en todos los x donde fX es continua. De la continuidad de FX y de la
propiedad (d) de la Proposici
on 3.3, se deduce que para todo x, es P(X = x) = 0; y por lo
tanto P(X x) = P(X < x).
Como la expresion absolutamente continua es demasiado larga, se suele hablar sim-
plemente de distribuciones continuas. Sin embargo, hay que tener en cuenta que el hecho
de que FX sea una funcion continua, no implica que la distribuci
on de X sea absolutamente
continua: hay funciones mon otonas y continuas, que sin embargo no son la primitiva de
ninguna funcion [7, Vol. II, sec. I.11]. Por lo tanto, no es lo mismo una funci on de
distribuci
on continua que una distribucion (absolutamente) continua.
32 CAPTULO 3. VARIABLES ALEATORIAS
donde o es un infinitesimo de orden mayor que ; de manera que fX (x) sirve para
aproximar la probabilidad de un intervalito alrededor de x.
El subndice X se omitir
a de fX cuando no haya lugar a confusi
on.
Obviamente es > 0. Para verificar que es una densidad, falta comprobar que = 1.
(El lector no habituado a integrales dobles puede hacer un acto de fe y seguir de largo).
2
Sea a = ex /2 dx. Hay que probar que a2 = 2. Para ello, notar que
2 x2 /2 y 2 /2 2 2
a = e dx e dy = e(x +y )/2 dx dy;
Es f
acil verificar integrando por partes que (s + 1) = s(s). Como (1) = 1, resulta
(n) = (n 1)! para n natural, de modo que esta funci
on generaliza el factorial. Ahora se
define la densidad de la distribuci
on Gama:
1
1 t
f (t) = et/ I(t 0). (3.12)
()
Se la indicar a Ga(, ). Contiene a la exponencial como el caso = 1. Se usa para
modelizar tiempos de espera. En el proceso de Poisson con intensidad c, sea T el instante
en que se produce el m-esimo suceso. Dado t > 0, sea N la cantidad de sucesos en el
intervalo [0, t]. Entonces T > t N < m, y como N Po(ct), es
m1
m1
(ct)k
1 FT (t) = P(T > t) = p(k; ct) = ect ,
k!
k=0 k=0
34 CAPTULO 3. VARIABLES ALEATORIAS
3.1.3 Mezclas
Consideremos dos especies de peces. La longitud de los de la primera tiene distribuci
on
G1 , y los de la segunda G2 . Si nadan mezclados por el mar, en proporciones 10% y 90%,
entonces la distribucion de la longitud L de un pez capturado al azar de la poblacion
conjunta se obtiene por la regla de Probabilidad Compuesta. Sean A1 y A2 los eventos de
que el pez pertenezca a la especie 1 o la 2. Entonces
FL (t) = P(L t) = P(L t|A1 ) P(A1 ) + P(L t|A2 ) P(A2 ) = G1 (t) + (1 )G2 (t),
con = 0.1. Esto se llama mezcla de G1 y G2 . Si ambas son continuas, tambien lo es
su mezcla; lo mismo sucede si son discretas. Pero si son una discreta y otra continua, la
mezcla no es ninguna de las dos cosas.
Ejemplo 3.C: Datos censurados El tiempo de duraci on de una l
ampara tiene funci
on
de distribuci
on G con densidad g. La lampara es reemplazada cuando se quema, o cuando
ha funcionado por h horas (lo que suceda primero). Sea T el tiempo hasta el reemplazo.
Entonces FT (t) = G(t) si t < h, y FT (t) = 1 si t h; de modo que FT es continua hasta
no 1 G(h). Esto se llama una distribuci
h, pero tiene un salto en h, de tama on censurada
por la derecha. Esta es una de mezcla de una distribuci on continua con una discreta:
FT = pG1 + (1 p)G2 , donde p = G(h), G1 es la distribucion con densidad g(x)I(x < h)/p,
on concentrada en h : G2 (t) = I(t h). De manera que aqu tenemos
y G2 es la distribuci
un ejemplo concreto de una distribucion que no es ni continua ni discreta.
Aqu los datos mayores que h no se sabe cu anto valen, pero se sabe que est
an. Hay
situaciones en que los valores fuera de un intervalo no llegan a dar senas de que existen
(ejercicio 3.7). Esas son distribuciones truncadas.
Si X tiene distribuci
on continua, y si h es diferenciable, de (3.15) sale, derivando, que
fX [h1 (y)]
fY (y) = . (3.17)
|h [h1 (y)]|
Si h no es mon otona, pero es creciente o decreciente por trozos, se puede usar la idea
de (3.17), requiriendo cada caso un an alisis particular y m
as paciencia. Por ejemplo, si
Y = |X|, y FX es continua, se puede obtener, para y 0:
P(Z z) = P(U z 1 U z) = z (1 z) = 2z 1,
F (c + x) + F (c x) = 1 y f (c + x) = f (c x) x. (3.21)
X = ln(1 U ). (3.23)
Este metodo se puede extender te oricamente para F cualquiera (ejercicio 3.20). Pero
no siempre es pr actico calcular F 1 , y en esos casos conviene usar metodos que usan
propiedades especficas de la F que interesa. Un procedimiento para la normal se ver a en
la Seccion 5.3.
Para distribuciones discretas, el lector puede facilmente encontrar un metodo general
(ejercicio 3.16). Pero tambien puede ser m as eficiente usar caractersticas particulares de
las distribuciones, como en los ejercicios 3.18 y 3.19.
3.3 Distribuci
on conjunta de varias variables
Si X e Y son dos variables definidas en el mismo , podemos considerarlas como un par de
on que a cada le asigna el punto del plano de coordenadas
variables, o como una funci
(X(w), Y (w)), o sea, una variable aleatoria con valores en R2 .
Proposici
on 3.7 Si a < b y c < d, es
Demostraci on: Basta con descomponer el rect angulo (a, b] (c, d] en rect
angulos semi-
infinitos como los que aparecen en la definici
on de F :
y descomponiendo de la misma forma cada uno de los dos terminos, se llega al resultado.
on conjunta que X , Y , si P((X, Y ) A) =
Se dice que X, Y tienen la misma distribuci
P((X , Y ) A) A R . Se lo escribe D(X, Y ) = D(X , Y ).
2
De la definici
on sale
P((X, Y ) A) = p(x, y) A R2 , (3.25)
(x,y)AC
y en particular
p(x, y) 0 y p(x, y) = 1. (3.26)
(x,y)C
Tomando A = R2 resulta
f (x, y) dxdy = 1. (3.29)
Tomando A = (, x] (, y] se obtiene
y x
FX,Y (x, y) = fX,Y (s, t) ds dt; (3.30)
y derivando se tiene
2 F (x, y)
f (x, y) = , (3.31)
x y
en todos los (x, y) donde f es continua.
Ejemplo 3.G: Distribuci on uniforme bivariada Sea B cualquier regi
on del plano, con
area b < . Se define la distribuci
on uniforme en B mediante la densidad
1
f(x, y) = IB (x, y). (3.32)
b
CONJUNTA DE VARIAS VARIABLES
3.3. DISTRIBUCION 39
Distribuciones marginales
Conociendo la distribuci on conjunta de (X, Y ), se pueden calcular la distribuci
on de X y
la de Y , de la siguiente manera:
Proposici
on 3.8
a. En general: FX (x) = lmy FX,Y (x, y).
b. En el caso discreto: pX (x) = y pX,Y (x, y).
c. En el caso continuo: fX (x) = fX,Y (x, y) dy.
Demostraci on: El primer resultado se prueba igual que (c) de Prop. 3.3. El segundo es
trivial. El tercero se deduce calculando primero FX y luego derivando.
Las distribuciones de X y de Y se llaman marginales de D(X, Y ). Conocer las marginales
no implica conocer la distribucion conjunta, como se ver
a a continuaci
on.
Ejemplo 3.H: Se arrojan dos monedas equilibradas, distinguibles; la variable X es el
indicador de que salga cara en la primera moneda; idem Y en la segunda. Consideremos tres
casos: en el primero, los cantos de las monedas est an soldados, con las dos caras hacia el
mismo lado; en el segundo, lo mismo pero las caras est an opuestas; en el tercero, se arroja
cada moneda separadamente. Estos tres casos describen tres distribuciones conjuntas de
(X, Y ). El lector puede verificar que son distintas, pero tienen todas las mismas marginales:
P(X = 1) = P(X = 0) = P(Y = 1) = P(Y = 0) = 0.5.
La distribuci
on conjunta contiene m as informaci on que las marginales, pues contiene
informacion sobre la dependencia entre las variables.
El tratamiento de m variables X1 , . . . , Xm es an alogo. Por ejemplo, en el caso continuo
con densidad conjunta f, la densidad marginal de X1 es
fX1 (x1 ) = ... f (x1 , x2 , . . . , xm ) dx2 . . . dxm .
40 CAPTULO 3. VARIABLES ALEATORIAS
La implicaci
on inversa es tambien v alida, pero la demostracion no es elemental.
Usando (3.33) se verifica f
acilmente que la independencia de X e Y equivale en el caso
discreto a
pX,Y (x, y) = pX (x) pY (y) si (x, y) C,
y en el continuo a
fX,Y (x, y) = fX (x)fY (y).
La independencia de X e Y equivale a que existan funciones g y h tales que
En efecto, si (3.35) se cumple, integrando respecto de y se deduce que fX (x) = cg(x) donde
c es una constante; y lo mismo con fY . Por lo tanto, para verificar independencia basta
comprobar que p(x, y) o f (x, y) se pueden factorizar como alguna funci on de x por alguna
de y, siendo innecesario verificar que se trata de las funciones de frecuencia o de densidad
marginales. Este insignificante detalle puede ahorrar muchas cuentas.
Ejemplo 3.I: Tiempos de espera: Bernouilli En el esquema de Bernouilli sea S el
n
umero del intento en que se produce el primer exito, y T la cantidad de intentos entre el
primer y el segundo exitos, de modo que U = S + T es el intento en que se da el segundo
exito. Mostraremos que S y T son independientes. En efecto, el evento {S = s T = t}
equivale a {S = s U = s + t}, o sea, que haya exitos en los intentos s y s + t y fracasos
en los demas, es decir
que es una funcion de s por una de t, y por lo tanto S y T son independientes. Adem as
se deduce que T tiene la misma distribuci on que S, o sea Ge(p); y en consecuencia los
tiempos de espera entre exitos sucesivos tienen la misma distribucion que el tiempo entre
el comienzo y el primer exito, lo que corresponde a la idea intuitiva de que el proceso no
tiene memoria. Como si eso fuera poco, resulta sin hacer ninguna cuenta que la suma de
dos geometricas independientes con el mismo par ametro es binomial negativa.
La nocion de independencia se extiende en forma natural para cualquier conjunto finito
o infinito de variables.
3.4. INDEPENDENCIA DE VARIABLES ALEATORIAS 41
FS,T (s, t) = 1 P(S > s T > t) = FS (s) + FT (t) 1 + P(S > s T > t),
derivando (3.36) se obtiene la densidad conjunta de S, T : fS,T (s, t) = c2 ect I(s < t).
Si dos variables son independientes, las funciones de ellas tambien lo son. Sean X1 , X2
independientes, u1 , u2 dos funciones de R R, Yi = ui (Xi ) (i = 1, 2). Entonces Y1 e Y2
son independientes. Por ejemplo, X12 y cos X2 son independientes. Para probarlo, usamos
on: sean A1 , A2 R cualesquiera; y sean Bi = {x : ui (x) Ai }, (i = 1, 2).
la definici
Entonces
P(Y1 A1 Y2 A2 ) = P(X1 B1 X2 B2 )
= P(X1 B1 ) P(X2 B2 ) = P(Y1 A1 ) P(Y2 A2 ).
M
as en general:
3.5 Ejercicios
Secci
on 3.1
3.2 Hallar la constante c tal que f (x) = c/(1 + x2 ) sea una densidad. Calcular la corres-
pondiente funcion de distribucion (distribuci
on de Cauchy).
a. Sea Z la longitud de aquel de los intervalos (0, U ) o (U, 1) que contenga al punto
0.2. Calcular D(Z).
b. Supongamos que en cambio se arroja un dado, y se elige un intervalo o el otro
seg
un salga as o no. Hallar la distribuci
on de la longitud del intervalo elegido.
3.7 La longitud de los peces de una laguna (en cm.) tiene densidad f (x) = cx(20x)I(0 <
x < 20) siendo c una constante. Un bi ologo quiere estimar f y para ello captura
peces con una red, cuyas mallas dejan escapar los peces menores de 3 cm.. Hallar
la densidad que obtiene el biologo (esto se llama una distribuci on truncada por la
izquierda).
Secci
on 3.2
3.10 Se corta una varilla de mimbre en un punto al azar. Calcular la probabilidad de que
la longitud del lado mayor sea el doble de la del menor.
3.25 Una caja contiene n bolillas numeradas de 1 a n. Se extraen dos bolillas sin reposici
on.
Sean respectivamente X e Y los resultados de la primera y la segunda bolilla. Calcular
la distribuci
on conjunta y las marginales.
3.26 En el ejercicio 3.11, calcular la distribuci
on conjunta de los primeros dos dgitos.
Son independientes?.
3.27 En el esquema de Bernouilli, sea Tm el n
umero del intento correspondiente al m-esimo
exito.
a. Probar que si m < n, son Tm y Tn Tm independientes [recordar el Ejemplo
3.I].
b. Probar que si X es binomial negativa con par ametros m y p y X1 , . . . , Xm son
Ge(p) independientes, es D(X) = D( m i=1 Xi ).
Captulo 4
Para una analoga fsica, si los x son masas puntuales en la recta, cada una con peso p(x),
entonces
el punto EX es el centro de gravedad de esas masas.
Si x |x|p(x) o |x|f(x)dx divergen, se dice que EX no existe. Si X es acotada
inferiormente (o sea, P(X c) = 1 para alg un c) y no existe EX, entonces se dice que
EX = .
Sale directamente de la definici on que si X = c constante, es EX = c.
45
46
CAPTULO 4. VALOR MEDIO Y OTROS PARAMETROS
Como el indicador IA es una variable discreta que toma los valores 1 y 0 con probabi-
lidades P(A) y 1 P(A) respectivamente, se deduce de la definici
on que
E IA = P(A). (4.1)
Note que EX depende s olo de la distribucion de X, de modo que se puede tambien
hablar de media de una distribuci on.
La definici
on se extiende de manera obvia a mezclas de distribuciones continuas y
discretas (seccion 3.1.3). Se puede definir EX en general, sin separar los casos discreto y
continuo. Pero eso requerira el concepto de integral de Stieltjes, que no sera adecuado
para el nivel elemental de este curso.
Por que pedir no s olo que la serie o la integral que definen EX converjan, sino que
adem as lo hagan absolutamente?. Los motivos son b asicamente tecnicos: si no fuera
as, podran no valer las propiedades m as importantes de la media, tal como E(X + Y ) =
E X + E Y que se ver a luego. En el caso discreto, hay un motivo m as directo. Si una
serie converge, pero no absolutamente, el valor de la suma puede alterarse arbitrariamente
cambiando el orden de los terminos. Pero como la numeraci on de los x es arbitraria, el
valor de EX no debiera depender de en que orden se los numere.
Ya que no podemos dar una definici on unificada de EX, se puede al menos comprobar
que las definiciones para los casos discreto y continuo son coherentes entre s, en el sentido
de que la definicion para el segundo se puede obtener como caso lmite del primero (ejercicio
4.23). Pero la mejor justificaci on del concepto de valor medio se vera en el Captulo 7 al ver
la Ley de Grandes N umeros, donde se mostrar a la relaci
on entre EX y la media emprica.
A continuacion damos algunas propiedades importantes de la media. La mayora de las
demostraciones exigir an una irritante separaci on entre los casos continuo y discreto.
siempre que
|u(x)| p(x) < o |u(x)| f(x) dx < ,
x
respectivamente.
La probamos para X discreta. Los valores que toma Y ser an y = u(x) con x C. Si u
es inyectiva, la demostraci
on es trivial:
EY = yP(Y = y) = u(x)P(u(X) = u(x)) = u(x)P(X = x).
y x x
4.1. VALOR MEDIO 47
Si u es una funci
on cualquiera, sea para cada y en la imagen
de u, el conjunto Ay =
{x C : u(x) = y}. Entonces, como los Ay son disjuntos y y Ay = C, resulta
EY = yP(Y = y) = u(x) P(X = x) = u(x)P(X = x) = u(x)p(x).
y y xAy y xAy x
La demostraci
on para el caso continuo excede el nivel de este libro.
En particular, si EX existe y c es una constante, es
E(cX) = c EX. (4.4)
Lo mismo vale para funciones de dos o m as variables. Sea u una funcion de R2 R.
Entonces
Eu(X, Y ) = u(x, y) p(x, y) (caso discreto) (4.5)
x y
= u(x, y)f (x, y)dxdy (caso continuo), (4.6)
si
|u(x, y)|p(x, y) < o |u(x, y)|f (x, y)dxdy < ,
respectivamente.
La demostracion para el caso discreto es exactamente igual que la de la propiedad (4.3)
para una sola variable: que el problema sea uni- o bidimensional no desempe na ning
un
papel. Para el caso continuo, la demostracion no es elemental.
Pero la integral interior del primer termino es fX (x), y la otra es fY (y) (Proposici
on 3.8),
por lo cual queda
E(X + Y ) = xfX (x) dx + yfY (y) dy = E X + E Y.
48
CAPTULO 4. VALOR MEDIO Y OTROS PARAMETROS
La demostraci
on para el caso discreto es an
aloga, con sumas en vez de integrales.
Combinando este resultado con (4.4) resulta
E(a X + b Y ) = a E X + b E Y. (4.8)
E(XY ) = EX E Y . (4.9)
X Y = EX E Y. (4.10)
Desigualdad de Markov
Si X 0 y c > 0 es una constante, es
EX
P(X c) . (4.11)
c
Para probarla, llamemos A al evento (X c). Por (4.1), es P(A) = E IA . Notemos que
en A es X/c 1, y que por lo tanto:
X X
IA IA .
c c
Por (4.10) es entonces P(A) EX/c, como querase probar.
USUALES
4.2. MEDIA DE LAS DISTRIBUCIONES MAS 49
X 0, EX = 0 = P(X = 0) = 1. (4.12)
En efecto, si EX = 0, sale de (4.11) que para todo x > 0 es P(X x) = 0; y por lo tanto,
FX (x) = 1 y ademas FX (x) = 0. En consecuencia, (d) de la Prop. 3.3 implica
Binomial
Se mostrar
a que
X Bi(n, p) = EX = np. (4.13)
Sera ilustrativo hacerlo por dos metodos distintos. Primero, directamente por la definici
on:
n
n
(n 1)!
EX = kb(k, n, p) = pn pk1 (1 p)(n1)(k1)
k=0 k=1
(k 1)![(n 1) (k 1)]!
n
n1
= pn b(k 1, n 1, p) = pn b(k, n 1, p) = pn,
k=1 k=0
Exponencial
Si X Ex(), es
EX = (x/)ex/ dx = ; (4.14)
0
Normal
Mostraremos que
X N(, 2 ) = EX = , (4.15)
y por lo tanto el primer parametro de la normal es la media de la distribuci on.
Lo probamos primero para = 0 y = 1. La verificaci on de la existencia de la media
queda a cargo del lector (ejercicio 4.1). Para calcularla, basta recordar que X es simetrica
respecto de 0, o sea D(X) = D(X); y por lo tanto EX = EX, que implica EX = 0.
Para el caso general, basta tener en cuenta que por (3.18), X = Y + con Y N(0, 1).
La media de una distribuci on simetrica no siempre existe; ver ejercicio 4.2.
Poisson
Si X Po(), es
k k1 k
EX = ke = e = e = e e = . (4.16)
k! (k 1)! k!
k=0 k=1 k=0
Geom
etrica
Si X Ge(p), es
EX = p k(1 p)k1 .
k=1
y recordemos que en las series de potencias se puede derivar termino a termino. Por lo
tanto
d((1/p) 1) 1
k(1 p)k1 = = 2,
k=1
dp p
y en consecuencia
1 1
EX = p = . (4.17)
p2 p
Observemos que (4.17) implica que EX es una funcion decreciente de p, lo cual es razonable
si se piensa en X como tiempo de espera (ver (2.15)): cuanto menor sea la probabilidad
del suceso que se espera, m
as tiempo habr
a que esperarlo.
TPICA
4.3. VARIANZA Y DESVIACION 51
Hipergeom
etrica
Si X Hi(N, M, n) ver (3.7) entonces
M
EX = n . (4.18)
N
El resultado es plausible, si se piensa en X como cantidad de bolillas blancas extradas
sin reemplazo (Ejemplo 1.C). Lo mismo que para la binomial, hay dos maneras de cal-
cular la media. La m as simple es expresar a X como
suma de indicadores, lo cual da
un procedimiento mucho m as corto. O sea: X = ni=1 IAi , donde Ai es el evento bo-
lilla blanca en la i-esima extraccion en un muestreo sin reemplazo de n bolillas. Como
E IAi = P(Ai ) = M/N (ejemplo 1.D), se deduce que EX = nM/N .
La otra forma es puramente algebraica, a partir de la definicion; y se la dejamos al
lector, si le interesa.
Notemos que la hipergeometrica tiene la misma media que la binomial Bi(n, p) con
p = M/N .
Transformaciones lineales
Para toda constante c
var(X + c) = var(X) (4.19)
y
var(cX) = c2 var(X). (4.20)
52
CAPTULO 4. VALOR MEDIO Y OTROS PARAMETROS
Varianza nula
Otra propiedad u
til es
var(X) = 0 P(X = c) = 1 para alguna constante c. (4.21)
Para probarlo, observemos que si P(X = c) = 1, es EX = c, y por lo tanto P(X EX) = 0.
Al reves: si 0 = var(X) = E(X EX)2 , por (4.12) es P(X EX = 0) = 1.
C
alculo explcito
Para obtener explcitamente var(X), notemos que desarrollando el cuadrado en la definici
on
queda
var(X) = E{X 2 2X(EX) + (EX)2 } = E(X 2 ) 2(EX)(EX) + (EX)2 ,
y en consecuencia
var(X) = E(X 2 ) (EX)2 . (4.22)
Desigualdad de Chebychev
Si c > 0, es
var(X)
P(|X EX| c) . (4.23)
c2
Se prueba aplicando (4.11) a la variable (X EX)2 :
E(X EX)2
P(|X EX| c) = P((X EX)2 c2 ) .
c2
Covarianza y correlaci
on
Un elemento importante para describir la distribuci
on conjunta de dos variables es la
covarianza, que se define como
cov(X, Y ) = E{(X EX)(Y E Y )}. (4.24)
En particular, var(X) = cov(X, X). Procediendo como en (4.22) se verifica f
acilmente que
cov(X, Y ) = E(XY ) EX E Y. (4.25)
De (4.9) es inmediato si X e Y son independientes, es cov(X, Y ) = 0. Pero la recproca
no es cierta (ejercicio 4.20). Si cov(X, Y ) = 0, se dice que X e Y son incorreladas o
incorrelacionadas.
TPICA
4.3. VARIANZA Y DESVIACION 53
La correlaci
on o coeficiente de correlaci
on de X, Y es
cov(X, Y )
= (X, Y ) = .
(X)(Y )
Es una medida de dependencia lineal entre las variables, cuyo papel se ver
a en la secci
on
6.2.
Dado que
X Y
0 var = 2 2,
(X) (Y )
se deduce que
1 1;
y por (4.21), = 1 cuando hay alguna combinaci on lineal de X, Y que es constante con
probabilidad 1.
Del mismo modo se obtiene la varianza de cualquier combinaci on lineal de variables:
n n n1 n
2
var ai Xi = ai var(Xi ) + 2 ai aj cov(Xi , Xj ). (4.27)
i=1 i=1 j=1 i=j+1
= 2
var(X) . (4.29)
n
Ejemplo 4.C: El metodo de Monte Carlo Supongamos que se desee calcular la
b
integral de una funci
on: H = a h(x) dx, siendo h una funci
on tan complicada que los
54
CAPTULO 4. VALOR MEDIO Y OTROS PARAMETROS
metodos analticos o numericos usuales no pueden con ella. El siguiente metodo, llamado
metodo de Monte Carlo, brinda una aproximaci on basada en la generaci
on de n umeros
pseudoaleatorios. Lo haremos para el caso a = 0, b = 1, al que se puede siempre reducir
el caso general.
Sean U1 , . . . , Un variables independientes, todas Un(0, 1). La aproximaci
on ser
a
n
1
Yn = h(Ui ). (4.30)
n
i=1
Dada una cota de error <, la desigualdad de Chebychev implica que tomando n lo
bastante grande, se puede hacer P(|Yn H| > <) tan peque na como se quiera. En el
ejercicio 7.11 se ver
a una forma mas eficiente de elegir el n.
Este metodo es realmente u
til en el c
alculo de integrales de funciones de varias variables,
cuando el integrando y/o el recinto de integraci on son complicados.
Binomial
Tal como se hizo para probar (4.13), expresamos a X Bi(n, p), como X = ni=1 Xi , donde
Xi = IAi , siendo los eventos Ai (i = 1, . . . , n) independientes, todos con probabilidad p.
La independencia de los eventos Ai implica la de las variables Xi , pues (por ejemplo) los
eventos {X3 = 1} y {X2 = 0} son independientes, ya que el primero es igual a A3 y el
segundo a A2 . Por lo tanto se deduce de (4.28) y (4.31) que
n
var(X) = var(Xi ) = np(1 p). (4.32)
i=1
USUALES
4.4. VARIANZAS DE LAS DISTRIBUCIONES MAS 55
Normal
Mostraremos que var(X) = 1 si X N(0, 1). Ya hemos visto en (4.15) que EX = 0, y por
lo tanto, usando (4.3):
2
var(X) = E X = x2 (x)dx.
Teniendo en cuenta que (x) = x(x), e integrando por partes, resulta
var(X) = x(x(x))dx = xd((x)) = [x(x)] + (x)dx = 0 + 1.
2
Si Y N(, ), es Y = + X con X N(0, 1) (ver (3.18)), y aplicando (4.19), (4.20) y
el resultado anterior, es
var(Y ) = 2 ,
y por lo tanto el segundo par
ametro de la normal es la varianza.
Poisson
Se mostrar
a que
X Po() = var(X) = . (4.33)
Para ello hay que calcular EX 2 , lo que se har
a con el mismo truco que se us
o para (4.17):
k
EX 2 = k2 e = e g(),
k!
k=1
donde
kk1 d k
g() = =
k=1
(k 1)! d k=1 (k 1)!
d
= (e ) = e (1 + );
d
y por lo tanto EX 2 = (1 + ), lo que combinado con (4.16) da el resultado.
Geom
etrica
Se probar
a que
1p
var(X) = . (4.34)
p2
Para ello se usar
a el mismo truco que en (4.17). Derivando dos veces la identidad
(1 p)k1 = p1 ,
k=1
56
CAPTULO 4. VALOR MEDIO Y OTROS PARAMETROS
Hipergeom
etrica
Se probar
a que
n1
X Hi(N, M, n) = var(X) = np(1 p) 1 , (4.35)
N 1
donde p = M/N . Igual que para la media, expresamos X = ni=1 Xi , con Xi = IAi , donde
los Ai son como en la deducci
on de (4.18). Como P(Ai ) = p, (4.31) implica var(Xi ) =
p(1 p). Procediendo como en el Ejemplo 2.B, resulta que si i = j es
M (M 1)
EXi Xj = P(Ai Aj ) = ,
N (N 1)
y por (4.25) es
p(1 p)
cov(Xi , Xj ) = .
N 1
Por lo tanto, aplicando (4.27) queda
p(1 p)
var(X) = np(1 p) n(n 1) ,
N 1
de donde se obtiene el resultado.
Notemos que esta varianza se anula cuando n = N , cosa l ogica, porque se muestrea
toda la poblaci on; y que la diferencia entre la varianza de Hi(N, M, n) y la de Bi(n, p)
olo en el factor 1 (n 1)/(N 1), que es pr
reside s oxima a 1 cuando n es mucho menor
que N . Esto implica el resultado sorprendente para muchos de que si por ejemplo
n = 100, tanto da que N sea 10000 o un mill on..
FX (x) = . (4.37)
Notemos que si FX es discontinua, (4.37) no tiene siempre soluci on; y por esto es mejor
tomar (4.36) como definici on. Si FX es estrictamente creciente, los cuantiles son u nicos.
Pero si no, los valores que satisfacen (4.37) forman un intervalo. Si se desea una definicion
unvoca del cuantil, se podra tomarlo como el punto medio del intervalo; pero por el
momento ser a m as conveniente conservar esa ambig uedad.
Los cuantiles correspondientes a = 0.25, 0.50 y 0.75 son respectivamente el primer,
segundo y tercer cuartiles. El segundo cuartil es la mediana, que escribiremos med(X).
Una propiedad muy importante de los cuantiles es que si Y = h(X), donde la funci on
h es creciente en la imagen de X, entonces y = h(x ); por ejemplo, si X 0, y m es una
mediana de X, entonces m2 es una mediana de X 2 (aqu se ve la conveniencia de haber
conservado la ambig uedad, porque si se define el cuantil como el punto medio del intervalo,
lo anterior no es v alido en general). Esta propiedad no es compartida por la media: por
ejemplo E(X 2 ) = (EX)2 .
acilmente que si X es simetrica respecto de 0, es x = x1 .
Se verifica f
4.5.2 Par
ametros de posici
on
Notemos primero que la media cumple, para toda constante c:
Todo par ametro de una variable que cumpla (4.38) se llama par ametro de posicion. La
media es sin duda el m as famoso y el m as usado de los par ametros de posici
on, y el
motivo, adem as de razones hist
oricas, es que es el u
nico de estos parametros que cumple
(4.7) (aditividad), lo que lo hace muy sencillo de manejar. Sin embargo, hay otras
posibilidades,
La mediana es un par ametro de posicion: es f
acil verificar que cumple (4.38) (si no es
u
nica, (4.38) se toma en el sentido de que, si m es una mediana de X, entonces m + c es
una mediana de X + c).
Como valor representativo, la mediana puede ser mucho mejor que la media. Supon-
gamos por ejemplo un pas donde el 50% de los habitantes ganan menos de 100 piastras,
el 40% ganan entre 100 y 200 piastras, y el 10% ganan m as de 10000. Entonces la media
del ingreso per capita es > 1000, pero la mediana es < 100. El motivo de esta diferencia
es que la media es muy sensible a valores extremos, cosa que no sucede con la mediana (en
la terminologa actual, la media no es robusta).
Una forma de buscar un valor representativo sera buscar c tal que X c fuera lo
mas pequeno posible. Esto se puede tomar en distintos sentidos. Si se busca
la soluci
on es c = E X como el lector puede f
acilmente verificar.
Si en cambio se busca
E|X c| = mnimo, (4.40)
la soluci
on es c = med(X). Lo mostraremos para el caso en que X toma un conjunto finito
de valores xi con probabilidades pi . Notemos que la funci on |x| es continua y tiene derivada
para x = 0, igual a la funci
on signo: d|x|/dx = sgn(x) = I(x > 0) I(x < 0). La funci on
a minimizar es h(c) = i pi |xi c|, que es continua, y por lo tanto para minimizarla basta
ver donde cambia de signo su derivada, la que existe salvo en los xi . Entonces
h (c) = pi [I(c > xi ) I(c < xi )] = P(X < c) P(X > c),
i
4.5.3 Par
ametros de dispersi
on
La desviaci
on tpica cumple para toda constante c
Por supuesto, una distribuci on con una densidad en forma de U, o una como la
del ejercicio 3.6, no puede ser bien descripta por ninguna combinaci
on de par
ametros de
posici
on y dispersion.
4.6. EJERCICIOS 59
4.5.4 Asimetra
Otro concepto u til para describir una distribuci
on es el de asimetra. Se desea medir cu anto
se aparta la forma de una distribuci on de la simetra. El m
as famoso es el cl
asico coeficiente
de asimetra de Pearson, definido a principios de siglo como
E(X EX)3
(X) = .
(X)3
acil ver que, si D(X) es simetrica, entonces = 0, aunque la recproca no es cierta; y
Es f
que (a + bX) = (X). Por otra parte, puede tomar cualquier valor entre y +.
No parece facil interpretar el significado de .
Una medida tal vez m as interpretable est a basada en cuantiles: la idea es que si la
distribuci nicos, debera ser x0.75 x0.50 = x0.50 x0.25 .
on fuera simetrica, y los cuantiles u
Para que resulte un par ametro adimensional se divide por la distancia intercuartiles, y
queda como definici on:
x0.75 2x0.50 + x0.25
asm(X) = . (4.42)
x0.75 x0.25
acil verificar que si D(X) es simetrica, es asm(X) = 0, pero la recproca no vale.
Es f
Adem as asm(X) [1, 1]. Si a(X) > 0, es x0.75 x0.50 > x0.50 x0.25 . Esta idea hace a
este par
ametro m as f
acilmente interpretrable.
4.5.5 Momentos
En general, se llama momento de orden k de X (o de D(X)) a EX k (si existe, natural-
mente), y momento centrado de orden k a E(X EX)k , de modo que la varianza es el
momento centrado de orden 2. El papel de los momentos en Estadstica se vera en el
Captulo 9.
4.6 Ejercicios
2
4.1 Probar la existencia de E|X|k para X N(0, 1) y k > 0 [pruebe que |x|k < ex /2
4.10 Calcular media y varianza de la posicion respecto del punto de partida del borracho
del ejercicio 2.12 despues de caminar n cuadras.
4.11 Calcular media y varianza de la binomial negativa, usando el ejercicio 3.27.
4.12 En una fiesta hay n matrimonios. Despues de una descomunal borrachera, cada
caballero se marcha con una dama elegida totalmente al azar. Calcular el valor
medio de la cantidad de se
nores que se despertar
an junto a su legtima esposa.
4.13 Se tienen 6 cajas, cada una con 10 pastillas; la caja i-esima tiene i pastillas de menta
y 10 i de ans. De cada caja se extrae una pastilla al azar. Sea X la cantidad de
psstillas de menta extradas. Calcular EX y var(X).
4.14 Una lista contiene n elementos, cuyas probabilidades de ser requeridos son p1 , . . . , pn .
Cuando se requiere uno, la lista es recorrida en un orden prefijado hasta que aparece
el buscado. Proponga un metodo de b usqueda que minimice la media de la cantidad
de elementos que deben ser consultados.
1
4.15 Se desea calcular la integral H = 0 x2 dx por el metodo de Monte Carlo (4.30).
a. Hallar un n que asegure que los tres primeros dgitos sean correctos, con proba-
bilidad > 0.999.
b. Si dispone de una computadora, vea lo que da el metodo. [contin
ua en el ejercicio
7.11].
4.16 Calcular media y varianza de la estatura de un individuo elegido al azar de la
poblaci
on del ejercicio 3.6.
4.6. EJERCICIOS 61
4.17 En el ejemplo 3.C, sea G la exponencial con media 1000 horas, y sea h = 1500 horas.
Calcular la media del tiempo hasta el reemplazo.
4.18 En la situaci
on del ejercicio 3.7, comparar la media real de las longitudes con la media
que obtiene el bi
ologo.
4.19 X e Y son independientes, ambas Un(1, 2). Calcular E(X/Y ) y comparar con
EX/E Y .
4.20 Sea Y = X 2 donde X es N(0, 1). Probar que X e Y son incorreladas pero no
independientes.
4.21 Calcular la covarianza de las variables del ejercicio 3.25.
4.22 Calcular mediana, distancia intercuartiles, desviaci
on absoluta, desviaci
on mediana
y asimetra (asm) de las distribuciones: (a) normal (b) exponencial (c) lognormal
(d) Weibull.
4.23 Sea X una variable con densidad f , y sea Xn igual a X truncada al n-esimo dgito.
Probar que EXn EX cuando n [tenga en cuenta que Xn es discreta y X
continua].
62
CAPTULO 4. VALOR MEDIO Y OTROS PARAMETROS
Captulo 5
Transformaciones de Variables
Aleatorias
Caso discreto:
Sean X e Y variables con valores enteros. Entonces (tomando x, y, z enteros)
{Z = z} = {X = x Y = z x}
x
63
64 CAPTULO 5. TRANSFORMACIONES DE VARIABLES ALEATORIAS
Caso continuo:
Para calcular D(Z) comenzamos por su funci
on de distribuci
on:
FZ (z) = P(Z z) = E I(X + Y z) (5.4)
zx
= fXY (x, y) I(x + y z) dxdy = fXY (x, y) dydx; (5.5)
Pero esta u
ltima integral es tambien una constante, de modo que h(y) es tambien de la
forma Gama.
5.1. SUMA DE VARIABLES 65
es una constante (no depende de z). Para ello, basta verificar que el polinomio dentro del
corchete en la exp es
2
z 2 2 x2 2 xz 1 z x
+ 2 = ,
2 2 2 2 2 2
donde c = |a| + |b|. O sea que D(aX + bY ) = D((|a| + |b|) X). Aplic
andolo a una suma de
independientes Cauchy, sale
D(X1 + . . . + Xn ) = D(nX1 ). (5.9)
Note la diferencia con el caso normal (5.8).
y derivando respecto de z:
0
fZ (z) = yf(zy, y) dy + (y)f(zy, y) dy = |y| f(zy, y) dy. (5.11)
0
La distribuci
on del producto se deduce con el mismo metodo.
5.3 Distribuci
on de transformaciones de variables
5.3.1 Un m
etodo general
Ahora trataremos una situaci on m as semejante a la de la secci on 3.2. Sean X1 y X2 dos
variables, g1 y g2 dos funciones de R2 R, e Y1 = g1 (X1 , X2 ), Y2 = g2 (X1 , X2 ). Se
quiere calcular D(Y1 , Y2 ) conociendo D(X1 , X2 ). Para simplificar la notaci on sean X =
(X1 , X2 ), Y = (Y1 , Y2 ), que podemos considerar como variables aleatorias con valores en
R2 ; y g(x1 , x2 ) = (g1 (x1 , x2 ), g2 (x1 , x2 )), funci
on de R2 R2 ; de manera que Y = g(X).
Hay un caso en el que existe un procedimiento general. Supongamos que X tiene
densidad conjunta fX , y que g es inyectiva y diferenciable en la imagen de X, de modo
que existe la inversa g1 . Para x = (x1 , x2 ) R2 , sea J(x) el jacobiano de g; o sea, el
determinante
g1 /x1 g1 /x2
g2 /x1 g2 /x2 .
Sea K(y) el jacobiano de g1 , que cumple K(y) = 1/J(g1 (y)). Se probar
a que la
densidad de Y es
fY (y) = fX (g1 (y)) |K(y)|. (5.12)
Notemos que esta f ormula es an
aloga a (3.16) para el caso univariado, con el jacobiano en
vez de la derivada.
Para demostrar (5.12), sea A R2 . Entonces por la propiedad (3.28) es
P(Y A) = P(g(X) A) = fX (x) IB (x) dx,
5.3.2 Aplicaci
on: normales en coordenadas polares
Sean X1 , X2 independientes, ambas N(0, 1). Sean (R, ) las coordenadas polares de
(X1 , X2 ) (con [0, 2)). Se probar
a que R y son independientes, que Un[0, 2),
y que R2 Ex(2).
Sea x = (x1 , x2 ) con coordenadas polares (r, ), o sea
r2 = x21 + x22 , = arctan(x2 /x1 ).
Como X1 y X2 son independientes, es
1 x21 /2 x22 /2 1 r 2 /2
fX (x) = fX1 (x1 )fX2 (x2 ) = e e = e .
2 2
Sea Y = (R, ) = g(X) donde X = (X1 , X2 ). Entonces la funci on inversa X = g1 (Y)
esta dada por: X1 = R cos , X2 = R sen , cuyo jacobiano es K(R, ) = R; y en
consecuencia
1 r2 /2
fY (r, ) = e r I(r 0) I( [0, 2)).
2
Por lo tanto fY (r, ) es producto de una funci on de r por una de , lo que implica que R
y son independientes; la densidad de es (2)1 I( [0, 2)), lo que implica que es
uniforme; y la densidad de R es
2
fR (r) = rer /2
I(r 0).
Aplicando (3.16) se deduce que si S = R2 :
fR (s1/2 ) 1
fS (s) = 1/2
= es/2 ,
2s 2
y por lo tanto R2 Ex(2).
Aplicaci
on a simulaci
on
El resultado (5.3.2) se puede usar para generar variables normales sin necesidad de calcular
la inversa de la funci on de distribuci
on. La idea es recorrer el camino inverso. Sean
U1 , U2 independientes, ambas Un(0, 1). Aplicamos a la primera una transformaci on para
convertirla en Un(0, 2), y a la segunda otra para convertirla en Ex(2), y eso da y R2 .
O sea, definimos = 2U1 y R = (2 ln U2 )1/2 , y luego X1 = R cos y X2 = R sen . Y
esto da dos variables independientes N(0, 1). Este es el metodo de Box-M uller [15].
5.4 La distribuci
on normal bivariada
En esta secci
on definiremos el an
alogo de la distribuci
on normal para dos variables. Primero
vamos a deducir la forma de la distribuci on conjunta de transformaciones lineales de nor-
males independientes. Sean X1 , X2 N(0, 1), independientes. Consideremos una tranfor-
macion lineal no singular:
Y1 = a1 X1 + a2 X2 , Y2 = b1 X1 + b2 X2 , (5.13)
NORMAL BIVARIADA
5.4. LA DISTRIBUCION 69
con
a1 b2 a2 b1 = 0. (5.14)
Sean 12 , 22 las varianzas de Y1 e Y2 , c su covarianza, y su correlaci
on. Entonces se deduce
de (5.13) que
g(x) = (a1 x1 + a2 x2 , b1 x1 + b2 x2 ).
1 2 2
g1 (Y)2 = ( y + 12 y22 2y1 y2 c).
J2 2 1
Definici
on 5.1 La distribucion normal bivariada centrada en el origen, con varianzas 12
2
y 2 y correlaci
on , es la que tiene densidad (5.16). La normal bivariada con dichos
par a dada por la densidad f (y1 1 , y2 2 ).
ametros y medias 1 , 2 est
La caracterizaci
on m
as importante de esta distribuci
on est
a dada por el siguiente
5.5 Ejercicios
Secci
on 5.1
5.1 X e Y son independientes, con distribuciones Bi(m, p) y Bi(n, p). Calcular la dis-
tribuci
on de X + Y [no hace falta ninguna cuenta!].
5.5 Probar que si X e Y son N(0, 1) independientes, entonces X/Y tiene distribuci
on de
Cauchy.
ax{X1 , ..., Xn }.
5.8 Las variables Xi (i = 1, . . . , n) son Un(0, 1) independientes. Sea Y = m
Calcular E Y .
5.9 Un circuito contiene 10 transistores, cuyos tiempos de duraci on (en horas) pueden
considerarse como variables independientes, todas con distribuci
on We(1000, 2). Para
que el circuito funcione hacen falta todos los transistores. Hallar la mediana de la
vida u
til del circuito.
5.5. EJERCICIOS 71
Distribuciones Condicionales y
Predicci
on
Caso discreto
Si D(X) es discreta, sea C = {x : P(X = x) > 0}. Para cada x C la funci on de
y: P(Y y|X = x) es una funci on de distribuci on, que define la llamada distribuci
on
condicional de Y dado X = x, la que se denota D(Y |X = x). Note que para esta definici on
solo hace falta que X sea discreta: la Y puede ser cualquiera.
Si ademas la conjunta D(X, Y ) es discreta, la distribuci
on condicional est
a dada por la
funcion de frecuencia condicional pY |X :
pXY (x, y)
pY |X (y; x) = P(Y = y|X = x) = . (6.1)
pX (x)
73
74
CAPTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCION
Por lo tanto
1
P(S = s|T = t) = I(0 s t 1);
t1
de modo que D(S|T = t) es uniforme entre 0 y t 1. Intuitivamente: saber que el segundo
exito ocurri
o en el t-esimo intento, no da ninguna informacion sobre cu
ando ocurrio el
primero.
Caso continuo
Si X es continua, no se puede repetir exactamente el mismo camino que para el caso
discreto, ya que P(X = x) = 0 para todo x. Supongamos que D(X, Y ) es continua, y sea
C = {x : fX (x) > 0}. Para todo x C se define la densidad condicional de Y dado X = x
como
f (x, y)
fY |X (y; x) = XY . (6.2)
fX (x)
Para cada x C esta es una densidad (como funci on de y) ya que fY |X (y|x)dy = 1 y
f 0; y define entonces una distribucion (la distribuci on condicional de Y dado X = x).
La correspondiente funci
on de distribuci on es la funcion de distribuci
on condicional:
y
FY |X (y; x) = fY |X (t; x)dt.
y
y y
1
du fXY (u, v)dv fXY (x, v) dv.
2 J
Por lo tanto
P(Y y|X J) FY |X (y; x).
Ejemplo 6.B: Normal Si D(X, Y ) es normal bivariada, veremos que D(Y |X) es
normal. M
as exactamente,
(x X )c 2 2
D(Y |X = x) = N Y + 2 , Y (1 ) , (6.3)
X
2
donde X y Y son las medias, X y Y2 las varianzas, y c la covarianza de X e Y . Lo
probaremos para el caso X = Y = 0; de este sale f acilmente el caso general.
Por (6.2) y (5.16) es
fXY (x, y) 1 1
fY |X (y; x) = = exp q(x, y) ,
fX (x) 2(1 2 )Y 2
donde
1 x2 y2 xy x2
q(x, y) = 2 + 2 2 .
1 2 X Y2 X Y X
Y con un poco de paciencia, se verifica que
2
1 Y
q(x, y) = y x .
Y2 (1 2 ) X
y fXY (x, y) dy
E(Y |X = x) = yfY |X (y; x)dy = ; (6.5)
fX (x)
y tiene para cada x C las propiedades de la media dadas en la secci
on 4.1.
La varianza correspondiente a D(Y |X = x) es la varianza condicional, que se indicar
a
con var(Y |X = x). An alogamente, la corespondiente mediana es la mediana condicional,
que se escribe med(Y |X = x).
Para la normal bivariada, sale de (6.3) que
(x X )c
E(Y |X = x) = Y + 2
X
76
CAPTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCION
y
var(Y |X = x) = Y2 (1 2 ).
En algunos textos se usa la expresion variable condicional, que es incorrecta, ya que la
variable es la misma, y solo cambia la manera de definir las probabilidades correspondientes
a su distribucion.
Si g(x) = E(Y |X = x), la variable g(X) se denotar a E(Y |X); de manera que la media
condicional se puede considerar ya sea como una funci on numerica o como una variable
aleatoria, segun el caso. Lo mismo sucede con la varianza condicional:
A partir de D(Y |X) y de D(X) se puede calcular D(Y ). Usando (6.1) o (6.2) para los
casos discreto y continuo, se obtiene
pY (y) = pY |X (y; x) pX (x), (6.7)
x
o
fY (y) = fY |X (y; x) fX (x) dx, (6.8)
respectivamente.
Ejemplo 6.C: Accidentes Se supone que la cantidad de accidentes de auto en un mes
es una variable Po(), que la probabilidad de que un accidente resulte fatal es p, y que las
consecuencias de accidentes distintos son independientes; de modo que si X e Y son las
cantidades de accidentes en general y de accidentes fatales, es D(Y |X = x) = Bi(x, p), o
sea P(Y = y|X = x) = (xy )py (1 p)xy para y x. Calcularemos D(Y ) usando (6.7):
x x y
((1 p))xy
y xy (p)
P(Y = y) = y p (1 p) e = e .
x! y! xy (x y)!
xy
((1 p))xy
((1 p))k
= = e(1p) ;
(x y)! k!
xy k=0
y por lo tanto
(p)y
P(Y = y) = ep ,
y!
o sea que Y Po(p), resultado bastante razonable, si se piensa en y p como medias del
total de accidentes y de fatalidades por accidente.
Tambien la media y varianza de Y se pueden calcular a partir de las condicionales:
6.1. DISTRIBUCIONES CONDICIONALES 77
Proposici
on 6.1
E{E(Y |X)} = E Y, (6.9)
y
var(Y ) = E{var(Y |X)} + var{E(Y |X)}. (6.10)
Esta u
ltima f
ormula se puede interpretar como una descomposici on de la variabilidad
de Y como: la variabilidad de Y alrededor de su media condicional, m as la variabilidad de
esta u
ltima.
Demostraci on: Probamos (6.9) en el caso discreto. Teniendo en cuenta que E(Y |X)
es una funcion de X, y usando (6.4) y (6.7) se tiene
E{E(Y |X)} = E(Y |X = x) pX (x) = y pY |X (y; x)pX (x) = y pY (y).
x y x y
6.2 Predicci
on
Volvemos al problema inicial: conociendo la temperatura media de hoy, hacer una predicci on
de la de manana. Formalmente: se busca aproximar a Y con una funci on de X. O sea, se
busca una funcion g : R R tal que Y g(X) sea lo m as pequena posible. Este problema
se denomina en general prediccion. Pero eso no implica un orden cronol ogico entre las
variables. Por ejemplo: si tengo una serie de observaciones en la que faltan valores, puede
interesarme predecir (rellenar) los valores faltantes en funci
on de otros posteriores.
Una forma de plantear el problema es minimizar alguna medida del error. El criterio
mas usual es el error medio cuadr
atico (e.m.c.):
Se buscar
a entonces g tal que e(g) sea mnimo.
El e.m.c. no es el u
nico criterio posible. Por ejemplo se podra tomar como medida
de error E|Y g(X))| (error absoluto), o med(|Y g(X)|) (error mediano). Pero el
e.m.c. permite, como se vera, resultados calculables explcitamente, y esto es la base de su
popularidad.
6.2.1 Predicci
on lineal
Para comenzar con un caso mas sencillo, trataremos el problema en que g se restringe a la
forma g(x) = a + bx. Entonces
y por lo tanto ambas rectas pasan por (X , Y ), pero no coinciden, salvo que = 1.
6.2.2 Predicci
on general
Ahora buscamos minimizar el e.m.c. sin restricciones sobre g. Convendra tener en cuenta
que si C es un conjunto tal que P(X C) = 1, basta con definir la g en C (por ejemplo,
si X 0, basta con definir g en R+ ).
Ahora damos la solucion del problema general.
80
CAPTULO 6. DISTRIBUCIONES CONDICIONALES Y PREDICCION
De modo que hijos de hombres m as altos que la media, son en promedio mas bajos que
sus padres; y los hijos de petisos son en promedio m as altos que sus padres. Esto se podra
interpretar como una tendencia de la poblaci on a emparejarse (de aqu la expresi on
regresi
on: se regresara hacia la media). Sin embargo, esto se obtuvo suponiendo
justamente que las dos generaciones tienen la misma distribuci on!. En consecuencia este
fenomeno no dice nada sobre la evoluci on de la poblacion, sino que es una simple conse-
cuencia de que < 1. Esta aparente paradoja se llama la falacia de la regresi on.
Otro ejemplo: sean X e Y los puntajes de un alumno en dos ex amenes suucesivos.. Si
D(X, Y ) es aproximadamente normal bivariada, la funci on de regresi
on lineal h(x) dar
a la
media de los puntajes en el segundo examen, correspondientes a los alumnos con puntaje
x en el primero. Si tienen correlacion positiva, siempre suceder a que
h(x) Y x X
x > X = < .
Y X
Es comun comparar los resultados de dos ex amenes normaliz andolos, o sea, restando en
cada uno la media y dividiendo por la desviaci on. Si se hace esto, se podra sacar la falsa
conclusi
on de que el desempeno relativo de los alumnos con mejores resultados en el primer
examen, empeor o en el segundo, y viceversa.
6.3. EJERCICIOS 81
6.3 Ejercicios
6.1 Mostrar que si Z Un(1, 5), la distribuci
on de Z condicional en el evento 2 Z 3
es Un(2, 3).
olo si D(Y |X) = D(Y ).
6.2 Probar: X e Y son independientes si y s
6.3 La distribuci
on conjunta de X e Y est
a dada por las siguientes probabilidades
X
Y 2 3 5
1 0.0 0.1 0.1
2 0.1 0.1 0.2
4 0.2 0.0 0.2
Captulo 7
Teoremas Lmites
En este captulo veremos dos resultados muy importantes sobre el comportamiento del
promedio (o de la suma) de un gran n umero de variables independientes,
Definici
on 7.1 La sucesi
on de variables Zn tiende a la variable Z en probabilidad (abre-
p
viado Zn Z) si para todo < > 0 se cumple
83
84 CAPTULO 7. TEOREMAS LMITES
Teorema 7.2 (Ley d ebil de grandes numeros) Si las Xi son independientes, todas
con media y varianza 2 < , entonces X
p
.
Demostraci
on: Usando la desigualdad de Chebychev y (4.29) se obtiene
n | > <) 2
P(|X ,
n<2
que tiende a 0 para n .
La existencia de la varianza no es necesaria para la validez del resultado, sino s olo
para simplificar la demostracion. En cambio la existencia de EXi es imprescindible, lo que
puede verse en el caso en que las Xi tienen distribucion de Cauchy, para la que la media
no existe (ejercicio 4.2). Se deduce de (5.9) que D(X n ) = D(X1 ); y por lo tanto, X
n no
puede tender a una constante.
Un resultado mucho m as profundo, debido a Kolmogorov, es el que sigue:
Teorema 7.3 (Ley Fuerte de Grandes N
umeros) Si existe = EXi , entonces
n ) = 1.
lmn P(X
Es decir, que el conjunto de sucesiones para las que X n no tiende a tiene probabilidad
0. La demostracion se puede encontrar en [7, Vol. II].
La Ley de Grandes N umeros es importante en relaci on con el concepto de probabilidad.
En el primer ejemplo con el dado, dicha Ley implica que (de manera informal)
Al comienzo del curso se vio que el concepto intuitivo de probabilidad era el de lmite de
frecuencias relativas, pero que no era posible tomar eso como una definici
on. Pero lo que
ahora vemos es que tomando como definici on la de los axiomas de Kolmogorov, resulta que
se puede demostrar (7.1) (en vez de tomarlo como definici on).
La Ley de Grandes N
umeros y el uso del valor medio
. . . y que al regresar, parece decir:
acordate hermano, vos sabes,
no hay que jugar.
Por una cabeza, de C. Gardel y A. Le Pera
En un juego de azar con banca, la ganancia neta del jugador en cada jugada (lo que
recibe de la banca menos lo que apost o) es una variable aleatoria, que llamaremos X.
Segun una terminologa tradicional, el juego es equitativo, favorable o desfavorable seg
un
que EX sea respectivamente igual, mayor o menor que 0. En un juego en el qne el jugador
realiza una apuesta a, y con probabilidad p gana, recibiendo de la banca una suma s, y con
probabilidad 1 p pierde su apuesta, es EX = ps a. Por ejemplo, en la ruleta apostando
7.2. TEOREMA CENTRAL DEL LMITE 85
a pleno, es p = 1/37, y para a = 1 es s = 36, y por lo tanto EX = 1/37, o sea que el juego
es desfavorable. La Ley de Grandes N umeros implica que en un n umero suficientemente
grande de jugadas de un juego desfavorable, la ganancia neta del apostador es negativa, y
por lo tanto la de la banca es positiva. Lo inverso ocurrira con un juego favorable. Como
la banca se enfrenta a numerosos jugadores que adem as suelen jugar repetidamente
esta en una situacion en la que rige la Ley de Grandes N umeros, y por lo tanto que el juego
sea desfavorable le garantiza a la banca su rentabilidad a largo plazo.
Imaginemos ahora un juego de azar basado en una ruleta numerada, no del 0 al 36
como las habituales, sino del 1 al mill on. El jugador apuesta un d olar a un n
umero; si
pierde, pierde su d olar; si acierta, recibe dos millones. De acuerdo con la terminologa
anterior, el juego sera favorable, pues EX = 106 2 106 1 = U.S.$ 1. De modo
que en una serie suficientemente larga de repeticiones, el jugador tiene una ganancia
garantizada. Sin embargo, observemos que en cada jugada la probabilidad de ganar es s olo
un millonesimo, de manera que si por ejemplo el jugador tiene un capital inicial de 10000
dolares y los juega de a uno, la probabilidad de que los pierda antes de llegar a ganar alguna
vez es > (1 106 )10000 = 0.99. A un con un capital de medio mill on, la probabilidad de
que se vuelva a su casa a dedo es 0.90. Estos jugadores fundidos estaran poco dispuestos a
llamar al juego favorable. Al mismo tiempo, si hay un gran n umero de jugadores, la Ley
de Grandes N umeros implica que la banca tambien se funde!. Quien gana entonces en
este juego?. Unos poqusimos jugadores que obtienen ganancias fabulosas. Estas grandes
ganancias de algunos, difcilmente consuelen a la mayora de perdidosos.
Los conceptos expuestos en este ejemplo imaginario tienen aplicaciones m as concretas.
Supongamos que se quiere dise nar una planta hidroelectrica para operar en un ro cuyos
caudales anuales tienen una distribuci on muy asimetrica, tal que la media de los caudales
sea muy superior a la mediana. Si se dise nan las turbinas como para aprovechar el caudal
medio, la planta estar a la mayora de los a
nos operando muy por debajo de su capacidad,
y en unos pocos a nos tendr a muchsima agua, cosa que no compensara a los anteriores
perodos de escasez.
De todo esto se concluye que el concepto de valor medio es u til en situaciones en las
que tiene sentido que los valores grandes compensen a los peque nos; pero si no, hay que
recurrir a otras ideas. El planteo matem atico relevante para el ejemplo de los juegos de
azar es el llamado problema de la ruina del jugador. Ideas m as elaboradas se aplican en
el dise
no de represas y el c alculo de primas de seguros.
implica que D(Sn ) = Bi(n, p) N(np, np(1 p)) para ngrande, o sea que si F es la
funci on de Bi(n, p) es F (x) {(x np)/ np(1 p)}. Esta aproximaci
on de distribuci on
puede mejorarse utilizando la llamada correccion por continuidad [7, Vol. 1] que consiste
en agregarle 0.5 a x, o sea
x + 0.5 np
F (x) . (7.2)
np(1 p)
7.3.2 Aproximaci
on normal a la Poisson
on Po() puede ser aproximada por la normal para grande. Sea X Po().
La distribuci
Recordemos que X tiene media y varianza iguales a . Entonces se cumple:
X
lm D = N(0, 1). (7.3)
Lo probamos primero cuando toma s olo valores enteros. Sean Y1 , Y2 , . . . Po(1) inde-
pendientes. Entonces, del ejercicio 5.3 se obtiene
D(X ) = D Yi .
i=1
Las Yi tienen media y varianza iguales a 1. Aplicando el Teorema Central, se verifica (7.3)
cuando recorre los enteros.
Si bien parece obvio que el resultado vale en general, los detalles de la demostraci on
para cualquiera requieren alg
un cuidado; el lector los puede hallar al final de la Secci
on
7.4.
t1 < t2 < . . . < tn = (Xt2 Xt1 ), . . . , (Xtn Xtn1 ) son independientes. (7.4)
88 CAPTULO 7. TEOREMAS LMITES
7.3.4 Tama
nos de piedras
Los fragmentos de rocas tienen distintos tama nos, y es u
til en Mineraloga representar esta
variedad mediante una distribucion. Un modelo sencillo permite postular la lognormal
para estos casos. Consideremos una roca de masa M . En el primer paso, es partida al
azar en dos trozos, con masas respectivamente M U1 y M (1 U1 ), donde U1 (0, 1) es una
variable aleatoria con distribuci
on F . Como la numeraci on de los dos trozos es arbitraria,
se puede suponer que D(U1 ) = D(1 U1 ). En el segundo paso, cada uno de estos dos
trozos es dividido a su vez en dos por el mismo proceso, y as sucesivamente. En el n-esimo
paso, quedan 2n trozos, con masas de la forma M W1 W2 . . . Wn , donde las Wi tienen todas
distribucion F (la W1 puede ser U1 o 1 U1 , etc.). Si se llama X a la masa de cualquier
partcula, es log X = log M + ni=1 Zi donde Zi = log Wi . Si se supone que las Wi
y por lo tanto las Zi son independientes, y que existe EZi2 , y dado que las Zi tienen
todas la misma distribuci on, para n grande el Teorema Central implica que D(log X) es
aproximadamente normal, y por lo tanto, que D(X) es aproximadamente lognormal (la
justificaci
on del por lo tanto se ver
a en la Proposici
on 7.7). Si bien nada garantiza que
las suposiciones del modelo se cumplan, el hecho es que la lognormal resulta en la pr actica
una buena aproximaci on para muchas distribuciones empricas de tama nos de trozos de
minerales.
Demostraci
on: Por hip
otesis, lm FZn (z) = 0
o 1 seg
un sea z < c
o > c. Por lo tanto
d p
on 7.11 (Lema de Slutsky) Si Xn X e Yn c donde c es una constante,
Proposici
entonces
d
a. Xn + Yn X + c
d
b. Xn Yn cX.
d p d
Por ejemplo, si Xn N(0, 1) e Yn 2, entonces Xn + Yn N(2, 1).
Demostraci on: Para (a) se aplica la Proposici
on 7.8 con Un = Xn + Yn y Vn = Xn +c.
p
Para (b) se toman Un = Xn Yn y Vn = Xn c. Aqu hay que verificar que Un Vn 0.
Para esto, dados < > 0 y > 0, sea K tal que P(|X| > K) < <. Entonces existe n1
tal que n > n1 implica P(|Xn | > K) < . Asimismo, existe n2 tal que n > n2 implica
P(|Yn c| > </K) < . Y como
P(|Un Vn | > ) = P(|Xn ||Yn c| > ) P(|Xn | > K) + P(|Yn c| > /K),
Por el Lema de Slutsky, el primer termino del segundo miembro tiende en distribuci
on a
bZ, y el segundo a 0.
En particular,
n(Zn a) N(0, 1) = n(g(Zn ) g(a)) N(0, b2 ),
d d
o sea,
g (a)2
D(g(Zn )) N g(a), . (7.7)
n
Ejemplo 7.A: Otra aproximaci on para la Poisson Se mostrar a que si X Po(),
d
entonces X . Tomando en la Proposici
N(0, 1/4) cuando on 7.12:
Z = X /, a = 1, c = y g(x) = x, se obtiene b = 1/2; y teniendo en cuenta (7.3)
se completa la demostraci on.
N
otese que con esta transformaci on la varianza no depende del par
ametro . Una
situaci
on similar se tiene en el ejercicio 7.12.
7.5. EJERCICIOS 91
7.4.3 *Demostraci
on de la aproximaci
on normal a la Poisson
Completamos aqu la demostraci on general de (7.3). Sea cualquiera, n = [] su parte
entera, y = n su parte fraccionaria. Sean Xn y X independientes con distribuciones
de Poisson con parametros n y . Entonces X = Xn + X Po(). Por lo tanto
X Xn n n X
= + . (7.8)
n
Como E(X )2 = [0, 1), el u
ltimo te
rmino tiende a 0 en probabilidad por la desigual-
dad de Markov (ejercicio 7.13). Adem as n/ 1, y ya se vio que D((Xn n)/ n))
N(0, 1). Por lo tanto el Lema de Slutsky implica que (7.3) tiende a N(0, 1).
7.5 Ejercicios
7.1 Sea Xt la cantidad de sucesos hasta el instante t en un proceso de Poisson con
p
intensidad c. Probar que Xt /t c cuando t .
7.2 Probar el Teorema 7.6 para el caso en que la derivada g es continua y acotada
[Sugerencia: usar el Teorema del Valor Medio].
7.3 Se arroja n veces un dado equilibrado. Sea Z la suma de todos los puntos obtenidos.
a. Calcular aproximadamente P(680 Z 720) para n = 200.
b. Hallar aproximadammte el menor n tal que P(|Z/n 3.5| 0.1) 0.9.
7.4 La variable Yn toma los valores 0 y n2 , con probabilidades 1 1/n y 1/n respectiva-
mente. Es cierto que E(lmn Yn ) = lmn (E Yn )?.
7.5 La duraci on de cada l
ampara de un lote de N l amparas es exponencial con media
= 1000 horas. Las duraciones de distintas l amparas son independientes. En una
instalaci
on, cada vez que una l
ampara se quema, es inmediatamente reemplazada
por otra nueva. Sea T la duraci
on total del lote (o sea, el tiempo hasta quemarse la
u
ltima l
ampara). Calcular aproximadamente
a. P(T > 115000 horas) para N = 100
b. el menor N que asegure P(T > 500000) > 0.95
c. el mayor t tal que P(T > t) 0.95 si N = 100.
7.6 Se arroja 600 veces un dado equilibrado. Calcular la probabilidad de que la pro-
porci
on de ases este entre 1/6 y 1/5.
7.7 En una ciudad, la proporcion de consumidores de una marca de gaseosas es p. Se
toma una muestra al azar de tama no n (la ciudad es lo bastante grande como para
que se puedan considerar equivalentes al muestreo con o sin reemplazo). Sea R la
proporci
on de consumidores en la muestra.
92 CAPTULO 7. TEOREMAS LMITES
Parte II
ESTADISTICA
93
Captulo 8
Descripci
on de una Muestra
8.1 Res
umenes
En Probabilidad hemos considerado hasta ahora el comportamiento de observaciones que
cumplen un modelo dado. En Estadstica, en cambio, disponemos de conjuntos de observa-
ciones (muestras) correspondientes a un experimento considerado aleatorio, y debemos
extraer de ellas conclusiones sobre los modelos que podran cumplir.
La distribucion muestral (o emprica) correspondiente a una muestra x1 , . . . , xn , es
la distribuci
on discreta concentrada en los puntos xi (i = 1, . . . , n), dando a cada uno
probabilidad 1/n. La correspondiente funci on de distribuci
on emprica es
n
1 1
F (t) = card{i : xi t} = I(xi t), (8.1)
n n i=1
95
96 DE UNA MUESTRA
CAPTULO 8. DESCRIPCION
Esta formula es m as f
acil que la anterior si s
olo se dispone de calculadora; pero puede ser
numericamente poco confiable, a un con una computadora, como puede comprobarse en el
ejercicio 8.2, que adem as muestra una forma de evitar ese peligro.
Ejemplo 8.A: Duraci on de pilas Los siguientes datos son las duraciones (en horas)
de una muestra de pilas electricas [16].
El lector puede verificar que la media y varianza muestrales son respectivamente 237 y 121.
La media y varianza muestrales tienen la propiedad de que si se las conoce para dos
muestras, tambien se las puede conocer para su uni
on (ejercicio 8.3). Pese a estas ventajas,
estos dos par
ametros pueden ser enganosos si se buscan valores representativos, como se
vio en el ejemplo de pag. 57.
21 8 1 1 21 8
22 0 5 8 4 3 22 0 5 8
23 7 2 0 4 2 10 6 23 0 2 2 4 7
24 2 2 8 4 3 6 0 16 6 24 0 2 2 3 4 6 8
25 4 17 1 25 4
26 2 18 1 26 2
En cada fila se ordenan las hojas. El lado derecho de la tabla muestra el resultado
final. La segunda columna indica la cantidad de hojas de cada tallo, y la primera da la
suma acumulada. Ahora es f acil hallar cualquier x(i) gui
andose por la primera columna.
8.1. RESUMENES 97
uno de los cuatro segmentos que se forman contiene aproximadamente la cuarta parte de
las observaciones; la caja contiene aproximadamente la mitad. El diagrama da entonces
una visi
on r
apida de c omo est
an distribuidas las observaciones, y en particular una idea
del grado de asimetra. Tambien es u
til para comparar dos o mas muestras.
Ejemplo 8.B: Calor de fusi on del hielo Dos metodos, A y B, fueron utilizados para
determinar la cantidad de calor necesaria para llevar el hielo de 72 o C a 0 o C (en caloras
por gramo de masa) [14]. Para simplificar, se ha restado 79 de todos los valores.
De aqu se obtienen los diagrama de caja de las muestras de la Figura 8.1, en los que
se puede apreciar que difieren en posici
on, dispersi
on y asimetra.
Datos agrupados
En algunos casos especialmente cuando n es muy grande no se dispone de la muestra,
sino de los valores agrupados. Es decir, para m intervalos de extremos a0 < . . . < am se
conocen las frecuencias fj = card{xi [aj1 , aj )}.
Si se quiere calcular x y vx con datos agrupados, no se dispone de toda la infor-
macion necesaria. Una buena aproximaci on se obtiene suponiendo que los datos estan
uniformemente distribuidos en cada intervalo. Sean pj = fj /n las frecuencias relativas,
8.2. LA FORMA DE LA DISTRIBUCION 99
j = (aj1 + aj )/2 los puntos medios, y Lj = aj aj1 las longitudes de los intervalos.
x
Entonces se tiene la aproximaci
on
m
m
m
1
x pj x
j , vx pj ( )2 +
xj x pj L2j . (8.7)
j=1 j=1
12 j=1
Es decir, la media se calcula como si todas las observaciones estuvieran en los puntos
medios de los intervalos; y la varianza tambien, m as el u
ltimo termino que tiene en cuenta
las longitudes de los mismos, y que se suele llamar correccion de Shepard. Para la deducci
on,
ver el ejercicio 8.10
Si los datos estan agrupados, solo se pueden estimar algunos cuantiles. Sean qj =
j
F (aj ) = k=1 pk ; entonces se puede estimar xqj = aj . Los cuantiles intermedios se
aproximan interpolando.
8.2.1 Histograma
Un histograma de una muestra se obtiene eligiendo una partici on en m intervalos de
extremos a0 < . . . < am , con longitudes Lj = aj aj1 ; calculando las frecuencias
fj = card{xi [aj1 , aj )} (o las frecuencias relativas pj = fj /n), y graficando la funci on
igual a fj /Lj (o pj /Lj ) en el intervalo [aj1 , aj ) y a 0 fuera de los intervalos. O sea, un
conjunto de rect angulos con
area fj (o pj ). Esto es una versi
on discreta de la densidad, en
la que areas miden frecuencias.
Por ejemplo, si para los datos del Ejemplo 8.A elegimos los intervalos de extremos 210,
230,240, 250 y 270, obtenemos el histograma de la Figura 8.2 (los extremos fueron elegidos
as s
olo como ilustraci on).
Si los datos vienen agrupados, los intervalos estan ya determinados. Pero si no, lamentable-
mente no hay reglas simples para elegir su n umero y sus extremos. Si son muy angostos,
hay m as detalle en la representaci
on, pero m as variabilidad, y viceversa. Salvo que n sea
muy grande, se recomienda probar distintas variantes para distinguir lo real de lo ilusorio.
Si el lector mira el diagrama de tallo y hoja de Tabla 8.1 girando el libro 90o , notar a
que obtuvo gratis un histograma!. De modo que aqu tenemos otro uso de dicho diagrama
(que s olo es v
alido si las hojas est
an igualmente espaciadas).
aplicar, como se ver a en los captulos siguientes; y entonces se quiere ver en que medida los
datos parecen estar de acuerdo con las suposiciones. Otro motivo puede ser simplemente
el disponer de una manera m as sencilla de describir una distribuci on muestral, diciendo,
por ejemplo es aproximadamente normal, salvo que un poco asimetrica.
Sea G la distribuci on dada. El diagrama de cuantiles consiste en graficar los cuantiles
muestrales con los correspondientes de G, o sea, x contra G1 () para (0, 1). Como
por (8.5) es F (x(k) ) = k donde
2k 1
k = , (8.8)
2n
el diagrama se hace graficando x(k) en la ordenada contra G1 (k ) en la abscisa, para
k = 1, . . . , n. Si F G, el gr
afico debiera aproximarse a la recta identidad.
Frecuentemente, uno desea comparar la distribuci on muestral con una familia de dis-
tribuciones. Consideremos por ejemplo la normal. Si G es la FD correspondiente a N(0, 1),
y F la de N(, 2 ), es F 1 (u) = G1 (u) + para u (0, 1), y por lo tanto el gr afico de
F 1 contra G1 da una recta con pendiente y ordenada en el origen . En consecuen-
cia, si F es aproximadamente normal, el diagrama de cuantiles de la muestra con N(0, 1)
dara aproximadamente una recta, con ordenada en el origen y pendiente aproximadamente
iguales a la media y la desviaci on. Del gr a inferir en que aspectos difiere F de
afico se podr
la normal. La misma idea vale para cualquier familia de escala y posici on. Si se desea com-
parar con la familia exponencial, el gr afico con G = Ex(1) debiera dar aproximadamente
una recta por el origen.
Ejemplo 8.C: Velocidad de la luz Los datos siguientes corresponden a 20 mediciones
(en segundos) del tiempo empleado por la luz para recorrer una distancia de 7442 m. [20]
(para simplificar, los datos de la tabla son el resultado de restar 24.8 a los datos originales,
8.2. LA FORMA DE LA DISTRIBUCION 101
40
20
x(i)
0
-20
-40
-2 -1 0 1 2
Realizar estos diagramas a mano puede ser muy trabajoso para n grande. Pero se
puede realizar un diagrama simplificado, basado en la idea de que no es indispensable usar
todos los x(i) , y que la informacion mas importante sobre diferencias entre la distribucion
muestral y la te orica suele notarse en los extremos. La idea basica es comparar los cuan-
tiles de ambas distribuciones, para = 1/2, 1/4, 1/8 . . . y sus simetricos 3/4, 7/8, . . . .
Mas precisamente, definiremos un subconjunto de ndices k de {1, . . . , n}. El primero
corresponde a la mediana, y es igual a (n + 1)/2 (que para n par representa el promedio de
las dos observaciones centrales). Dado un k, el pr oximo es [(k + 1)/2], hasta llegar a 1. Por
ejemplo, si n = 19, la secuencia es 10, 5, 3, 2, 1. Luego se toman los simetricos n k + 1;
y quedan en definitiva 1,2,3,5,10,15,17,18,19 (donde 10 corresponde a la mediana). Si
n = 20, la secuencia total es 1,2,3,5,10.5 ,15,17,18,19 (donde 10.5 representa el promedio
de x(10) y x(11) , o sea la mediana).
Para cada uno de estos valores de k se calcula el correspondiente k de (8.8), y la
abscisa G1 (k ), que se grafica contra la ordenada x(k) . Es mas f
acil verlo con un ejemplo.
102 DE UNA MUESTRA
CAPTULO 8. DESCRIPCION
Ejemplo 8.D: Resina sintetica La Tabla 8.2 da las duraciones bajo tensi
on de 100
filamentos de Kevlar, una resina sintetica [14], ya ordenadas.
0.18 3.1 4.2 6.0 7.5 8.2 8.5 10.30 10.6 24.2
29.6 31.7 41.9 44.1 49.5 50.1 59.7 61.70 64.4 69.7
70.0 77.8 80.5 82.3 83.5 84.2 87.1 87.30 93.2 103.4
104.6 105.5 108.8 112.6 116.8 118.0 122.3 123.50 124.4 125.4
129.5 130.4 131.6 132.8 133.8 137.0 140.2 140.90 148.5 149.2
152.2 152.8 157.7 160.0 163.6 166.9 170.5 174.90 177.7 179.2
183.6 183.8 194.3 195.1 195.3 202.6 220.0 221.30 227.2 251.0
266.5 267.9 269.2 270.4 272.5 285.9 292.6 295.10 301.1 304.3
316.8 329.8 334.1 346.2 351.2 353.3 369.3 372.30 381.3 393.5
451.3 461.5 574.2 656.3 663.0 669.8 739.7 759.60 894.7 974.9
k k ln(1 k ) x(k)
1 0.005 0.005 0.18
2 0.015 0.015 3.1
4 0.035 0.036 6.0
7 0.065 0.067 8.5
13 0.125 0.13 41.9
25 0.245 0.28 83.5
50.5 0.5 0.69 150.7
76 0.765 1.41 285.9
88 0.875 2.08 372.3
94 0.935 2.73 656.3
97 0.965 3.35 739.7
99 0.985 4.20 894.7
100 0.995 5.30 974.9
El 50.5 representa la mediana, promedio de x(50) y x(51) . Con este material se realiza
el gr
afico de la Figura 8.4, que muestra poca correspondencia entre ambas distribuciones:
si bien los valores menores siguen aproximadamente una recta por el origen, esto no sucede
si se incluyen los mayores.
La familia de distribuciones Weibull puede ser transformada en una de escala y posici
on
8.3. EJERCICIOS 103
1000
800
600
400
200
0
0 2 4 6
Figura 8.4: Kevlar: diagrama exponencial
8.3 Ejercicios
8.1 Sean Xi (i = 1, . . . , n) variables independientes con funci
on de distribuci
on F , y sea
F la funcion de distribuci on emprica correspondiente a la muestra X1 , . . . , Xn , o
sea F (x) = n1 ni=1 I(Xi x). Probar que para cada x es E F (x) = nF (x) y
var(F (x)) = nF (x)(1 F (x)).
8.2 Compare los resultados de calcular la varianza muestral de los n umeros: 1000001,
1000002, 1000003, de las dos formas (8.2) y (8.3) utilizando (o simulando) una cal-
culadora que retiene los primeros 7 dgitos significativos. Reptalo despues de restar
1000000 a todos los datos.
8.5 Los siguientes valores son las duraciones (en horas) de una muestra de 15 l
amparas:
8.7 a. Haga el diagrama de tallo y hoja de los datos del Ejemplo 8.D.
b. Mirando el histograma producido, puede darse una idea de por que fall
o el
ajuste a la exponencial?.
8.8 a. Usando los resultados del Ejercicio 3.13 (b), describa un metodo para comparar
una distribuci
on muestral con una Weibull.
b. Aplique dicho metodo a los datos del Ejemplo 8.D [en la Tabla 8.3 tiene hecha
parte del trabajo].
8.9 Los datos siguientes son longitudes dorsales (en mm.) de oct opodos de distintas
especies [14]. Hacer un diagrama de cuantiles para comparar con la log-normal.
21 23 28 32 19 22 27 29
67 80 110 190 63 73 84 130
08 12 16 18 05 10 15 17
40 44 51 57 35 43 49 54
Estimaci
on Puntual
9.1 Introducci
on
Hasta ahora nos hemos ocupado de obtener propiedades de observaciones correspondien-
tes a variables con una distribuci on dada. Ahora trataremos el problema inverso: se
tienen observaciones correspondientes a una distribuci
on desconocida, y se quiere obtener
informaci
on sobre esta. En las situaciones m
as manejables, se supone que la distribuci
on
pertenece a una familia con ciertos par
ametros que se desea estimar. Para entrar en tema,
comenzamos con un ejemplo.
Ejemplo 9.A: Control de calidad Se desea controlar un lote de N = 1000 latas de
conservas, de las cuales un numero M desconocido son defectuosas (tienen botulismo).
Se elige al azar una muestra de n = 30 sin reemplazo. Examinadas estas, resultan 2
defectuosas. Que se puede decir de M ?.
Esta es una situaci on tpica de inferencia estadstica: de una muestra, obtener conclu-
siones sobre una poblaci on. Sea en general X la cantidad de latas defectuosas en la muestra;
X es una variable aleatoria. La distribuci on de X (en este caso la hipergeometrica) con-
tiene un par ametro desconocido, M . En este caso, el par ametro podra ser determinado
exactamente, examinando todas las latas; salvo que esto sera un tanto antiecon omico. Se
busca una regla que a cada valor de X haga corresponder un n umero M (X), tal que en
un sentido sea M (X) M . Esto es un estimador puntual. Aqu, M es una funci
alg on
de {0, 1, . . . , n} en {0, 1, . . . , N }. Tambien, M (X) es una variable aleatoria. Se suele usar
la misma notaci on M para ambas, y llamar a ambas estimador, lo que no produce
confusiones, aunque desde el punto de vista formal sea un abuso de lenguaje.
Una forma en la cual se puede precisar el sentido de M (X) M , es a traves de
una medida del error. La m as usada es el error medio cuadratico: emc = E(M M )2 . A
traves del emc se puede establecer si el estimador tiene la precisi on deseada.
La intuici on dice que debiera ser M = N X/n. Pero hay alguna manera sistem atica
de obtener buenos estimadores?. A continuaci on se muestran los dos metodos m as im-
105
106 PUNTUAL
CAPTULO 9. ESTIMACION
portantes.
El m
etodo de m
axima verosimilitud
La distribuci
on de X depende del par
ametro desconocido M . Para ponerlo de manifiesto,
escribimos
P(X = x) = p(x, M ) para x {0, 1, . . . , n},
donde por ser D(X) = Hi(M, N, n), es
M N M
x nx
p(x, M ) = .
N
n
El metodo de m axima verosimilitud (en ingles: maximum likelihood) consiste en definir
para cada x la funci on M (x) como el valor de M que maximiza p(x, M ), entre los va-
lores que puede tomar el par ametro; en este caso, enteros entre 0 y N ; es decir, el valor
del parametro que maximiza la probabilidad de que haya sucedido lo que efectivamente
sucedio. En este caso, como M toma s olo valores enteros, para hallar el m
aximo buscamos
los M para los que p(x, M )/p(x, M 1) > 1 (a semejanza de la resoluci on del ejercicio
2.19).
Simplificando los factoriales, queda
p(x, M ) M (N M n + x + 1)
= >1
p(x, M 1) (N M + 1)(M x)
(N + 1)x
M n < N x + x M < .
n
Sea u = (N + 1)x/n. Si 0 < x < n, entonces para cada x, p(x, M ) alcanza su m aximo en
M = [u] si u no es entero; y en M = u y M = u 1 si u es entero. Si x = n, es siempre
p(x, M )/p(x, M 1) > 1, o sea p(x, M ) es creciente en M , y por lo tanto el m
aximo se
alcanza en M = N; si x = 0, p(x, M ) es decreciente en M , y el m aximo se alcanza en
M = 0. En consecuencia tenemos
(N + 1)x
M (x) = si x < n
n
= N si x = n;
(donde [.] es la parte entera), lo que est
a de acuerdo con la intuici
on. Este es el estimador
de maxima verosimilitud (EMV). N otese que, por definici
on, el EMV toma siempre valores
admisibles del par ametro (en este caso, enteros entre 0 y N ). En el Ejemplo 9.A es M = 66.
El m
etodo de los momentos
Notemos que la esperanza de X depende de M:
nM
EX = x p(x, M ) = .
N
xC
9.2. METODOS
DE ESTIMACION 107
nM NX
= X M = .
N n
y se define el estimador como M = N X/n. Esto da parecido al EMV, pero el valor que se
obtiene puede no ser entero. En el Ejemplo es M = 66.67. En muchos casos el estimador
de momentos coincide con el EMV, pero en otros pueden ser totalmente distintos (ejercicio
9.3). En general el EMV tiene menor emc que el de momentos. En compensaci on, este
u
ltimo es en algunos casos mas f
acil de calcular.
9.2 M
etodos de estimaci
on
9.2.1 Estimaci
on de un par
ametro
Ahora pasamos a una situaci on m as general. Se tienen n observaciones X1 , . . . , Xn , que son
variables independientes con la misma distribuci on. Esto se llama una muestra de la dis-
tribucion, y se dice que las variables son iid (independientes identicamente distribuidas).
La distribuci on contiene un par ametro desconocido que pertenece a un conjunto . Sea
F (x, ) la funci
on de distribucion.
Si la distribuci
on es discreta, queda descripta por la funcion de frecuencia, que depende
de : P(Xi = x) = p(x, ) (i = 1, . . . , n) para x C, conjunto finito o numerable (que
puede depender de ). Si es continua, queda descripta por la densidad (com un a todas las
Xi ) f (x, ) = F (x, )/x. Un estimador puntual de es una funci on = (X1 , . . . , Xn )
con la que se desea aproximar a . Pasamos a definir en general los dos metodos de la
secci
on anterior.
M
etodo de m
axima verosimilitud
Se define la funci
on de verosimilitud como la funci
on de frecuencia o de densidad conjunta
de las observaciones:
n
L(x1 , . . . , xn ; ) = p(xi , ) para xi C (caso discreto)
i=1
n
= f (xi , ) (caso continuo). (9.1)
i=1
M
etodo de los momentos
La esperanza EXi es una funci
on de (no depende de i):
EXi = x p(x, ) (caso discreto)
x
= xf (x, ) dx (caso continuo).
La soluci
on, que depende de X1 , . . . , Xn , es el estimador de momentos. En el ejemplo 9.A
tenamos n = 1.
Ejemplo 9.B: Exponencial Se prueba un lote de n l amparas cuyos tiempos de duraci
on
Xi , i = 1 . . . , n se suponen variables independientes con distribuci
on Ex():
1 x/
f (x, ) = e I(x 0).
Para el EMV de , la funci on de verosimilitud es:
n
1 1
L(x1 , . . . , xn ; ) = n exp xi I(x1 0, . . . , xn 0).
i=1
resultado razonable.
Las distintas elecciones de g no tienen por que dar como resultado el mismo estimador
(ejercicio 9.9).
En la mayora de las situaciones, el conjunto C =
{x : f (x, ) > 0} o C = {x : p(x, ) > 0} no depende de . Por ejemplo, para la nor-
mal es C = R, y para Ex() es C = R+ > 0. Esto se llama el caso regular. En estos
casos, como las sumas suelen ser m as tratables que los productos, una forma conveniente
de obtener el EMV es maximizar el logaritmo de L, lo que es equivalente a maximizar L
por ser el logaritmo una funcion creciente. Derivando, queda la ecuacion
n
(x, ) = 0, (9.4)
i=1
Si < m axi xi es L = 0, de modo que all no puede estar el maximo. Para > m axi xi es
L = n , que es decreciente, y por lo tanto el m aximo se encuentra en = m
axi xi . Se ha
deducido entonces que el EMV es = m axi Xi .
110 PUNTUAL
CAPTULO 9. ESTIMACION
9.2.2 Transformaciones
Transformaciones del par
ametro
Parecera razonable que si el EMV de un par ametro es , el EMV de 3 deba ser ( )3 .
Para verificarlo, recordemos que el EMV maximiza L(x1 , . . . , xn ; ). Si expresamos todo
en funcion de = 3 , resulta que tenemos que maximizar L(x1 , . . . , xn ; 1/3 ), para lo cual
debe ser 1/3 = , y por lo tanto = 3 . Lo mismo vale reemplazando el cubo por
cualquier funcion inyectiva del parametro. El lector puede probar que la misma propiedad
vale para el estimador de momentos (ejercicio 9.7).
9.2.3 Evaluaci
on de estimadores
El emc se puede descomponer como
2 = 2
EXi2 = 2 + 2 y EX + 2 ,
n
9.2. METODOS
DE ESTIMACION 111
se obtiene
2 1
E VX = 1 . (9.6)
n
De aqu se deduce que un estimador insesgado de 2 se puede obtener como
n
2 n 1 2.
S = VX = (Xi X) (9.7)
n1 n 1 i=1
9.2.4 Estimaci
on de varios par
ametros
Consideremos una distribuci on que depende de dos par ametros: 1 y 2 . El EMV se define
igual que antes. Ahora la funcion de verosimilitud es L = L(x1 , . . . , xn ; 1 , 2 ), y los
estimadores son el par (1 , 2 ) (que depende de x1 , . . . , xn ) que maximiza L.
Para el estimador de momentos, sean
N
otese que es equivalente usar en la segunda ecuaci on la varianza, en vez del segundo
momento. Es decir, si v(1 , 2 ) es la varianza de Xi :
v(1 , 2 ) = m2 (1 , 2 ) m1 (1 , 2 )2 ,
es equivalente a (9.9).
En la siguiente Secciion se ver
a un ejemplo importante de estimaci
on de dos par
ametros.
En las situaciones anteriores tanto el EMV como el de momentos se han obtenido en
forma explcita. Pero no tiene por que suceder esto en general (ejercicio 9.5.b).
Como estamos en el caso regular por ser f > 0, derivamos log L respecto de los par
ametros,
lo que da las ecuaciones
n
n
2
(xi ) = 0, n = (xi )2 .
i=1 i=1
suponen que est a demostrada matem aticamente, y los matem aticos creen en ella porque
suponen que es un hecho emprico. Pero en verdad se trata de una cuesti on de necesidad.
Al generalizarse el uso de la computadora, se hace posible concebir estimadores que no
sean calculables a mano, y esto ha permitido aceptar otros modelos m as generales como
distribuciones de los datos. Sobre esta actitud muy frecuente en la Estadstica, de adaptar
las hip
otesis a las posibilidades de c
alculo, vease la Secci
on 9.3.3.
donde wi = 1/ 2 . De aqu se deduce que para obtener el EMV de hay que minimizar
n 2
i=1 wi (xi ) , y derivando resulta
n
wi xi
= i=1
n . (9.11)
i=1 wi
Esto se llama promedio ponderado (o pesado) de las xi , con pesos wi , donde las obser-
vaciones con mayor precisi on (o sea, menor varianza) reciben mayor peso. Las ventajas de
esto sobre un promedio simple se pueden apreciar en el ejercicio 9.13.
El lector puede verificar que el mismo resultado se obtiene si las varianzas son conocidas
a menos de una constante de proporcionalidad: i2 = ki , con k1 , . . . , kn conocidas y
desconocida.
9.3.2 Estimaci
on robusta
Si F fuera exactamente normal, X sera el estimador conveniente. Pero si F es s olo a-
proximadamente normal, el comportamiento de X puede ser desastroso. Una indicaci on
de este hecho se puede ver teniendo en cuenta que, si una sola observaci on tiene un error
grande, la media puede dar cualquier disparate (ejercicio 9.10). La incertidumbre en la
especificaci
on de F hace que sea m as conveniente usar metodos que funcionen bien a un
cuando el modelo no sea conocido exactamente; en particular, cuando hay algunos datos
atpicos. Estos son los llamados metodos robustos.
Un metodo robusto sencillo es la media podada: sean X(1) . . . X(n) las observaciones
ordenadas, y sea 0 < 1/2. Entonces se define la media -podada como
nm
= 1
X X(i) , (9.12)
n 2m i=m+1
114 PUNTUAL
CAPTULO 9. ESTIMACION
donde m = [n]; o sea, se toma la media descartando las mayores y menores m observa-
ciones. Una buena elecci on es = 0.25. El caso lmite = 0.5 es la mediana.
En el Ejemplo 8.C, la media muestral es 21.8 y la media podada es X 0.25 = 25.7; la
diferencia se debe a que esta no toma en cuenta a las dos observaciones menores, que
sobresalan en la Figura 8.3.
9.4 Ejercicios
9.1 Hallar los estimadores de MV y de momentos para muestras de las siguientes dis-
tribuciones: (a) Po(), (b) Ex(), (c) N(0, ).
9.2 En los casos anteriores, calcular sesgo y varianza de los estimadores [para (c) usar el
ejercicio 4.5].
9.3 En la situaci
on del Ejemplo 9.F:
9.6 La distribuci
on de Pareto muy usada en Economa tiene densidad f(x) =
(x/)(+1) (/) I(x ), con y positivos.
a. Hallar los estimadores de MV y de momentos de y .
b. Dado que P(Xi ) = 1, los estimadores debieran cumplir Xi i.
Cumplen esto el EMV y el de momentos?.
9.7 Sean h una inyeccion de R, = h(), y los estimadores de m
axima
verosimilitud y de momentos de . Probar que los estimadores de MV y de mo-
mentos de son respectivamente h( ) y h().
9.8 Probar (9.5) para los casos discreto y continuo, suponiendo en este u
ltimo que h es
diferenciable.
9.9 on Y , siendo Y = X 2 , donde X Bi(n, p) con n conocido
a. Se tiene una observaci
y p desconocido. Calcule el EMV de p basado en Y , y comp arelo con el basado
en X.
b. Haga lo mismo para el estimador de momentos.
9.10 y S para la muestra: 1, 2, . . . , 10.
a. Calcule X
b. Supongamos que por un error de tipeo, el 10 es trascripto como 100. Como
y S?.
se modifican X
c. Haga lo mismo para la media podada X 0.25 .
9.11 Verificar la consistencia de los estimadores de: (a) ejercicio 9.1 (b) Ejemplo 9.F.
no 2 de N(, 2 )
9.12 Calcular el sesgo de S como estimador de para muestras de tama
olo de X1 X2 ].
[aprovechar que aqu S depende s
9.13 Se tienen tres observaciones normales con la misma media y desviaciones 1, 3 y 5.
Calcular la varianza del EMV de , y compararla con la del promedio simple X.
116 PUNTUAL
CAPTULO 9. ESTIMACION
Captulo 10
Intervalos de Confianza
10.1 Introducci
on
En el Ejemplo 9.A, una pregunta razonable sera: entre que valores se puede acotar el
numero M de latas defectuosas en el lote, usando la informaci on dada por X, el n umero
de defectuosas en la muestra?. En particular se puede aseverar que M es menor que
determinado valor?. Obviamente, no se puede tener una respuesta determinista, pues la
u
nica afirmacion segura es que 0 M N , que no resulta muy pr actica. Por lo tanto, si
buscamos un intervalo para M cuyos extremos dependen de X que es aleatoria s olo
podemos aspirar a que contenga a M con una probabilidad de por ejemplo 0.95. Este es
el concepto de un intervalo de confianza: un intervalo que depende de las observaciones, que
contiene al valor verdadero (desconicido) del par ametro con una probabilidad dada. Para
formalizar esta idea, consideramos en general la situaci
on de una muestra X = (X1 , . . . , Xn )
cuya distribucion depende del parametro . Indicamos con P las probabilidades cuando
el valor verdadero del parametro es .
Definici
on 10.1 Un intervalo de confianza (IC) de nivel es un intervalo que depende de
X: I = I(X), tal que
P ( I(X)) = . (10.1)
Una cota superior (resp. inferior) de confianza para , de nivel , es una variable () (X)
(resp. () (X)) tal que P ( () ) = (resp. P (() ) = ).
Como veremos luego, en el caso discreto no siempre se puede obtener igualdad en (10.1).
Por este motivo se define m as generalmente un intervalo de nivel mediante la condici
on:
P ( I(X)) . Al mn P ( I(X)) se lo llama nivel de confianza.
Un intervalo se llama unilateral o bilateral seg
un que uno o los dos extremos dependan
de X. Los intervalos unilaterales son entonces de la forma (, () ] o [() , ). Un
intervalo bilateral se obtiene a partir de una cota superior y una inferior. En efecto, sea
117
118 CAPTULO 10. INTERVALOS DE CONFIANZA
y si se quiere que esto sea igual a hay que tomar 1 + 2 = donde = 1 . Desde
ahora se tomar a siempre
1 = 2 = /2. (10.2)
La conveniencia de esta elecci on se muestra en la Secci on 10.3. En adelante se omitir a el
subndice de P cuando cuando no sea indispensable.
Es importante tener claro el significado del IC. En la afirmaci on P( I(X)) = 0.90,
lo aleatorio dentro de la P no es , sino los extremos del intervalo. Esto parece obvio,
hasta que uno lo tiene que aplicar. En el Ejemplo 9.A, supongamos que el muestreo da
X = 2, y de all sale el intervalo de confianza de nivel 0.90: I = [4, 145]. Se puede entonces
afirmar que el n umero de latas defectuosas en el lote est a entre 4 y 145 con probabilidad
0.90?. En verdad, el M verdadero est a ya establecido; se lo podra determinar exactamente
si se decidiera examinar todo el lote, de modo que no hay en el nada aleatorio. La manera
on 4 M 145 se obtuvo con un metodo
logica de interpretar el intervalo es: la afirmaci
que acierta 90 de cada 100 veces; aunque lamentablemente no sabemos si en esta acert oo
no.
En general, cualquier conjunto I que cumpla (10.1) aunque no sea un intervalo se
llama regi on de confianza.
Para ver las ideas principales para la obtenci on de IC, tomamos un ejemplo simple.
Sean las Xi N(, 1) iid. Para obtener un intervalo de nivel 0.90 para , recordemos que
el EMV de es X N(, 1/n), y por lo tanto n(X ) N(0, 1). Sea z tal que
P(z n(X ) z) = (z) (z) = 0.9.
P(X z X + z ) = 0.9,
n n
z/ n, X + z/n] (abreviado X z/n ),
y por lo tanto el intervalo es I(X) = [X
donde z sale de 0.9 = (z) (z) = 2(z) 1, o sea z = 1 (0.95) = 1.645.
Aqu se pueden apreciar los pasos para la obtencion del intervalo: (1) disponer de un
estimador del parametro, (2) obtener su distribuci
on, (3) realizar una transformaci on del
estimador para llevarlo a una distribuci
on que no dependa del par ametro, (4) poner cotas
para este estimador transformado, y despejar el par
ametro de all. Para no repetir el mismo
mecanismo en todos los casos, desarrollaremos esta idea en general.
ningun otro parametro desconocido, cuando hay varios par ametros). M as exactamente:
para cada t, P (T (X, ) t) no depende de . En el ejemplo anterior era T = X (o
cualquier funci
on de T ).
Sea G la funcion de distribuci
on de T (no depende de ). Dado z, sea z = z (X)
soluci
on de la ecuaci on T (X, z ) = z. Si T (X, ) es funci on decreciente de ,
T (X, ) z z . Por lo tanto P( z ) = 1 G(z), y en consecuencia eligiendo
z tal que 1 G(z) = se obtiene una cota superior: () = z . De la misma manera,
tomando z tal que G(z) = se obtiene una cota inferior. Si el pivote es funci on creciente
de , se reemplaza por 1 .
A continuacion veremos la aplicaci
on de este principio a las distribuciones m
as usuales.
Desde ahora se usar on = 1 .
a la notaci
Al cuantil de 2m se lo escribir
a 2m, . Los cuantiles mas usados se hallan en la Tabla
A.3 al final del libro.
Ponemos entonces U = ni=1 (Xi )2 = n , siendo D(U/) = 2n . Ser a mas c
omodo
usar como pivote a T = U/. Este es decreciente en ; y la ecuacion T = z da simplemente
= U/z. Por lo tanto las cotas son
U U
() = , () = .
2m, 2m,
Obviamente las cotas para se deducen como races cuadradas de las anteriores.
on es que si U 2m y V 2n son inde-
Una propiedad importante de esta distribuci
pendientes, entonces
U + V 2m+n . (10.4)
La demostraci
on es muy sencilla (ejercicio 10.7).
on de U/2 es 2n1 .
Teorema 10.3 La distribuci
La demostraci
on se omite. Se puede hacer a nivel elemental pero dara trabajo.
Esto da una idea del por que de la expresi on grados
de libertad. Las n variables
Yi = Xi X on ni=1 Yi = 0. Luego, el n
(i = 1, . . . , n) cumplen la restricci umero de
10.3. INTERVALOS PARA LA NORMAL CON Y DESCONOCIDAS 121
Y
T = n ;
{ i=1 (Yi Y )2 /(n 1)}1/2
y por lo tanto T depende s olo de las Yi , cuya distribuci
on no depende de los par
ametros.
Necesitamos la distribuci
on de T . Obviamente, no va a ser N(0, 1). Para tratarla, hacen
falta algunas ideas previas.
y S son independientes.
Teorema 10.4 X
La demostraci
on se omite.
Definici
on 10.5 Sean Y y Z independientes, con Y N(0, 1) y Z 2m . Sea T =
Y/ Z/m. Entonces D(T ) se llama distribucion t de Student con m grados de libertad, y
se la abrevia tm .
Al cuantil de tm se lo escribir
a tm, . Es f
acil deducir que la tm es simetrica respecto
de 0, y esto implica que tm, = tm,1 . Los cuantiles m as usados se hallan en la Tabla
A.4. Se puede probar que la densidad de tm es
(m+1)/2
((m + 1)/2) t2
f (t) = 1+ (10.6)
m (m/2) m
(ejercicio 10.9); y por lo tanto tiene forma de campana como la normal, pero tiende a 0
mas lentamente.
122 CAPTULO 10. INTERVALOS DE CONFIANZA
Los intervalos de confianza para se deducen entonces con el mismo razonamiento que
se uso para conocida. La cotasuperior resulta X + tm, S/n, y el intervalo bilateral de
nivel resulta X tm,1/2 S/ n.
Cuando m , la Ley de Grandes N umeros implica que el denominador de T en
la Definicion 10.5 tiende a 1 en probabilidad, y por lo tanto tm tiende a N(0, 1) por el
Lema de Slutsky. Esto coincide con la idea intuitiva de que cuando n es grande, hay poca
diferencia entre conocida y desconocida. Por este motivo, en la tabla A.4, los valores
para n = coinciden con los de N(0, 1).
En general se puede probar que tm, > z para todo m y , y el lector lo puede
comprobar en el ejercicio 10.2; es decir, que los intervalos de confianza para desconocida
son m as largos que cuando es conocida; ese es el castigo por nuestra ignorancia de .
Para los datos del Ejemplo 8.A, tenemos S = 11.3; un intervalo bilateral de nivel 0.95
para se obtiene como 237 11.3 2.11/4.12 = [231.3, 242.6].
Student era el seud onimo del ingeniero irlandes W. Gosset. Su idea de definir el
estadstico de Student parece obvia una vez que se ha adquirido el concepto de pivote;
pero fue un merito importante en una epoca en que la teora estadstica actual estaba aun
naciendo.
*Justificaci
on de (10.2)
En general, podemos formar un intervalo bilateral de nivel 1 como I = [(11 ) , (12 ) ],
con 1 +2 = . C omo elegir 1 y 2 de forma que el intervalo sea en alg
un sentido, lo m
as
pequeno posible?. Consideremos primero el caso de los intervalos para lamedia de la normal
con varianza conocida. Aqu el intervalo es de la forma [X z11 / n, X z2 /n],
y resulta natural tratar de minimizar su longitud, que es proporcional a z11 z2 . Sean
b = z11 y a = z2 , que deben cumplir (b) (a) = 1 (1 + 2 ) = . Entonces el
problema equivale a minimizar b a con la condici on (b) (a) = . Es f acil probar
que debe ser a = b. Se lo puede hacer por el metodo de los multiplicadores de Lagrange.
Minimizar b a con la condicion (b) (a) = 0, es equivalente a minimizar la funci on
G(a, b, ) = (b a) + ((b) (a) ). Derivando G respecto de a y de b queda:
del intervalo, o sea b/a. No hay como en el caso anterior una soluci on explcita, pero se
verifica numericamente que b = 2n,1/2 , a = 2n,/2 est
a pr
oxima al
optimo.
10.4 Un m
etodo robusto
Como se vio en el ejercicio 9.10, una sola observaci on atpica puede alterar gravemente a
X y S, y por lo tanto tambien a los intervalos obtenidos a partir de ellas. Las observaciones
atpicas suelen inflar a S, produciendo intervalos demasiado poco precisos. Esto se puede
evitar usando un pivote basado en un estimador robusto como la media podada (9.12). Se
prueba en [19] que si D(Xi ) es simetrica respecto de , X es aproximadamente normal
para n grande, con media y una varianza que se puede estimar con
nm
1
2
S =
m(X(m) X ) +2 2 2
(X(i) X ) + m(X(nm+1) X ) . (10.7)
(n m)2
i=m+1
Mejoras a la aproximaci
on
Las anteriores aproximaciones se pueden mejorar considerablemente utilizando la correcci
on
por continuidad (7.2). Se muestra en [4] que mejor que (10.10) son las cotas superior p()
e inferior p() dadas por
() 1 c c
p (X) = p + + c + p+ (1 p+ ) (X < n) (10.13)
1+c + 2 4
1 c c
p() (X) = p + c + p (1 p ) (X > 0), (10.14)
1+c 2 4
donde
X + 0.5 X 0.5
p+ = , p = y c = z2 /n, (10.15)
n n
y por
p() (n) = 1, p() (0) = 0. (10.16)
10.6. INTERVALOS APROXIMADOS PARA LA POISSON 125
10.7 Comparaci
on de dos muestras
En numerosas situaciones experimentales se desea comparar dos muestras obtenidas bajo
condiciones diferentes, y determinar si hay entre ellas diferencias sistem aticas (o sea, no
debidas a la pura variabilidad), y en caso afirmativo, describir las diferencias. Lo veremos
con un caso concreto.
Ejemplo 10.D: Creatinina La creatinina es un elemento importante en el estudio
del funcionamiento de los ri nones. La Tabla 10.1 muestra los resultados de un estudio
realizado en el hospital de la ciudad de San Luis: para cada sujeto de una muestra de 22
hombres y 28 mujeres se dan los valores (cantidad de creatinina por unidad de volumen por
hora) obtenidos por dos metodos de an alisis: el usual (B) y uno m
as econ
omico (A), con
los objetivos de comparar ambos metodos, y determinar las diferencias entre los valores
de hombres y mujeres. Comenzaremos por el segundo problema, para el que damos a
continuacion un planteo general.
n n2
1 1 1
2 2
n exp 2 (xi 1 ) + (yi 2 ) .
2 n 2
i=1 i=1
De aqu se deducen f
acilmente los EMV:
U
1 = X, 2 = Y , 2 = , (10.23)
n
donde U = U1 + U2 , con
n1
n2
U1 = 2,
(Xi X) U2 = (Yi Y )2 . (10.24)
i=1 i=1
Y ) = 12 2
v = var(X + 2.
n1 n2
Como v no se conoce, se la estima en forma insesgada mediante
S12 S22
v = + ,
n1 n2
con Sj2 = Uj /(nj 1), j = 1, 2, con Uj definido en (10.24). Entonces
T=
v
es un pivote aproximado. Su distribuci on no es exactamente una t, pero se la puede
aproximar con una tk con grados de libertad
(v )2
k= .
S14 /(n31 n21 ) + S24 /(n32 n22 )
DE DOS MUESTRAS
10.7. COMPARACION 129
Este k no ser
a en general un numero entero. lo que no es problema si se dispone de
una computadora; pero si se trabaja con una tabla habr
a que interpolar o tomar el entero
mas pr
oximo.
Ejemplo 10.E: Peso at omico del carbon Los siguientes datos son 10 determinaciones
del peso at
omico del carb
on obtenidas por un metodo, y 5 obtenidas por otro; los llamare-
mos 1 y 2. Para simplificar, se ha restado 12 de los valores originales y se ha multiplicado
por 1000 (de modo que el primer valor, por ejemplo, es en realidad 12.0129).
1 : 12.9 7.2 6.4 5.4 1.6 14.7 5.1 1.5 7.7 6.1
2 : 31.8 24.6 6.9 0.6 7.5
Las respectivas medias son 2.6 y 14.3, con diferencia -11.7; y las desviaciones son 7.92
y 13.2, que hacen sospechar que las varianzas verdaderas son distintas. La aplicaci on del
metodo de Welch da v = 41.3 y k = 5.48. Para un intervalo bilateral de nivel 0.90
se necesita t5.48,.95 , que interpolando se aproxima por 1.98; el intervalo resulta entonces
11.7 12.7. El metodo basado en igualdad de varianzas da S = 9.87 con 13 grados de
libertad, y el correspondiente intervalo es 11.7 9.57, algo mas angosto.
Advertencias
Note que tanto para muestras apareadas como independientes, el estimador de es el
mismo: = Y X, pero el estimador de su desviaci on es totalmente distinto. Sera
un error lamentable tratar un modelo de muestras apareadas como si fuera de muestras
independientes, pues estaramos desperdiciando la informaci
on dada por el apareamiento.
130 CAPTULO 10. INTERVALOS DE CONFIANZA
X X
0 tn1 ,
S 1 + 1/n
y en consecuencia hay que tomar c = 1 + 1/n tn1,1/2 . Aunque superficialmente esto
se parece al intervalo de confianza para la media, se trata de objetivos totalmente distintos.
En particular, la longitud de los intervalos de confianza tiende a 0 cuando n , cosa
que obviamente no sucede con los de tolerancia.
El mismo metodo puede ser imitado para otras distribuciones.
Si no se puede suponer nada sobre F , la idea intuitiva es reemplazar los cuantiles
desconocidos de F por los cuantiles muestrales. Sean X(1) < . . . X(n) los estadsticos de
orden. Entonces el intervalo [X(k) , X(nk) ] contiene n 2k observaciones, y resulta natural
tomar k tal que n 2k n, o sea k n/2. M as precisamente, se puede probar que si
F es continua:
k = [(n + 1)/2] = P(X0 [X(k) , X(nk) ]) . (10.26)
La demostraci on es elemental, pero requiere algo de trabajo.
Estos intervalos, cuya validez no depende de suponer ninguna distribuci
on, se llaman
no parametricos.
10.9 Ejercicios
10.1 La tabla 10.2 contiene 24 determinaciones de la temperatura de fusi
on del plomo, en
o
C [16]. Suponiendo normalidad, calcular
10.9. EJERCICIOS 131
c. Deducir, usando el Teorema Central del Lmite, que para m grande se puede
aproximar la 2m por una normal.
10.8 Para los datos del ejercicio 8.6, calcular para el valor verdadero del paralaje, el
intervalo de confianza bilateral de nivel 0.95, basado en Student; y compararlo con
el intervalo basado en la media podada X .25 . Explicar las diferencias.
Tests de Hip
otesis
Y yo me la lleve al ro
creyendo que era mozuela,
pero tena marido
F. Garca Lorca: La casada infiel
11.1 Introducci
on
Para presentar los conceptos, retomamos el Ejemplo 9.A. Un posible comprador declara
on p = M/N de latas defectuosas es 0.02.
que el lote es aceptable para el si la proporci
Para determinar si es aceptable, la u nica forma segura sera examinar todas las latas, cosa
poco conveniente. Por lo tanto, comprador y vendedor acuerdan en tomar una muestra de
n latas elegidas al azar, examinarlas, y basar la decisi on en la cantidad X de defectuosas
de la muestra. Esta es la situacion tpica de un test estadstico. Observamos una variable
aleatoria X cuya distribuci on depende de un par ametro p desconocido; basados en X
debemos decidir si p pertenece al conjunto [0, 0.02] o a su complemento (0.02, 1]. El
procedimiento podra pensarse como una funci on que a cada valor de X {0, 1, . . . n} le
hace corresponder uno de los dos valores s o no (o 0 y 1).
Como X es una variable aleatoria, la decisi on puede ser correcta o no seg un la muestra
que salga (por ejemplo, es perfectamente posible que p > 0.02 y sin embargo todas las
latas de la muestra sean buenas). Por lo tanto, toda especificaci on que se haga sobre el
procedimiento, tendr a que estar expresada en terminos de probabilidades. Al vendedor
le importa controlar la probabilidad de que un lote bueno sea rechazado, estipulando por
ejemplo:
p 0.02 = P{rechazar el lote} 0.05; (11.1)
al comprador le importa controlar la probabilidad de que le den por bueno un lote malo,
estipulando por ejemplo:
p > 0.02 = P{aceptar el lote} 0.03. (11.2)
133
134
CAPTULO 11. TESTS DE HIPOTESIS
Llamemos a esto g(p). Entonces (11.1) equivale a exigir que g(p) 0.95 si p 0.02, y
(11.2) equivale a que g(p) 0.03 si p > 0.02. Pero g(p) es un polinomio en p, y por lo
tanto es una funci
on continua, por lo que no puede saltar de 0.95 a 0.03. En consecuencia,
hay que buscar otro enfoque del problema.
El enfoque m as com
un requiere abandonar la simetra entre los requerimientos de com-
prador y vendedor. Supongamos que este consigue imponer su criterio, o sea, (11.1).
Entonces el comprador deber a conformarse con una version m as debil de (11.2), a saber:
si p > 0.02, que P{rechazar el lote} sea lo mayor posible (respetando (11.1)).
Con esto, el conjunto [0, 0.02] ha quedado privilegiado, en el sentido de que si p pertenece
a el, la probabilidad de decidir equivocadamente est a acotada. Este conjunto se llama
hipotesis nula.
Con esta base, planteamos la situaci on general. Se observa una muestra X =
(X1 , . . . , Xn ) de variables aleatorias cuya distribuci
on conjunta depende de un par
ametro
desconocido perteneciente a un conjunto .
Definicion 11.1 Sean H0 y (0, 1). Un test de nivel de la hip otesis nula H0
on de Rn (o del conjunto de valores posibles de X) en el conjunto {0, 1} (o
es una funci
{aceptar y rechazar}), tal que m
axH0 P((X) = 1) = .
Un test queda definido por el conjunto de resultados donde se acepta H0 : {x : (x) = 0},
llamado regi on de aceptaci on. La probabilidad de rechazar, P((X) = 1), depende de .
La llamaremos (), la funci on de potencia (o simplemente potencia) del test. El nivel del
test es entonces el m axH0 (). En control de calidad, a la funci on 1 () se la llama
caracterstica operativa. El objetivo del test es decidir si est
a en H0 o en otro conjunto
H1 llamado hip otesis alternativa o simplemente alternativa que en la mayora de
los casos es el complemento de H0 . Esto es un test de H0 contra H1 . En el ejemplo
es H1 = (0.02, 1] = H0 . Los H1 se suelen tambien llamar alternativas. Adem as de
cumplir () para H0 , se requiere que () sea lo m as grande posible o al menos
aceptablemente grande para H1 .
La decision de rechazar H0 cuando es cierta se llama tradicionalmente error de tipo I;
y la de aceptar H0 cuando es falsa se llama error de tipo II. Tests como el del ejemplo,
cuya alternativa es de la forma > 0 para alg un 0 dado, se llaman unilaterales; los tests
con H0 = { = 0 } y H1 = { = 0 } se llaman bilaterales.
11.2. UN METODO DE TESTS
PARA LA OBTENCION 135
11.2 Un m
etodo para la obtenci
on de tests
Si se dispone de un pivote, el siguiente procedimiento permite obtener test uni- y bilaterales.
H0 0 = T (X, ) T (X, 0 )
lo que es intuitivamente razonable. N otese que usar aqu el pivote (10.11) que daba inter-
valos de confianza m as sencillos, dara tests m
as complicados.
La aproximaci on del nivel se puede mejorar mediante la correcci on por continuidad,
reemplazando en (11.3) a p por p+ definida en (10.15), y por p para el test opuesto. En
el caso bilateral, la regi
on de aceptaci on es
p0 (1 p0 ) p0 (1 p0 )
p0 z1/2 p < p+ p0 + z1/2 . (11.4)
n n
Para la Poisson, el testbilateral de H0 = { = 0 } basado en el pivote (10.19) rechaza
cuando | 0 | > z1/2 0 /n. En cambio, usar (10.21) dara un test m as complicado.
Si bien los tests deducidos mediante este metodo son intuitivamente aceptables, el nivel
de este curso no nos permite abordar el problema de la obtenci on de tests que maximicen
la potencia. Se puede mostrar que, bajo ciertas condiciones, todos los tests presentados en
este Captulo la maximizan.
El valor p
En realidad, en gran parte de las aplicaciones de los tests no se ha decidido de antemano
un nivel. Se usa en cambio el valor p o nivel emprico definido como el menor para el
que el test rechazara la hip
otesis nula. De manera que si G es la distribuci on del pivote T
(Proposicion 11.2), y t es el valor observado, el valor p es 1 G(t) para un test de la forma
H1 = { > 0 }, y p = G(t) para la opuesta. En el caso bilateral, si D(T ) es simetrica como
la normal o Student, es p = P(|T | > t) = 2(1 G(t)) ( el doble del unilateral!); para el
caso no simetrico ver el ejercicio 11.2.
Por ejemplo, si un test unilateral para la hip otesis nula 3 da un estadstico t
igual a 1.4 con 10 grados de libertad, y observamos en la tabla que el cuantil 0.90 de la
t10 es 1.37, se dice que el test dio un valor p de 0.10, o que result o significativo al 10%.
Una interpretaci on de este resultado sera: si 3, entonces la probabilidad de obtener
un t mayor o igual que el que se obtuvo, es 0.10. Cuanto m as pequeno el p, mas
evidencia a favor de la alternativa. Pero un p = 0.10 no significa que haya probabilidad
0.10 de que valga la alternativa: esta es cierta o falsa.
11.2.1 *Relaci
on entre tests e intervalos de confianza
Se mostrar a una relaci
on general entre tests e intervalos de confianza, que no depende de
la existencia de un pivote, y que permite obtener tests a partir de intervalos o viceversa.
Proposici
on 11.3
a. Si I es una regi
on de confianza de nivel para , entonces para cada 0 , el test con
regi on {x : I(x) 0 } es un test de nivel = 1 de H0 = { = 0 }.
on de aceptaci
b. Inversamente, si para cada 0 se tiene un test de nivel de H0 = { = 0 } con
regi on A(0 ), sea I(x) = {0 : x A(0 )}. Entonces I es una regi
on de aceptaci on
de confianza de nivel = 1 .
DE MUESTRA
11.3. POTENCIA Y TAMANO 137
Demostraci
on: (a) El nivel del test est
a dado por
H0 = 0 = P(0
/ I) = 1 ,
por ser I una region de nivel .
(b) Es como la de (a) en sentido inverso.
Esta Proposicion establece una compatibilidad entre tests y regiones de confianza. El
test de (a) acepta que = 0 si pertenece a la region de confianza; la regi
on de confianza
de (b) esta formada por los valores del par ametro que no son rechazados por el test. El
motivo de usar aqu regiones y no intervalos de confianza, es que para (a) no hace falta
postular que la region sea un intervalo, y en (b) no se puede deducir sin m as hipotesis que
la regi
on lo sea.
Si se aplica (a) al intervalo de confianza bilateral I obtenido de un pivote T , el test
resultante coincide con el deducido de la Proposici on 11.2 (b). En efecto, de la Seccion 10.2
sale que I = [(1/2) , (1/2) ] donde T (X, (1/2) ) = t/2 y T (X, (1/2) ) = t1/2 ,
donde t es el cuantil de T . Teniendo en cuenta que T es decreciente en , la regi on de
aceptaci a dada por I 0 t/2 T (X, 0 ) t1/2 , que coincide con la de la
on est
Proposicion 11.2 (b). Por lo tanto no obtenemos de aqu ning un procedimiento nuevo.
Esto es una funcion par de , como es de esperar. El lector puede verificar que es tambien
creciente en || y en (ejercicio 11.13).
Si se busca n tal que (1 ) = 1 dado, hay que deducir n de la ecuaci on
1 = ( n1 z1/2 ) + ( n1 z1/2 )
X np0
> z1 .
np0 (1 p0 )
Recordando que T = (X np)/ np(1 p) N(0, 1), se obtiene
z1 p0 (1 p0 ) + n(p0 p)
(p) = Pp T >
p(1 p)
z1 p0 (1 p0 ) + n(p p0 )
.
p(1 p)
DE DOS MUESTRAS
11.4. COMPARACION 139
11.4 Comparaci
on de dos muestras
11.4.1 Muestras normales
En la situaci
on de muestras apareadas de la secci
on 10.7.3, se desea testear = 0 contra
> 0. Si se supone normalidad, se recurre al test t ya conocido.
Ejemplo 11.B: Consecuencias de fumar La tabla 11.1 [14] muestra para cada uno de
11 individuos, la proporcion (como porcentaje) de plaquetas sanguneas aglutinadas antes
y despues de fumar un cigarrillo. Las plaquetas tienen un rol importante en la formaci on
de coagulos. Si bien hay metodos especficos para analizar datos de proporciones, tratamos
este ejemplo suponiendo normalidad. Para el test bilateral: las diferencias tienen media
= 10.3, con S = 7.98, lo que da T = 4.27 y p = 0.00082, mostrando un claro efecto
nocivo del cigarrillo.
Si aqu cometieramos la burrada de tratar antes y despues como muestras in-
dependientes, obtendramos el mismo , pero con S = 17, lo que da un estadstico
T = 1.42 y p = 0.086, con lo que la diferencia sera significativa s olo al 8%. (veanse las
Advertencias al final de la Seccion 10.7.3).
140
CAPTULO 11. TESTS DE HIPOTESIS
11.4.2 M
etodos robustos y no param
etricos
Consideremos un ejemplo imaginario de muestras apareadas, donde las diferencias Zi =
Yi Xi con n = 11 son
0.753 0.377 0.0618 0.306 0.155 1.75 0.383 0.764 1.28 0.847 30.0
Aqu parecera haber evidencia de diferencia sistem atica, pues todas las Zi son positivas,
e inclusive una es notablemente alta. Pero si calculamos el estadstico, obtenemos Z =
3.33 y S = 8.86, lo que da un miserable t = 1.25 con 10 grados de libertad, con un valor
p unilateral de 0.12. C omo es esto posible?. Si repetimos los c alculos sin la u
ltima
observaci on resulta Z = 0.668 y S = 0.529, que dan t = 3.99 con p = 0.0016, de modo que
parad ojicamente la supresi on de una observaci on muy grande aumenta la evidencia a
favor de > 0. El motivo es que ese valor, si bien incrementa Z, tambien incrementa S,
y en definitiva disminuye el t. Por supuesto, el efecto sera mucho peor con -30 en vez de
30, pues se invertira el signo del efecto.
Una consecuencia de este ejemplo salta a la vista: jam as aceptar el resultado de un
procedimiento estadstico sin examinar los datos.
Una posible va de acci on es tratar de detectar los datos atpicos, y corregirlos o
eliminarlos. Esto se puede hacer con distintos metodos, uno de los cuales es el diagrama
de cuantiles del captulo 8. En este caso, el valor 30 salta a la vista, pero en situaciones
mas complejas puede hacer falta un an alisis mas cuidadoso. Este enfoque es mucho mejor
que no hacer nada; pero tiene el inconveniente de que requiere decisiones subjetivas. Un
enfoque m as sistem
atico es buscar procedimientos que no sean afectados por los valores
atpicos. Esto es especialmente importante cuando grandes masas de datos son analizadas
rutinariamente en una computadora, sin una mente humana que las inspeccione.
Recordemos que la suposici on de normalidad se hace para justificar el uso de las me-
dias y varianzas, que junto con la ventaja de su simplicidad tienen el defecto de su sen-
sibilidad a valores extremos (ejercicio 9.10). Una posibilidad es reemplazar las medias
por medias podadas, y utilizar el pivote aproximado (10.8). En este caso tenemos
Z.25 = 0.673 y S.25 = 0.27, que dan T = 2.49, que corresponde a un p = 0.016 con la
normal, dando abundante evidencia acerca de > 0.
Los tests robustos como este, tienen un nivel s olo aproximado. Existen tests llamados
no parametricos cuyo nivel no depende de F = D(Zi ) [16, Cap. 9]. El m as simple est
a
basado en la idea de que si las Y son sistem aticamente mayores
n que las X, debiera haber
mas diferencias positivas que negativas. Sea entonces U = i=1 I(Zi > 0), que es Bi(n, p)
con p = P(Zi > 0). Supongamos F continua. Entonces la hip otesis nula de que no hay
efectos equivale a p = 0.5, y la alternativa unilateral de que las Y son mayores que las X
11.5. SOBRE EL USO DE LOS TESTS EN LA PRACTICA 141
equivale a p > 0.5, de manera que el test se reduce a un test unilateral de la binomial, ya
visto. Este es el test del signo. En el ejemplo, se tiene U = 11, que da para el test (11.3)
un estadstico igual a 3.32 con un valor p de 0.0005: nuevamente, suficiente evidencia de
que > 0. El procedimiento para el caso bilateral es an alogo.
Como todas las observaciones tienen en la practica una precisi
on finita, hay
nuna probabi-
lidad positiva de que haya Zi = 0. Para tener en cuenta este caso, sea M = i=1 I(Zi = 0).
Entonces se puede probar que
de modo que en general se hace el test como si las Zi nulas no existieran. En el ejemplo
anterior, si a las 11 anteriores agreg
aramos dos nulas, el resultado sera el mismo.
11.4.3 Comparaci
on de dos binomiales
Consideremos la situaci on en que se observan X1 Bi(n1 , p1 ) y X2 Bi(n2 , p2 ) indepen-
dientes, con n1 y n2 conocidos, y se desea testear H0 = {p1 = p2 } contra H1 = {p1 > p2 }
(o {p1 = p2 }). Los muy elementales metodos mostrados hasta ahora no permiten de-
ducir el test adecuado, de modo que lo daremos por decreto. Los EMV son obviamente
pj = Xj /nj (j = 1, 2), por lo cual el EMV de la diferencia = p1 p2 es = p1 p2 . La
on de bajo H0 . Sea
idea clave es que para obtener el test, conviene calcular la distribuci
p0 el valor comun de p1 y p2 bajo H0 . Entonces v = var( ) = p0 (1 p0 )n/n1 n2 , donde
acil deducir que bajo H0 , el EMV de p0 es p0 = X/n, con X = X1 + X2 ;
n = n1 + n2 . Es f
y por lo tanto el EMV dev es v = p0 (1 p0 )n/n1 n2 . En definitiva, se usa el pivote
aproximado T = ( )/ v , que bajo H0 = { = 0} es aproximadamente
N(0, 1); y en
consecuencia, el test unilateral rechaza cuando p1 p2 > z1 v .
Como el lector habra comprobado, aprender la teora elemental de los tests y el uso de los
correspondientes metodos no requiere m as que un poco de paciencia. Pero su aplicaci on
suele estar plagada de errores conceptuales, por falta de claridad en que significa lo que
se est
a haciendo, resultando a veces una aplicacion mecanica de recetas sin sentido. Es
entonces oportuno advertir al lector de algunos de estos puntos conceptuales. Para fijar
ideas, consideremos un test unilateral de comparacion de dos medias.
b) Que el test rechace H0 con un valor p muy peque no o sea, con un t muy grande no
significa que las dos medias sean muy diferentes: solo indica que hay mucha evidencia
de que hay alguna diferencia. Si n es muy grande, aunque sea peque na, el valor del
estadstico puede ser grande. Se puede hacer la siguiente comparacion: un observador
debe decidir si dos personas son iguales fsicamente. Si las mira desde 200 metros
(sin largavista) s
olo puede decir que no tiene suficientes elementos para decidir si son
distintos; y nadie podra tomar esto como una demostraci on de que son iguales. Por
otra parte, si los mira desde muy cerca, siempre podr a encontrar diferencias, aunque
se trate de dos gemelos (por ejemplo, las impresiones digitales).
Por lo tanto, si uno quiere tener una idea del tama no de la diferencia, no debiera
quedarse con el test, sino que debiera observar el estimador puntual y el intervalo de
confianza correspondientes. Una buena norma general sera: si un test detecta que
dos cosas son diferentes, hay que poder describir en que difieren.
c) Al elegir un test, es necesario recordar que no basta con tener en cuenta el error de
tipo I. Por ejemplo, un test que rechaza la hipotesis nula si el pr
oximo premio mayor
de la Lotera Nacional termina en 00, tiene un nivel de 0.01; pero es obviamente un
test idiota, porque la potencia es tambien de 0.01!.
11.6 Ejercicios
11.1 Con los datos del ejercicio 10.1, testear al nivel 0.05 las siguientes hip
otesis nulas:
a. = 1 contra = 1
b. 1 contra > 1
11.6. EJERCICIOS 143
11.2 Para un test bilateral basado en un pivote T con funci on de distribuci on G (Proposi-
ci
on 11.2), probar que si t es el valor observado de T , el valor p es 2 mn(G(t), 1G(t)).
11.3 Una de las m as celebres Leyes de Murphy [3] establece que si se deja caer al suelo
una tostada untada con dulce, la probabilidad de que caiga del lado del dulce es mayor
que la de que caiga del lado del pan. Para verificarla, se realiz
o un experimento en la
University of Southwestern Louisana, en el que se dejaron caer 1000 tostadas untadas
con mermelada de grosellas, de las cuales cayeron 540 del lado del dulce. Que se
podra concluir?.
11.5 Los fabricantes A y B producen el mismo tipo de cable de cobre. Los valores de
la resistencia a la tensi
on de dos muestras de cable (en libras) son:
A: 5110 5090 5120 5115 5105 5050 5075 5085
B: 5130 5050 5040 5045 5065 5120 5050.
Suponiendo normalidad, testear la igualdad de las resistencias medias de los cables
producidos por ambos fabricantes, con nivel 0.10.
11.8 Otra famosa ley de Murphy es: la probabilidad de un suceso es funci on creciente
del dano que causa. Para verificar esto, en la University of Southwestern Louisana
se dejaron caer 1000 tostadas untadas con mermelada de grosellas silvestres: 400 en
la cancha de basket de la Universidad, y 600 sobre una valiosa alfombra persa. De
las primeras, cayeron 220 del lado del dulce; y de las segundas, 350. Que conclusi
on
puede sacar?.
11.10 En la situaci
on del ejercicio 10.15, c
omo asignar las observaciones de manera de
maximizar la potencia de los tests para ?.
144
CAPTULO 11. TESTS DE HIPOTESIS
Captulo 12
yi 0 + 1 xi . (12.1)
12.1 El m
etodo de mnimos cuadrados
Para ajustar una relacion de la forma (12.1), una idea sensata es buscar los coeficientes
de forma que las diferencias yi (0 +1 xi ) entre observaci
on y predicci
on sean peque
nas.
Como en la Secci on 6.2.1, el criterio ser a buscar los coeficientes tales que
145
146 CAPTULO 12. AJUSTE DE UNA RECTA
x y x y
-2.17 11.88 14.50 8.47
-1.89 11.08 14.89 6.40
-1.72 12.19 15.17 10.09
-1.28 11.13 16.33 9.27
-0.67 12.51 21.11 6.83
0.78 10.36 21.11 8.11
1.83 10.98 21.50 7.82
3.94 9.57 21.83 8.73
7.00 8.86 22.28 7.68
8.00 8.24 23.56 6.36
8.22 10.94 23.61 8.88
9.17 9.58 24.83 8.50
14.17 9.14
Edad x (minutos): 8 22 35 40 57 73 78 87 98
Dispersi
on y: 6.16 9.88 14.35 24.06 30.34 32.17 42.18 43.23 48.76
n
i=1 (yi 0 1 xi )2 sea mnima. Este es el metodo de mnimos cuadrados, que desde
su creacion por el astr
onomo y matem atico frances Lagrange en el Siglo XVII, ha sido sin
duda el m as usado de los metodos estadsticos. El motivo de su popularidad es ya lo
adivina el lector que es el unico capaz de proporcionar resultados explcitos. Para hallar
ls soluci
on de
n
(yi 0 1 xi )2 = mn, (12.2)
i=1
n
(yi 0 1 xi )xi = 0. (12.4)
i=1
Pero esto es semejante a (6.14), y el lector puede verificar enseguida que la soluci
on es
Sxy
1 = , 0 = y 1 x
, (12.5)
Sx
12.1. EL METODO DE MNIMOS CUADRADOS 147
12
10
y
8
x
0 10 20 30
Figura 12.1: Uso de vapor vs. temperatura
donde n n
1 1
x
= xi , y = yi , (12.6)
n i=1 n i=1
n
Sx = )2 ,
(xi x (12.7)
i=1
n
n
n
Sxy = (xi x
)yi = xi (yi y) = (xi x
)(yi x
), (12.8)
i=1 i=1 i=1
50
40
30
20
10
0 x
0 20 40 60 80 100
y usando la definici
on de 1 y la segunda igualdad de (12.8) queda
n 2
Sxy
Sr = (yi y 1 xi )(yi y) = Sy , (12.13)
i=1
Sx
donde Sy = ni=1 (yi y)2 . De (12.13) es obvio que Sr Sy . Al valor 1 Sr /Sy se lo
llama coeficiente de determinaci on, y se lo suele designar con R2 . Mide que proporci
on
de la variabilidad de las y es explicada por las x (comparar con (6.16)).
En el ejemplo 12.A, se tiene
= 11.44, y = 9.344, Sx = 2208, Sy = 71.75, Sxy = 324.2;
x
de donde sale 0 = 11.02, 1 = 0.1468, y Sr = 71.90, R2 = 0.967. Observe que R2 es alto,
y sin embargo se ve en la figura que los datos no est
an pr
oximos a una recta. Lo que ocurre
es que R2 depende no s olo de Sr que mide cu an dispersas estan las y alrededor de la
recta sino tambien de Sx , que mide cu an dispersas estan las x respecto de su promedio.
12.1. EL METODO DE MNIMOS CUADRADOS 149
12.1.1 C
alculo num
erico de los coeficientes
Para calcular los coeficientes de (12.5) y medir el error, hacen falta las medias x , y y las
sumas Sx , Sxy y Sr . Para obtener estas u ltimas, lo m as natural es aplicar directamente
las definiciones (12.7), (12.8) y (12.12), lo que es adecuado si se dispone de computadora.
Pero si se debe usar una calculadora, hay un procedimiento que requiere menos operaciones.
Sean
n n n
Ax = x2i , Ay = yi2 , Axy = xi yi .
i=1 i=1 i=1
x2 , Sxy = Axy n
Sx = Ax n y2 .
xy, Sy = Ay n
Y Sr se puede calcular mediante (12.13). Este procedimiento tiene los mismos peligros
mostrados en el ejercicio 8.2. Para evitarlos, el remedio es el mismo: restar a las xi y a las
yi sendas constantes para que queden parejamente repartidas alrededor del 0.
12.1.3 Transformaciones
Algunos modelos no son de la forma (12.1), pero pueden ser llevados a ella. Por ejemplo,
si y axb y se quiere estimar a y b, una forma de hacerlo es tomar logaritmos, obteniendo
y a + bx con y = log y, a = log a, x = log x. Lo mismo sucede con modelos de la
forma y abx (ejercicios 12.10 y 12.8).
150 CAPTULO 12. AJUSTE DE UNA RECTA
Note que para conservar la simplicidad del c alculo, lo que importa es que los coeficientes
no los predictores figuren en forma lineal. Por ejemplo, y 0 + 1 x5 no ofrece
problema; pero s y + 2 x (pese a que aqu la x figura linealmente).
El ajuste de polinomios (por ejemplo y 0 + 1 x + 2 x2 ) excede el nivel de este libro.
Yi = 0 + 1 xi + Ui , (12.15)
donde 0 y 1 son par ametros desconocidos, las xi (i = 1, . . . , n) son fijas (o sea, no son
aleatorias), conocidas sin error, y las Ui son variables aleatorias iid. Este es el llamado
modelo lineal simple.
Adem as se supone:
Ui N(0, 2 ) (12.16)
con desconocida.
Calcularemos los EMV de los parametros (distinguiremos los estimadores de los
parametros desconocidos ). Como Yi N(i , 2 ) donde
i = E Yi = 0 + 1 xi ,
12.3 Distribuci
on de los estimadores
Para obtener inferencias sobre los estimadores, se necesita su distribuci
on. Teniendo en
cuenta que E Ui = 0 y (12.9), se deduce que las medias de los j son
n
(xi x
)i
E 1 = i=1 = 1 ,
Sx
n
1
E 0 = (0 + 1 xi ) 1 x
= 0 ;
n i=1
o sea que los estimadores son insesgados.
Por ser las Ui incorreladas, sale directamente de (12.5) que
2
var(1 ) = . (12.19)
Sx
Para calcular la varianza de 0 , lo escribimos explcitamente como combinaci
on lineal de
las Yi :
n
1 xi x
0 = x
Yi ; (12.20)
i=1
n Sx
y de aqu se obtiene
1 2
x
var(0 ) = 2
+ . (12.21)
n Sx
La interpretacion de (12.19) es que la varianza del estimador de la pendiente es tanto
menor cuanto m as desparramadas esten las xi . La de (12.21) es: como la recta pasa por
x, Y ), cuanto m
( as alejada este x
del 0, con menos precisi
on se puede estimar la ordenada
en el origen.
Usando (12.20) y (12.5), y teniendo en cuenta que cov(Yi , Yj ) = 0 para i = j, se prueba
que
x
cov(0 , 1 ) = 2 . (12.22)
Sx
Por u ltimo, los j son normales por ser combinaciones lineales de las Yi , que son
normales independientes.
12.4 Inferencia
Ahora veremos c omo obtener intervalos de confianza y tests para los par
ametros. Por
(12.11), los n sumandos de Sr no son independientes, pues cumplen dos restricciones.
Como el lector puede sospechar, se cumple un resultado an alogo a los Teoremas 10.3 y
10.4:
Teorema 12.1 Sr / 2 2n2 , y es independiente de (0 , 1 ).
152 CAPTULO 12. AJUSTE DE UNA RECTA
lo que permite obtener intervalos de confianza y tests para los parametros, en la forma ya
conocida.
En
el modelo Yi = xi + Ui de recta por el origen, el estimador2 (12.14) tiene varianza
2 / ni=1 x2i . El resultado analogo al Teorema 12.1 es que Sr / 2n1 (aqu los ri
cumplen una sola condici on), y es independiente de . En consecuencia,
n
2
xi tn1 .
Sr
i=1
Ejemplo 12.C: Galileo y la estrella nueva En 1572, el astr onomo danes Tycho
Brahe observ o un astro nuevo y muy brillante, cuyo brillo fue decreciendo hasta finalmente
extinguirse 18 meses m as tarde. Tycho verific
o que el nuevo astro permaneca fijo respecto
a las estrellas, y varios astr
onomos hicieron observaciones de su posici on desde distintos
puntos de Europa.
En el lenguaje actual, se trataba de una nova, producto de la desintegraci on de una
estrella. Pero en aquel tiempo primaba todava la doctrina de Arist oteles, seg
un la cual
las estrellas eran inmutables, es decir, no podan aparecer ni desaparecer; de modo que
determinar si el nuevo astro era una estrella tena serias implicaciones. Dicha doctrina
estableca adem as que las estrellas estaban a una distancia infinita. En 1632, Galileo
polemiz o con otros astr
onomos con el fin de probar que en efecto se trataba de una estrella.
Damos aqu una parte de las observaciones [8], que constan de dos angulos, altura del
polo x (que depende de la latitud del punto de observaci on) y altura mnima de la
estrella y (ambas en grados). La u ltima columna de la tabla se usar a en la Seccion 12.7.1.
La figura 12.3 muestra los datos.
Se puede mostrar que estos angulos cumplen una relaci on de la forma y = 0 + 1 x
donde 1 1 depende de la distancia a la estrella, y es igual a 1 si la distancia es infinita.
Esta relacion no se cumple exactamente con los datos observados, debido a los errores de
medicion. Para mostrar que se trataba de una estrella, Galileo deba probar que 1 = 1.
En aquel tiempo no existan Probabilidad ni Estadstica, y el analisis que hizo Galileo nos
parecera hoy innecesariamente complicado. Veamos c omo se podra plantear el problema
12.5. INTERVALOS DE PREDICCION 153
N
um. alt. polo alt. estrella residuo
1 55.97 27.75 -0.04
2 52.40 24.36 0.10
3 51.90 23.55 -0.22
4 51.30 23.05 -0.13
5 51.17 22.67 -0.38
6 49.40 22.00 0.70
7 48.37 20.16 -0.12
8 48.37 20.25 -0.03
9 39.50 11.50 -0.02
10 55.97 27.95 0.16
Combinaciones lineales
En general, sea = a0 + b1 cualquier combinaci on lineal de los par
ametros. Si se desean
intervalos de confianza o tests para , se siguen los mismos pasos que antes. El EMV de
es = a0 + b1 , cuya varianza v se obtiene aplicando (4.27); se la estima reemplazando
a por S, o sea v = a2 v0 + b2 v1 + 2abc .
Como depende s olo de (0 , 1 ), y v depende s
olo de S, se deduce del Teorema 12.1
que
tn2 . (12.24)
v
25
20
15
10 x
40 45 50 55
Yi = 0 + 1 Xi + Ui . (12.26)
Supongamos que
Xi y Ui son independientes (12.27)
y que las Ui tienen todas la misma distribuci on. De aqu resulta E(Yi |Xi ) = 0 + 1 Xi si
E Ui = 0 (ejercicio 12.5).
Si adem as se postula (12.16), es f acil calcular la funci
on de verosimilitud. Supongamos
para simplificar que D(Xi ) es continua, con densidad gi . Como (Xi , Yi ) es una trans-
formaci on lineal de (Xi , Ui ), su densidad conjunta se obtiene f acilmente aplicando (5.12),
lo que da (Xi , Yi ) f (x, y) = gi (x)h(y 0 1 x) donde h es la densidad de Ui . En
consecuencia la funci on de verosimilitud es
n
n
1 1 2
L(x1 , y1 , . . . , xn , yn ; 0 , 1 , ) = n/2 n
exp 2 (yi 0 1 xi ) gi (xi );
(2) 2 i=1 i=1
y de esto se deduce que los EMV son los mismos que para xi fijas: los de mnimos cuadrados.
Notemos que n1 Sx , n1 Sy y n1 Sxy son las varianzas muestrales de las X y de las Y ,
y la covarianza muestral. Por lo tanto, los estimadores son la versi on muestral de (6.14).
Sea
Sxy
=
Sx Sy
el coeficiente de correlaci acilmente que R2 = 2 .
on muestral. Entonces se prueba f
Las distribuciones de los estimadores dependen ahora de las distribuciones de las Xi .
Puede probarse que siguen siendo insesgados, y que su distribucion condicional en las Xi
es normal, pero que en general su distribucion no ser
a normal (ejercicio 12.6). En cambio
afortunadamente las distribuciones de Sr y de los estadsticos t no dependen de la de
los predictores:
12.6.1 Interpretaci
on de los resultados
Si bien las mismas formulas valen para xi fijas o aleatorias, las implicancias son distintas.
En el primer caso, se puede decir que si se hace que x aumente en , entonces y aumentar a
en media 1 . Pero este razonamiento no se puede extender al caso de xi aleatorias. Para
verlo, consideremos el siguiente ejemplo.
Ejemplo 12.D: Nacimientos y cig ue
nas La tabla 12.4 [5] da para la ciudad alemana
de Oldenburg los n
umeros de cig
ue
nas (x) y de habitantes (en miles) (y) al final de cada
a
no.
a
no: 1930 1931 1932 1933 1934 1935 1936
cig
ue
nas x: 130 148 175 185 247 253 255
habitantes (miles) y: 55 55 63 66 68 72 75
70
y
60
50 x
100 200 300
Figura 12.4: Habitantes vs. cig
ue
nas
que dichas aves nada tienen que ver con el nacimiento de los ni nos (puesto que estos nacen
de un repollo). Para completar el ridculo, nada impedira usar los datos al reves, para
concluir que un aumento del n umero de habitantes acarrea un aumento del de cig uenas.
Esto muestra que con datos observacionales, correlaci on no implica causalidad.
Cual puede ser entonces la explicaci
on de la correlacion?. Notemos que tanto las x
como las y aumentan con el tiempo, y eso es simplemente la causa. O sea: si dos variables
est
an muy correlacionadas, la causa puede ser una tercera variable que influye en ambas.
Esto no impide que las x sean buenos predictores de las y, mientras la situaci
on contin
ue
evolucionando de la misma manera. Pero si se quiere saber que ocurre al alterar las variables
del sistema, la u
nica forma de saberlo es alterarlas y ver que pasa.
0.4
r(i)
0 . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . ..
-0.4
-1 0 1
12.7.2 Gr
afico de residuos vs. predictores
Graficar ri vs. xi es muy util para los casos en que no se sabe cual es el modelo correcto
(o sea, las m
as de las veces). Los residuos son lo que queda de las y despues de quitarles
la influencia de las x. Si el modelo fuera correcto, los ri no debieran mostrar ninguna
dependencia de las xi ; en cambio, si el gr
afico muestra alguna estructura, quiere decir que
no estamos quitando de las y toda la influencia de las x.
Entonces, cuando el modelo no es conocido, y no teniendo otra informaci on sobre los
datos, puede comenzarse por ajustar una recta, y luego examinar el grafico de ri vs. xi ,
el que puede mostrar la necesidad de una transformaci on de las y y/o las x para llevarlos
a una forma lineal. Hallar la trasformaci on adecuada (si la hay) tiene bastante de arte, y
puede requerir varios ensayos.
Ejemplo 12.E: Otolitos Los otolitos son formaciones calc areas que hay en el odo de
los peces. Cuando un pez es comido por un predador, lo u nico que queda del primero en el
estomago o las heces del segundo, son los otolitos, lo que los hace un elemento importante en
el estudio de la alimentaci
on de seres marinos. Para aprovecharlos es necesario poder inferir
12.7. USO DE LOS RESIDUOS 159
el tamano de la vctima a partir del tamano del otolito. La tabla 12.5 da las longitudes
de los otolitos (x) y los pesos (y) de varios ejemplares de un pez antartico llamado pez
linterna. La figura 12.6 muestra los datos, que exhiben una relaci on aproximadamente
lineal con cierta curvatura.
500
yi
400
300
xi
5 6
log x. El gr
afico de residuos vs. predictores se ve en la figura 12.8. Si bien la forma es un
tanto extrana, no se ve mucha dependencia. Los coeficientes son -0.207 y 3.631.
10
ri
0 . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
-10
xi
5 6
12.8 Ejercicios
n
12.1 Probar que i=1 y
i ri = 0.
12.2 Los siguientes datos son las estaturas x en cm. y los pesos y en kg. de una muestra
de estudiantes. Hallar un intervalo de predicci
on de nivel 0.90 para los pesos de las
estudiantes con estatura 170 cm.
x 169.6 166.8 157.1 181.1 158.4 165.6 166.7 156.50 168.1 165.3
y 71.2 58.2 56.0 64.5 53.0 52.4 56.8 49.20 55.6 77.8
12.3 En el ejemplo 12.B, calcular intervalos de confianza de nivel 0.95 para (a) la pendiente
(b) la varianza del error (c) la media de la dispersi
on correspondiente a 50 minutos.
.002
ri
0 . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
-.002
log(xi )
0.7 0.8
12.9 Obtener el EMV en el modelo de recta por el origen con varianzas distintas: Yi =
xi +Ui con Ui N(0, i2 ) donde i2 = ki con desconocida y ki conocidas (cuadra-
dos mnimos ponderados). Hacerlo en particular para (a) ki = |xi | y (b) ki = x2i .
12.10 La presion de disociacion p para una reaccion del nitrato de bario depende de la
temperatura absoluta t seg un la relaci
on p = exp(a + b/t). Con los datos de la tabla
12.8 [14] estimar a y b y sus errores standard. Examinar los residuos.
12.11 La tabla 12.9 da una serie de mediciones realizadas en los Alpes a distintas al-
on del agua en 0 C (x) y presi
turas: temperatura de ebullici on atmosferica en mm.
de mercurio (y).
a. Ajuste una recta y haga el gr
afico de residuos vs. predictores Nota algo en
particular?.
12.8. EJERCICIOS 163
Temp. Presi
on Temp. Presi
on
748 0.48 1025 710
770 0.92 1030 1040
795 1.64 1048 1230
844 7.87 1082 2360
874 19.0 1112 3980
927 80.0 1133 5230
958 168.0 1135 5810
1000 490.0 1150 7240
x y x y
90.28 519.75 94.06 600.25
90.17 519.75 95.33 628.50
92.17 560.00 95.89 664.25
92.44 566.75 98.61 712.25
93.00 578.75 98.11 694.00
93.28 583.75 99.28 726.00
93.83 597.25 99.94 749.50
93.94 599.75 100.11 751.50
94.11 600.50
12.12 Los datos de la tabla 12.10 son los caudales medios de un ro, medidos en dos puntos
diferentes (x corresponde a aguas arriba de y).
a. Ajustar una recta para predecir y en funci
on de x, y graficar residuos vs. pre-
dictores. Se observa algo llamativo?.
b. Repetir el an
alisis sin la u
ltima observaci
on. Que se ve ahora?.
164 CAPTULO 12. AJUSTE DE UNA RECTA
x y x y
17.60 15.70 32.60 24.90
20.90 18.00 33.40 26.10
21.60 19.90 35.10 27.60
26.00 23.40 37.00 26.10
27.10 19.70 38.70 31.30
27.60 23.10 77.60 44.90
27.80 23.80
Ap
endice A
TABLAS
Normal
La siguiente aproximaci
on para los cuantiles z de N(0, 1) [10, Cap. 10] tiene un error
menor que 1.3 104 para 107 < < 0.5:
1/2
{(4y + 100)y + 205}y 2
z1 ,
{(2y + 56)y + 192}y + 131
Chi-cuadrado
Si Z 2m , las variables
X= 2Z
2m 1,
1/3
Z 2 9m
X= 1 ,
m 9m 2
son aproximadamente N(0, 1) para m grande. Esto se puede usar para aproximar la funci
on
de distribuci
on. La segunda aproximaci
on llamada de Wilson-Hilferty es mucho m as
165
166
APENDICE A. TABLAS
Student
Los cuantiles de tm se pueden aproximar para m grande con la f
ormula de Peiser:
1 + z2
tm, z 1 + .
4m
z z z z z z
0.50 0.000 0.60 0.253 0.70 0.524 0.80 0.841 0.90 1.282 0.991 2.366
0.51 0.025 0.61 0.279 0.71 0.553 0.81 0.878 0.91 1.341 0.992 2.409
0.52 0.050 0.62 0.305 0.72 0.582 0.82 0.915 0.92 1.405 0.993 2.458
0.53 0.075 0.63 0.331 0.73 0.612 0.83 0.954 0.93 1.476 0.994 2.513
0.54 0.100 0.64 0.358 0.74 0.643 0.84 0.994 0.94 1.555 0.995 2.576
0.55 0.125 0.65 0.385 0.75 0.674 0.85 1.036 0.95 1.645 0.996 2.652
0.56 0.151 0.66 0.412 0.76 0.706 0.86 1.080 0.96 1.751 0.997 2.748
0.57 0.176 0.67 0.439 0.77 0.739 0.87 1.126 0.97 1.881 0.998 2.879
0.58 0.202 0.68 0.467 0.78 0.772 0.88 1.175 0.98 2.054 0.999 3.091
0.59 0.227 0.69 0.495 0.79 0.806 0.89 1.227 0.99 2.327 0.9995 3.291
169
m .005 .010 .025 .050 .100 .900 .950 .975 .990 .995
1 .00004 .00016 .00098 .004 .016 2.706 3.843 5.025 6.636 7.881
2 .010 .020 .050 .102 .210 4.605 5.991 7.377 9.210 10.60
3 .071 .114 .215 .351 .584 6.251 7.814 9.348 11.34 12.83
4 .206 .297 .484 .710 1.063 7.779 9.487 11.14 13.27 14.86
5 .411 .554 .831 1.145 1.610 9.236 11.07 12.83 15.08 16.74
6 .675 .872 1.237 1.635 2.204 10.64 12.59 14.44 16.81 18.54
7 .989 1.239 1.689 2.167 2.833 12.01 14.06 16.01 18.47 20.28
8 1.344 1.646 2.179 2.732 3.489 13.36 15.50 17.53 20.09 21.95
9 1.735 2.087 2.700 3.325 4.168 14.68 16.91 19.02 21.66 23.58
10 2.155 2.558 3.247 3.940 4.865 15.98 18.30 20.48 23.20 25.18
11 2.603 3.053 3.815 4.574 5.577 17.27 19.67 21.91 24.72 26.75
12 3.073 3.570 4.404 5.226 6.303 18.54 21.02 23.33 26.21 28.29
13 3.565 4.106 5.008 5.892 7.041 19.81 22.36 24.73 27.69 29.81
14 4.074 4.660 5.629 6.571 7.789 21.06 23.68 26.11 29.14 31.31
15 4.601 5.229 6.261 7.260 8.546 22.30 24.99 27.48 30.57 32.79
16 5.142 5.812 6.907 7.961 9.312 23.54 26.29 28.84 32.00 34.26
17 5.697 6.408 7.564 8.672 10.12 24.80 27.59 30.19 33.41 35.72
18 6.264 7.014 8.231 9.390 10.86 25.98 28.86 31.52 34.80 37.15
19 6.844 7.633 8.907 10.12 11.73 27.19 30.14 32.85 36.19 38.58
20 7.433 8.259 9.590 10.85 12.44 28.41 31.41 34.16 37.56 39.99
22 8.641 9.542 10.98 12.33 14.04 30.81 33.91 36.77 40.28 42.79
25 10.51 11.52 13.11 14.61 16.47 34.38 37.64 40.64 44.31 46.92
30 13.78 14.95 16.79 18.49 20.59 40.25 43.77 46.97 50.89 53.66
170
APENDICE A. TABLAS
.80 .90 .95 .975 .99 .995
1 1.376 3.077 6.314 12.70 31.82 63.65
2 1.060 1.885 2.919 4.302 6.964 9.925
3 .978 1.637 2.353 3.182 4.540 5.841
4 .940 1.533 2.131 2.776 3.747 4.604
5 .919 1.475 2.015 2.570 3.364 4.031
6 .905 1.439 1.943 2.446 3.142 3.707
7 .895 1.414 1.894 2.364 2.997 3.499
8 .888 1.396 1.859 2.306 2.896 3.355
9 .883 1.383 1.833 2.262 2.821 3.250
10 .879 1.372 1.812 2.228 2.763 3.169
11 .875 1.363 1.795 2.201 2.718 3.105
12 .872 1.356 1.782 2.178 2.681 3.054
13 .870 1.350 1.771 2.160 2.650 3.012
14 .868 1.345 1.761 2.144 2.624 2.976
15 .866 1.340 1.753 2.131 2.602 2.946
16 .864 1.336 1.745 2.119 2.583 2.920
18 .862 1.330 1.734 2.100 2.552 2.878
20 .859 1.325 1.724 2.085 2.528 2.845
22 .858 1.321 1.717 2.073 2.508 2.818
25 .856 1.316 1.708 2.059 2.484 2.787
30 .853 1.310 1.697 2.042 2.457 2.750
.842 1.282 1.645 1.960 2.326 2.576
Bibliografa
[1] Best, D. y Rayner, J. (1987), Welchs Approximate Solution for the Behrens-Fisher
Problem, Technometrics, vol. 29, pp. 205-210.
[2] Bickel, P. y Doksum, K. (1976), Mathematical Statistics, Holden-Day.
[3] Bloch, A. (1987), Ley de Murphy y Otras Razones Porque las Cosas Salen Mal,
Editorial Diana.
[4] Blyth, C. (1986), Approximate Binomial Confidence Limits, Journal of the Ameri-
can Statistical Association, vol. 81, pp. 843-855.
[5] Box, G., Hunter, W. y Hunter, J. (1978) Statistics for Experimenters, John Wiley
and Sons.
[6] Draper, N. y Smith, H. (1981) Applied Regession Analysis, 2a Edici
on, John Wiley
and Sons.
[7] Feller, W. (1980), Introducci
on a la Teora de Probabilidad y sus Aplicaciones,
Limusa.
[8] Hald, A. (1986), Galileos Statistical Analysis of Astronomical Observations, Inter-
national Statistical Review, vol. 54, pp. 211-220.
[9] Hoaglin, D., Mosteller, F. y Tukey, J. (1983), Understanding Robust and Exploratory
Data Analysis, John Wiley and Sons.
[10] Hoaglin, D., Mosteller, F. y Tukey, J. (1985), Exploring Data Tables, Trends, and
Shapes, John Wiley and Sons.
[11] Jacovkis, P.M. (1995), Computaci
on, Azar y Determinismo, Ciencia Hoy, vol. 5,
No. 28, pp. 44-50.
[12] Knuth,D. (1969), The Art of Computer Programming, Addison-Wesley.
[13] Montgomery, D. y Peck, E. (1982), Linear Regression Analysis, John Wiley and Sons.
[14] Rice, J.A. (1995), Mathematical Statistics and Data Analysis, Duxbury Press.
171
172 BIBLIOGRAFA
[15] Ripley, B.D. (1987) Stochastic Simulation, John Wiley and Sons.
[16] Ross, S. (1987) , Introduction to Probability and Statistics for Engineers and Scien-
tists, John Wiley and Sons.
[17] Scheffe, H. (1967) The Analysis of Variance, John Wiley and Sons.
[18] Shah, I. (1993) Las Andanzas del Incomparable Mulah Nasruddin, Editorial Paid
os.
[19] Staudte, R y Scheater, S. (1990) Robust Estimation and Testing, John Wiley and
Sons.
[20] Stigler, S. (1977), Do Robust Estimators Deal with Real Data?, The Annals of
Statatistics, vol. 5, pp. 1055-1098.
[21] Weisberg, S. (1980), Applied Linear Regression, John Wiley and Sons.
INDICE ALFABETICO
aditividad finita 6 por continuidad 87
agrupados (datos) 98 de Shepard 99
alternativa 134 correlaci
on 53, 79
aproximaci on muestral 156
a los cuantiles de la normal 165 covarianza 52
normal a la distribucion: cuantiles 56
binomial 86,92 muestrales 97
chi-cuadrado 132, 165 cuartiles 57
de Poisson 87, 90 cumplea nos 9
de Student 166
de Poisson a la binomial 21 densidad 31
asimetra 59 conjunta 38
asociacion de eventos 14 desigualdad
de Bonferronni 9
censura 34 de Chebychev 52
cociente de variables 66 de Markov 48
normales 70 desviaci on
coeficiente absoluta 58
de determinaci on 148 mediana 58
de variacion 51 tpica 51
combinaciones 7 diagrama
comparaci on de cuantiles 100, 101
de dos binomiales 141 de caja 97
de muestras apareadas 129 de residuos 157
de muestras independientes 127, 128 de tallo y hoja 96
conjunto cerrado 142 distancia intercuartiles 58
consistencia 111 distribucion
convergencia binomial 20, 29, 49, 54
debil 86 binomial negativa 30, 40, 44
en probabilidad 83 de Cauchy 42, 43, 65, 70
en distribucion 86 chi-cuadrado 119
convoluci on 64 doble exponencial 70
coordenadas polares 68 exponencial 32, 49, 108
correccion Gama 33
173
174 INDICE ALFABETICO
robusto 140
del signo 141
tiempo de espera 16
en el esquema de Bernouilli 40, 74
en el proceso de Poisson 34, 41
transformaciones
de dos variables 67
de los par
ametros 110
de una variable 34
truncamiento 42
Tukey 96
valor p 136
valor medio 45
variable aleatoria 27
variaciones 7
varianza 51
condicional 75
muestral 95
de una suma 53
von Mises 4
Welch 129
Wiener 88
Wilson-Hilferty 165
INDICE ALFABETICO 177