Libro Estadistica

CAPITULO I PROBABILIDADES
Existen muchos caminos para llegar al concepto de probabilidad, sin embargo, el ms primitivo, simple y manejable, para cientficos e investigadores que deban aplicar resultados de probabilidades a problemas concretos del mundo real, consiste en repetir un experimento o juego muchas veces bajo las mismas condiciones, y calcular la frecuencia relativa con que ocurre un determinado suceso de inters. Lo anterior significa que el nmero de veces que se haya realizado el suceso debe dividirse por el nmero total de veces que se hizo el experimento o se jug la partida. A este cociente se le llama frecuencia relativa del suceso. Por ejemplo, cuando decimos que en determinadas condiciones un tirador hace blanco en el 96% de los casos, ello quiere decir que por cada 100 disparos efectuados por l en condiciones similares, en promedio, 96 dan en el blanco. De esta forma, el nmero 0.96 proporciona un ndice de la puntera de nuestro tirador; esto es, el nmero de blancos efectuados en idnticas condiciones de tiro ser casi siempre el mismo. La forma actual de acercarse a la nocin de probabilidad consiste en adoptar un punto de vista abstracto, donde se parte de un conjunto de axiomas y a partir de ellos se deducen y demuestran propiedades adicionales de las probabilidades. Este es el enfoque axiomtico de las probabilidades que emplearemos en este texto y, como veremos, proporciona una descripcin matemtica del concepto de probabilidad. La teora de probabilidades proporciona las herramientas bsicas para construir y analizar modelos matemticos para fenmenos aleatorios. El estudio de estos fenmenos est relacionado con experimentos cuyos resultados no pueden ser predichos con certeza.
1.1. Espacio Muestral, Eventos Cuando se efecta un experimento, muchas veces no se sabe con certeza el resultado que se va a obtener; por ejemplo, si lanzamos una moneda al aire, no sabemos si sta, al caer, mostrar una cara o un sello. En tal caso, el experimento se dice No-determnistico o Aleatorio. En cambio, si al realizar un experimento sabemos de antemano cul ser el resultado, decimos que el experimento es de tipo Determnistico; por ejemplo, la cada de un cuerpo en un campo gravitacional, la aceleracin que adquiere un cuerpo al caer en el vacio, etc. En general, hablaremos de experimento para referirnos a cualquier operacin cuyo resultado no puede ser predicho con certeza antes de realizarlo. 1
Al desarrollar un experimento tendremos, como consecuencia, un conjunto de resultados posibles asociados a dicho experimento, que llamaremos Espacio Muestral y que denotaremos por H. Este conjunto tiene varias caractersticas que veremos a continuacin. Si el espacio muestral H tiene un nmero finito o infinito numerable de elementos, diremos que H es Discreto. Por el contrario, si H tiene como elementos todos los puntos de algn intervalo de la recta real, diremos que H es un espacio muestral Continuo. Ejemplo. Seleccionemos al azar una ficha desde una caja que contiene seis. Entonces el experimento consiste en la extraccin de una ficha. Si las fichas estn numeradas del 1 al 6, entonces H = {1,2,3,4,5,6}, con lo que el resultado de una extraccin es un nmero entre 1 y 6. Consideremos ahora la misma caja y supongamos que extraemos dos fichas a la vez. Los resultados de las dos extracciones los podemos denotar como pares ordenados (i,j), i=1,..,6, j=1,..,6, i j, donde la primera componente denota el nmero de la primera ficha extrada y la segunda el nmero de la otra ficha. En este caso el espacio muestral H tendr 30 elementos. As, H = { (i,j); i= 1,..,6; j=1,..,6, i j }. Finalmente, es claro que en ambos casos H es un conjunto discreto. Llamaremos Evento o Suceso a un subconjunto cualquiera del espacio muestral. Todo subconjunto es un evento; en particular H mismo es un evento, llamado suceso seguro, y el conjunto vacio F tambin es un evento llamado suceso imposible. Diremos que un evento A ocurre si el resultado del experimento es un elemento de A. Por otra parte, dado que los eventos son subconjuntos de H, se puede aplicar la teora de conjuntos para obtener nuevos eventos. As, diremos que el evento A B ocurre si y slo si ocurre A o ocurre B, o ambos a la vez (por lo menos uno de ellos ocurre). El evento A B ocurre si y slo si ocurren A y B a la vez (o uno primero y luego el otro). Finalmente, diremos que el complemento de A, A- , ocurre si y slo si no ocurre A. Llamaremos Evento Elemental a un subconjunto que tiene slo un elemento. En caso contrario, hablaremos de Evento Compuesto. Ejemplo. Consideremos el experimento de observar las caras que muestran dos dados al ser lanzados al aire. El espacio muestral es 2
H = { (i,j); i=1,..,6; j=1,..,6}. Este experimento tiene 36 eventos elementales. Definamos los eventos siguientes: A" : "La suma de los dos nmeros es divisible por tres". A# : "Los dos dados muestran el mismo nmero". A$ : "El segundo nmero es el cuadrado del primero". Evidentemente estos eventos son compuestos y podemos describirlos como: A" = { (i,j) H : i+j=3n, n=1,2,3,4} = {(1,2),(2,1),...,(5,4),(6,6)}. A# = { (i,j) H : i=j } = {(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)}. A$ = { (i,j) H: j=i# } = {(1,1),(2,4)}. Tambin podemos formar los eventos A# A$ = {(1,1), (2,2), (3,3), (4,4), (5,5), (6,6), (2,4)}. A1 A3 = {(2,4)}, ..., etc.
1.2. Formas de Contar Uno de los problemas que el estadstico debe intentar evaluar es el elemento de azar, asociado con la ocurrencia de ciertos eventos de inters, cuando se realiza un experimento. Esta situacin en realidad pertenece al campo de las probabilidades propiamente tal, que veremos en las secciones siguientes. Sin embargo, un problema que va muy ligado al anterior es el de contar el nmero de elementos del espacio muestral asociado a un experimento con un nmero finito de resultados y, en particular, el nmero de elementos que pertenecen a un evento o suceso especfico. As, ms que listar o enumerar los elementos de un espacio muestral, interesa contar los elementos correspondientes. El principio fundamental del conteo es el llamado principio de multiplicacin. Principio de Multiplicacin. Si una operacin consta de dos etapas: la primera de las cuales puede realizarse de n" formas y la segunda de n# formas, entonces la operacin completa puede realizarse de n" n# formas. 3
Ejemplo. Supongamos que un residente de la ciudad de Santiago decide salir de vacaciones un fin de semana. Para este efecto, tiene como alternativas Valparaso, Serena, Los Andes y Concepcin, y l puede ir en bus, tren o auto. De cuntas formas diferentes puede l realizar esta operacin de salir de vacaciones?. El lugar para vacacionar puede ser elegido en n" =4 formas y el medio de transporte en n# = 3 formas. El viaje completo puede llevarse a cabo, de acuerdo al principio multiplicativo, en 4 3=12 formas posibles. Un diagrama de rbol que representa la situacin descrita en este ejemplo, aparece en la Figura 1.1. El primer conjunto de ramas del rbol representa las cuatro opciones de la primera etapa y el segundo conjunto de ramas representa las tres alternativas de la segunda etapa. Valparaso Serena tren auto bus tren auto bus Los Andes tren auto bus Concepcin tren auto Figura 1.1. Diagrama de rbol bus
Ejemplo. Cuntos resultados posibles se pueden obtener si lanzamos al aire dos dados distinguibles?. El primer dado puede caer en cualquiera de seis formas. Para cada una de estas seis formas, el segundo dado puede tambin caer en seis formas. Por lo tanto, el par de dados puede caer de 6 6 = 36 formas. El principio de multiplicacin puede extenderse en forma natural a una operacin que consiste de k etapas. En este caso la operacin completa puede realizarse de n" n# . ... nk formas.
Ejemplo. Un autoservicio dispone de 4 tipos de sopa, 3 tipos de sandwich, 5 postres diferentes y 4 tipos de bebida. Un almuerzo consiste de una sopa, un sandwich, un postre y una bebida. Cuntos almuerzos diferentes son posibles?. Aqu la operacin completa consta de 4 operaciones diferentes; las operaciones de elegir el tipo de sopa, el tipo de sandwich, el tipo de postre y el tipo de bebida, se pueden realizar de 4, 3, 5 y 4 formas diferentes, respectivamente. Por lo tanto, la operacin completa de elegir un almuerzo determinado puede realizarse de 4 3 5 4 = 240 formas distintas, en virtud del principio multiplicativo. Definicin. Consideremos n objetos diferentes (o por lo menos distinguibles). El nmero de arreglos de orden k con repeticin est dado por nk . Ejemplo. Si tenemos tres fichas A, B, C, en una caja y la operacin consiste en extraer dos fichas con repeticin, entonces el nmero de arreglos es 32 ; esto es, {AA, BB, CC, AB, BA, AC, CA, BC, CB}. Definicin. Llamaremos permutacin de n smbolos a cualquier arreglo de los n smbolos en un orden definido. El nmero de permutaciones de un conjunto con n smbolos es n! = n(n 1)(n 2)...321 Ejemplo. Consideremos todas las permutaciones posibles con las letras A, B y C. Para ello notamos que A puede ocupar 3 posiciones, B y C pueden ocupar 2 y 1 posiciones, respectivamente. As, tenemos 3 2 1 = 6 permutaciones distintas, las que podemos denotar como ABC, ACB, BAC, BCA, CAB, CBA. Ejemplo. Supongamos que de entre un grupo de personas deseamos elegir un Presidente, un Secretario y un Tesorero. De cuntas formas se puede hacer la eleccin si hay 10 candidatos y en el entendido que una persona puede ocupar slo un cargo?. Tenemos 10 alternativas para la eleccin del Presidente, una vez elegido ste quedan 9 alternativas para la eleccin de Secretario y luego 8 para la de Tesorero. Por el principio de multiplicacin hay 10 9 8 = 720 modos diferentes de realizar esta operacin completa. La situacin del ejemplo anterior corresponde al nmero de permutaciones u ordenaciones de 3 elementos elegidos de un total de 10 elementos.
Definicin. El nmero de k-uplas que podemos formar usando n smbolos diferentes (k<n), cada uno una sola vez, se llama permutacin de n objetos tomando k a la vez. La notacin es Pn k . Utilizando el principio multiplicativo tenemos que Pn k lo podemos escribir n! n como Pk = n(n 1).....(n k+1), o equivalentemente Pn k = (nk)! Ejemplo. Supongamos que 20 atletas entran en una competencia para los 1500 metros. De cuntas formas diferentes se pueden repartir los tres primeros lugares?. En cuntas de estas formas tendramos al atleta nmero 5 en primer lugar?. La primera pregunta corresponde a cul es el nmero de permutaciones de 20 objetos tomando tres a la vez?. Entonces la respuesta es
20! P#! $ = 17! = 6840.
Para la segunda pregunta, dado que deseamos que un atleta especfico resulte en el primer lugar, slo podemos elegir para los lugares restantes, por lo que
19! P"* # = 17! = 342
son las formas diferentes mediante las cuales ocupamos las dos ltimas posiciones de la terna. Las permutaciones que ocurren cuando se arreglan objetos en un crculo son llamadas permutaciones circulares. Dos permutaciones circulares no son consideradas distintas a menos que los objetos correspondientes en los dos arreglos estn precedidos o seguidos por un objeto diferente cuando procedemos en direccin horaria. Por ejemplo, si cuatro personas estn jugando domin, no tenemos una nueva permutacin si todos se mueven de posicin en el sentido horario. Sin embargo, si consideramos una persona en una posicin fija y arreglamos los 3 restantes en 3! formas, encontramos que hay 6 arreglos distintos para este juego. As, tenemos el siguiente resultado dado como una definicin. Definicin. El nmero de permutaciones de n objetos distintos arreglados en un crculo es (n 1)!. Hasta aqu hemos supuesto que los n objetos considerados son distintos. As, no podemos aplicar nuestros resultados para determinar el nmero de formas en las cuales podemos arreglar las letras de la palabra : "ojos" o las letras en la palabra "osono" por ejemplo. Esto se resuelve utilizando permutaciones con repeticin. Si consideramos por ejemplo las letras a, b, c, y si las letras b y c 6
son ambas iguales a x, entonces las 6 permutaciones de las letras a, b, c se transforman en axx, axx, xax, xxa, xax, xxa, de las cuales slo 3 son distintas. As, con 3 letras, de las cuales dos son iguales, tenemos 3!/(2!1x)=3 permutaciones distintas. Este caso corresponde a permutaciones con repeticin. Definicin. El nmero de permutaciones de n objetos, de los cuales n" son de un tipo, n# de un segundo tipo,..., nk son del tipo k-simo, est dado por
n! n" !.n# !...nk !
Ejemplo. Cuntas permutaciones existen con las letras de la palabra "osono"?. Considerando todas las letras como distinguibles tenemos 5! permutaciones; pero la letra "o" se repite tres veces. Luego hay 5!/(3!1x) = 20 arreglos diferentes de las letras de la palabra osono. Ejemplo. De cuntas formas puede una persona recolectar informacin para una investigacin de mercado si entrevista a 3 de las 20 familias que viven en un edificio de departamentos?. Tomando en cuenta el orden tenemos P#! $ = 6840 arreglos posibles; pero cada conjunto de 3 puede ser considerado 6 veces. As, hay 6840/6 = 1140 formas distintas de obtener informacin. Frecuentemente estamos interesados en particionar un conjunto en varias clases o categoras. Esto lo podemos realizar de acuerdo a la definicin siguiente: Definicin. El nmero de formas de particionar un conjunto de n objetos distintos en k subclases, con n" objetos en el primer subconjunto, n# en el segundo,..., nk en el k-simo subconjunto, es:
donde !k " ni = n.
n" , n#n,...,nk = Pn n" n# nk =
n! n" !n# ...nk !
Ejemplo. De cuntas formas puede un conjunto de 4 elementos ser particionado en tres subconjuntos conteniendo 2, 1 y 1 objetos, respectivamente? Sean a, b, c, y d los objetos. Tenemos por enumeracin las siguientes 12 posibilidades, donde los dos primeros elementos pertenecen al primer subconjunto, el tercero al segundo y el cuarto al tercer subconjunto 7
ab c d ad b c bd a c
ab d c ad b c bd c a
ac b d bc a d cd a b
ac d b bc d a c d b a.
El nmero de particiones en este caso esta dado por:

% #"" = 4! 2!1!1!
=12.
Notemos que cuando trabajamos con permutaciones, las k-uplas consideradas deben tener un orden definido. Esta es la razn de ser de las permutaciones. En muchas aplicaciones estamos interesados en el nmero de formas de seleccionar k objetos desde un conjunto que contiene n, sin importar el orden. Este tipo de seleccin se llama combinacin. Una combinacin es, en general, una particin en dos celdas, una de las cuales contiene k objetos y la otra contiene los n-k objetos restantes. El nmero de tales combinaciones debera n n denotarse como k,n-k ; sin embargo, se utiliza la notacin k puesto que el nmero de elementos en la segunda celda debe ser n-k. Definicin. Llamaremos combinacin de n objetos, tomando k a la vez, al nmero de subconjuntos, cada uno de tamao k, que tiene un conjunto de n elementos. Notemos que ahora los subconjuntos no necesitan estar ordenados. As, si n conocemos k y multiplicamos por k! deberamos obtener Pn k ya que cada subconjunto diferente de k elementos dar origen a k!-uplas diferentes. Entonces tenemos que:
n k k! =
n! (nk)!
= Pn k
de donde
n k =
n (nk)!k!
Ejemplo. Un "grafo completo de orden tres" est definido por 3 puntos conectados en todas las formas posibles. Si 15 puntos son unidos en todas las formas posibles, Cuntos grafos completos de orden 3 deberan incluirse?. Cuntos de orden 4, 5,...,15?. Dado que todos los puntos estn unidos, se trata de elegir 3 puntos cualesquiera de los 15, en cualquier forma; es decir, es el nmero de subconjuntos de 3 8
elementos que podemos extraer de un conjunto de 15 elementos. As, hay "& $ "& "& = 455 grafos completos de orden 3, % ,... y "& grafos completos de orden 4, ... y 15, respectivamente. Notemos que:
n La expresin k recibe usualmente el nombre de coeficiente binomial y est relacionada con el teorema del binomio, el cual nos da la expansin de (x+y)n para cualquier x e y real, en la expresin
n k =
n! (nk)!k!
n k n" n = n k = k + k" .
n i ni . (x+y)n = !n i! i x y
Una aplicacin inmediata del teorema del binomio, consiste en determinar el nmero total de eventos que se pueden definir en un espacio muestral que tiene n elementos. Para ver esto, notemos que: el nmero de eventos con 0 elementos n n es 1= 0 y corresponde al evento F; hay n = 1 eventos con 1 elemento y corresponden a los n eventos elementales; con 2 elementos se pueden definir n , con 3 elementos se pueden definir n eventos,....,con n-1 elementos se 2 3 n pueden definir n-1 y, finalmente, con n elementos tenemos 1 evento que corresponde al mismo H. Por lo tanto, el nmero total de eventos a definir es
n n + n + n +....+ n + n = ! n
n-1
i=0
= ! i 1i 1n-i = (1+1)n = 2n .
n
i=0
1.3. Axiomas de Probabilidad Al efectuar un experimento es necesario "medir", de alguna manera, los eventos o sucesos que ocurren. La teora matemtica de probabilidades nos da la forma de proceder. En general, las probabilidades estn relacionadas con la asignacin de nmeros a la ocurrencia de los eventos, los cuales se llaman probabilidades de dichos eventos. Definicin. Una probabilidad es una funcin de conjunto, real valuada, definida sobre una clase T de subconjuntos del espacio muestral H, tal que a un subconjunto cualquiera A de T le asocia un nmero P(A), llamado probabilidad de A, y que debe satisfacer los siguientes axiomas: 9
Ax.1.- P(H) = 1 Ax.2.- P(A) 0 Ax.3.- P( Ai ) = ! P(Ai ), a Ai Ej =F, i j . i i En realidad T es una clase bien especfica: una 5 -lgebra. Esta clase incluye al conjunto F, al espacio H y es cerrada bajo uniones e intersecciones numerables de sus conjuntos. Es claro adems que la clase de todos los subconjuntos de H es una 5-lgebra. Sin embargo, en el desarrollo de los conceptos bsicos de probabilidad, esta particular 5 -lgebra es muy grande y poco prctica. En general, consideraremos la menor clase de subconjuntos de H que constituya una 5 -lgebra y contenga todos los conjuntos y elementos bajo consideracin. La formulacin de los axiomas de probabilidad completa la descripcin matemtica de un experimento aleatorio. Esta consta de tres elementos fundamentales: un espacio muestral H, una 5 -lgebra de eventos T, y la funcin de probabilidad P. La terna ordenada (H, T, P) constituye un espacio de probabilidad asociado a un experimento aleatorio. Los tres axiomas recin enunciados definen una funcin de conjunto contablemente aditiva y no negativa. Enseguida, partiendo de estos tres axiomas fundamentales, veremos algunas propiedades y consecuencias importantes de una probabilidad. En todo experimento aleatorio, el espacio muestral H juega el papel de conjunto universal de manera que todos los complementos son tomados con respecto a H. Teorema 1.1. Sean A y B dos eventos arbitrarios. Entonces (a) P(F) = 0 (b) P(A- ) = 1 P(A), donde Ac es el complemento de A (c) Si A B, entonces P(A) P(B). (d) Si A B, entonces P(B A) = P(B) P(A). Demostracin. Dado que H y F son disjuntos, por Ax.3 tenemos que P(H ) = P(H F) = P(H) + P(F ). Se sigue entonces por Ax.1 que 1 = 1 + P(F) o P(F) = 0, y luego (a). Para (b) notemos que A y A- son disjuntos, entonces aplicando Ax.3 y Ax.1 tenemos 10
1 = P(H ) = P(A A- ) = P(A) + P(A- ), de donde P(A- ) = 1 P(A). Finalmente, para (c) y (d), si A B entonces B = A (B A- ) y A (B A- ) = F. Enseguida, aplicando Ax.3 tenemos P(B) = P(A (B A- )) = P(A) + P(B A- ) = P(A)+ P(B A)
(1.1)
para (c) tenemos de inmediato que P(A) P(B) por Ax.2 y (d) se obtiene despejando P(B A) en (1.1). Observacin. Como un corolario de la parte (c) del Teorema 1.1, se tiene de inmediato que P(A) 1. Teorema 1.2. Dados dos eventos arbitrarios A y B, se tiene: P(A B) = P(A) + P(B) P(A B). (1.2)
Demostracin. Sean A y B eventos, entonces de la teora de conjuntos tenemos que A B = A (B A- ). Enseguida utilizando Ax.3, P(A B) = P(A (B A- )) = P(A) + P(B A- ). (1.3)
Por otra parte, B = (A B) (B A- ) y aplicando nuevamente Ax.3 P(B A- ) = P(B) P(A B). Sustituyendo en ecuacin (1.3) obtenemos la ecuacin (1.2). El resultado de este teorema podemos generalizarlo inmeditamente y en forma natural a la unin de tres o ms eventos. Utilizando el mismo procedimiento podemos probar que, para eventos arbitrarios A, B y C. P(A B C) = P(A)+P(B)+P(C) P(A B) P(A C) P(B C) +P(A B C) y ms generalmente n n n P(U Aj ) =!j" P(Aj ) !ij P(Ai Aj )+ j" ij 11
+!
n P(Ai Aj Ak )+...+( 1)n" P( Ai ), i" ijk

ijk
donde Aj , j=1,...,n son eventos arbitrarios. Teorema 1.3. Dado un espacio muestral H y cualquier evento A H, P(A) = !k P(Ai ), i"
k donde Ai , i=1,k son eventos elementales distintos y A = Ai . i" Demostracin. Si los Ai , i=1,..,k son eventos elementales distintos entonces Ai Aj =F, a i j y por Ax.3
k k k P( UAi ) = ! P(Ai )., si A = U Ai . i=" i=1 i"
Ejemplo. Sea A" , A# ,... una sucesin creciente de eventos. Nos interesa determinar la probabilidad de la unin de los Ai ; i=1,2,... Para esto definimos una nueva sucesin E" , E# ,... de la siguiente forma: E" =A" , E# = A# A" ,..., En = An An" , donde definimos A! = F. Entonces
_ _
U Ei = U Ai i=" i="
n y U E i = An . i=" en
Adems, Ei Ej =F ai j. Enseguida, aplicando Ax.3 o Teorema 1.3 forma directa, tenemos

_ _ P( Ai ) = P( Ei ) = ! P(Ei ) i=1 i=1 i"
_
! P(Ei ) = lim n _ i"

n
n = lim P(U Ei ) n_ i" 12
= lim P(An ). n_ Nota. Si la sucesin de eventos (Ai )iR es decreciente, definimos la nueva sucesin (En )nR tal que En = A" An an, que es una sucesin creciente. De aqu, siguiendo el mismo esquema del ejemplo ltimo, se tiene finalmente que P( An ) = lim P(An ). n_ n=" Los axiomas Ax1, Ax2 y Ax3 y los resultados obtenidos de ellos definen las propiedades de una medida de probabilidad, las cuales son consistentes con nuestra nocin intuitiva. Sin embargo, ellos no proporcionan que nmeros asignar como probabilidad a los eventos. En problemas relacionados con ciencias aplicadas, una forma natural de asignar la probabilidad de un evento es mediante la observacin de la frecuencia relativa del evento de inters en repetidos ensayos del experimento aleatorio. En este caso se habla de nocin frecuencial de probabilidad. Aunque este esquema est descrito a continuacin, no es el nico mtodo de asignacin de probabilidades. Otro mtodo comn, pero ms subjetivo, es el de la verosimilitud relativa, que consiste bsicamente en asignar la probabilidad de un evento como el resultado de un juicio subjetivo. La afirmacin "hay una posibilidad del 40% que llueva maana" es un ejemplo de esta interpretacin, donde el nmero 0.4 es asignado basndose en la informacin disponible y el juicio profesional. El Teorema 1.3 nos da una caracterizacin de los eventos compuestos mediante eventos elementales, lo que facilita en gran medida el clculo de probabilidades, sobre todo en aquellos casos en que H es finito. En muchos experimentos existe un nmero finito de resultados posibles y se puede suponer que cada evento elemental es igualmente probable de ocurrir. De esta manera, si Ei ; i=1,...,n son los eventos elementales de un espacio muestral finito, P(Ei )=1/n, donde n es el nmero de elementos del espacio muestral H . Entonces por el Teorema 1.3, para el evento compuesto A, tenemos que P(A) = ! 1/n.
Ei A
As, podemos definir la probabilidad para cualquier evento A H mediante la regla n(A) P(A) = n(H)
13
donde n(A) es el nmero de elementos de A y n(H) es el nmero de elementos del espacio muestral. De aqu vemos la conveniencia de manejar bien las tcnicas de conteo, para poder determinar rpidamente el nmero de elementos que posee el espacio muestral y el evento de inters. Se puede probar que la regla que asigna probabilidades al evento A, mediante el cuociente entre casos favorables a A y todos los casos posibles, satisface los axiomas para una funcin de probabilidad. Ejemplo. Supongamos que lanzamos dos dados distinguibles. Entonces el espacio muestral asociado a este experimento est dado por H = {(i,j); i,j= 1,6 }, n(H ) = 36 y el nmero total de sucesos que se pueden definir es 236 = 263000 millones, aproximadamente. Consideremos los sucesos: A = {(i,j)% H : i+j 3} = {(1,1),(1,2),(2,1)} B = {(i,j)% H : j=6} = {(1,6),(2,6),(3,6),(4,6),(5,6),(6,6)} C = {(i,j)% H : j es par} = {(1,2), (2,2), (3,2). . . (5,6), (6,6)}. Supongamos que P((i,j)) = 1/36 a (i,j)% H, entonces
3 1 P(A) = ! P(i,j) = n(H) = 36 = 12 , n(A)
(ij)%A
6 P(B) = ! P(i,j) = n(H) = 36 =1 6 n(B)

(ij)%B
y
1 P(C) = 18 36 = 2 .
Notemos que A B =F, por lo que P(A B) = 0. Por otra parte, P(A C)= 1/36.
1.4. Probabilidad Condicional, Independencia En ocasiones sabemos que un evento determinado ocurre y queremos, basndonos en esta informacin, averiguar cul es la probabilidad de otro evento. Por ejemplo, supongamos que deseamos apostar por la ocurrencia del nmero 2 al lanzar un dado corriente. Sea A: "el nmero 2 se observa". Entonces, si los resultados son equiprobables, P(A) = 1/6. Supongamos ahora que un amigo est mirando el juego y nos informa que el resultado es un 14
nmero par. Sea entonces el evento B: "un nmero par se observa". Obviamente, ahora nosotros no estamos dispuestos a jugar a uno de los nmeros impares, puesto que esta informacin los descarta. El espacio muestral ahora se reduce al conjunto B = {2,4,6}, cuya ocurrencia constituye la informacin anticipada. As, sabiendo que un resultado par ha ocurrido, la probabilidad de obtener un 2 ahora es 1/3. Cuando los resultados de un experimento son igualmente probables de ocurrir, el clculo de probabilidades condicionales puede basarse en nuestra intuicin, considerando al evento condicionante B como un espacio muestral reducido y de este nuevo espacio determinar los resultados favorables al evento A. Cuando los experimentos son ms complicados, nuestra intuicin nos puede fallar, de manera que se hace necesario dar una definicin ms amplia de probabilidades condicionales, en el sentido que considere el espacio muestral original. Definicin. Sean A y B dos eventos. La probabilidad condicional de que A ocurra, dado que ha ocurrido B, se define y denota como P(A/B) = P(B)
P(AB)
, si P(B)>0
(1.4)
y definimos P(A/B) = 0 si P(B) = 0 Es importante notar que las probabilidades condicionales satisfacen los axiomas de probabilidad. En efecto, utilizando (1.4), el segundo axioma se satisface automticamente. Para el primer axioma tenemos P(H/B) =
P(H B) P(B)
P(B) P(B)
= 1.
Finalmente, si A" , A# ,... son eventos disjuntos, entonces A" B, A# B, A$ B,...... son tambin disjuntos. De aqu P(A" A# A$ ..../B) =
P[(A" A# ...)B] P(B)
= =
P[(A" B)(A# B)...] P(B) P(A" B) P(A# B) P(B) + P(B) +...
= P(A" /B) + P(A# /B) +... lo que muestra el Ax.3. Ejemplo. Componentes complejas son ensambladas en una planta que usa dos lineas de ensamblado, A y Ac . La linea A usa equipos ms viejos que Ac , de manera que es algo ms lenta y menos confiable. Suponga que en un da dado, 15
la linea A ha ensamblado 8 componentes de las cuales 2 se identifican como defectuosas y 6 como no defectuosas, mientras que la linea Ac ha producido 1 componente defectuosa y 9 no defectuosas. El encargado de ventas selecciona al azar una de estas 18 componentes para una demostracin y encuentra que es defectuosa. Cul es la probabilidad que esta componente haya sido ensamblada por la linea A?. Definamos los eventos: A = ''Componente ensamblada por la linea A''. Ac = ''Componente ensamblada por la linea Ac ''. B = '' Componente defectuosa''. Bc = ''Componente no defectuosa''. Ordenando el nmero de ocurrencia de los distintos eventos en una tabla tenemos A 2 6 8 Ac 1 9 10 Totales 3 15 18
B Bc Totales
3 La probabilidad que la componente sea defectuosa es P(B) = 18 y que adems 2 provenga de la linea A es P(A B) = 18. . As, la probabilidad pedida es B) 2/18 2 P(A/B) = P(A P(B) = 3/18 = 3 .
Generalmente, en la prctica es ms frecuente la necesidad de determinar la probabilidad de la interseccin de algunos eventos, que determinar la probabilidad condicional misma, puesto que esta ltima aparece como un dato. De la definicin de probabilidad condicional encontramos una expresion til para la probabilidad de interseccin de eventos y sta es P(A" A# ) = P(A" ) P(A# /A" ) (1.5)
para cualquier par de eventos A" y A# . A" A# puede ser interpretado como una sucesin de eventos en dos etapas. El evento A" describe el resultado de la primera etapa y A# el resultado de la segunda. Ejemplo. En Concepcin, la probabilidad que llueva el primero de Julio es 0.5. Si llueve el da 1 de Julio, la probabilidad que llueva al da siguiente es 0.8. Cul es la probabilidad que llueva los dos primeros das de Julio?. Sean los eventos: 16
J" : "llueve el da 1 de Julio" J# : "llueve el da 2 de Julio". Entonces el evento J" J# : "Llueve el da 1 y 2 de Julio", tiene probabilidad P(J" J# ) = P(J" ) P(J# /J1 ) = (0.5)(0.8) = 0.4. La probabilidad de la interseccin de conjuntos puede ser extendida a un nmero finito de sucesos A" ,A# ,...,Ak . Mediante aplicaciones sucesivas de (1.5) se tiene: k k-1 P( Ai ) = P(A" )P(A# /A" )P(A$ /A" A# )...P(Ak / Ai ) i=1 i=1 que es la llamada regla del producto o ley multiplicativa de probabilidades. Ejemplo. Una caja contiene dos bolas blancas y tres negras. Una bola se selecciona al azar y enseguida se extrae la otra de las restantes. Cul es la probabilidad que la primera sea negra y la segunda blanca?. Cul es la probabilidad que la segunda sea blanca?. Definamos los siguientes eventos A: " la primera bola es negra" B: " la segunda bola es blanca". Tenemos entonces que P(A) = 3/5 y la segunda extraccin depende de lo que haya sucedido en la primera extraccin. Si la primera fue negra restan dos blancas y dos negras para la segunda extraccin. As, de acuerdo a nuestra notacin P(B/A) = 2/4 y luego P(A B) = P(A) P(B/A) = 3/52/4= 3/10. Para la segunda pregunta, notemos que B = (A B) (A- B), y por Ax.3 P(B) = P(A B) + P(A- B) = 3/5 2/4 + 2/51/4 = 2/5. Ejemplo. Una caja de fusibles contiene 20 unidades, de los cuales 5 son defectuosas. Si tres de estos fusibles son tomados al azar, en sucesin y sin reemplazo, 17
a) Cul es la probabilidad que los tres sean defectuosos? b) Si en cada una de las dos primeras se extrajo un defectuoso, Cul es la probabilidad que el tercero extraido sea bueno?. c) Si los dos primeros estaban buenos, Cul es la probabilidad que el tercero extrado sea defectuoso?. d) Cul es la probabilidad que los dos primeros sean buenos y el tercero defectuoso?. Definamos los eventos: A: "El primer fusible extrado es defectuoso" B: "El segundo fusible extrado es defectuoso" C: "El tercer fusible extrado es defectuoso". Del enunciado tenemos P(A)=5/20, P(B/A)=4/19 y P(C/A B)=3/18. Para (a) notamos que la probabilidad que los tres sean defectuosos corresponde a la probabilidad de la interseccin de los sucesos recin definidos; esto es, P(A B C). Aplicando la regla del producto y reemplazando los valores correspondientes tenemos P(A B C) = P(C/A B)P(B/A)P(A)
3 4 5 1 = 18 19 20 = 114 = 0.0087.
La pregunta (b) es una probabilidad condicional y corresponde a

3 P(C- /A B) = 1 P(C/A B) =1 18 = 15 18 = 0.83.
Para la parte (c) tenemos que

5 P(C/A- B- ) = 18 = 0.277.
Finalmente, la probabilidad que los dos primeros sean buenos y el tercero defectuoso est dada por: P(A- B- C) = P(C/A- B- )P(B- /A- )P(A- )
5 14 15 35 = 18 19 20 = 228 = 0.15
18
Teorema 1.4. (De la probabilidad total). Supongamos que los eventos k A" ,A# ,....,Ak forman una particin de H; es decir Ai =H y Ai Aj =F i=1 ai j. Entonces para cualquier evento E se tiene P(E) = !P(Ai )P(E/Ai ).
k i"
Demostracin. Dado que los eventos Ai , i=1,...,k forman una particin de H, entonces aE H: E = (E A" ) (E A# ) ... (E Ak ) con (E Ai ) (E Aj ) = F ai j. Por lo tanto,
k k P(E) = P( (E Ai )) = !P(E Ai ) i=1 i"
y utilizando la ley multiplicativa tenemos el resultado. Teorema 1.5 (De Bayes). Bajo las mismas condiciones del Teorema 1.4 se tiene P(Ai /E) =
! P(Aj )P(E/Aj )
k j"
P(Ai )P(E/Ai )
i=1,...,k
Demostracin. Inmediata de la definicin de probabilidad condicional y el teorema anterior. Ejemplo. El gerente de una empresa regional dispone de dos autos; uno proporcionado por la empresa y el otro de su propiedad. La probabilidad que utilice su auto es 2/5 y la probabilidad que utilice el auto de la empresa es 3/5. Adems se sabe que el gerente llega a tiempo a las reuniones de la empresa con probabilidad 1/5 y que, si utiliza el auto de la empresa, la probabilidad de llegar a tiempo a esas reuniones es 1/4. Cul es la probabilidad que llegue a tiempo a una reunin, dado que utiliz su propio auto?. Dado que el gerente lleg a tiempo a la reunin, Cul es la probabilidad que haya utilizado el auto de la empresa?. Definamos los siguientes eventos A: "el gerente utiliza auto propio" B: "el gerente utiliza auto proporcionado por la empresa" C: "el gerente llega a tiempo a las reuniones".
19
Tenemos entonces, de acuerdo al enunciado del problema, que: P(A)=2/5, P(B)=3/5, P(C)=1/5 y P(C/B)=1/4. La primera pregunta corresponde a P(C/A). Del teorema de la probabilidad total tenemos P(C) = P(C/A)P(A) + P(C/B)P(B), de donde P(C/A) =
P(C) - P(C/B) P(B) P(A)
1/4 3/5 = 1/5 - 2/5 =1/8.
La segunda pregunta corresponde a P(B/C) y es una aplicacin directa del teorema de Bayes. En efecto, P(B/C) = P(C/B) P(B) + P(C/A) P(A)
1/4 3/5 = 1/4 3/5 + 1/8 2/5 = 3/4. P(C/B) P(B)
En ocasiones suele ocurrir que una condicin no altera la probabilidad asignada a otro evento; es decir, P(A/B) = P(A) o bin P(B/A) = P(B). En otras palabras, la probabilidad que el evento A ocurra es la misma ya sea que B ocurra o no. En este caso se dice que A y B son independientes. Utilizando la definicin de probabilidad condicional se tiene la siguiente definicin equivalente. Definicin. Los eventos A y B se dicen independientes, si y slo si, P(A B) = P(A)P(B) El concepto de independencia puede extenderse a ms de dos eventos. En el caso de tres eventos A" , A# y A$ por ejemplo, ellos son mutuamente independientes si y slo si P(Ai Aj ) = P(Ai )P(Aj ), i j , i, j=1, 2, 3 y P(A" A# A$ ) = P(A" )P(A# )P(A$ ). Esta ltima ecuacin es necesaria ya que la independencia dos a dos generalmente no conduce a la independencia mutua. Definicin. Los eventos A" ,...,Ak son mutuamente independientes si y slo si, para cada subconjunto de m elementos Ak" ,...,Akm se tiene 20
P(Ak" ... Ak7 )=P(Ak" )...P(Ak7 ), donde ki Z, i=1,...,m , 1 k" < k# <...< km n. Cuando dos eventos no pueden ocurrir en forma simultnea en un mismo experimento, decimos que ellos son mutuamente excluyentes. Definicin. Dados dos eventos A y B, diremos que ellos son mutuamente excluyentes si y slo si A B = F. Notemos que si los eventos A y B son mutuamente excluyentes, entonces P(A B)= 0. Aunque los conceptos de independencia y exclusin tienden a confundirse, su significado es diferente. De hecho, si suponemos que P(A) y P(B) son positivas, entonces se verifica fcilmente que Si A y B son sucesos independientes entonces, A y B no son mutuamente excluyentes; Si A y B son sucesos mutuamente excluyentes entonces, A y B no son independientes. Ejemplo. Sean A y B dos sucesos independientes, entonces A y Bindependientes. En efecto, P(A B- ) = P(A) P(A B) = P(A) P(A)P(B) = P(A)(1 P(B)) = P(A)P(B- ). As, de acuerdo a la definicin de independencia entre eventos, A y B- son independientes. Es fcil ver que si A y B son independientes, entonces tambin lo son A- y B. Ejemplo. La probabilidad que un estudiante estudie para un examen final es 0.20. Si estudia, la probabilidad de que apruebe el examen es 0.80 en tanto que si no estudia, la probabilidad es de slo 0.50. Cul es la probabilidad que dicho estudiante apruebe su examen final?. Dado que aprob su examen, cul es la probabilidad que l haya estudiado?. 21 son
Consideremos los siguientes eventos: A: "el estudiante estudia para el examen" B: "el estudiante aprueba el examen". Del enunciado tenemos que P(A)=0.20, P(B/A)=0.80 y P(B/Ac )=0.50. La primera pregunta corresponde a la probabilidad que B ocurra; esto es, P(B) = P(B/A)P(A) + P(B/A- )P(A- ) = 0.56, reemplazando los valores correspondientes. Notemos que los eventos A y B no son independientes. Por otra parte, la probabilidad que el estudiante haya estudiado, dado que aprob su examen, esta dada por: P(A/B) = P(B) =
P(AB)
P(B/A)P(A) P(B)
0.20 2 = 0.8 =7 = 0.286. 0.56
Ejemplo. Se extrae una carta al azar de un juego de naipes de 52 cartas. Dado que la carta extrada es un "mono", nos interesa determinar la probabilidad que dicha carta sea de "corazn". Consideremos los eventos A: "la carta extrada es de corazn" y B: "la carta extrada es un mono". En trminos probabilsticos, la pregunta corresponde a la probabilidad condicional de A dado B. As, P(A/B) = P(A B) /P(B) = (3/52)/(12/52) = 1/4 y P(A)=13/52=1/4, por lo que P(A/B) = P(A) y los eventos "corazn" y "mono" son independientes. Ejemplo. Se usa un interruptor para cortar un flujo cuando este alcanza un cierto nivel de profundidad en un estanque. La confiabilidad del interruptor (probabilidad que trabaje cuando debe) se supone de 0.9. Un segundo tipo de interruptor es puesto en paralelo y su confiabilidad es 0.7. Los interruptores trabajan en forma independiente. a) Cul es la confiabilidad de la combinacin de los interruptores?. 22
b) Cul es la probabilidad, que cuando el flujo alcance el nivel de profundidad slo trabaje el primer interruptor?. c) Cul es la probabilidad que cuando se alcance el nivel slo uno de los interruptores trabaje?. Consideremos los eventos: A" : "Primer interruptor trabaja" A# : "Segundo interruptor trabaja"
a) La confiabilidad del sistema est dada por la probabilidad del evento "al menos uno de los dos interruptores trabaja" , que corresponde a la probabilidad del evento A" A# . P(A" A# ) = P(A" )+P(A# ) P(A" A# ) = P(A" )+P(A# ) P(A" )P(A# ) por independencia = 0.9 + 0.7 0.9 0.7 = 0.97 Para (b) debemos determinar la probabilidad de A" A# , que corresponde al evento que el interruptor 1 trabaje y el 2 no.
P(A" A# ) = P(A" )P(A# ) por independencia de A" yA#
= P(A" )(1 P(A# )) = 0.9 0.3 = 0.27 Para la parte (c) definamos los eventos: A: "Slo trabaja el interruptor 1" = A" A# B: "Slo trabaja el interruptor 2" = AA # " Notemos que los eventos A y B son mutuamente excluyentes. Entonces la probabilidad pedida es
P(A B) = P(A) + P(B) = P(A" A# ) +P(A" A# )
= 0.9 0.3 + 0.1 0.7 = 0.34 por la independencia de los eventos involucrados. EJERCICIOS 1. Todos los das, un nio dispone de 30 diarios para vender en la misma esquina. Defina un espacio muestral para el experimento, que consiste del nmero de ventas en un da cualquiera. Defina adems los eventos A: vende al menos cinco diarios 23
B: vende exactamente cinco diarios C: vende a lo ms cinco diarios 2. Considerando el ejercicio anterior y si ahora, el experimento consiste en registrar el nmero de ventas que el nio hace en dos das sucesivos. Defina un espacio muestral razonable para este experimento y describa los eventos A: vende al menos cinco diarios el primer da B: vende al menos cinco diarios el segundo da C: vende al menos cinco diarios ambos das 3. Considere el juego del lanzamiento de dos dados ordinarios. a) Determine el espacio muestral asociado b) Cuntos eventos puede Ud. definir? c) Describa los siguientes eventos. A: la suma de los dos dados es menor o igual a 3. B: el segundo dado muestra el nmero 6. C: el segundo dado muestra un nmero par. 4. Considere el experimento aleatorio siguiente: Una moneda es lanzada hasta obtener cara por primera vez. a) Describa el espacio muestral asociado a este experimento. b) Describa los siguientes eventos. A:la primera cara ocurre en tres o menos lanzamientos. B:un nmero impar de lanzamientos es necesario para obtener cara por primera vez. 5. Cuntos nmeros se pueden formar al arreglar los dgitos del nmero 4130131 (excluyendo los que comienzan por 0)?. 6. El Centro de Estudiantes de Ingeniera tiene un representante por cada especialidad (Civil, Elctrica, Electrnica, Industrial, Informtica, Qumica, Mecnica y Metalrgica). a) De cuntas maneras puede elegirse un Presidente y un Vicepresidente?. b) De cuantas maneras puede elegirse un Presidente, un Vicepresidente y un Secretario?. c) Si el representante de Qumica se niega a ser Vicepresidente, de cuntas maneras puede elegirse Presidente y Vicepresidente?. 7. Un experimentador investiga el efecto de tres variables: presin, temperatura y el tipo de cataltico sobre el rendimiento en un proceso de refinado. Si el experimentador intenta usar tres niveles para la temperatura, tres niveles para la presin y dos tipos de catalticos, cuntos ensayos experimentales tendr que realizar si quiere considerar todas las combinaciones posibles de presin, temperatura y tipos de catalticos. 24
8. Un fabricante tiene nueve motores diferentes en ''stock'', dos de los cuales vienen de un abastecedor particular. Los motores deben dividirse en tres lneas de produccin, con tres motores en cada lnea. Si la asignacin de motores a lneas es aleatoria, encuentre la probabilidad de que ambos motores del abastecedor particular sean asignados a la primera lnea. 9. Sean A y B eventos con P(A)=3/8, P(B)=1/2 y P(A B)=1/4. Determine P(A- B- ) y P(A B). 10. Es posible tener una asignacin de probabilidades para los sucesos A y B, tal que P(A) =1/2, P(A B)=1/3 y P(B)=1/4? 11. Un vendedor de autos nuevos ha comprobado que los clientes solicitan en especial algunos de los siguientes extras: transmisin automtica (A), neumticos pantaneros (B) y radio (C). Si el 70% de los clientes solicitan A, el 75% solicitan B, el 80% solicitan C, el 80% requieren A o B, el 85% requieren A o C, el 90% requieren B o C y el 95% requieren A o B o C. Calcular la probabilidad que a) El prximo cliente solicite a lo menos una de las tres opciones. b) El prximo cliente solicite slo una radio. c) El prximo cliente solicite slo una de las tres opciones. d) El prximo cliente no solicite ningn extra especial. 12. Un sistema de propulsin est formado por un motor y dos calderas. El sistema funciona cuando est operando el motor y al menos una caldera. La probabilidad que el sistema funcione es 0.7, la probabilidad que funcione el motor y la caldera 1 es 0.4, mientras que la probabilidad que funcione el motor y la caldera 2 es 0.5. Determine la probabilidad que el sistema funcione con el motor y ambas calderas. 13. Durante un sistema de inspeccin, tres vlvulas se eligen al azar desde una caja que contiene 15, de los cuales 5 son defectuosas. Encuentre la probabilidad que: a) Ninguna sea defectuosa. b) Exactamente una sea defectuosa. c) Al menos una sea defectuosa. 14. Una consola de autos contiene 6 sistemas electrnicos complejos. Dos de los 6 son seleccionados al azar para someterlos a prueba y enseguida clasificarlos como defectuoso o no defectuoso. a) Si dos de los 6 sistemas estn generalmente defectuosos, encuentre la probabilidad que al menos uno de los dos sistemas probados se encuentre defectuoso. b) Encuentre las probabilidades indicadas en (a) para el caso en que 4 de los 6 sistemas estn generalmente defectuosos. 25
15. Un dado tiene una cara pintada de rojo, dos de verde y el resto de negro. Se lanza el dado 4 veces. Cul es la probabilidad de que: a) Las tres primeras veces se obtenga rojo y la ltima verde. b) Slo las tres primeras veces se obtenga rojo. c) Las tres primeras veces se obtenga rojo. 16. Un lote de 20 artculos es aceptado o rechazado basndose en la inspeccin de 4 artculos, escogidos al azar desde el lote. Si se decide aceptar el lote cuando a lo ms 1 de los artculos inspeccionados es defectuoso y de otro modo se rechaza el lote, cul es la probabilidad que, siguiendo esta regla de decisin, se rechace un lote que tiene slo un 10% de defectuosos?. 17. Suponga que dos refrigeradores defectuosos han sido incluidos en un embarque de 6 refrigeradores. El comprador comienza a probar los refrigeradores de uno a la vez. a) Cul es la probabilidad que el ltimo refrigerador defectuoso se encuentre en la cuarta prueba? b) Cul es la probabilidad que no ms de 4 refrigeradores sea necesario probar para localizar los dos defectuosos? c) Si uno de los dos refrigeradores defectuosos ha sido localizado en las primeras dos pruebas cul es la probabilidad que el otro defectuoso sea encontrado en la tercera o cuarta prueba? 18. Una revista nueva contempla una seccin para comentarios de arte (A), libros (B) y cine (C). Los hbitos de lectura de una muestra de lectores dio los siguientes resultados:
Lectura usual Probabilidad A 0.14 B 0.23 C 0.37 AB 0.08 AC 0.09 BC 0.13 ABC 0.05
Calcular: a) P(A/B). b) P(A/B C). c) P(A B/C). d) P(A/lee al menos una seccin). 19. Dos mquinas de una planta elaboran el 10% y el 90% de la produccin total de cierto artculo. La probabilidad de producir un artculo defectuoso con dichas mquinas es 0.01 y 0.05 respectivamente. Cul es la probabilidad que un artculo tomado al azar de la produccin de un da haya sido producido con la primera mquina, sabiendo que es defectuoso?.
26
20. Las enfermedades I y II prevalecen entre las personas de cierta poblacin. Se supone que el 10% de la poblacin contraer la enfermedad I durante su vida, un 15% contraer la enfermedad II, y un 3% contraer ambas enfermedades. Si se selecciona una persona al azar de dicha poblacin. a) Cul es la probabilidad que ella contraiga al menos una enfermedad durante su vida?. b) Cul es la probabilidad que contraiga ambas enfermedades dado que ella ha contrado al menos una enfermedad?. 21. Sean A y B dos eventos asociados a un espacio muestral H, tales que: P(A) =1/4, P(B/A) =1/2 y P(A/B)=1/4. a) Son A y B eventos mutuamente excluyentes? b) Es A B?. c) Son A y B eventos independientes?. d) Determine P(A- /B- ). 22. Sean A y B dos eventos cualesquiera asociados a un experimento, tales que P(A B)=0.6 y P(A)=0.2. Determine P(B) si: a) A y B son mutuamente excluyentes; b) A y B son independientes; c) A es subconjunto de B. 23. La probabilidad que un alumno de un curso determinado se titule en 5 aos es 3/5. La probabilidad que una alumna de dicho curso tenga su ttulo en 5 aos ms es 5/8. Calcular: a) Probabilidad de que ambos se titulen en 5 aos ms. b) Probabilidad de que al menos uno de ellos lo haga. c) Probabilidad de que el alumno no se titule y la alumna s. 24. Sea H={=" , =# , =$ , =% , =& } el espacio muestral de un experimento, donde P(=" )=1/8, P(=# )=P(=$ )=P(=% )=3/16 y P(=& )=5/16. Considerando los sucesos E={=" , =# , =$ }, F={=" , =# , =% } y G={=" , =$ , =% }, muestre que ellos no son independientes dos a dos, pero que P(E F G) = P(E)P(F) P(G). 25. Considere los eventos arbitrarios A, B y C. Muestre que: a) Si A y B son independientes entonces, el complemento de A y el complemento de B son independientes b) Si A, B y C son independientes entonces, A, B y el complemento de C son independientes. 26. Sean A y B dos eventos tales que, P(A)>0 y P(B)>0. Demuestre que: a) Si A y B son independientes entonces A y B no son mutuamente excluyentes. b) Si A y B son mutuamente excluyentes entonces A y B no son independientes. 27
27. Pruebe que. a) Si P(E)=0, entonces P(E F)=0 aE, F H. b) P(A C/B) = P(A/B C) P(C/B) aA, B, C H c) P(E F G H)=P(E/F G H)P(F/G H)P(G/H)P(H) a E, F, G, H H. d) P(A/B) + P(Ac /B) =1 a, B H, donde Ac es el complemento de A. 28. Una empresa recibe de los proveedores I y II, cajas con dos tipos de artculos. El proveedor I los embala en cajas que contienen 7 artculos de tipo A y 5 de tipo B, y el proveedor II en cajas que contienen 5 del tipo A y 3 tipo B. a) Un empleado de la empresa elige una caja al azar de cada proveedor y extrae un artculo de cada caja. Cul es la probabilidad que ambos artculos sean del tipo B. b) Si se sabe que los dos artculos elegidos en la parte (a) son de distinto tipo, cul es la probabilidad que el artculo tipo A provenga de la caja del proveedor I?. c) Si se eligen dos artculos de la caja del proveedor I, uno a continuacin del otro, cul es la probabilidad que el segundo sea de tipo A?. 29. Tres mquinas automticas producen piezas idnticas que son retiradas de una correa transportadora comn. La produccin de la primera mquina es el doble de la produccin de la segunda mquina y la produccin de la tercera mquina es igual a la de la segunda mquina. La primera mquina produce en promedio el 84% de las piezas de calidad excelente, la segunda un 60% y la tercera un 70% de piezas de la calidad excelente. Una pieza es retirada al azar de la correa. Determinar la probabilidad que: a) La pieza retiradad sea de calidad excelente o haya sido producida por la primera mquina. b) No sea de calidad excelente y que haya sido producida por la segunda mquina. c) Sea producida por la mquina tres dado que la pieza elegida es de calidad excelente. d) Existe independencia entre la calidad excelente de una pieza y el hecho de ser fabricada por la primera mquina?. 30. Un circuito elctrico opera con 4 interruptores en serie. Si la operacin de los 4 interruptores es independiente, y la probabilidad de falla de cada interruptor es 0.02. Cul es la probabilidad de falla del circuito? 31. Considere los puntos (1,0,0), (1,1,0), (1,1,1), (0,1,1), (0,0,1) y (0,0,0) en $ y suponga que las probabilidades de estos puntos son 1/8, 1/4, 1/8, 1/4, 1/8 y 1/8, respectivamente. Defina los sucesos Ai como: ''Un 1 ocurre en la i-sima coordenada'', i=1,2,3. Calcular: 28
a) P(A" ), P(A# ), P(A$ ), P(A" A# A$ ) b) Pruebe que P(A" A# A$ ) = P(A" ) P(A# )P(A$ ) c) Son A" , A# y A$ eventos independientes?. 32. Considere un sistema de componentes conectados como se indica en la figura:
--------(1)----------------------(2)-------------(3)---------------------(4)-------------
Los componentes 1 y 2 estn conectados en paralelo, de modo que el subsistema funciona si el componente 1 2 funcionan. Los componentes 3 y 4 estn conectados en serie, el subsistema funciona, si 3 y 4 funcionan a la vez. Si cada componente trabaja independientemente de los otros y la probabilidad que un componente trabaje es 0.9. Calcular la probabilidad que el sistema funcione.
29
CAPITULO II VARIABLES ALEATORIAS
2.1. El Concepto de Variable Aleatoria Prcticamente todas las reas de la ciencia moderna estn relacionadas con mediciones numricas cuyos valores estn afectados, en algn sentido, por mecanismos aleatorios. De hecho, el mtodo de experimentacin cientfica culmina en la observacin de los resultados de un experimento y generalmente describe o cuantifica dichos resultados con nmeros. As, cada resultado de un experimento puede ser asociado con un nmero que es especificado por una regla de asociacin; por ejemplo, el nmero de componentes electrnicas que fallan antes de 100 horas en una muestra de 10 de ellas, el peso del equipaje de 25 pasajeros de un avin. Tal regla de asociacin se llama variable aleatoria. Las variables aleatorias asocian un valor numrico a un conjunto de resultados del espacio muestral H. Estos resultados son aleatorios, de aqu el nombre de variables aleatorias. Definicin. Una variable aleatoria X es una funcin real valuada de los elementos del espacio muestral H. Utilizaremos las letras maysculas (X,Y,Z,...etc) para representar las variables aleatorias, la letra griega = para representar un elemento genrico del espacio muestral y X(=) ser la representacin funcional de la variable aleatoria X. Adems, usaremos las letras minsculas (x,y,z,...etc) para denotar valores particulares en el recorrido de la variable. De esta manera tenemos X: H qp , tal que = qpX(=) = x. Dependiendo del recorrido de una variable aleatoria, clasificaremos a esta como discreta o continua, aunque tambin existen variables aleatorias que no son discretas ni continuas. Ejemplo. Un experimento consiste en observar los artculos fabricados en una cadena de produccin, hasta detectar uno defectuoso. Los artculos producidos pueden clasificarse como defectuosos o no-defectuosos, dependiendo de si cumplen con las especificaciones correspondientes. El espacio muestral asociado a este experimento es H={d, sd, ssd, sssd,...}, donde d=defectuoso y s=sano o no-defectuoso. Si X es el nmero de inspecciones necesarias, entonces X(d) = 1, X(sd)= 2,... Claramente el recorrido de esta variable aleatoria es el conjunto infinito RX = {1,2,3,...}, luego ella es discreta. Ejemplo. Si tenemos un conjunto de 25 personas adultas y elegimos una al azar para medir su altura entonces, enumerando a las personas desde el 1 hasta 30
el 25, tenemos H = { = : = = 1,2,...,25} y podemos definir la variable aleatoria X(=)= altura de la persona =, a = H. Tericamente, no ms de 25 alturas diferentes pueden registrarse. Adems, parece razonable suponer que ninguna persona adulta (normal) puede medir menos de 50 cm. ni ms de 250 cm. En tal caso el recorrido de la variable aleatoria X lo podemos considerar como {x: 50 x 250} y X sera continua. Como ya hemos visto, para una variable aleatoria X definida sobre el espacio muestral H, RX denota su recorrido y ser considerado como otro espacio muestral. As, si A RX hablamos tambin del evento A. Por lo tanto, si A RX y B = {= H : X(=) A}, decimos que A y B son eventos equivalentes y P(A) = P(B).
2.2. Variables Aleatorias Discretas Definicin. Una variable aleatoria X es discreta si su recorrido forma un conjunto de nmeros reales discretos (finito o infinito numerable). Ejemplo. Consideremos el lanzamiento de tres monedas. Sea X la variable aleatoria que indica el nmero de caras que ocurren. En este caso H lo podemos escribir como: H = {=: == (=" , =# , =$ ); =3 = c,s, i=1,2,3} Entonces, 0 1 X(=) = 2 3
si = = (s,s,s) si = = (s,s,c), (c,s,s),(s,c,s) si = = (c,c,s), (c,s,c),(s,c,c) si = = (c,c,c)
El recorrido de X es el conjunto {0,1,2,3}, por tanto X es una variable aleatoria discreta. Es evidente que el recorrido variar de acuerdo a la definicin de la variable aleatoria, aunque se trate de un mismo experimento. Por ejemplo, si consideramos el mismo experimento del ejemplo anterior y definimos Y(=) como la diferencia entre el nmero de caras y el nmero de sellos, entonces el recorrido de la variable aleatoria Y es R] = {-3,-1,1,3}, que tambin es discreto. Dada una variable aleatoria discreta X, podramos intentar calcular las probabilidades de que X asuma valores particulares en su recorrido. A toda variable aleatoria discreta le podemos asociar una funcin de probabilidades. 31
Definicin. La Funcin de Probabilidades para una variable aleatoria discreta X se define y denota por pX (x) = P(X(=)=x) ax . y debe satisfacer las condiciones: ii) !pX (x) = 1 i) pX (x) 0 a x
La frmula anterior podemos expresarla de manera ms explcita escribiendo pX (x) = P({= : X(=) = x}) = P(X(=) = x), ax . Para simplificar la notacin escribiremos simplemente P(X=x) en lugar de P(X(=)=x). De esta manera, si A es un suceso relacionado con la variable X; esto es, A RX , entonces P(A) = ! pX (x).
xA
Ejemplo. Dos ampolletas son seleccionadas al azar desde una caja que contiene 5 azules (a) y 3 rojas (r). Sea X la variable aleatoria que indica el nmero de ampolletas azules seleccionadas. Entonces los elementos de H y su respectivas probabilidades estn dados en la tabla a continuacin.
Elementos de H Probabilidad x
aa ar ra rr
5 14 15 56 15 56 3 28
La ltima columna indica los valores que asume la variable aleatoria X. Luego, RX = {0,1,2}, P(X=0)=3/28, P(X=1)=15/56+15/56=15/28 y P(X=2)=5/14. Esta informacin usualmente se dispone en una tabla como la siguiente: x P(X=x) 0 3/28 1 15/28 2 10/28
Ejemplo. Consideremos el lanzamiento de una moneda balanceada en cuatro ocasiones. Determinemos la funcin de probabilidades de la variable aleatoria X que indica el nmero de caras observadas. 32
El espacio muestral lo podemos escribir como H={(c,c,c,c),(c,c,c,s),...,(s,s,s,s)} el que consta de 16 elementos, cada uno de los cuales tiene probabilidad 1/16, por ser la moneda balanceada. El recorrido de la variable aleatoria X es RX = {0,1,2,3,4} por lo que es una variable aleatoria discreta, y pX (0) = P(X=0) = P({=%H : X(=)=0}) = P({(s,s,s,s)}) = 1/16. pX (1) = P(X=1) = P({=%H : X(=)=1}) = P({(s,s,s,c),(s,s,c,s),(s,c,s,s),(c,s,s,s)}) = 4/16. Anlogamente se tiene pX (2) = 6/16, pX (3) = 4/16 y pX (4) = 1/16. Luego la funcin de probabilidades es
x P(X=x)
0 1/16
1 4/16
2 6/16
3 4/16
4 1/16
Si definimos, en este ejemplo, el evento A={x: x es par}, tenemos que la probabilidad de A est dada por: P(A) = pX (0)+pX (2)+pX (4) = 8/16. Esta funcin de probabilidades la podemos representar grficamente como un histograma o grfico de barras, donde cada barra tiene ancho 1 y altura la probabilidad pX (x) correspondiente, como se muestra en la Figura 2.1. La funcin de probabilidades para X, ''nmero de caras observadas'', la podemos resumir en la expresin siguiente: " pX (x) = 4 x 16 ; x=0,1,2,3,4.
33
6/16
4/16 P(X=x) 1/16
2 X
Figura 2.1 Distribucin de probabilidades para el nmero de caras
Ejemplo. Para decidir quin va a usar primero un terminal de un computador, Juan y Pedro muestran uno o dos dedos al contar tres. Juan lo usar primero si el nmero total de dedos es un nmero par. Supongamos que cada uno muestra, independientemente, 1 2 dedos con igual probabilidad. Los cuatro posibles resultados son: H={(1,1),(1,2),(2,1),(2,2)}. donde la primera componente representa el nmero de dedos mostrados por Juan y la segunda los mostrados por Pedro. Sea X el nmero total de dedos mostrados por Juan y Pedro. Entonces el recorrido de X es RX = {2,3,4} y las respectivas probabilidades son: 1/4, 1/2 y 1/4.
2.3. Variables Aleatorias Continuas Definicin. Diremos que una variable aleatoria X es continua si su recorrido es un intervalo de la recta real. Supongamos que estamos interesados en estudiar el crecimiento de los rboles de pino radiata en un sector forestal determinado. Se realizan mediciones de las alturas de estos pinos al azar en distintos lugares del predio. Si X representa las alturas de estos pinos, los cuales a una edad determinada no superan una altura mxima M, entonces X es una variable aleatoria continua con valores en el intervalo 0,M]. Si discretizamos X midiendo la altura al metro ms cercano, entonces los valores posibles son los enteros menores o iguales que M. La distribucin discreta resultante puede ser graficada usando un histograma de barras, construyendo sobre cada entero k, 0 k<M, un rectngulo de ancho 1 y de altura igual a la proporcin de todos los rboles de altura k mts., como se 34
muestra en la Figura 2.2, donde la suma de las reas de los rectngulos es 1. Tambin aparece en la Figura 2.2 el polgono de frecuencias correspondientes.
Figura 2.2. Histograma de las alturas redondeadas al metro Si ahora la altura es medida aproximndose al centmetro ms cercano, tenemos el histograma de barras de la Figura 2.3, cuyos rectngulos son ms angostos aunque el rea total sigue sumando 1, y el polgono de frecuencias es un poco ms suave,
Figura 2.3. Histograma de las alturas redondeadas al centmetro Si continuamos de esta forma midiendo la altura de los rboles con unidad de medicin ms pequea, obtendremos una secuencia de histogramas que pueden ser aproximados por una curva suave, f(x), donde el rea bajo la curva es 1. La probabilidad que la altura de un rbol elegido al azar est entre los nmeros a y b es justamente el rea bajo la curva f(x) entre los puntos a y b, como se muestra en la Figura 2.4.
35
Figura 2.4. Funcin de densidad para la altura de los rboles
La funcin f(x), cuyo grfico es la aproximacin al polgono de frecuencias de los histogramas, obtenidos por la discretizacin ms fina de las mediciones involucradas, corresponder a la llamada funcin de densidad de probabilidad. Definicin. Sea X una variable aleatoria continua. A toda variable continua X le podemos asociar una funcin fX (x), de variable real, llamada Funcin de Densidad de Probabilidad, que debe satisfacer las siguientes condiciones: i) fX (x) 0 , a x. ii) (
_
fX (x) dx = 1.
-_
Adems, para cualquier par de nmeros reales a y b con a < b, se tiene P(a X b) = (
b
fX (x)dx.
Ejemplo. Un estudiante toma un bus para ir a su universidad y sabe que cada 5 minutos pasa el bus por el paradero. El estudiante no siempre llega a la misma hora al paradero, de manera que el tiempo de espera, X, para tomar el prximo bus es una variable aleatoria continua. El recorrido de X es el intervalo [0,5] y se encontr que la siguiente funcin de densidad de probabilidad es apropiada para X. fX (x) =
1/5 0
0 x 5 en otro caso. 36
Claramente fX (x) 0, ax y ( 1/5 dx = 1.

& !
La probabilidad que este estudiante tenga que esperar entre 1 y 3 minutos es P(1 X 3) = (
$
1/5 dx = 2/5.
"
Similarmente, la probabilidad que tenga que esperar ms de 4 minutos es P(X > 4) = (

&
1/5 dx = 1/5.
Ejemplo. La concentracin diaria de cierto contaminante en un arroyo tiene funcin de densidad fX (x) = c e-x/2 , x>0. Se sabe que ocurrir un problema de contaminacin si la concentracin excede los 6 mg/10$ lt. Cul es la probabilidad que ocurra un problema de polucin de este contaminante en un da cualquiera?. Sea X la concentracin diaria del contaminante por cada 10$ litros. Utilizando el hecho que( fX (x)=
" # _
ce-x/2 dx = 1, se obtiene que c=1/2. Por lo tanto,
e-x# , x>0
y la probabilidad que ocurra el problema de polucin es P(X > 6) = (

_
(1/2) e-x# dx = e-("#)' = e-$ = 0.05.
'
2.4. Funcin de Distribucin Toda variable aleatoria tiene siempre asociada otra funcin, llamada funcin de distribucin o funcin de distribucin acumulada. Esta funcin puede utilizarse para evaluar probabilidades asociadas con la variable aleatoria en cuestin y presenta la ventaja de que es apropiada tanto para variables aleatorias discretas como para variables continuas.
37
Definicin. Sea X una variable aleatoria. La Funcin de Distribucin de X, denotada por FX (t), es una funcin de una variable real t tal que el dominio de FX es toda la recta real y FX (t) = P(X t), at . Dado que la funcin de distribucin nos proporciona el valor de la probabilidad que X t, donde t es un nmero real y como las probabilidades deben satisfacer los axiomas vistos en la Seccin 1.3, existen reglas para que una funcin H(t), de una variable real, sea una funcin de distribucin para alguna variable aleatoria. Estas son 1) 0 H(t) 1, a t . 2) lim H(t) = 0; t -_ lim H(t) = 1. t_
3) H(a) H(b), a a<b (H es montona no decreciente). 4) lim H(b+h) = H(b) a b (continuidad a derecha). h0 Ejemplo. Sea H(x) definida como sigue
0 si x < 0 x2 /2 si 0 x <1 H(x) = 3/4 si 1 x < 2 (x 1)/4 si 2 x < 3 1 si x 3.
Notemos que H(x) presenta un punto de discontinuidad en x =1. Esta funcin est definida para todo nmero real y satisface las propiedades de una funcin de distribucin, su grfico se muestra en la Figura 2.5.
38
1 0.75 . . . . . . . . . . 1
H(x) 0.5
0.25 0 0
x /2
. . . . . . . . . . 1.3 1.8 2.3 2.8
. . . . . . . . . . 3.7
0.5
Figura 2.5. Funcin de Distribucin de una variable mixta. Ejemplo. Sea H(x) una funcin definida por H(x) = Su grfico es
H(x)
1 0.8 0.6 0.4 0.2 0 0 2 4
0 2 1qe-x /2
x 0 x>0
10
Figura 2.6. Funcin de Distribucin H(x) = 1-e-x /2 Claramente H(x) satisface las condiciones (1)-(4), por lo tanto H corresponde a la funcin de distribucin acumulada de alguna variable aleatoria X. Si conocemos la funcin de probabilidades para una variable aleatoria discreta, podemos determinar fcilmente su funcin de distribucin mediante la expresin 39
FX (t) = ! pX (x), at .
xt
Anlogamente, si X es una variable aleatoria continua con funcin de densidad fX (x), entonces determinamos su funcin de distribucin como FX (t) = ( fX (x)dx, at .
> -_
Ejemplo. Consideremos la funcin de probabilidades dada en la tabla siguente: x P(X=x) 2 1/4 3 1/2 4 1/4
Para determinar la funcin de distribucin de X, notemos que FX (2) = P(X 2) = pX (2) = 1/4 FX (3) = P(X 3) = pX (2) + pX (3) = 3/4 FX (4) = P(X 4) = pX (2) + pX (3) + pX (4) = 1. As, tenemos definida la funcin de distribucin para los nmeros 2, 3 y 4. Cul es el valor de FX (x) para x 2, 3, 4?. Recordemos que FX (x) est definida para todo nmero real, de manera que debemos calcular FX (x) para valores positivos y negativos de x. Es claro que en este ejemplo, el valor ms pequeo que puede ocurrir para X, es 2. As, para cualquier x<2, el evento {X x} es vaco. Por lo tanto, FX (x) = 0 para x<2. El evento {X 2} ocurrir cuando el valor entonces FX (2) = pX (2) = 1/4. observado de X sea 2 y
Ahora, si consideramos cualquier 2<x<3, el evento {X x} ocurre si observamos x=2; esto es, FX (x) = 1/4, ax (2,3) y as, la funcin de distribucin es constante en este intervalo. El evento {X 3} ocurre si ocurre 2 3, entonces FX (3) = P(X 3) = pX (2) + pX (3) = 3/4. Dado que no hay valores observados para X en el intervalo (3,4), FX (x) debe permanecer constante en este intervalo y FX (x) =3/4, a x (3,4). El evento {X 4} ocurre si ocurre 2 3 4, de tal manera que 40
FX (x) = pX (2)+ pX (3) +pX (4) = 1. En verdad el evento {X x}, donde x es cualquier nmero mayor que 4, ocurre si X=2 X=3 X=4. Por lo tanto, FX (x) =1 a x>4. Resumiendo, tenemos que la funcin de distribucin de X, cuyo grfico se muestra en la Figura 2.8 , est dada por x<2 0 1/4 2 x < 3 FX (x) = 3/4 3 x < 4 1 x 4.
1 0.75 F(x) 0.5 0.25 0 1.4 2 2.4 x . . . . . . . . . 3 3.4
. . . . . . . . . 4 4.4
Figura 2.7. Funcin de Distribucin Escalonada El grfico de la funcin de distribucin de una variable aleatoria discreta tiene siempre la forma escalonada y presenta saltos en los puntos donde la variable asume valores. En este ltimo ejemplo, los saltos ocurren en los puntos x=2, 3 y 4, que corresponden exactamente a los valores que toma la variable. Adems, como veremos luego, las magnitudes de los saltos en los puntos x=2, 3 y 4, representan las respectivas probabilidades de asumir estos valores. Ejemplo. Consideremos la variable aleatoria continua X, con funcin de densidad fX (t) = 2t, 0 t 1 . 0 e.o.c.
La funcin de distribucin de X la determinamos como sigue: 41
Para t<0; FX (t) = 0 Para 0 t<1; FX (t)=( fX (x)dx = ( 0dx + ( 2xdx = t#

> ! > -_ -_ !
Para t 1;
FX (t) = ( fX (x)dx = ( 0dx + ( 2xdx + ( 0dx =1.

> ! 1 > -_ -_ ! "
As,
FX (t) = t2 1
t<0 0t<1 t1
y su grfico es una funcin continua de t, como se muestra en la Figura 2.8.
1 0.8 0.6
F(t)
0.4 0.2 0 0 0.4 0.8 1.5
Figura 2.8. Funcin de Distribucin Acumulada. Utilizando esta funcin de distribucin tenemos de inmediato que, por ejemplo, P(X 1/2) = FX (1/2) = (1/2)# .
2.5. Probabilidades de Intervalos La funcin de probabilidad en el caso discreto y la funcin de densidad en el caso continuo, nos permite calcular probabilidades de cualquier tipo acerca de una variable aleatoria X. Enseguida veremos que, mediante la funcin de distribucin de X, tambin podemos calcular probabilidades relacionadas con X, especialmente probabilidades de intervalos. En efecto, consideremos los eventos: 42
2.5
A = {X a} , B = {a < X b} donde a y b son nmeros reales, tales que a<b. Entonces, como A B = F y A B = {X b}, por Ax.3 tenemos: P(A B) = P(A) + P(B); es decir P(X b) = P(X a) + P(a<X b) o bin P(a<X b) = P(X b) P(X a) = FX (b) FX (a). Para determinar la probabilidad en un punto, por ejemplo x=a, consideremos el intervalo a h < x a, h > 0, x . Cuando h tiende a cero, este intervalo tiende al punto x=a; esto es, el lmite de cualquier intervalo de esta forma tiende al punto x=a a medida que h tiende a cero. Entonces podramos esperar que lim P(a h<X a) = P(X=a) h! lim P(a h<X a) = lim [FX (a) FX (a h)] h! h! = FX (a) lim FX (a h) h! = FX (a) FX (a ), donde FX (a ) = lim FX (a h). h! Luego P(X=a) = FX (a) FX (a- ) As, si X=a es un punto de discontinuidad de FX , la probabilidad que X=a es igual a la magnitud del salto de FX en el punto x=a. Si FX es continua en X=a, no hay salto en dicho punto y luego P(X=a) = 0. Resumiendo, podemos calcular probabilidades relacionadas con una variable aleatoria X si slo conocemos su funcin de distribucin acumulada, en la siguiente forma: P(a<X b) = FX (b) FX (a) 43
P(X=a) = FX (a) FX (a- ) P(a X b) = FX (b) FX (a ) + P(X=a) P(a X<b) = FX (b) FX (a)+P(X=a) P(X=b) P(a<X<b) = FX (b ) FX (a) P(X=b) Por supuesto, si X es una variable aleatoria continua, la probabilidad para los distintos intervalos es siempre la misma, independiente de que se incluyan o no los extremos de los intervalos. Adems, conocida la funcin de distribucin para una variable aleatoria discreta X, podemos determinar su funcin de probabilidad como pX (x) = P(X=x) = FX (x) FX (x ), ax . Por otra parte, si FX (x) es una funcin continua de x, entonces X es una variable continua con funcin de densidad que se obtiene derivando la funcin de distribucin, esto es fX (x) =
d dx
FX (x) , ax .
Ejemplo. Consideremos la variable aleatoria X cuya funcin de distribucin est dada por: 0 x2 /2 FX (x) = 3/4 (x 1)/4 1 si x < 0 si 0 x <1 si 1 x < 2 si 2 x < 3 si x 3
Esta funcin de distribucin presenta una discontinuidad en el punto x=1 y por lo tanto no podemos pensar que estamos en presencia de una variable aleatoria continua. Tampoco estamos en presencia de una variable discreta ya que el grfico de FX no es completamente escalonado (ver Figura 2.6). Sin embargo, an en estas condiciones podemos utilizarla para determinar probabilidades respecto de la variable aleatoria. Por ejemplo P(X=1) = FX (1) FX (1 ) = 3/4 1/2 = 1/4. P(X=1/2) = 0, pues F es continua en X=1/2. P(1/2 X 3/2) = FX (3/2) FX (1/2) + P(X=1/2) 44
= 3/4 1/8+0=5/8. y P(1 X<5/2) = FX (5/2) FX (1)+P(X=1) P(X=3/2) =5/8 3/4+1/4-0=1/8. A partir de la funcin de distribucin podemos determinar ciertos valores de la variable que dividen la distribucin en partes iguales, llamados cuantiles. As, es dividida en cuatro partes iguales, tenemos tres por ejemplo, si la distribucion valores de la variable que se definen como el primer, segundo y tercer cuartil, que denotaremos por Q" , Q# y Q$ , respectivamente. Si la distribucin es dividida en 100 partes iguales, los valores de la variable correspondientes a cada una de stas reciben el nombre de percentiles de la distribucin. De esta manera, el percentil-p, tp , de la distribucin de la variable aleatoria X se define por FX (tp ) = P(X tp ) = p, 0<p<1. Notemos que, de acuerdo a la definicin de percentil, tenemos que el percentil25, t0.25 corresponde al primer cuartil Q" . El percentil-50, t! & ! , corresponde a la mediana de la distribucin, que es aquel valor de la variable que deja a su izquierda el 50% de las observaciones y a su derecha el resto, y corresponde a Q# . Ejemplo. Considerando el ejemplo anterior, para el primer cuartil debemos resolver la ecuacin FX (t) = 0.25, que en nuestro caso corresponde a resolver la ecuacin t# /2 = 0.25, de donde Q" = t0.25 = 0.707. Anlogamente obtenemos la mediana como el percentil-50, t0.5 = Q# = 1.0. El tercer cuartil est dado por Q$ = t0.75 = 2.0. Finalizaremos esta seccin dando un ejemplo de una variable aleatoria cuya funcin de distribucin es muy utilizada en las aplicaciones, en especial en la generacin de nmeros aleatorios. Ejemplo. (Distribucin Uniforme) Suponga que X es la variable aleatoria que representa el valor de un punto elegido al azar en el intervalo (a,b). Claramente X es una variable continua con recorrido RX = (a,b). La funcin de densidad de X, representada en la Figura 2.10, est dada por
1 fX (t) = b-a si a< t< b
y su funcin de distribucin por
45
FX (t) = 1
t-a b-a
si t < a si a x b si t > b
El grfico de FX (t) se muestra en las Figura 2.10.
Figura 2.9. Figura 2.10. Esta variable aleatoria X se dice que tiene distribucin uniforme sobre el intervalo (a,b) y se caracteriza por tener una densidad constante. Notemos que el grfico de FX (t) corresponde al de una funcin continua para todo real t.
2.6. Esperanza y Momentos Recordemos que la funcin de densidad de una variable aleatoria continua o la funcin de probabilidades de una discreta, describe completamente el comportamiento de la variable. Sin embargo, asociado a cualquier variable aleatoria hay ciertas constantes que tambin la caracterizan. El conocimiento de los valores numricos de estas constantes proporciona informacin rpida acerca de la naturaleza de las variables. El trmino valor esperado o esperanza de una variable aleatoria es utilizado como una medida de centro o como una medida de localizacin de una distribucin de probabilidades. En Fsica corresponde a la idea del centro de gravedad de una distribucin de masa. En el caso de una variable aleatoria discreta, con valores igualmente probables, el valor esperado de X corresponde a la media aritmtica usual y en esta situacin tiene sentido hablar de promedio de la variable para referirnos a su valor esperado o esperanza. Definicin.- Sea X una variable aleatoria. La media de X, valor esperado o simplemente esperanza de X se define y denota como (i) E[X] = ! xpX (x); si X es discreta
x
(ii) E[X] = ( xfX (x)dx ; si X es continua
46
En (i), E[X] est definida como la serie indicada siempre que dicha serie sea absolutamente convergente; de otra forma, diremos que la media no existe. Anlogamente, en (ii) E[X] est definida o existe, si la integral existe. Si observamos (i) vemos que E[X] es un promedio de los valores que asume la variable aleatoria, donde cada valor es ponderado por la probabilidad que la variable sea igual a dicho valor. Los valores ms probables tienen mayor ponderacin. La esperanza de X, como ya lo hemos mencionado, corresponde al centro de la distribucin de probabilidades, y se le llama tambin promedio o media y suele denotarse como .X o simplemente . cuando esta ltima notacin no genera confusin respecto de que variable se est considerando. Ejemplo. Consideremos una variable aleatoria X con distribucin uniforme en el intervalo (a,b) y calculemos la esperanza de X. Dado que X es una variable aleatoria continua, tenemos que E[X] = ( xfX (x)dx = (
b a
x a+b dx = . b-a 2
Notemos que en este caso particular, la esperanza de X coincide con el punto medio del intervalo considerado, que por supuesto no podra ser de otra manera ya que la funcin de densidad es constante en el intervalo (a,b). Vemos claramente que E(X) corresponde al punto de equilibrio de la distribucin de probabilidades de X, ver Figura 2.10. Ejemplo. Sea X una variable aleatoria con funcin de densidad de probabilidad dada por: fX (x) = x2 ; x 1. Entonces, E[X] =(
_
"
x x-# dx = lim ln b = _, b_
y decimos que E[X] no existe. Tambin podramos decir que la media de X es infinita puesto que la integral que la define es infinita. Ejemplo. Consideremos nuevamente el ejemplo del lanzamiento de una moneda al aire en 4 ocasiones, donde la variable de inters es el nmero de caras observadas. Como vimos " pX (x) = 4 x 16 ; x=0, 1, 2, 3, 4.
Dado que X es una variable aleatoria discreta, la esperanza de X la calculamos como 47
4 " E[X] = !4 x! x x 16 1 4 6 4 1 =0 16 +1 16 +2 16 +3 16 +4 16 = 32/16 = 2. En 4 lanzamientos de esta moneda podemos algunas veces observar 0 cara, algunas veces 1 cara , 2, 3 4 caras pero, a la larga esperamos observar en promedio 2 caras al realizar este experimento. La idea de esperanza de una variable aleatoria arbitraria X podemos generalizarla para una funcin, H(X), de ella. Esta funcin es tambin una variable aleatoria. H(X) ser discreta si X es discreta y supondremos que H(X) es una variable aleatoria continua si X es continua. Definicin. Sea X una variable aleatoria y H(X) una funcin de X. i) Si X es una variable aleatoria discreta con funcin de probabilidades pX (x), entonces el valor esperado de H(X) se define, siempre que la serie sea absolutamente convergente, por E[H(X)] = !H(x)pX (x)
x
ii) Si X es una variable aleatoria continua con densidad fX (x), el valor esperado de H(X) es E[H(X)] =(
_
H(x)fX (x)dx
-_
siempre que la integral sea absolutamente convergente. La esperanza es un operador lineal como se muestra en el siguiente teorema, cuya demostracin se deja como ejercicio. Teorema 2.1. Sea X una variable aleatoria (discreta o continua). Consideremos dos funciones de X, H(X) y G(X), y sea k una constante. Entonces: (a) E[k] = k (b) E[kH(X)] = kE[H(X)] (c) E[H(X) + G(X)] = E[H(X)] + E[G(X)] siempre que dichas esperanzas existan. Tambin es importante en la descripcin de una variable aleatoria, considerar una cantidad que nos cuantifique el grado de alejamiento de los valores en torno a algn punto; en particular , respecto del centro . de su distribucin . Una medida que refleja este hecho es la varianza. 48
Definicin. La Varianza o Dispersin de una variable aleatoria X, que # denotaremos por 5x , V(X) o Var(X), se define por
2 5x = E[(X .x )# ],
y a su raz cuadrada positiva, 5x , se le llama desviacin tpica o estndar de X. Desarrollando el cuadrado y utilizando las propiedades del operador esperanza tenemos que la varianza podemos escribirla como
2 2 2 5x = E[X2 ] .2 x = E[X ] (E[X]) .
Algunas propiedades de la varianza estn dadas en el siguiente teorema Teorema 2.2. Sea X una variable aleatoria con media . y varianza 5 # . Entonces, (a) Var(k) = 0; k constante (b) Var(X+k) = Var(X) = 5 2 (c) Var(kX) = k# Var(X) = k# 5 # . Demostracin. Desarrollaremos solamente el caso (c), las restantes se dejan como ejercicio. Sea k una constante arbitraria. Por definicin Var(kX) = E(k# X# ) (E(kX))# = k# E(X# ) (kE(X))# = k# {E(X# ) .# } = k# Var(X). La varianza es por definicin una cantidad no negativa y proporciona la variabilidad de las mediciones en torno a la media. En el caso discreto corresponde a una suma ponderada de las distancias desde los valores asumidos por la variable al centro de la distribucin, representado por la esperanza de la variable en cuestin. As, tanto la varianza como la desviacin estandr son medidas de dispersin de una variable. Como tales no son nicas, existiendo otras medidas de dispersin que pueden ser tiles en situaciones determinadas. Por ejemplo, la desviacin media D = E(|X .|) y el recorrido intercuartlico Q = t!(& t!#& . Conocida la media y la varianza de una variable aleatoria X podemos aproximar probabilidades respecto de ella sin conocer explcitamente su 49
distribucin. De hecho, lo que se obtiene es probabilidades.
una cota para dichas
Para establecer la cota, consideremos previamente el siguiente teorema general Teorema 2.3. Sea X una variable aleatoria y g(X) una funcin no negativa de X con dominio en . Entonces P(g(X) k)
E[g(X)] k
, ak>0
Demostracin. Haremos la demostracin para el caso continuo en el entendido que la demostracin para variables discretas es anloga. Sea entonces X una variable aleatoria continua con funcin de densidad fX (x), por definicin E[g(X)] = ( =(
_
g(x) fX (x)dx g(x)fX (x)dx +(
-_
{B1B=5 }
{B1B<5
g(x)fX (x)dx
y como g(x) es no negativa tenemos E[g(X)] ( ( g(x) fX (x) dx kfX (x)dx = kP(g(X) k).
{B1B5 }
{B1B5 }
y por lo tanto el resultado del teorema. Teorema 2.4. (Desigualdad de Chebyshev). Sea X una variable aleatoria con media .x y desviacin estandr 5x . Entonces, P(|X- .x | r5x ) r1 , r>0. # Demostracin. Por sucesos equivalentes tenemos que
# P(|X- .x | r5x ) = P(X-.x )# r# 5x .
# Enseguida, tomando g(X)=(X .x )# y k=r# 5x en el teorema anterior, se tiene de inmediato el resultado.
Notemos que la desigualdad de Chebyshev la podemos escribir en forma alternativa como 50
P(|X .B | < r5B ) 1 r1 # o lo que es lo mismo P(.x r5x <X<.x +r5x ) 1 r1 # . La desigualdad de Chebyshev, como ya lo hemos mencionado, es muy til para aproximar probabilidades acerca de una variable aleatoria cuya funcin de probabilidad y/o densidad no es conocida. Se puede verificar, conocida la distribucin de probabilidades, que la cota de Chebyshev es razonablemente buena si r es un nmero grande. Ejemplo. Consideremos la variable aleatoria X con funcin de densidad de probabilidad f(x) = 2exp( 2x), x>0. Comparemos el valor que nos proporciona la cota de Chebyshev con la probabilidad exacta que X tome un valor dentro de dos desviaciones estndar de la media. Utilizando la funcin de densidad encontramos
# .x = 1/2, 5x = 1/4 y FX (t) = 1 e#> ; t 0
Entonces, la probabilidad exacta corresponde a P(. 25 <X<.+25 ) = P(1/2 1<X<1/2+1) = P( 1/2<X<3/2) = FX (3/2) FX ( 1/2) = 1 e3.0 0 = 1 0.0497 = 0.9503. Ahora, utilizando la desigualdad de Chebyshev obtenemos P(. 25 <X<.+25 ) = P(|X .|<25) 1 1/4 = 0.7500 La desigualdad de Chebyshev en este caso, est descartando todos los valores menores a 0.750 como probabilidad de ocurrencia del evento.
2.7. Funciones Generadoras Recordemos que al tratar la esperanza en forma general vimos que 51
!H(x)p (x) X E[H(X)] = H(X)fX (x)dx (
si X es una variable discreta si X es una variable continua
Cuando H(X)=Xk , k , tenemos E[Xk ] y esta esperanza recibe el nombre de k-simo momento de la variable aleatoria X. Definicin. Dada la variable aleatoria X, el k-simo momento de X se define y denota por mk = E[Xk ] , k . Para k=1, tenemos m" =E[X] y para k=2, m# =E[X# ], luego la varianza de X en funcin de los dos primeros momentos es
# 5X = E[X# ] (E[X])# = m# (m# ") .
Definicin. Dada una variable aleatoria X, la funcin generadora de momentos de X se define como MX (t) = E[e>X ], siempre que dicha integral exista.
d Definamos M(k) X (t) = dtk MX (t), entonces suponiendo que podemos intercambiar las operaciones de diferenciacin y esperanza, tenemos
k
tX MX (t) = E[ de dt ] = E[Xe ] d tX MX (t) = E[ dt ] = E[X# etX ] # e k dk tX MX (t) = E[ dt ] = E[Xk etX ]. k e #

#
"
tX
Enseguida, evaluando MX (t) en t=0, tenemos MX (0) = E[X] = m" MX (0) = E[X# ] = m# 52
# "
k MX (0)
= E[Xk ] = mk .
As, las derivaciones sucesivas de MX (t) evaluadas en cero generan los momentos de la variable aleatoria X. Algunas propiedades de las funciones generadoras de momentos estn dadas en el siguiente teorema, cuya demostracin dejamos como ejercicio. Teorema 2.5. Sea X una variable aleatoria y sean a y b constantes. Entonces, i) Ma+X (t) = eat MX (t) ii) MbX (t)= MX (bt) iii) Ma+bX (t) = ea t MX (bt). Ejemplo. Supongamos que el nmero de horas de operacin satisfactoria (sin reparaciones) que tiene cierto canal de TV es una variable aleatoria X con funcin de densidad fX (x) = 500e-&!!B , x>0 La funcin generadora de momentos de X est dada por MX (t) = E[e ] = (
tX _
etX 500 e-&!!x dx
=( =
500 e-x&!!-t dx si t<500.
500 500-t
De aqu tenemos que MX (0) = m" = .X =

# " 1 500
MX (0) = m# = 2/(500)# , de donde

# # 5X = m# m# " = 1/(500) y 5X = 1/500.
Ejemplo. Consideremos nuevamente el lanzamiento de una moneda. Supongamos que la lanzamos en tres ocasiones y definamos la variable 53
aleatoria X como el nmero de caras que ocurren. La funcin de probabilidades de X est dada por " pX (x) = 3 x 8 , x = 0,1,2,3.
La funcin generadora de momentos de X est dada por

$ tx 3 " MX (t) = E[etX ] = !x ! e x 8
= =
1 8 1 8
(1+3et +3e#t + e$t ) (1+et )$ .
Derivando la funcin generadora y evaluando en cero, tenemos " # MX (0) = 3 2 y MX (0) = 3, de donde la varianza de X es igual a 3/4. Tambin podemos definir los momentos en torno a la media para una variable aleatoria X. Definicin. El k-simo momento en torno a la media de una variable aleatoria X se define y denota por: nk = E[(X .X )k ], k=1,2,... Tambin suele hablarse de momentos centrales para referirse a los momentos en torno a la media. La funcin generadora de momentos centrales la definimos, en forma anloga a la funcin generadora de momentos comn, como MX-.X (t) = E[et
X.X
= E[etX e>.X ] = et.X E[etX ] = et.X MX (t). As, la funcin generadora de momentos centrales de la variable aleatoria X la podemos expresar en trminos de su funcin generadora.
2.8 Funciones de una Variable Aleatoria
54
Aunque ya hemos considerado algunas funciones de una variable aleatoria en las secciones anteriores, formalizaremos aqu algunos casos simples ya que, en muchas situaciones prcticas se presenta el problema de calcular la distribucin de alguna funcin de una variable aleatoria. En estos casos, como veremos, una simple transformacin permite resolver el problema. El problema general; esto es, para funciones de ms de una variable, ser tratado en el captulo 4. Cuando X es una variable aleatoria discreta y estamos interesados en la funcin de probabilidades de Y=H(X), el problema es simple ya que bastar con sustituir en forma adecuada cuando Y es una funcin uno a uno. Esto queda consignado en el siguiente teorema. Teorema 2.6. Sea X una variable aleatoria discreta con recorrido RX y funcin probabilidades pX (x). Sea Y=H(X) una transformacin uno a uno sobre X, con inversa X=H-" (Y) en el recorrido de Y, RY . Entonces la funcin de probabilidades de Y, pY (y), est dada por pX (H-" (y)), a y RY . Demostracin. En efecto, sea y un valor particular de la variable aleatoria Y=H(X), la funcin de probabilidad de Y es por definicin pY (y)= P(Y=y)=P(H(X)=y)=P(X=H-1 (y))=pX (H-1 (y)), a y RY . Ejemplo. Un kiosco de revista ordena 4 ejemplares de una nueva revista. Sea X la variable aleatoria que denota la demanda semanal, por parte de los clientes de este kiosco, de esta revista. Se encontr que la distribucin de probabilidades para X es x p(x) 1
6 21
2
5 21
3
4 21
4
3 21
5
2 21
6
1 21
x que podemos escribir como: pX (x) = 721 ; x=1,..,6
Suponga que el ingreso de este kiosco est relacionado al nmero de demandas por la nueva revista por la funcin Y = 200X+300000. La distribucin de probabilidades para el ingreso sale inmeditamente de aplicar el Teorema 2.6, pues Y es una funcin uno a uno de X. El espacio de valores de Y es el conjunto: RY =300200, 300400, 300600, 300800, 301000, 301200
Luego, pY (y) = pX ( y300000 ) 200 55
= = o bien,
7( y300000 ) 200 21 301400y 4200 ,
para y RY . 3004
5 21
y (x100) p(y)
3002
6 21
3006
4 21
3008
3 21
3001
2 21
3012
1 21
Notemos que las probabilidades permanecen inalteradas, slo varan los valores asociados a la variable aleatoria. De aqu el nombre de cambio de variable. Si estamos an en el caso discreto; es decir, donde X es una variable aleatoria discreta, pero la funcin Y=H(X) no es uno a uno, podemos proceder como en el siguiente ejemplo. Ejemplo. Consideremos la misma variable aleatoria X, demanda semanal por la nueva revista, del ejemplo anterior y determinemos la distribucin de probabilidades para el nmero de copias no vendidas al final de la semana. Sea Z la variable aleatoria definida como nmero de copias no vendidas a la semana. Ahora nos interesa determinar la funcin de probabilidades de Z=H(X)=Mximo4 X, 0 . Notemos que Z no es una funcin uno a uno, R^ = {0,1,2,3}. Sin embargo, podemos determinar la funcin de probabilidades de Z en forma puntual, usando eventos equivalentes. En efecto, p^ (0) = P(X=4 X=5 X=6) = pX (4)+pX (5)+pX (6) = 6/21 p^ (1) = P(X=3) = pX (3) = 8/16, p^ (2) = pX (2) = 5/21 p^ (3) = pX (1) = 6/21 As, la funcin de probabilidades de Z est dada por z pZ (z) 0 6/16 1 8/16 2 2/16
Ahora, para variables aleatorias continuas, veremos un teorema que resuelve el problema de encontrar la distribucin de Y=H(X), cuando H es una funcin 56
montona creciente o decreciente. Adems presentamos una serie de ejemplos de tranformaciones ms comunes. Teorema 2.7 . Sea X una variable aleatoria continua con funcin de densidad fX (x) y sea H(X) una funcin montona, continua y diferenciable. Si Y=H(X), entonces su funcin de distriibucin est dada por: F] (t) = FX (H-" (t)) 1-FX (H-" (t)) si H(X) es creciente si H(X) es decreciente
y la funcin de densidad de Y es f] (y) = fX (H-" (y)) |

dH-" (y) dy
|, ay RY .
Demostracin. Sea X una variable aleatoria continua y sea la variable aleatoria Y=H(X), donde H es una funcin montona creciente de x, a x RX , entonces F] (t) = P(Y t) = P(H(X) t) = P(X H-" (t)) = FX (H-" (t)). Si ahora H es montona decreciente, F] (t) = P(Y t) = P(H(X) t)= P(X > H-" (t)) = 1 P(X H-" (t)) = 1 FX (H-" (t)). As, derivando la funcin de distribucin tenemos que, si H(X) es creciente, la funcin de densidad es
d f] (t) = fX (H-" (t)) dt H-" (t), y si H(X) es decreciente d f] (t) = dt (1 FX (H-" (t))
= fX (H-" (t)) = fX (H-" (t))|
dH-" (t) dt
dH-" (t) dt
|.
Por lo tanto, si Y=H(X) es montona, ya sea creciente o decreciente, entonces la funcin de densidad de Y est dada por
57
f] (t) = fX (H-" (t)) |
dH-" (t) dt
|.
Ejemplo. Sea X es una variable aleatoria con funcin de distribucin FX (t) y funcin de densidad fX (t). Sea Y = a+bX , b>0, entonces como Y es una funcin montona creciente de la variable X tenemos, de acuerdo al teorema anterior, que la funcin de distribucin acumulada y la funcin de densidad de Y son respectivamente:
a " t-a FY (t) = FX ( t b ) y fY (t) = b fX ( b ).
En este caso se tiene de inmediato que la media y la varianza de Y estn dadas por
# # E(Y) = a+bE(X) y 5] = b# 5X , respectivamente.
Ejemplo. (Forma estndar). Consideremos la variable aleatoria X, cuya funcin de distribucin est dada por FX (t) = 1 e#> si t >0 La forma estndar de X se define por la transformacin Z = (X . )/5 . De acuerdo al Ejemplo anterior, la funcin de distribucin de Z est dada por
a F^ (t) = FX ( t b ); donde a = ./5 y b = 1/5 .
As, FZ (t) = 1 e-2(

t+. /5 1/5 )
, si
t+. /5 1/5 >0.
Realizando los clculos, tenemos que . = 1/2 y 5 = 1/2, entonces F^ (t) = 1 e>+" si t >-1
Finalmente, como Z = ./5 + X/5 , entonces E(Z) = . /5 +. /5 = 0 y Var(Z) = (1/5 # )5 # = 1. As, la forma estndar de una variable aleatoria siempre tendr media cero y varianza unitaria.
58
Ejemplo. Sea X una variable aleatoria continua con funcin de distribucin FX (), tal que FX (t) = 0, para todo t 0 . Si Y = X"# , entonces F] (t) = FX (t# ) y f] (t) = 2t fX (t# ), si t >0, si t >0
Notemos que, aparte de ser X una variable aleatoria continua, ella debe ser positiva, tal que su raz cuadrada sea real; de lo contrario el resultado no es vlido. Ejemplo. Consideremos la variable aleatoria X que tiene funcin de densidad fX (x) = 2(1-x), 0<x<1, y determinemos la funcin de densidad de Y = eX . H(x) = ex es una funcin montona de x, cuya funcin inversa es x=lny=H-" (y). Entonces una aplicacin directa del Teorema 2.7 nos conduce a la funcin de densidad de Y f] (y) = 2(1-lny) /y, 1< y<e.
Observacin. Si H(X) no es una funcin montona no se dispone de un resultado general para determinar la distribucin de probabilidades y habra que resolver cada caso separado. Veamos algunos ejemplos Ejemplo. Sea X es una variable aleatoria continua con funcin de densidad f(x) = 1/2 , -1<x<1. Determinemos la distribucin de la nueva variableY = X# . Primero notemos que RX =(-1,1), entonces RY =0,1). As, inmediatamente sabemos que FY (y)= 0 1 si y<0 si y>1
Ahora, para valores 0 y 1 podemos razonar como sigue: El evento Y y es equivalente al evento X2 y el cual es equivalente a X y y a - y Y y Por lo tanto para 0 y 1 59
FY (y) = P(-y Y y) = FX (y) FX (-y) entonces derivando la funcin de distribucin anterior obtenemos la funcin de densidad de Y como f] (y) = 0 fY (y) = # 0 0
-1/2 -1/2 fX (y) " -fX (-y)(- " ) #y #y
si y <0 si 0 y 1 si y > 1
Esto es
" -1/2
si 0 y 1 en otros casos
En este ejemplo, notemos que la transformacin de la variable original X es simtrica (corresponde a una parbola centrada en cero). El procedimiento anterior desgraciadamente no es vlido para funciones no simtricas , como lo veremos en el siguente ejemplo. Ejemplo. Sea X una variable con densidad fX (x)=1/3 para -1 x 2 y funcin de distribucin FX (x)= 1 0
x+1 3
si x <-1 si -1 x 2 si x >2
Determinemos la distribucin de Y = X2 .
Claramente, RY =0,4 por lo que FY (y)=0 para y < 0 y FY (y)=1 para y > 4. Ahora para y 0,4,analicemos los intervalos0,1) y 1,4por separado Si 0 y < 1: FY (y) = P(X2 y) =P(-y Y y) = FX (y)-FX (-y) = 3
y+1 2 y -y+1 3
= 3 60
Para 1 y 4: FY (y) = P(Y 1) + P(1<Y y)

2 = 2 3 + P(1<X y) y) =2 3 +P(!<X
=2 3 +FX ( y)- FX (1) =2 3+

y+1 3
-2 3.
Derivando la funcin de distribucin, obtenemos la densidad de Y

1 3y 1 fY (y) = 6 y 0
si 0<y 1 si 1<y 4 e.o.c.
EJERCICIOS 1. Considere una caja que contiene 4 fichas marcadas con los nmeros 1, 2, 3 y 4, respectivamente. a) Si se extrae una ficha al azar de la caja e Y es la variable aleatoria que denota el nmero que ocurre. Cul es la funcin de probabilidad paraY? b) Si dos fichas se extraen de la caja sin reemplazo y si Z es la variable aleatoria que denota la suma de los nmeros que ocurren, determine la funcin de probabilidad de Z. c) Defina Z igual que en (b) y determine su funcin de probabilidades cuando las fichas se extraen con reemplazo. d) Si dos fichas se extraen con reemplazo y si X es la suma de los cuadrados de los nmeros que ocurren, determine la funcin de probabilidad de X. 2. Una clase de estadstica tiene 10 alumnos, 3 de los cuales tienen 19 aos, 4 tienen 20 aos, 1 tiene 24, 1 tiene 21 y 1 tiene 26. Dos estudiantes son seleccionados al azar sin reemplazo. Sea X la edad promedio de los dos estudiantes seleccionados. Determine la funcin de probabilidad de la variable aleatoria X. 3. Un hombre tiene 4 llaves en su bolsillo y como est oscuro, no puede ver cul es la llave de su puerta. El probar cada llave hasta encontrar la correcta. Sea X la variable aleatoria que indica el nmero de llaves probadas (incluyendo la correcta) para abrir la puerta. Cul es la funcin de probabilidad de X? 61
4. Suponga que dos dados son lanzados uno a la vez. Sea M la variable aleatoria que indica el mximo de los dos nmeros que ocurren y sea W la variable aleatoria que representa el mnimo de los dos nmeros que ocurre. Encuentre la funcin de probabilidad para M y la funcin de probabilidad para W. 5. a) Sea p(x) = c(x-2), donde x=1,2,...,6. Es posible encontrar una constante c de modo que p(x) sea una funcin de probabilidad? b) Encuentre c tal que p(x)=c/x!; x=0,1...sea una funcin de probabilidad. Calcule P(X< 2) y P(X 2) 6. Usted va a participar en el siguiente juego: se lanzan 3 dados y se le permite apostar 1 dlar en la ocurrencia de uno de los enteros 1,2,3,4,5,6. Suponga que usted apuesta por la ocurrencia del 5. Entonces si un 5 aparece en uno de los tres dados usted gana 1 dlar. Si dos 5 aparecen, gana dos dlares y si aparecen tres 5 usted gana 3 dlares. Si ningn 5 aparece usted pierde 1 dlar. Sea X la cantidad neta que usted gana en una tirada de este juego. Determine la distribucin de probabilidad para X. Le conviene participar en este juego?. Justifique. 7. El juego del ''Keeno'' consiste en seleccionar pelotas de ping-pong al azar de una urna grande. La urna contiene 100 pelotas numeradas desde el 00 al 99. Veinte de estas pelotas van a ser seleccionadas al azar del recipiente. Antes que sean seleccionadas, se le permite a usted elegir a su gusto tres nmeros cualesquiera del 00 al 99. Sea Y el nmero de coincidencias entre los nmeros elegidos por usted y los 20 que son extrados al azar de la urna. Determine la funcin de probabilidad para la variable aleatoria Y. 8. Sea la variable aleatoria U cuya funcin de probabilidad est dada por: PU (u) = 1/6 1/3 1/2 si u= 3 si u= 0 si u= 4
Cul es la funcin de distribucin de U?. Calcule P(-2 U 1). 9. Sea X una variable aleatoria con funcin de densidad fX (x) = 0
1 99< x< 10 e.o.c.
Determine FX (x), la funcin de distribucin de X. 10. Sea Y una variable aleatoria continua con
62
fY (y) = 0
2(1-y) 0< y< 1. e.o.c.
Determine la funcin de distribucin de Y. 11. En cada una de las funciones dadas determine la constante c de manera que cada una de ellas posea todas las propiedades de una funcin de distribucin. Determine en cada caso, la funcin de densidad si existe y grafique todas las funciones. x<5 a) F(x) = 1/3 1/3 x<7 c x7 c) F(x) = x 1 0 x<0 0x1 x>1 0 b) F(x) = 0
1 - e--B x>0 x 0
12. Calcule P(X 6) y P(1/2< X 7) , para cada parte del ejercicio 11. 13. Sea X una variable aleatoria con funcin de densidad de probabilidad.
1 fX (x) = 1(1+x # ) , -_< x< _.
Determine la funcin de distribucin de X. 14.Se lanzan dos dados juntos hasta obtener una suma de 7. Determine la distribucin de probabilidades para X, el nmero de lanzamientos necesarios para lograr este objetivo. 15. Sea X la duracin de un tubo electrnico y suponga que X se puede representar como una variable aleatoria continua con funcin de densidad f(x) = be-bx , x>0, b> 0. Demuestre que p4 =P(j X< j+1) es de la forma (1-a)a4 y determine el valor de a. 16.El tiempo de operacin sin falla de cierta componente es una variable aleatoria X (en das), con funcin de densidad de probabilidad dada por: x 1 - 120 fX (x) = 120 e , x>0 a) Qu proporcin de estas componentes duran a lo ms 100 das? b) Si cierta componente dura ms de 100 das, cul es la probabilidad que dure otros 100 das ms?
63
17. Se extraen al azar tres fichas juntas desde una caja que contiene 5 fichas numeradas del 1 al 5. Sean Y el menor nmero de las tres fichas extradas y R el mayor menos el nmero menor. a) Determine la distribucin de probabilidad para Y y para R. b) Calcule la P(Y 2) y P(R>2). 18. Sea X una variable aleatoria discreta con funcin de probabilidad dada por p(x) = 1/4, x=2, 4, 8, 16. Calcule: a) E(X) d) E(2\ /# ) # b) E(X) e) Var(X) c) E(1/X) f) Var (1/X). 19. Sea X una variable aleatoria continua con funcin de densidad f(x) = Calcule: a) E(X) d) E(1/(1-X)) 2(1-x) 0 o<x<1 e.o.c.
b) E(X# ) 2 e) 5X y 5X
c) E(X+10)#
20. Sea X una variable aleatoria y c una constante arbitraria. Muestre que E[Xc)# ] es minimizada cuando c=.\ . 21. Determine el nmero de defectuosos de una seleccin aleatoria de 4 artculos desde un lote que contiene 10, de los cuales dos son defectuosos. 22. Determinar el valor esperado del nmero ms pequeo de tres fichas extradas al azar desde una caja que contiene 5 fichas numeradas del 1 al 5. 23. Calcular el valor esperado de una variable aleatoria X con funcin de distribucin FX (x) = x 1 0 x<0 0x1 x>1
24. Calcular el valor de la variable aleatoria Z cuya funcin esperada est dada por: f^ (z) = 0
1-|z| si |z|<1 e.o.c
25. Una rifa tiene como premio un auto de 3000 dlares. Se venden 10000 nmeros a 1 dlar cada uno. Si usted compra un nmero, cul es su ganancia 64
esperada?. Cul es su ganancia esperada si usted compra 100 nmeros?. Calcule la varianza de su ganancia en estos dos casos. 26. Una firma de refrigeradores ofrece modelos de 14, 16 y 19 pies cbicos de capacidad. Sea X la capacidad solicitada por el prximo cliente que adquiere un refrigerador. Considere para X la siguiente distribucin de probabilidades.
x p(x)
14 0.2
16 0.5
19 0.3
a) Calcular E(X) y Var (X). b) Si el precio de un refrigerador de capacidad X est dado por 25X-8.5. Cul ser el precio esperado que cancelar el prximo cliente?. c) Cul es la varianza correspondiente a 25X-8.5? 27. La duracin en miles de horas de cierto tipo de motor elctrico es una variable aleatoria con funcin de densidad dada por: fX (x) = 0
6x(1-x), 0<x<1 e.o.c
Suponga que el costo de reparacin R por cada unidad que falla est dado por: $5.000 si el motor dura menos de 300 horas; $10.000 si el motor dura entre 300 y 550 horas; y $15.000 si el motor dura ms de 550 horas. a) Cul es el costo esperado de reparacin? b) Si se eligen al azar cuatro motores que han fallado, calcular la probabilidad que al menos tres de ellos tengan un costo de reparacin de $15000. 28. Considere una variable aleatoria X cuya funcin de densidad est dada por: f (x) = 0
a e-B# x> 0 e.o.c.
Determine: a) El valor de a. b) La media y la varianza de X. c) La media y varianza de la variable Y=X/2-1. 29. El tiempo de entrenamiento de un ingeniero en una planta acerera es una variable aleatoria con funcin de densidad
65
f (x) = ax 0
si x<1 si 1 x 6 si x> 6
(x en meses)
a) Determine el valor de a. b) Qu probabilidad existe que el entrenamiento de un ingeniero demore menos del tiempo de entrenamiento promedio para dicha planta? c) Qu probabilidad existe que un ingeniero necesite a lo menos .-5 das de entrenamiento? 30. La media y varianza de la variable aleatoria X estn dadas por . y 5 # , respectivamente. Para qu valores de a y b, la variable aleatoria Y=aX+b tiene media 0 y varianza unitaria? 31. Un dado es lanzado una vez. Sea X la variable aleatoria que denota la ocurrencia del nmero 6. Calcule la funcin generadora de momentos de X, M\ (t), y sela para determinar los tres primeros momentos de X. 32. El nmero de horas de operacin satisfactorias de cierta marca de televisores es una variable aleatoria Z con funcin de densidad f^ (z) = 0
0.0001e-!!!!" si z>0 si z0
# Determine M^ (t) y utilcela para calcular .^ y 5^ .
33. Considere la variable aleatoria X con funcin de densidad fX (x) = 1/2, 0 x 2. Determine una cota inferior para P(|X-1| 0.75), usando la desigualdad de Chevychev y comprela con el valor exacto de esta probabilidad. 34. Sea X una variable aleatoria con funcin de densidad de probabilidad. fX (x) = 0
1/3 si 2x5 c.o.c.
a) Determine P(|X-3.5| 1.25) y comprela con la cota dada por la desigualdad de Chevychev. b) Utilice la desigualdad de Chevychev para determinar un valor aproximado de P(X 4.5). 35. La funcin caracterstica de una variable aleatoria X con funcin de densidad fX (x) se define por: 9X (t) = E(eitX ), donde i=-1
66
d5 Pruebe que E(X5 ) = (1/i5 ) dt 5 9X (t) |>!
36. Determine la Funcin Caracterstica de la variable aleatoria X con densidad f (x) = 0

a/2 , |x|a , e.o.c
y calcule la media de X. 37. Sea X una variable aleatoria con funcin de densidad f\ (x) y funcin generadora de momentos M\ (t). Sea Y=a+bX, b<0. a) Determine la funcin de densidad de la variable aleatoria Y. b) Exprese la funcin generadora de momentos de Y en trminos de M\ (t) y utilcela para determinar la media y la varianza de Y, cuando a=2, b=1, E(X# )=3/4. 38. Considere una variable aleatoria X tal que E(X5 )= (k+1)!25 , k=1,2,3...Determine la funcin generadora de momentos de X. 39. Sea X una variable aleatoria con funcin de densidad (o de probabilidad) fX (x). La funcin Generadora de Momentos Factoriales se define y denota como: <X (t) = E(tX ). siempre que dicha esperanza exista. a) Exprese <X (t) en trminos de MX (t). d5 b) Muestre que dt 5 <X (t)|>" =E(X(X-1)...(X-k+1)). 40. Sea X una variable aleatoria con recorrido R\ ={0,1,2,...}. Utilizando la <X (t) muestre que la funcin de probabilidades de X se puede determinar como:
d P(X=k) = pX (k) = k! dt 5 <X (t)| >! , k=0,1,2,...
5
Por esta razn se acostumbra a hablar de ''funcin generadora de probabilidad''. 41. Determine la funcin generadora de momentos factoriales de la variable aleatoria X con funcin de probabilidad: a) p\ (x) = qB-" p , 0<p<1, x=1,2,3,... b) p\ (x) = e. .B /x! , .>0, x=1,2,3... 42. Se sabe que X es una variable aleatoria tal que:
0.1t <X (t) = 1-0.9t
67
a) P(X E(X/10) + var(X/10)) b) Funcin generadora de momentos de Y=2X-1. 43. En una industria qumica, la venta mensual de cierto producto, en miles de libras, est representado por una variable aleatoria X con funcin de densidad 0 x<2 fX (x) = (4-x)/4 2 x 4 0 e.o.c. a) Determine la funcin de distribucin de X y calcule P(X=2). b) Encuentre la funcin generadora de momentos de X. c) Si se sabe que la venta en un mes dado no alcanza a 3000 libras, cul es la probabilidad que se haya tenido una venta de a lo menos 1500 libras? d) Sea Y=2X-3. Determine P(Y>2) y la media de Y. 44. Una variable aleatoria X tienen funcin de densidad fX (x) = 1-x 0 1+x -1<x 0 0<x 1 e.o.c x/4
Determine:
a) Determine la funcin de distribucin acumulada y calcule P(|X|>1/2). b) Determine la funcin generadora de momentos de X y calcule su varianza. c) Usando la desigualdad de Chevychev, determine una cota para P(|X|>1/2). d) Sea Y=X# , determine la funcin de densidad de probabilidad de la variable aleatoria Y. 45. Considere la variable aleatoria X, cuya funcin de densidad est dada por fX (x) = 0
2xe-x , x>0 , e.o.c.
#
a) Encuentre la funcin de distribucin de Y=X# . b) La densidad de Y. 46. Sea X una variable aleatoria con funcin de densidad fX (x) = 0
x/2, 0<x<2 e.o.c.
Encuentre la densidad de Y=X$ . 68
47 . Si la densidad de X est dada por fX (x) = 0#

$x#
para -1<x<1 e.o.c.
Encuentre: a) La densidad de probabilidades de Y = |X|. b) La densidad de Z = X# . 48. Sea Y una variable aleatoria con densidad de probabilidad dada por f] (y) = 0
2(1-y) 0y1 e.o.c.
a) Encuentre la funcin de densidad de X" =2Y-1. b) Encuentre la funcin de densidad de X# =Y# .
69
CAPITULO III DISTRIBUCIONES ESPECIALES
En este captulo veremos algunas distribuciones de probabilidades especiales, discretas y continuas, asociadas con experimentos caracterizados en forma muy precisa. Como veremos, estas distribuciones de probabilidades se pueden expresar en una frmula que involucra ciertas constantes, llamadas parmetros de la distribucin. Las definiciones de las variables aleatorias y sus distribuciones de probabilidades surgen en forma directa, al considerar las caractersticas de estos experimentos. Estas distribuciones especiales, son muy conocidas por su amplia aplicacin en la resolucin de problemas prcticos en distintas reas del conocimiento.
3.1. Distribucin Bernoulli Uno de los experimentos ms simple que podemos realizar es aqul donde los resultados posibles son slo dos; por ejemplo, lanzamiento de una moneda equilibrada (cara, sello), el sexo de un nio por nacer (hombre, mujer), la clasificacin de un artculo que se est inspeccionando (defectuoso, no defectuoso). Este tipo de experimento con slo dos resultados posibles se denomina Ensayo Bernoulli y sus eventos elementales, comunmente llamados xito y fracaso, los denotaremos por E y F, respectivamente. El espacio muestral asociado a un ensayo Bernoulli es H = {E,F}, y asignamos probabilidad p al suceso E y q=1 p al suceso F, donde 0<p<1. As, P(E)=p es la probabilidad de xito y P(F)=q es la probabilidad de fracaso. En realidad, cualquier experimento puede ser usado para definir un ensayo Bernoulli simplemente denotando algn evento de inters, A, como xito y su complemento, A- , como fracaso. Definicin. Sea H el espacio muestral de un experimento. Sea A H cualquier evento con p=P(A), 0<p<1. Definimos la variable aleatoria Bernoulli con parmetro p, como X(=) = 1 0 si = A si = A.
La notacin ms usual para indicar que X tiene distribucin Bernoulli de parmetro p es X Bernoulli(p). Si el experimento es realmente un ensayo Bernoulli, tomamos simplemente A={E}. Dado que el recorrido de la variable aleatoria X es RX = {0,1}, ella es discreta y su funcin de probabilidades se obtiene directamente de la probabilidad 70
asignada al suceso A de H. En efecto, como X=1 si y slo si A ocurre, entonces P(X=1) = P(A) = p, y como X=0 si y slo si A- ocurre, entonces P(X=0) = P(A- ) = 1 p = q. Por lo tanto, si X es una variable aleatoria Bernoulli de parmetro p, entonces su funcin de probabilidad est dada por pX (x) = p q si x = 1 si x = 0
que tambin podemos escribir como pX (x) = px q"x , x = 0,1; donde p+q=1.
Utilizando la funcin de probabilidades de la variable Bernoulli, obtenemos que el valor esperado de X es E(X) = 0q+1p = p y como E(Xk ) = p , a k=1,2,3,... entonces la varianza de X est dada por Var(X) = p# p = p(1 p) = pq. La funcin generadora de momentos de X es MX (t) = E(etX ) = qe!t +pe"t = q+pet . Observacin. Notemos que al definir la distribucin Bernoulli, en realidad hemos dicotomizado el elemento que estamos observando. Por ejemplo, si estamos analizando los artculos producidos por una mquina, estos podemos clasificarlos como buenos o defectuosos para efectos de un control de calidad y as tenemos una sucesin de ensayos Bernoulli. Esto podramos realizarlo independientemente de los diferentes tipos de artculos que podra estar produciendo la mquina en cuestin y de la cantidad producida en un perodo determinado. Como veremos, la distribucin Bernoulli juega un papel importante en la construccin de otras distribuciones de probabilidades discretas.
3.2. Distribucin Binomial
71
Un experimento que consiste de n ensayos Bernoulli independientes, cada uno con probabilidad de xito p, se llama un experimento Binomial con n ensayos y parmetro p. La frase ''ensayos independientes'' significa que los ensayos son eventos independientes; esto es, lo que ocurra en un ensayo no tiene efecto en el resultado observado para cualquier otro ensayo. El espacio muestral natural para un experimento binomial es el producto cartesiano de los espacios muestrales de cada ensayo Bernoulli, por lo que el espacio muestral asociado a un experimento Binomial lo podemos escribir como H = H" x H# x......x Hn donde Hi = {E,F}, i=1,2,...,n.
Cada evento elemental de H es una n-upla (=" ,=# ,...,=n ), donde cada =i es un xito o un fracaso en el i-simo ensayo, con probabilidades p y q, respectivamente. Como los ensayos son independientes, la probabilidad de ocurrencia de un elemento de H se obtiene multiplicando las probabilidades de ocurrencia de los resultados de cada ensayo. As , por ejemplo, para el suceso A = {E,E,....,E} tenemos P(A) = P(E)P(E).....P(E) = pn . De la misma forma se tiene P(F,F,...,F) = qn . Enseguida, el evento que representa xito en el primer ensayo y fracaso en los restantes ensayos es (E,F,F,...,F) y su probabilidad es P(E,F,....,F) = pqn-" ,..., etc. En la prctica interesa contar el nmero de xitos en n ensayos Bernoulli independientes. Definicin . Sea X el nmero total de xitos observados en un experimento Binomial con n ensayos y parmetro p. Entonces X se llama variable aleatoria Binomial con parmetros n y p. (X b(n,p)). Dado que la variable X cuenta el nmero de total de xitos observados en un experimento binomial con n ensayos, ella es discreta y su recorrido es RX = {0,1,...,n}. Hay slo un elemento de H para el cual X=0; esto es, ningn xito en los n ensayos, as P(X=0)=qn . Tambin hay slo un elemento para el cual X=n, y P(X=n)=pn . Elementos de H con k xitos y n k fracasos, X=k, tienen probabilidad pk qn-k y de stos hay n k , que corresponden al nmero de n-uplas que contienen exactamente k xitos y n-k fracasos. Por lo tanto, la funcin de probabilidad de X es k n-k , k=0,1,2,....n, P(X=k) = pX (k) = n k p q
que recibe el nombre de distribucin Binomial de parmetros n y p. Esto debido a que su frmula corresponde al trmino general en el desarrollo del teorema del binomio. 72
Usando el teorema del binomio podemos verificar fcilmente que pX (x) satisface las condiciones que le hemos impuesto a una funcin de probabilidad. Si X es una variable aleatoria Binomial con parmetros n y p, se prueba fcilmente que su funcin generadora de momentos est dada por tx x nx = (q+pet )n , MX (t) = ! n x e p q
de donde
( #) # M(1) X (0) = np y MX (0) = np + n(n-1)p . # As, la media y la varianza de X estn dadas por .X = np y 5X = npq, respectivamente.
Observacin. Es tambin til determinar la variable aleatoria binomial (n,p) como la suma de n variables aleatorias Bernoulli independientes. Supongamos que se realizan n ensayos Bernoulli independientes , cada uno con probabilidad de xito p. Si definimos Yi =
n "
1 0
si se observa xito en el ensayo i en otros casos
; i= 1,2,...,n
Entonces, X=!Yi es el nmero total de xitos en los n ensayos que, como veremos en el Captulo IV, corresponde a una variable aleatoria Binomial con parmetros n y p. Ejemplo. Supongamos que un estudiante rinde un test de 10 preguntas de verdadero y falso y por no estar preparado, debe adivinar la respuesta a cada pregunta. Si X es el nmero de respuestas contestadas correctamente por este estudiante, determinemos la distribucin de probabilidades para X. Cada pregunta del test es un ensayo Bernoulli donde el evento xito en este caso es E: "contestar correctamente", y la probabilidad de xito para cada pregunta es p=P(E)=0.5. Si X es el nmero total de respuestas correctas en las 10 preguntas, entonces X b(n=10, p=0.5) y luego, la funcin de probabilidades de X es
x "!x "! pX (x) = "! = "! x 0.5 0.5 x 0.5 , x=0,1,...10.
73
Utilizando esta funcin de probabilidades podemos calcular, por ejemplo, la probabilidad que el estudiante conteste correctamente todas las preguntas, que es pX (10) = 0.5"! = 0.000098 La probabilidad que exactamente 5 preguntas sean contestadas correctamente es
"! pX (5) = "! 5 0.5 = 0.24609
Supongamos que el estudiante aprueba el certamen contestando 7 ms preguntas en forma correcta. Entonces, la probabilidad de aprobar es
"! "! P(X 7) = !"! x( x 0.5 = 0.17188.
Adems, el nmero medio de preguntas contestadas correctamente es E(X)=10(0.5)=5 preguntas.
3.3. Distribucin Geomtrica Definicin. Supongamos que realizamos ensayos Bernoulli independientes, con probabilidad de xito p en cada ensayo. Si X es el nmero de ensayos necesarios para obtener el primer xito, entonces X se llama variable aleatoria Geomtrica de parmetro p. (X G(p)). Para determinar la funcin de probabilidades de X, notemos que ella es discreta pues su recorrido est dado por Rx = {1,2,...}. La probabilidad de obtener xito en el primer ensayo est dada por P(X=1)=p=q! p. Tendremos que X=2 si y slo si, tenemos un fracaso en el primer ensayo y luego xito en el segundo, de manera que P(X=2) = qp = q" p" . Similarmente, para cualquier k 3 observamos X=k si y slo si tenemos fracasos en los k-1 primeros ensayos, -" seguidos por un xito en el ensayo k, de manera que P(X=k) = qk p. Por lo tanto, si X es una variable aleatoria geomtrica, entonces su funcin de probabilidades est dada por pX (x) = qx-" p , x=1,2,...
Es fcil verificar que pX (x) es efectivamente una funcin de probabilidad y recibe el nombre de distribucin geomtrica ya que sus trminos forman una progresin geomtrica. 74
La esperanza de una variable aleatoria geomtrica es

_ B-" E(X) = !_ = p!B" xqB-" B" xpq
=p =p
d # $ dq (q+q +q +........) d dq q # ( 1 q ) = p/(1 q) = 1/p.
Se puede probar que Var(X) = q/p# y que la funcin generadora de momentos de X est dada por MX (t) = pet /(1 qet ), si qet <1. Para determinar la Funcin de Distribucin de la variable aleatoria Geomtrica, notemos que
5 -" P(X>x) = !_ 5x" pq
= p(qx +qx+" +qx+# +...) = p qx (1+q+q# +...) = pqx Por lo tanto, FX (x) = 1 P(X>x) = 1 qx , x = 0,1,... La distribucin Geomtrica tiene la propiedad de ser "desmemoriada", propiedad que no es compartida por ninguna otra distribucin discreta. Esto significa que P(X>a+b/X>a) = P(X>b), con a y b enteros positivos; esto es, la probabilidad de observar ms de b ensayos adicionales para obtener el primer xito, cuando se sabe que se llevan ya ms de a ensayos observados, corresponde a la probabilidad incondicional de observar ms de b ensayos hasta el primer xito. Para ver esto, sean los eventos A={X>a} y B={X>a+b}, entonces P(B/A) = P(B)/P(A) =P(X>a+b)/P(X>a) = q+, /q+ = q, 75
1 1q
= qx .
=P(X>b). Ejemplo. Se lanza una moneda equilibrada hasta obtener una cara por primera vez. Deseamos determinar la probabilidad que sean necesarios menos de 3 lanzamientos y el nmero esperado de lanzamientos hasta obtener cara por primera vez. Sea X la variable aleatoria que indica el nmero de lanzamientos hasta obtener cara. Tenemos que la probabilidad de obtener cara en cualquier lanzamiento es p=1/2. Entonces X G(p=1/2) y P(X< 3) = P(X=1)+P(X=2) = 1/2 (1/2)! +1/2(1/2) = 3/4. La segunda pregunta corresponde a la esperanza de X; esto es, E(X)=1/p=2.
3.4. Distribucion Binomial Negativa La distribucin Binomial Negativa corresponde a la distribucin del nmero de ensayos Bernoulli independientes necesarios para observar el r-simo xito, r=2,3,... Definicin. Consideremos ensayos Bernoulli independientes, con probabilidad de xito p en cada ensayo. Si X es el nmero de ensayos necesarios para observar el r-simo xito (r=2,3,...), entonces X se llama variable aleatoria binomial negativa con parmetros r y p. Claramente el recorrido de X es RX = {r,r+1,...}, ya que al menos r ensayos deben realizarse para observar r xitos. Observaremos X=r si y slo si, un xito ocurre en cada uno de los primeros r ensayos, y esto ocurre con probabilidad p< . De manera que P(X=r) = pr . Para observar X=r+1, el r-simo xito debe ocurrir en el ensayo r+1 y debe haber exactamente r-1 xitos en los primeros r ensayos. As, P(X=<+1) = <-" p< -" q p = <-" p< q
< <
Similarmente, para cualquier entero x>r observamos X=x si y slo si, el rsimo xito ocurre en el ensayo x y ocurren exactamente r-1 xitos en los primeros x-1 ensayos, luego la funcin de probabilidades de X est dada por P(X=B) = <-" p< qB-< ,
B-"
B = r,r+1,... 76
Los parmetros r y p caracterizan a la distribucin Binomial Negativa y utilizamos la notacin X bn(r,p). Usando la relacin (1+x)-n = 1 + nx + n(n+1)x# /2! + n(n+1)(n+2)x$ /3! + ...
< B-< podemos mostrar que !_ B< <-" p q = 1.
B-"
En efecto,
B-" B-" < B-< < !_ B- < !_ B< <-" p q = p B< <-" q
= p< (1 + rq + r(r+1)q< /2! +...) = p< (1-q)-< = p< p-< = 1. La funcin generadora de momentos de X est dada por
>B < B- < MX (t) = !_ B< e <-" p q
B-"
B-" = (pe> )< ! <-" (qe> )B-< (1-qe> )/(1-qe> )<
= pe> /(1-qe> ) , qe> <1.

<
De aqu se obtiene E(X) = M" (0) = r/p y Var(X) = M# (0) [M" (0)]# = rq/p# . Ejemplo. Un basquebolista efecta repetidos lanzamientos desde la lnea de tiros libres. Supongamos que sus lanzamientos son ensayos Bernoulli independientes con p=0.7. Cul es la probabilidad que le tome menos de 5 lanzamientos para lograr su primer acierto?. Cul es la probabilidad que le tome menos de 5 lanzamientos para lograr su segundo acierto?. Cul es el nmero esperado de lanzamientos para lograr su cuarto acierto?. Sea X la variable aleatoria que indica el nmero de lanzamientos hasta el primer acierto. Entonces X G(p=0.7) y luego, la probabilidad que requiera menos de 5 lanzamientos para encestar por primera vez, es 77
P(X<5) = P(X 4) = 1 0.3% = 0.9919. Definamos ahora Y como el nmero de lanzamientos hasta el segundo acierto. Entonces Y bn(r=2 y p=0.7) y la probabilidad que realice menos de 5 lanzamientos hasta su segundo acierto es
" P(Y 4) = ! y0.7# 0.3y-# = 0.9163. " 4 y=2
Finalmente, para contestar la ltima pregunta, definamos Z como la variable que indica el nmero de lanzamientos hasta efectuar el cuarto acierto. Entonces Z bn(r=4, p=0.7) y el nmero esperado de lanzamientos hasta el cuarto acierto es E(Z)=4/0.7.
3.5. Distribucin Hipergeomtrica Para estudiar la distribucin Hipergeomtrica nos referiremos a la seleccin al azar de fichas desde una caja que contiene N fichas. Definicin. Consideremos una muestra de n fichas seleccionadas al azar, sin remplazo, desde una caja que contiene N fichas, de las cuales M son blancas y las restantes N-M son azules. Si X es el nmero de fichas blancas en la muestra, entonces X se llama variable aleatoria Hipergeomtrica con parmetros M, N y n. Suponiendo que M n y N M n, RX = {0,1,2,...,n}. El nmero total de muestras diferentes que pueden ser seleccionadas de la caja es R n , que es el nmero de subconjuntos de tamao n que pueden ser construidos de un conjunto de N elementos. Ya que la muestra es seleccionada al azar de la caja, de ser cada uno de estos subconjuntos tiene la misma probabilidad 1/ R n seleccionado. El nmero de estos subconjuntos que contienen exactamente x fichas blancas (y -Q R as n-x fichas azules) es Q por principio de multiplicacin. Por lo x n-x tanto, la funcin de probabilidad para X, el nmero de fichas blancas en la muestra, es pX (x) =
-Q Q R x n-x R n
, x = 0,1,2,...,n
lo que denotamos por X H(M,N,n). 78
Observacin. Para ver que efectivamente pX (x) es una funcin de probabilidades, basta con probar que !n Q R -Q = R . x!
x n-x n
En efecto, consideremos la ecuacin (1+y)Q (1+y)R -Q = (1+y)R
( 3.1)
Desarrollando (1+y)R por el teorema del binomio, encontramos que el coeficiente de yn es R n . Ahora, en el lado izquierdo de la ecuacin (3.1), el trmino en y ocurre tomando yx del desarrollo de (1+y)Q e yn-x del desarrollo (1+y)R -Q para x=0,...,n (pues yx yn-x =yn ), y como los coeficientes del mismo trmino a ambos lados deben ser iguales, tenemos ! Q R -Q = R .
n
x=0
n-x
El valor esperado de una variable aleatoria hipergeomtrica es

Q R -Q R E(X) = !x n n-x / n x=0
n n -Q ! (M-1)! R = M . N (x-1)! (M-x)! n-x n x=1
Si hacemos y = x-1 tenemos

N n y=1
M n-1 -" ! Q -" R -Q = M R y n-"-y n" = nM/N. N n
En forma similar podemos probar que
n(N-1) Q -" M(M-1)n(n-1) E(X(X-1)) = N n-# = N(N-1) n y luego, N-M N-n Var(X) = n M N N N-1
Ejemplo. Entre 16 postulantes para un trabajo, 10 tenan un ttulo universitario. Si 3 de los postulantes son elegidos al azar para una entrevista, cul es la 79
probabilidad que 2 tengan un ttulo universitario?, cul es el nmero esperado de postulantes entrevistados con ttulo universitario?. Para responder a estas preguntas, definamos X como el nmero de postulantes entrevistados con ttulo universitario. Entonces X es hipergeomtrica ( M=10, N=16, n=3) y la probabilidad que dos postulantes tengan un ttulo universitario es ' "! P(X=2) = "! # " / $ = 27/56.
Finalmente el nmero medio de postulantes entrevistados con ttulo universitario est dado por E(X) = 3 10 16 . Observaciones (1) La distribucin binomial es una buena aproximacin de la distribucin ~ de la hipergeomtrica cuando M y N-M son grandes comparados con el tamano muestra n. Recordemos que una de las caractersticas de la distribucin hipergeomtrica es que las extracciones son realizadas sin sustitucin; pero, si tanto M como N-M son suficientemente grandes, el hecho que el muestreo sea realizado con o sin sustitucin no influye notoriamente en las probabilidades. Por ejemplo, si N=1000, M=400 (artculos defectuosos), N-M=600 y n=5, y si X es el nmero de artculos defectuosos en la muestra, entonces la P(X=5) es '!! "!!! = 0.01009 P(X=5) = %!! & ! / &
Ahora, usando la distribucin binomial con p=M/N = 400/1000 = 0.4

& & P(X=5) = & & (0.4) (0.6) = 0.01024.
En general, si n min{0.2 M; 0.2(N-M)}, la distribucin binomial proporciona una buena aproximacin de los valores exactos obtenidos por la distribucin hipergeomtrica. (2) Siguiendo la similitud con la distribucin Binomial, la distribucin del nmero de fichas blancas en la muestra es hipergeomtrica o binomial dependiendo de si el muestreo es sin remplazo o con remplazo, respectivamente. Si M/N = p, entonces la media de la hipergeomtrica coincide con la media de la distribucin binomial, y la varianza de la hipergeomtrica es (N-n)/(N-1) veces la varianza de la binomial. Al factor (N-n)/(N-1) se le llama usualmente factor de correccin por finitud.
80
La distribucin hipergeomtrica tiene una aplicacin directa en lo que estadstica se conoce como muestreo de aceptacin. Estos procedimientos de muestreo son usados frecuentemente por organizaciones y grupos que compran materiales en lotes grandes. En tales situaciones, el comprador y el proveedor convienen en algun nivel aceptable de calidad, lo que generalmente se traduce en algun plan de inspeccin. Si el lote es grande, puede ser muy demoroso o muy caro inspeccionar cada artculo del lote, de manera que slo una muestra aleatoria de artculos sern realmente inspeccionados. El lote completo es aceptado como bueno o es rechazado por ser inaceptable, de acuerdo a los resultados en la inspeccin de la muestra. Consideremos como ilustracin el ejemplo siguiente: Ejemplo. Supongamos que 2 artculos para inspecin son seleccionados al azar, sin remplazo, desde un lote de 100 artculos producidos por una mquina en un perodo determinado. Si ambos artculos son buenos, el lote es aceptado. Si por lo menos 1 de los artculos es defectuoso el lote es rechazado. Sea Y el nmero de artculos defectuosos en la muestra de dos artculos. Entonces Y es una variable aleatoria Hipergeomtrica, puesto que las extracciones son sin remplazo. El lote es aceptado si Y = 0. La probabilidad que Y=0 depende crucialmente en los valores de M, el nmero de defectuosos en el lote. Si M = 0 no hay defectuosos en el lote y "!! "!! = 1. P(lote sea aceptado) = P(Y = 0) = ! ! # / # Anlogamente, si M = 5, P(Y=0) = 0.902 si M = 10, P(Y=0) = 0.809 si M = 20, P(Y=0) = 0.638. De esta manera, mientras ms grande sea el nmero de defectuosos en el lote (M), es menos factible que el lote sea aceptado. Adems, haciendo variar n, tenemos una amplia gama de planes de inspeccin.
3.6. Distribucin Poisson Existen muchas aplicaciones donde interesa asignar probabilidades al nmero de ocurrencias de un evento en un perodo de tiempo fijo o en una regin determinada; por ejemplo, el nmero de averas de una cierta mquina en una jornada de trabajo, el nmero de partculas emitidas por un tomo radiactivo en t segundos, el nmero de errores tipogrficos en una revista, las llamadas telefnicas que llegan a una central durante un perodo determinado, etc.. La forma como ocurren estos eventos, est caracterizada por los siguientes supuestos que definen a un proceso de Poisson de parmetro -. 81
(i) En intervalos de longitud suficientemente cortos, por ejemplo de longitud ?t, ocurre el evento slo una vez o ninguna vez (dos o ms ocurrencias son imposibles). (ii) La probabilidad que el evento ocurra exactamente una vez en este intervalo ~ es proporcional a la longitud del intervalo (es de longitud ?t (?t pequeno) aproximadamente igual a -?t con ->0 ). (iii) La ocurrencia del evento en un intervalo de longitud ?t no tiene efecto en la ocurrencia o no ocurrencia en cualquier otro intervalo de igual longitud. (independencia estocstica). An cuando hablamos siempre del tiempo en los supuestos anteriores, debe entenderse que no necesariamente nos estamos refiriendo al tiempo cronolgico. Definicin. En un proceso de Poisson de parmetro -, si X es el nmero de ocurrencias de un evento en un intervalo de longitud t, entonces X se llama variable aleatoria Poisson de parmetro -t. Evidentemente X es una variable aleatoria discreta, ya que su recorrido es RX = {0,1,...} que es un conjunto infinito numerable. Para determinar la funcin de probabilidades de X consideraremos los supuestos de un proceso de Poisson. El instante en que empezamos a observar el proceso lo designaremos por 0 y ser el origen de nuestra escala de tiempo. Suponemos que vamos a observar el proceso durante un periodo fijo de tiempo t, t>0. Dividamos el intervalo (0,t) en n=t/?t subintervalos disjuntos de longitud ?t ~ intervalos (?t pequeo), de tal manera que en cada uno de estos pequenos ocurrir 0 1 evento y la probabilidad que ocurra exactamente un evento es -?t. As, cada uno de estos intervalos es un ensayo Bernoulli con probabilidad de xito p = -?t y el intervalo (0,t) es un conjunto de n ensayos Bernoulli independientes. Por lo tanto, si X es la variable aleatoria que indica el nmero de eventos en el intervalo de longitud t, entonces X es una variable aleatoria binomial de parmetros n y p =-?t = -t/n, luego
x n-x pX (x) = n x (-?t) (1 -?t) x n x = n , x (-t/n) (1 -t/n)
x=0,1,...,n
Tomando el lmite de pX (x) cuando ?t tiende a 0 y as n tiende a _, llegamos a la distribucin Poisson, que corresponde a la probabilidad de x ocurrencias en un intervalo de longitud t. Para esto, desarrollando el lado derecho de pX (x) obtenemos 82
n! pX (x) = x!(n-x)! (-t/n)x (1 -t/n)n-x
= x! (1 -t/n)n (1 -t/n) -x
(-t)x
(n-x+1)(n-x+2). . .(n-2)(n-1)n , nx
y tomando lmite cuando n tiende a infinito, se tiene lim p (x) = n_ X pues lim (1/-t/n)n = e--t , lim (1--t\n)-x = 1 n_ n_ y lim n_
(n-x+1) (n-x+2). . .(n-2)(n-1)n nx
(-t)x e--t x!
, x = 0, 1, 2. . .
=1
Usualmente se acostumbra a denotar -t=. y as la funcin de probabilidad de X la podemos escribir como: pX (x) =
.x e-. x!
, x= 0,1,....
x -. - . !! x - . -. Notemos que !_ x! . e /x! = e x! . /x! = e e = 1, lo que muestra que pX (x) es efectivamente una funcin de probabilidad. Notemos tambin que la distribucin Poisson puede obtenerse directamente del clculo, usando la serie
!_ x!
.x x!
=1+.+
.# 2!
+. . . + . x! +...
la cual converge para todos los valores de . a la funcin e. . Si X es una variable aleatoria con distribucin Poisson de parmetro ., lo que denotaremos por X P(.), entonces su funcin generadora de momentos est dada por
_ MX (t) = E(etX ) = !x !
-. . et > B = e-. !_ e B! (.e ) /B!=e
et. .x e-. xx
= e.(e -1) . De donde podemos obtener que E(X) = . y Var(X) = .. . 83
Ejemplo. Supongamos que clientes llegan a una cola de espera a una tasa de 4 por minuto. Suponiendo que este proceso de llegada ocurre de acuerdo a un proceso de Poisson, determinemos la probabilidad que al menos una persona llegue a la cola en un intervalo de 1/2 minuto. Sea X es el nmero de personas que llegan a la cola en 1/2 minuto. Si tomamos 1 minuto como unidad de tiempo tenemos . = 4 y luego el nmero medio de llegadas en 1/2 minuto es 2. Por lo tanto, X se distribuye Poisson(. =2) y pX (x) = 2x e-2 /x!, x=0,1,2,....
de donde la probabilidad que llegue al menos una persona durante un perodo de 1/2 minuto es P(X 1) = 1 P(X<1) = 1 P(X=0) = 1 e-# = 0.865. Observacin. Haciendo np=., la distribucin Poisson puede ser usada como una aproximacin de la distribucin binomial con parmetros n y p, cuando n 20 y p 0.05. Esta aproximacin es muy buena cuando n 100 y np 10. Ejemplo. En un sistema de control de calidad de producto terminado, un experto, basado en su experiencia, estima que hay una probabilidad de 0.001 de encontrar un artculo defectuoso durante un perodo de 5 min., en una estacin de la cadena de produccin continua. Si X es el nmero de artculos defectuosos observados en 100 perodos al azar de 5 min., entonces X es una variable Binomial con parmetros n=100 y p=0.001 y la probabilidad exacta de no encontrar defectuosos es P(X = 0) = 0.999"!! = 0.9048 y la probabilidad encontrar un defectuoso en una sola ocasin es P(X = 1) = 100(0.999)** (0.01) = 0.0906. Notemos que en este ejemplo n es bastante grande y p es ms bien pequeo. Usando la distribucin Poisson(. = np = 0.1) estas probabilidades son 84
P(X = 0) = 0.1! e-! = 0.9048 y P(X = 1) = 0.1" e-!." /1! = 0.0905.
."
3.7. Distribucin Uniforme La distribucin uniforme es una de las densidades ms simple y, aunque ya la hemos tratado en un ejemplo del captulo II, daremos aqu una definicin formal. Definicin. Sea X una variable aleatoria continua con valores en el intervalo (a,b), con -_<a<b<_ . Diremos que X tiene distribucin uniforme en el intervalo (a,b), si la funcin de densidad de X es constante para todo x (a,b); esto es, fX (x) = k 0 si a < x < b en otros casos.
Obviamente, k debe ser mayor que cero y utilizando el hecho que f es una funcin de densidad tenemos que k = 1/(b-a). Por lo tanto, la funcin de densidad de la distribucin uniforme en (a,b) es fX (x) = b-a 0
1
si x (a,b) si x (a,b)
La funcin de distribucin de X la obtenemos integrando la funcin de densidad y es FX (x) = 1 0

t-a b-a
si t < a si a t < b tb
Los grficos de la funcin de densidad y de la funcin de distribucin se muestran en el captulo II, en las Figuras 2.9 y 2.10 respectivamente. Si X se distribuye uniforme en (a,b), entonces podemos determinar fcilmente su media, varianza y funcin generadora de momentos, obteniendo
tb at (b-a)2 -e E(X) = a+b y M(t) = e 2 , Var(X) = 12 t(b-a) ,
respectivamente. 85
Notemos nuevamente que la variable aleatoria uniforme se caracteriza por tener una funcin de densidad constante en el intervalo considerado. Aparte de definir una variable aleatoria uniforme dentro de cualquier intervalo real, tambin podemos definirla para un conjunto finito dado. Bajo este contexto, tiene sentido hablar tambin de distribucin uniforme en el caso discreto, cuando la funcin de probabilidades asigna un mismo valor a todos los valores que asume la variable en su recorrido. Ejemplo. Supongamos que X es una variable aleatoria con distribucion uniforme sobre el intervalo (0,9), entonces P(X<3) = (
$
1 1 dx = 9 3
'
P(1<X<6) = ( P(X>4) = (
9
"
1 5 dx = 9 9
1 5 dx = . 9 9
3.8. Distribucin Exponencial Recordemos que en un proceso de Poisson de parmetro -, los eventos (llamadas telefnicas por ejemplo) ocurren al azar independientemente y a una tasa constante - por unidad de tiempo. La variable aleatoria de Poisson se define como nmero de ocurrencias de un evento en el intervalo (0,t]. Ahora vamos a definir otra variable aleatoria relacionada con el proceso de Poisson, que es una variable aleatoria continua y es la llamada variable aleatoria exponencial. Definicin. Consideremos un proceso de Poisson de parmetro - y designemos por cero (t=0) el instante en que empezamos a observar el proceso. Si T es el tiempo que transcurre hasta que el primer evento ocurre, entonces T se llama variable aleatoria exponencial con parmetro -. Dado que el tiempo es continuo, es claro que T es una variale aleatoria continua y su recorrido es {t: t>0}. Sea entonces t>0, luego el evento {T>t} ocurre si y slo si, no ocurren eventos en el intervalo (0,t] y la probabilidad de que no ocurra un evento en un intervalo de longitud t es e--> . Por lo tanto, P(T>t) = e--t ; t>0 de donde 86
FX (t) = P(T t) = 1 - e--t ; t>0 y es 0 para t 0. Derivando esta funcin respecto de t obtenemos la de densidad de T - e- - t fX (t) = 0 t>0 t0
El parmetro que caracteriza a la distribucin exponencial es ->0. El grfico de la funcin de densidad exponencial para distintos valores del parmetro se muestran en la Figura 3.1. Si X es una variable aleatoria exponencial de parmetro -, podemos determinar fcilmente la media, varianza y funcin generadora de momentos de X como E(X) = 1/- , Var(X) = 1/-# y MX (t) = -/(--t) , siempre que t<- ,
2 =2 1.5
f(t) 1
0.5 0 0
=1 =0.5
0.4
0.8
Figura 3.1. Funcin de densidad exponencial para -= 0.5, 1, 2
Ejemplo. Supongamos que en una industria los accidentes ocurren a una tasa de - =1/2 por semana (5 das de trabajo). Si comenzamos a observar la ocurrencia de estos accidentes al iniciar el trabajo el da Lunes de una semana dada y si definimos X como el nmero de das hasta que el primer accidente ocurre, entonces X es una variable aleatoria exponencial de parmetro - = 1/10. La probabilidad que la primera semana est libre de accidentes es 87
1.2
P(X>5) = e-&"! = 0.607. La probabilidad que el primer accidente ocurra un Viernes de la primera semana corresponde a P(4<X 5) = FX (5) FX (4) = (1 e-&"! ) (1 e-%"! ) = 0.0604. La probabilidad que ocurra el Mircoles de la prxima semana es P(7<X 8) = (1 e-)"! ) (1 e-("! ) = 0.047. Finalmente, el nmero esperado de das hasta el primer accidente es E(X) = 1/- = 10 das, con desviacin estndar 5 = 10 das. Observacin. La distribucin exponencial, al igual que la distribucin geomtrica, tiene la propiedad de ser "desmemoriada"; esto es, si X es una variable aleatoria exponencial de parmetro -, y a, b son constantes positivas, entonces
X>a+b) P(X>a+b/X>a) = P(P( X>a)
--ab = e e--a
= e--b = P(X>b). As, si en el ejemplo anterior hemos observado que han pasado 4 das sin ningun accidente, la probabilidad que pasen al menos dos das ms hasta el primer accidente, no cambia del valor original de esta probabilidad cuando empezamos a observar el proceso. La distribucin exponencial es la nica distribucin continua con esta propiedad.
3.9. Distribucin Erlang La distribucin Erlang es una generalizacin natural de la distribucin exponencial. Ahora queremos determinar la distribucin del tiempo hasta que un evento ocurra un nmero determinado de veces. 88
Definicin. Supongamos que observamos un proceso de Poisson de parmetro - desde el tiempo cero. Si Tr es el tiempo hasta el r-simo evento (r 1), entonces Tr se llama variable aleatoria Erlang de parmetros r y - . Para determinar la funcin de densidad de Tr , sea t>0, cualquier nmero fijo y consideremos el suceso {Tr >t} que indica que el tiempo del r-simo evento sea mayor que t. Entonces {Tr >t} es equivalente al evento {X r-1}, donde X es el nmero de eventos que ocurren en (0,t], ya que el tiempo del r-simo evento puede exceder a t slo si hay r-1 o menos eventos en (0,t]. Como X es una variable Poisson(-t), tenemos que P(Tr >t) = P(X r-1) = !
r-1
x=0
(-t)x e--> x!
la funcin de distribucin de Tr es FXr (t) = P(Tr t) = 1 - !

r-1
x=0
(-t)x e--> , x!
at 0
La funcin de densidad de Tr es fX< (t) =

d dt
[1-e--t --te--> -(-t)# e--> /2! -...- (-t)<-" e-> /(r-1)!]
= -< t<-" e--t /(r-1)! ; t>0 As, si T es una variable aleatoria con distribucin Erlang con parmetros r y -, su funcin de densidad es
< <-" --t e -< t< -" e--t fX< (t) = - t = >(r) (r-1)! , t>0.
Ejemplo. Los accidentes de automviles ocurren en Santiago, durante un fin de semana largo (72 horas), segn un proceso de Poisson a una tasa de 10 por hora. Estamos interesados en determinar la probabilidad que el segundo accidente ocurra despus de una hora. Sea T# el tiempo hasta que el segundo accidente ocurre (a partir del comienzo del perodo de vacaciones). Entonces T# tiene una distribucin Erlang con parmetros r=2 y - =10 y la probabilidad pedida corresponde a P(T# >1) = (
_
10# te-"!> dt = 10e-"! + e-"! 89
"
Otra forma de enfrentar este problema, como lo hemos mencionado antes, consiste en utilizar la distribucin de Poisson; es decir, P(T# >1) = P(X 2-1)
e-"! 10x = !" x! x!
= e-"! +10e-"! , donde X corresponde al nmero de accidentes en una hora. 3.10. Distribucin Gamma Recordemos del Clculo que la integral (
_
y! -" e-y dy existe para !>0 y su
valor es un nmero positivo. Esta integral se conoce con el nombre de funcin Gamma de ! y se denota por >(!) = (
_
y! -" e-y dy.
Si !=1, se tiene de inmediato que >(1)=1 y si !>1, integrando por partes se tiene que >(!) =(!-1)(
_
y!-# e-C dy = (!-1) >(!-1).
Por lo tanto, si ! es un entero mayor que 1 tenemos De aqu, 0! = 1 pues >(1) = 1. Otro valor importante es >(1/2) = 1 . Para determinar la funcin de densidad Gamma, introduzcamos una nueva variable x escribiendo y=x/" con " >0. Luego la funcin Gamma toma la forma >( ! ) = ( de donde (
_ ! -" _
>(!) = (!-1)(!-2).......3 2 1 >(1) = (!-1)!
(x/" )+-" e-B" 1/" dx = (
_ ! -"
e-B" dx "!
x e-B" dx = 1 , ya que !>0, " >0, >(!)>0. " ! >( ! ) 90
Entonces
!-" -x/" fX (x) = x" ! >e (!) , 0<x<_
es una funcin de densidad de una variable aleatoria continua. Definicin. Diremos que una variable aleatoria X tiene distribucin Gamma con parmetros !>0 y " >0, (X G(!, " )), si su funcin de densidad es de la forma
!-" -x/" fX (x) = x" ! >e (!) , 0<x<_
El grfico, para valores distintos de los parmetros se muestran en la Figura 3.2.
1.2 1 0.8 f(x) 0.6 0.4 0.2 0
=2, =1/3 =1, =1 =2, =2 =2, =1
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 2.2
Figura 3.2. Funciones de densidades Gamma Para la funcin generadora de momentos de X G(!, " ) tenemos. MX (t) =(
_
>x
x+-" e-x" dx " ! >( ! ) e-x(1-"t)/" dx. " ! >( ! )
=(
_ + -"
Si hacemos y = x(1-" t)/" obtenemos MX (t) = (

_
e- C [" y/(1-" t)]!-" " /(1-" t) dy " ! >( ! )
91
=(
e! - " e- C dy (1-" t)! >(!)

_
= 1/(1-" t)! ( As,
y! - " e - C dy >(!)
= 1/(1-" t)! , t<1/" .

"
E(X) = MX (0) = !" y Var(X) = MX (0) [MX (0)]# = !" # (! +1) !# " # = !" # . Observemos que si !=1 y " =1/-, ->0, obtenemos la distribucin exponencial de parmetro -. Si ! =r con r y " =1/- , obtenemos la distribucin Erlang(r,-). Por otra parte, si hacemos !=n/2, n y " =2, obtenemos una nueva distribucin, llamada distribucin Chi-Cuadrado, cuya funcin de densidad est dada por
xn/#-" e-x/# fX (x) = > , x>0. (n/2)2n#
# "
El parmetro que caracteriza a la distribucin Chi-cuadrado es n y recibe el nombre de grados de libertad (X ;# (n)). La funcin generadora de momentos de una variable aleatoria ;# (n) es MX (t) = (1 2t)-n# , t<1/2 de donde E(X) = n y Var(X) = 2n. La funcin de distribucin ;# (n) se encuentra tabulada para distintos grados de libertad (n) y la trataremos en forma especial ms adelante. Las principales aplicaciones de la distribucin ;# (n) se encuentran en el campo de la inferencia estadstica.
3.11. Distribucin Normal Definicin. Una variable aleatoria continua X que toma todos los valores reales, -_<x<_, tiene una distribucin normal si su funcin de densidad de probabilidad es de la forma 92
fX (x) =
1 5 21
exp{ 25 # }, -_<x<_
(x-.)#
donde -_<. <_ y 5 >0. La distribucin normal est caracterizada por los parmetros . y 5 # y se utiliza la notacin X N(., 5 # ). El grfico de la funcin de densidad tiene forma de campana, es simtrico respecto de la recta X=. y en este punto alcanza su mximo. Los puntos .+5 y .-5 son puntos de inflexin del grfico. Si 5 es relativamente grande, el grfico tiende a ser achatado, mientras que si 5 es pequeo, el grfico de fX tiende a ser aguzado.
Figura 3.3. Se puede verificar fcilmente que . y 5 # corresponden a E(X) y Var(X), respectivamente, y que (
_
-_
1 ( x-.)# exp { } dx = 1 25 # 5 21
Definicin. Si Z es una variable normal con .=0 y 5 # =1 , entonces Z se llama variable aleatoria normal estndar, su funcin de densidad es f^ (z) = :(z)= 121 e-z /5 , -_<z<_
# 2
y su funcin de distribucin, que se encuentra tabulada, est dada por F^ (z) = F(z) = (
z
-_
1 # e-> / dt. 21
Teorema 3.7. Sea X una variable aleatoria normal con media . y varianza 5 # . Si Y=aX+b, a 0, entonces Y es una variable aleatoria normal con media a.+b y varianza a# 5 # . 93
Demostracin. Por teorema del cambio de variable, Teorema 2.7, la densidad de Y est dada por
b fY (y) = fX ( y a )|
dx dy
= =
1 5 21
b # # |1/a| exp{ ( y a .) /25 }
1 " y-(a.+b) 2 21a5 2 exp - # a5
densidad que corresponde a una N(a. +b, a# 5 # ). Teorema 3.8. Si X es una variable aleatoria normal con media . y varianza 5 # , entonces FX (x) = P(X x) = F ( 5 ) donde F es la funcin de distribucin de la variable aleatoria N(0,1).
. . 1 Demostracin. Sea Z= 5 X 5 = X 5 , entonces por el Teorema 3.7 tenemos que Z es una variable aleatoria con distribucin N(0,1).
x-.
Luego, X=Z5 +. y la funcin de distribucin de X por definicin es FX (x) = P(X x) = P(Z5 +. x) = P(Z 5 ) = F ( 5 ). La importancia de este teorema es que nos permite calcular probabilidades de una variable aleatoria N(., 5 # ) cualquiera, a partir de una variable aleatoria normal estndar para la que, como sabemos, su funcin de distribucin, F, se encuentra tabulada. As, por ejemplo, si X es N(200,400) entonces P(180 X 210) = P((180 200)/20 Z (210 200)/20) = F (0.5) F( 1) = 0.6915 0.1587 = 0.5328. . 94
x-. x-.
Figura 3.4. Teorema 3.9. Si Z es una variable aleatoria normal estndar, entonces la funcin generadora de momentos de Z es M^ (t) = et /2 Demostracin. La funcin generadora de momentos de Z es, por definicin _ 1 # M^ (t) = E(etz ) =( etz e-z /2 dz 21 -_ =(
_
#
-_ _
1 # e-"# (z -#>z) dz 21 1 # # 2 e-"/#z #>z> +t /2 dz 21 (

_
=( =e
-_
># #
-_
1 2 e-"#D ->) dz 21
= e> # , ya que la funcin involucrada en la integral corresponde a la densidad de una N(t,1). Teorema 3.10. Si X es una variable aleatoria con distribucin N(.,5 # ), entonces 95
MX (t) = exp(.t + t# 5 # /#).

. Demostracin. Si Z= X 5 , entonces Z tiene distribucin N(0,1) y por Teorema 3.9,
M^ (t) = e> # . Adems, como X = Z5 + . su funcin generadora es MX (t) = M^ 5 . (t) = e.> M^ (t5 )
# 2 = e.> e5 t /2 .
Conocida la funcin generadora de momentos de una variable aleatoria normal, podemos utilizar el resultado del Teorema 3.10 para probar que E(X) = MX (0) = . y Var(X) = MX (0) [MX (0)]# = 5 # . En efecto,
2 2 " MX (t) = (.+t5 # ) e. >+5 t /2 2 2 # MX (t) = [5 # +(.+t5 # )# ] e. >+5 t /2 .
"
"
luego
# .X = MX (0) =. y 5X = MX (0) .# = 5 # " #
Ejemplo. En una empresa siderrgica, las placas de acero producidas por una mquina deben tener cierto espesor. Dichas placas diferirn unas de otras debido a los materiales, al comportamiento de las mquinas y las herramientas utilizadas, lo que originar ligeras variaciones aleatorias provocadas por pequeas perturbaciones. Por lo tanto, el espesor X (mm) de las placas se puede considerar como una variable aleatoria continua. Si suponemos adems que para cierto ajuste de la mquina, X tiene distribucin N(10,0.0004), nos interesa determinar el porcentaje de placas defectuosas que se esperan, suponiendo que las placas defectuosas son aquellas: i) ms delgadas que 9.97 mm. 96
ii) ms gruesas que 10.05 mm. iii) cuyo espesor se desva en ms de 0.03 mm de la media. Sea X la variable aleatoria que indica el espesor (en milmetros) de las placas. Dado que X se distribuye normal, para (i) tenemos que P(X<9.97) = P(Z< 9.97-10 0.02 ) = F (-1.5) = 0.0668. Por lo tanto, podemos concluir que, aproximadamente, el 6.7 % de las placas son defectuosas. Para ii) tenemos
10 P(X>10.05) = P(Z> 10.05 0.02 )
= 1 F (2.5) = 1 0.9938 = 0.0062 0.62%. Finalmente, para iii) tenemos P(|X 10|>0.03) = P(|Z|> 0.03 0.02 ) = P(Z>1.5) + P(Z< 1.5) = 1 - F (1.5)+F (-1.5) = 1 0.9332+0.0668 = 0.1336, y entonces, aproximadamente, el 13% de las placas son defectuosas en este caso.
3.12 Distribucin Beta La familia de distribuciones Beta se puede deducir directamente a partir de la conocida funcin Beta del clculo, que se define por B(!," ) =
>(!)>(" ) >(!+" )
= ( x!-" (1-x)"-" dx, !>0 y " >0.

" !
De aqu se obtiene la funcin de densidad de una distribucin Beta de parmetros (!," ), dada por 97
>(!+" ) !-" " -" fX (x) = > , 0<x<1. (!)>(" ) x (1-x)
Las densidades tipo Beta son positivas sobre el intervalo (0,1) y, de acuerdo a los distintos valores de los parmetros, ella toma una gran variedad de formas, que se pueden utilizar para modelar muchos experimentos. Si !=" =1, la distribucin Beta se reduce a la distribucin uniforme sobre el intervalo (0,1). La Figura 3.5 muestra las funciones de densidades Beta, para distintas combinaciones de valores de los parmetros.
3 2
=5, =2
=2, =0.5
==0.5
f(x)
1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Figura 3.5. Densidades Beta, ! =" =0.5, ! =5, " =2, ! =2, " =0.5 La funcin generadora de momentos de una distribucin Beta(!," ) es difcil de obtener, sin embargo, los momentos podemos determinarlos fcilmente utilizando su definicin. As, si X se distribuye como una Beta, entonces
1 5!" E(X5 ) = B(! (1 x)"" dx ," ) ( x !
"
= B(!," ) = >(k+!+" ) >(!) >(" ) = >(!)>(k+!}" ) De aqu, E(X)= >(!)>(1+!+" ) = !! +" ,

(!+1)! >(1+!)>(!+" ) >(k+!) >(!+" )
B(k+!," )
>(k+!)>(" ) >(!+" )
E(X# )= (!+" +1)(!+" ) , 98
y la varianza de X es Var(X) = E(X# ) [E(X)]# = (!+" +1)(!+" )# .

!"
3.13. Distribucin de Weibull La distribucin de Weibull ha sido ampliamente utilizada en muchos fenmenos aleatorios, especialmente en aquellos relacionados con la confiabilidad de los componentes de un sistema, cuando estn sujetos a falla. Aunque tambin en estos casos las distribuciones exponencial y gamma tambin son utilizadas, en los ltimos aos se ha expandido el uso de la distribucin de Weibull a problemas como los mencionados. Una ventaja que presenta esta distribucin es que puede utilizarse como aproximacin a la ley de probabilidades de muchas variables aleatorias. En general, una variable aleatoria continua X se dice que tiene una distribucin Weibull con parmetros # , $ y " , si su funcin de densidad est dada por fX (x) = $ ( $ )" -1 exp -( $ )" ;
" x # x#
x#
(3.2)
El parmetro # , # , es un parmetro de localizacin, $ >0 un parmetro de escala, y " >0 es un parmetro de forma. La media y la varianza de Weibull se pueden obtener directamente de las definiciones y estn dadas por
1 E(X) = # + $>(1+ " )
2 1 Var(X) = $ 2 >(1+ " ) >(1+ " ) . 2
La funcin de distribucin tiene la forma FX (x) = 1 exp ( $ )" ; x #

x-#
La forma ms utilizada de la distribucin de Weibull es aquella en que el parmetro de localizacin es cero (# =0). Si adems hacemos $ " =!, entonces la densidad de Weibull la podemos escribir como 99
" " " -1 fX (x) = ! x exp x ! ; x 0; !, " > 0.
(3.3)
Notemos que cuando # =0 y " =1, la densidad de Weibull se reduce a la densidad de una variable aleatoria exponencial con parmetro -= 1/$ si consideramos (3.2) o con parmetro -= 1/! si consideramos (3.3). La Figura 3.6. muestra distintas densidades de Weibull para # =0, $ =1, y " =1, 3.
2
f(x) 1
=3
=1 0 0 0.4 0.8 1.2 1.6 x 2 2.4 2.8
Figura 3.6. Densidades Weibull para # =0, $ =1, y " =1, 3.
EJERCICIOS 1. Un tirador tiene probabilidad p>0 de dar en el blanco. Se le ofrecen dos alternativas: i) Realizar un slo disparo. ii) Realizar tres disparos con la condicin de dar por lo menos dos veces en el blanco. Cul es la alternativa ms favorable al tirador?. 2. Un test de seleccin mltiple consiste de ocho preguntas con tres respuestas en cada pregunta (una de las cuales es la correcta). Si un estudiante responde cada pregunta lanzando un dado, marcando la primera alternativa si obtiene un 1 2, marcando la segunda si obtiene un 3 4 y, finalmente, marca la tercera alternativa si obtiene un 5 un 6. Determine la probabilidad que l obtenga exactamente 4 respuestas correctas. Cul es el nmero esperado de respuestas correctas?
100
3. Supongamos que el 10% de los vasos producidos por cierta mquina son defectuosos. Si seleccionamos al azar 10 vasos producidos por esta mquina: a)Cul es la probabilidad que ninguno de ellos sea defectuos? b) Cul es el nmero esperado de defectuosos?. 4. Una industria utiliza 20 tanques para almacenar combustible, cada uno de los cuales requiere de una vlvula especial. Peridicamente se hace una revisin preventiva de las vlvulas. La experiencia ha permitido comprobar que, en promedio es necesario reemplazar en cada revisin el 30% de las vlvulas. Determine la probabilidad que en una revisin preventiva: a) Ninguna vlvula necesite ser reemplazada. b) Sea necesario reemplazar al menos dos vlvulas. 5. Supongamos que la variable X representa el nmero de neumticos estropeados por cada automvil particular de la ciudad. La funcin de distribucin de X est dada por: 0 si x<0 1/4 si x<1 1/2 si 1 x<2 2/3 si 2 x<4 1 si x 4
FX (x) =
Determinar: a) Nmero esperado de neumticos estropeados por automvil. b) Probabilidad que un automvil elegido al azar tenga a lo ms dos neumticos rotos. c) Si se eligen al azar cinco automviles, cul es la probabilidad que al menos tres tengan a lo ms dos neumticos rotos? d) La funcin generadora de momentos de la variable X. 6. Una multinacional produce determinado artculo electrnico que se emplea en el rea mdica, y las especificaciones dicen que slo un 2% de los artculos producidos presentan fallas. Dos ingenieros, expertos en control de calidad, realizan su propio plan de inspeccin: el ingeniero A comienza a inspeccionar los artculos de uno a la vez hasta detectar el primer defectuoso y acepta las especificaciones si realiza ms de dos extracciones; el ingeniero B toma una muestra de tamao 5 y acepta las especificaciones del fabricante si no encuentra defectuosos. Cul de los dos ingenieros tiene mayor probabilidad de rechazar las especificaciones dadas por el fabricante? 7. Considere el ejercicio 28 Captulo I . Si se eligen 3 artculos de la caja del proveedor I, sin sustitucin, cul es la probabilidad que por lo menos dos sean de tipo B?. Si ahora se extraen artculos de la caja del proveedor I, con reemplazo, hasta ubicar el tercer artculo tipo B, cul es la probabilidad que se requiera a lo sumo 5 extracciones?. 101
8. Considere un jugador de Basketball que hace repetidos lanzamientos libres. Suponiendo que sus lanzamientos son independientes con probabilidad de xito p=0.7. a) Cul es la probabilidad que necesite menos de cinco lanzamientos para su primer acierto? b) Cul es la probabilidad que necesite menos de cinco lanzamientos para hacer su segundo acierto.? c) Cul es la probabilidad que necesite un nmero impar de lanzamientos para hacer su primer acierto.? 9. Considere la variable aleatoria X cuya funcin de probabilidad es p\ (x) = (1-a) ax , x=0,1... a) Para qu valores de a tiene sentido el modelo anterior? b) Muestre que para dos enteros positivos c y d se tienen que P(X>c+d/X>d) = P(X>c). 10. Suponga que se realizan repetidos ensayos Bernoulli independientes, cada uno con probabilidad de xito 0.6. Sea X la variable aleatoria que indica el nmero de ensayos necesarios para obtener el primer xito. Determine P(X E(X) +var (X)). 11. Ciertos itemes son producidos por una mquina, cada item es clasificado como defectuoso o no defectuoso; los itemes defectuosos ocurren independientemente con probabilidad 0.05. Sea X el nmero de itemes inspeccionados hasta que el quinto item defectuoso es encontrado. a) Determine la funcin de probabilidades de la variable aleatoria X. b) Cul es el nmero esperado de itemes que se deben inspeccionar pra detectar el quinto defectuoso? 12. La empresa manufacturera VANAMUVI produce microprocesadores para computadores mediante un proceso completamente automatizado. La calidad de la maquinaria garantiza que slo el 5% de los microprocesadores producidos es defectuoso y que stos se producen en forma independiente a causa de fallas en la materia prima empleada. a) Un representante del proveedor de materia prima desea examinar 4 microprocesadores defectuosos recin producidos. Si se le lleva a la planta y examina los chips a medida que se producen, cul es el nmero esperado de microprocesadores que deben examinar antes de encontrar el cuarto defectuoso? b) Cul es la probabilidad que este representante encuentre el primer chips defectuoso en un nmero impar de microprocesadores examinados?. 102
c) Un computador marca SHANG lleva tres microprocesadores fabricados por VANAMUVI, cul es la probabilidad que ninguno sea defectuoso?. d) Los envos a la empresa SHANG se hacen en cajas de 100 chips. Un inspector de SHANG elige una caja al azar y revisa tres chips. Si ningn chips es defectuoso acepta la caja. Cul es la probabilidad que rechace una caja con un 5% de defectuosos?. 13. Se sabe que el 60% de estudiantes de la Universidad son fumadores. En una muestra aleatoria de 4 alumnos. a) Cul es la probabilidad que haya exactamente dos fumadores?. b) Cul es la probabilidad que sean fumadores slo los dos primeros alumnos entrevistados?. c) Cul es el nmero esperado de fumadores? d) Cuntos alumnos habr que entrevistar para que la probabilidad que el primer fumador aparezca sea de 0.96?. 14. Una cinta magntica presenta, en promedio, un error de grabacin por cada 1000 pies. Suponiendo distribucin de Poisson para el nmero de errores en una cinta dada, calcular la probabilidad que: a) Una cinta magntica de 2000 pies no contenga errores. b) Una cinta magntica de 3000 pies tenga exactamente dos errores. c) En una caja que contienen 4 cintas grabadas de 2000 pies cada una cul es la probabilidad que exactamente tres de ellas no tengan errores de grabacin? 15. Si se supone que el comienzo de las guerras est distribudo aleatoriamente en el tiempo, con una frecuencia media de ocurrencia de una cada 10 aos. Cul es la probabilidad que por lo menos una guerra comience en los prximos 10 aos? 16. En una determinada industria los accidentes ocurren a una tasa de 1 cada 2 meses. Considerando que los accidentes ocurren en forma independiente: a) Determine el nmero esperado de accidentes por ao. b) Cul es la probabilidad que ocurran accidentes en un mes dado? c) Cul es la probabilidad que ocurra al menos un accidente en un perodo de 6 meses? 17. En relacin al ejercicio 6 , un estudiante en prctica considera que las fallas ocurren segn un proceso de Poisson, donde el nmero esperado de artculos defectuosos en 1000 unidades producidas es 18, y decide aceptar las especificaciones del fabricante. porqu? 18. Se sabe que el nmero de artculos buenos producidos por una mquina es una variable aleatoria con distribucin binomial con una media de 12 artculos buenos y una varianza de 3. 103
a) Determine la probabilidad que un da la mquina produzca a lo menos dos artculos buenos. b) Si se inspeccionan 40 artculos producidos por esta mquina, cul es la probabilidad de detectar a lo sumo 5 artculos defectuosos. (use alguna aproximacin). c) Cuntos artculos habra que inspeccionar en promedio, hasta detectar el tercer artculo defectuoso? d) Si de una caja que contiene 20 artculos se eligen 5 al azar, cul es la probabilidad que se detecten 3 artculos buenos?. 19. Suponga que los montculos, de dimetro no inferior a 1 metro, estn distribudos al azar en la superficie de la luna, a una tasa de 1000 por kilmetro cuadrado (satisfaciendo los supuestos de un proceo de Poisson). a) Cul es la probabilidad de que no se encuentren estos montculos en un metro cuadrado de la superficie lunar? b) Si se marca una porcin de 25 m# para el alunizaje de una nave, cul es la probabilidad de que en esta rea particular no haya montculos? c) Cul es la menor rea, que usted esperara, que contiene un montculo?. 20. Se estudi el trfico, en un slo sentido, del camino que conduce hasta un peaje. Se encontr que el volumen del trfico es de 120 vehculos por hora, en promedio, de los cuales 2/3 corresponden a autos y 1/3 a camiones. El peaje es de U$0.5 por auto y U$2.0 por camin. Suponga que las llegadas de los vehculos constituyen un proceso de Poisson. a) Calcular la probabilidad que en un perodo de un minuto lleguen ms de 3 vehculos al peaje? b) Cul es la cantidad de dinero promedio que recibe el peaje en un perodo de tres horas? c) Se sabe que el 80% de los vehculos que pasan por este peaje tienen sus documentos al da. Durante un perodo de 5 minutos la polica revisa los documentos a dos vehculos. Determine la probabilidad que ambos tengan sus documentos en regla. 21. Si X es una variable aleatoria con funcin generadora de momentos dada por M\ (t) =exp{3(e> -1)}, determine la funcin de probabilidad de X y calcule P(X E(X)). 22. La concentracin diaria de cierto contaminante en un arroyo tiene funcin de densidad dada por fX (x) = ce--x , x>0, c constante. a) Si la concentracin media diaria del contaminante es 2mg/10$ litros, determine la constante c en la distribucin. 104
b) Suponga que tendr un problema de contaminacin si la concentracin del contaminante excede los 6 mg/10m$ litros. Cul es la probabilidad que ocurra un problema de contaminacin en un slo da?. c) Cul es la probabilidad que este contaminante cause a lo sumo un problema en los prximos 3 das? 23. Las fallas en determinado tipo de gra que se emplea en la construccin de edificios ocurren segn un proceso Poisson a una tasa de 1 cada 24 horas de operacin. El sistema de mantenimiento contempla una inspeccin cada 8 horas. a) Determine la probabilidad que en 48 horas de operacin ocurran por lo menos dos fallas. b) Cul es la probabilidad que transcurran ms de 5 das hasta la segunda falla?. 24. El tiempo de operacin de un equipo de construccin hasta que sufre una avera sigue una distribucin exponencial con media de 24 meses. Existe un programa de inspeccin cada 5 meses. a) Cul es la probabilidad que un equipo necesite reparacin en la primera inspeccin?. b) Si un equipo no ha fallado en la primera inspeccin, cul es la probabilidad que siga en operacin en la prxima inspeccin?. c) La compaa posee 5 piezas de un cierto tipo de equipo. Suponiendo que las vidas de servicio de los equipos son estadsticamente independientes, determine la probabilidad que a lo sumo 1 pieza del equipo necesite reparacin en la fecha de inspeccin. d) Si se desea limitar la probabilidad de reparar en cada fecha de inspeccin a no ms que el 10%, cul debera ser el intervalo de inspeccin?. Las condiciones de la parte c siguen siendo vlidas. 25. Los accidentes laborales en cierta industria ocurren segn un proceso de Poisson de parmetro -. Defina la variable aleatoria T como el tiempo hasta que el segundo accidente ocurre. Determine el tiempo esperado hasta que el segundo accidente ocurre, si -=10 accidentes por ao. 26. Las molculas de cierto gas se distribuyen segn Poisson a una tasa promedio de tres molculas por pie$ . Si se desea analizar una cantidad de aire suficientemente grande (digamos t pie$ ), tal que la probabilidad de encontrar al menos una molcula de este gas en la muestra sea de al menos 0.99, cul debe ser el tamao de t?. 27. Segn los antecedentes que maneja el Departamento del Trnsito, el nmero de accidentes en un determinado tramo de la carretera Norte-Sur, ocurren de acuerdo a un proceso Poisson a una tasa de 2 por semana. a) Determine la probabilidad que en un mes dado ocurra al menos un accidente. 105
b) Cul es la probabilidad que transcurran ms de dos semanas libres de accidentes? c) Si se empieza a observar el fenmeno el da Lunes, cul es la probabilidad que el primer accidente ocurra el da Martes de la prxima semana? 28. Sea X una variable aleatoria cuya funcin generadora de momentos est dada por M\ (t) = (1-2t)-% . a) Indique la funcin de densidad de X. b) Determine P(X E(X-1) + var(X)). 29. Considere la variable aleatoria Y con funcin generadora de momentos M] (t) = (1-" t)-! . Calcule la esperanza y la varianza de Z=3Y + 7. 30. Suponga que X, la resistencia a la ruptura de una cuerda (en libras), sigue una distribcuin Normal con media 100 varianza 16. Cada 100 pies de cuerda produce una utilidad de $25 si X>95. Si en cambio X 95, la cuerda puede utilizarse con un objetivo diferente y se obtiene una utilidad de $10 por cuerda. Encuentre la utilidad esperada por cuerda (de 100 pies de largo). 31. El tiempo de vida til de cierta marca de bateras para automviles se distribuye aproximadamente normal con media .=38 meses y 5 =2 meses. Si la compaa no desea reemplazar ms del 5% de las bateras vendidas, qu tiempo de garanta debe dar?. Cul es la probabilidad que una batera dure ms de 40 meses?. 32. Considere la variable aleatoria X cuya funcin generadora de momentos est dada por MX (t) = exp{2t# }. Calcule: a) P(-1< X 2). b) La funcin de densidad de Y =2X-3. c) k tal que P(Y<k) = 0.95. 33. Un Bar ha instalado una mquina automtica para la venta de cerveza. La mquina puede regularse de modo que la cantidad media de cerveza por vaso sea la que desee; sin embargo, en cualquier caso esta cantidad tendr una distribucin normal con una desviacin estndar de 5.9 ml?. a) Si el nivel se ajuste a 304.6 ml. Qu porcentaje de los vasos contendrn menos de 295. ml.? b) A qu nivel medio debe ajustarse la mquina para que slo el 2.28% de los vasos contengan menos de 295.7ml.? c) A qu nivel medio debe ajustarse la mquina para que el 84.13% de los vasos contenga menos de 313.46 ml.? 34. En el Ejercicio 23, si consideramos 56 gras del mismo tipo que funcionan en diferentes construcciones, determine la probabilidad aproximada que no ms de 20 de ellas necesiten reparacin en la primera inspeccin. 106
35. Las alturas de los naranjos estn distribudos en forma normal. Se sabe que un 2.28% miden ms de 14 pies y un 84.13% miden menos de 12 pies. Determine la altura media de los naranjos y la desviacin estndar de las alturas. 36. Una parte de una red de actividades se muestra en la figura a continuacin. Un nodo indica el comienzo y trmino de una actividad. la actividad C puede comenzar slo despus de completar las actividades A y B, mientras que la actividad D puede comenzar slo despus de completar C. Las actividades A, B, C y D son estadsticamente independientes. Las fechas de inicio son las siguientes: Actividad A y B : Mayo 1 Actividad C : Junio 1 Actividad D : Agosto 1.
() ()
actividad A actividad B
actividad C actividad D ()............................()..........................()
Una actividad no puede comenzar antes de su fecha de inicio (suponga que todos los meses tienen 30 das). Los tiempos (en das) requeridos para completar cada actividad son variables aleatorias normales definidas como sigue: A N(25, 25), B N(26, 16), C N(48, 144) y D N(40, 64). Suponga que, tanto la actividad A como la B comienzan el da 1 de Mayo. a) Determine la probabilidad que la actividad C no comience el 1 de Julio b) La disponibilidad de mano de obra es tal que, a menos que C comience el 1 de Junio, la fuerza de trabajo ser desviada a otro proyecto y no estar disponible para esta actividad por al menos 90 das. Cul es la probabilidad que D comience el 1 de Agosto?. 37. Una firma comercializa sus productos slo por correo a una lista de 100.000 clientes potenciales. Para decidir acerca de la comercializacin de un nuevo artculo, la firma acuerda seleccionar una muestra aleatoria de 100 personas de su lista y ofrecerles el artculo. Si 30 ms de estos clientes estn dispuestos a adquirirlo, proceder a su comercializacin en caso contrario, no lo har. a) Cul es la probabilidad que comercialice el artculo si en realidad slo el 20% de todos los clientes lo compraran?. b) Cul es la probabilidad que no comercialice el artculo si en realidad el 36% de todos los clientes lo compraran. (Utilice aproximacin normal). 38. El nmero de rboles en una regin forestal se distribuye de acuerdo a un proceso de Poisson con un nmero medio de 80 rboles por hectrea: 107
a) Cul es la probabilidad que en cierta superficie de 1/4 de hectrea se tenga a lo sumo 26 rboles. (Use aproximacin normal). b) Suponga que se selecciona un punto interior a la plantacin y se traza un crculo de radio igual a 1 km. Sea X el nmero de rboles dentro de dicha regin, cul es la funcin de probabilidad de X?. c) Si la plantacin cubre 85 hectreas, Cul es el nmero esperado de rboles?
108
CAPITULO IV VARIABLES MULTIDIMENSIONALES Y TEOREMAS LIMITES
Hasta aqu hemos tratado con experimentos que involucran variables aleatorias unidimensionales, ya sean discretas o continuas. Sin embargo, en un experimento determinado, existen muchas mediciones de inters que se pueden realizar en los resultados de un experimento; por ejemplo, al examinar un producto terminado en un proceso productivo, podemos interesarnos en el tiempo de fabricacin, la cantidad de materiales empleados, la calidad del mismo, etc. De esta forma surgen distintas variables aleatorias asociadas a un mismo resultado de un experimento. As, podemos estar interesados no slo en el estudio de una variable aleatoria individual sino tambin en la relacin entre dos o ms variables aleatorias. Inicialmente trabajaremos con variables bidimensionales, para luego generalizar introduciendo la ley de probabilidad para una variable aleatoria ndimensional. Enseguida veremos algunos teoremas de lmites que son de vital importancia en el desarrollo de la teora de probabilidades y de la inferencia estadstica.
4.1. Variables Bidimensionales Definicin. Dado un experimento, el par (X" ,X# ) se llama variable aleatoria bidimensional (o vector aleatorio bidimensional) si cada Xi , i=1,2 es una variable aleatoria. Diremos que el par (X" ,X# ) es conjuntamente continuo si cada Xi , i=1,2 es una variable aleatoria continua. Anlogamente, diremos que (X" ,X# ) es conjuntamente discreto si cada una de las Xi , i=1,2 es una variable aleatoria discreta. As, (X" ,X# ) es un par de funciones real valuadas definidas sobre el espacio muestral H. Denotaremos por Rx1 x2 su recorrido, que es un subconjunto de # Tambin puede considerarse el caso en que una variable es discreta y la otra es continua y diremos entonces que (X" ,X# ) es un vector aleatorio mixto. Aunque stas suelen estar presentes en algunas aplicaciones, no las trataremos aqu. Si el par (X" ,X# ) es discreto, entonces le podemos asociar una funcin de probabilidades de la forma p X X (x" ,x# ) = P(X" =x" ,X# =x# ), a(x" ,x# ) #
1 2
Esta funcin debe satisfacer las condiciones siguientes: 109
i) p X X (x" ,x# ) 0 a(x" ,x# ) # ii) ! pX X (x" ,x# ) = 1.

(x1 ,x2 )
1 2 1 2
Adems, si A Rx1 x2 entonces determinamos la probabilidad del evento A como: P(A) =! pX X (x" ,x# ). En particular, si A= (x1 ,x2 ) : x1 =x0 1 , entonces !p (x0 P(A) = P(X1 = x0 1) = 1 ,x# ) X X
x2
1 2
(x1 ,x2 )A
1 2
Esto es, sumamos la probabilidad conjunta p X X (x0 " ,x# ) para todos los valores
1 2
que asume x2. Luego, a partir de p X X (x" ,x# ) podemos determinar pX (x" ) y pX (x# ),
1 2 1 2
cualquiera sean los valores de x1 y x2 respectivamente. Las funciones de probabilidades individuales de las variables X" y X# se llaman probabilidades marginales de X" y X# , respectivamente. Estas se obtienen de la siguiente manera: pX (x" ) = P(X" = x" ) = !x2 P(X" =x" ,X# =x# ) 1 = !x# p X X (x" , x# )
1 2
que es la distribucin marginal de X" , y pX (x# ) = P(X# =x# ) = !x" P(X" =x" ,X# =x# )
2
= !x" p X X (x" ,x# )

1 2
que es la distribucin marginal de X# . Esto se puede visualizar fcilmente razonando como sigue: si el suceso A indica que X1 toma un valor fijo x0 1 , este suceso ocurre en todos los puntos (x1 ,x2 ), cuya primera componente es x0 1 . As,
0 A = {X" =x0 1 } = U{X" =x 1 ,X# =x#4 }. 4
y 110
0 P{X" =x0 1 } = P(U{X" =x 1 ,X# =x#4 }) j
= !4 P(X" =x0 1 ,X# =x#4 ) = !4 p

X1 X2
(X" =x0 1 ,X# =x#4 ).
Si ahora el par (X" ,X# ) es continuo, los recorridos de X" y X# son ambos conjuntos no numerables. Entonces a (x" ,x# ) le asociaremos una funcin de densidad de probabilidad (o funcin de densidad conjunta), f X X (x" ,x# ), que
1 2
debe satisfacer las condiciones. i) f X X (x" ,x# ) 0, a(x" ,x# ) #

1 2
ii)(
-_
_ -_
f X X (x" ,x# ) dx1 dx2 = 1.

1 2
As, cualquier par de variables reales continuas que satisface estas dos condiciones es una funcin de densidad de probabilidad para alguna variable aleatoria bidimensional. La funcin fX X (x" ,x# ) es no nula en alguna regin Rx1 x2 del plano y si 1 2 A = (x1 ,x2 ): a" <x" <b" , a# <x# <b# , entonces P(A)= P(a" <X" <b" , a# <X# <b# ) = ( para todo a" , a# , b" , b# . Al igual que en el caso discreto, si conocemos f X X (x" ,x# )
1 2
,"
+"
,# +#
f X X (x" ,x# ) dx# dx"

1 2
podemos
determinar las densidades marginales para X" y X# . Obtenemos la densidad marginal de X" integrando la densidad conjunta sobre la variacin de X# ; es decir, fX" (x" ) = (
_
-_
f X X (x" ,x# ) dx# .

1 2
Anlogamente, la densidad marginal de X# es fX# (x# ) = (

_
-_
f X X (x" ,x# ) dx" .

1 2
111
En ocasiones suele obviarse la notacin con las variables como subndices y la funcin de densidad conjunta y las marginales se denotan entonces como f(x" ,x# ), f(x" ) y f(x# ), respectivamente. Anlogamente para el caso discreto. Cualquiera de las dos notaciones es vlida siempre que no cause confusiones. La funcin de distribucin, F(t" ,t# ), para una variable aleatoria bidimensional (X" ,X2 ) est dada por: F(t" ,t# ) = P(X" t" ,X# t# ), a(t" ,t# ) # Si la funcin de distribucin es continua y la segunda derivada parcial mixta de F(x" ,x# ) existe, esta segunda derivada es la funcin de densidad bivariante de (X" , X# ) f(x" ,x# ) = ` x` ` x F(x" ,x# ) " # y a partir de ella podemos recuperar la funcin de distribucin como sigue, F(x" ,x# ) = (
x"
#
-_
x#
f(t" ,t# )dt# dt" .

-_
La funcin de distribucin F(x" , x# ) tiene las siguientes propiedades: i) F(x" , _) y F(_, x# ) son funciones de distribucin en " , como funciones de x" y x# , respectivamente. ii) F(-_, x# ) = F(x" , -_) = 0. iii) # F = F(x" +h,x# +k) F(x" +h,x# ) F(x" ,x# +k)+F(x" ,x# ) 0 Cualquier funcin de dos variables que satisface estas tres condiciones puede usarse como una funcin de distribucin de alguna variable aleatoria bidimensional. Notemos que F(x" ,_) corresponde a la funcin de distribucin marginal de la variable aleatoria X" . Anlogamente, F(_,x# ) es la funcin de distribucin marginal de X# .
Ejemplo. Consideremos las variables aleatorias X e Y con funcin de probabilidad conjunta dada por
XY 1 3
-3 0.1 0.3
2 0.2 0.1
4 0.2 0.1 112
La probabilidad conjunta de que Y no supere a 2 y X supere a 1 es P(X>1,Y 2) = P(X=3,Y=2) + P(X=3,Y= -3) = p(3,2) + p(3,-3) = 0.4 y la probabilidad que Y no supere a X es P(X Y) = P(X Y 0) = p(1,-3) + p(3,-3) + p(3,2) = 0.5. Las distribuciones marginales de X e Y son x p(x) 1 0.5 3 0.5 y p(y) -3 0.4 2 0.3 4 0.3
respectivamente. A partir de las marginales, podemos determinar la media y la varianza de cada una de las variables involucradas. En efecto, .X = E(X) = 2; .Y = E(Y) = 0.6; E(X# ) = 5; E(Y# ) = 9.6;
# # # # 5X = E(X# ) .X = 1 y 5] = E(Y# ) .] = 9.24.
Ejemplo. Supongamos que la funcin de densidad conjunta de X e Y est dada por f(x,y) = 2e-x e-#y , Entonces las marginales son f(x) =( y f(y) =(
_ _
x>0, y>0
2ex e#y dy = ex , x > 0
2ex e#y dx = 2e #y , y > 0 113
que corresponden a distribuciones exponenciales con parmetros -=1 y -=2, respectivamente. Utilizando las marginales podemos calcular probabilidades relacionadas con las variables en forma individual; por ejemplo, P(X<a) =(
+
f(x)dx =(
+ !
ex dx = 1 ea
Notemos que esta probabilidad tambin la podemos calcular directamente utilizando la funcin de densidad conjunta de (X,Y); en efecto, P(X<a) =( (
+ ! _
f(x,y) dy dx
! _
=( (
+ !
2ex e#y dy dx
= 1 e a Calculemos ahora la probabilidad conjunta que X sea mayor que 1 e Y sea menor que 1. Esta probabilidad corresponde a P(X>1,Y<1) = (
"
(
"
2ex e#y dx dy
= e" (
2e#y dy
= e" (1 e# ). Finalmente, P(X<Y) = ( ( f(x,y) dy dx {(x,y):x<y} =(

_
C !
2ex e#y dx dy
=(
2e#y (1 ey ) dy 114
=(
2e#y dy (
_ !
2e$y dy
= 1 2/3 = 1/3. Ejemplo. Consideremos las variables aleatorias X e Y, con funcin de densidad conjunta f(x,y) = 0 en otro caso
x+y 0<x<1, 0<y<1
y determinemos la funcin de distribucin de (X,Y). Evidentemente, si x<0 y<0, entonces F(x,y) = 0 Para 0<x<1, 0<y<1 F(x,y) =( (
y ! x
(s+t)dsdt =
!
1 xy(x+y) 2
Para x>1, 0<y<1 F(x,y) =( (

C ! "
(s+t)dsdt =
!
1 y(y+1) 2
Para 0<x<1, y>1 F(x,y) =( (

" ! B
(s+t)dsdt =
!
1 x(x+1) 2
Para x>1, y>1 F(x,y) =( (

" ! "
(s+t)dsdt = 1
!
As, la funcin de distribucin conjunta de las variables aleatorias X e Y, la podemos escribir como:
115
0 xy(x+y)/2 F(x,y) = y(y+1)/2 x(x+1)/2 1 4.2. Esperanza y Momentos
x0y0 0<x<1, 0<y<1 x 1, 0<y<1 0<x<1, y 1 x 1, y 1
Sabemos que los valores esperados y los momentos de una variable aleatoria unidimensional podemos utilizarlos para describir algunos aspectos de inters de una distribucin de probabilidades. Estos mismos conceptos son tambin de gran utilidad cuando tratamos con vectores de variables aleatorias. Definicin. Sea g(X,Y) una funcin real valuada de las variables aleatorias X e Y. Entonces la Esperanza de g(X,Y), que denotaremos por E[g(X,Y)], se define como sigue: E[g(X,Y)] = !! g(x,y) p(x,y) E[g(X,Y)] =(
_
si (X,Y) es discreto
g(x,y) f(x,y)dxdy si (X,Y) es continuo,

_
siempre que las sumas o integrales existan. Cuando g(X,Y) = X j Yk , j, k 0, tenemos E[X j Yk ] llamado momento conjunto (j,k) de la variable aleatoria bidimensional (X,Y), que se acostumbra a denotar por mjk = E[X j Yk ] ; j, k 0. En forma anloga al caso unidimensional podemos definir los momentos conjuntos centrales de X e Y, como njk = E[(X-.X )j (Y-.] )k ], que se obtienen tomando g(X,Y) = (X .X )j (Y .] )k en la definicin anterior. Algunos casos particulares de momentos son: m"! = E[X], m#! = E[X# ], m!" = E[Y], m!# = E[Y# ],
# n#! = E[(X .X )# ] = m#! m# #! = 5X ,
116
# n!# = E[(Y .] )# ] = m!# m# !" = 5] . Definicin. Llamaremos Covarianza entre las variables aleatorias X e Y, a la expresin
Cov(X,Y) = 5XY = E[(X .X )(Y .Y )] Notemos que: 5X] = E[XY] .X .Y = m"" m"! m!" La Covarianza entre dos variables aleatorias es una medida de variacin conjunta, su magnitud depende de las varianzas de X e Y, y puede tomar cualquier valor real. Es fcil verificar que si definimos las variables U=aX+b, V=cY+d, donde a, b, c y d son constantes, entonces Cov(U,V) = acCov(X,Y). As, si la covarianza entre X e Y no es cero, podemos elegir a y c para hacer que Cov(U,V) sea igual a cualquier nmero real positivo o negativo. Por lo tanto la covarianza es una medida no acotada de como dos variables varan juntas. Una medida que no presenta este defecto es el coeficiente de correlacin que damos en la siguiente definicin. Definicion. La Correlacin o Coeficiente de Correlacin entre las variables aleatorias X e Y, se define por
5X] 3X] = 5 . X 5X
De la definicin tenemos que 3=0 si y slo si la covarianza es cero, y como 5X >0 y 5] >0, el signo de 3 depende del signo de la covarianza. Se puede probar que 3X] es invariante por traslaciones de ejes; esto es, 3+X,-] . = 3X] . Adems, se tiene que |3X] | 1. Ejemplo (Continuado). Consideremos nuevamente la tabla del ejemplo en pgina 127 y determinemos la covarianza y correlacin entre X e Y. Como ya hemos calculado las varianzas correspondientes, debemos calcular la esperanza del producto de las dos variables. As, E(XY) = !! xyp(x,y) = (1)( 3)(0.1)+(1)(2)(0.2)+(1)(4)(0.2)+(3)( 3)(0.3)+ +(3)(2)(0.1)+(3)(4)(0.1) 117
= 0. Entonces, agregando la informacin del ejemplo anterior, relacionado con las medias y las varianzas, tenemos que la covarianza entre X e Y es Cov(X,Y) = E(XY) .X .] = 1.2 y la correlacin es 3X] =
Cov(X,Y) 5X 5]
1.2 = (1)(3.04) = 0.394.
4.3. Independencia y Condicionalidad Definicin. Dada una variable aleatoria bidimensional (X" ,X# ) con funcin de distribucin F(x" ,x# ) y marginales FX" (x" ) y FX# (x# ), diremos que X" y X# son independientes si F(x" , x# ) = FX" (x" ) FX# (x# ) ; En este caso, P(a" <X" b" , a# <X# b# ) = P(a" <X" b" ) P(a# <X# b# ). Para el caso de variables continuas, derivando parcialmente la funcin de distribucin conjunta obtenemos
` # F(x" ,x# ) ` x" ` x#
a (x" , x# ) # .
= f(x" ,x# ).
Ahora,
` # F(x" ,x# ) ` x" ` x#
` # {F(x" )F(x# )} ` x" ` x#

" #
por independencia
= FX" (x" )FX# (x# ) = fX" (x" ) fX# (x# ) donde FX" (x" ) = ` x " "
"
` F(x )
FX# (x# ) = ` x # . # 118
` F(x )
Entonces la condicin f(x" ,x# ) = fX" (x" )fX# (x# ) es necesaria y suficiente para la independencia entre X" y X# , pues F(x" ,x# ) =( =( =(
B"
-_ B"
( (
B#
f(t" ,t# )dt# dt" =

-_ B#
f(t" )f(t# )dt# dt"

-_ B#
-_ B" -_
f(t" )dt" (
f(t# )dt#
-_
= FX" (x" ) FX# (x# ). Enseguida veremos algunos resultados importantes relacionados con la independencia entre variables aleatorias. Teorema 4.1. Sean X" y X# variables aleatorias independientes. Si Y1 =G(X" ) e Y2 =H(X# ) son funciones montonas de X" y X# , respectivamente, entonces Y1 e Y2 son variables aleatorias independientes. Demostracin. Consideremos la funcin de distribucin acumulada conjunta de Y1 e Y2 , FY1Y2 (y1 ,y2 ). Por definicin de funcin de distribucin tenemos FY1Y2 (y1 , y2 ) = P(Y1 y1 , Y2 y2 ) = P(G(X1 ) y1 , H(X2 ) y2 ) = P(X1 G-1 (y1 ), X2 H-1 (y2 )) = P(X1 G-1 (y1 )) P( X2 H-1 (y2 )), por ser X1 y X2 independientes. Luego, aplicando las funciones G y H nuevamente tenemos FY1Y2 (y1 , y2 ) = P(G(X1 ) y1 ) P( H(X2 ) y2 ) = P(Y1 y1 ) P( Y2 y2 ). = FY1 (y1 )FY2 (y2 ), 119
y por lo tanto el resultado. Teorema 4.2. Sean X" y X# variables aleatorias independientes. Si G(X" ) y H(X# ) son slo funciones de X" y X# , respectivamente, entonces E[G(X" )H(X# )] = E[G(X" )] E[H(X# )] Demostracin. Desarrollaremos la demostracin para el caso continuo, en el entendido que el caso discreto es anlogo. Supongamos entonces que X" y X# son variables aleatorias continuas con funcin de densidad conjunta f(x" ,x# ) y sean G(X" ) y H(X# ) funciones de una variable real, entonces E[G(X" )H(X# )] =( =(
_ -_
( (
G(X" )H(X# )f(x" ,x# )dx# dx"

-_
_ -_
-_
G(X" )H(X# )fX" (x" )fX# (x# )dx# dx"
=(
-_
G(X" )fX" (x" )dx" (
_ -_
H(X# )fX# (x# )dx#
= E[G(X" )] E[H(X# )]. Teorema 4.3. Si X" y X# son variables aleatorias independientes, entonces 5X" X# = 3X" X# = 0 Demostracin. Inmediata aplicando la definicin de covarianza y correlacin entre X" y X# y el Teorema 4.2. Es importante hacer notar que el recproco del Teorema 4.3 no es vlido; esto es, si el coeficiente de correlacin entre dos variables es cero, no necesariamente las variables involucradas son independientes en el sentido de la definicin. El siguiente es un contraejemplo de esto. Ejemplo. Consideremos la variable aleatoria discreta X" con funcin de probabilidad 1/4 si x = 2, 1, 1, 2 pX" (x" ) = 0 en otro caso y definamos X# =X# " . Entonces tenemos que la funcin de probabilidad conjunta de X" y X# es 120
p(x" ,x# ) =
1/4 0
si (x" , x# ) = (2,4),(1,1),(1,1),(2,4) en otro caso
De aqu tenemos que

1 1 8 E(X" X# ) = 8 4 4 + 4 + 4 =0
y como E(X" ) = 0, entonces Cov(X" ,X# ) = 0 y luego 3X" X# = 0. Sin embargo, las variables X" y X# son claramente dependientes. Ejemplo. Consideremos dos lanzamientos de una moneda con un cero en un lado y un uno en el otro. Sea X" la variable aleatoria que indica el nmero que ocurre en el primer lanzamiento y X# aquella que indica el nmero que ocurre en el segundo. Evidentemente (X" ,X# ) es una variable bidimensional discreta y su funcin de probabilidad conjunta esta dada por:
1/4 si (x ,x# ) = (0,0),(0,1),(1,0),(1,1) p(x" ,x# ) = 0 en"otro caso
de donde
E(X" X# ) = ! !x" x# p(x" ,x# )

B" B#
= 1/4 Las marginales correspondientes, para i=1,2, son pXi (xi ) = 1/2 si xi = 0,1; i=1,2 Utilizando las marginales tenemos .Xi = 1/2, As, Cov(X" ,X# ) = E(X" X# ) .X" .X# = 1/4 (1/2)(1/2) = 0 y 3X" X# = 0. Notemos que en este caso las variables aleatorias X" y X# s son independientes. 5Xi = 1/4, i=1,2
121
Un aspecto importante en el trabajo con variables bidimensionales es la determinacin de la distribucin de probabilidades de una de ellas, cuando se tiene informacin sobre un valor particular de la otra. Este tipo de distribuciones son las llamadas distribuciones condicionales. Definicin. Sea (X" ,X# ) una variable aleatoria bidimensional. Entonces: (a) Si (X" ,X# ) es conjuntamente discreta, definimos la funcin de probabilidad condicional de X# dada X" =x" por p X /X (x# /x" ) = p(x# /x" ) = p "(x #) ; si pX1 (x" ) > 0 " 2 1 X
1
p(x ,x )
y como cero en otro caso. (b) Si (X" ,X# ) es una variable continua, definimos la funcin de densidad condicional de X# dada X" =x" mediante: f X2 /X1 (x# /x" ) = f(x# /x" ) = f "(x #) ; si fX" (x" ) > 0 X1 " y es cero en otro caso. Anlogamente, se pueden definir las distribuciones condicionales de X" dada X# =x# . Obviamente, tanto la funcin de probabilidad condicional como la funcin de densidad condicional recin definidas, satisfacen las condiciones de una funcin de probabilidad o de densidad, respectivamente. De aqu tiene sentido determinar tambin su media y varianza, que en este caso reciben el nombre de media y varianza condicional, para enfatizar que se est trabajando con distribuciones condicionales. Utilizando las definiciones anteriores podemos calcular esperanzas y varianzas condicionales. Para esto, supongamos que (X" ,X# ) es una variable bidimensional continua, entonces E[X# /X" =x" ] =( x# f(x# /x" )dx# -_
_
f(x ,x )
=(
x#
-_
f(x" ,x# ) dx# f(x" )

_
=f 1 ( x# f(x" ,x# )dx# X" (x" ) -_ y anlogamente 122
E[X# # /X" =x" ]
1 fX" (x" ) (
_ -_
x# # f(x" ,x# )dx# .
Luego la varianza condicional de X# dado X" =x" es Var(X# /X" =x" ) = E(X# E[X# /X" =x" ])/X" =x"
2
# = E(X# # /X" =x" ) (E[X# /X" =x" ]) .
Notemos que, la esperanza condicional es una funcin de la variable condicin; esto es, E[X# /X" =x" ] = g(x" ). A esta forma de esperanza se le llama usualmente regresin de X# sobre X" . Un caso especial de mucho inters prctico, que trataremos ms adelante, es aquel donde g(x" ) es una funcin lineal. En general, si X es una variable aleatoria y H(X) una funcin de X, entonces E(H(X)/X=x) = H(x), ya que cuando X asume un valor especfico H(x) se puede considerar como una constante. Adems, si X" y X# son variables aleatorias independientes, E(X" /X# =x# )=E(X" ), cuando la esperanza de X" existe. Se puede verificar fcilmente que para variables aleatorias X" , X# y X$ se tiene que E(!X" +" X# /X$ =x$ ) = !E(X" /X$ =x$ )+" E(X# /X$ =x$ ), donde ! y " son constantes arbitrarias. Como E[X# /X" =x" ] = g(x" ), para todo valor x" , se justifica considerar a g(X" )=E[X# /X" ] como una variable aleatoria y de aqu se puede probar fcilmente que la media de la media condicional es la media incondicional; esto es, E(E(X2 /X1 )) = E(X2 ). Enseguida veremos dos ejemplos, uno continuo y otro discreto, que ilustran los clculos relativos a distribuciones condicionales donde, en ocasiones, la notacin utilizada suele confundir, especialmente en el caso continuo. Ejemplo. Sea (X,Y) una variable aleatoria bidimensional con funcin de densidad conjunta f(x,y) = 0 en otro caso
2 si x+y1, x0, y0
123
Nos interesa determinar: a) La densidad condicional de Y dado X=x. b) La esperanza de Y dado X=0.5. c) E(E(Y/X)) d) La varianza condicional de X dado Y=0.5. e) La probabilidad condicional que X>0.5 dado que Y=0.25. f) La probabilidad que X>0.5 dado que Y>0.25. De la densidad conjunta tenemos que las marginales son: fX (x) =( fY (y) =(
"x
f(x,y)dy = 2(1 x) , 0 x 1
"y
f(x,y)dx = 2(1 y) , 0 y 1.
Para la parte (a) tenemos que la densidad condicional de Y dado X es f(y/x) = f(x)
f(x,y)
1 = 1 x ; 0<y<1 x. Por otra parte,
E[Y/X=x] =( =(
"x
y f(y/x)dy
"x
1 dy 1x
= (1 x)/2. y para X = 0.5, tenemos que E[Y/X = 0.5] = 1/4, luego (b). Para la parte (c), de (b) tenemos que E[Y/X=x] = (1 x)/2, para todo x en (0,1), por lo que la variable aleatoria E[Y/X] = (1 X)/2. Ahora, la media de esta media condicional es E(E[Y/X]) = E((1 X)/2) = (1 E(X))/2. Utilizando las densidades marginales de X e Y, respectivamente, obtenemos E(X) = E(Y) = 1/3. Por lo tanto
124
E(E[Y/X]) = (1 1/3)/2 = 1/3 = E(Y). Ahora, la densidad condicional de X dado Y=y es f(x/y) = f(y)
f(x,y)
1 = 1 y , 0<x<1 y.
De aqu,
E[X/Y=y] =( =(
"y
x f(x/y)dx
"y
1 dx 1y
= (1 y)/2. y E[X# /Y=y] =( =(

"C ! "C
x# f(x/y)dx 1 dx 1y
x#
= (1 y)# /3 Luego la varianza condicional es Var (X/Y=0.5) = E(X# /Y=0.5) (E[X/Y=0.5])# = (1 0.5)# /3 ((1 0.5)/2)# = 1/48, o bin Var(X/Y=0.5) = E[(X E[X/Y=0.5])/Y=0.5]2 = 2(
"#
(x 1/4)# dx = 1/48,
que responde a la parte (d). Para determinar la probabilidad condicional que X>0.5 dado Y=0.25; esto es, P(X>0.5/Y=0.25), debemos utilizar la densidad condicional 125
4 f(x/y=0.25) = 11 0.25 = 3 , 0<x<1 0.25.
As, P(X>0.5/Y=0.25) =(
$%
"#
4 1 dx = . 3 3
Finalmente, para la parte (f) tenemos que P(X>0.5/Y>0.25) = pero,

P(X>0.5, Y>0.25) P(Y>0.25)
P(X>0.5, Y>0.25) =( P(Y>0.25) =(

"
"#
"%
"C
2dxdy = 1/16
"#
2(1 y)dy = 9/16.
"%
Por lo tanto,
1 P(X>0.5/Y>0.25) = 1/16 9/16 = 9 .
Notemos que en la resolucin de la parte (f), hemos utilizado la definicin de probabilidad condicional de eventos, a diferencia del caso (e), donde estamos trabajando con una distribucin condicional y queremos determinar una probabilidad respecto de esta distribucin. Es importante notar que, para el caso de variables continuas, no es posible aplicar la definicin de probabilidad condicional de eventos ya que la probabilidad en un punto es cero. As, P(X>0.5/Y=0.25) no es ms que una notacin en este caso. Ejemplo. Una caja contiene 4 pernos de repuesto de una cierta pieza de vehculo, de los cuales 2 son defectuosos. Se extraen al azar 2 pernos sin reemplazo para revisin. Sea X el nmero de pernos defectuosos encontrados en la primera extraccin e Y el nmero total de pernos defectuosos extrados. Claramente los valores que asume X son 0 y 1, y los valores que asume Y son 0, 1 y 2. La distribucin de probabilidades conjunta de X e Y est resumida en la tabla siguiente que se obtuvo en la forma siguiente: P(X=0,Y=0) =Pr(los 2 pernos extrados son no defectuosos) 126
=P(Dc ,Dc ) =
2 4
1 3
P(X=0,Y=1) =Pr(el primer extrado es no defectuoso y el segundo lo es) = P(Dc ,D)=

2 4
2 3
P(X=0,Y=2)=Pr(F) =0, etc.
XY 0 1
0 2/12 0
1 4/12 4/12
2 0 2/12
De la tabla tenemos que las distribuciones de probabilidades marginales para X e Y son respectivamente:
x pX (x)
0 1/2
1 1/2
y pY (y)
0 1/6
1 2/3
2 1/6
La distribucin condicional del nmero total de pernos defectuosos extrados, sabiendo que en la primera extraccin se obtuvo 1 defectuoso es
y p(y/x=1)
0 0
1 2/3
2 1/3
Por lo tanto, si se encontr un perno defectuoso en la primera extraccin, entonces el nmero total esperado de pernos defectuosos es E(Y/X=1) = 4/3. Tambin, utilizando la distribucin condicional de Y dado X=1 obtenemos, por ejemplo, que la probabilidad que Y sea a lo ms 1 es P(Y 1/X=1) = ! p(y/x=1)
" C!
= p(0/x=1)+p(1/x=1) = 2/3. Notemos que, como 0 = P(X=1, Y=0) P(X=1)P(Y=0) = 127

1 2 1 6 1 12
X e Y no son independientes de acuerdo a la definicin. Veamos entonces cul es la covarianza entre X e Y. Cov(X,Y) = E(XY) E(X)E(Y) = 1/6, pues E(XY)=2/3, E(X)=1/2 y E(Y)=1, utilizando la funcin de probabilidad conjunta y las marginales correspondientes.
Finalmente, calculemos E(3Y 2X)/X=1. Utilizando propiedades del operador esperanza para variables condicionadas tenemos E(3Y 2X)/X=1 = 3E(Y/X=1) 2E(X/X=1) = 3(4/3) (2)(1) = 2.
4.4. Distribucin Normal Bivariante En el captulo anterior hemos estudiado la distribucin de una variable aleatoria X normal univariante con parmetros . y 5 # . Vimos que su funcin de densidad es simtrica y asume su mximo en X=.. La extensin bidimensional de esta variable aleatoria es la distribucin normal bivariante. Definicin. Sea (X,Y) una variable aleatoria bidimensional. Diremos que (X,Y) tiene una distribucin normal bivariante si su funcin de densidad es f(x,y) = 215 5 X ] donde
1 Q = 1 3# [ (x.X )# # 5X (13# )"#
eU# ,
(y.] )# # 5]
23
(x.X )(y.] ) ] 5X 5]
La funcin de densidad de la distribucin normal bivariante est caracterizada 2 2 entonces por cinco parmetros: .X , .] , 5X >0, 5] >0 y 1<3<1, donde .X y 2 2 .] son los valores esperados de X e Y, 5X y 5] son las varianzas de X e Y y 3 es el coeficiente de correlacin entre X e Y. Esta distribucin usualmente se 2 denota (X,Y) NM( .X , .Y , 5 2 X , 5Y , 3). Completando el cuadrado en la funcin cuadrtica Q podemos escribir 128
5X # # Q = [x .X 3 - 5 (y .] )]# /5X (1 3# ) + (y .] )# /5] ]
y utilizando este hecho se puede verificar que (

_
-_
f(x,y)dx dy = 1
-_
para comprobar que efectivamente f(x,y) es una funcin de densidad. Utilizando la misma descomposicin de Q se tiene de inmediato que la marginal de Y est dada por: f] (y) =(
_
# , # "# y.] # /25] f(x,y)dx = (215] ) e
-_
que corresponde a la funcin de densidad de una normal unidimensional con # media .] y varianza 5] . Por otra parte, revirtiendo los roles de x e y al completar el cuadrado en Q, se obtiene la densidad marginal de X como
# "# x.X /25X fX (x) =( f(x,y)dy = (215x ) e _ _
# #
# luego la densidad marginal de X es normal con media .X y varianza 5X .
Podemos concluir entonces que, si (X,Y) es normal bivariante, las marginales de X e Y son normales. Si 3=0; esto es, si X e Y son no correlacionadas, entonces f(x,y)=fX (x) f] (y) a(x,y) # , por lo tanto X e Y son independientes. Es importante notar que este resultado es vlido slo para el caso de variables normales y no es cierto en general. Es posible, como lo vimos en la seccin anterior, que dos variables cualesquiera X e Y no sean independientes, an si 3 = 0. Veamos ahora las distribuciones condicionales cuando (X,Y) es una variable aleatoria normal bivariante. La funcin densidad condicional de Y dado X = x es por definicin
f(x,y)
f] X (y/x) = f (x) X
# # # # ] =[215] (1 3# )]"# exp [y .] 3 5 5X (x .X )] /25] (1 3)
129
que corresponde a la funcin de densidad de una distribucin normal con media # # ] . ] +3 5 5X (x .X ) y varianza 5] (1 3 ). Si consideramos la superficie Z = f(x,y) donde f es la densidad de la normal bivariante, entonces utilizando la descomposicin ya realizada anteriormente en Q, se puede ver que si hacemos Z = k, una constante, entonces el plano Z = k corta a la superficie en una elipse. En particular si 3 = 0 y 5X = 5] , la elipse anterior se transforma en un crculo. La distribucin normal bidimensional tiene muchas aplicaciones, tanto en inferencia estadstica como en anlisis de datos multivariados. Los resultados obtenidos anteriormente lo resumiremos en el siguiente teorema. Teorema 4.4. Sea (X,Y) una variable aleatoria bidimensional con distribucin 2 NM( .X , .Y , 5 2 X , 5Y , 3). Entonces
2 a) Las distribuciones marginales de X e Y son N( .X , 5 2 X ) y N( .Y , 5 Y ) respectivamente b) 3 = 0 s y slo si X e Y son variables independientes. c) La densidad condicional de Y dado X=x es
N( .] +3
5] 5X
# (x .X ), 5] (1 3# )),
y la densidad condicional de X dado Y=y es N( .X +3

5X 5Y # (y .Y ), 5X (1 3# ) ) .
Ejemplo. Suponga que la altura y el peso de ciertos animales, en pulgadas y libras respectivamente, corresponde a un vector aleatorio (X1 ,X2 ) con distribucin NM(18,15,9,4,0.75). Determinemos a) El peso promedio de uno de estos animales que es 17 pulgadas de alto y b) La probabilidad que un animal tenga una estatura menor de 17 pulgadas dado que pesa 15 libras. La parte a) corresponde a determinar E(X2 /X1 =17) = .2 + 5 2 (x1 .1 ) 1 =15+ = 29 2 130
0.75 (2) (17 18) 3 35
2 Para b) tenemos que X1 /X2 =15 N( .1 + 5 1 (x2 .2 , 51 (1 32 ). 2
35
Esto es, X1 /X2 =15 N(18, 63/16). Por lo tanto

18 P(X1 17/X2 =15) = F( 1763 ) = F( 0.504) 16
= 0.3085. 4.5. Transformaciones de Variables En captulos anteriores hemos estudiado el problema de determinar la funcin de densidad o de probabilidad de una variable aleatoria unidimensional. El mtodo para encontrar la funcin de distribucin y/o de densidad de una funcin de una variable aleatoria podemos extenderlo a una funcin de ms de una variable; en particular, para el caso de dos variables que analizaremos en esta seccin. Consideremos inicialmente una variable aleatoria bidimensional (X" ,X# ) con densidad fX1 X2 (x" ,x# ) y sea (Y" ,Y# ) =(G" (X" , X# ), G# (X" , X# )) una transformacin continua y biunvoca. Supongamos que G" y G# admiten derivadas parciales continuas. Si consideramos una regin A del plano x" x# tal que el Jacobiano de la transformacin es distinto de cero; esto es, J=
` (Y" ,Y# ) ` (X" ,X# ) X1 =` ` Y2 ` X1 ` Y1 ` Y1 ` X2 ` Y2 ` X2
entonces, en todos los puntos de A existe la transformacin inversa de (Y" ,Y# ), a saber (X" ,X# ) = (H" (Y" , Y# ), H# (Y" ,Y# )) la cual ser continua y uniforme en una regin B del plano y" y# (es una representacin de A mediante la transformacin considerada). De acuerdo al teorema del cambio de variable tenemos ( ( fX1 X2 (x" ,x# )dx" dx# =( ( fX1 X2 (H" (y" ,y# ), H# (y" ,y# ))| J" |dy" dy# A B 131
donde J" = ` (Y" ,Y# ) " # Luego, la funcin de densidad conjunta de Y" e Y# , gY1 Y2 (y" ,y# ), es gY1 Y2 (y" ,y# ) = fX1 X2 (H" (y" ,y# ), H# (y" ,y# ))|J" |; para (y" ,y# ) B, y es cero en otro caso . Esta se obtiene considerando que el resultado de la aplicacin del teorema del cambio de variable es vlida cualquiera sea la regin A del plano x" x# , en particular si A es el recorrido de (X" ,X# ). Notemos que los eventos {(x" ,x# ) A)} y {(y" ,y# ) B} son sucesos equivalentes, por lo que P({(y" ,y# ) B}) = P({(x" ,x# ) A}) =( ( f(x" ,x# )dx" dx# . A A partir de gY1 Y2 (y" ,y# ) podemos determinar las densidades marginales de Y" e Y# , gY1 (y" ) y gY2 (y# ), respectivamente. Ejemplo. Consideremos las variables aleatorias X" y X# con funcin de densidad conjunta f(x" ,x# ) = ex" x# , x" >0, x# >0. Determinemos la funcin de densidad de Y=X" /(X" +X# ). Para esto definamos la siguiente transformacin y = x" /(x" +x# ), z = x" que es una transformacin uno a uno pues J = ` (x ,x ) = x" /(x" +x# )# 0. " # Entonces la transformacin inversa est dada por x" = z, x# = (z yz)/y y el valor absoluto del jacobiano de la inversa es |J" | = |z/y# |. Notemos que el recorrido de (Y,Z) es el conjunto {(y,z): z>0, 0<y<1}. 132
` (y,z) ` (X ,X )
As, la funcin de densidad conjunta de Y y Z es g] ,^ (y,z) = fX" X2 (z, (z yz)/y) |z/y# | = (z/y# )ezy , z>0, 0<y<1. De aqu determinamos la marginal de Y, que es la densidad que nos interesa, como g] (y) =(
_
g] ^ (y,z)dz =(
_ !
(z/y# )e-zy dz.
Haciendo el cambio de variable u = z/y se tiene que g] (y) =(

_
ueu du = >(2) = 1, 0<y<1
es decir, Y tiene distribucin uniforme en (0,1).
Ejemplo. Sean X1 y X2 variables aleatorias independientes, cada una con distribucin uniforme sobre el intervalo (0,1). Determinemos la funcin de densidad de Y=X" +X# . Como X" y X# son variables aleatorias independientes, entonces la densidad conjunta de X" y X# es el producto de las marginales correspondientes; esto es, f(x" ,x# ) = fX" (x" ) fX# (x# ) = 1 ; si 0<x" <1, 0<x# <1. Consideremos la transformacin uno a uno y = x" + x# z = x# entonces la transformacin inversa es x" = y z x# = z, y su jacobiano es J" = 1 .
Notando que el recorrido de (Y,Z) es {(y,z): 0<z<1, z<y<z+1}, tenemos que g] ^ (y,z) = fX" X# (y z, z) |1|, 0<z<1, z<y< z+1. 133
o bien,
1 g] ^ (y,z) = 0
si z (0,1), z<y<z+1 en otros casos
Para obtener la densidad marginal de Y integramos separadamente en: y 0; 0<y<1; 1<y<2 e y 2. Haciendo esto tenemos 0 C ( dz = y ! gY (y) = " dz = 2 y ( C" 0 si y 0 si 0 < y < 1 si 1< y < 2 si y 2
Esta funcin es la llamada densidad tringular que, como hemos visto, se puede obtener como la suma de dos variables con distribucin uniforme. Ejemplo. Supongamos que X" , X# y X$ son variables aleatorias independientes, cada una con distribucin exponencial de parmetro -=1. Calculemos la funcin de densidad de Y=(X# +X# +X$ )/3. Como las variables son independientes, la densidad conjunta est dada por f(x" ,x# ,x$ ) = ex" x# x$ ) , x" >0, x# >0, x$ >0. Debemos utilizar dos funciones adicionales para definir una transformacin adecuada. Consideremos entonces la siguiente transformacin y" = (x" +x# +x$ )/3 y# = x# y$ = x3 que es uno a uno ya que J=1/3 0. Entonces la transformacin inversa es x" = 3y" y# y$ x# = y# x$ = y$ y su jacobiano es J" = 3. La densidad conjunta de Y" , Y# e Y$ es f(y" ,y# ,y$ ) = 3e-y" ; 3y" y# y$ >0, y# >0, y$ >0 134
y la densidad marginal de Y" =(X# +X# +X$ )/3 es f]" (y" ) =(

$y "
$y " y # !
$e-$y" dy$ dy#
# $y = 27 2 y" e" , y" >0
la que podemos escribir como f]" (y" ) =

$($y" )# e$y" #
, si y" > 0
que corresponde a la densidad de una variable aleatoria Gamma (3, 3). Consideremos ahora transformaciones en el caso discreto; esto es, aquel donde X" y X# son variables aleatorias discretas con funcin de probabilidad conjunta pX" X# (x" ,x# ). Sean Y" =G" (X" ,X# ) e Y# =G# (X" ,X# ) que definen una transformacin uno a uno sobre el recorrido de (X" ,X# ), RX" X# , cuya transformacin inversa es X" =H" (Y" ,Y# ), X# =H# (Y" ,Y# ). Suponiendo que esta transformacin aplica el espacio de valores RX" X# en el espacio de valores R]" ]# , entonces la funcin de probabilidades conjunta entre las variables Y" e Y# es p]" ,]# (y" ,y# ) = P(Y" =y" , Y# =y# ) = P(G" (X" ,X# ) = y" , G# (X" ,X# ) = y# ) = P(X" = H" (y" ,y# ), X# = H# (y" ,y# )) = pX" X# (H" (y" ,y# ), H# (y" ,y# )), (y" ,y# ) R]" ]# . A partir de la funcin de probabilidad conjunta podemos obtener las marginales; por ejemplo, la marginal de Y" est dada por p]" (y" ) = ! p]" ,]# (y" y# )
C#
= ! pX" X# (H" (y" ,y# ), H# (y" ,y# )).

C#
Ejemplo. Sean X" y X# son variables aleatorias independientes, cada una con distribucin de Poisson con parmetro comn .. Queremos determinar la 135
funcin de probabilidades de Y" =X" +X# . Para esto definamos la siguiente transformacin uno a uno: Y" = X" + X# Y# = X# cuya transformacin inversa es X" = Y" - Y# X# = Y# . Como X" y X# son independientes, entonces la funcin de probabilidad conjunta es p(x" ,x# ) = pX" (x" ) pX# (x# ), x" =0,1,...; x# =0,1,... = x! "
e-. .B" e-. .B# x# !
, x" =0,1,...; x# =0,1,...
As, la funcin de probabilidad conjunta de Y" e Y# es p]" ]# (y" ,y# ) = pX" X# (y" y# , y# ) = (y -y )!y ! " # # donde R]" ]# = {(y" ,y# ) Z x Z : 0 y# y" }. Enseguida, para determinar la funcin de probabilidad de Y" =X" +X# , calculamos la marginal correspondiente sumando la conjunta p]" ]# (y" ,y# ) sobre los valores de Y# . p]" (y" ) = ! (y -y )!y ! " # # C
C"
e-#. .y"
a(y" , y# ) R]" ]#
e-#. .C"
#!
e-#. .C" y" ! e-#. .C" y" !
C#!
!
C"
y1 ! (y" -y# )!y# !
= =
2C" , y" = 0,1,....
e-#. (2.)C" y" !
136
Por lo tanto, Y" =X" +X# es una variable aleatoria con distribucin Poisson de parmetro 2..
4.6. Variables Aleatorias Multidimensionales En el tratamiento de variables bidimensionales, es importante notar que ellas se definen sobre un mismo espacio muestral. Estos conceptos vistos para el caso bivariante, podemos generalizarlos al caso de n variables aleatorias definidas sobre un mismo espacio muestral. De esta manera, dado un experimento con espacio muestral asociado H, la n-upla X=(X" ,...Xn ) es una variable aleatoria ndimensional o vector aleatorio si cada una de las Xi , i=1,n es una variable aleatoria; esto es, cada una de ellas asocia un nmero real a cada elemento de H. Definicin. Diremos que X=(X" ,...,Xn ) es un vector aleatorio continuo si cada una de sus componentes Xi , i = 1,n es una variable aleatoria continua. Anlogamente, diremos que X es discreto si cada Xi , i = 1,n, es una variable aleatoria discreta. En cada caso y segn corresponda, podemos asociar a X una funcin de probabilidades o una funcin de densidad de probabilidades, respectivamente. Si X es discreta, la funcin de probabilidad asociada es _ = P(X" =x" ,...,Xn =xn ), a(x" ,...xn ) n . pX _ (x) La funcin de probabilidades para la variable n-dimensional debe satisfacer las reglas anlogas al caso unidimensional; esto es, ii) ! pX _ (x) = 1, _ " ,...xn ) n i) pX _ (x) 0, a x=(x
donde la suma se extiende sobre todo punto (x" ,...xn ) n . De hecho esta suma corresponde a n sumas, cada una sobre el recorrido de la correspondiente variable. Luego, cualquier funcin de una n-upla de variables reales que satisface (i) y (ii) es una funcin de probabilidad para alguna variable aleatoria ndimensional. Dada pX _ (x), podemos calcular las marginales pXi (xi ); i=1,n. Estas funciones se determinan sumando la funcin de probabilidad conjunta pX _ (x) sobre el recorrido de todas las variables restantes; es decir, 137
pXi (xi ) = !V" pX _ (x), donde V" = {xj : j i; j=1,n}. Tambin podemos determinar la funcion de probabilidades conjunta de dos o ms componentes, a partir de pX _ (x). Estas se obtienen en forma anloga a las marginales de Xi ; esto es, sumando sobre las variables restantes. Por ejemplo, la distribucin conjunta para cualquier par de variables Xi y X4 es de la forma pXi X4 (xi ,x4 ) = !V pX _ (x), con V = {xk : k j i; k=1,n}. Si el vector aleatorio X es continuo, entonces es inmediato que pX _ (x) = P(X" =x" ,...,Xn =xn ) = 0, a x=(x" ,..., xn ) y los recorridos de las variables aleatorias Xi ; i=1,n son todos conjuntos no numerables. La funcin de densidad de probabilidad asociada a X la denotaremos por fX _ (x) y debe satisfacer condiciones anlogas a (i) y (ii), en el caso continuo; estas son fX _ (x) 0 a x = (x" ,..., xn ) (
_
-_
...(
_ -_
f X (x)dx" ...dxn = 1.
n La funcin fX _ (x) es no nula en alguna regin de y es tal que
P(a" <X" <b" ,..., an <Xn <bn )=( aai , bi ; i=1,n .
,n
+n
...(
,"
fX (x)dx" ...dxn ,
+"
Definicin. Diremos que la variables aleatorias Xi , i=1,n, son idnticamente distribuidas si cada una de ellas tiene la misma distribucin de probabilidades. Definicin. Diremos que las variables aleatorias Xi , i=1,n son independientes si y slo si. n fX (x) = C fXi (xi ) a x n , cuando X es conjuntamente continua i" y n pX (x) = C pXi (xi ) a x n , cuando X es conjuntamente discreta. i" 138
A continuacin daremos dos resultados, cuyas demostraciones omitiremos, que son una generalizacin del Teorema 4.1 que utilizaremos ms adelante. Teorema 4.5. Si X" ,...,Xn son variables aleatorias independientes y si Y" =G" (X" ),...,Yn =Gn (Xn ), son funciones de X" ,...,Xn , respectivamente, entonces Y" ,...,Yn son variable aleatoria independientes. Teorema 4.6. Si X" ,X# ,...,Xn son variable aleatoria independientes y si Y" =G" (X" ,...,Xr ), Y# =G# (X<" ,....,Xp ),..., Ym =Gm (Xk" ,...,Xn ), donde Yj , j=1,...,m son funciones de subconjuntos mutualente excluyentes de X" , X# ,...,Xn . Entonces Y" ,Y# ,...,Ym son variables aleatorias independientes.
4.7. Distribucion Multinomial La distribucin multinomial es una generalizacin de la distribucin Binomial y su funcin de probabilidad se obtiene de la misma forma que aquella. Recordemos que, para definir una variable aleatoria Binomial, partimos del concepto de ensayo Bernoulli. Para la distribucin Multinomial extendemos en forma natural esta idea para definir un ensayo multinomial que tiene k diferentes resultados posibles. Supongamos entonces que al realizar un experimento se pueden presentar los eventos Ai ; i=1,k, que forman una particin de H, es decir, P(UAi ) = !i P(Ai )=1 y definamos P(Ai )=pi , i=1,n. Si realizamos n de estos experimentos independientes y definimos Xi como el nmero de veces que ocurre Ai en los n ensayos o experimentos, entonces X=(X" ,...,X5 ) se llama variable aleatoria Multinomial con parmetros n y pi , i=1,k. Utilizaremos la notacin X M(n,p" ,...,p5 ) para indicar que X tiene distribucin Multinomial. Evidentemente, en este caso el espacio muestral asociado es H=H" x...xHn , donde cada Hi es el espacio muestral asociado a cada ensayo individual. La funcin de probabilidades la obtenemos entonces contando el nmero de n-uplas en H que contienen exactamente x" veces B5 " A" ,..., x5 veces A5 , y multiplicando por pB " ...p5 . El nmero total de n-uplas con x" veces A" ,..., x5 veces A5 es n !n n! !...n ! . Entonces
" # 5
B# B5 " pX (x) = n !n n! pB " .p# ...p5 ; " # !...n5 !
donde xi =0,n , i =1,k y !xi =n.

5 i"
Notemos que pX _ (x) 0, ax por definicin y que 139
n! n" !n# !...n5 !
B# B5 n " pB " .p# ...p5 = (p" +... + p5 ) = 1.
De esta manera tenemos que pX _ (x) satisface las condiciones que le hemos impuesto a una funcin cualquiera para que sea una funcin de probabilidades. Adems, la funcin de probabilidad marginal para cualquier Xi ; i=1,k es binomial con parmetros n y pi . En efecto, si nos referimos al experimento original, podemos simplemente observar sobre cada uno de los n ensayos independientes si el resultado i ocurre o no; as, cada ensayo es Bernoulli con xito definido como la ocurrencia del resultado i y fracaso como la ocurrencia de cualquier otro resultado. De esta manera Xi es el nmero de xitos en n ensayos Bernoulli independientes, con probabilidad de xito pi en cada ensayo; esto es, Xi es Binomial con parmetros n y pi . De aqu, E(Xi ) = npi , Var(Xi ) = npi (1 pi ), i=1,k. Enseguida veremos que la distribucin condicional de X4 dado Xi , j i, es binomial con parmetros n xi y p4 /(1 pi ). En efecto, notemos que en cada ensayo puede ocurrir slo j o slo i y estamos interesados en el nmero de ocurrencias de j cuando sabemos un valor particular del nmero de veces que ha ocurrido i. As, si designamos por B el suceso: "el resultado j ocurre" y por A el suceso: "el resultado i no ocurre, i j", entonces P(B/A)=P(B A)/P(A) =P(B)/P(A) =p4 /(1 pi ), puesto que A B = B. Esto nos proporciona la probabilidad de xito (que j ocurra dado que i no ha ocurrido) en un ensayo. Por lo tanto, los n xi ensayos en los cuales el resultado i no ocurre, son Bernoulli independientes con probabilidad de xito (que j ocurra) p4 /(1 pi ). Entonces la distribucin condicional de X4 dado Xi , j i, es binomial con parmetros n xi , p4 /(1 pi ) y la esperanza condicional es E[X4 /Xi =xi ] = (n xi )p4 /(1 pi ) Dado que en la condicional de X4 dado Xi =xi , el valor xi es constante, entonces debemos entender que calculamos E[Xi X4 /Xi =xi ] como E[xi X4 /Xi =xi ] = xi E[X4 /Xi =xi ] = xi (n xi )p4 /(1 pi ), de donde 140
E[Xi X4 /Xi ] = Xi (n Xi )p4 /(1 pi ). Utilizando enseguida el resultado de doble esperanza tenemos E[Xi X4 ] = E[E[X4 Xi ]/Xi ] = E[Xi E[X4 /Xi ] = E[Xi (n Xi )p4 /(1pi )] = 14p {E(nXi ) E(Xi# )} i = p4 (n# pi npi ) = npi p4 (n 1). Luego la covarianza entre X4 y Xi es Cov(Xi ,X4 ) = E[Xi X4 ] E[Xi ]E[X4 ] = npi p4 (n 1) npi np4 . = npi p4 , i=1,k , j=1,k y la correlacin es 3 = [pi p4 /(1 pi )(1 p4 )]"# , i=1,k, j=1,k. Ejemplo. En una Empresa siderrgica, un laminador de planchones puede presentar tres tipos de fallas: Mcanicas (1), Elctricas (2) y Estructurales (3). Debido a un programa de mantencin preventiva, se sabe que en una inspeccin la probabilidad de observar una falla del tipo 1 es 0.7, una de tipo 2 es 0.2 y una tipo 3 es 0.1. Si se inspeccionan 5 laminadores y definimos Xi como el nmero de fallas del tipo i, i=1,2,3, que se observan, entonces X=(X" ,X# ,X$ ) es una variable aleatoria multinomial con parmetros n=5, p" =0.7, p# =0.2 y p$ =0.1; es decir,
5! pX (x) = x !x (0.7)x" (0.2)x# (0.1)x$ . " # !x$ ! p
La probabilidad que todas las fallas sean del tipo 1 es pX (5,0,0) = (0.7)& = 0.16807 La probabilidad que tres fallas sean del tipo 1 y dos del tipo 3 es 141
5! pX (3,0,2) = 2!3! (0.7)$ (0.1)# = 0.0343
En este caso, el nmero esperado de fallas de tipo mecnico es 3.5. 4.8. Distribucin ;# , t y F En esta seccin veremos algunas distribuciones que sern de vital importancia en inferencia estadstica y, aunque a partir de ellas se pueden extraer importantes conclusiones relacionadas con muestras aleatorias, desde el punto de vista probabilstico funcionan como cualquier otra distribucin, las tres se encuentran tabuladas y su manejo es relativamente simple. Ya hemos mencionado en el captulo anterior que la distribucin ;# es un caso especial de la distribucin Gamma. Si consideramos la variable aleatoria Z con distribucin normal estndar, entonces la funcin de distribucin de U = Z# , para todo t 0 est dada por: FU (t) = P(Z# t) = P(-t Z t) = 2F^ (t)-1 =2F(t) - 1
y su funcin de densidad es
d fU (t) = dt FU (t)
= t-"# f^ (t) = (21t)-"# e-># , t>0
que corresponde a una funcin de densidad de una variable aleatoria ;# con un grado de libertad. Notemos que la variable U es el cuadrado de una variable normal estndar. La funcin generadora de momentos de U, de acuerdo a lo que vimos en captulo anterior, est dada por MU (t)=(1 2t)"# y de aqu se tiene que E(U) = 1 y Var(U) = 2. El siguiente teorema es una generalizacin de este resultado Teorema 4.7. Si Z" ,...,Zn son variables aleatorias normales estndar, # independientes, entonces U = !Z# i tiene distribucin ;n . 142
Demostracin.
independientes, cada una con distribucin normal estndar y sea U=!Z2 i.

n i"
Supongamos
que
Z" ,...,Zn
son
variables
aleatorias
# Entonces, cada Z# i tiene distribucin ; con un grado de libertad y como son independientes por el Teorema 4.2, la funcin generadora de momentos est dada por t! Z 2 i
MU (t) = E[e
] =EetZ1 EetZ2 .......EetZn

# # #
= (1-2t)-n# , que corresponde a la funcin generadora de momentos de una ;# con n grados de libertad. La funcin de densidad de U es
1 fU (u) = 2n# > un#" e-u# , u > 0. (n/2)
Utilizando la funcin generadora de momentos se tiene de inmediato que la media y la variaza de U es n y 2n respectivamente.
Ejemplo. Supongamos que X es una variable aleatoria con funcin de densidad fX (x) =
1 4
xe-x# , x>0,
entonces la funcin de densidad de X corresponde a la de una Chi-cuadrado con 4 grados de libertad. Para ver esto, notemos que la densidad de X la podemos reescribir como: fX (x) =
1 4
e xe-x# = x , >(4/2)2%#
%#" -x#
que es la densidad de una ;# % . Entonces su media y su varianza estan dadas por: E(X)=4 y Var(X)=8, respectivamente. Otras propiedades importantes de una distribucin Chi-cuadrado estn dadas en los teoremas siguientes, cuyas demostraciones dejamos como ejercicio. Teorema 4.8. Si X" ,...,Xn son variables aleatorias independientes, cada una con distribucin ;# con /" ,...,/n grados de libertad, respectivamente, entonces Y = !Xi tiene distribucin Chi-cuadrado con !/i grados de libertad. 143
Este teorema nos indica que la distribucin Chi-cuadrado es reproductiva, en el sentido que la suma de variables independientes, Chi-cuadrado, sigue teniendo distribucin Chi-cuadrado. Teorema 4.9. Sean X" y X# variables aleatorias independientes. # # Si X" ;# /" y X" + X# ;/ , / > /" entonces, X# se distribuye ;/ /" . Definicin. (Distribucin t-Student) Sea Z una variable aleatoria normal estndar, y X una variable aleatoria que se distribuye Chi-cuadrado con / grados de libertad. Si Z y X son independientes, entonces la variable aleatoria T definida por T=
Z X//
tiene distribucin t-Student con / grados de libertad. La notacin usual es Y t/ . Para construir la funcin de densidad de una variable aleatoria t-Student, se puede aplicar directamente el mtodo de transformacin de variables. Haciendo esto, se tiene que la densidad de una t-Student con / grados de libertad esta dada por fX (t) = /1 >(/ /2) [1+(t# //1 , -_<t<_ )]/ "#
>(/ +1)/2)
La distribucin t-Student, la cual se encuentra tabulada para distintos grados de libertad, es simtrica respecto del origen y, en general, su aplicacin corresponde a casos similares a aquellos en que se puede aplicar la distribucin normal, pero restringidos a los casos en que se desconoce el valor de 5 # . Definicin. (Distribucin F de Snedecor). Sean X" y X# , variables aleatorias Chi-cuadrado con /" y /# grados de libertad, respectivamente. Si X" y X# son independientes, la variable aleatoria F=
X" //" X# //#
X" /# X# /"
se dice que tiene distribucin de probabilidades F con /" grados de libertad en el numerador y /# grados de libertad en el denominador. La funcin de densidad de una variable aleatoria F con /" y /# grados de libertad esta dada por:
144
fJ (t) =
/" +/# /" /1 2 2 )( /# ) /" /" /# >( 2 )>( 2 )(1+ / #
>(
t( 2 1) t)/" /# #
/1
,t>0
Esto se denota usualmente como F F(/" ,/# ) y se obtiene directamente aplicando el teorema del cambio de variable a la transformacin uno a uno correspondiente. La funcin de densidad de una F(/" ,/# ) tiene entonces dos parmetros /" , /# que corresponden a los grados de libertad de las dos Chicuadrado que intervienen en la definicin. La distribucin acumulada de la variable F se encuentra tabulada para distintos valores de /" y /# . Por ejemplo, para calcular el percentil 95, f!*& (5,8), vamos directamente a la tabla para ! = 0.95, con 5 grados de libertad en el numerador y 8 en el denominador, entonces observamos que f!*& (5,8) = 3.69. Anlogamente, f!* (10,10) = 2.32 y f!*& (8,5) = 4.82. Adems, se puede probar que el valor esperado de F est dado por: E(F) = /# /(/# -2), y
# # -2 Var(F) = 2/# [1+ // ]/(/# -2(/# -4) "
Notemos que si /" /# entonces G=1/F, el recproco de una variable aleatoria con distribucin F(/" ,/# ), tiene distribucin F(/# ,/" ), pues G = 1/F =
X# //# X" //"
X# /" x" /#
F(/# , /" )
por definicin de la variable aleatoria F. Esta propiedad es muy til para efectos del uso de tablas. En efecto, sea f! (/" ,/# ) el cuantil ! de F(/" , /# ); esto es, P(F(/" ,/# ) f! (/" ,/# )) = !. Dado que los eventos {F(/" ,/# ) f! (/" ,/# )} y { F(/1,/ ) f (/1 ,/ ) } son equivalentes, " # ! " # entonces ! = P(F(/" ,/# ) f! (/" ,/# ) = P( F(/1,/ ) f (/1 ,/ ) ) " # ! " # = 1 P( F(/1,/ ) f (/1 ,/ ) ) " # ! " # Pero G= 1/F(/" ,/# ) F(/# ,/" ). As, ! = 1 - P(G(/# ,/" ) f (/1 ,/ ) ). ! " # De donde 145
P(G(/# ,/" ) f (/1 ,/ ) ) = 1 - ! ! " # y por tanto

1 f! (/" ,/# )
= f"! (/# ,/" ).
Esta relacin podemos utilizarla para calcular algunos cuantiles de la distribucin F que usualmente no aparecen en las tablas. Por ejemplo, de las tablas obtenemos en forma directa que f!* (10,10) = 2.32; f!*& (5,8) = 3.69; f!*& (8,5) =4.82. As,
1 f!!& (8,5) = f 1 = 3.69 = 0.271 !*& (5,8) 1 f!!& (5,8) = f 1 = 4.82 = 0.207 !*& (8,5) 1 1 f!" (10,10) = f (10,10) = 2.32 = 0.431. !*
4.9. Suma de Variables Aleatorias Dada la importancia que adquiere este tema en las aplicaciones estadsticas, veremos en esta seccin algunos resultados aplicables a la suma de variables aleatorias. Definicin. Si X" ,...,Xn son variables aleatorias independientes e idnticamente distribuidas, diremos que ellas conforman una muestra aleatoria. El siguiente teorema ser de mucha utilidad para determinar la distribucin de la suma de variables aleatorias independientes e idnticamente distribuidas. Teorema 4.10. Sean X" ,...Xn variables aleatorias independientes e idnticamente distribuidas, con funciones generadoras de momentos MX" (t),..., MXn (t), respectivamente. Si definimos Y = !Xi , entonces la funcin
n i"
generadora de momentos de Y es M] (t) = [MX (t)]n . Demostracin. Utilizando la definicin de funcin generadora de momentos tenemos: 146
M] (t) = E[et] ] = E[etD Xi ] n n = E[ C e>X i] = C E[e>X i] , por independencia de las Xi i" i" n = C MXi (t) = MX (t)]n , i" puesto que si son idnticamente distribuidas, todas tienen la misma distribucin de probabilidades y por lo tanto la misma funcin generadora de momentos. Ejemplo. Supongamos que X" ,..,.Xn son variables aleatorias Bernoulli independientes, idnticamente distribuidas, cada una con parmetro p. Entonces MXi (t) = q + pe> , i = 1,n. Si definimos Y = ! Xi , entonces de acuerdo
n i"
al ltimo teorema tenemos: M] (t) = [MX (t)]n = (q + pe> )n que es la funcin generadora de momentos de una variable aleatoria Binomial con parmetros n y p. As, Y se distribuye como una variable aleatoria Binomial con parmetros n y p. Notemos que con este resultado hemos definido la variable aleatoria Binomial como la suma de variables Bernoulli independientes. Ejemplo. Supongamos que X" ,...,Xn son variables aleatorias normales # # independientes, con medias ." ,....n y varianzas 5" ,...5n respectivamente. Entonces MXi (t) = exp(t.i + t# 5i# /2). Si definimos Y = ! ai Xi , con ai constantes arbitrarias, entonces la funcin
n i i
generadora de momentos de Y esta dada por: n M] (t) = C MXi (tai ) i" n # = C exp(tai .i + t# a# i 5i /2) i"
# = exp( tDai .i + t# Da# i 5i /2)
147
que nuevamente corresponde a la funcin generadora de una variable normal # # con media .] = Dai .i y varianza 5] = Da# i 5i . As, cualquier funcin lineal de variables aleatorias normales independientes es a su vez normal. Teorema 4.11. Sean X" ,...Xn variables aleatorias con medias ." ,...,.n y
# # varianzas 5" ,...,5n , respectivamente. Si definimos Y = !ai Xi , con ai constantes n i"
arbitrarias, entonces . ] = ! ai . i ,
n i" # 5] = !ai# 5i# + 2 DD ai a4 Cov(Xi ,X4 ). i4 i" n
Demostracin. Para la primera parte aplicando directamente el operador esperanza tenemos .] = E[Y] = E[!ai Xi ] = !ai E[Xi ] = !ai .i .
n n n i" i" i"
Anlogamente,
# 5] = E[(!ai Xi ! ai .i )# ] n n i" n i"
= E[(!ai (Xi .i ))# ]

i" n # = E[! a# i (Xi .i ) + 2 DD ai a4 (Xi .i )(X4 .4 )] i4 i" # = ! a# i E[(Xi .i ) ] + 2 DD ai a4 E[(Xi .i )(X4 .4 )] i4 i" n # = ! a# i 5i + 2 DD ai a4 Cov(Xi , X4 ). i4 i" n
El caso particular de dos variables es de bastante utilidad en las aplicaciones. Si X" y X# son variables aleatorias y si definimos Y=X" +X# , entonces aplicando en forma directa el Teorema 4.11 tenemos que . ] = . " +. # y 148
# # # 5] = Var(X" +X# ) = 5" + 5# + 2Cov(X" ,X# ).
Anlogamente, si consideremos Z = X" X# , entonces la media de Z esta dada por .^ = ." . # y su varianza es
# # # 5^ = 5" + 5# 2Cov(X" ,X# ).
De esta forma se tiene el siguiente resultado para dos variables aleatorias: Var(X" +X# ) = Var(X" ) + Var(X# ) + 2Cov(X" ,X# ) Var(X" X# ) = Var(X" ) + Var(X# ) 2Cov(X" ,X# ).
Teorema 4.12. Sean X" ,...,Xn variables aleatorias no correlacionadas. Si

# Y= !ai Xi , entonces .] = !ai .i y 5] = !ai# 5i# . n n n i" i" i"
Teorema 4.13. Sean X" ,...,Xn variable aleatorias independientes idnticamente distribuidas, cada una con media . y varianza 5 # . Si
# Y= !Xi , entonces .] = n. y 5] = n5 # . n i"
Notemos que el Teorema 4.13 sigue siendo vlido si las variables son slo no correlacionadas. Sin embargo, lo planteamos as para resaltar un resultado sobre muestras aleatorias que luego ser de mucha utilidad en inferencia estadstica. En realidad el Teorema 4.13 es un caso particular del Teorema 4.12 cuando tomamos ai = 1, ai = 1,n. Otro caso particular de mucho inters es aquel donde ai = 1/n, ai = 1,n. Esta nueva variable se denota usualmente por X =
i"
!Xi /n y se llama media muestral o valor promedio de X" ,..., Xn .

n
Muchos mtodos estadsticos utilizan dos o ms combinaciones lineales de un mismo conjunto de variables aleatorias y es importante determinar la covarianza entre ellas. Para ver esto, consideremos n variables aleatorias # # independientes X" ,...Xn con medias ." ,...,.n y varianzas 5" ,..., 5n , respectivamente, y sean a" ,...,an y b" ,...bn constantes arbitrarias. Consideremos las funciones lineales. 149
U = ! ai Xi , V = ! bi Xi
n n i" i"
Utilizando el Teorema 4.11, tenemos de inmediato

# # # # ! b i . i , 5V .U = !ai .i , 5U = ! a# = ! b# i 5i , .V = i 5i n n n n i" i" i" i"
Ahora, Cov[U,V] = E[(U .U )(V .V )] = E[(Dai Xi Dai .i )(Dbi Xi Dbi .i )] = E[(Dai (Xi .i )(Dbi (Xi .i ))] = Dai bi E[(Xi .i )# ] + 2 DD ai b4 E{Xi .i )(X4 .4 )] i4 # = Dai bi 5i , debido a la independencia entre las Xi , i = 1,n. As, si X" ,...,Xn son variables aleatorias independientes, y si U = !ai Xi y V =
n i"
!bi Xi , entonces la covarianza entre U y V esta dada por:

n
i"
Cov[U,V] = Dai bi 5i# . Ejemplo. Sean X" ,...Xn variables aleatorias no correlacionadas, cada una con n ! Xi y D" = X" media . y varianza 5 # . Definamos X = 1 X. n
i"
Veamos que X y D" son no correlacionadas. En efecto, X y D" las podemos escribir como
n ! X = ai Xi , con ai = 1/n, a i = 1,n i" n
1 1 D" = !bi Xi , donde b" = n n , bi = n a i = 2,n "

i
Entonces Cov[X , D1 ] = Dai bi 5i# 150
n 1 1 1 1 1 = 5# ( 1 n n + ( n )( n ) + ... + ( n )( n ))
= 5 # (( n 1)/n# (n 1)/n# )) = 0. De esta manera, X y D1 son no correlacionadas. Evidentemente, mediante un procedimiento similar se puede demostrar que X y D# ,..., Dn son no correlacionadas, este resultado es muy til en inferencia estadstica. Dado que en inferencia estadstica se trabaja generalmente con muestras aleatorias; esto es, variables aleatorias independientes e idnticamente distribuidas, es importante notar que el resultado de este ejemplo es evidentemente vlido cuando las variables aleatorias involucradas son independientes.
4.10. Mximos y Mnimos Sean X" ,...,Xn , n variables aleatorias independientes e idnticamente distribuidas con funcin de distribucin FX (x). Si ordenamos las variables aleatorias en forma ascendente de acuerdo a su magnitud, podemos definir dos funciones de inters primordial en estadstica. Ellas son el mximo y el mnimo, denotadas usualmente por Xn y X1 , respectivamente.As, Xn = MximoX" ,...,Xn X1 = MnimoX" ,...,Xn . La distribucin de estas dos funciones se obtiene fcilmente a partir de la distribucin comn de las variables aleatorias involucradas. En efecto, determinemos primero la distribucin de la variable aleatoria Xn . Para ello, denotemos por G(t) su funcin de distribucin. Entonces G(t) = P(Xn t) = P(X" t, ..., Xn t) , por definicin de mximo = P(X" t)...P(Xn t), pues Xi son independientes. = (FX (t))n , pues las Xi son idnticamente distribuidas. Luego la funcin de distribucin acumulada del mximo de n variables aleatorias independientes e indnticamente distribudas es G(t) = (FX (t))n . 151
Si las variables son continuas podemos obtener la funcin de densidad del mximo, g(t), derivando G(t) respecto de t.
dG(t) d(FX (t))n dt
g(t) = dt =
= n(FX (t))n1 fX (t).
Para obtener la funcin de distribucin de X1 , denotemos por H(t) su funcin de distribucin acumulada. Entonces H(t) = P(X1 t) = 1 P(X1 t) = 1 P(X" t,..., Xn t) = 1 P(X" t)...P( Xn t) = 1 (1 P(X" t))...(1 P(Xn t) = 1 1 FX (t) .
n
Ahora, si las variables son continuas, podemos determinar la funcin de densidad del mnimo derivando H(t) respecto de t.
n dH(t) d1(1FX (t) d(t) = d(t)
h(t) =
= n(1 FX (t))
n1
fX (t).
Ejemplo. Suponga que X" ,...,Xn son n variables aleatorias independientes, cada una con distribucin exponencial de parmetro ->0. La funcin de densidad del mximo y mnimo, respectivamente son: g(t) = n(1 e-t )n1 -e-t , si t>0 y h(t) = n1 (1 e-t )
n 1
- e - t
152
= n-e-tn , si t>0. Si n=2 y -=0.1 por ejemplo, tenemos que la funcin de densidad de X(2) =mxX1 ,X2 y de X(1) =mnX1 ,X2 son respectivamente g(t) = 0.2e0.1t (1 e0.1t ) , si t>0 y h(t) = 0.2e0.2t , si t>0
Ejemplo. Sean X" ,X2 ,X3 variables independientes cada una con distribucin Poisson de parmetro .=1. Determinemos la probabilidad que el mnimo de las tres sea estrictamente mayor que 2. En efecto, P(X(1) >2) = 1 P(X(1) 2) = 1 H(2)
3 = 1 1 1 FX (2)
= 1 FX (2)
2
x 1
e donde FX (2) = ! 1 x x = 0.9197. x=0
As, la probabilidad pedida es 0.0005. Adems de X(n) y de X(1) interesa determinar X(r) el estadstico de orden r, variable aleatoria que corresponde al valor r-simo en magnitud, r=2,...,n-1, de las n variables aleatorias ordenadas en forma ascendente. Se puede determinar, para el caso de variables continuas, que la densidad de este estadstico de orden r est dada por
x fX(r) (t) = (r1)n x(nr)x FX (t) r1
1 FX (t)nr fX (t).
El ejemplo a continuacin, nos muestra como obtener una densidad Beta a partir de un estadstico de orden r. 153
Ejemplo. Sea X(<) , r=1,n, el r-simo mayor valor de n variables aleatorias independientes, cada una de las cuales tiene distribucin uniforme sobre el intervalo (0,1). Mostraremos que X(<) es una variable aleatoria Beta con parmetros r y n, y funcin de densidad
>(n+1)
fX(<) (t) = >(r)>(nr+1) t<" (1 t)n" , 0<t<1.
Para deducir esta funcin de densidad, consideremos las variables aleatorias X" ,...,Xn , cada una con distribucin uniforme sobre el intervalo (0,1). Si para t fijo en (0,1) suponemos que los eventos A3 ={X3 t}, i=1,...,n son independientes, entonces tenemos n ensayos Bernoulli independientes, con probabilidad de xito P(A3 ) = P(X3 t) = t, i=1,..,n, ya que estamos trabajando con una distribucin uniforme en (0,1). Consideramos ahora el evento {X(<) >t}. Entonces X(<) exceder a t si y slo si r 1 o menos de las X" ,...Xn son menores que t. Luego,
n 5 P(X(<) >t) = ! 5 t (1 t)n5 , 0<t<1 r 1 k=0
de donde la funcin de distribucin es
n5 n 5 FX(<) (t) = 1 !<" 5! 5 t (1 t) n5 n 5 = !n . 5< 5 t (1 t)
Derivando la ltima sumatoria con respecto a t y teniendo presente que n 5 (n k) = 5 n +" (k+1), tenemos que la densidad de X(<) es fX(<) (t) =
d dt [FX(<) (t)]
= nr rt<" (1 t)n" =
n! <" (1 (<1)! (nr)! t
t)n< , 0<t<1.
Ejemplo. El proceso de generacin de nmeros aleatorios se realiza usualmente desde una distribucin uniforme sobre el intervalo (0,1). Supongamos que un computador genera 15 nmeros al azar sobre la uniforme en (0,1). Si X(") es el menor valor observado, entonces la densidad de X(") es 154
fX(") (t) =
15! ! 0!14! t (1
t)"% = 15(1 t)"% , 0<t<1.
y la probabilidad que el mnimo sea menor que 0.3 es P(X(") < 0.3) =(
!$
15(1 t)"% dt
= 1 (0.7)"& = 0.995. De la misma forma, si definimos X("&) como el mayor valor de los 15, entonces X("&) = mx{X" ,...,X"& } tiene funcin de densidad
15! "% 14!0! t (1
fX("&) (t) =
t)! = 15t"% 0<t<1.
y la probabilidad que el mayor valor sea menor que 0.3 es P(X("&) < 0.3) = (
!$
15t"% dt = (0.3)"& = 1.43.10-) .
Por ltimo, el valor esperado de X("&) est dado por E[X("&) ] = ( t 15t"% dt =
" !
15 . 16
Como ya lo habamos anunciado, la distribucin del r-simo mayor valor entre n variables aleatorias independiente y uniformes sobre el intervalo (0,1) es un caso particular de la distribucin Beta General con parmetros ! y " . 4.11. Algunos Teoremas importantes En esta seccin veremos algunos conceptos de convergencia de una sucesin de variables aleatorias y algunos teoremas importantes en probabilidades y estadstica. Definicin. Sean (Xn )nR una sucesin de variables aleatorias. Diremos que (Xn )nR converge en distribucin a la variable X si, cada punto donde la funcin de distribucin de X es continua, tenemos
lim F (t) = FX (t), n _ Xn 155
donde FXn (t) es la funcin de distribucin de Xn . Si (Xn )nR es una sucesin de variables aleatorias que converge en distribucin a la variable aleatoria X y si a y b (a<b) son dos puntos cualquiera donde FX (t) es continua, entonces para cualquier %>0 existe un n suficientemente grande tal que: |P(a<Xn b) (FX (b) FX (a))| = |FXn (b) FXn (a) FX (b) FX (a))|< %; es decir, FX (t) se puede utilizar para aproximar probabilidades que debieran ser calculadas mediante FXn (t). Esto es til cuando FXn (t) es complicada y FX (t) tiene una expresin simple. Definicin. Sea (Xn )nR una sucesin de variables aleatorias. Diremos que (Xn )nR converge en probabilidad a la variable aleatoria X, si para cada %>0, lim P(|Xn X| %) = 0 n_ Definicin. Sea (Xn )nR una sucesin de variable aleatorias. Diremos que (Xn )nR converge en Media o en Media Cuadrtica a la variable aleatoria X, si lim E[(Xn -X)# ] = 0. n_ Definicin. Sea (Xn )nR una sucesin de variables aleatorias. Diremos que (Xn )nR converge con probabilidad uno o casi seguramente a la variable aleatoria X, si: P[lim Xn = X] = 1. n_ Ejemplo. Consideremos la sucesin de variables aleatorias (Xn )nR en que FXn (t) = ( (n/21)"# enB /25 # dx.
>
#
-_
Entonces a t 0 se tiene
lim F (t) = 1 si t 0 n _ Xn FX (t) = 1 si t 0
0 si t < 0
luego FXn (t) converge en distribucin a

0 si t < 0
156
Notemos que t = 0 es una discontinuidad de FX y lim FXn (0) = 1/2 a n. As, n_ no hay convergencia en distribucin en los puntos de discontinuidad de FX . Ejemplo. Consideremos la siguiente sucesin de variables aleatorias, definidas sobre el intervalo cerrado [0,1]. Xn (t) = 1 si t > 1/n
0 si t1/n
donde para cualquier par de nmeros a,b [0,1], a< b, se tiene que P(a t b) = b a (longitud del intervalo). Entonces an N, P({Xn (t) = 1}) = 1/n, P({Xn (t) = 0}) = 1 1/n. Definamos la variable aleatoria X como: X(t) = 0 at [0,1] y sea. An (%) = |Xn (t) X(t)| % Para 0< % 1, t An (%) si y solo si Xn (t) = 1. As, P(An (%)) = P({Xn (t)=1}) = 1/n y lim P(|Xn X| %) = 0. n_
Para %>1, no existe t An (%) y luego P(An (%)) = 0 an. Por lo tanto, para cada %>0, tenemos que la sucesin de variables aleatorias (Xn )nR definida antes converge en probabilidad a la variable aleatoria X. La sucesin (Xn )nR tambin converge casi seguramente a la variable aleatoria X. En efecto,at 0 lim X (t) = X(t) (para algn n > N(%), % > 0). n_ n y P[lim Xn (t) = X(t)] = 1 n_ As, la sucesin (Xn )nR verifica la definicin de convergencia con probabilidad uno o casi seguramente. Existen varias relaciones entre los modos de convergencia que se presentan en forma de teoremas cuyas demostraciones requieren conceptos que no hemos establecido y que escapan al alcance de este texto. Teorema 4.14. (De Bernoulli). Si Xn es una variable aleatoria Binomial, entonces Xn /n, la frecuencia relativa de xitos en los n ensayos Bernoulli, converge en probabilidad hacia p, la probabilidad de xito en cada ensayo. 157
Demostracin. Debemos probar que, dado >0, lm P(|Xn /n p| )= 0 n_ o lo que es lo mismo lm P(|Xn np| n) = 0. n_ La demostracin es una consecuencia inmediata de la desigualdad de # Chebyshev. En efecto, .Xn = np y 5X = npq, luego n P(|Xn np| n) %# n y cuando n crece tenemos lm P(|Xn np| % n) = 0. n_ Este teorema es el primer ejemplo de convergencia en probabilidad que se presenta en forma natural en el clculo de probabilidades y es el punto de partida para la formulacin de los teoremas de los grandes nmeros. En palabras, indica que cuando el nmero de ensayos n tiende a infinito, la frecuencia relativa de xito en los n ensayos tiende a la probabilidad verdaderas p de xito en cada ensayo, en el sentido de que cualquier diferencia no nula entre Xn /n y p se har menos probable de ser observada cuando el nmero de ensayos aumente indefinidamente. Un teorema mas general que el de Bernoulli es el de la Ley de los Grandes Nmeros, que se puede enunciar de la siguiente manera. Teorema 4.15. (Ley de los Grandes Nmeros) Sea (Xn )nR una sucesin de variables aleatorias independientes e idnticamente distribuidas, cada una con media . y varianza 5 # . Si definimos la sucesin (X n )nR mediante Xn=
1 n
pq
i"
! Xi , n = 1,2,...,
n
entonces la sucesin (X n )nR converge en probabilidad hacia .; esto es, lim P(|X n .| %) = 0. n_ Demostracin. Sabemos, por Teorema 4.12 y 4.13, que
= . .X n # # y 5 Xn = 5 /n.
158
Enseguida aplicando el Teorema de Chebyshev con k = % n"# /5 se tiene que P(|X n .| > %) 5 # /%# n y lim P(X n .| > %) = 0. n_
Teorema 4.16. (Del lmite Central (T.L.C.)) Sea (Xn )nR una sucesin de variables aleatorias independientes e idnticamente distribuidas, cada una con media . y varianza 5 # . Si definimos la sucesin (Zn )nR mediante _ Zn = n (Xn .)/5 , n N con X n =
1 n
i"
! Xi , entonces:
n
lim F (t) = F (t), at . n _ ^n donde F (t) es la funcin de distribucin de la variable aleatoria normal estndar. Demostracin. Supongamos que existen las funciones generadoras de las variables Xi ; i = 1,n. La funcin generadora de la variable aleatoria normal estndar Z es M^ (t) = exp(t# /2). Adems para todo n E(Zn ) = 0 y E(Z# n ) = 1, donde Zn es la forma estndar de X n . Ahora, M^n (t) = E[exp(tZn )] = E[exp(tn(X n .)/5 ]
n = E[ C exp(tn(Xi .)/5 ] i" = [M^ (t/n)]n ,
donde Z = (x .)/5 y MZ (t) es la funcin generadora de la forma estndar de X. Entonces, tomando logartmo natural tenemos: 159
ln MZn (t) = n ln[MZ (t/n)] Desarrollando la funcin generadora de momentos de la forma estndar en serie de Mac-Laurin obtenemos
t# $ $ MZ (t/n) = 1 + 2n +m 3! (t/ n) + ...
ln MZn (t) = n ln[1 + R(t)]. Adems, se prueba en los cursos de clculo que:
x x ln(1 + x) = x x 2 + 3 4 + ... , para |x| < 1
# $ %
entonces ln MZn (t) = [R(t) Por otra parte,

# lim nR(t) = t2 n_
1 2
R# (t) +
1 3
R$ (t) ...], |R(t)| < 1.
y lim nR5 (t) = 0, k = 1,2,3,... n_ Luego

# lim ln MZn (t) = t2 n_
de donde lim M (t) = exp (t# /2) n _ Zn que es la funcin generadora de momentos de la variable aleatoria normal estndar. Por lo tanto,
lm F (t) = F (t), at . n _ Zn Notemos que como lm F^n (t) = F (t), deberamos esperar que, para n grande, n_ F^n (t) = F (t). Pero para cualquier n tenemos que 160
F Xn (t) = F^n ( n(t .)/5 ) y as, para n grande F Xn (t) = F ( n(t .)/5 );
es decir, la sucesin de distribucin de la media aritmtica converge dbilmente a la funcin de densidad normal estndar vista antes. El teorema central del lmite esta relacionado con la justificacin del supuesto de normalidad para cualquier variable aleatoria cuyo valor puede ser pensado como la acumulacin de un gran nmero de cantidades independientes. Usualmente es utilizado adems para aproximar distribuciones exactas mediante la suma de variables aleatorias independientes. Este tipo de aproximacin se basa en el siguiente razonamiento. Supongamos que Sn es la suma de n variables aleatorias independientes e idnticamente distribuidas, cada una con media . y varianza 5 # . Entonces el T.L.C. nos dice que lm P(Sn n.)/5 n z) = F(z), n_
Una afirmacin equivalente es que la suma Sn = !Xi es aproximadamente

n
la funcin de distribucin normal estndar en z. Si n es finito, pero grande, podramos esperar que P(Sn n.)/5 n z) est bien aproximada por F(z). normal con media n. y varianza n5 , de tal manera que FSn (t) = P(Sn t) = P(Sn n.)/5 n (t n.)/5 n)
# i"
= F((t n.)/5 n).
Ejemplo. (Aproximacin Normal a la Uniforme). Sean X" ,...Xn variables aleatorias independientes, cada una con distribucin uniforme sobre [0,1]. Entonces
# E[Xi ] = 1/2, Var(Xi ) = 5X = 1/12, i = 1,n. i
Aplicando el teorema central del lmite tenemos
12n ( t 0.5)) F Xn (t) = P(X n t) = P( 12n (X n 0.5) = F (12n ( t 0.5)). 161
Podemos comparar las probabilidades exactas para diferentes valores de n y valores fijos de t. Por ejemplo, para n = 2 y t = 0, 0.1, 0.2,..., 1.0, tenemos la siguiente tabla de comparacin de la aproximacin normal con la distribucin exacta: Tabla. Distribucin Exacta y Aproximacin Normal. n=2 Distribucin exacta Aproximacin Normal F(12n ( t 0.5)) t F(t) 0.0 0.000 0.0071 0.1 0.020 0.0250 0.2 0.080 0.0708 0.3 0.180 0.1636 0.4 0.320 0.3121 0.5 0.500 0.5000 0.6 0.680 0.6879 0.7 0.820 0.8364 0.8 0.920 0.9292 0.9 0.980 0.9750 1.0 1.000 0.9929 La funcin de distribucin exacta para n = 2 es = 1-2(1-t) 1 2t2 0 t 1/2 1/2 t 1 t>1
F X# (t)
Evidentemente la aproximacin ser ms exacta a medida que n aumenta. Ejemplo. (Aproximacin Normal a la Binomial). Si X" ,...,Xn son variables aleatorias Bernoulli independientes, cada una con parmetro p, entonces nX es una variable aleatoria Binomial con parmetros n y p. Utilizando el teorema central del lmite, la funcin de distribucin de X tiende a la normal si n es grande; es decir,
tp F X (t) = F ( pq/n )
= !Xi = Y. Mediante el teorema central del lmite tenemos:

n i"
En la prctica, interesa la funcin de distribucin (exacta o aproximada) de nX
tp FY (t) = F X (t/n) = F ( npq ).
162
Notemos que estamos aproximando una variable aleatoria discreta X, mediante otra, XN , que es continua. Esta aproximacin produce errores en el clculo de probabilidades. Para lograr una mejor aproximacin haremos un ajuste por continuidad que se basa en el hecho que, si X es discreta entonces P(X = c) = P(c 1/2 < XN c + 1/2 ). As, en lugar de calcular por ejemplo, P(a X b), calcularemos P(a 1/2 XN b+1/2), a<b. Lo mismo haremos con cualquier otro tipo de intervalo. Como un ejemplo ilustrativo, supongamos que lanzamos una moneda 400 veces. Cul es la probabilidad que el nmero de caras est entre 191 y 219, inclusive?. Si Y es el nmero total de caras en los 400 lanzamientos, entonces Y se distribuye Binomial con parmetros n = 400 y p = 1/2. De aqu np = 200 y npq = 100. Usando ajuste por continuidad, tenemos: P(191 Y 219) = P(190.5 YN 219.5) = F (1.95) F ( 0.95) = 0.9744 0.1711 = 0.8033. Notemos que la probabilidad exacta es 0.8034. La probabilidad que el nmero de caras no exceda de 220 es: P(Y 220) = P(YN 220.5) =F (2.05) = 0.9798. Ejemplo. (Aproximacin normal a la Poisson). Si X" ,...,Xn son variables aleatorias Poisson independientes, cada una con parmetro -, entonces Y = !
n i"
Xi es una variable aleatoria de Poisson con parmetro n-. Utilizando el teorema central del lmite, para n grande, tenemos:
nF] (t) = F( t ). n-
Por las mismas razones dadas en el ejemplo anterior, utilizaremos ajuste por continuidad.
163
Como una aplicacin, supongamos que el nmero de accidentes en determinado tramo de carretera es una variable aleatoria de Poisson con media 2 por semana. Cul es la probabilidad aproximada que ocurran menos de 100 accidentes en este tramo de carretera durante un ao?. Si Y es el nmero total de accidentes en un ao y si consideramos que un ao tiene aproximadamente 52 semanas, entonces Y es una variable aleatoria Poisson con parmetro n- = 52(2) = 104. As, P(Y 100) = P(YN 99.5) = F ( 0.44) = 0.3300.
EJERCICIOS 1. Un estudiante rinde un examen de Verdadero y Falso de 4 preguntas; suponga que l adivina la respuesta a cada pregunta. Defina X" como el nmero de respuestas correctas de las dos primeras preguntas y, X# como el nmero de respuestas correctas de las dos ltimas respuestas. a) Determine la distribucin de probabilidad para (X" , X# ) b) Repita este ejercicio suponiendo que cada pregunta del examen es de eleccin mltiple con 4 posibles respuestas. c) Cules son las distribuciones marginales para X" y X# . 2. Qu valor debe tener c si f (x,y) = 0
cx/y, 0< x< 1, 1<y < 2 e.o.c.
es una funcin de densidad? 3. Una familia tiene dos hijos jvenes. Sea X la altura del hijo mayor e Y la altura del hijo menor, cuando ambos sean adultos. Suponga que (X, Y) es igualmente probable de caer en el rectngulo con vrtices en los puntos (66, 68), (66, 72), (71, 68) y (71,72). Calcule probabilidad que el hijo mayor sea ms alto que el menor cuando sean adultos. 4. Considere el lanzamiento de dos dados y defina las variables aleatorias X como el nmero de 5 e Y como el nmero de 6 obtenidos. Construya una tabla de probabilidades para la distribucin de (X, Y), calcule P(X+Y 1) y P(X<Y). 164
5. Suponga que (X, Y) es una variable aleatoria bidimensional continua con densidad. f (x,y) = x 0
1
0<y<x, 0<x<1 e.o.c.
Encuentre las densidades marginales para X e Y. 6. Suponga que la variable bidimensional (X,Y) tiene densidad f (x,y) = (x,y) est en el cuadro de vrtices (a, a), (a, a), ( a, a), ( a, a). a) Encuentre a b) Encuentre las densidades marginales para X y para Y.
" #
si
7. Suponga que (X, Y) tiene densidad f (x,y)=1/2 en el cuadrado de vrtices (a,0), ( 1, 0), (0, a), (0, a) y que f (x, y) es cero en otros casos. a) Encuentre el valor de a. b) Encuentre las densidades marginales para X y para Y y comprelas con las marginales encontradas en el ejercicio 5. 8. Un vector aleatorio (X,Y) est distribudo uniforme sobre el cuadrado cuyos vrtices son (1, 1), ( 1, 1), (1, 1), ( 1, 1). Determinar: a) P(X# +Y# < 1) b) P(2X Y>0) c) P(|X+Y|<2) d) P(|X Y|<1/2) 9. Suponga que dos personas estn esperando en la misma cola en un banco y sea X" el tiempo en el cual la persona 1 completa su negocio y sea X# el tiempo en el cual la persona 2 completa su negocio. Por supuesto que X" < x# ya que la persona 1 terminar primero. La densidad conjunta de (X" , X# ) es f (x" , x# ) = -# e--x# , 0<x" <x# <_ Encuentre las densidades marginales para X" y X# . 10. Para la densidad dada en el Ejercicio 9, evale a) PX" <
1 1 , X# < 1 1 b) PX" < , X# > -
11. Sean X e Y variables aleatorias discretas con distribucin conjunta dada por p(x,y) = 0
1/n# , x=1,n : y=1, n e.o.c.
Verifique que X e Y son independientes. 165
12. Sean X e Y variables aleatorias continuas, con funcin de densidad conjunta dada por f (x,y) = 4 0<x<1, 0 e.o.c. 0<y<1/4
Verifique que X e Y son independientes. 13. Suponga que (X, Y) tiene funcin de densidad conjunta f (x,y) = 3/2 0 0<x<1 , (x 1)# <y<(x 1)# e.o.c.
Muestre que X e Y no son independientes. 14. Se produce en serie lapiceros plsticos. Suponga que hay chance de 1 en 100 que la tinta no sean insertada apropiadamente. Estos errores ocurren independientemente de lapicero a lapicero. Los lapiceros son puestos en cajas que contienen 12 lapiceros, y estas cajas son luego embaladas en cajones que contienen 100 cajas. Una muestra de 4 cajas es selccionada de un cajn y 2 lapiceros son examinados de cada caja. Dado que hay 100 lapiceros defectuosos en el cajn, cul es la distribucin condicional de X# , el nmero de lapiceros defectuosos en la muestra de lapiceros seleccionados?. Cul es la distribucin conjunta para X" , el nmero de lapiceros defectuosos en el cajn y X# ?. Cul es la probabilidad marginal para X# ?. 15. En el Ejercicio 6, determine la probabilidad condicional P(X>Y/X>0). Son X e Y independientes?. 16. Sean las variables aleatorias X e Y con densidad conjunta
3 f (x,y) = 2 ; si 0<y<x<1 x
Encuentre la densidad condicional para Y dado que X=1/2 y la densidad condicional para X dado Y=1/2. 17. Sean X e Y variables aleatorias y suponga que la densidad condicional de Y, dado X=x, x>0, est dado por
3x + y f (y/x) = 3x + 1 e-y , y>0
y la densidad marginal para X es 166
+ 1 x f(x) = 3x4 e , x>0
Encuentre la densidad conjunta para X e Y y la densidad condicional para X, dado Y=y. 18. Suponga que el nmero de accidentes que ocurren por ao, en una carretera dada, es una variable Poisson X, con .=20. La probabilidad que haya una o ms fatalidades en cada accidente es 0.05; las ocurrencias de fatalidad son independientes de un accidente a otro. Si Y es el nmero de accidentes en esta carretera, en un ao con una o ms fatalidades, encuentre la funcin de probabilidades para Y.(Ind.: Considere la funcin de probabilidad condicional para Y dado X=x). 19. Sea (X,Y) con funcin de densidad conjunta f (x,y) = (4xy)-"# para 0< y< x<1 Determine E(Y/X=x) y luego verifique que E[E(Y/X)] = E(Y). 20. Calcule E(XY) cuando (X,Y) tiene densidad conjunta f (x,y) =6(1 x y) para 0<y<1 x<1 21. Sea (X,Y) una variable aleatoria bidimensional que se distribuye uniformemente sobre el tringulo 0< x< y< 1. a) Determine E(X/Y=y) b) Calcule E[(Y X)# ] 22. Sea (X, Y) una variable aleatoria bidimensional con densidad conjunta f(x,y) = 2 0 x+y 1, x 0, y 0. e.o.c
Determinar el coeficiente de correlacin lineal de X e Y. 23. Suponga que (X,Y) est uniformemente distribudo en el crculo unitario x# +y# 1. a) Calcule E(XY) b) Muestre que E(XY) = E(X) E(Y), pero X e Y no son independientes. 24. Muestre que E(X/Y=y) = E(X) si X e Y son independientes. Es el recproco verdadero?. 25. Sean X" , X# y X$ variables aleatorias independientes, cada una con funcin de densidad f(t) =et , para t>0. 167
a) Determine la densidad conjunta de (X" , X# , X$ ) b) Calcule E(X" +X# /X$ =x$ ) c) Calcule E(X$ /X" +X# =k) d) Calcule E[(X" +X# +X$ )# ] e) Calcule E[X" /X" +X# +X$ =1]. 26. La gasolina se almacena en tanques al comienzo de cada semana y enseguida se vende a los consumidores. Sea X la proporcin de la capacidad del tanque que queda ocupada despus de haber recibido el stock a inicios de la semana. Sea Y la proporcin de la capacidad del tanque que se ha vendido durante la semana. Suponga que la densidad conjunta entre X e Y est dada por:
3x, 0yx1
f(x,y) = 0 e.o.c. a) Determine la probabilidad que menos de la mitad del tanque haya sido almacenado, pero ms de 1/4 de tanque se venda durante una semana cualquiera. b) Encuentre la funcin de densidad de la cantidad (proporcin) de gasolina restante al final de la semana c) Cul es la cantidad esperada de gasolina restante al fin de la semana? 27. Considere la variable aleatoria X, cuya funcin de densidad es f(x) = 2xex 0
#
x>0 e.o.c
a) Encuentre la funcin de distribucin de Y=X# b) La densidad de Y 28. Si X es una variable alatoria con distribucin exponencial de parmetro ) , encuentre la funcin de densidad de Y=ln X. 29. Si X tiene distribucin uniforme en (0,1), encuentre la funcin de densidad de Y=X. 30. Suponga que la densidad conjunta de (X, Y) est dada por Defina Z=X# +Y# . Encuentre la funcin de distribucin y la funcin de densidad de Z. f (x,y) = 4xyex y si x>0, y>0
# #
168
31. Sean X" y X# variables aleatorias independientes con distribucin exponencial de parmetros )" y )# , respectivamente. Encuentre la densidad de probabilidad de Y=X" +X# cuando a) )" )# b) )" = )# 32. Si la funcin de densidad conjunta de X e Y est dada por f (x,y) = ex+y , x>0, y>0 encuentre la densidad de probabilidad de Z=(X+Y)/2. 33. Si X es una variable aleatoria con distribucin geomtrica de parmetro p=1/3, encuentre la distribucin de probabilidades de Y=4-5x. 34. Si X es una varible aleatoria hipergeomtrica con M=4, N=15 y n=3, encuentre la distribucin de probabilidades de Z, el nmero de xitos menos el nmero de fracasos. 35. Si X = lnY tiene distribucin normal con media y varianza 5 # , encuentre la densidad de probabilidad de Y(en este caso se dice que Y tiene distribucin log-normal). 36. Sea X una variable aleatoria con funcin de densidad f(x) = 0
x/2, 0<x<2 e.o.c.
Encuentre la densidad de Y=X$ . 37. Si X tiene distribucin uniforme en (0,1), muestre que la variable aleatoria Y= 2lnX tiene una distribucin gamma, cules son los parmetros?. 38. Si la densidad de X est dada por
# f(x) = 0 $x#
para 1<x<1 e.o.c.
Encuentre: a) La densidad de probabilidades de Y = |X| b) La densidad de Z = X# 39. Si X se distribuye uniforme en el intervalo ( 1, 3), encuentre: a) La densidad de Y = |X| b) La densidad de Z = X% 169
40. Suponga que la funcin de probabilidad conjunta de X" y X# est dada por:
" x# PX" X# (x" , x# ) = x36 si x" =1,2,3; x# =1,2,3
Encuentre: a) La distribucin de probabilidd de Y=X" X# b) La distribucin de probabilidad de Z =X" /X# 41. Si X e Y son variables aleatorias con funcin de densidad conjunta f (x,y) = 1/2 0 x>0, y>0, x+y<2 e.o.c
a) Encuentre la densidad conjunta de Y y U=X Y. b) Determine la funcin de densidad de U. 42. Sean X" y X# variables aleatorias independientes tales que
2x f(x" ) = 0 " , 0<x" <1 e.o.c.
f(x# )=
x2 2
, si 0<x2 <2 , e.o.c
Encuentre la funcin de densidad de Y=X" X# . 43. Si el tiempo (en minutos) para balancear una rueda en una estacin de servicio es una variable aleatoria exponencial con -=1/5 y si X3 es el tiempo que se tarda en balancear la i-sima rueda, entonces: a) Cul es la probabilidad que se tarde al menos 12 minutos en balancear dos ruedas?. b) Calcular P(3<X2 <6/X" =3) y E[X" X# ] 1 c) Encuentre la funcin de densidad de Y= X" +X # 44. Sea Y = 1 2 (X" +X# ), con X" , X# variables aleatorias independientes, cada una con distribucin Chi-cuadrado con 2 grados de libertad. Encuentre la funcin de densidad de Y. 45. Sea (X" , X# ) una muestra aleatoria de tamao dos de una distribucin uniforme sobre el intervalo (0, 1). Determine la funcin de densidad de probabilidad para Y=X" +X# . 46. Sea Y una variable aleatoria con densidad de probabilidad dada por f(y) = 0
2(1y) 0 y 1 e.o.c.
170
a) Encuentre la funcin de densidad de X" =2Y 1 b) Encuentre la funcin de densidad de X# =Y# 47. Suponga que dos componentes electrnicos del sistema de orientacin para un misil opera independientemente, cada uno tiene un tiempo de vida que se distribuye exponencial con media 1. a) Encuentre la funcin de densidad de probabillidad para la longitud promedio de vida de los dos componentes. b) Encuentre la media y varianza de este promedio. 48. Suponga que X e Y son variables aleatorias independientes, cada una con distribucin exponencial de parmetro -. Sea U=2-(X+Y). Encuentre la distribucin de la variable aleatoria U. 49. La distribucin conjunta del tiempo de vida de dos componentes diferentes, que operan en un sistema, est dada por: f(y" , y# ) =
(1/8)y" e(y" y# )/# , y" >0; y# >0 0 en otro caso
La eficiencia relativa de estos tipos de componentes se mide por U=Y# /Y" . Encuentre la funcin de densidad de probabilidad de U. 50. Sean X" y X# variables aleatorias independientes con distribucin Poisson de parmetros -" y -# , respectivamente. a) Encuentre la funcin de probabilidad de Y=X" +X# . b) Determine E(X" /Y) 51. Sean X" y X# variables aleatorias normales independientes, cada una con media 0 y varianza 25 # . Defina Y" =X" +X# y Y# = X" X# . Pruebe que Y" e Y# son variables aleatorias normales independientes, cada una con media 0 y varianza 25 # . 52. Sean X e Y las variables aleatorias que indican las cantidades de agua cada, registradas en un mismo ao en una estacin meteorolgica de Concepcin, durante los meses de Junio y Julio, respectivamente. Suponga que (X,Y) tiene distribucin Normal Bivariante con .X =6 mm, .Y =4 mm, 5X =1, 5Y =0.5 y 3= 0.1. Determine a) La probabilidad que el agua cada registrada en Concepcin, en el mes de Julio sea inferior a 5 mm. b) El promedio de agua cada en Julio, si en el mes anterior se registraron 5 mm de agua cada. c) La probabilidad que el total de agua cada en los meses sea superior a 12 mm. 171
53. El nmero de accidentes que se producen en la interseccin de dos calles es una variable aleatoria Poisson a una tasa de 4 accidentes al ao. Si se considera una muestra aleatoria X1 , X2 ,....,X36 de esta variable aleatoria. Determine, P(!Xi > 136).
36 i=1
172
CAPITULO V ESTADISTICA DESCRIPTIVA
Hemos visto y estudiado distintos resultados de la teora de probabilidades, cuyas principales aplicaciones estn en la inferencia estadstica, tema que trataremos en forma detallada en el captulo siguiente. En este captulo daremos una breve descripcin de algunos elementos bsicos de estadstica descriptiva.
5.1. Estadstica Descriptiva Cuando una encuesta o un experimento ha producido un conjunto de datos, el estado original de stos generalmente no aporta mucha informacin acerca de la caracterstica de inters a estudiar. Usualmente, dispondremos de una gran cantidad de observaciones que obscurecern la naturaleza de los datos. Independientemente de que los datos representen los valores observados de una parte o toda la poblacin en estudio, ser necesario organizar y resumir estos datos en grficos, tablas, o en cantidades que llamaremos estadsticos y que constituyen una forma de resumen de la informacin, es el caso por ejemplo, de los promedios, totales, porcentajes, etc; es decir, se trata de instrumentos descriptivos de la informacin. De aqu el nombre de "estadstica descriptiva" que se utiliza para denotar un nmero ms pequeo de descriptores (estadsticos) que en algn sentido describen ciertos aspectos de un conjunto mayor de nmeros. Los estadsticos descriptivos que examinaremos sern aquellos que tengan inters para la inferencia estadstica. Representaremos los datos disponibles por la coleccin de nmeros x" , x# ,. . .,xn . Por ejemplo, en la Tabla 5.1 de datos, se tienen 60 lecturas registradas de un espectmetro, que mide la contaminacin por plomo al usar mquinas de petrleo. Cada lectura del espectmetro, en partes por milln (ppm), es obtenida al quemar una pequea porcin de petrleo; la luz emitida se analiza para medir la contaminacin de plomo. Este procedimiento fue repetido 60 veces, quemando cada vez una pequea porcin de petrleo sacado de un mismo recipiente. Tabla 5.1. Contaminacin de plomo (ppm)
99 104 100 103 103 100 100 104 102 100 97 100 100 100 99 98 97 100 103 102 101 104 103 95 96 96 108 100 100 100 106 106 107 107 102 99 99 98 97 99 100 105 100 109 99 96 102 101 103 100 108 99 98 102 102 110 102 97 98 102
173
Con la representacin recin mencionada, denotaremos estos nmeros por x" , x# ,. . .,x'! ledos por fila y as x" =99, x"! =102, x&" =100 etc. Los datos presentados en la forma de la Tabla 5.1 no nos entregan mucha informacin, salvo que todas las mediciones no son las mismas. Mirando los nmeros de este conjunto de datos encontramos que el valor ms chico es x#& =95 y el valor ms grande es x#! =110; as el rango de extensin o recorrido de estos datos es la diferencia 110-95=15, que significa que todos los 60 nmeros se pueden representar en un intervalo de longitud 15. Una forma de resumir datos, como los de la Tabla 5.1, es contruir una tabla que proporcione el nmero de observaciones (frecuencia) contenido en distintos intervalos previamente definidos. As la primera decisin para construir una Tabla de frecuencias es determinar el nmero de intervalos (tambin llamados clases) a emplear. La mayora de las tablas de frecuencias emplean al menos 5 y no ms de 15 intervalos. El nmero real a usar depende fuertemente de n, el tamao del conjunto de datos, y del recorrido de los datos. Una regla frecuentemente utilizada es considerar como nmero de intervalos al entero ms prximo a 28. Esta regla, en nuestro caso, nos recomendara usar 260=15 intervalos; sin embargo, nosotros usaremos arbitrariamente cinco intervalos para construir nuestra tabla de frecuencias. La prxima decisin es definir estos intervalos exactamente, en trminos de fronteras o puntos extremos del intervalo. Los extremos no deben ser ambiguos, de manera de no tener dudas respecto de que observaciones caen en las distintas clases. No es necesario, pero se acostumbra a usar clases de igual longitud en la construccin de tablas de frecuencias; intervalos de igual longitud tienen ciertas ventajas en trminos de representaciones grficas de las tablas de frecuencias. Respecto de los datos de la Tabla 5.1, arbitrariamente empleamos 5 clases para construir una tabla de frecuencias: 95 a 97, 98 a 100, 101 a 103, 104 a 106 y 107 a 110. Cada una de estas clases (intervalos) tiene longitud 3 salvo la ltima que es de longitud 4. Finalmente se procede a contar y registrar el nmero de datos que caen en las distintas clases, estos nmeros se denominan frecuencias. El resumen de los datos de la Tabla 5.1 se presenta en la Tabla 5.1.1 . La tabla de frecuencias facilita al lector el anlisis preliminar de los datos: por ejemplo, determinar cual es la clase (o intervalo) que contiene una mayor cantidad de datos; una idea aproximada acerca de cun dispersos estn los datos (recorrido); etc. Tabla 5.1.1. Frecuencias 174
Valores ppm 95 a 97 98 a 100 101 a 103 104 a 106 107 a 110
frecuencia 8 25 15 6 6
Las tablas de frecuencias usualmente se grafican en histogramas. Las figuras 5.1 y 5.2 corresponden a histogramas de la Tabla 5.1.1. Las barras usadas estn centradas en cada clase y estn dispuestas en el eje de las x con nombres relativos a los puntos medios de las correspondientes clases.
Figura 5.1
Figura 5.2 En la Figura 5.1, la altura de cada barra es igual al nmero de observaciones encontradas en cada clase, mientras que en la Figura 5.2 las areas de las barras son proporcionales al nmero de mediciones que caen en la clase. As, la ltima barra en la Figura 5.2 debi ser reducida en altura (en 1/4), ya que la clase es de 175
longitud 4, para mantener el rea proporcional a la frecuencia de esa clase; muchos creen que el segundo procedimiento (reas proporcionales a las frecuencias) dan una impresin ms precisa para el observador casual.
5.2 Diagramas de Tallo y Hojas Un procedimiento semi-grfico de presentar la informacin para variables cuantitativas, que es especialmente til cuando el nmero total de datos es pequeo (menos de 50), es el diagrama de tallo y hojas de Tukey, cuyos principios para construirlos son los siguientes: a- Redondear los datos a dos o tres cifras significativas, expresndolos en unidades convenientes. b- Disponerlos en una tabla con dos columnas separadas por una lnea, como sigue: i) Para datos con dos dgitos, escribir a la izquierda de la lnea los dgitos de las decenas (que forman el tallo) y a la derecha las unidades, (que sern las hojas). Por ejemplo, 87 se escribe 8|7; ii) Para los datos con 3 dgitos el tallo estar formado por los dgitos de las centenas y decenas, que se escribirn a la izquierda, separados de las unidades. Por ejemplo, 127 ser 12|7. c- Cada tallo define una clase, y se escribe slo una vez. El nmero de "hojas" representa la frecuencia de dicha clase. Ejemplo. Supongamos que disponemos de los siguientes datos recogidos en centmetros: 11.357; 12.542; 11.384; 12.431; 14.212; 15.213; 13.300; 11.300; 17.206; 12.710; 13.455; 16.143; 12.162; 12.721; 13.420; 14.698. Los datos redondeados expresados en milmetros son: 114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147. El diagrama de Tallo y Hojas, para estos datos en mm, es: Decenas 11 12 13 14 15 16 17 Unidades 4 4 3 5 4 7 2 7 3 5 4 2 7 2 1 2 176
5.3. Estadgrafos Adems de tablas de frecuencias y grficos, se usan frecuentemente descriptores numricos para caracterizar los datos llamados estadsticos o estadgrafos. Nosotros ya estamos familiarizados con los conceptos de media, varianza, y desviacin estndar. Recordemos que stas dan medidas del centro y de la variabilidad de una distribucin de probabilidades. Las mismas ideas son tiles para describir un conjunto de datos. Definicin. Dado un conjunto de datos x" , x# ,...,xn , la media (o valor n _ ! xi . La varianza de los datos se define promedio) de los datos es x = 1 n
i=1
como s# =
1 n-1
n _ ! (xi - x)# i=1
y su raz positiva, s= s2 , se llama la desviacin estndar de los datos. Notando que

n n _ _ _ ! (xi x)# = ! (xi# 2xi x + x# ) i=1 i=1 n n _ _ n ! ! = ! x# 2x x + x# i i i=1 i=1 i=1 n _ _ _# = ! x# i 2x (nx) + nx i=1 n _# = ! x# i nx i=1
vemos que podemos calcular s# en la forma
s =
Para los datos de la Tabla 5.1 se tiene que ! xi = 6067 y ! x# i = 614163,

60 60 i=1 i=1
1 n-1
n _# ! ( x# n x ) i i=1
de donde obtenemos
177
_ x=
y
s = 11.664 = 3.415.
6067 60
= 101.12;
s# =
1 59
(614163-60(101.12)# ) = 11.664
Luego, _ el promedio o "valor tpico" de las 60 lecturas de plomo en la Tabla_5.1 es x=101.2; y una idea de como los valores estn dispersos en torno a x lo proporciona s=3.415, la raz cuadrada del promedio de las distancias al _ cuadrado de cada xi con respecto a x. Consideremos ahora la Tabla 5.2, que representa los sueldos mensuales (en miles de dlares) de 42 personas elegidas al azar. Tabla 5.2. Sueldos mensuales (miles de U$) 1.2 29.3 11.6 14.5 26.8 28.1 17.0 8.2 39.4 151.2 8.2 17.8 23.2 20.6 157.4 10.1 25.8 26.8 36.0 20.1 10.3 92.3 8.0 17.8 74.7 8.8 16.2 7.7 19.4 19.3 125.2 10.7 100.2 47.6 21.2 37.2 19.6 26.0 37.7 29.0 150.1 13.4
La Tabla 5.2.1 muestra las frecuencias para estos datos, y el histograma correspondiente (con barras de reas proporcionales a las frecuencias) est dado en la Figura 5.3. Tabla 5. 2.1. Sueldos mensuales de 42 personas Rango (en dlares) Frecuencias Menos de 10000 Ms de 10000, pero menos de 20000 Ms de 20000, pero menos de 30000 Ms de 30000, pero menos de 50000 Ms de 50000, pero menos de 160000 6 13 11 5 7
178
Figura 5.3 En la Figura 5.3 observamos que el histograma no es simtrico en torno a algn punto; y tiene una "cola larga" hacia la derecha. El conjunto de datos que exhibe este tipo de comportamiento se dice que es positivamente asimtrico o que tiene una asimetra a la derecha. Es importante destacar la conveniencia de dibujar histogramas con barras cuyas reas sean proporcionales a sus frecuencias. Si en nuestro ejemplo hubiramos dibujado el ltimo intervalo (desde 50000 a 160000), con una barra de alto igual a su frecuencia, nos inducira a interpretar que ste estara ocupado en forma ms densa que el primer intervalo desde 1200 a 10000. Para los datos de la Tabla 5.2 encontramos !xi = 1565.7, !x# i = 128484.93, _ x = 37.28,
s = 41.35
_ y vemos que x no es particularmente un valor "tpico"; en verdad, 32 valores de _ _ los datos estn por debajo de x y slo 10 son mayores que x. _ Debido a la asimetra, x es empujada firmemente _ hacia la derecha, de manera que el 75% de los datos quedan a la izquierda de x. La media muestral tiene la caracterstica que ella se ve muy influenciada por valores extremadamente grandes o extremadamente pequeos y puede ocurrir que tome un valor que realmente no est ubicado en el centro de los datos. Similarmente valores extremadamente grandes y extremadamente pequeos tienden a inflar el valor de la desviacin estndar, lo que lleva a una difcil interpretacin y uso. _ En definitiva, x y s pueden no ser muy buenos descriptores del centro y variabilidad de los datos, si estos son muy asimtricos ya sea a la derecha o a la izquierda. En este caso, se usan descriptores alternativos que estn basados en los valores ordenados o ranqueados de los datos x(") , x(#) ,. . .,x(n) , donde x(") x(#) ... x(n) . Observando la Tabla 2 con los datos ordenados en forma ascendente vemos que x(") =1.2, x(%#) =157.4, x(#") =20.6, etc. As, podemos definir otra medida de centro de los datos, la mediana, m, que es el valor que est al medio de los datos ordenados de acuerdo a su magnitud. Calcularemos la mediana como:
179
m = x n+1 , cuando n es impar

(
2 )
y m= (x( n ) + x( n+1 ) )/2, cuando n es par

2 2
Por ejemplo, para los datos de la Tabla 5.2, tenemos m = (x#"+ x## )/2 = (20.6+21.2)/2 = 20.9. Este valor es ms representativo del centro de la distribucin de los datos que _ x, para este conjunto de datos asimtrico. La mediana tiene la propiedad que la mitad de los datos estn por debajo de ella y la otra mitad por sobre ella, de manera que en este sentido la mediana se encuentra justo al "medio". Los datos ordenados pueden tambin ser usados para definir una medida alternativa de variabilidad o dispersin de un conjunto de datos. Una medida ampliamente usada en este caso es el recorrido (distancia) intercuartlico Q. Este se define como la longitud de un intervalo que incluye aproximadamente el 50% de los datos centrado; as si x!.#& es el valor que a su izquierda deja alrededor del 25% de los datos y x!(& es el valor que a su izquierda deja el 75% de los datos (esto es, a su derecha queda el 25% de los datos), tenemos Q = x0.75 x0.25 . Notemos que hemos utilizado el trmino aproximadamente, ya que no todos los enteros n son divisibles por 4. En cualquier caso particular, nosotros simplemente hacemos que x!#& sea el nmero mayor de los datos tal que el nmero de observaciones menores o iguales a su valor no sea mayor de n/4. Similarmente, x!(& es el nmero ms chico de los datos tal que el nmero de observaciones menores o iguales a su valor no sea mayor que n/4. As, para los datos del conjunto 2, tenemos que n/4=10.5 , x!#& = x("!) =11.6, x!(& =x($$) = 37.7, y el recorrido intercuartlico Q=26.1; esto es, un intervalo de longitud 26.1 se necesita para encerrar alrededor de la mitad de los datos. Los dos nmeros x!#& y x!(& se denominan cuartiles y representan el primer y tercer cuartil de los datos, por razones obvias. Entre ms dispersas estn las observaciones, ms grande ser _ el valor del recorrido intercuartlico. Notemos que para datos asimtricos x y m difieren considerablemente de la misma forma que s y Q. A menudo disponemos de la informacin ya resumida en una tabla de frecuencias, y deseamos, a partir de este resumen, calcular ciertos estadsticos _ de inters como por ejemplo x y s# . 180
Como no disponemos de los datos originales debemos conformarnos con aproximaciones de estos estadsticos, las que se obtienen estimando las sumas, _ (!xi ), que aparecen en las frmulas de x y de s# , por !yj fj , donde yj representa el punto medio del intervalo de clase j y fj es la frecuencia de esta clase. De esta manera, estamos considerando que cada valor real xi que cae en el intervalo j est representado por un valor promedio yj de ese intervalo. As, si el nmero de intervalos considerados es k, entonces
_ !y f _ !x i x = n est aproximado por y = !fj j j s

#
donde n =!fj .
_ ! i -x)# = (x n-1
por
_ !(yj -y)# fj n-1
_ !y# fj - ny# j n-1
Para los datos de la Tabla 5.2.1, que tiene 5 intervalos, los puntos medios de cada intervalo son y" =5.010$ , y# =1510$ , y$ =2510$ , y% =4010$ , y& =10510$ , respectivamente. Multiplicando estos valores por sus respectivas frecuencias obtenemos !yj fj =1438.6x10$
_ y luego x es aproximada por _ 14386000 y= = 34252.381. 42 Ahora, para s# tenemos

' !y# j fj = 11379110
de donde s# =1573.549410' y
s = 39667.989.
5.4. Coeficiente de Correlacin Muestral Frecuentemente, en los estudios estadsticos se dispone de un conjunto de n pares de datos obtenidos de dos variables de inters, X e Y, que supuestamente estn relacionadas. Interesa particularmente estudiar el grado de asociacin lineal de ellas. 181
Una medida de este grado de asociacin, como vimos en el Captulo IV, es el coeficiente de correlacin 3 definido por
3=
5XY 5X 5Y .
El coeficiente de correlacin muestral (coeficiente de correlacin de Pearson), r, es una estimacin del verdadero coeficiente 3, y se determina a partir del conjunto de datos como:
x yi y ) !(xi
n i=1
i=1 r= s s = n n 1/2 1/2 , x y ! x # !(yi y # (xi i=1
sxy
donde sxy =.
!(xi x yi y)
n i=1
n 1
es la covarianza muestral entre X e Y. Cuando r se aproxima a +1 -1, los pares de puntos estn cerca de una linea recta; en cambio, cuando r se aproxima a 0, el grfico de los puntos (diagrama de dispersin), corresponde a una nube de puntos mostrando una relacin no lineal. En la Figura 5.4 se presentan los grficos para distintos valores de r. Notemos que en el grfico F, r = 0, pero hay una relacin no lineal fuerte entre X e Y. Los diagramas A y B representan relaciones exactas de dependencia directa e inversa, respectivamente. En C y D tambin se observan relaciones de dependencia directa e inversa, respectivamente;pero, no exactas. El diagrama E es una representacin tpica que indica ausencia de correlacin en la muestra ; en cambio el diagrama F, aunque r=0, como en el diagrama E, indica que existe una relacin no lineal fuerte.
182
Figura 5.4. Diagramas de dispersin y valores de r Ejemplo. Consideremos los siguientes pares de puntos en el plano: x y -1 1 2 4 0 2 1 3
Queremos determinar el grado de relacin lineal que existe entre la variables asociadas X e Y. Aplicando la frmula tenemos que sxy = 5/3; sx = sy =5/3, y por lo tanto, r = s xy = 1, x sy indicando que existe una relacin de dependencia lineal exacta entre X e Y, como se ilustra en la figura 5.5.
s
Figura 5.5. EJERCICIOS 1. Las vidas tiles de 60 ampolletas elctricas de 100 watts son:
807 660 881 766 1056 832 811 753 872 787 1076 863 620 1050 869 923 958 852 650 918 841 792 970 788 817 857 847 803 776 980 732 867 833 933 828 889 747 675 829 947 831 1030 823 880 827 717 781 897 844 878 822 817 1088 755 907 890 811 753 1082 891
183
a) Construya una distribucin de frecuencias de las vidas tiles de estas 60 ampolletas (use amplitudes iguales). b) Dibuje un histograma para la distribucin. c) A partir de la distribucin obtenida en (a), estime la vida promedio y la desviacin estndar de estas 60 ampolletas. 2. Los puntajes finales de 20 alumnos en un curso de Estadstica son: 50, 55, 61, 71, 73, 53, 54, 67, 67, 60,54, 77, 72, 76, 81, 83, 87, 44, 48 y 67. Determine el porcentaje de estos puntajes que caen en cada uno de los intervalos a) . 5 , b) . 25 , c) . 35 . 3. Cada una de las familias Prez y Gonzlez tiene 5 nios. Las edades de los nios de la familia Prez tienen una media de 11 aos, una desviacin estndar de 3.16 aos y una mediana de 10 aos; en tanto que los nios de la familia Gonzlez tienen una edad media de 9 aos, una desviacin estndar de 3.16 aos y una mediana de 10 aos. Compare las edades de los nios de las dos familias, justificando las conclusiones. 4. Si una constante c es agregada a cada xi en la muestra, obtenindose yi =xi +c, cmo la media y la mediana muestral de los yi est relacionada con la media y mediana muestral de las xi ?. b) Si cada xi es multiplicada por una constante c, obtenindose yi = cxi , responda la pregunta a la parte (a). 5. El siguiente conjunto de datos se refiere al tonelaje (en miles de toneladas ) para una muestra de tanques de aceite 229 249 195 218 232 254 269 313 239 257 231 220 232 214 268 270 259 237 189 277 361 253 290 375 220 274 231 222 260 230 258 290 231 223 227 220 229 253 269 224
a) Construya un grfico de tallo y hojas, donde los tallos son 18, 19, 20,.... b) Use el grfico obtenido en (a) para construir una distribucin de frecuencias de 8 intervalos de igual longitud, donde el primer intervalo sea 175 #!! c Dibuje el histograma correspondiente a la distribucin de (b). 6. La cantidad de proteina (mg/gr) en las plantas de porotos de soya de una variedad particular fue determinada para una muestra de 6 plantas obtenindose los siguientes datos: 11.7, 16.1, 14.0, 6.1, 5.1, 4.9. a) Calcule el recorrido muestral b) Calcule la varianza muestral s2 .
184
7. Los siguientes datos corresponden a ganancia (en peso) de una mezcla de TiCr debido a oxidacin cuando se exponen al CO2 por una hora a 1000 C: 6.4, 5.9, 6.1, 5.8, 6.6 y 6.0. Determinar x y s. 8. La desviacin estndar y la varianza son medidas de variabilidad que dependen de las unidades de medicin. El coeficiente de variacin se define por , es adimensional, y mide la cantidad de variabilidad relativa al valor cv=s/x de la media. Calcule el valor del coeficiente de variacin para los datos de los ejercicios 6 y 7. Qu conjunto de datos tiene ms variacin relativa?.
185
CAPITULO VI ESTIMACION DE PARAMETROS
6.1. Propsito de la Inferencia Estadstica La estadstica descriptiva tal como la hemos visto hasta aqu, no requiere de la teora de probabilidades para describir el conjunto de datos x" ,x# ,...,xn . Como su nombre lo indica, slo son tcnicas para describir, sin importar el orgen de los datos. En particular, no se hace ningn intento para generalizar ms all de la informacin que se tiene en ese momento. La inferencia estadstica, sin embargo, est fundamentalmente interesada en la poblacin, fuente u origen de los datos. Ella supone que los nmeros x" ,x# ,...,xn son valores observados de variables aleatorias, los que han sido recolectados como resultados de realizar, por ejemplo, un experimento que sigue un modelo probabilstico. Este modelo probabilstico puede entonces ser utilizado para realizar inferencias acerca del fenmeno estudiado en el experimento. Cuando hablamos de obtener conclusiones respecto de una poblacin particular, nos estamos refiriendo a algunas caractersticas distribucionales de la poblacin. Especficamente, nos referimos a algunos parmetros que caracterizan la distribucin poblacional. Esto significa que la inferencia en cuestin ser relativa a un conjunto de parmetros poblacionales. De aqu que se habla tambin de inferencia paramtrica Como un ejemplo, supongamos que una estudiante de ingeniera tiene clases de Estadstica a las 8 AM los das Lunes, Mircoles y Viernes y hay una probabilidad ) (desconocida) de que ella llegue atrasada a la clase en cualquiera de estos das. La llegada a esta clase cada da podemos pensarla como un ensayo Bernoulli, donde xito corresponde al hecho de llegar atrasada a la clase de Estadstica. Si consideramos que estos ensayos son independientes, para una sucesin de n das de clases observamos X" , X# ,..., Xn variables aleatorias Bernoulli independientes, cada una de parmetro ) , donde Xi = 1 si la estudiante llega atrasada en el da i y Xi = 0 si no. Cmo esta sucesin de ceros y unos podemos utilizarla para obtener informacin acerca de ) , la probabilidad de llegar atrasada a su clase de Estadstica cada da?. En este caso !xi corresponde al nmero de das, del total de n, en que ella llega
n i" n i"
atrasada, por lo que parece intuitivamente claro que x = !xi /n sera una buena aproximacin para ) . En este ejemplo hemos observado valores de variables aleatorias independientes X" , X# ,..., Xn , donde cada una de las Xi tiene la misma 186
distribucin de probabilidades. En estos casos hablamos de muestra aleatoria de tamao n, un concepto que ya habamos adelantado en la seccin 4.9. Formalmente, y a modo de recuerdo, si X" , X# ,..., Xn son variables aleatorias independientes y estn idnticamente distribudas, cada una con la misma distribucin de alguna variable aleatoria X, entonces llamamos a X" ,X# ,...,Xn una muestra aleatoria (m.a.) de la variable aleatoria X. Si X" , X# ,..., Xn es una muestra aleatoria de una variable aleatoria X, entonces se acostumbra a llamar a X variable aleatoria poblacional o sencillamente poblacin. _ ( X" , X# ,..., Xn ) es una muestra aleatoria, entonces su Por otra parte, si X= distribucin de probabilidades conjunta est completamente especificada por sus distribuciones marginales. Esto es. fX _ (x" ,x# ,...,xn ) = fX1 (x1 ).fX2 (x2 ).....fXn (xn ) = fX (x1 ).fX (x2 ).....fX (xn ) si X es una variable continua y pX _ (x" ,x# ,...,xn ) = pX1 (x1 ).pX2 (x2 ).....pXn (xn ) = pX (x1 ).pX (x2 ).....pX (xn ) si X es una variable discreta. Los valores observados x" , x# ,..., xn son llamados valores de la muestra aleatoria seleccionados desde la poblacin en estudio. La definicin que estamos manejando para una muestra aleatoria no es vlida para poblaciones finitas, cuando por ejemplo n nmeros son seleccionados al azar y sin reemplazo desde una poblacin de tamao N (N n); sin embargo, si una muestra de tamao n se selecciona al azar, sin reemplazo, desde una poblacin finita y n es pequeo comparado con N, entonces X" , X# ,..., Xn , satisface, aproximadamente, la definicin de muestra aleatoria. Cuando X" , X# ,..., Xn es una muestra aleatoria de una poblacin X, y conocemos la distribucin de probabilidades de X, entonces conocemos tambin la distribucin conjunta de X" , X# ,..., Xn y podemos evaluar inmediatamente la distribucin de cada Xi . Generalmente, por supuesto, uno o ms aspectos de la distribucin de probabilidades para la poblacin sern desconocidos para nosotros, por ejemplo l o los parmetros que caracterizan a la distribucin o incluso podemos desconocer la densidad o funcin de probabilidad, y por lo tanto, debemos slo suponer que X" , X# ,..., Xn son 187
independientes y nuestra interrogante es saber si tienen alguna distribucin especfica conocida, tal como una distribucin normal, exponencial etc. Nuestro propsito en la inferencia, es utilizar los elementos de la muestra para determinar todos los aspectos desconocidos de nuestro inters, en la mejor forma posible, al considerar la distribucin de probabilidades de la poblacin. Veremos que ciertas funciones de los elementos de una muestra aleatoria tales como X =
i"
! Xi
n
(Media Muestral)
S# =
i"
n ! (Xi X)#
n 1
(Varianza Muestral)
Xn = Mximo (X" ,X# ,...,Xn ) X" = Mnimo (X" ,X# ,...,Xn ) sern muy tiles en la inferencia estadstica. Definicin. Cualquier funcin de los elementos de una muestra aleatoria que no dependa de algn parmetro desconocido se llama estadstico. Los estadsticos son, por lo tanto, variables aleatorias, cuyos valores observados pueden ser evaluados despus que los valores observados para X" ,X# ,...,Xn son conocidos. Como de costumbre, usaremos letras maysculas para denotar a las variables aleatorias, y minsculas para representar sus valores observados. Como los estadsticos son variables aleatorias, sus valores variarn de muestra en muestra y tiene sentido determinar la distribucin de estas variables aleatorias. A estas distribuciones nos referiremos como distribuciones muestrales.
6.2. Distribucin de la media muestral Teorema 6.1. Si X" ,X# ,...,Xn es una muestra aleatoria de una poblacin X que tiene media . y varianza 5 # , entonces X tiene valor esperado . y varianza 5 # /n. Demostracin. El valor esperado de X es
n n E(X ) = E(!Xi /n) = (1/n) !E(Xi ) i" i"
188
= (1/n) ! . = (1/n)(n.) = .
n i"
y su varianza es Var (X ) = Var (DXi /n) = (1/n# ) DVar(Xi ) por independencia de las Xi = (1/n# ) D5 # por estar las Xi idnticamente distribudas = n5 # /n# = 5 # /n. La raz cuadrada positiva de la varianza de X se conoce con el nombre de error estndar de la media, 5 X = 5/ n . Notemos que 5 X decrece a medida que el tamao de la muestra crece. Esto significa que cuando n se hace grande por lo que tenemos ms informacin podemos esperar valores de X ms cercanos a ., lo que significa que el valor observado x es una buena aproximacin de ... Teorema 6.2. Si X" ,X# ,...,Xn es una muestra aleatoria de una poblacin normal de parmetros . y 5 # , entonces X tiene distribucin Normal con parmetros . y 5 # /n. Demostracin. Consideremos la funcin generadora de momentos de la variable aleatoria X .
_ MX (t) = E(etX ) _
= E(etDxi /n ) = E(etX" /n )E(etX# /n )...E(etXn /n ) = MX" (t/n) MX# (t/n)...MXn (t/n)

# # = e.tn tn 5 # " # # = e.t # t 5 n
que corresponde a la funcin generadora de momentos de una variable aleatoria normal de parmetros . y 5 # /n. Por otra parte, si la muestra proviene de una poblacin que no tiene distribucin normal, entonces el siguiente teorema, del Lmite Central, cuya 189
demostracin ya realizamos en la seccin 4.11, nos garantiza que la distribucin de la sucesin de medias muestrales estandarizadas tiende a la distribucin normal estndar. Este teorema, que reproducimos aqu, es la base para justificar muchas aproximaciones en Estadstica. Teorema 6.3. Si X" ,X# ,...,Xn es una muestra aleatoria de una poblacin infinita que tiene media . y varianza 5 # , entonces la distribucin lmite (cuando n tiende a _) de Zn , donde
i Zn = 5 = n
Dx -n.
(X - .)n 5
es la distribucin Normal estndar.
Ejemplo. Una maquina puede ser regulada de modo que descarge un promedio de . kilos por hora (. desconocido). Se ha observado que la cantidad descargada por la maquina se distribuye normal con 5 # =1.0 kg. Se selecciona al azar una muestra de tamao n = 9 horas de descarga, pesando el total descargado en cada hora seleccionada. Se desea encontrar la probabilidad que la media muestral est entre +/- 0.3 kg. de la verdadera media .. Si definimos la variable aleatoria Yi como el peso total descargado en la hora i, entonces Yi se distribuye N(., 1), para todo i=1,...,9, por lo tanto, de acuerdo al Teorema 6.2, Y se distribuye N(., 1/9). La probabilidad que deseamos determinar es P(|Y - .| 0.3) = P[-0.3 (Y - .) 0.3] = P[-0.3n/5 (Y - .)n/5 0.3n/5 ] = P[-0.39/1 Z 0.39/1] = P[-0.9 Z 0.9] utilizando las tablas de la distribucin normal estndar, obtenemos P(|Y - .| 0.3) = 2(0.3159) = 0.6318. As, la probabilidad que la media muestral est dentro de +/- 0.3 de la media poblacional . es 0.6318.
6.3. Distribucin de la Varianza Muestral 190
En esta seccin veremos algunos resultados importantes, relacionados con la variamza muestral, S# , que sern de referencia constante en este y en otros captulos del texto. Teorema 6.4. Si X" ,X# ,...,Xn es una muestra aleatoria de una distribucin con media . y varianza 5 # , entonces la varianza muestral S# = esperado igual a 5 # .
D(Xi X)# n 1
tiene valor
Demostracin. Utilizando la definicin de esperanza tenemos # 1 # E(S# ) = n 1 E[DXi n X ] # 1 # = n 1 (DE(Xi ) nE(X )) y usando la relacin E(X# ) = Var(X) + (E(X))# cualquiera sea la variable aleatoria X, tenemos
1 # # # # E(S# ) = n 1 (D(5 + . ) n(5 /n+. )) 1 # # # # = n 1 ((n5 +n . ) 5 n. )
(n1)5 # n 1
= 5# . Notemos que si observamos x" ,x# ,...,xn como los valores de X" ,X# ,...,Xn de una poblacin, no es verdadero que s# = ni1 sea igual a 5 # . Lo que el Teorema 6.4 dice es que si tomamos repetidas muestras aleatorias del mismo tamao y calculamos s# para cada una de ellas, entonces el promedio de los valores de s# es 5 # . A causa de este resultado, el valor observado s# para la variable aleatoria S# , parece ser una aproximacin razonable para 5 # . Un resultado muy importante que se usa frecuentemente cuando se muestrea de poblaciones normales est dado en el siguiente teorema. Teorema 6.5. Sea X" ,X# ,...,Xn una muestra aleatoria de una poblacin X cuya distribucin es normal de media . y varianza 5 # . Entonces a) La media muestral X y la varianza muestral S# son variables aleatorias independientes.
D(x x )#
191
i b) = 5# es una variable aleatoria con distribucin Chi-cuadrado con 5# n-1 grados de libertad.
D(X -X)#
(n-1)S#
Demostracin. Consideremos la forma estndar de Xi , i =1,...,n Zi =

Xi . 5
, i = 1,...,n,
entonces Z" ,...,Zn son variables normales estndar independientes. Sea

D(Xi .)/5 X. Z = DZi /n = = n 5 .
# Entonces Z N(0,1/n) y n Z N(0,1). Por lo tanto nZ es una variable aleatoria chi-cuadrado con 1 grado de libertad. Ahora, como Z" ,...,Zn son variables aleatorias normales independientes, ellas estn no correlacionadas (Teorema 4.3), adems para cada i =1,...,n , Z y Zi Z estn no correlacionadas (ver ejemplo de seccin 4.9). Ms an, Z y Zi Z son independientes ya que ellas tienen distribucin normal bivariante para todo i=1,2,....,n. Por Teorema 4.6 Z y D(Zi Z )# son independientes por # lo que tambin lo son nZ y D(Zi Z )# , y finalmente aplicando el Teorema 4.5 encontramos que
D(Z Z)# D(Xi X)# nZ = X y 5 # ni1 = n = S# 1
son independientes, con lo que concluye la demostracin de parte (a).

(n1)S# Para la parte (b), notemos que D(Zi Z )# = 5 # tiene distribucin Chicuadrado con n-1 grados de libertad, y como
# D(Zi Z )# = D Z# i nZ tenemos que # # D Z# i = D(Zi Z ) + nZ . Por otra parte, la funcin generadora de momentos de !Z# i es por definicin
n i=1
# # # E[et D Zi ] = E[et D(Zi Z) + tnZ ] # # = E[et D(Zi Z) ] E[etnZ ]
192
por la independencia de las variables aleatorias involucradas. # Dado que DZ# se distribuyen Chi-cuadrado con n y n-1 grados de i y nZ libertad respectivamente, tenemos (1 2t)n# = E[et D(î ^ ) ] (1 2t)"# . As, E[et D(î ^ ) ] = (1 2t)n"# es la funcin generadora que corresponde a una distribucin Chi-cuadrado con n-1 grados de libertad. Ejemplo. Consideremos nuevamente el Ejemplo anterior y supongamos que extraemos una muestra aleatoria de tamao n=10. Si estas observaciones son utilizadas para calcular S# , podra ser til especificar un intervalo de valores que incluya a S# con alta probabilidad; esto es, encontrar por ejemplo los nmeros b" y b# tales que P(S# < b" ) = 0.05 y P(S# b# ) = 0.95 para as tener P(b" S# b# ) = 0.9 Notemos en este ejemplo que P(b" S# b# ) = P[(n-1)b" /5 # (n-1)S# /5 # (n-1)b# )/5 # ]. Dado que 5 # =1 y n=10, se sigue que (n-1)S# /5 # = 9S# , tiene distribucin ;# con 9 grados de libertad. Usando las tablas ;# (9) podemos encontrar los dos nmeros 9b" y 9b# tales que P(9b" 9S# 9 b# ) = 0.90 Los valores correspondientes de la tabla son: 9b" = 3.325 y 9b# = 16.919, de donde se tiene que b" = 0.396 y b# = 1.88. Luego, el intervalo (0.369, 1.88) contiene a S# con probabilidad 0.90. De los resultados del Teorema 6.5 es fcil ver que la distribucin de la variable aleatoria n(X -.)/S, cuando X" ,...,Xn es una muestra aleatoria de una 193
poblacin normal, es t-student con n 1 grados de libertad. En efecto, sabemos que n(X -.)/5 se distribuye N(0,1) y que (n-1)S# /5 # se distribuye ;# (n-1). Adems, estas dos variables son independientes, por lo que, de acuerdo a la definicin de una variable t-student con / grados de libertad,
n(X-.)/5 T = Z# = = n (X - .)/S ; // (n-1)S /5 # (n-1)
se distribuye t- student con n-1 grados de libertad. Este resultado corresponde a la desmostracin del siguiente teorema: Teorema 6.6. Si X" ,X# ,...,Xn es una muestra aleatoria de una poblacin normal con media . y varianza 5 # , entonces n(X -.)/S tiene distribucin t-student con n-1 grados de libertad. Lo ms importante de este resultado es que el parmetro 5 se cancela al formar el cuociente en la definicin de la variable aleatoria T, y la distribucin para n(X -.)/S es la misma no importando el valor de 5 . Esta variable aleatoria con distribucin t-student ser muy importante al efectuar inferencias acerca de la media . de una poblacin normal con varianza 5 # desconocida. Para aclarar las frecuentes confusiones que se producen respecto del uso de la distribucin Normal (estndar) y la distribucin t-student, en relacin a expresiones del tipo T=
(X.) S
y Z=
(X.) 5
o como en el caso de la media T = S/n y Z = 5 /n ,

(X.) (X.)
observemos que si el valor de 5 es conocido entonces Z tendr distribucin normal estndar (utilizando el Teorema del Lmite Central). Si 5 es desconocida, la distribucin de T ser la de una t-student con (n-1) grados de libertad. No obstante lo anterior, y dada la similitud de ambas distribuciones cuando n es grande; esto es, por ejemplo, cuando, n > 30 (este nmero es tambin discutible), la distribucin t-student se puede aproximar por la normal estndar. Ejemplo. La resistencia a la traccin de un cable se distribuye normalmente con media . y varianza 5 # ambas desconocidas. Se seleccionan al azar 6 trozos de alambre y se mide la resistencia Xi de cada uno de ellos. Tanto la media como la varianza poblacional pueden ser estimadas mediante X y S# , 194
respectivamente. Encuentre la probabilidad que X est entre +/- 2S/n veces la verdadera media poblacional ... Deseamos encontrar la probabilidad P2S n
(X - .)
2S n
que es equivalente a calcular P - 2

n(X.) S
donde T = tiene distribucin t-student con n 1=5 gl. Esta S probabilidad corresponde aproximadamente a P(-2.015 T 2.015) = 0.90. Por lo tanto, hay una probabilidad de 0.90 de que X est entre +/- dos desviaciones estndar de la verdadera media. Si 5 # hubiese sido conocida, esta probabilidad se habra obtenido mediante la relacin
n(X.) 25 25 P- (X . ) = P -2 2 5 n n
n(X .)
2 = P(-2 T 2)
= P(-2 Z 2) = 0.9544.
6.4. Mtodos de Estimacin Los problemas de inferencia estadstica (y sus soluciones) se dividen en dos reas: Estimacin de parmetros y Pruebas de Hiptesis. Examinaremos la primera en esta seccin. Generalmente en un problema de estimacin de parmetros se dispone una muestra aleatoria de una variable poblacional X, cuya distribucin de probabilidades se supone conocida, salvo por algunos parmetros que son desconocidos. El problema es entonces cmo usar las observaciones muestrales para estimar los valores de estos parmetros. ^ a su estimador. No Denotaremos por ) el parmetro desconocido, y por ) haremos distincin, en la notacin, entre estadstico (variable aleatoria) usado como estimador de ) y el valor observado del estadstico, en ambos casos ^, en el entendido que quedar claro, segn el contexto, a cul de los usaremos ) dos nos estamos refiriendo. 195
6.5 Mtodo por Momentos Un procedimiento sencillo para obtener estimadores de parmetros es el mtodo de los momentos que fue propuesto por Karl Pearson (1894). Sea q() ), una funcin que deseamos estimar. El mtodo de los momentos consiste en escribir la funcin de ), q()), como una funcin continua h de los primeros r momentos poblacionales, esto es, q() ) = h(." ,...,.< ) donde .k = E(Xk ) es el k-simo momento poblacional; k=1,2,...,r, y luego considerar como estimador por momentos a T(X" ,...,Xn ) = q(s ) ) = h(M" ,M# ,...,M< ), !Xk donde Mk = 1 i es el k-simo momento muestral; k = 1,2,...,r. n i=1
n
Veamos algunos ejemplos como ilustracin de este mtodo. Ejemplo. Una muestra aleatoria de n observaciones X" ,...Xn se selecciona desde una poblacin con distribucin uniforme sobre el intervalo (0, )), en que ) es desconocido. Deseamos encontrar, mediante el mtodo de los momentos, un estimador s ) de ) . El valor de ." para una variable aleatoria uniforme es ." = E(X) = ) /2. As, ) = h(." ) = 2." y
n M" = 1/n ! Xi = X i"
es el primer momento muestral. Por lo tanto, el estimador por momentos de ) es T(X" ,X# ,...,Xn ) = s ) = 2M" = 2X .
Ejemplo. Supongamos que queremos estimar, por el mtodo de momentos, la varianza, 5 # , de una poblacin cualquiera X.
196
# Sabemos que 5 # = E(X# ) (E(X)# ) = .# ." = h(." , .# ) Luego, si consideramos una muestra aleatoria X" ,...,Xn de esta poblacin, tenemos que el estimador por momento de la varianza poblacional 5 # es
T(X" ,...,Xn ) = h(M" ,M# ) = M# M# "

1 # # = 1 n DXi n DXi
# # =1 n DXi X =
D(Xi X)# n
Para emplear el mtodo de momentos es necesario conocer los momentos poblacionales y no necesariamente se debe conocer la distribucin de probabilidades de la poblacin. Aunque esta es una ventaja del mtodo, este no proporciona estimadores nicos, debido a que el mtodo slo exige exhibir una funcin h que involucre algunos momentos poblacionales y no siempre esta funcin es nica, como lo veremos en el ejemplo siguiente. Ejemplo. Estamos interesados en estimar el parmetro de una poblacin X con distribucin Poisson de parmetro ) y, para ello, considermos una muestra aleatoria X" ,....,Xn de X. Como ) = E(X), entonces un estimador por momentos de ) es M" = X , pero como tambin ) = 5 # , en una distribucin Poisson, tenemos que un estimador 1 # por momentos tambin sera n n S . Si n=5 y los valores observados de la muestra aleatoria son: 1, 2, 2, 3, 1,. podemos reportar como valor estimado de ) as ) = 1.8 o s ) = 0.56.
6.6. Mtodo Mximo Verosmil Este mtodo es en general superior al mtodo de los momentos (en aquellos casos que resulten dos estimadores distintos por ambos mtodos). Para ilustrar el mtodo, consideremos la siguiente situacin: Supongamos que disponemos de una caja que contiene tres bolas. Sabemos que algunas de ellas son rojas y otras son blancas, pero no sabemos el nmero exacto de cada color y nuestro inters es estimar ), el nmero total de bolas rojas. Se nos permite seleccionar al azar dos bolas. Si nuestro muestreo da como resultado la extraccin de dos bolas rojas, Cul sera un buen estimador para ) ?. Obviamente, ) , el total de bolas rojas, deber ser dos o tres. Si el contenido real es de dos rojas y una blanca, esto es ) = 2, la probabilidad de obtener dos bolas rojas en la muestra es
197
"$. En cambio, si ) = 3, tres bolas rojas en total, la probabilidad de obtener dos rojas es 1. Parece entonces razonable elegir el valor tres como estimador de ) el nmero de bolas rojas en la caja, dado que con este valor se maximiza la probabilidad de la muestra observada. Por cierto, es probable que la caja contenga slo dos bolas rojas, pero la evidencia de la muestra otorga mayor credibilidad o verosimilitud a la existencia de tres rojas por sobre slo dos. Definicin. Suponga que x" ,...,xn son los valores observados de una muestra aleatoria de una poblacin X con funcin de probabilidad (o densidad), f(x.) ), que depende de un parmetro desconocido ). La funcin de probabilidad o densidad conjunta de la muestra aleatoria considerada como funcin de ) define a la funcin de verosimilitud. L() ) = f(x" ,) )...f(xn ,) ) El mtodo de mxima verosimilitud consiste en obtener, como estimadores, aquellos valores de los parmetros que maximizan la funcin de verosimilitud, L() ) = L() ; x" ,...,xn ), considerada como una funcin de ) . El mximo de L() ) ocurre en muchos casos en aquel valor de ) donde d) = 0. As, en la mayora de los casos el estimador mximo verosmil (EMV) de ) , s ) , se puede determinar desde
dL();x" ,....xn ) ^ d) ) =) dL())
=0
Dado que L()) es siempre no negativa y logra su mximo para el mismo valor de ) que ln(L), generalmente resulta ms simple obtener el EMV de ) resolviendo
dlnL();x" ,...,xn ) ^ d) ) =)
=0
En las siguientes observaciones damos algunas propiedades importantes de los EMV. Observaciones. La extensin al caso de varios parmetros es natural. Si tenemos m parmetros, la funcin de verosimilitud es L()" ,...,)m ;x" ,...,xn ) y los EMV de )j ; j = 1,...,m los obtenemos resolviendo el sistema de ecuaciones
` lnL ^ ` )j )=) j
= 0 ; j =1,2,...,m . 198
Se puede probar que si s ) es el EMV de ) y si g()) es una funcin de ), uno a uno y diferenciable con respecto a ) , entonces el EMV de g()) es g(s )). Esta es la propiedad conocida como invarianza, y es muy importante en inferencia estadstica, ya que nos permite determinar EMV de algunas funciones de parmetros (por ejemplo de funciones lineales), en condiciones muy generales. Ejemplo. Supongamos que x" ,....,xn corresponden a la realizacin de n ensayos Bernoulli independientes con probabilidad de xito ) en cada ensayo, donde xi =1 si el i-simo ensayo es un xito y xi =0 si es un fracaso. Queremos determinar el estimador mximo verosmil de la probabilidad de xito ) . La funcin de verosimilitud de la muestra observada es: L() ;x" ,...,xn ) = ) C (1-) )n-C , donde y = !xi.
n i"
Para encontrar el valor de ) que maximiza L, notemos que L es igual a cero para )=0 y 1, y es continua para valores entre 0 y 1. Luego podemos encontrar dL()) el punto mximo haciendo d) = 0 y resolviendo la ecuacin resultante para ) . Adems, dado que L es una funcin montona creciente, ln(L) y L sern maximizados por el mismo valor de ) , determinaremos el valor que maximiza ln(L) (denotado habitualmente como l() ;x)); - esto es, ! ! l() ;x) - = xi ln() ) + (n- xi )ln(1-) ),
cuya derivada es ! ! dl() ;x)/d - ) = xi (1/) ) + (n- xi )(-1/(1-) )) Luego, el valor de ) que maximiza l() ;x) - es la solucin de la ecuacin: !xi /) - (n-!xi )/(1-)) = 0
cuya solucin es s ) = !xi /n = x que corresponde precisamente a la fraccin de xitos en los n ensayos. Ejemplo. Supongamos que X" ,...,Xn representan los tiempos de fallas para una cierta pieza de un equipo y que los tiempos de vida son exponenciales e 199
independientes con parmetro - (desconocido). Queremos encontrar el estimador mximo verosmil para -. Sean x - =(x" ,...xn) los valores observados de X" ,...,Xn . La funcin de verosimilitud es entonces
n --Dxi L(-;x) , xi > 0; i = 1,n - =- e
lnL(-;x) - = nln- - -Dxi .

dlnL(-;x) d-
n -
- Dxi
1 s e igualando a cero, tenemos que s= n = Evaluando en - = Dx i x .
Ejemplo. En el ejemplo anterior vimos que el estimador mximo verosmil s=1/X para -, el parmetro de una distribucin exponencial es . La propiedad de invarianza, dice que el estimador mximo verosmil para la media de una s= exponencial, . = 1/- es . X y el estimador mximo verosmil para s = 1/P(X > c) es exp(-c/x ) , para c>0 fijo.
6.7. Propiedades de los Estimadores Puntuales Hemos estudiado hasta el momento dos mtodos para construir estimadores de parmetros (o funciones de parmetros). En muchos casos estos dos mtodos conducen a los mismos estimadores, pero tambin en muchos casos importantes esto no sucede as. Para la eleccin entre dos o ms estimadores para el mismo parmetro es importante desarrollar criterios para compararlos. Consideremos la siguiente situacin: Un tirador dispara a un blanco y acierta justo en el centro de l. Se trata, sin duda, de un excelente disparo. Pregunta: Sujetara Ud. el blanco sobre su cabeza para el siguiente disparo?. Obviamente no podemos establecer la precisin del tirador en base a tan pequea evidencia muestral. Sin embargo, si ste hace un milln de disparos y todos ellos aciertan sucesivamente en el blanco, podramos confiar en la habilidad del tirador como para sujetar el blanco en un prximo ensayo. La idea es que no podemos establecer las propiedades de un estimador en base a un sola observacin. En lugar de ello, deberamos observar los resultados del procedimiento un gran nmero de veces y construir distribuciones de frecuencia de los valores obtenidos para el estimador, considerando varias observaciones. De la distribucin del estimador podemos observar que tan cerca del parmetro de inters se agrupan los distintos valores.
200
Siguiendo el razonamiento anterior, nos interesa entonces establecer algunos criterios bajo los cuales la calidad de un estimador puede ser evaluada. Estos criterios definen, en general, propiedades deseables de los estimadores que nos sirven para compararlos. Supongamos que deseamos especificar un estimador puntual de un parmetro poblacional ) . El valor estimado de ) se indica por el smbolo s ) . Con el ejemplo anterior es obvio que una de las propiedades deseables sera que la distribucin muestral de los valores estimados estuviera centrada en el valor poblacional, ) , como se muestra en la Figura 5.1. En otras palabras, desearamos que la media o el valor esperado del estimador sea igual al valor del parmetro; esto es, deseamos que E(s )) = ). Los estimadores puntuales que poseen esta propiedad se llaman estimadores insesgados. Definicin. Sea s ) un estimador puntual de un parmetro ) . Se dice que s ) es s insesgado si y slo si (ssi.) E()) = ) para todo ). En caso contrario se dice que s ) es sesgado. En otras palabras, con esto esperamos que "en promedio" s ) sea cercano al verdadero valor del parmetro. Definicin. El sesgo B de un estimador puntual s ) est dado por la expresin B = E(s )) ). De acuerdo a lo que hemos visto hasta aqu, si utilizamos X y S# como estimadores de la media poblacional . y la varianza poblacional 5 # , stos 1 seran insesgados. Ahora, si usamos 5 s # = n D(Xi X )# como estimador de la
1 # # varianza encontramos que su media es n s # sera un n 5 5 , y por tanto 5 estimador sesgado de 5 # . Parece natural que un buen estimador no slo debe ser tal que su media est cercana al verdadero valor del parmetro, sino que tambin debera variar poco. Por lo tanto, debemos considerar estadsticos que adems de ser insesgados tengan varianza tan pequea como sea posible.
Figura 6.1
Figura 6.2 201
Figura 6.3
Las Figuras 6.2 y 6.3 muestran dos tipos de distribuciones insesgadas. Es evidente que la representada por Figura 6.3 es preferible pues una menor varianza implica que en repetidas muestras una mayor fraccin de s ) estar "cerca" de ). De aqu es fcil concluir que una propiedad deseable de los estimadores ser la de tener una variacin tan pequea como sea posible. Definicin. Sea s ) un estimador insesgado de ). Decimos que s ) es un estimador insesgado de mnima varianza para ), si para cualquier otro estimador insesgado ) de ) se tiene que ^) Var() ), a ) . Var() Lo anterior nos permite formular la siguiente regla: Dados dos estimadores para el parmetro ), y siendo todo el resto de las condiciones equivalentes para ambos, se elegir siempre aquel de menor varianza. Ejemplo. Sabemos que la media muestral X es un estimador insesgado de la media poblacional. Por lo tanto, X es un estimador insesgado de ., parmetro de una distribucin Normal; de . la media de una distribucin Poisson(.) y de p parmetro de una distribucin Bernoulli. Nos interesa averiguar si la calidad de X mejora cuando n crece. E(X ) = . que no depende de n; pero V(X ) = 5 # /n decrece cuando n aumenta. Es claro entonces que, basndose en un criterio de mnima varianza, la calidad de X como estimador de . mejora cuando n crece. Una pregunta natural de formular es: basndonos en una muestra fija de tamao n, Podramos encontrar otro estimador mejor para ., distinto de X , en trminos de insesgamiento y mnima varianza, para estas distribuciones?. La respuesta est en la desigualdad de Cramer-Rao que proporciona una cota inferior para la varianza de cualquier estimador insesgado del parmetro de una distribucin de probabilidades, bajo condiciones de regularidad que incluyen: i) El espacio de valores de la variable aleatoria involucrada debe ser independiente del parmetro. ii) La funcin de densidad (o funcin de probabilidad) debe ser una funcin continua y diferenciable del parmetro. Teorema 6.7. (Cramer-Rao). Sea X" ,...Xn una muestra aleatoria de tamao n de una poblacin X con funcin de densidad (o funcin de probabilidad) f(x;) ), que depende de un parmetro ) desconocido, y satisface las condiciones de regularidad. Sea s ) = T(X" ,....,Xn ) un estimador insesgado para ). Entonces Var(s ))
nE(
` lnf(x,)) 2 `) )
202
Demostracin. Desarrollaremos la demostracin para el caso en que X es una variable aleatoria continua. Un resultado anlogo se puede establecer cuando X es discreta. _ ( X" ,...,Xn ) es una muestra aleatoria., tenemos que Dado que X= f(x" ,...xn ;) ) = f(x" ;) )...f(xn ;) ). ^ = T(X ,...,X ) y la Por otra parte, por la propiedad de insesgamiento de ) 1 n definicin de valor esperado tenemos E(T(X1 ,...,Xn )) = ) ; esto es, ) = ( T(x" ,...,xn ) f(x" ;) )...f(xn ;) )dx" ...dxn
n
(6.1)
Adems, sabemos que para i=1,...,n ( f(xi ;) )dxi =1
(6.2)
Diferenciando (6.1) con respecto a ) , tenemos 1 = ( T(x" ,...,xn )"

n n j" n
1 ` f(xj ;) ) f(x" ;) )...f(xn ;) )dx" ...dxn f(xj ;) ) ` ) f(x" ;) )...f(xn ;) )dx" ...dxn (6.3)
='n T(x" ,...,xn ) ! 0=(
j"
` ` ) lnf(xj ;) )
Diferenciando (6.2) respecto a ) tenemos ` f(xj ;) ) dxj , j = 1,n `)
que podemos escribir como 0 =( ` lnf(xj ;) )f(xj ;) )dxj , `)

n
j=1,n.
(6.4)
` Si hacemos Y = ! ` ) lnf(xj ;) ) obtenemos de (6.4) y (6.3) que

j"
E(Y) = 0 y E(TY) = 1. 203
Adems,
` Var(Y) = Var ! ` ) lnf(xj ;) )

n j" n ` = ! Var( ` ) lnf(xj ;) )) j" n # ` =!E ` ) lnf(xj ;) ) j" # ` = nE ` lnf(x ; ) ) . j )
Por otra parte Cov(T,Y) = E(TY) pues E(Y) = 0 y por definicin de coeficiente de correlacin tenemos 3TY = 5 5 T Y
E(TY)
# # donde 5T = Var (T) y 5] = Var (Y) y 3T] es la correlacin entre T e ] . Entonces
E(TY) = 3TY 5T 5Y o 1= 3TY 5T 5Y Finalmente, notando que 3# 1, tenemos que

1 Var (s ) ) = Var(T) 51# = . ` nE( ` lnf(x; )))2 ] )
Si s ) no es un estimador insesgado de ) , se puede probar que la cota de CramerRao est dada por la expresin
# 5s )
(1+B(s )))# ` 2 nE( ` ) lnf(x;) ))
(1+B(s )))# I())
204
La cantidad I()) es conocida como cantidad de informacin o como Nmero de informacin de Fisher o simplemente informacin de Fisher. De aqu que la CCR tambin se conoce con el nombre de desigualdad de informacin. En la clase de estimadores insesgados, la cota inferior en la desigualdad de informacin es 1/I() ), independientemente del estimador que estemos considerando. Bajo supuestos que implican la existencia de las segundas derivadas y el intercambio del orden de ciertas integrales con sus derivadas, la desigualdad de Cramer-Rao se puede escribir tambin como
-1 Var (s ) ) nE{` # ln f(X; ))/` )# }
Esta expresin alternativa es ms til para efectos computacionales. La CCR puede extenderse fcilmente para ciertas transformaciones del parmetro. Especficamente, si : = g() ) es una transformacin uno a uno y diferenciable, entonces:
dg()) CCR para Var (: ) ), s) = d) CCR para Var (s
#
donde : s es un estimador insesgado de :. Dado un estimador insesgado s ) de ) , la razn de su cota de Cramer-Rao a su varianza, se llama eficiencia de s ). Notemos que segn esta definicin, la eficiencia de cualquier estimador insesgado es siempre menor o igual que uno. Un estimador insesgado con eficiencia uno se dice eficiente. _ As, con respecto a la pregunta, Es X el mejor estimador para . en trminos de insesgamiento y mnima varianza?, para responderla consideremos, por ejemplo, la funcin de densidad correspondiente a una poblacin N(., 5 # ), donde slo . es desconocido. Entonces, ln f(X; .) = ln 1
` ln f(X; .) `. (X-.)
21 5
(X.)# 25 #
= 5#
y E
` ln f(X; .) # `.
= E 5 # = 1/5 # .
X-. 2
205
La CCR establece entonces, que la varianza insesgado _ de cualquier estimador _ de . es mayor o igual a 5 # /n. Como Var(X)=5 # /n, entonces X tiene mnima varianza entre todos los estimadores insesgados para ., cuando la poblacin es _ normal y slo . es desconocido. Adems, X es un estimador eficiente, pues la _ razn entre la CCR y la varianza de X es uno. En algunas situaciones, es deseable obtener estimadores del parmetro de inters, considerando como criterio la minimizacin tanto del sesgo, como de la varianza del estimador. Esto se logra minimizando el promedio de la distancia al cuadrado entre s ) y el verdadero valor ) del parmetro. Esta cantidad se denomina Cuadrado Medio del Error. Definicin. El Cuadrado Medio del error (CME) de un estimador puntual s ) se define por CME(s ) ) = E(s ) -) ) # . Notemos que CME(s ) ) = E((s ) E(s ) ) + (E(s ) ) ) ))# = E((s ) - E(s ) ))# + (E(s ) )-) ))# , dado que los dobles productos se hacen 0. Luego, CME(s ) ) = Var (s ) ) + B# . Por lo tanto, si s ) es un estimador insesgado del parmetro ) , entonces s s CME() )=Var() ). Ejemplo. Sea X" , X# una muestra aleatoria de tamao 2 de X con distribucin _ Exponencial de parmetro - desconocido. Consideremos a s ) " =X y a s ) # = X1 X2 estimadores de .=1/-. En trminos del error cuadrtico medio, cul de los dos es mejor?. _ El CME(s ) " )=Var(s ) " )=1/(2-# ), por ser X un estimador insesgado de .. Ahora, CME(s ) # ) = Var (X1 X2 ) + (EX1 X2 .)# de donde Var(X1 X2 ) = E(X1 X2 ) - E(X1 )E(X2 ). 206
Caculemos E(X) con X exponencial de parmetro -. E(X) =(

_
x"/# -e--x dx =
>(3/2) = (1/-)"/# /2 - "/ #
Por lo tanto
1# Var(X1 X2 ) = 1/-# - 1# /(16-# ) = 1616-# -4 B(X1 X2 ) = ((1/4) (1/-) - 1/-)# = 1 4-
#
De aqu, el Error Cuadrtico Medio de s ) # est dado por

4-1 CME(s )# ) = 2 -# .
Como 4-1< 1 tenemos EMC(s ) # ) < EMC(s ) " ) y, de acuerdo a este criterio, s ) # es s preferido a ) 1 . Otra propiedad adicional que un estimador puede tener es la propiedad de consistencia. Esta es una propiedad asinttica o de muestras grandes, ya que describe una propiedad lmite de la distribucin de probabilidades del estimador, cuando el tamao de la muestra n aumenta. Supongamos que lanzamos una moneda n veces, con probabilidad p de obtener cara en cada ensayo. Si los lanzamientos son independientes, y definimos la variable aleatoria Y como el nmero de caras en los n lanzamientos, entonces Y tiene distribucin Binomial. Si el verdadero valor de p es desconocido, la proporcin muestral ^ p=Y/n es un estimador insesgado de p. Qu pasa a esta proporcin muestral si aumenta el nmero n de lanzamientos?. Intuitivamente diremos que a medida que n aumenta, Y/n se acercar al verdadero valor de p. Como Y/n es una variable aleatoria, esta cercana a p en trminos probabilsticos la cuantificamos mediante la expresin P(|Y/n-p|<%) para un valor arbitrario %>0. Esta probabilidad ser cercana a 1 si nuestra intuicin es correcta. Definicin. El estimador s ) n se dice consistente para ) si, para cualquier %>0, se tiene que lim (P|s ) n - ) | < %) = 1, n_ o equivalentemente 207
lim P(|s ) n -) | > % ) = 0 . n_ Notemos que, de la desigualdad de Chebyshev

E(s )n - ))# CME(s )n ) P(|s ) n -) |> ) = %# %#
de donde se sigue que si el CME(s ) n ) tiende a cero cuando n tiende a infinito; esto es, tanto la varianza como el sesgo de s ) n tienden a cero cuando n tiende a s infinito, entonces ) n es un estimador consistente de ). Teorema 6.8 . Un estimador insesgado s ) n de ) es consistente si lim Var(s ) n ) = 0. n_ Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una poblacin con distribucin _ de probabilidades con media . y varianza 5 # <_. Verifiquemos que X es un estimador consistente de .. _ _ _ Sabemos que E(X)=. _ y Var(X)=5 # /n. Dado que X es un estimador insesgado para ., y como Var(X) p 0, cuando n crece, el teorema anterior se aplica directamente. _ Equivalentemente se puede decir que X converge en probabilidad a .. Este hecho es tambin conocido como la Ley de los Grandes Nmeros. Hasta el momento hemos utilizado la informacin contenida en una muestra de _ tamao n para calcular el valor de estadsticos de inters, como por ejemplo X y S# . Debemos preguntarnos, sin embargo, si este proceso de condensacin de la informacin ha retenido toda la informacin disponible acerca de . y 5 # , o bien, si se ha perdido alguna informacin acerca de los parmetros poblacionales durante el proceso de reduccin de los datos. En consideracin a la pregunta anterior, debemos buscar estadsticos que resuman toda la informacin contenida en la muestra acerca del parmetro desconocido de inters. Tales estadsticos se dice que tienen la propiedad de suficiencia o ms simplemente son llamados estadsticos suficientes. Un estadstico T(X" ,...,Xn ) se dice suficiente si utiliza toda la informacin de una muestra relevante a la estimacin del parmetro poblacional ) ; esto es, si todo el conocimiento que podemos obtener acerca de ) especificando los valores observados de X = (X" ,...,Xn ), tambin puede ser obtenido observando _ el valor del estadstico T(X). 208
Definicin. Sea X" ,...,Xn una muestra aleatoria de una distribucin de probabilidades con parmetro desconocido ) . T = T(X" ,...,Xn ) es un estadstico suficiente para ) , si y slo si (ssi), la distribucin condicional de (X" ,...,Xn ) dado T=t, para todo valor de t, es independiente de ) . Ejemplo. Consideremos los resultados observados de n ensayos Bernoulli independientes X" ,...,Xn , donde Xi =1 con probabilidad p y es 0 con probabilidad 1 p. Sea T = !Xi = N de xitos en los n ensayos. Si
n i=1
conocemos el valor de T, Podemos ganar informacin adicional acerca de p, observando otras funciones de X" ,...,Xn ?. Una manera de responder es observar la distribucin condicional de X" ,...,Xn dado T=t; esto es: P(X" =x" ,...,Xn =xn |T=t) = P(X" =x" ,...,Xn =xn , T=t) P(T=t)
n-t t = pt (1-p)n-t } n t p (1-p)
= P(X" =x" ,...,Xn =xn ) P(T=t)
= 1 n t .
Como esta probabilidad condicional no depende de p, podemos concluir que una vez conocido T, ninguna otra funcin de X" ,...,Xn proporciona informacin adicional sobre el posible valor de p. En este sentido, T contiene la informacin relativa a p y, por tanto, es un estadstico suficiente para p. La definicin anterior, no nos permite en forma directa la obtencin de un estadstico suficiente para un parmetro ). El siguiente teorema nos proporciona un criterio para obtener facilmente estadsticos suficientes. _ un estadstico basado en Teorema 6.9. (de Factorizacin de Fisher) Sea T(X), _ _ es un estadstico suficiente para ) si y la muestra aleatoria X=(X " ,...,Xn ). T(X) _ (la funcin de verosimilitud L(),x)), puede solo si, la densidad conjunta de X ser factorizada en dos funciones no negativas, de la forma _ ) ) h(X), L() , _ x) = g(T(x), donde g es una funcin slo de T y ), y h no es funcin de ). Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una poblacin con distribucin exponencial con media -; esto es, Xi posee funcin de densidad 209
f() ; x3 ) = 1/- exp(-x3 /-),
x3 > 0,
i=1,n
La funcin de verosimilitud de la muestra es la densidad conjunta L = f(-; x" ,...,xn ) = f (-; x" ) f(-; x# )...f(-; xn ) n = [exp(-!n 3" x3 /-] _ = [exp (-nx/-)]-n . = [exp(-x" /-)]-... [exp(-xn /-)]-
_ Como L es una funcin que depende slo de y x, aplicando el teorema de _ _ n _ factorizacin con g( , x) = [exp(-nx/ )] y h(x) = 1, podemos concluir que _ X es un estimador suficiente para -. Notemos tambin que !X4 es otro estadstico suficiente para -. Ejemplo. Sea X" ,...,Xn es una muestra aleatoria de una distribucin uniforme en (0, ) ) y determinemos un estadstico suficiente para ) . La funcin de verosimilitud de la muestra aleatoria es L() , _ x) = (1/) )n , x3 (0,) ) para todo i=1,...,n lo que es equivalente a escribir L() , _ x) = (1/) )n , para xn <) ; donde xn = mx (x" , x# ,...,xn ). As, tenemos la factorizacin L() , _ x) = (1/) )n I!) (xn ) = g(), Xn ), donde IA (x) = 0 si xA
1 si xA
es la funcin indicadora de un conjunto A. Por lo tanto, aplicando el teorema de factorizacin con h(x)=1, un estadstico suficiente para ) es T(X" ,...,Xn ) = Xn .
6.8. Estimacin por Intervalos Hasta aqu, hemos revisado las propiedades de estimadores puntuales de los parmetros de una distribucin poblacional de probabilidades. Proporcionar un 210
buen estimador, T(X), del parmetro o funcin del parmetro, ) , no es suficiente, ya que debemos de alguna manera dar cierta idea de la incertidumbre de la estimacin, la que puede ser producto, por ejemplo, de la seleccin de la muestra. Para esto incorporamos el concepto de precisin o de error del estimador. Usualmente los investigadores proporcionan como estimacin de un parmetro _ %, donde % generalmente es el error cuadrtico medio desconocido ) a T(X) + de T o una estimacin de l. Sin embargo, tambin hay dificultades al reportar, _ por ejemplo que )=2+0.01, ya que a pesar que T(X) sea un estimador insesgado y % sea exactamente la desviacin estndar de T(X), no tenemos seguridad que las cotas T+% y T % incluyan a ). En realidad, en la mayora de los problemas, se tiene una probabilidad positiva que [T(X) %, T(X)+%] no incluya a ) , para cualquier % dado. Ilustremos esta idea en el ejemplo siguiente Ejemplo. Sea X" ,...,Xn una muestra aleatoria de una poblacin N() , 5 # ) con 5 # conocida. Nuestro inters es estimar _ ) , la media de la poblacin normal. Como el estimador natural a usar es X _y su desviacin estndar es 5 /n los _ 5 /n. investigadores establecern que ) = X+ _ _%, no incluyan a ) como Podemos calcular la probabilidad que estas cotas, X+ sigue _ P(|X )|> %) = P|
_ n (X-)) 5
| > 5 = P(|Z|> 5 )
%n
%n
%n
= P(Z> 5 ) + P(Z < 5 ) = F (- 5 ) + (1-F ( 5 )) = 2F (- 5 ) > 0 cualquiera sea % y n, donde F indica la funcin de distribucin de la normal estndar. Si elegimos % o n suficientemente grande, esta probabilidad puede hacerse ms pequea que cualquier nmero positivo. _ Si hacemos %=5 / n, por ejemplo, tenemos de las tablas normales que P(|X-)|>5/n) = 0.32, un nmero no muy pequeo para ser desechado. Esta ilustracin nos sugiere que en lugar de elegir % igual a la desviacin estndar de nuestro estimador, debemos elegir un nmero !, y despus preocuparnos de elegir % (o % y n) suficientemente grande, de manera de tener 211
%n %n %n
%n
_ %n P(|X-)|> %) = 2F( 5 ) = ! _ _ y, finalmente, afirmar que ) est entre X % y X+%. Equivalentemente, podemos escribir, _ _ _ P(X % ) X+%) = 1 P(|X-)|>%) = 1 ! _ y afirmar con una confianza del (1! ) 100% que el intervalo aleatorio [X %, _ X %] incluye al verdadero valor del parmetro ) . Lo anterior nos lleva, en la situacin general, a buscar un par de estadsticos, TI (X) y TS (X), tal que P(TI (X) ) TS (X)) = 1-! para un ! preasignado. En algunas ocasiones, particularmente cuando se trabaja con distribuciones discretas, no podemos encontrar intervalos (TI ,TS ) razonables tales que P(TI (X) ) TS (X)) sea exactamente igual a 1 !, para un ! fijo. Definicin. El intervalo aleatorio de extremos (TI ,TS ) formado por los estadsticos TI y TS , con TI YS , es un intervalo del (1-!) 100% de confianza para ), si para todo ) P(TI (X) ) TS (X)) 1 ! (6.5)
Los extremos TI y TS se llaman lmite de confianza inferior y superior, respectivamente. 1-! se llama nivel de confianza. Es posible tambin, obtener cotas de confianza (1-!) 100% para ) , tales que P(TI ) ) 1 ! o bin P() TS ) 1 !, donde TS y TI son estadsticos que conforman una cota superior e inferior para ) , respectivamente. Dado que la amplitud L=TS TI es una variable aleatoria, podemos pensar en elegir intervalos de longitud esperada mnima como un buen criterio de calidad. Desafortunadamente, pueden no existir estadsticos TI y TS que generen un intervalo de longitud esperada para todos los posibles valores de ). Se puede probar que si un intervalo de amplitud mnima existe, l puede obtenerse utilizando funciones de estadsticos suficientes como lmites de confianza. 212
_ _ Ejemplo. Claramente, el intervalo (X-z"-!" 5 /n ; X + z"-!# 5 /n ) es un intervalo de confianza a nivel 1 (!" +!# ), para la media de una poblacin normal con varianza 5 2 , ya que satisface (6.5) con !=!" +!# . Mostremos que el intervalo ms estrecho a nivel 1-! de la forma _ _ (X z"-!" 5 /n ; X+z"-!# 5 /n) se obtiene considerando !" = !# =!/2. En efecto, la longitud (esperada) del intervalo es
5 L= (z + z"-!# ) n "-!"
que, bajo la condicin !=!" +!# , pasa a ser

5 L= (z + z"-!# ). n "-(!-!# )
As, debemos encontrar !# de manera de minimizar L, lo que es equivalente a minimizar f(!# ) = z1-!+!2 + z1-!2 = F-" (1-!+!# )+ F-" (1-!# ), con F(t! ) = P(Z t! ) = ! , F-" (!) = t! y Z es la normal estndar. Derivando la funcin f respecto de !2 tenemos
1 f w (!# ) = :(F-" (11-!+! )) _ :(F-" (1!# )) , #
donde : es la funcin de densidad normal estndar. Igualando a cero la derivada obtenemos :(F-1 (1-!+!2 )) = :(F-1 (1-!2 )); o bien, :(x) = :(y), donde x = F -1 (1-!+!2 ) e y = F-1 (1-!2 ) cuya solucin es x = y, ya que : es una funcin par. Luego tenemos que F -1 (1-!+!2 ) = F-1 (1-!2 ) que es equivalente a 1-!+!2 =1-!2 , de donde se tiene que !2 = !/2 y luego !1 =!2 =!/2.Por lo tanto, el intervalo de confianza ms estrecho a nivel 1-! para la media de una poblacin normal es 213
_ _ (X z"-!/2 5 /n ; X+z"-!/2 5 /n)
(6.6)
Un mtodo muy til para encontrar intervalos de confianza es el Mtodo del Pivote, que consiste en determinar una cantidad, llamada Pivote, que posee las siguientes dos caractersticas: es una funcin de las medidas muestrales y del parmetro ) ; y tiene una distribucin de probabilidades conocida ( tabulada) que no depende del parmetro ) . A continuacin veremos ejemplos de uso de un pivote para construir intervalos de confianza a nivel (1-!) para distintos parmetros de inters. 6.9. Intervalos de Confianza para la media en poblaciones N(.,, 5 # ) con 5 # conocida Consideremos una muestra aleatoria X" ,...,Xn de una poblacin X, con _ distribucin normal. Como ya probamos en el Teorema 6.2, X se distribuye N(., 5 # /n). Si definimos P(Z< z"-!/# ) = 1-!/2 y P(-z"-!/# < Z < z"-!/# ) = 1-!. De aqu obtenemos _ P(-z"-!/# < n (X - .)/5 < z"-!/# ) = 1-!,
lo que es equivalente a _ _ 5 P(X-z"-!/# < . < X+z "- ! / # n
5 n
) = 1-!.
As, los lmites de confianza para . son _ 5 _ z"-!/# X+ n que coinciden con el obtenido en (6.6).
Este resultado podemos emplearlo tambin en el caso no normal, para estimar medias, si el tamao muestral es suficientemente grande como para justificar la aplicacin del Teorema del Lmite Central. 214
_ Notemos tambin que el intervalo de confianza es una funcin de X; por lo que variar con la muestra. Por otra parte, la amplitud del intervalo es slo funcin del tamao muestral n, siendo inversamente proporcional a n. Un problema que surge de inmediato es Cul es el tamao mnimo de la muestra para lograr un determinado grado de precisin en la estimacin de .?. Esta pregunta la respondemos en la seccin que sigue.
6.10. Determinacin del tamao de muestra Hasta aqu hemos calculado los intervalos de confianza basndonos en el supuesto de que se conoce el tamao muestral n. Sin embargo, en muchas situaciones prcticas el tamao muestral ptimo es desconocido. En tales casos es posible calcular dicho tamao ptimo, siempre que podamos responder a las preguntas: Qu nivel de confianza deseamos?, y Cul es la diferencia mxima, %, que podemos aceptar entre la estimacin puntual del parmetro poblacional y el verdadero valor de dicho parmetro?. As, si % representa el mximo error que podemos tolerar al estimar el parmetro poblacional ) mediante s ) , la magnitud del mximo error permisible al estimar ) mediante s ) la definimos como |) -s ) | = |s ) -) | % . Entonces, el grado de precisin depende tanto de % como de 1-!, el grado de confianza de que el error no exceda al mximo error permisible. En general el tamao de la muestra se obtiene de la expresin:
5s ) z"-!/# %,
donde z"-!/# queda determinado por el grado de confianza 1-!. Para nuestro ltimo ejemplo tenemos:
5 % = z"-!/# Var (X) = z"-!/# n
# # de donde el tamao muestral debe ser al menos z# 1-!/2 5 /% , cuando la varianza es conocida; esto es, # # n z# 1-!/2 5 /% .
215
Si en particular deseamos el promedio diario . de rendimiento de un proceso de produccin de un producto qumico y deseamos adems que con una probabilidad .95, el error de estimacin no sea mayor que 5 toneladas. Entonces, dado que si repetimos las muestras un gran nmero de veces, _ aproximadamente el 95% de las medias muestrales estar entre 25X de ., lo _ que estamos pidiendo es que 25X sea igual a 5 tons., lo que significa que 25 /n = 5. Despejando n obtenemos n 4 5 # /25. Esto siginfica que para obtener un valor numrico para n, necesitamos conocer el valor poblacional del parmetro 5 # . Cuando no se dispone del verdadero valor de 5 # , debemos utilizar la mejor aproximacin disponible, como por ejemplo su estimador S# , obtenido de experiencias previas. 6.11. Intervalo de Confianza para la media en poblaciones N(., 5 # ) con 5 # desconocida Sea X"_ ,...,Xn una muestra aleatoria de una poblacin N(., 5 # ). Sabemos que T = n(X .)/S se distribuye t-student con / =n-1 grados de libertad, entonces podemos determinar t"!/# tal que P(-t"-!/# T t"-!/# ) = 1-!. De aqu, reemplazando y despejando . nos queda _ _ P(X t"-!/# Sn . X + t"-!/# Sn) = 1 - !. As, los lmites de confianza son _ _ t"-!/# Sn X+ y _ _ (x-t"-!/# s/n ; x + t"-!/# s/n) _ _ es un intervalo del 100(1-!)% para ., si x y s son los valores observados de X y S, respectivamente. 6.12. Intervalos de Confianza para 5 # Recordemos aqu que 5 # es un nmero que cuantifica la cantidad de variabilidad de la poblacin. Este valor es generalmente estimado a partir de la expresin 216
_ n S# =!3" (X3 -X)# /(n-1) que es un estimador insesgado de 5 # . Adems de necesitar informacin acerca de 5 # , para calcular intervalos de confianza para la media ., podramos estar interesados en obtener intervalos de confianza para 5 # propiamente tal; esto es, por ejemplo, la estimacin de la cantidad de variacin en un proceso de produccin de ciertas unidades. Como ya hemos mencionado, debemos empezar por definir un pivote. Supongamos una vez ms, que disponemos de una muestra aleatoria X" ,...,Xn de una distribucin normal con media . y varianza 5 # , ambas desconocidas. Recordemos tambin que _ # # !n [(X -X) ] 5 = [(n-1) S# ]5 # , 3 3" tiene distribucin ;# con (n-1) grados de libertad. Podemos ahora, usando el # mtodo del pivote, proceder a encontrar dos cantidades ;# !/# y ;"-!/# , tales que
# # # P[;# !/# (n-1)S /5 ;"-!/# )] = 1 - !.
para un nivel de confianza 1 - !. Debido a la asimetra de la distribucin, nos preocupamos de encontrar los puntos que definen igual rea en las colas. Si reordenamos los extremos de la desigualdad en la expresin probabilstica anterior, se tiene,
# # # # P[(n-1)S# /;1!/# 5 (n-1)S /;!/# ] = 1 - !. # # # Luego, [(n-1) s# /;1es un intervalo de confianza del !/# ; (n-1) s /;!/# ] 100(1 !)% para la varianza de una poblacin normal con media desconocida.
Ejemplo. Un investigador desea verificar la variabilidad de un equipo diseado para medir el volumen de una fuente de ruido. Utilizando este equipo, se obtienen tres mediciones independientes del mismo sonido, ellas son: 4.1, 5.2 y 10.2. Se pide estimar 5 # con un nivel de confianza de .90. Asumiendo normalidad, tenemos que s# =10.57. Considerando !/2=0.05 y (n1)=2 grados de libertad, se obtienen los valores de tabla ;# !& = 0.103 y # ;*& =5.991. Por lo tanto, el intervalo de confianza para la varianza poblacional 5 # es (3.53; 205.24).
217
Ntese que este intervalo es muy amplio, la razn de esta amplitud es el pequeo tamao de n.
6.13. Intervalo de Confianza para una Proporcin Supongamos que deseamos construir un intervalo de confianza para el parmetro p, la probabilidad de xito, de una distribucin _ Bernoulli. Si disponemos de una muestra aleatoria, X" ,...,Xn , sabemos que X es un estimador insesgado de p, y si n es grande _ pq X N(p, n ), de donde Z=
_ X-p pq/n
N(0, 1) cuando n es grande.
Entonces existe Z"-!/# tal que P(-Z"-!/# < Z< Z"-!/# ) = 1 - !, esto es, P(-Z"-!/# <
_ X-p pq/n
< Z " - ! /# ) = 1 - !
Notemos que para determinar los lmites de confianza para p, necesitamos resolver para p la ecuacin
p(1-p)/n _ |X - p|
Z"-!/# ,
lo que es equivalente a: _ p(1-p) (X- p)# Z# "- ! / # n o bien p# (1+

Z# "-!/# n
_ ) - p(2X +
Z"-!/# n
_# ) + X 0,
que es una parbola, cuyas races definen el intervalo dentro del cual la parbola es negativa. Resolviendo la ecuacin cuadrtica tenemos
1/2 _ Z# _ _ Z# Z -! / # ) + _ "-!/# X(1-X) + "-!/# (X + "2n n 4n _ # 2X + Z"-!/# /n
que para n grande y para (1-!) razonable, podemos aproximarlo por 218
_ _ _ _ Z"-!/# X(1-X)/n . X+ _ _ _ _ _ _ x - Z"-!/# x(1-x)/n ; x + Z"-!/# x(1-x)/n _ _ donde x es el valor observado de X. As, un intervalo de confianza aproximado al 100(1-!)% para p est dado por
Ejemplo. Supongamos que en una muestra aleatoria de 500 personas en la ciudad de Concepcin se encontr que 375 no estn de acuerdo con los mtodos de eliminacin de desechos industriales. Un intervalo de confianza del 95% para p, la proporcin real de la poblacin penquista que no est de acuerdo con dichos mtodos, lo obtenemos como sigue _ De la informacin tenemos que n=500 y x =372/500=0.74 y, para !=0.05 tenemos de las tablas normales que Z"-!/# = 1.96. As, el intervalo del 95% de confianza para p, est dado por (0.74-0.04 , 0.74+0.04) = (0.70 , 0.78).
6.14. Tamao de Muestra para Proporciones _ Notemos que la magnitud del error _ cometido, cuando utilizamos X como una estimacin de p, est dada por X.- p. Empleando nuevamente la distribucin normal, podemos asegurar con probabilidad 1-! que la desigualdad _ X.- p z1-!/2 p(1-p)/n se cumplir; es decir, que el error ser a lo sumo z1-!/2 p(1-p)/n. _ Reemplazando X por p tenemos que el error mximo de estimacin es _ _ % = z1-!/2 X(1-X)/n.
Esta frmula podemos utilizarla para determinar el tamao muestral necesario para alcanzar un grado deseado de precisin. As, obtenemos n = p(1-p) ( 1-%!/2 )2 ; sin embargo, esta frmula no podemos utilizarla en forma directa ya que, a menos que tengamos informacin acerca del posible valor de p. Si no se dispone de esta informacin se puede utilizar un criterio de varianza mxima ya 219
z
que p(1-p) corresponde a la varianza de la poblacion Bernoulli considerada. As, considerando el hecho que p(1-p) es a lo sumo 1/4, lo cual ocurre cuando p=1/2, tenemos que con el tamao de muestra mnimo
z1-!/2 2 n= 1 4( % )
podemos _ asegurar con una probabilidad de al menos 1-! que el error al estimar p por X no excede a %; una vez obtenidos los datos, podremos asegurar con una confianza de al menos un 100(1-!)% que el error no sobrepasa %. Ejemplo. Supongamos que deseamos estimar la proporcin real de unidades defectuosas en un cargamento grande de ladrillos y que se se requiere una confianza del 95% de que el error en la estimacin sea a lo sumo de 0.04. De qu tamao debe ser la muestra si: a) no se tiene idea acerca de la proporcin muestral; b) se sabe que la proporcin real no excede a 0.12?. Si no se tiene idea acerca de cmo podra ser la proporcin muestral entonces usamos la segunda frmula para el tamao muestral y obtenemos
1.96 2 n= 1 4 ( 0.04 ) = 600.25
lo que indica que el tamao mnimo debera ser n= 601. Si sabemos que la proporcin real no excede a 0.12, entonces tomamos p=0.12, y aplicando la primera frmula para el tamao de muestra obtenemos
2 n = (0.12)(0.88)( 1.96 0.04 ) = 253.55
o n=254, redondeando al entero ms cercano. Este ejemplo ilustra la importancia de disponer de alguna informacin auxiliar acerca de la magnitud posible de p, ya que ello reduce en gran medida el tamao de la muestra requerida.
6.15. Intervalos de Confianza basados en dos muestras En todo lo visto anteriormente en este captulo de estimacin, hemos considerado una muestra aleatoria de tamao n de una sola poblacin y hemos estado interesados en hacer inferencias sobre los parmetros, desconocidos, involucrados en su distribucin de probabilidades. En muchos casos interesa realizar comparaciones de los parmetros de dos o ms poblaciones. As, por ejemplo, si tenemos dos tipos de autos de precios similares A y B y queremos comparar sus rendimientos (km/lt), entonces si X es la variable. asociada al 220
# rendimiento de los autos tipo A, con X N(." , 5" )) e Y es la variable asociada # al rendimiento del auto tipo B, con Y N(." , 5# ), podramos estar interesados en estimar ." .# , la diferencia entre los rendimientos medios de los dos tipos de autos. Podramos, adems, comparar las varianzas de sus rendimientos a # # partir del cuociente 5" /5# .
Consideraremos ahora por lo tanto, problemas que involucren dos muestras aleatorias, independientes, que provienen de dos poblaciones distintas. _ = (X" ,...,Xn" ) una muestra aleatoria de una poblacin X con distribucin Sea X _ = de probabilidad que depende de un parmetro desconocido )" y sea Y (Y" ,...,Yn# ) una muestra aleatoria, independiente de la anterior, de una poblacin Y, cuya distribucin de probabilidades depende de un parmetro desconocido )# . La independencia de las dos muestras implica que la funcin de verosimilitud para las n" +n# , la muestra conjunta, es LX _ Y _ ()" , )# ) = LX _ ( ) " ) LY _ ( )# ) Luego los valores de )" y )# que maximicen la funcin de verosimilitud conjunta LX _ Y _ ()" , )# ) son los mismos valores que maximizan a las funciones de verosimilitud LX y s ) " maximiza a LX )# _ ( )" ) y L Y _ ()# ). As, si s _ ( )" ) s s maximiza a LY _ ()# ) entonces LX _ Y _ ( ) " , ) # ) es el valor mximo de la funcin de verosimilitud conjunta. Por lo tanto, los estimadores mximo verosmil para una funcin g()" , )# ) de los parmetros de las dos distribuciones de probabilidades_es g( )" , s ) # ). As, por ejemplo, el estimador mximo verosmil _s de ." .# es X Y.
6.16. Intervalos de Confianza para Diferencia de Medias _ e Consideremos dos muestras aleatorias independientes X Y de tamaos n1 y n2 respectivamente, provenientes de dos poblaciones normales con medias .1 , # # .2 y varianzas 5" , 5# , respectivamente, donde las varianzas son conocidas. El estadstico natural para estimar la diferencia de medias en las poblaciones es _ _ X Y y, como sabemos, la distribucin de este estadstico es _ _ # # X Y N[." .# , (5" /n" + 5# /n# )] y Z=
# /n + 5 # /n 5" " # #
_ _ XY - (.1 -.2 )
N(0,1)
es el pivote que debemos considerar. De aqu, el intervalo de confianza del 100(1-!)% para ." .# est dado por 221
_ _ # # _ Z"-!/# (5" (X Y) + /n" + 5# /n# )"/# .

# # Cuando 5" y 5# son desconocidas, pero los tamaos de muestra n" y n# son suficientemente grandes, reemplazamos dichas varianzas por sus # correspondientes estimadores S# " y S# . Enseguida se procede como en el caso en que las varianzas son conocidas. # # Ahora bien, cuando 5" y 5# son desconocidas, pero los tamaos de muestra n" y n# son pequeos, la obtencin de la distribucin del pivote no es directa, a menos que las varianza de las dos poblaciones normales sean iguales. En este # # caso, si 5" = 5# = 5 # , entonces
Z=
5 1/n" + 1/n#
_ _ X - Y - (." -.# )
N(0, 1)
Podemos verificar fcilmente que, un estimador mximo verosmil para la varianza comn 5 # de ambas poblaciones es
_ - 2 1 (X - X)# + !n# (Y -Y) !n 3 i 3" 3" n" + n# _ _ # # # !n !n 3" (X3 -X) + 3" (Y3 -Y) n" + n# - 2
5 s# = y que S# : =
# (n" -1) S# " + (n# -1) S# n" +n# -2
es un estimador insesgado de 5 # . Adems, U" = y U# =

(n# -1)S# # 5# (n" -1)S# " 5#
;# n" -") ,
;# n# -") ,
de donde por Teorema 4.8. U = U" + U# =

(n" -1)S# " 5#
(n# -1)S# # 5#
;# n" +n# -#) .
Se puede probar que Z y U son variables aleatorias independientes, por lo que 222
- Y - (." -.# ) T= Z = X U/(n" +n# -2) S: 1/n" + 1/n#
tn" n# -2.
que el pivote que utilizamos en la construccin del intervalo. Por lo tanto, el intervalo de confianza del 100(1-!)% viene dado por _ _ _ t"-!/# S: (1/n" +1/n# )"# . (X-Y) +
Ejemplo. Se realiza un estudio para comparar los contenidos de nicotina de dos marcas de cigarrillo. 10 cigarrillos de la marca A dieron un contenido promedio en nicotina de 3.1 mlgr., con una desviacin estndar de 0.5 mlgr., mientras que 8 cigarrillos de la marca B dieron un contenido promedio de nicotina de 2.7 mlgr., con una desviacin estndar de 0.7. Suponiendo que estos dos conjuntos de datos son muestras aleatorias provenientes de dos poblaciones normales con varianzas iguales, estamos interesados en construir un intervalo del 95% para la verdadera diferencia en el contenido medio de nicotina de las dos marcas. Para ! = 0.05 encontramos en la tabla correspondiente a la distribucin tstudent, con n" +n# -2 = 16 gl que t!*& = 2.12. Por otra parte, el valor de S: est dado por S: = ((9x0.25 + 7x10.49)/16)"/# = .596, Por lo tanto un intervalo del 95% de confianza es: (-0.20, 1.00). Ahora, como la diferencia real podra as ser cero, no podemos concluir en base a este anlisis que existe una diferencia real en los contenidos de nicotina en las dos marcas.
6.17. Intervalos de confianza para la razn de varianzas de dos poblaciones Normales

# # El ejemplo anterior fue resuelto bajo el supuesto que 5" /5# = 1. Sin este supuesto no habramos tenido un procedimiento sencillo para determinar los lmites de confianza de un intervalo para ." -.# .
Una forma de chequear la igualdad de varianza es a travs de la construccin # # de intervalos de confianza del 100(1-!)% para 5" /5# . Para ello consideremos dos muestras aleatorias independientes X" ,...,Xn" y Y" ,...,Yn# , provenientes de dos poblaciones normales con medias y varianzas desconocidas. 223
# # # Sabemos que U" = (n" -1)S# " /5" y U# = (n# -1)S# /5# son variables aleatorias independientes con distribucin chi cuadrado con n" -1 y n# -2 grados de libertad, respectivamente. Luego el cuociente
U" /(n" -1) U# /(n# -1)
# S# " 5# # # S# 5"
se distribuye F con (n" -1) gados de libertad en el numerador y (n# -1) grados de libertad en el denominador. Entonces, utilizando este pivote, si f!/# y f"-!/# son los correspondientes percentiles de esta distribucin tenemos que
# Pf!# S" # 5 # f"-!# = 1-! # "
S# 5 #
de donde
# # P S# # f!# 5 # S# f"-!# = 1-! " " "
S#
5#
S#
# Por lo tanto S# # f!/# ; S# f"-!/# es un intervalo del 100(1-!)% de " "
S#
S#
# # confianza para 5# /5" .
Ejemplo. Considerando nuevamente el ejemplo anterior, tenemos que n" =10, n# =8, s" =0.5, s# =0.7. Para 1-!=0.95, de las tablas de la distribucin F con 9 y 7 g.l. obtenemos: f!!#& = "/f!*(& (7,9) = 1/4.2 = 0.238 y f!*(& (9,7) = 4.82, de donde # # (0.33; 6.7) es un intervalo del 95% para 5# /5" . 6.18. Intervalos de Confianza para Diferencia de Proporciones Supongamos que X" ,...,Xn" es una muestra aleatoria de una poblacin Bernoulli con parmetro p" , y Y" ,...,Yn# una muestra aleatoria independiente, de otra poblacin Bernoulli de parmetro _p# . Como vimos, los estimadores mximos _ verosmiles para p" y p# son X y Y respectivamente, y para n" y n# _ _ suficientemente grandes sabemos que X e _ Y _ tienen distribucin aproximadamente normal. As, la diferencia X Y se distribuye 224
aproximadamente normal con media p" p# y_varianza q# /n# . La " + p#_ _ p" q" /n _ varianza de p" p# la podemos estimar por X(1 X)/n" + Y(1 y)/n# . De manera que Z=
_ _ X-Y- (p -p# ) _" _ Y(1-Y) n + n 1/2
_ _ X(1-X)
N(0,1)
"
en forma aproximada y es un pivote adecuado para determinar un intervalo de confianza del 100(1-!)% para la diferencia de proporciones p" -p# . Por lo tanto P(-z"-!/#
_ _ X-Y(p -p# ) _ _ _" _ Y(1-Y) 1/2 X(1-X) + n n
" #
z"-!/# ) = 1-!
nos conduce al intervalo aproximado del 100(1-!)% para la p" p# . Este est dado por _ _ _ _ _ _ _ z"-!/# X(1 X)/n" + Y(1 Y)/n# "/# . (X Y) + Ejemplo. Supongamos que un fabricante necesita cierta pieza que puede ser proporcionada por dos abastecedores A y B, a un mismo precio. Las piezas de A son defectuosas con probabilidad p" y las de B con probabilidad p# . Supongamos adems que de n" =100 piezas del proveedor A se encontraron 10 piezas defectuosas, mientras que de n# =150 del proveedor B se encontr 11 defectuosas. Interesa determinar un intervalo del 90% de confianza para la diferencia de proporciones de piezas defectuosas de estos dos abastecedores. De los datos tenemos _ 10 _ 9 p" = x = 100 = 0.10, s p# = y = 150 = 0.06 s z"-!/# = z!*& = 1.64 de la tabla normal estndar As, _ 1.64 ( (0.10)(0.90) + (0.06)(0.94) )"/# , 0.10 0.06 + 100 150 o bien (-0.0186; 0.986), es un intervalo del 90% de confianza para p" -p# . Igual que en el penltimo ejemplo, como este intervalo contiene al cero, no podemos establecer cual es el proveedor con menor proporcin de piezas defectuosas.
225
EJERCICIOS 1. Sea X" y X# una muestra aleatoria de tamao 2 proveniente de una poblacin X con media . y varianza 5 # . a) Si disponemos de dos estimadores para .: . s" =X=(X" +X# )/2 y . =(X +2X )/3. Cul de los dos es mejor?. s# " # b) Para un estimador de la forma . s= aX" +(1-a)X# , con 0 a 1. Determine el valor de a que conduce al mejor estimador en esta forma. 2. Considere una muestra aleatoria X" ,...,X8 extraida desde una poblacin X con distribucin geomtrica de la forma f(x,p)=pB (1-p), con 0<p<1 y x=0,1,... Muestre que la media muestral es un estadstico suficiente para p. 3. Sea X" , X# , X$ una muestra aleatoria de una poblacin X con distribucin normal de media . y desviacin estndar 5. Cul es la eficiencia relativa del estimador . s=(X" +X# +X$ )/4 con respecto a X?. 4. Si X" , X# , X$ es una muestra de una poblacin Bernoulli con parmetro ) , muestre que Y=X" +2X# +X$ es un estimador suficiente para ) . 5. La funcin de densidad de probabilidad de una poblacin est dada por: f(x; ) ) = 2x/) 2 0 0x) e.o.c.
Basndose en una muestra aleatoria de tamao n: Determine el estimador por momento (EM) y el estimador mximo verosmil (EMV) de ) . Cul de los dos es el mejor?. 6. Dada una muestra aleatoria de tamao n, extraida de una poblacin con densidad de probabilidad f(x; ., 5 ) =
.) 1 -(x5 e 5
x>., . , 5 >0
0 e.o.c. Determine los estimadores mximos verosmiles para . y 5 . 7. Sea X" ,...,Xn una muestra aleatoria de una distribucin Gamma (r,-).Encuentre el Estimador Mximo Verosmil (EMV) y el estimador por Momentos (EM) de -, suponiendo que r es conocido. Determine, adems, el EMV para ) =(2--1)# . 8. Suponga que el crecimiento anual de cierta variedad de pino sigue una distribucin normal con media y varianza desconocida. Para una muestra de 5 226
pinos, los siguientes valores (en pies) fueron registrados: 3, 5, 2, 1.5, y 3.5. Determine los estimadores, por el mtodo de los momentos, de . y 5 # . 9. Sea X una variable aleatoria Binomial con parmetros n y p, con n conocido. Dada una muestra aleatoria de m observaciones de X, determine el estimador de p mediante el mtodo de los momentos y por el mtodo de mxima verosimilitud. 10. El tiempo de vida de una componente se supone exponencial con parmetro -. Diez de estas componentes fueron sometidas a prueba en forma independiente y el nico dato registrado fue el nmero de componentes que haban fallado antes de 100 horas de operacin. Se encontr que 3 haban fallado antes de las 100 horas. Cul es el estimador mximo verosmil para -? 11. Sea X" ,...Xn una muestra aleatoria de una poblacin X con densidad f(x; ) ) = ) x)-" ; 0 x 1, ) >0 Determine el Estimador Mximo verosmil de ) . 12. Una mquina puede averiarse por dos razones A y B. Se desea estimar la probabilidad de avera diaria de cada tipo sabiendo que: i) La probabilidad de avera tipo A es el doble que la de B. ii) No existen otros tipos de averas posibles. iii) Se han observado 30 das con los resultados siguientes: 2 averas tipo A, 3 tipo B; 25 das sin averas. 13. Sea X" , X# una muestra de tamao dos de una distribucin uniforme con densidad f(x) = 1/) 0 si 0 x ) e.o.c.
Determine la constante c 1 de manera que P(0 < ) < c(X" +X# )) = 1-!, con 0< ! < 1 dado. 14. El consumo de gasolina de cierto tipo de vehculo es aproximadamente normal con desviacin estndar de 6 millas por galn. Si una muestra de 64 vehculos tiene un consumo promedio de 16 millas por galn: a) Determine un intervalo de confianza del 95% para el consumo medio de gasolina de todos los vehculos de este tipo. b) Con un 95% de confianza, cul es el posible error si se considera que el consumo medio es de 16 millas por galn? c) Qu tan grande debe ser la muestra si queremos tener un 95% de seguridad que la media muestral no difiera en ms de 0.5 millas por 227
galn de la verdadera media?. 15. Supongamos que la variable aleatoria X tiene una distribucin Poisson con parmetro -. Consideremos adems una muestra alatoria de tamao n. a) Determine el estimador mximo verosimil de -. b) Determine un intervalo de confianza aproximado, del 95% para -. 16. El tiempo de vida de ciertas vlvulas producidas por una industria sigue _ uan distribucin normal. En una muestra aleatoria de 15 vlvulas se tienen x=1100 hrs. y s=50 hrs. a) Determine un intervalo de confianza del 95% para el tiempo medio de vida de este tipo de vlvulas. b) Determine intervalos del 95% unilaterales y bilaterales para su varianza. 17. En determinada empresa manufacturera, durante un proceso de control de calidad, se encontr que 12 de 100 items manufacturados presentaban defectos. a) Encuentre un intervalo de confianza del 99% para la proporcin de items defectuosos en el proceso de manufacturacin. b) Con un 99% de confianza, cul es el posible error si la proporcin es estimada por 0.12?. 18. La forestal Machitun se dedica a la explotacin de la especie Globulus de Eucaliptus. Una de sus preocupaciones es estimar la altura promedio de dichos rboles a una edad determinada E! , donde se sabe que la desviacin estndar de las alturas de los rboles en E! es 2.5 mts. Para este efecto, se consider una muestra aleatoria de 100 rboles, para los cuales la altura media es 8.0 mts. y la desviacin estndar result ser 2.0 mts. a) Cul es la probabilidad que la media poblacional y la media muestral difieran en una cantidad que no exceda de 0.5 mts? b) Determine un intervalo de confianza del 95% para la verdadera altura media de los rboles? c) Los tcnicos desean que la diferencia entre la media muestral y poblacional no exceda de 0.4 mts. con un 95% de seguridad. Fu suficiente la muestra considerada inicialmente?. d) Los tcnicos en realidad no estn muy seguros acerca del valor exacto de la desviacin estndar poblacional. Qu hara usted para sacarlos de esta duda?. 19. Una compaa tiene dos departamentos que produicen idnticos productos. Se sospecha que las producciones por hora son diferentes en los dos departamentos. Para averiguar esto se consideran muestras aleatorias de horas de produccin que proporcionan la siguiente informacin: Depto. 1 Depto. 2 n1 =64 n# =49 _ x _ " =100 x# =90 228
# Se sabe que las varianza de las producciones por hora estn dadas por 5" =256 # y 5# =196, respectivamente. Hallar los lmites de confianza del 95% para D=." -.# , la diferencia verdadera entre las producciones medias de los departamentos.
20. Se desea estimar la diferencia entre los salarios semanales de maquinistas y carpinteros. Se toman dos muestras independientes, cada una de tamao 100, y se obtiene la siguiente informacin: Maquinistas Carpinteros n1 =100 n# =100 _ x1 =345 _ x2 =340 s# " =196 # s# =204
Determinar los lmites de confianza del 95% para D=." -.# , si la poblacin se distribuye normalmente. 21. Un telar se observa a intervalos de tiempo variable para estimar la proporcin de tiempo que se encuentra en estado productivo. Se desea estimar _ 0.03 con una confianza del 98%. esta proporcin dentro de + a) Qu tamao de muestra mnimo se requiere para asegurar una buena precisin?. b) Si p=0.8, cul es el tamao requerido para la muestra?. c) Si p=0.8, cul es el tamao de muestra mnimo para estimar la proporcin de la poblacin dentro de +/- 0.02 con un 98% de confianza?. 22. Suponga que dispone de dos mtodos para medir el contenido de humedad en el proceso de coccin de la _ carne. El primer mtodo es aplicado en 41 ocasiones y se obtienen los datos x" =88.6 y s# es " =109.63. El _ segundo mtodo # aplicado a una muestra de tamao 31 obtenindose x# =85.1 y s# =65.99. Determine un intervalo del 99% de confianza para ." -.# , cuando se supone # # distribuciones normales con 5" =5# =5 # . 23. Supongamos que la longitud de los clavos producidos por una mquina constituye una variable aleatoria con distribucin normal. Una muestra de 5 clavos proporciona la siguiente informacin en cuanto a longitud (en pulgadas): 1.14; 1.14; 1.15; 1.12; 1.10. a) Construir un intervalo de confianza del 99% para la longitud media de los clavos producidos por esta mquina. b) Construir un intervalo de confianza del 90% para la varianza poblacional. 24. La probabilidad que una plancha de Zinc fabricada por una mquina sea declarada de "segunda clase", a causa de algn defecto, es p (desconocido). a) Determine el estimador mximo verosimil de p, basado en los valores 229
observados de una muestra de 1000 planchas fabricadas por esta mquina. b) Si en 1000 planchas seleccionadas al azar en un da de produccin se encuentra que 30 son de segunda, determine un intervalo de confianza del 95% para p. c) Determine el nmero de plancha requerida para asegurar con una confianza de 0.95 que el error en la estimacin de la proporcin de planchas de segunda clase, no sobrepase de 0.02. 25. En relacin al problema anterior, suponga que en la fbrica se selecciona una muestra de 1000 planchas para inspeccin cada da de trabajo. As, para cada da, se puede determinar un intervalo de confianza del 95% para p y entonces, en 260 das de un ao de trabajo han sido calculados 260 intervalos de confianza. Cul es el nmero esperado de estos intervalos que cubren al verdadero valor de p?. Cul es la probabilidad (aproximada) que al menos 240 de estos intervalos incluyan al verdadero valor de p?. 26. El banco A seleccion una muestra al azar de 250 personas de entre sus 10.000 clientes con cuenta corriente. Al mismo tiempo y en forma independiente, el banco B seleccion al azar 200 personas de entre sus 5000 clientes con cuenta corriente. El banco A encontr que 89 personas en esta muestra utilizaban regularmente otros servicios del banco, mientras que el banco B encontr que 52 personas de la muestra utilizaban otros servicios del banco. Estime la diferencia en la proporcin de clientes con cuentas corrientes que regularmente usan otros servicios del banco, en los bancos A y B. Use !=0.02.
230
CAPITULO VII PRUEBAS DE HIPOTESIS
En el captulo anterior hemos considerado el problema de estimacin. En este captulo estudiaremos todo lo relacionado con pruebas de hiptesis. Nuestro objetivo es verificar (o mas bin rechazar) ciertas afirmaciones acerca de una poblacin; por ejemplo, respecto de valores de los parmetros que la caracterizanal. Para esto utilizaremos la informacin contenida en una muestra elegida al azar. En muchos aspectos, el procedimiento para probar hiptesis es similar al mtodo cientfico: Un cientfico observa la naturaleza de un fenmeno, formula una teora y a continuacin, confronta esta teora con la evidencia observada. Si lo observado no est de acuerdo con la teora, se rechaza la hiptesis. En caso contrario, se pueden obtener dos conclusiones: la teora es verdadera o bin la muestra no detect diferencias importantes o significativas entre los valores reales y los postulados en la hiptesis planteada, lo que podra considerarse como un rechazo de la teora. Por ejemplo, un ingeniero podra formular la hiptesis que cierto tratamiento puede eliminar las fallas de un determinado material. Para probar su hiptesis, selecciona aleatoriamente cierto nmero de elementos defectuosos dividindolos al azar en dos grupos. El tratamiento nuevo es aplicado al primer grupo y otro tratamiento es aplicado al segundo. A continuacin, basndose en el nmero de unidades recuperadas, deber decidir si el nuevo tratamiento es mejor que el anterior. Hay una serie de interrogantes que trataremos de responder en este captulo. Algunas de estas son: Qu puede hacer la estadstica en lo que se refiere a pruebas de hiptesis?; es decir, Como decidimos si la informacin contenida en una muestra dada est en desacuerdo con la teora?. El tamao de muestra es adecuado?, En que circunstancias deberamos rechazar la hipotesis?, Cundo deberamos aceptarla? o Cundo no deberamos emitir una conclusin?.
7.1 Elementos de una Prueba de Hiptesis Una hiptesis estadstica es una afirmacin o conjetura acerca de los parmetros de la distribucin de probabilidades de una poblacin. Si la hiptesis estadstica especfica completamente la distribucin, entonces ella se llama Hiptesis Simple, de otra manera se llama Hiptesis Compuesta.
231
Consideradas desde el punto de vista tradicional, todas las pruebas de hiptesis trabajan en base a ciertos principios que se pueden resumir en los siguientes elementos, todos ellos indispensables en la construccin del test o prueba: una hiptesis nula H! ; una hiptesis alternativa H" ; el estadstico de prueba ; la zona de rechazo y una Regla de decisin. La Hiptesis nula, que denotaremos por H! , es la hiptesis que va a ser probada. A la hiptesis nula contraponemos una segunda hiptesis que llamaremos Hiptesis alternativa y que denotamos por H" . Una prueba de una hiptesis estadstica es una regla o procedimiento que permite decidir el rechazo de la hiptesis H! . Existen varias formas de obtener estos procedimientos, por lo que nuestro inters se centrar en obtener el mejor de ellos para una hiptesis dada. El estadstico de prueba, T(X), (lo mismo que un estimador) es una funcin de la muestra. Interesa que contenga el mximo de informacin sobre la hiptesis nula planteada ya que, en base a la informacin contenida en esta funcin, se tomar la decisin respecto de la aceptacin o rechazo de la hiptesis, H! , planteada. La zona de rechazo, tambin llamada regin crtica (RC), define los valores del estadstico de prueba para los cuales la informacin muestral contradice la hiptesis nula. Estos valores nos permitirn adoptar una regla de decisin consistente. Una prueba de una hiptesis estadstica es una regla o procedimiento que permite decidir el rechazo de la hiptesis H! . De esta manera, como una regla de decisin, si para una muestra particular el estadstico de prueba (valor calculado) cae dentro de la regin crtica, rechazaremos la hiptesis nula H! en favor de la hiptesis alternativa H" . En cambio, si el valor calculado no cae dentro de la RC, no podremos rechazar la hiptesis nula. Ejemplo. Consideremos una muestra aleatoria X" ,..,Xn de una poblacin X, cuya distribucin es N(), 36). El nico aspecto desconocido de esta distribucin es el valor de la media poblacional. As, si consideramos la hiptesis nula H! : ) 17, H! es una hiptesis compuesta ya que no especfica completamente la distribucin, puesto que ) puede tomar cualquier valor menor o igual a 17. Una hiptesis alternativa es H" : ) >17 que tambin es compuesta. En cambio, si postulamos H! : ) = 17, H0 es simple pues con un valor especfico del parmetro se caracteriza completamente la distribucin como N(17, 36). Una hiptesis alternativa, en este ltimo caso, podra ser H" : ) 17, que es compuesta.
232
La constante, en este ejemplo 17+12/n, que define la regin de rechazo de H _ ! , se denomina punto crtico de la prueba o test. Por lo tanto, si observamos _ x como un valor del estadstico de prueba, rechazamos que ) 17 si x > 17 +12/n. 7.2. Probabilidades de Errores y Potencia La calidad de un test o regla de decisin (equivalentemente la RC ) es razonablemente medida por la frecuencia con la cual cometemos errores de juicio cuando la utilizamos. Hay dos tipos de errores que podemos cometer (no en forma simultanea): podemos rechazar H! cuando deberamos haberla aceptado o podemos aceptar H! , cuando deberamos haberla rechazado. El primero de estos se denomina Error de tipo I y el segundo Error de tipo II. As, rechazar H! cuando ella es verdadera corresponde al Error Tipo I, y aceptarla cuando ella es falsa se llama Error Tipo II. La probabilidad de cometer Error Tipo I es denotada generalmente por ! , y recibe el nombre de nivel de significacin del test o tamao del test. La probabilidad de cometer Error Tipo II se denota por " . Definicin. La potencia de una prueba de hiptesis se define como la probabilidad de rechazar la hiptesis nula cuando esta no es verdadera y corresponde a 1- " . Si H" es una hiptesis simple, entonces la potencia es una constante; pero, si es compuesta, la potencia es una funcin de ) en H" . Si H! es tambin compuesta, entonces la probabilidad de error tipo I es tambin una funcin de ) . La potencia y la probabildad de error tipo I estan contenidas en la funcin potencia, 1() ), que es la probabilidad de que H! sea rechazada cuando la poblacin est parametrizada por ) ; esto es, 1 () ) = P(Rechazar H! /) ) para todo ) . Notemos que: Si ) H! , entonces 1 () ) = Probabilidad de error tipo I Si ) H" , entonces 1 () ) = 1 - Probabilidad de error tipo II 233
Si consideramos H! : ) 17 versus _ H" : ) > 17, una regla de decisin arbitraria sera "Rechazar H si y slo si X > 17+12/n ". El estadstico de prueba es ! _ T(X) = X y la regin crtica o zona de rechazo est dada por: _ RC={(X" ,...,Xn ): X > 17+12/n}.
La funcin potencia juega el mismo papel que el error cuadrtico medio en la estimacin de parmetros. Ser nuestro patrn para juzgar la bondad de un test o para comparar dos tests. Una funcin potencia ideal es 1 () ) = 0 1 si ) H! , si ) H1
puesto que la idea es no rechazar H! si ella es correcta y rechazarla cuando ella es falsa.
7.3. Eleccin de un Test Parece obvio que para tener un buen test deberamos minimizar las probabilidades de los errores de tipo I y II, en forma simultnea. Sin embargo, esto no es posible ya que en la medida que uno disminuye el otro aumenta, por ejemplo, si un test tiene probabilidad de error tipo I cero, es de la forma "siempre acepte H! " y por lo tanto, hay probabilidad 1 de cometer error tipo II. Luego, para evaluar la capacidad de un test, centraremos nuestra atencin exclusivamente en su potencia. Nuestra idea ser entonces, encontrar aqul test o regla que tenga mxima potencia dentro de la clase de todos los tests que tienen una probabilidad fija ! de error tipo I. Tales tests se dicen que tienen un nivel de significacin !, y hablamos de rechazar H! al nivel !. En la prctica, los valores de ! =0.01 y ! =0.05 son comunmente utilizados. Al proceder en esta forma, estamos considerando que el error tipo I es el ms claro e importante, pues queremos tener control sobre l al fijar el valor de !. Por lo tanto, al plantear una prueba de hiptesis estadstica, se recomienda considerar como hiptesis nula aquella afirmacin que deseamos rechazar (o aquella que refleje que el error tipo I es el ms importante para nosotros), ya que tendremos una medicin respecto de la equivocacin al rechazarla. Veamos a continuacin algunos ejemplos que nos permitirn practicar las tcnicas de evaluacin de los distintos tipos de error. Ejemplo. Se desea someter a prueba la aceptacin de cierto producto por parte del pblico. Se postula que el producto cuenta con mas del 50% de aceptacin entre el pblico consumidor; esto es, se desea probar la hiptesis nula H! : p 0.5 versus la hiptesis alternativa H" : p < 0.5. Para este efecto se realiza una encuesta a n = 15 personas. Aqu, cada persona entrevistada puede ser considerada un ensayo Bernoulli, donde X3 = 1 si la i-sima persona consume el producto y 0 si no. El estadstico de prueba es T(X) = !X3 = Nmero de encuestados que prefieren el producto. Se desea calcular el nivel de significacin, dado que se ha seleccionado como regin crtica al conjunto RC = {(x" ,...,xn ): !xi 2}. 234
Por definicin se tiene que: ! = P(Error tipo I) = P(Rechazar H! | H! es verdadera) Dado que !X3 tiene una distribucin binomial con n = 15 y p = 0.5, si H! es verdadero, se tiene
"& "& ! = !# C! C (0.5)
= P(!X3 2|p = 0.5).
"& "& "& "& "& = "& ! (0.5) + " (0.5) + # (0.5)
= 0.004. Este resultado significa que si decidimos utilizar esta regin crtica, estamos asumiendo muy poco riesgo (slo ! = 0.004), de no considerar al producto como favorito del publico. Si ahora seleccionamos como regin crtica RC = {X: !X3 6}, entonces tenemos que:
"& "& ! = P(!X3 6|p=0.5) = !' C! C (0.5) = 0.338
La diferencia entre los valores calculados en ambos casos, se debe nicamente a que en el primero se seleccion un valor artificialmente muy bajo como punto crtico, esto hace que sea prcticamente imposible rechazar la hiptesis planteada. Esta probabilidad aparece mucho ms razonable en el segundo caso. Ejemplo. (continuado) Con los mismos datos del problema anterior, Es nuestro test (regin crtica) igualmente bueno en cuanto a protegernos del Error Tipo II?. Supongamos que en realidad solo el 30% de la poblacin favorece el producto, (p=0.30). Cul es la probabilidad que la muestra nos conduzca, errneamente, a conclur que H! es verdadera y, por lo tanto, conclur que el producto es el favorito del publico? Por definicin, " = P(error tipo II) = P(aceptar H! | H" es verdadera) 235
pero, bajo H" , !X3 se distribuye binomial con n=15 y p =0.3, luego
"& y "&y " =!"& y$ y (0.30) (0.70)
= P(!X3 > 2|p =0.3);
" = 0.873. Si ahora selecionamos la regin crtica alternativa, tenemos que la probabilidad de Error Tipo II corresponde a " = P(!X3 > 6|p=0.3)
"& y "&y = !"& y( y (0.30) (0.70)
En palabras, si usamos la regin crtica definida inicialmente como {!xi 2}, concluiremos prcticamente siempre que el producto ser escogido como favorito por los consumidores (pues " = 0.873), an cuando p sea tan baja como 0.30. Sin embargo, si modificamos la regin crtica a valores ms razonables, la probabilidad de cometer Error Tipo II es menos de un tercio del anterior. Notemos que la probabilidad de cometer un error tipo II, " , depende del verdadero valor de p. A mayor diferencia entre un valor de p y el propuesto por la hiptesis nula (p = 0.50), mas probable es que rechacemos la hiptesis nula. Esta situacin y los ejemplos analizados deben servir para prevenirnos sobre el uso de regiones crticas arbitrariamente grandes o pequeas. Ejemplo. El gerente de una corporacin asegura que sus vendedores no hacen, en promedio, mas de 15 ventas por semana. Para verificar su reclamo, 36 vendedores son seleccionados al azar y se registra el nmero X de ventas correspondientes a una semana seleccionada tambin al azar. Se sabe que el nmero de ventas semanales tiene distribucin normal con media . y varianza _ 5 # , ambos parmetros desconocidos. La muestra revela que x = 17 ventas con una varianza de 9. La evidencia contenida en la muestra, contradice la aseveracin del gerente?. Estamos interesados en probar una hiptesis acerca del promedio de ventas semanales .. Especficamente, queremos realizar la prueba H! : . 15, vs. H" : . > 15. 236
= 0.1311
_ Sabemos que la media X es un estimador insesgado de mnima varianza de ., por lo que parece razonable usar un test o regla _ que recomiende aceptar o rechazar H! , basado en el valor observado de X._Especficamente, si H! es verdadero esperamos que el valor observado de X este ms cercano de los valores que involucra H0 que de los que involucra H" . As, podemos _ considerar como _ regla de decisin: "aceptar H si el valor observado x es ! _ _ pequeo", esto es x c o "rechazar H! si x es grande", es decir si x > c, donde c es una constante a elegir (punto crtico). Si ! es la mxima probabilidad de cometer error tipo I, entonces podemos determinar el _punto crtico c de la forma siguiente. Si H! es verdadero, sabemos que X tiene distribucin N(., 5 # /6), donde . es un nmero menor o igual a 15. Dado que 5 # es desconocida la estimamos con el valor observado de S# , y seguimos empleando la distribucin normal por tener un tamao de muestra suficientemente grande (36). Ahora la probabilidad de error tipo I esta dada por definicin P(Error I) = P(Rechazar H! /H! es verdadero) _ _ = P(X > c |. 15) = 1 - P(X c |. 15) = 1 - F(
c-. ) 3/36
= 1-F( 1/2 )
c-.
(7.1)
que como H! es compuesta, (7.1) resulta ser una funcin de ., para valores de . . especificados por H! . Adems, vemos que 1-F( c1/2 ), como funcin de ., es creciente y por lo tanto alcanza su mximo valor en el mximo valor de ., que en este caso es 15. Por lo tanto, si especificamos ! como la mxima probabilidad de error tipo I tenemos
c-. 15 ! = Sup {1 F ( 1/2 )} = 1 F ( c 1/2 ) . 15
de donde tenemos que

15 F ( c 1/2 ) = 1 !,
lo que implica que

c15 1/2
= z"!
y finalmente el punto crtico es c = "& 1 2 z"! , 237
donde z"! es el percentil (1 !) de la distribucin normal estndar Si elegimos ! = 0.05 por ejemplo, entonces c = "& (1.645)1/2 = 15.82 y la regin crtica de tamao 0.05 est dada por _ _ RC = { x : x > 15.82} (7.2)
_ Ahora como el valor observado en la muestra es x = 17 que cae en la regin crtica dada por (7.2), nuestra decisin es rechazar H! , lo que nos indicara que la afirmacin del gerente de la empresa es incorrecta y el nmero promedio de ventas excede a 15. Una regin crtica equivalente a la dada en (7.2) es RC = {Z : Z > 1.645} donde Z =
_ X. . 5 /n
(7.3)
15 En nuestro caso z = 17 1/2 = 4 mayor que z"! =1.645
Ejemplo. (Continuado) Supongamos ahora que el gerente desea tener la posibilidad de detectar una diferencia de solo una unidad en el nmero medio de ventas semanales de sus vendedores; esto es, est interesado en probar la hiptesis H! : . = 15 vs. H" : . = 16. Para este efecto, 36 vendedores son seleccionados al azar registrandose el nmero de ventas X durante una semana dada. Encontremos el valor de " para esta prueba. _ Recordemos que n = 36, x = 17 y s# = 9. Siguiendo un razonamiento similar al _ del ejemplo anterior, la zona de rechazo es: z > 1.645, que es equivalente a x >15.82. Esta zona de rechazo se muestra en la Figura 7.1.
k=15.82 Aceptar H0 Rechazar Ho
Figura 7.1. _ Por definicin, " = P(X 15.8225 | . = 16) que corresponde a la zona bajo la curva segmentada, a la izquierda de k = 15.82. Luego, para ." = 16, se tiene: 238
" = P(
_ X." 5 /1
<
15.822516 3/36
= P( Z< !.36) = 0.3594 Este valor de " , relativamente grande, nos indica que muestras de tamao 36, frecuentemente no detectarn diferencias de una unidad respecto del valor poblacional. Podemos reducir el valor de " aumentando el valor n.
7.4. Valor-p o Probabilidad de Significacin Personas distintas, enfrentadas al mismo problema de prueba de hiptesis, pueden tener distintos criterios para fijar el tamao del test. Un experimentador puede conformarse con rechazar H! usando un test de tamao ! = 0.05, mientras que otro experimentador quiere usar ! = 0.01. Es posible que el primero rechace H! , mientras que el segundo la acepte, bajo la base del mismo resultado x = (x" , x# ,...,xn ) del experimento. Esta diferencia puede ser resuelta si estos experimentadores, usando el mismo estadstico de prueba T, reportan el resultado del experimento en trminos del tamao observado, valor-p o probabilidad de significacin del test. El valor-p (v-p) proporciona la probabilidad que el estadstico de prueba T(X), tome valores tanto o ms alejados que su valor observado T(x), en la direccin de la hiptesis alternativa H" , dado que la hiptesis nula es verdadera. De esta manera, para contrastar H! : ) )! vs H" : ) < )! , determinamos el valor-p como valor-p = P( T(X) T(x) | ) = )! ) (7.4)
En otras palabras, el valor-p se define como el menor nivel de significacin para el cual un experimentador, utilizando el estadstico T, rechazara H! sobre la base del resultado observado x; esto es, si el punto crtico para el investigador corresponde a un test de tamao menor que el valor-p, H! no es rechazada; de otra forma se rechaza H! . En trminos ms simples, si el experimentedor elige ! mayor que el valor-p, deber rechazar H0 , mientras que si elige ! menor no puede rechazarla. Para ilustrar este procedimiento consideremos una poblacin con distribucin _ N(., 36), donde, para una muestra aleatoria de tamao n= 25, se encontr que x = 14. Supongamos que queremos contrastar las hiptesis H! : . 17 vs H" : . < 17, 239
Como se trata de una _ prueba de hiptesis respecto de una media, el estadstico de prueba es T(X) = X y se rechaza H! para valores pequeos de este (en la direccin de H1 : . < 17). Luego, el valor-p en este caso es _ _ _ Valor-p = P(X x) = P(X 14), cuando . = 17. Utilizando la tabla normal tenemos que: _ 17 P(X 14) = P(Z 146/5 ) = P(Z 2.5) = 0.0062. _ _ As, el valor-p, la probabilidad que X sea menor o igual a x = 14, es 0.0062, que nos estara indicando que es altamente improbable que, al considerar una muestra de tamao 25, encontremos un promedio muestral de 14 o menos, cuando . = 17 ( H! es verdadero); esto es, si . = 17, en _ slo 62 de 10000 muestras de tamao 25, el valor del estadstico de prueba X ser igual o menor que 14. Por lo tanto, tenemos una fuerte evidencia para rechazar H! : . 17 Ahora, si consideramos un nivel de significacin !, mayor que 0.0062 deberamos rechazar la hiptesis nula puesto que, en este caso, el rea correspondiente a la regin crtica es mayor que 0.0062 y el resultado muestral _ x = 14 cae en la regin crtica. Por el contrario, un valor de ! menor que 0.0062 induce a aceptar la hiptesis nula _ pues el rea correspondiente a la regin crtica es menor que 0.0062 y x = 14 queda fuera de la regin de aceptacin. Resumiendo, una forma de tomar decisiones, considerando a la vez la evidencia de la muestra en contra de la hiptesis nula (valor-p) y el nivel de significacin ! es el siguiente: Si ! es mayor que el valor-p: se rechaza H! ; Si el valor-p es mayor que ! : se acepta H! . Cuando la hiptesis alternativa es bilateral, hay que duplicar la probabilidad obtenida en (7.4). Si por ejemplo, H! : . = 17 vs H" : . 17, el valor-p lo obtenemos duplicando P(Z 2.5). Entonces: valor-p = 2P(Z -2.5) = 2(0.0062) = 0.0124 As, bajo H! , el valor del estadstico de prueba estar tan alejado de su valor observado o ms, en un 1.24% de las veces. Si este valor-p se considera muy pequeo, nosotros podemos pensar que . =17 es falso y por ende debemos rechazar la hiptesis nula. En general, si no queremos involucrar el nivel de significacin ! en nuestra decisin, debemos rechazar H! para valores pequeos del valor-p y en caso contrario no podemos rechazar H! . Una vez calculado el valor-p, se puede utilizar una escala emprica que relaciona estos valores con la cantidad de evidencia en contra de H! que est 240
contenida en la muestra, lo que en ningn caso debe considerarse como una regla, ya que los niveles de tolerancia en cuanto a los errores estn muy relacionados con el problema particular de inters y el rea cientfica donde se centra el estudio. La escala es: si 0.10 < v-p, diremos que la muestra no contiene evidencia en contra de H! ; si 0.05 < v-p < 0.10, diremos que la evidencia en contra de H! es dbil; si 0.01 < v-p < 0.05, diremos que existe evidencia fuerte en contra de H! ; si v-p < 0.01, diremos que existe evidencia muy fuerte en contra de H! . La Tabla 7.1 nos proporciona la forma de determinar el valor-p para pruebas de hiptesis que involucran a un parmetro ) de una distribucin cualquiera, donde T(X) es el estadstico de prueba (variable aleatoria) y T(x) es su valor observado a partir de los datos de la muestra. Tabla 7.1. Valor-p para distintas pruebas de hiptesis. Hiptesis Nula y Alternativa H! : ) )! vs. H" : ) >)! H! : ) )! vs. H" : ) <)! H! :) = )! vs. H" :) )! Probabilidad de significacin valor-p= P(T(X) T(x)) valor-p= P(T(X) T(x) valor-p = 2 P(T(X) T(x)) si T(x)>)! valor-p = 2 P(T(X) T(x)) si T(x)<)! Ejemplo. Se sabe que el 10% de los huevos de una especie de pescado no madurarn. Se obtiene una muestra de 20 de tales huevos, de los cuales 5 efectivamente no maduraron. Cul es la evidencia en contra de la hiptesis planteada? _ En este caso las hiptesis son H! : p = 0.1 y H" : p 0.1, y s p = x = 0.25. _ _ Notemos que x > p = 0.1 por lo que el valor-p es 2P{X 0.25}. Utilizando aproximacin normal tenemos que, bajo H0 , _ (0.1)(0.9) X N(0.1; ) 20 y _ 0.1 P(X 0.25) = P(Z 0.25 0.067 ) = 1 P(Z< 2.24) = 1 0.9874 = 0.0126 241
Esto significa que si p = 0.1, las posibilidades de obtener al menos 5 huevos no viables de un total de 20, es de un 1% aproximadamente. Ahora, el valor -p es 2(0.0126) = 0.0252.
7.5. Lema de Neyman Pearson En los primeros ejemplos de la seccin anterior hemos determinado tests, o equivalentemente regiones crticas, en forma mas bien intuitiva. La validz de estas regiones de rechazo se justificar con la determinacin de los tests de razn de verosimilitud. En esta seccin daremos un resultado fundamental para una prueba de hiptesis, conocido como Lema de Neyman Pearson, aunque es un resultado puramente terico pues es vlido para contrastar hiptesis simples versus simple, nos sirve de apoyo para generar tests o regiones crticas Hemos dicho anteriormente que el criterio de seleccin del test ms adecuado se basar en la potencia de la prueba. Veremos a continuacin un criterio que nos permitir, en base a esta consideracin, seleccionar el mejor test para algunas hiptesis especficas. Recordemos previamente algunos de los conceptos relativos a la potencia de una prueba. Definimos la potencia del test, como la probabilidad de rechazar H! , dado que la hiptesis alternativa H" es verdadera. Sea X" ,...,Xn una muestra aleatoria de una poblacin X cuya funcin de densidad, f(x; )), depende de un parmetro desconocido ). Esta funcin de densidad siempre ha sido considerada como una funcin de x para un parmetro fijo ). Ahora en cambio ser considerada como una funcin del parmetro desconocido ), de modo que, an cuando la funcin es idntica a la anterior, nuestro inters se centra ahora en el parmetro ). Esta funcin f(x; ) ), como ya vimos, se llama funcin de verosimilitud y la denotaremos por L(), x). Supongamos ahora que T(X) es un estadstico de prueba y W es una regin crtica para una prueba de hiptesis relativa al parmetro ) . La potencia de la prueba, bajo este contexto, es 1 " = P(T(x) W | H" ). Deseamos ahora probar una hiptesis donde tanto la hiptesis nula como la alternativa son simples; esto es, cada una de ellas involucra slo a un valor del parmetro que caracteriza a la distribucin de la poblacin. Este caso no es muy til en las aplicaciones, pero nos sirve para introducirnos en la teora de pruebas de hiptesis. Supongamos entonces, que tenemos una muestra que proviene de una de dos distribuciones especificadas en forma completa. Nuestro objetivo es averiguar a cual de las distribuciones pertenece la muestra. Sea X" ,...,Xn una muestra aleatoria de la poblacin con densidad f(x; )! ) o f(x; )" ), queremos contrastar H! : X3 f(.; )! ) vs. H" : X3 f(.; )" ). Intuitivamente 242
podramos decidir en favor de H! si f(x; )! ) es mucho mas grande que f (x; )" ), esto es, f(x; )0 ) >> f(x; )1 ) o en favor de H" si f(x; )" ) >> f (x; )! ). As, deberamos rechazar H! si f(x; )" ) > k f(x; )! ). Esta idea es la que utilizaremos para construir una familia de test que, como veremos, proporcionar algunos test "buenos" en el sentido de minimizar la probabilidad de cometer error tipo II o equivalentemente maximizar la potencia. Definicin. Llamaremos Razn de Verosimilitud Simple a la expresin: - = L" () ; x)/L! () ; x) = f (x; )" )/f (x; )! ) en que L(); x) es la funcin de verosimilitud correspondiente a la variable aleatoria X. Definicin. Sea X" ,...,Xn una muestra aleatoria de X, ya sea con f(.; )! ) o f(.; )" ). Un test de H! : X3 f(.; )! ) vs. H" : X3 f (.; )3 ) se llama test de razn de verosimilitud simple si su regin crtica est definida por W = {x: - = f(x; )" )/f(x; )! ) > k; k > 0} y la regla de decisin est dada por: Rechazar H! si - > k; Aceptar H! si - k.
La razn de verosimilitud simple tambin podemos definirla en forma alternativa como - = f(x; )! )/f(x; )" ); en tal caso la regla de decisin ser: Rechazar H! si - < k; Aceptar H! si - k. Teorema 7.1 (Lema de Neyman Pearson). Sea X" ,...,Xn una muestra aleatoria de una poblacin X con densidad f(x; ) ). Supongamos que deseamos probar la hiptesis H! : ) = )! vs. H" : ) )" . Si consideremos el test de razn de verosimilitud simple con regin crtica de tamao ! dada por W = {x: f(x, )" )/f(x, )! ) > k}, y si W es cualquier otra regin crtica de tamao a lo ms ! ( !), entonces el test con regin crtica W es ms potente que cualquier otro test asociado con la regin crtica W . Demostracin. Del planteamiento del problema se pueden deducir facilmente los siguientes resultados: 1. La probabilidad de error tipo I del test asociado con la regin crtica W es menor o igual a ! y la probabilidad de error tipo I del test asociado a W es igual a ! . Esto es 243
P(Rech. H! con W |H! ) = P! (W ) ! = P(Rech. H! con W|H! ) = P! (W) 2. f (x; )" ) > kf (x; )! ) si x W y f (x, )" ) < kf(x, )! ) si x W. La potencia del estadstico de prueba asociado a la regin crtica W , est dada por P" (W ) = ( f(x, )" )dx
[
Notemos que si el espacio de valores de X es RX , podemos escribir RX = W Wc y W* = (W W* ) (Wc W* ), entonces P" (W ) = ( f(x; )" )dx + ( f(x; )" )dx
[ [ [ [ -
[ [
<( f(x; )" )dx + ( k f(x; )! )dx, por el resultado (2)

[ [ -
[ [
=( f(x; )" )dx + ( k f(x; )! )dx ( k f(x; )! ) dx

[ [ [
[ [
=( f(x; )" )dx ( k f(x; )! )dx + ( k f(x; )! ) dx

[ [ [
[ [
<( f(x; )" )dx ( k f(x; )! )dx + ( k f(x; )! ) dx, por (1)
[ [ [
<( f(x; )" )dx - ( k f(x; )! )dx + ( k f(x; )! ) dx, pues W W W .

[ [ [
244
<( f(x; )" )dx = P" (W)

[
Por lo tanto P" (W) > P" (W ) y el test asociado a la regin crtca W es ms potente que cualquier otro test de regin crtica W , de tamao menor o igual a !. Ejemplo. Supongamos que X representa una simple observacin de una poblacin cuya funcin de densidad est dada por f(x, ) ) = ) x)-" , si 0<x<1 0, en otro caso
y estamos interesados en determinar el test ms potente y la regin crtica correspondiente para probar la hiptesis H! : ) = 1 vs. H" : ) = 2, con un nivel de significacin de ! = 0.05. Dado que ambas hiptesis son simples, podemos recurrir directamente al Lema de Neyman-Pearson, obteniendo en primer lugar la razn de verosimilitud; esto es, L" () ; x) / L! (); x) = 2x, lo que indica que la regin crtica para el test ms potente tiene la forma W = {x: 2x > k} <=> {x: x > k|2 = c }. Para determinar el valor exacto de c, debemos considerar que este est ligado al nivel de significacin del test; esto es, a ! = 0.05, lo que significa que ! = 0.05 = P(X W |) = 1) = P(X > c |) = 1) = ( 1dx = 1 c,
" -
de donde c = 1 0.05 = 0.95 Por lo tanto, de acuerdo con el Lema de Neyman-Pearson, la regin crtica correspondiente est dada por W = {x: x > 0.95} y el test asociado con ella es el de mayor potencia para este tamao. 245
7.6 Tests Uniformemente ms Potentes Supongamos que obtenemos muestras de una poblacin cuya distribucin est totalmente especificada excepto por un parmetro ). Si deseamos probar las hiptesis compuestas unilateral (o de una cola). H! : ) )! vs. H" : ) > )! , no disponemos de un teorema general que nos permita obtener un test de mxima potencia. Sin embargo, si identificamos esta prueba con la prueba de hiptesis siguiente H! : ) = )! vs. H" : ) = )" , con )" > )! el lema de Neyman-Pearson, puede ser aplicado para obtener tests de mxima potencia para cada uno de los valores de )" >)! . En muchos casos la forma de la regin de rechazo o crtica no depende de la eleccin de )" . En tales casos la RC es independiente de los valores especficos de )" , por lo que ser vlida para todo )" >)! . Los tests que poseen esta caracterstica mximizan la potencia para todos los valores de )" mayores que )! y los llamaremos tests Uniformemente ms Potentes para verificar la hiptesis H! : )! )! vs. H" : ) > )! . Ejemplo. Supongamos que X" ,...,Xn es una muestra aleatoria de una distribucin normal con media desconocida . y varianza conocida 5 # . Queremos encontrar un test uniformemente ms potente para probar la hiptesis H! : . .! vs. H" : . > .! . Empecemos por examinar el test ms potente de tamao !, para probar la hiptesis H! : . = .! vs. H" : . =." , para algn ." >.! . Dado que se ha supuesto normalidad, se tiene que L(., x) - = f(x" , . ). ... .f(xn , . )
# # = (1/215 # )n# exp[ !n 3" (x3 .) /25 ]
Por otra parte, sabemos que la regin crtica asociada con este estadstico est dada por W = {L" (.; x)/L - ! (.; x) - > k}. lo que en este caso significa que tenemos 246
3 " -= (1/215 # )n# exp [!"" >k. n # # (x . ! ) /25 ] 3" 3
(1/215 # )n# exp [!n
(x . )# /25 # ]
Esta desigualdad puede ser reescrita en la forma
# # # # !n exp{ !n 3" (x3 .! ) /25 ] [ 3" (x3 ." ) /25 ]}>k # # # # !n [!n 3" (x3 .! ) /25 ] [ 3" (x3 ." ) /25 ] >lnk n # !3" [!n (x3 ." )# ] > 25 # lnk 3" (x3 .! )
_ _ # # # # # !n !n 3" x3 2nx.! + n.! 3" x3 + 2nx." n. > 25 lnk de donde se obtiene que _ # x(." .! ) > (25 # lnk n.# ! + n." )/2n _ # x > (25 # lnk n.# ! + n." ) 2n (." .! ) = c. _ As, se sigue que T(X)= X es el estadstico de prueba que proporciona la mxima potencia, ya que no depende de que valor positivo asuma ." .! . El valor exacto de c se puede determinar _ para un valor fijo de !, notando que P(X W|H! : .=.! ) = ! , con W = {x: x > c} = {z: z > z"! } Podemos observar adems que la forma de la regin crtica no depende de un valor particular de ." . Esto es, cualquier valor de . mayor que .! conducir exactamente a la misma regin crtica. Luego podemos concluir que el test uniformemente ms potente para probar la hiptesis H! : . .! vs. H" : . >.! , es el test Z, que rechaza H! si y slo si, su valor calculado z=
_ x.! 5 /n
y como ." .! > 0
es mayor que z"! .
Ahora, si deseamos probar la hiptesis H! : . .! vs. H" : .<.! , tenemos que la regin crtica de tamao ! se invierte; esto es, rechazamos H! si y slo si z < z"-! = z! . Ejemplo. Supongamos que X" ,...,Xn representan los tiempos de operacin sin falla de n mquinas idnticas y que constituyen una muestra aleatoria de una 247
poblacin exponencial de parmetro -. Se desea encontrar el test uniformente ms potente, si existe, para probar la hiptesis H! : - -! vs. H" : - >-! , donde -! es una constante positiva. Nuevamente, aplicando el lema de Neyman Pearson (ya que hay slo un parmetro desconocido) a H! : - = -! vs. H" : - = -" , -" >-! , obtenemos la regin crtica W = {x: L" (-, x) > kL! (-, x)} = {x: n ln-" -" !x3 > lnk+ nln-! -! !x3 } = {x: (-! -" ) !x3 > lnk + nln-! nln-" } y como -! --" es menor que cero tenemos
n - 1 = { x: 3-" e !x3 n -0 !x3 > k -! e }
W = {x: !x3 < (lnk + nln-! nln-" )/(-! -" ) = c }
_ que es equivalente a W = {x: x < c}. Dado que esta regin crtica no cambia, cualquiera sea el valor de -" > -! , tenemos que el test asociado a ella es uniformemente mas potente. As, para cualquier valor fijo ! tenemos _ _ ! = P(X < c| H! ) = P(2n-! X < 2n-! c) = P(;# < 2n-! c) pues como vimos antes 2-!X3 es una variable aleatoria Chi-cuadrado con 2n grados de libertad cuando H! es verdadera, de manera que 2n-! c = ;# ! (percentil ! de la distribucin ;# con 2n grados de libertad).
! Entonces c= 2n. Por lo tanto, si consideramos -! = 0.01, ! = 0.1 y tomamos 0 una muestra aleatoria de tamao 8, encontramos para 2n = 16, ;# = 9.31, c = - < 58.19. 58.19 y rechazaremos H! si encontramos que x
;#
El razonamiento previamente empleado tambin podemos aplicarlo para obtener tests uniformemente ms potentes en los siguientes casos: pruebas unilaterales acerca de p, parmetro de una distribucin Bernoulli; pruebas unilaterales acerca de ., el parmetro de una distribucin Poisson; pruebas unilaterales acerca de ., la media de una distribucin Normal con varianza 5 # conocida; pruebas unilaterales acerca de 5 # , la varianza de una distribucin Normal con media . conocida.
248
7.7. Test de Razn de Verosimilitud Generalizada Necesitamos una metodologa ms general para probar hiptesis bilaterales del tipo H! : ) = )! vs. H" : ) )! y para pruebas cuando hay ms de un parmetro desconocido en la distribucin de la poblacin en estudio. El conjunto de todos los valores posibles para ) se denomina espacio paramtrico y lo denotaremos por @. As, si X es una variable aleatoria exponencial de parmetro -, entonces @ = {-: ->0}; si X es una variable aleatoria Bernoulli de parmetro p entonces @ = {p: 0<p<1}. Ambos casos corresponden a un espacio paramtrico unidimensional, en cambio si X es una variable aleatoria N(., 5 # ), entonces el espacio paramtrico est dado por @ = {(., 5 # ): _ < . < _ 5 2 > 0} que es bidimensional si tanto . como 5 # son desconocidos. Supongamos que queremos probar la hiptesis H! que especifica valores para uno o ms parmetros de la distribucin de una poblacin, versus la hiptesis alternativa H" , que simplemente establece que H! es falsa. Esto lo podemos escribir como: H! : ) @0 vs. H" : ) @!, Notemos que el espacio paramtrico, queda particionado en los conjuntos @! y @! de acuerdo a las especificaciones de H! y H" . Cuando ambas hiptesis son simples, @! y @! tienen slo un elemento, y podemos usar el test de razn de verosimilitud simple para realizar la prueba. En el caso general, donde al menos una hiptesis es compuesta, comparamos en su lugar las dos cantidades Sup L y Sup L0 , donde Sup L es el valor mximo de la funcin de verosimilitud L() , x) para todos los valores ) @ y Sup L! es el valor mximo de la funcin de verosimilitud para todos los valores ) @! . En otras palabras, si tomamos una muestra aleatoria de tamao n de una poblacin con densidad f(x, ) ), s ) 0 es el estimador mximo verosimil de ) sujeto a la restriccin que debe ser un elemento de @0 y s ) es el estimador mximo verosimil de ) para todos los valores, entonces s Sup L = Cn 3" f(x3 , ) ) , y - = Sup L ! se llama valor del estadstico de razn de verosimilitud. Como Sup L y Sup L! son ambos valores de una funcin de verosimilitud y por lo tanto nunca negativas, se sigue que - 0. Tambin como @! @, se 249
Sup L
s Sup L! = Cn 3" f(x3 , ) 0 )
sigue que - 1. Cuando H! es verdadera, esperamos que Sup L! este cercano a Sup L en cuyo caso estara cercano a 1. Por otro lado, cuando H! es falsa esperamos que Sup L0 sea pequeo en comparacin con Sup L en cuyos casos - tendera a infinito. Una prueba de razn de verosimilitud establece por lo tanto, que H! es rechazada si y slo si el estadstico - es grande; es decir si > k , donde k es elegido para hacer que el tamao de la regin crtica sea igual a !; esto es, P(- > k|H! ) = (
_
g(-)d- = !,
k
donde g(-) es la densidad de la variable aleatoria -, bajo H! . Ejemplo. Determinemos el test de razn de verosimilitud para probar la hiptesis H! : . = .! vs. H" : . .! , sobre la base de una muestra aleatoria de tamao n, de una poblacin normal con varianza 5 # conocida. Como @! contiene slo un punto, .! , se sigue que el estimador mximo verosimil de . restringido a @! es . s_ ! = .! y como @ = {.: -_ <. < _}, el estimador maximo verosimil es . s = x. As, Sup L! = (1/5 # 21)n# exp( y Sup L = (1/5 21)
# n#
exp(
_ !(x3 x)# ) 25 #
!(x3 .! )# ) 25 #
de donde el test de razn de verosimilitud es exp (

_ !(x3 x)# ) 25 #
/exp (
!(x3 .! )# )= 25 #
exp (
_ n (x.! )# ) 25 #
De aqu, la regin crtica del test de razn de verosimilitud es exp (

_ n(x.# )# 25 #
)>k
lo que es equivalente a
# _ ln k ( x .! )# > 25 n = c (ctte)
o bien, _ | x .! |>c, donde c es determinado de manera que el tamao de la regin crtica sea !. 250
_ Ahora como X se distribuye N(.! , 5 # /n) si H! es verdadero, tenemos _ ! = P(| x .! | > c/ H! ) = 1 P(|Z| cn/5) Por lo tanto P(|Z| cn/5) = 1 ! y c = z"!/# 5 /n La regin crtica de razn de verosimilitud est dada por RC = _ {z: z < -z"-!/# o z > z"!/# }, (x.! ) donde z = 5 n. Ejemplo. Obtengamos ahora el test de razn de verosimilitud para probar la hiptesis H! : . = .! vs. H" : . .! , sobre la base de una muestra aleatoria de una poblacin N(., 5 # ), donde ambos parmetros son desconocidos. El espacio paramtrico completo es @= {(., 5 # ): -_ < . < _, 5 # > 0} y el espacio restringido especificado por H! es @! = {(.! , 5 # ): 5 # > 0}. La funcin de verosimilitud de la muestra es L(., 5 # , x) =
exp (!(x3 .)# /25 # ) . (215 # )n#
= P(| Z| > cn/5 )
Para determinar Sup L! , debemos suponer H! verdadero y encontrar el Supremo de L! = L(.! , 5 # , x) con respecto a 5 # . Este supremo se obtiene usando el estimador mximo verosimil de 5 # que es 5 s# ! =
n n# Sup L! = en# ( 21!(x #) 3 .! ) !(x3 .! )# n
y as
Para obtener el SupL determinamos los estimadores mximo verosimiles de . y 5 # que fueron obtenidos anteriormente como:
_ !(x3 x)# # . s=x y 5 s = n
de donde
251
n _ n# Sup L= en# ( 21!(x #) 3 x)
y la razn de verosimilitud - es
3 _ ! n# -= ( !(x # ) 3 x)
!(x . )#
Ahora notando que
_ _ !(x3 .! )# = !((x3 x)# + (x .! ))# _ _ = !(x3 x)# + n(x .! )#
tenemos
_ # )n# - = (1 + !(x ! 3 x)
_ n(x. )#
que es equivalente a
_ #. -#+ = 1 + !(x ! 3 x) _ n(x. )#
_ 2 es grande; Luego rechazamos H! si - es grande, lo que sucede si !(x ! 3 x) esto es, si _ # n(x.! _) !(x3 x)#
_ n(x. )#
> d ((n1)s# )"# > d

_ (n1)n |x .! | ((n1)s# )"#
_ n |x.! |
> d(n-1) =c.
El lado izquierdo de la ltima desigualdad corresponde al valor observado, en valor absoluto, de una variable aleatoria t-student con n-1 grados de libertad. Por lo tanto, para ! dado, el test de razn de verosimilitud rechaza H! si y slo si |t| > t"-!# . El siguiente teorema resume ste y otros tests de razn de verosimilitud en relacin a los parmetros de una distribucin normal. Teorema 7.2. Sea X" ,...,Xn una muestra aleatoria de una poblacin normal con media . y varianza 5 # , ambos parmetros desconocidos. Entonces las regiones crticas, dadas por el criterio de razn de verosimilitud, para una prueba de tamao !, de H! y H" especificados como sigue, son: Tabla 7.2. Test para . con varianza desconocida.
252
Test para . 1 2 3
_ (x.! )n s
H0 . .0 . .! . = .!
H1 .>.! .<.! . .!
RC t>t"-! t<t! = -t"-! |t|>t"-!#
donde t = es el valor observado de una variable t-student con n-1 grados de libertad. Para el caso de la varianza tenemos la Tabla 7.3. Tabla 7.3. Test para la Varianza. Test para 5 # 1 2 3 H! 5# 5#
# 5 # 5! # 5 # = 5!
H1
# 5 # >5! # 5 # <5! # 5 # 5!
Regin Crtica
# ;# > ;" -!
;# <;#
# # ; # <; # !# o ; >;"-!#
donde ;# =
(n1)s# # 5!
es el valor observado de una variable Chi-cuadrado con
n 1 grados de libertad. Ejemplo. Un fabricante sostiene que el modelo de auto A, tiene un rendimiento promedio de 13 kilmetros por litro de gasolina. Se selecciona una muestra de 9 de stos vehculos, y cada uno es conducido con un litro de gasolina en las mismas condiciones. La muestra proporciona una media de 12.34 km/lt, con una desviacin estndar de 1.26 km/lt. Nos interesa lo siguiente: a) Para ! = 0.05, verificar la afirmacin del fabricante. b) Determinar la probabilidad de cometer error tipo II, si el verdadero valor de . es de 11 km/lt. De acuerdo a esto, que se puede decir acerca de la decisin tomada en (a)?. c) Si el fabricante sostiene que la desviacin estndar poblacional es de 1.20 km/lt, realizar la prueba correspondiente.
253
d) Suponiendo que 5 =1.20 km/lt y la prueba en (a). Si .=10 en la hiptesis alternativa. Que tamao de muestra se requiere para lograr que las probabilidades de errores tipo I y tipo II sean ambas iguales a 0.01?. Supongamos que el rendimiento por litro de gasolina del auto tipo A es una variable con distribucin normal. En (a) la idea es rechazar la afirmacin del fabricante, por lo que en H! postulamos que el rendimiento promedio es igual (o superior) a 13 km/lt. En la hiptesis alternativa postulamos lo que creemos que es cierto, en este caso, que es inferior a 13. As, planteamos H! : . 13 vs. H" : . < 13. La regin crtica de tamao ! = 0.05 que proporciona el test de razn de verosimilitud es t < t!*& = 1.86, y el valor observado del estadstico es t=
$(12.3413) 1.26
= 1.57
que no cae en la regin crtica y por lo tanto no podemos rechazar H! . Notemos que el valor-p = P(T -1.57), de acuerdo a la tabla t-student con 8 grados de libertad, se encuentra entre 0.05 y 0.1, lo que indicara una evidencia muy dbil para rechazar H! . Para la parte (b), si . = 11, entonces H! es falsa y la probabilidad de cometer un error de tipo II es " = P(Aceptar H! |. = 11) = P(T 1.86|. = 11)
_ $(X13) = P 1.26
_ 1.86|. =11) = P(X 12.22|.=11) = P(T 2.9)
= P(T
$(12.2211) ) 1.26
=1 0.99 = 0.01 Dado que la probabilidad de cometer error tipo II es relativamente baja, para un rendimiento promedio real de 11 km/lt, la decisin de aceptar H! en (a) es adecuada. En (c) podemos realizar una prueba bilateral para la varianza; esto es, H! : 5 # = (1.20)# vs. H" : 5 # (1.20)#
# Si ! = 0.05, de la tabla chi-cuadrado con 8 g.l., ;# !!#& = 2.18 y ;!*(& = 17.5 y el valor observado del estadstico de razn de verosimilitud es
254
;# =
(n-1)s# # 5!
= (1.20)# = 8.82,
8(1.26)#
valor que est fuera de la regin de rechazo de H! . Finalmente, para la parte (d), notamos que en parte (a) planteamos las hiptesis H! : . 13 vs. H" : . < 13, por lo que _ c13) n ! = 0.01 = P(X< c|. = 13) = F( 1.20 ) y _ c13) n " = 0.01 = P(X c|. = 10) = 1 F( 1.20 ).
(c13) n 1.20 (c10) n 1.20
As, tenemos
= z!!" = 2.33 y
= z!** = 2.33
Resolviendo este sistema para c y n encontramos: c = 11.5 y n = 3.47. Por lo tanto, necesitamos por lo menos 4 observaciones para satisfacer lo pedido
7.8. Tests Basados en Dos Muestras Independientes En esta seccin veremos mtodos para construir test de hiptesis relacionados con dos poblaciones para comparar medias, varianzas, o proporciones, segn sea el caso de inters.
7.9. Comparacin de Medias Supongamos que x" ,...,xn1 son los valores observados de una muestra de una poblacin X con distribucin N(." , 5 # ) e y" ,...,yn2 son los valores observados de una muestra, independiente de la anterior, de una poblacin Y con distribucin N(.# , 5 # ). Notemos que estamos suponiendo que las dos poblaciones tienen la misma varianza. Deseamos probar la hiptesis H! : ." = .# vs. H" : ." .# , para lo cual emplearemos el criterio de razn de verosimilitud con el objeto de obtener el estadstico de prueba y la regin crtica correspondiente. Para la muestra combinada de n" +n# valores, ) = (." , .# , 5 # ) es el vector de paramtros, y el espacio paramtrico es @ = {(." , .# , 5 # ): _ < ." < _; _ <.# < _, 5 # >0} 255
Bajo H! , .1 = .2 = . y el espacio paramtrico restringido es @ = {(., ., 5 # ):-_ <. < _,5 # >0} La funcin de verosimilitud, considerando @, es L(." , .# , 5 # ) = L(." , 5 # , x) L(.# , 5 # , y) = (1/215 # )n" n# # exp { y los estimadores mximos verosimiles son:
_ _ _ _ !(x3 -x)# +!(y3 -y)# . , s" = x, . s# = y y 5 s#= n" +n# !(x3 -." )# +!(y3 -.# )# } 25 #
por lo que el Sup L es

" + n# _ _ # ] n" n# # exp {- n" +n# }. Sup L = [ 21(!(x n # 2 3 -x) +!(y3 -y) )
Ahora, bajo H0 , la funcin de verosimilitud pasa a ser L! (., 5 # ) = (1/215 # )n" n# # exp {
!(x3 -.)# + !(y3 -.)# 25 #
que corresponde a la funcin de verosimilitud de una muestra aleatoria de tamao n=n" +n# de una poblacin normal con media . y varianza 5 # . As los valores que la maximizan son: . s= y
" +n# # Sup L! = [ 21(!(x -n ]n" n# # exp {- n" +n 2 } s)# + !(y3 -. s)# 3 .
!x3 +!y4 n" +n#
_ _ n " x n # y n" +n# ;
5 s# =
!(x3 -. s)# +!(y3 -. s)# , n" +n#
de donde la razn de verosimilitud entonces es

4 _ n" n# /2 _# -= [ !(x3 -x) . + !(y4 -y)# ] 3
!(x -. s)# + !(y -. s)#
Usando el hecho que

__ _ _ n .n (x-y)# !(x3 -. , s)# + !(y4 -. s)# = !(x3 -x)# + !(y4 -y# )+ " # n" +n#
256
- lo podemos escribir como

_# _ # ]n" +n# )# - = [1+ (n +n ) (!"(x # " # 3 -x) + !(y4 -y) ) __ n .n (x-y)#
t = [1+ n" +n ]n" +n# # # -2
donde t es el valor observado de una variable t-student con n" +n# -2 grados de libertad si H! : ." = .# = . es verdadero. Luego la regin crtica de acuerdo al criterio de razn de verosimilitud es - > d, que es equivalente a que |t| >c. As, para una probabilidad de error tipo I igual a !, rechazamos H! si |t|>t"-!# , donde t =
[ (x-y) (
__
n" n# "# n" +n# )
]s:
El siguente teorema resume este resultado y proporciona las regiones crticas para todas las posibles comparaciones de medias. Teorema 7.3. Sea X" ,...,Xn1 una muestra aleatoria de X que se distribuye N(." , 5 # ) e Y" ,..,Yn2 una muestra aleatoria, independiente de la anterior, de Y que se distribuye N(.# , 5 # ). Si definimos
_ _ !(X3 X)# +!(Y3 Y)# n" +n# -2 _ _ (XY) n" n# S: ( n" +n#
S2 :
y T=
)"#
entonces el test de razn de verosimilitud genera las siguentes regiones crticas de tamao !, para las hiptesis H! y H" indicadas.
Tabla 7.4. Test para diferencia de medias. Muestras Independientes Test 1 2 3 H0 .1 .2 .1 .2 . 1 =. 2 H1 .1 >.2 .1 <.2 .1 .2 257 RC t>t"-! t<t! = -t"-! |t|>t"-!#
donde t es el valor observado de la variable aleatoria T, que tiene distribucin tstudent con n" +n# 2 grados de libertad. Ejemplo. Los tiempos de operacin sin falla de n" = 8 baterias de la marca A fueron: 686; 784; 769; 848; 728; 739; 757 y 743 horas de servicio, respectivamente. La duracin de n# =10 baterias de la marca B fueron: 762; 783; 763; 749; 806; 783; 831; 784; 790 y 750 horas de servicio, respectivamente. Suponiendo que estas observaciones corresponden a dos muestras aleatorias independientes de variables normales con la misma varianza, deseamos probar la hiptesis H! : .E = .F vs. H" : .E .F , con ! = 0.05 De los datos obtenemos: _ _ _ _ x =756.75 ; y =780.1; !(x3 -x)# = 15555.5; !(y3 -y)# = 5884.9 y
15555.5 + 5884.9 16
s# :=
= 1340.025,
luego el valor observado del estadstico es

1340.025
780.1 t = 756.75 80/18= 1.345
De las tablas t-student con 16 grados de libertad obtenemos t!*(& =2.12 y como |t| = 1.345<2.12, no podemos rechazar la hiptesis de igualdad de medias. Si tanto n" como n# son suficientemente grandes y deseamos probar la hiptesis nula mas general H! : ." .# = d, entonces podemos usar el estadstico Z=
_ _ X-Y-d
S S n1 + n2 # # # #
que tiene distribucin aproximada N(0, 1). Ejemplo. Se desea comparar el contenido de nicotina de dos marcas de cigarrillos. Si un experimento de 50 cigarrillos de la primera marca di un _ promedio de nicotina de x" =2.61 milgramos con una desviacin estndar s" = 0.12 milgramos, mientras que 40 _cigarrillos de la segunda marca di un contenido medio en nicotina de x 2 =2.38 milgramos con una desviacion estndar s# = 0.14 milgramos, usando un nivel de significacin !=0.05, queremos probar la hiptesis H! : ." -.# = 0.2 vs. H" : ." -.# = 0.2. 258
La regin crtica est dada por: RC = |z|>z!*(& = 1.96 y el valor observado del estadstico Z es
2.61-2.38-0.2 z = (0.12# = 1.08. /50 + 0.40# /40)"#
Como |z| = 1.08 < z!*(& =1.96, no podemos rechazar H! . Podemos ya bien aceptar H! o decir que la diferencia entre 0.23 (2.61-2.38) y 0.2 no es lo suficientemente grande como para rechazar H! .
7.10. Comparacin de Varianzas Aplicando tambin la prueba de razn de verosimilitud, podemos encontrar las regiones crticas para pruebas relacionadas con las varianzas poblacionales. Esto est resumido en el siguiente teorema cuya demostracin queda como ejercicio. Teorema 7.4. Sea X" ,..,Xn1 una muestra aleatoria de X que se distribuye # N(." ,5" ) e Y" ,..,Yn2 una muestra aleatoria, independiente de la anterior, _ _ de Y !(X3 -X)# !(Y3 -Y)# # # # que se distribuye N(.# , 5# ). Definiendo S" = n" -1 ; S# = n# -1 , el criterio de razn de verosimilitud proporciona las siguientes regiones crticas de tamao !
Tabla 7.5. Comparacin de Varianzas Test 1 2 3 H0

# # 5" 5# # # 5" 5# # 5" = 5#
H1
# # 5" > 5# # # 5# < 5! # # 5" 5#
RC
# S# " /S# > f"-! # S# " /S# < f! # # # S# " /S# <f!# o S" /S# >f"-!#
donde f: corresponde al percentil-p de la distribucin F con n" grados de libertad en el numerador y n2 grados de libertad en el denominador.
# # Ejemplo. En el ejemplo de la duracin de la pilas supusimos que 5A = 5B . Si este supuesto merece dudas, debemos primero usar los datos para realizar una
259
# # prueba de igualdad de varianzas y si aceptamos H! : 5A = 5B , estamos en condiciones para realizar una prueba de igualdad de medias.
Realicemos entonces la prueba de igualdad de varianzas:

# # # # H! : 5A = 5B vs. H" : 5A 5B ; con ! =0.02 # # # De los datos tenemos que s# A = 2222.21 , sB = 653.88 y sA /sB = 3.40. De la tabla F con 7 y 9 grados de libertad encontramos f!!" = 1/6.710 = 0.149 y f!** = 5.62, por lo que no hay evidencia para rechazar H! .
En las pruebas de hiptesis basadas en el criterio de razn de verosimilitud, hemos obtenido estadsticos de prueba con distribucin de probabilidades conocidas y, ms an, la distribucin de los estadsticos se encuentran tabuladas. Sin embargo, en ocasiones el estadstico resultante no posee una distribucin conocida. Cuando el tamao de la muestra es suficientemente grande, podemos obtener una aproximacin a la distribucin de la razn de verosimilitud. Enb efecto, bajo ciertas condiciones de regularidad, asociadas con la funcin de densidad de probabilidad de la poblacin en estudio, el estadstico -2ln- se distribuye aproximadamente como una Chicuadrado, con un nmero de grados de libertad igual al nmero de parmetros a los que se les ha asignado valores especifcos bajo H! .
7.11. Diferencia de Proporciones Frecuentemente queremos efectuar comparaciones entre proporciones o porcentajes respecto de una caracterstica comn de dos poblaciones; esto es, estamos interesados en la diferencia entre dos parmetros Bernoulli. Enseguida veremos una forma de enfrentar este problema que es vlida slo para muestras grandes. Sea X" ,...,Xn1 una muestra aleatoria de una poblacin X con distribucin Bernoulli(p" ) y Y" ,...,Yn# una muestra aleatoria, independiente, de una poblacin cuya distribucin es Bernoulli(p# ). Consideremos la prueba de hiptesis H! : p" = p# vs. H" : p" p# , para un valor especfico de !.. Sabemos que un estimador suficiente para el parmetro _ _ de una distribucin Bernoulli, es la media muestral. Por lo tanto, X y Y son los estimadores suficientes para p" y p# , respectivamente. Adems, por el teorema del lmite central, estos estimadores se distribuyen aproximadamente normal con medias p" , p# y varianzas p" (1-p" )/n" y p# (1-p# )/n2 , respectivamente. Adems, 260
X Y N(p" -p# , p" (1-p" )/n" + p# (1-p# )/n# ). en forma aproximada cuando n1 y n2 son grandes. _ _ Si H! es verdadera, esto es, p" = p# = p , entonces la media de X-Y es cero y su p(1-p) p(1-p) varianza es n + n , donde p es el valor comn para p" y p# .
" #
Ahora, bajo H! , el estimador mximo verosmil de p para la muestra conjunta es p= s y Z=

_ _ X-Y s p (1-p) s (1/n" + 1/n# ) !x3 +!y4 n" +n#
_ _ n" x+n# y n" +n#
es una variable aleatoria con distribucin (aproximada) normal estndar. As, para ! dado, rechazamos H! : p" =p# cuando |z | >z"-!# . Es importante notar aqu que este test no es equivalente al intervalo de confianza para p" p# (aunque es muy cercano) y tampoco es equivalente al test de razon de verosimilitud. Este test es equivalente a las pruebas de tablas de contingencias que veremos mas adelante.
7.12. Test Basados en dos Muestras Dependientes En muchas aplicaciones es necesario considerar muestras dependientes de dos variables aleatorias para efectuar comparaciones de inters. Por ejemplo, supongamos que queremos investigar el efecto del consumo de alcohol en el tiempo de reaccin para frenar ante un imprevisto, en los conductores de vehculos. Una forma de investigar tal efecto es considerar dos grupos de conductores distintos registrando los tiempos de reaccin sin alcohol para el primer grupo y luego independientemente registrar el tiempo de reaccin para el segundo grupo de conductores, a quienes se les ha dado a beber una cierta cantidad igual de alcohol. Una investigacin mas clara del efecto del alcohol en el tiempo de reaccin, podra efectuarse si seleccionamos solo un grupo de n personas y medimos su tiempo de reaccin antes y despues de consumir alcohol. As, obtendramos n pares de mediciones (dos mediciones a una misma persona, antes y despus de ingerir alcohol). Podemos definir entonces X3 como el tiempo de reaccin del conductor i antes de ingerir alcohol, y Y3 como el tiempo de reaccin del conductor i despus de 261
ingerir alcohol, y en este caso es razonable pensar que X3 y Y3 son variables aleatorias correlacionadas, ya que corresponden a mediciones para un mismo individuo. Si suponemos que las X3 son variables normales con media ." y las Y3 tambin son variables normales con media .2 , no podemos usar el Teorema 6.7 para probar por ejemplo H! : ." .# , si las dos muestras estan correlacionadas. Como tenemos n pares (X3 ,Y3 ), i=1,...,n, podemos suponer que ellos conforman una muestra aleatoria de una distribucin normal bivariante de parmetros .# , # # .# , 5" , 5# , 3. Recordemos que cualquier funcin lineal de variables normales es nuevamente normal, en particular si definimos D3 = X3 Y3 , i=1,..,n, las D3 son variables # # aleatorias independientes normales con media .H = ." -.# y varianza 5H = 5" # + 5# 235" 5# . Bajo estas consideraciones .H =0 si y slo si ." =.# y podemos usar el Teorema 6.6 para probar hiptesis acerca de .H = ." .# . Este test se llama test t-pareado y lo presentamos en el siguiente teorema. Teorema 7.5. (Test t-pareado) Supongamos que (X3 ,Y3 ), i=1,..,n es una muestra aleatoria de un vector normal bivariante (X,Y) con parmetros ." , .# , # # 5" , 5# y 3 . Definamos D3 = X3 Y3 , i=1,...,n; _ ! D = nD3 Entonces T= y
_ !(D3 -D)# # SH = n-1
.H = ." .# ;
_ (D .H )n SH
se distribuye t-student con n-1 grados de libertad.
Esta distribucin puede usarse para probar hiptesis como las indicadas en la Tabla 7.6, para un tamao de error de tipo I igual a !.
Tabla 7.6. Comparacin de medias. Muestras Dependientes Test 1 2 3 H0 ." .# . .! . = .! H1 ." >.# . <.! . .! RC
_ d n sH _ d n sH
> t "- ! < t! = -t"-!
_ d n sH
| > t"-!#
262
Ejemplo. Los datos que aparecen en la Tabla 7.7 corresponden a las lecturas de contenidos de mercurio en un cierto volumen de agua, medido con dos instrumentos diferentes. Estamos interesados en averiguar si ambos instrumentos proporcionan medidas similares sobre el contenido de mercurio.
Tabla 7.7. Mediciones de Mercurio

Instr.1 28.2 33.95 38.25 42.52 37.62 36.84 36.12 35.11 34.45 52.83 46.48 Instr.2 28.7 33.99 38.20 42.42 37.64 36.85 36.21 35.20 34.40 53.86 46.47 diferencia 0.05 0.04 -0.05 -.10 0.02 0.02 0.09 0.09 -0.05 0.03 -0.01 Instr.1 57.9 51.52 49.52 53.99 54.04 56.00 57.62 34.30 41.73 44.44 Instr.2 57.88 51.52 49.52 52.19 53.99 56.04 57.65 34.39 41.78 44.44 diferencia -0.02 0.00 0.00 -0.01 -0.05 0.04 0.03 0.09 0.05 0.00
Si X e Y representan el contenido de mercurio en el agua medido por el instrumento 1 y 2, respectivamente, y si suponemos los datos presentados en la Tabla 7.7 corresponden a una muestra aleatoria de un vector normal bivariante # # (X,Y) con parmetros ." , .# , 5" , 5# y 3, de acuerdo con el planteamiento, deseamos probar una hiptesis del tipo H! :." = .# , Vs. H1 :." .# . El estadstico de prueba, para este caso, tiene la forma T=
_ D n SH
tn-"
_ De la tabla encontramos que d = 0.0086 y s# d = 0.00289, luego el valor observado del estadstico de prueba es t = 0.008621 /.00289 = 0.7809. Si tomamos ! = 0.1, encontramos de la tabla t-student con 20 grados de libertad t!!& =1.725 y como 0.7809 no cae en la regin crtica no podemos rechazar H! . El valor observado del estadstico T nos proporciona un valor-p > 0.20, por lo que conclumos que la muestra considerada no contiene evidencia en contra de la hiptesis de que ambos instrumentos tienen igual precisin.
EJERCICIOS 263
1.- Considere el problema de probar la hiptesis H! : . = 8 vs H" : . =14, basndose en una muestra aleatoria de una poblacin normal con varianza unitaria. a) Encuentre la regin crtica cuando !=0.0.1 y n=24. b) Dibuje la funcin de potencia c) Qu tamao de muestra sera necesario considerar si deseamos tener !=0.05 y " =0.1?. 2. Como parte de un proyecto de investigacin, un psiclogo seleccion una muestra aleatoria de 12 nias y 9 nios. Luego le pidi a cada individuo que dibujara una figura masculina. El tiempo promedio que ocuparon las mujeres fue de 8 minutos, con una varianza de 18. Para los hombres el tiempo promedio fue de 13 minutos, con una varianza de 22.5. Indican estos datos que los hombres, en promedio gastan ms tiempo dibujando una figura masculina que las mujeres?. Suponga que las poblaciones respectivas tienen distribucin normal. 3. Suponga que se estudia la posibilidad de comprar una mquina nueva para fabricar ciertos tornillos. Se comprar la mquina si la proporcin de tornillos que muestran alguna falla en el proceso de control es menor o igual que un 10%. Se examina una muestra de 25 tornillos fabricados por dicha mquina, de los cuales 4 fueron defectuosos. Se puede inferir que la mquina satisface las condiciones exigidas?. 4. Un proveedor vende fibras naturales a una fbrica, afirmando que tiene una resistencia media de 33 lb.. Una muestra aleatoria de 9 fibras proporciona una resistencia media de 30 lb. y una varianza de 64. Con esta informacin, se puede descartar la pretensin del vendedor a un nivel de significacin de un 5%?. Si se fija el punto crtico en 31 lbs. Cul es la probabilidad de error tipo I?. 5. En un da dado se cambia el aceite lubricante en una mquina de avin; el nuevo aceite contena 30 ppm de plomo. Despus de 25 hrs. de vuelo, se sacaron 11 muestras pequeas de aceite y se quemaron en un espectrmetro para determinar el nivel de contaminacin de plomo presente. Las lecturas observadas en el espectrmetro fueron: 34.9, 37.4, 40.1, 39.2, 34.4, 25.1, 40.7, 34.5, 30.6, 33.2 Y 34.0. Suponiendo normalidad, deberamos aceptar la afirmacin que el contenido medio de plomo es 30 ppm?. 6. Bajo los mismos supuestos y datos del problema anterior, pruebe la hiptesis que la desviacin estndar es a lo ms 4ppm. 7. Una compaa envasadora de pescado congelado va a ser investigada por el Servicio Nacional del Consumidor (SERNAC). Cada paquete de pescado lleva 264
una etiqueta que marca 12 kg. Un consumidor afirma que esto no es verdadero. El SERNAC revisa 100 paquetes envasados por esta compaa encontrando: # !x3 =1150 kg., !x# 3 =13249.75 kg . Aceptar o rechazar el SERNAC las especificaciones de la envasadora?. 8. Una empresa compra lingotes de acero a una siderrgica, exigiendo en las especificaciones que el peso medio sea de 100 kg. con una desviacin estndar de 4 kg. Al recibir una partida grande de lingotes, se toma una muestra al azar de 25 lingotes y se aceptar la partida si el peso medio observado es superior o igual a 98 kg. Determinar a) El nivel de significacin que implica el criterio utilizado. b) La probabilidad de un error tipo II, " , si la verdadera media fuera 97 kg. c) La regin crtica, si se considera un nivel de significacin ! = 0.04, una muestra de tamao 16 y la hiptesis alternativa .<100. 9. Considere la prueba de hiptesis H! : .=1 vs H" : . 1. Basndose en una muestra de tamao 25 de una poblacin normal con varianza unitaria y un nivel de significacin 0.05. Determinar: _ a) El valor de k si se considera la regin crtica: | x-1|>k. _ _ _ b) Los puntos crticos a y b tales que la regin crtica es {x/x>b x<a}. 10. La fbrica de calzados ABC tiene una cadena de tiendas de ventas al detalle en diversas ciudades de Chile. La poltica de ABC es no establecer una tienda de venta en aquellas ciudades que no le reporten, con un 99% de certeza, una venta total anual de al menos $5.000.000. La fbrica est considerando la posibilidad de instalar una tienda de venta en Chilln, que es una ciudad de 20.000 familias, para lo cual selecciona una muestra de 49 familias que tienen un gasto medio familiar de $30.000 en calzado durante un ao, con una desviacin estndar de $10.000. Basada en esta informacin, debe la fbrica ABC abrir una tienda en Chilln?. 11. Se realiza una investigacin para determinar la acumulacin de DDT en las clulas cerebrales de una variedad de aves. Muestras de tamao n" =10 de la categora juveniles y n# =13 de adultos, proporcionan los siguientes resultados: Juveniles Adultos n =10 n _" _# =13 y" =0.041 ppm y# =0.026 ppm s" =0.017 s# =0.006 Algunos investigadores opinan que los juveniles deberan tener una mayor concentracin media de DDT que los adultos. Determine la veracidad de esta opinin estableciendo las hiptesis adecuadas y desarrollando las pruebas pertinentes. Existe suficiente evidencia como para concluir que la concentracin en las clulas cerebrales de los juveniles excede de la de los adultos en ms de 0.01 ppm?. 265
12. En un estudio sobre contaminacin ambiental se tomaron muestras de aire en dos localidades A y B, en un mismo da y a la misma hora. El anlisis de estas muestras dieron los siguientes resultados, para el nmero de partculas de materia presente en el aire, en mgr/m$ . Localidad A 81 96 67 74 77 Localidad B 51 70 42 37 55 a) Con los resultados obtenidos, se puede concluir que la contaminacin es significativamente diferente en ambas localidades? b) Si la cantidad promedio de partculas en el aire sobrepasa los 75 mgr/m$ en la localidad A, se considera crtico para la poblacin. Con la informacin proporcionada por la muestra, y si la varianza poblacional es (100mgr/m$ )# , deben las autoridades tomar alguna medida para reducir la contaminacin?. c) Con la decisin tomada en (b) y si la verdadera cantidad promedio de materia en ese da era 80 mgr/m$ , cul es la probabilidad de cometer error de tipo II?. 13. Estamos interesados en comparar la resistencia a la tensin de dos tipos de acero producidos por una empresa siderrgica. Para este efecto, consideremos muestras de tamao 40 y 32, para los tipos 1 y 2, cuyas medias fueron 18.12 y 16.87 kg/cm# , respectivamente. a) Si 5" =1.6 y 5# =1.4. podemos concluir que hay diferencias en la resistencia media para estos tipos de acero?. Use !=0.01. b) Determinar la probabilidad de cometer un error de tipo II si ." -.# =1. c) Queremos emplear un nivel de significacin de 0.05 y un " =0.1 cuando ." -.# =1. Si n" =40, Qu valor se requiere para n# ?. d) Cmo modificara su respuesta a la parte (a) si slo se dispone de informacin muestral tal que s" =1.6 y s# =1.4?. 14. En una encuesta de opinin, entre 300 conductores residentes en Concepcin, 63 de ellos son partidarios de aumentar el lmite de velocidad en las zonas rurales de 80 a 90 km/hr. De 180 conductores residentes fuera de la ciudad, 75 son partidarios de esta medida. Coinciden las opiniones de los residentes en la ciudad con la de los residentes fuera de ella?. Use !=0.05. 15. Dos tipos de soluciones qumicas A y B fueron ensayados para determinar el pH. Una muestra de tamao 6 para solucionar tipo A proporcion una media de 7.52; y una muestra de tamao 5 con la tipo B proporcion una media de 7.49. Si las desviaciones estndar poblacionales son 0.024 y 0.032, respectivamente, podra concluirse que no hay diferencias significativas entre las soluciones para determinar la cantidad de pH?. 266
16. Para eliminar la humedad de un producto de madera, se realizaron dos tipos de secado, se registraron los pesos anteriores al secado y los posteriores al mismo, y los porcentajes de prdida de peso servan para medir la eficacia de ambos tipos de condiciones de secado. Las condiciones del secado tipo A produjeron en una muestra 20 unidades, una varianza muestral de 10 y una muestra de 25 unidades de las condiciones de secado del tipo B produjo una varianza de 30. Comprobar la hiptesis que las condiciones de tipo A son mejores que las de tipo B, empleando un nivel de significacin de 0.05. 17. Un fabricante de transistores asegura que la duracin de los transistores, sometidos a uso continuado, presentan una varianza menor igual a 25 horas. Con el objeto de verificar esta informacin, se somete a prueba cierto nmero de transistores. a) Determine la regin crtica para una muestra aleatoria de tamao 25 y un nivel de significacin de 0.05. b) Si la muestra de tamao 25 arroj una varianza de 36, calcular la probabilidad de cometer un error tipo II, considerando la alternativa 5 # =30.7. 18. Un distribuidor de gasolina asegura que, para cierto tipo de gasolina, la varianza en el rendimiento es 50, cuando es utilizada en automviles. Con el objeto de verificar la exactitud de la informacin dada por el distribuidor, un automovilista efecta una prueba estadstica. Si el automovilista considera una muestra de tamao 21 y una hiptesis alternativa que la varianza es igual a 60, determinar la potencia del test utilizando como regin {s# /s# >80}. 19. Despus de varios aos de trabajo, una mquina que produce cierto tipo de vaso, genera un promedio de 10% de unidades defectuosas. El ingeniero de control de calidad sospecha que ltimamente la calidad de los vasos se ha deteriorado. Para verificarlo, selecciona una muestra aleatoria de 100 vasos producidos por esta mquina, de los cuales 14 resultaron defectuosos. Puede concluir el ingeniero que la calidad de los vasos se ha deteriorado?. Use ! 0.05. 20. La cantidad de nicotina contenida en cigarrillos marca A se distribuye normal. Se seleccionan al azar 6 de estos cigarrillos, midindoles el contenido de nicotina en mgr., registrndose los siguientes valores: 20.2, 19.8, 18.0, 17.2, 18.3, y 18.8. a) Si un seor que fuma dichos cigarrillos est dispuesto a dejar de fumar si la cantidad promedio de nicotina es mayor que 18 mgr. De acuerdo a los resultados de la muestra, qu decisin toma este seor?. b) Si en la pregunta (a) el seor decide dejar de fumar si el valor crtico es de 18.5 mgr. cul sera la probabilidad de cometer un error de tipo I?. Cul sera la probabilidad de cometer un error de tipo II, si la verdadera media es 18.3 mgr.?. 267
CAPITULO VIII AJUSTE DE DISTRIBUCIONES Y TABLAS DE CONTINGENCIA
Los procedimientos desarrollados para la estimacin de parmetros presupone una distribucin hipottica para la poblacin. Si tal distribucin no es la correcta, el modelo probabilstico resultante, independientemente del mtodo de estimacin utilizado, puede resultar irreal y dar una pobre representacin del fenmeno fsico o natural en estudio. En esta seccin desarrollaremos algunos mtodos bsicos para contrastar o verificar una distribucin de probabilidades de una poblacin basndose en una muestra extrada desde la poblacin. El problema de verificacin de distribuciones basados en la informacin muestral cae dentro del esquema de pruebas de hiptesis que ya hemos desarrollado. Una forma sencilla y rpida de abordar el problema es, por medio de histogramas y diagramas de frecuencias, comparando graficamente la distribucin hipottica y la de los datos observados. Si n ensayos multinomiales se realizan, cada uno con las mismas probabilidades p1 ,...., pk y si definimos Yi = n de veces que se observa el resultado i, i=1,...,k. Entonces (Y1 ,...,Yk ) es un vector multinomial de parmetros (n,p1 ,.....,pk ), y su funcin de probabilidad es
yk 2 1 p(y1 ,y2 ,.....,yk ) = y !y !.....y ! p y 1 p 2 ..... p k . 1 2 k
n!
Donde yi = 0,1,2,....,n ; !yi =n ; !pi =1

k k i=1 i=1
De la seccin 4.7, sabemos que si (Y1 ,...,Yk ) se distribuye Multinomial (n,p1 ,..,pk ), entonces cada Yi se distribuye Binomial (n,pi ). 8.1. Test ;# de Bondad de Ajuste Como ya hemos mencionado, el problema consiste en contrastar una hiptesis H! que especifica la distribucin de probabilidad para una poblacin X vs. la alternativa que la distribucin de probabilidad no es del tipo establecido, basndose en una muestra de tamao n de la poblacin X. Uno de los test ms verstiles y populares para este propsito es el test de bondad de ajuste Chicuadrado (;# ) introducido por K. Pearson (1900).
268
En la aplicacin de este test debemos distinguir dos casos: cuando la distribucin hipottica est completamente especificada con todos los parmetros conocidos; y cuando la distribucin no est completamente identificada y debemos estimar los parmetros desde los datos. Veamos primero el caso de parmetros conocidos. Supongamos que la distribucin supuesta est completamente identificada con todos sus parmetros conocidos. En el test ;# , el estadstico de prueba surge de comparar las frecuencias observadas y las frecuencias esperadas, de pertenecer a un determinado subconjunto del espacio de valores de la variable en la distribucin especficada por la hiptesis nula. Supongamos que disponemos de n observaciones de una variable aleatoria X. Dividamos el rango de X en k intervalos mutuamente excluyentes: A" ,...,Ak , y sea Ni el nmero de observaciones x que caen en Ai , i=1,k. El valor observado de la variable aleatoria Ni corresponde a la frecuencia observada que aludamos anteriormente y !k i" Ni =n. (N" , N# ,...,N5 ) es un vector multinomial de parmetros (n, p" , p# ,...,pk ), donde pi =P(X Ai ) = P(Ai ) bajo la hiptesis nula. Cada Ni tiene distribucin binomial de parmetros (n, pi ), y por lo tanto media npi (frecuencia esperada). De las consideraciones anteriores veremos que el estadstico de prueba apropiado es D = !5 3"
(Ni npi )# npi
por el razonamiento siguiente: Una vez observado (N" ,...,Nk ), podemos calcular el valor observado de D bajo H! , y si encontramos que este valor es muy grande (mayor que alguna constante por especificar), indicara que hay grandes diferencias entre las frecuencias observadas y esperadas, por lo que rechazamos H0 . La razn de proceder de esta manera es que si H! es verdadera, debera tenerse que E(Ni )= npi para todo i=1,..,k. lo que conducira a un valor observado de D pequeo. Podemos encontrar la distribucin de D utilizando el siguiente teorema. Teorema 8.1. Si (N" ,...,Nk ) se distribuye multinomial de parmetros (n, p" , p# ,...,pk ), entonces la distribucin de la variable D = !5 3"
(N3 np3 )# np3
se puede aproximar por una distribucin ;# con k 1 grados de libertad, cuando n tiende a infinito. 269
Considerando que n es grande verifiquemos el teorema para k=2 . Si k=2 D=

(N" np" )# np"
(N# np# )# np#
Como N" +N# =n D=
y p" +p# = 1, podemos escribir
(N" np" )# np"
(nN" n(1p" ))# np#
1 1 = (N" np" )# np + np " #
= np" (1p" ) 1 "
(N np )#
Ahora, N" corresponde al nmero de xitos en n ensayos Bernoulli con probabilidad de xito p" . As, N" es una variable aleatoria Binomial con parmetros n y p" . Entonces E(N" ) = np" y Var (N" ) = np" (1 p" ), si H! es verdadera. Si n aumenta, N" tiende a una distribucin normal por el teorema central del lmite. De aqu, la distribucin de la variable aleatoria U definida por U= " 1 , tiende a la N(0,1) cuando n p _. np" (1p" )
N np
Por lo tanto, D=U# tiende a la distribucin ;# con 1 grado de libertad, y la demostracin est completa para k=2. Para el caso general se procede en forma similar. En general, la distribucin chi-cuadrado es una muy buena aproximacin de la distribucin de D si npi 5 para todo i = 1,k , lo que implica que n 5k. Si k 5, es posible permitir que una de las frecuencias esperadas, np3 , sea tan pequea como 1 (exigiendo que las otras frecuencias esperadas sean 5 o ms) y todava la distribucin de la variable D estar bien aproximada por la distribucin ;# con k-1 grados de libertad. Utilizando el Teorema 8.1 podemos construir un test para probar la hiptesis H! , asignando una probabilidad de error de tipo I igual a !. Entonces el test sugiere rechazar H! si Dc = !3"
5 (n3 -np3 )# np3
> ;# "- ! 270
donde Dc es el valor muestral basado en los datos x" ,...,xn y ;# "-! es el percentil 1-! de la distribucin Chi-cuadrado con k-1 grados de libertad. A continuacin damos un procedimiento paso a paso para efectuar un test ;# cuando la distribucin de la poblacin X est completamente especificada. 1) Dividir el rango de X en k intervalos, Ai , i=1,k mutuamente excluyentes. Determinar, el nmero de valores muestrales ni (frecuencia observada) en cada Ai . 2) Calcular las probabilidades pi =P(Ai ), i=1,k utilizando la distribucin supuesta bajo H! . Como regla, si npi (frecuencia esperada) en Ai es menor que 5, combinar el intervalo Ai con Ai-" o Ai" . (n3 -np3 ): 3) Calcular Dc = !5 . 3" np 4) Fijar ! y buscar en tablas el valor de ;# "-! con k-1 grados. # 5) Rechazar la hiptesis H! si Dc > ;"-! . Aceptar H! en otro caso.
3
Ejemplo. Se prueban 300 ampolletas para analizar sus tiempos de vida t (en horas), y los resultados aparecen en la Tabla 8.1. Supongamos que para el tiempo de vida t se postula que su distribucin es exponencial con un tiempo medio de vida de 200 hrs.; esto es - = 0.005 y fT (t) = 0.005 e-!.!!&t , t >0 Queremos probar esta hiptesis, utilizando el test ;# al 5% de nivel de significacin. Tabla 8.1 Tiempos de vida de ampolletas Tiempo de vida t A1 : A2 : A3 : A4 : t < 100 100 t <200 200 t<300 300 t N de Ampolletas (ni ) 121 78 43 58
La Tabla 8.1 ya proporciona el paso 1, esto es, tenemos k=4 intervalos mutuamente excluyentes con sus respectivas frecuencias ni . Los pasos 2 y 3 se muestran en la Tabla 8.2 y por ejemplo
271
p" =P(A" ) = (
"!!
0.005 e-!.!!&> dt = 1-e-!.& = 0.39
! #!!
p# = P(A# ) = (
0.005 e-!.!!&> dt = 1 - e-" - 0.39 = 0.24
"!!
Tabla 8.2. Clculos de Dc Ai t<100 100 t<200 200 t<300 300 t Total ni 121 78 43 58 300 pi 0.39 0.24 0.15 0.22 1.00 npi 117 72 45 66 300
(ni -npi )2 npi
0.1367 0.5000 0.0889 0.9697 1.6953=Dc
Por conveniencia, el nmero terico de ocurrencia predicho por el modelo (frecuencia esperada bajo H0 ) aparece en la cuarta columna de la Tabla 8.2, el cual es comparado con los valores dados en la segunda columna.
(n3 -np3 )# Dc = !5 = 1.6953 3" np3
Ahora k=4 y utilizando las tablas de la distribucin chi-cuadrado con tres # grados de libertad, encontramos ;# Dado que Dc < ;!*& , !*& = 7.815. deberamos aceptar la hiptesis que los datos observados representan una muestra de una distribucin exponencial con -=0.005, al 5% de nivel de significacin. Consideremos ahora una situacin ms comn, aquella en que los parmetros de la distribucin supuesta tambin necesitan ser estimados desde los datos. El procedimiento natural para un test de bondad de ajuste es, primero, estimar los parmetros por alguno de los procedimientos ya estudiados para luego proceder como un test ;# para parmetros conocidos. Sin embargo, una complicacin surge por el hecho que las probabilidades tericas p3 son funciones de la muestra; aparte de ser funcin de los parmetros de la distribucin. El estadstico D toma ahora la forma D = !5 3"
(N3 - np s3 )# np s3
272
donde s p3 es un estimador de p3 . Ahora D es una funcin de la muestra X" ,...,Xn mucho ms complicada. La pregunta importante que surge de inmediato es: Cul es la nueva distribucin de D?. El teorema siguiente nos proporciona la respuesta. Teorema 8.2. Sea X" ,...,Xn una muestra de una variable X, cuya distribucim contiene s parmetros desconocidos y cuyo espacio de valores es RX . Sea A" ,..., Ak una particin de RX y (N" ,...,Nk ) el vector multinomial correspondiente, con parmetros (n, p" ,...,pk ), donde pj es P(X A4 ). Si p" ,...,p s sk son los estimadores mximo verosmiles de p" ,...,pk (determinados a partir de (N" , N# ,...,Nk )), entonces la distribucin de D = !5 3"
(N3 -np s3 )# np s3
tiende a una distribucin chi-cuadrado con k-s-1 grados de libertad, cuando n tiende a infinito. El procedimiento paso a paso, para el caso en que s parmetros en la distribucin van a ser estimados desde los datos, es como sigue: 1.- Dividir el rango de X en k intervalos, Ai , i=1,k mutuamente excluyentes. Determinar ni para cada Ai 2.- Estimar los s parmetros por el mtodo mximo verosmil, desde los datos. 3.- Calcular las probabilidades P(Ai ) = pi , i=1, k, con los valores estimados de los parmetros. (n3 -np s3 )# 4.- Determinar Dc =. !5 3" 5.- Buscar en tablas el valor ;# "-! con k-s-1 grados de libertad, para ! fijo. 6.- Rechazar la hiptesis H! si Dc > ;# 1-!, k-s-" . Aceptar H! en otro caso.
np s3
Ejemplo. Supongamos que los vehculos que llegan a ciertos puntos de la ciudad de Concepcin son registrados a intervalos de un minuto, durante 106 ocasiones. Los resultados del estudio aparecen en la Tabla 8.3. La distribucin X -. hipottica es pX (x) = . x!e , x=0, 1, 2,... donde el parmetro . necesita estimarse desde los datos. As, s=1. Tabla 8.3 Llegadas de vehculos por minuto Intervalos 1 2 3 4 5 6 7 8 9 Ni 0 3 3 5 7 13 12 8 9
10 13
273
Intervalos Ni
11 10
12 5
13 6
14 4
15 5
16 4
17 0
18 1
Para proseguir, debemos determinar intervalos apropiados A3 tales que np s3 5 ai; esto se muestra en la primera columna de la Tabla 8.4. De esta forma construimos k=11 intervalos. El estimador mximo verosmil para . est dado por: _ !8 . s= x = 1 4" x4 n
= (0 0+1 0+2 1+...+17 0+18 1)/106 = 9.09 Con este valor, estimamos las probabilidades tericas pi . Por ejemplo,
% !4! p" = P(0 X<5) = !% s 4! P(X=j) = e-*!* 9.0.4 j!
= 0.052
p# = P(5 X<6) = 0.058. s Estas probabilidades aparecen en la tercera columna de la Tabla 8.4. Tabla 8.4 Tabla de clculos de Dc Ai 0 x<5 5 x<6 6 x<7 7 x<8 8 x<9 9 x<10 10 x<11 11 x<12 12 x<13 13 x<14 14 x Total ni 9 7 13 12 8 9 13 10 5 6 14 106 pi 0.052 0.058 0.088 0.115 0.131 0.132 0.120 0.099 0.075 0.054 0.076 1.000 npi 5.51 6.15 9.33 12.19 13.89 13.99 12.72 10.49 7.95 5.72 8.06 106
(ni -npi )2 npi
2.2105 0.1175 1.4436 0.0029 2.4976 1.7798 0.0006 0.0229 1.0946 0.0137 4.3776 13.5749
de la columna 5 de la Tabla 8.4 obtenemos Dc = 13.5749,
274
por otra parte, con k-s-1 =11-1-1 = 9 grados de libertad ;# !*& = 16.92 y como Dc < ;# , aceptamos la hiptesis que los datos provienen de una distribucin !*& Poisson con . =9.09, con un 5% de nivel de significacin. Es importante tener presente que el estadstico D en el test ;# se distribuye Chi-cuadrado slo en forma asinttica; esto es, cuando n tiende a infinito. As, l es un test para muestras grandes. En general, n>50 se considera satisfactorio para completar los requerimientos de muestras grandes.
8.2. Test de Kolmogorov - Smirnov El test de bondad de ajuste de Kolmogorov-Smirnov que denotaremos como test K-S en lo que sigue, est basado en un estadstico que mide la desviacin de la frecuencia acumulada observada, s F, en relacin a la funcin de distribucin (acumulada) F! , supuesta en H! . Recordemos que, si tenemos un conjunto de valores muestrales x" ,...,xn de una poblacin continua X, podemos construir un grfico de frecuencias acumuladas en la forma siguiente: a) Ordenando los valores muestrales en orden creciente de magnitud; esto es, como x" , x# ,...,xn . b) Determinando la funcin de distribucin observada, s F, de xi ; i=1,n, como i s F(xi ) = n c) Uniendo los valores de s F(xi ) mediante lineas rectas. El test estadstico que utilizaremos en este caso es K = max ( s F(xi )- F! (xi )| )
i = max ( | n - F! (xi )| )
donde xi es el i-simo estadstico ordenado de la muestra. Notemos que el estadstico K mide la mxima diferencia, en valor absoluto, entre la funcin de distribucin observada y la funcin de distribucin terica (postulada en la hiptesis nula), evaluada desde los valores muestrales. Si algunos parmetros de la distribucin son desconocidos, deben estimarse y luego se obtienen los valores de F! (xi ) utilizando los valores estimados de los parmetros. Por otra parte, se puede probar que la distribucin de 275
probabilidades de K es independiente de la distribucin supuesta bajo la hiptesis nula, y es slo funcin del tamao muestral n. El desarrollo del test K-S sigue ahora como el test Chi-cuadrado. Debemos especificar !, y la regla de decisin es: rechazar H! si k > cn,! ; aceptar en otro caso. Aqu, k es el valor muestral de K y cn! es tal que P(K>cn! ) = !. Los valores de cn,! para ! =0.001, 0.005, 0.10 aparecen en la Tabla 8.5, como funciones de n. Este test, a diferencia del test Chi-cuadrado que es para muestras grandes, es vlido para todo n. Adems, el test K-S utiliza valores muestrales en su forma inalterada y desagregada, mientras que el agrupamiento de los datos es necesario en la ejecucin del test Chi-cuadrado. Como un aspecto negativo del test K-S, tenemos que ste es vlido slo para distribuciones continuas. Tambin es importante decir que los valores de cn,! , dados en la Tabla 8.5, estn obtenidos cuando la distribucin hipottica est completamente especificada. Cuando los valores de los parmetros deben especificarse, no existe un mtodo riguroso de ajuste. En estos casos slo se puede establecer que los valores de cn,! deberan reducirse algo. El procedimiento paso a paso para realizar un test K-S es como sigue: 1. Ordenar los valores muestrales x" ,...,xn en orden creciente de magnitud y denotarlos por x" ,...,xn . 2. Determinar la funcin de distribucin observada s F en cada xi como i s F(xi ) = n . 3. Determinar la funcin de distribucin terica F! en cada xi utilizando la funcin de distribucin supuesta en H! , estimando los parmetros desde los datos, si estos son desconocidos. s (xi ) - F! (xi )|, i=1,n. 4. Formar las diferencias |F s (xi )-F0 (x(i) )|). 5. Calcular k = max (|F 6. Elegir un valor de !, buscar en Tabla 8.5 el valor cn,! y rechazar la hiptesis H! si k > cn,! . Aceptar H! en otro caso. 276
La determinacin del valor mximo en (5) requiere la enumeracin de n cantidades. Se puede lograr una simplificacin graficando s F y F! como una funcin de xi y observar la localizacin del mximo mediante una simple inspeccin.
Ejemplo. Se realizan 10 mediciones de la resistencia a la tensin de un tipo de gasa biolgica, obtenindose las siguientes mediciones 30.1, 30.5, 28.7, 31.6, 32.5, 29.0, 29.1, 27.4, 33.5, y 31.0. Basndonos en este conjunto de datos, queremos probar la hiptesis que la resistencia a la tensin sigue una distribucin normal, al 5% de nivel de significacin. Reordenando los datos tenemos x" = 27.4, x# = 28.7,..., x"! = 33.5. De aqu determinamos la distribucin emprica s F(xi ). Por ejemplo,
" s F(27.4) = 10 = 0.1, s F(28.7) = 0.2, ..., s F(33.5) = 1.
Utilizando la funcin de distribucin terica; esto es, la especificada por la hiptesis nula, estimamos la media y la varianza mediante _ . s=x= !"! 4" x4 = 30.3 )s# =
1 10 # !"! 4" (x4 -30.3) = 3.14.
1 n
5 s#= (
n-1 n
Los valores de F! (xi ) los determinamos ahora utilizando el hecho que X se distribuye N(30.3, 3,14). Por ejemplo utilizando las tabla de la distribucin normal estndar tenemos: F! (27.4) = F^ (
27.4-30.3 3.14 )
=F^ (-1.64)
= 1-F^ (1.64) = 1-0.9495 = 0.0505. F0 (28.7) =F^ (

28.7-30.3 3.14 )
=F^ (-0.90)
=1-F^ (0.90) = 1-0.8159 = 0.1841, y as sucesivamente.
277
Para determinar k, es constructivo graficar s F y F! como funciones de xi como en la Figura 8.1.
Figura 8.1. Se ve claramente en la figura que la mxima diferencia entre s F(x) y F! (x) ocurre en x = x% = 29.1. Luego s k=|F(29.1) - F! (29.1)| = 0.4-0.2483 = 0.1517. Como ! = 0.05 y n =10, de la Tabla 8.5 tenemos que c"!!!& = 0.41. Como k<c"!!!& , no hay razn para rechazar la hiptesis que la muestra proviene de una distribucin N(30.3, 3.14) al 5% de nivel. Notemos que como los parmetros fueron estimados desde los datos, es ms adecuado comparar k con un valor algo ms pequeo que 0.41. Sin embargo, en nuestro caso k es bastante menor que 0.41, por lo que podemos estar seguros de la conclusin extrada.
Tabla 8.5 Valores de cn,! , con P(K>cn,! ) = !
278
n 5 10 15 20 25 30 40 n grande
0.10 0.51 0.37 0.30 0.26 0.24 0.22 0.19 1.22/n
! 0.05 0.56 0.41 0.34 0.29 0.26 0.24 0.21 1.36/n
0.01 0.67 0.49 0.40 0.35 0.32 0.29 0.25 1.63/n
8.3. Pruebas para verificar Normalidad Uno de los supuestos ms habituales que se hace en el anlisis estadstico, es el de la normalidad de las observaciones. Existen, en este sentido, diversos enfoques que nos permiten con menor o mayor precisin, verificar la veracidad de la hiptesis de normalidad. Las pruebas ms simples son aquellas que slo consideran un anlisis grfico, y estn basados en histogramas y en el estudio de la funcin de distribucin acumulada. Histograma. La primera verificacin de la normalidad de una distribucin se realiza estudiando la forma del histograma de frecuencia correspondiente. Esta debe ser simtrica y tener la forma (aproximadamente) de la figura 8.2.
Figura 8.2. Si bien habitualmente los histogramas no presentan la perfecta simetra de la figura anterior, es posible aceptar pequeas desviaciones respecto de ella, sin que ello signifique que debamos sospechar falta de normalidad. Funcin de Distribucin. 279
La funcin de distribucin acumulada F(x) = P(X<x) de una distribucin normal tiene la forma dada en la Figura 8.3.
Figura 8.3. Si F(x) se grafica en la escala de probabilidad normal, y la distribucin de la variable aleatoria es normal. La curva de la funcin de distribucin acumulada debe corresponder aproximadamente a una lnea recta, como se muestra en la Figura 8.4.
Figura 8.4. Nuevamente, pequeas desviaciones respecto de la lnea recta, no necesariamente significa falta de normalidad. Debemos poner especial atencin, sin embargo, a desviaciones en los extremos de la recta, pues ello es una indicacin de asimetra de la distribucin. Mtodo de la Asimetra. Este mtodo utiliza directamente la definicin de asimetra para generar un estadstico de prueba. En efecto, recordemos que el coeficiente de asimetra muestral es SK =
_ !(Xi - X)$ /n
S$
_ , donde S 2 = !(Xi -X)# /n .
280
Dado que la distribucin muestral del estadstico SK, tiene media igual a cero, cuando se muestrea desde una poblacin con distribucin normal, se puede utilizar este hecho directamente para verificar la normalidad de la muestra. Para muestras grandes, n 50, la distribucin de SK es aproximadamente normal con media cero y varianza aproximada de 6/n. Luego rechazamos normalidad si el valor observado de SK es significativamente distinto de 0; esto es, si el valor-p es muy pequeo. Curtosis El grado de apuntamiento, concentracin de probabilidad cerca de la moda, se mide por el coeficiente de curtosis. K=
_ !(Xi -X)% /n
S%
El coeficiente de curtosis es un nmero cuya magnitud nos indica si los datos se distribuyen simtricamente de forma normal, ms empinados que la curva normal o ms aplanados que la curva normal. Este coeficiente toma el valor 3 para una distribucin normal. Para muestras grandes, n 200, K se distribuye aproximadamente normal con media 3 (valor terico del coeficiente de curtosis en una distribucin normal) y varianza igual a 24/n Por lo tanto, rechazaremos normalidad si el valor observado de K es muy diferente de 3. De hecho, un valor de k >3 implica una distribucin ms puntiaguda (empinada) que la distribucin normal. En cambio, si k<3 implica una distribucin ms plana que la distribucin normal. La caractrstica esencial de estas pruebas de hiptesis es que slo sirven para medir la no-normalidad. Prueba de Shapiro y Wilks Los tests Chi cuadrados y de Komogorov-Smirnov son apropiados slo para muestras suficientemente grande. Si slo se dispone de una muestra pequea el test de Shapiro- Wilks es recomendable. Este test nos proporciona una medida de ajuste entre la linealidad de la recta generada al graficar la funcin de distribucin acumulada sobre papel de probabilidades. Se rechaza normalidad cuando el ajuste es bajo, que corresponde a valores pequeos del estadstico de prueba: W = ( ! aj,n ( x(n-j+1) - x(j) ))2 /ns2
h j=1
281
- 2 ; h es n/2 si n es par y (n-1)/2 si n es impar; los donde ns2 = !(xi -x) coeficientes aj,n estn tabulados en la Tabla V. La distribucin de W se encuentra en la Tabla VI y se rechaza la normalidad cuando el valor calculado es menor que el valor crtico dado en las tablas. . 8.4. Tablas de Contingencia En muchos casos los resultados de ensayos multinomiales pueden ser clasificados de acuerdo a dos (o ms) criterios, por ejemplo, un votante en una eleccin presidencial puede ser clasificado considerando su candidato favorito o de acuerdo a su partido de afiliacin. Un consumidor de un producto dado puede ser clasificado de acuerdo a su edad o de acuerdo a la marca de su preferencia. Cuando los ensayos multinomiales pueden ser clasificados de acuerdo a dos criterios, es de inters averiguar si los dos criterios son independientes (y se puede usar directamente el teorema 8.2). Supongamos entonces que tenemos ensayos multinomiales independientes en que cada ensayo resulta en uno de k (=rc) resultados distintos. Sea N34 el nde ensayos cuyos resultados caen en el nivel i del primer criterio y en el nivel j del segundo criterio , i=1,2,..,r ; j=1,2,,..,c y sea p34 la probabilidad de ocurrencia de estos niveles. Estos resultados se acostumbran a representar en una tabla de doble entrada, llamada Tabla de Contingencia, como en la Tabla 8.6. Las filas representan los niveles del primer factor y las columnas los niveles del segundo factor. Tabla 8.6 Tabla de Contingencia de rc 1er 2do 1 ... j ... c total 1 N11 ... N1j ... N1c N1. ... ... ... ... ... i Ni1 ... Nij ... Nic Ni. ... ... ... ... ... r Nr1 ... Nrj ... Nrc Nr. total N.1 ... N.j ... N.c n Sean p3. = ! p34 C p.4 = ! p34 las probabilidades de ocurrencia de los niveles
4" 3
i, j del primer y segundo factor, respectivamente. Si los dos criterios de clasificacin son independientes, entonces debe tenerse que 282
p34 = p3. p.4 a(i, j) Por lo tanto para probar independencia de los dos criterios en una tabla de contingencia, tenemos que probar H! : p34 = p3. p.4 a(i, j) v.s H" : H! es falso.
Como ya dijimos, podemos usar el Teorema 8.2 para efectuar esta prueba de independencia. Sea N34 , i=1, r ; j=1, c los componentes del vector multinomial con parmetro n y p34 . Luego si H! es verdadero, los estimadores mximos verosmiles de p3. y p.j son
4" 3. p3. = N y s p.4 = n.4 , s n = n respectivamente, de manera que el estimador maximo verosmil de p34 cuando Ho es verdadero es
! N34
-
p34 = s p3. s p.4 = s
N3. n
N.4 n
N3. N.4 n#
y as , el estimador mximo verosmil de la frecuencia esperada, np34 , es np p.4 = n s34 = np s3.s U = !!

3 4 N3. N.4 n#
N3. N.4 n
Usando el Teorema 8.2 tenemos

(N34 - N3. N.4 / n )# (
N3. N.4 n )
;# 5 -"-s
Aqu k = rc, s = [(r-1)+(c-1)] y por tanto k-1-s = rc-1-(r-1+c-1) = (r 1)(c 1). Notemos que el valor de s es (r-1)+(c-1) ya que solamente necesitamos estimar p" , p# ,..., p<-1 ya que !p3. = 1 y p." ...p.--" ya que !p.4 =1. Nuevamente, rechazamos H! si encontramos que U- ;# "-!,<"-" . Ejemplo. Se realiz una encuesta a 100 pa- ientes en un gran hospital para determinar si hay o no coneccin entre el hbito de fumar y el cncer al pulmn. Cada paciente es clasificado como fumador o no fumador y si tiene cncer al pulmn o no. Deseamos contrastar 283
Ho : Existe independencia entre hbito de fumar y cncer al pulmn versus H1 : No hay independencia Se resumi la informacin (frecuencias observadas) en la siguente tabla de contingencia FumadorCncer Si No Total Si 15 5 20 No 25 55 80 Total 40 60 100
Las frecuencias esperadas (estimadas) por celdas son:

.40 np s11 = 20 100 =8;
np s12 = 80.40 100 =32; np s22 = 60.80 100 =48
np s21 = 20.60 100 =12;
y el estadstico de prueba es U- =
(15-8)# 8
(25-32)# 32
(5-12)# 12
(55-48)# 48
= 12.76
Si !=0.05 obtenemos ;# !*&" = 3.84 y como U- =12.76 > 3.84 rechazamos H! y conclumos que, en la poblacin de la cual provienen los datos, hay evidencia estadstica de dependencia entre las dos categoras de la tabla de contingencia; esto es, entre el cncer al pulmn y el hbito de fumar. Por otra parte, v-p = P(;# " 12.76) < 0.001, lo que concuerda con la decisin de rechazar H! . 8.5. Test de Homogeneidad de Poblaciones Las tablas de contingencia estadstica tambin pueden utilizarse para probar que poblaciones diferentes tienen todas las misma ley de probabilidades. Este test usualmente se llama test de homogeneidad de poblaciones. Supongamos que tenemos muestras aleatorias independientes de m poblaciones de tamao n" ,...,nm , respectivamente. Sea Xij , i=1,...,m j=1,...,ni los valores muestrales y A" ,...,Ak una particin de RX , el recorrido comn de todas las poblaciones. Definamos Nir = frecuencia observada de la muestra i, (de la poblacin i), que pertenecen a la clase r. 284
As, por ejemplo, N"" = frecuencia de la muestra 1 que pertenece a D1 , N"$ = frecuencia de la muestra 1 que pertenece a D$ As, las frecuencias para la muestra i, (Ni1 ,...,Nik ), define un vector multinomial con parmetros ni y pi1 ,...,pik para i=1,...,m. Como las muestras originales son independientes estos vectores multinomiales son independientes. Ahora, si todas las muestras provienen de poblaciones con la misma ley de probabilidad (hiptesis H! ) se sigue que p"" = p#" = p3" = ...= pm" = P(pertenecer a A" ) p"# = p## = p$# =...= pm# = P(pertenecer a A# ) p"k = p#k = p$k =... = pmk = P(pertenecer.en A5 ); esto es, la probabilildad que un valor muestral pertenezca a A< , por ejemplo, es la misma (digamos p< ) sin importar de que poblacin fue seleccionada. Se puede probar que los estimadores mximo verosmiles para p" , p# ,...,p5 estn dados por p< = s
N.r ! nj
m j"
1 n
i"
!N3< ;
m
r =1,2,..., k
que representa la proporcin de todas las observaciones que pertenecen a A< . El estimador mximo verosmil para la frecuencia esperada de la muestra i que ir pertenecen a A< ; esto es, el estimador de E(Nir ), es ni N n si H! es verdadero. Nuevamente, con Nir dispuestos en una matriz mxk, la frecuencia esperada es simplemente el producto de los totales de la fila i y columna r dividido por el tamao de muestra total n = !ni . Para cualquier i fijo Ui = !
5
<"
(Nir -npir )# npir
se distribuye aproximadamente ;# con k-1 grados de libertad., y por la independencia de las muestras U = ! U3 = !!
7 3" 3 <
(Nir - npir )# npir
se distribuye aproximadamente ;# con m(k-1) grados de libertad. 285
Notemos que para calcular los estimadores de las frecuencias esperadas, debemos estimar p1 ,p2 ,...,pk de manera que perdemos s = k-1 grados de libertad , ya que p1 +p2 +...+pk =1, y por Teorema 8.2 U=!
m ni sir )# ! (Nir - np
i"
<"
np sir
se distribuye aproximadamente ;# con m(k-1) - (k-1) = (m-1)(k-1). As, rechazaremos H! , si U ;# "-! , (m-1) (k-1) Ejemplo Los fabricantes A, B y C producen ampolletas de 60 watts y todos afirman que stas tienen la misma duracin promedio. Para probar esta afirmacin se consider una muestra aleatoria. de n" = 50 ampolletas de A , n# = 60 de B y n$ = 50 de C y se sometieron a prueba. Los tiempos observados para las 160 ampolletas probadas estn resumidos en la siguente tabla de contingencia, donde aparecen las frecuencias esperadas entre parntesis :
Duracin de las Fabricante A B C Total A1 :x 700 2 (3.4375) 7 (4.1250) 2 (3.4375) 11 A2 :700< x 750 20 (16.5625) 18 (19.8750) 15 (16.5625) 53
ampolletas A3 : 750 < x 800 25 (21.2500) 22 (25.5000 ) 21 (21.2500) 68 A4 :x> 800 3 (8.7500) 13 (10.5000) 12 (8.7500) 28 Total 50 60 50 160
El contraste de hiptesis en este caso es H! : pA" = pB" = pC" = P(X 700) = p" pA# = pB# = pC# = P(700<X 750) = p# pA3 = pB3 = pC3 = P(750<X 800) = p3 pA4 = pB4 = pC4 = P(X>800) = p4 versus H1: Ho es falsa, esto es, la duracin depende del tipo de fabricante. El estadstico de prueba toma el valor Uc =10.97 y para un nivel de significacin de ! = 0.05 obtenemos de la tabla ;2 con 6 grados de libertad ;2 0.95 =12.6, por lo que deberamos aceptar Ho , en cambio si ! = 0.01, ;2 0.90 =10.6 y estaramos rechando Ho . El valor -p en este caso es tal que 0.05 <P(U>10.97)<0.10. 286
EJERCICIOS 1. Use el test Chi-cuadrado con 6 intervalos equiprobables bajo H0 , para probar que los siguientes 45 datos provienen de una poblacin normal con media .=0.5 y 5 =0.002. .4974 .5010 .4967 .4977 .4967 .5008 .5006 .4976 .4997 .5028 .4961 .4977 .5021 .4987 .4991 .5014 .4993 .5013 .4975 .5013 .4987 .4990 .4992 .5007 .4959 .5015 .4968. .5008 .5000 .4972 .4974 .4975 .5012 .4993 .5017 .5047 .5008 .4998 .5056 .4994 .4984 .5069 .5000 .5000 .4991
2. Un generador de nmeros aleatorios fue usado para generar 1000 nmeros en el intervalo (0,1). Los nmeros generados son como sigue: Intervalo ns generados (0, 0.1 114 (0.1, 0.2 100 (0.2, 0.3 99 (0.3, 0.4 98 (0.4, 0.5 111
Intervalo (0.5, 0.6 (0.6, 0.7 (0.7, 0.8 (0.8, 0.9 (0.9, 1.0 ns generados 104 106 95 92 81 Basado en esta muestra. Aceptara la hiptesis que este generador est trabajando como debe?; esto es, los nmeros observados provienen realmente de una uniforme en (0, 1)?. 3. Utilizando el test de Kolmogorov-Smirnov, averigue si la muestra siguiente, correspondiente a tiempos de vida, proviene de una distribucin exponencial. 16, 8, 12, 6, 10, 20, 7, 2, 24. 4. En una investigacin de opinin pblica, a 1000 habitantes de la ciudad de Concepcin se les hizo la siguiente pregunta: Cmo calificara Usted el desempeo del seor A, Alcalde de la ciudad: bueno, regular, malo?. Las respuestas clasificadas de acuerdo al nivel educacional de los encuestados fueron: Distribucin de respuestas segn nivel educacional
287
Bsico Bueno Regular Malo Total 82 10 8 100
Medio 427 110 63 600
Universitario 191 60 49 300
Total 700 180 120 1000
Utilizando un nivel de significacin de 0.05, Se puede concluir que la calificacin es independiente del nivel educacional de los encuestados?. 5. La siguiente es una distribucin, en porcentajes, de una muestra aleatoria de 400 familias en una ciudad determinada: Ingreso anual < $50.000 $50.000-100.000 Propietarios Arrendatarios 5% 15% 35% 25%
> $100.000 10% 10%
Pruebe la hiptesis de que en esa ciudad el hecho de ser propietario es independiente del ingreso familiar. Use un nivel de significacin de 0.01.
288
CAPITULO IX METODOS NO PARAMETRICOS
Hasta aqu hemos visto que los mtodos de prueba de hiptesis dependen fundamentalmente de la distribucin de la poblacin en estudio. En la mayoria de ellos hemos trabajado con la distribucin normal y hemos visto que estos mtodos son confiables aun cuando tenemos ligeras desviaciones de la normalidad, particularmente cuando los tamaos de muestra considerados son grandes. Sin embargo, existen circunstancias en las cuales los supuestos relativos a la distribucin de la poblacin, o de otro tipo como por ejemplo, relativos a las varianzas poblacionales o al tipo de escala de medicin, no se pueden sostener y debemos utilizar mtodos que sean poco sensibles a desviaciones respecto de tales supuestos. Este es el caso, por ejemplo, de comparaciones de medias poblacionales en base a muestras provenientes de poblaciones con distribuciones de probabilidad desconocidas o de grupos de poblaciones cuyas varianzas no son homogneas, aun despus de aplicar transformaciones de escala. Tales procedimientos se llaman usualmente mtodos noparamtricos o mtodos de distribucin libre. Los procedimientos noparamtricos aparecen con bastante frecuencia en el anlisis de datos. De hecho, en muchas aplicaciones en Ciencias e Ingeniera, donde los datos no se registran en una escala continua sino ms bien en una escala ordinal, es natural asignar rangos a los datos. Si bien es cierto, muchos analistas utilizan los mtodos noparamtricos debido a que los clculos involucrados son simples, tambin debe considerarse que hay un nmero de desventajas asociadas con las pruebas no-paramtricas. En primer lugar, stas no utilizan toda la informacin contenida en la muestra, por lo que una prueba no paramtrica ser menos potente que la correspondiente prueba paramtrica, cuando ambos mtodos son aplicables. Uno de los aspectos bsicos en la aplicacin de los mtodos no-paramtricos es la escala de mediciones utilizada en el registro de los datos. Los valores de una variable aleatoria pueden haber sido registrados por una de las siguientes escalas de mediciones: nominal, ordinal, por intervalo o razn. Escala Nominal. Esta escala usa nmeros slo para dar nombre a categoras a las cuales pertenecen las observaciones. Por ejemplo, la variable cualitativa sexo. (0=hombre, 1=mujer), pero est claro que el nmero asignado es arbitrario. Escala Ordinal. Esta escala utiliza nmeros como mediciones, donde el orden de los nmeros es relevante. Por ejemplo, podemos disear una encuesta a personas fumadoras y pedir indicar una preferencia entre 3 marcas de 289
cigarrillos, donde 1 indica ms preferido y 3 indica menos preferido. El orden de los tres nmeros (1, 2, 3) es ahora relevante, pero su magnitud no lo es; de hecho, podramos usar otros tres nmeros como por ejemplo 1, 50 y 100. Escala por Intervalos. En esta escala se toma en cuenta tanto las diferencias entre mediciones como tambin su orden. Una escala por intervalos requiere fijar un punto 0 arbitrario y una unidad de distancia para medir la diferencia entre observaciones. Por ejemplo, la escala de temperatura Fahrenheit y Celsius. Escala por Razn. Esta se aplica cuando el orden y la distancia entre mediciones son importantes, al igual que en la escala por intervalos, pero esta escala adems requiere que la razn entre dos mediciones sea importante. Los mtodos Estadsticos se denominan noparamtrico si tenemos al menos a una de las condiciones siguientes: los datos estn medidos a escala nominal; los datos son medidos a escala por intervalos o a escala de razn, pero la distribucin de la poblacin de la cual los datos han sido extrados no est especificada. En lo que sigue veremos algunos mtodos noparamtricos de uso ms comn.
9.1. Test de los Signos Este es probablemente el test ms simple de aplicar y se utiliza preferentemente para muestras pareadas, es tambin el test de menor potencia entre los tests noparamtricos. Consideremos entonces una muestra pareada de tamao n'; esto es, (Xi ,Yi ); i=1,...,n'. La comparacin se realiza a nivel de cada par, asignado al par i-simo el signo " " si Xi <Yi ; el signo " " si Xi >Yi y el 0 si Xi =Yi . Esto indica que las variables a considerar necesitan ser al menos ordinales. Por otra parte, bajo la hiptesis nula de igualdad de efectos, esperamos que el nmero de signos " " sea aproximadamente igual al nmeros de signos " ". En trminos probabilsticos, esto es equivalente a decir que P(Xi <Yi ) = P(Xi >Yi ), i=1,...,n'. As, la hiptesis nula a probar en estos casos es la de igualdad de tratamientos, esto es; si se tienen los tratamientos A y B, se postula que el nmero de resultados que favorecen a A es igual a los que favorecen a B. Este test es tambin utilizado cuando el investigador duda acerca de la normalidad de las diferencias entre los elementos de los pares y por lo tanto tiene dudas sobre las aplicabilidad del test-t para muestras pareadas. El estadstico de prueba a utilizar es T = nmero de signos " ". 290
y, bajo H! , el estadstico T tiene distribucin binomial de parmetros n y po =1/2=P(Xi <Yi ) , donde n (n n') es el nmero total de signos + y excluyendo los empates. De esta manera, para realizar la prueba, bilateral por ejemplo, utilizamos las tablas de la distribucin binomial (acumulada) y rechazamos H! para valores observados muy grandes o muy chicos de T. Para n'<20 el procedimiento es como sigue: Considere un valor cercano a !/2 y con este valor determine de la tabla binomial el correspondiente percentil t, P(T t)=!/2. Luego rechace H0 a un nivel !, si T t o T n t. Cuando n es suficientemente grande, el estadstico de prueba T tiene distribucin aproximadamente normal y utilizando correccin por continuidad tenemos que:
n/2 0.5 Z = T N(0,1) n/4
y bajo la hiptesis nula tenemos p! =1/2, por lo que

n/2 0.5 n 1.0 Z = T = 2T n n/4
Ejemplo. Una empresa que fabrica cierto tipo de fusibles, est interesada en comparar dos lineas de produccin. Para este efecto se registr, diariamente y durante un perodo de 10 das, el nmero de fusibles elctricos defectuosos que salieron de cada una de las lneas de produccin A y B. Los resultados se muestran en la Tabla 9.1. Nos interesa averiguar si existe evidencia suficiente para indicar que una lnea produce ms defectuosos que la otra, a un nivel de significacin de un 5%
Tabla 9.1 Nmero de fusibles defectuosos por linea de produccin Da 1 2 3 4 5 6 7 8 9 10 A B Signo 172 201 + 165 179 + 206 159 184 192 + 174 177 + 142 170 + 190 182 169 179 + 161 169 + 200 210 +
291
Como el nmero de observaciones es menor que 20, emplearemos la distribucin binonial. Evidentemente, el test que debemos plantear es un test bilateral con !=0.05. El estadstico de prueba toma el valor T=8, y para !/2=0.025 , obtenemos P(T 1) aproximadamente igual a 0.025 (=0.0107), luego t=1 y n t = 10 1 = 9. Por lo tanto, rechazaremos H! si T<1 o T>9 al nivel de significacin 2(0.0107) = 0.034 y como T=8 entonces no podemos rechazar H! . Esto quiere decir que los datos no presentan evidencia suficiente para indicar que una lnea produce ms defectuosos que la otra. El test de los signos tambin se puede aplicar para probar hiptesis de una mediana poblacional en el caso de una poblacin X. As, si m es la mediana de la poblacin X, entonces P(X>m) = P(X<m) = 0.5. Es evidente que si la distribucin es simtrica, la media y la mediana poblacional coinciden. Para probar la hiptesis H! : m = m! contra una alternativa apropiada, basndose en una muestra aleatoria de tamao n, se reemplaza cada valor muestral que excede a m0 con un signo " " y cada valor menor que m0 con un signo " ". Cuando se observan valores muestrales iguales a m0 , estos se excluyen del anlisis y, por consiguiente, la muestra se reduce. Si la hiptesis nula es verdadera y la poblacin es simtrica, la suma de los signos " " debe ser aproximadamente igual a la suma de los signos " ". El procedimiento que sigue es idntico al presentado antes.
9.2. Test de Wilcoxon de Rangos signados Este test, debido a Wilcoxon (1945), considera los valores absolutos de las diferencias entre los valores correspondientes en muestras pareadas. Se supone que se est muestreando poblaciones simtricas, continuas y que lo que interesa es probar la hiptesis que no hay diferencias en las medias poblacionales. Consideremos n' observaciones pareadas (xi , yi ), i=1,...,n' sobre la respectiva variable aleatoria bivariante (X, Y). Si F y G son las funciones de distribucin de X e Y, respectivamente, estamos interesados en probar la hiptesis Ho : Las distribuciones poblacionales para las X y las Y son idnticas, contra la alternativa H" : Las distribuciones poblacionales de X e Y difieren en ubicacin. Esto lo podemos plantear como H! : F=G vs. H" : F G, El procedimiento consiste en obtener el valor absoluto de las diferencias di =xi yi , de los valores observados de las variables Di = Xi Yi , omitiendo todos los pares con di =0 y, por lo tanto, se consideran slo n (n n') pares. Se supone que: cada Di es una variable aleatoria continua; los Di son mutuamente 292
independientes, tienen la misma media y su distribucin es simtrica; la escala de medicin para los Di es a lo menos por intervalo. Enseguida se ordenan los valores absolutos |di | asignndole el rango 1 al ms pequeo, el rango 2 al siguiente, etc. hasta asignarle el rango n al valor mximo. Si dos o ms valores absolutos de las diferencias empatan para un mismo rango, entonces asignamos a cada miembro del conjunto empatado el promedio de los rangos que habramos asignado a estas diferencias. Luego de obtenidos los rangos correspondientes, se asigna a stos el signo correspondiente a la diferencia original y se calculan la suma de los rangos para las diferencias negativas (R ) y las positivas (R ). Para un test bilateral como el planteado se utiliza el estadstico de prueba R = min{R , R } y la regla de decisin es: rechazar Ho si R Ro , donde Ro es el valor crtico de tabla (los valores de ! aparecen con el smbolo P en las tablas de Wilcoxon). Si estamos interesados en un test unilateral, donde la alternativa es por ejemplo de la forma H" : la distribucin de las X est desfasada a la derecha de la distribucin de las Y, se rechaza Ho si R Ro . Alternativamente, si la hiptesis alternativa es de la forma H" : la distribucin de X est desfasada a la izquierda de la Y, se rechaza H! si R R! , donde Ro se obtiene de las tablas respectivas. Si el nmero de observaciones pareadas no empatadas es grande, digamos mayor que 16, bajo la hiptesis nula H0 , R (alternativamente R ) tendr una N(., 5 # ) con distribucin aproximadamente normal, esto es, R . = E(R) =
n(n+1) 4
5 # = Var (R) =
n(n+1)(2n+1) 24
Entonces: el estadstico de prueba es:

RE(R) Rn(n+1)/4 N(0,1). Z = Var(R) = n(n+1)(2n+1)/24
En efecto, sea Ri el rango correspondiente a la i-sima diferencia. Definamos Ri = i (rango asignado) si Di es positivo y Ri =0 si Di es negativo. Adems, definamos R = !Ri , la suma de rangos de las diferencias positivas.
n i"
Cada rango Ri tiene la misma posibilidad de tener una diferencia positiva o negativa, as: 293
1 E(Ri ) = 1 2i + 20 =
1 2
i,
1 # # E(Ri# ) = 1 2i + 20 =
1 # 2 i
y
# Var (Ri ) = i4 .
Luego,
E(R ) = E[!Ri ] = !E(Ri ) =

n n i=1 i" n n
n(n+1) 4
Var (R ) = var(!Ri ) = ! Var (Ri )

i" i" n # n(n+1)(2n+1) = ! i4 = . 24 i"
La regla de decisin es: rechazar H! si Z Z"-!/# o Z Z"-!/# Ejemplo. Se aplica un test sicolgico a 12 pares de mellizos idnticos para determinar si el que naci primero tiende a ser ms agresivo que el segundo. Los puntajes, correspondientes a nivel de agresividad, son los que se indican en la Tabla 9.2, donde Xi representa el puntaje del primer mellizo en nacer e Yi el puntaje del segundo mellizo en nacer. Tabla 9.2 Nivel de agresividad en mellizos i 1 2 3 4 5 6 7 8 Xi Yi Di Ri Di 86 88 -2 2 3 71 77 -6 6 7 77 76 1 1 1.5 68 64 4 4 4 91 96 -5 5 5.5 72 72 0 0 77 65 12 12 10 91 90 1 1 1.5
9 70 65 5 5 5.5
10 71 80 -9 9 9
11 88 81 7 7 8
12 87 72 15 15 11
nw =12, n=11, R =41.5, R = 24.5. La hiptesis nula es Ho : la agresividad en ambos mellizos es la misma, y la alternativa es H" : el primero en nacer tiende a ser ms agresivo que el segundo. El estadstico de prueba en este caso es R y Rechazaremos H! si R R! al nivel de significacin de !=0.05.
294
Utilizando las tablas de Wilcoxon con n = 11 y ! = 0.05, se tiene R! =14 y como R = 41.5 > R! =14, no podemos rechazar H! al nivel de significacin considerado. Si utilizamos aproximacin normal tenemos E(R ) = 33, Var(R ) = 126.5 y es estadstico de prueba Z est dado por: Z= = (41.5 33 - 0.5)/11.247 = 0.711. Var(R )
R E(R )
Considerado ! = 0.05, el valor de la tabla normal es z =1.64. Por lo tanto, no podemos rechazar H! al 5% de nivel (valor-p es 0.7611).
9.3 Test de Suma de Rangos de Wilcoxon y Mann-Whitney Esta es la prueba de mayor uso cuando se tienen muestras independientes y es el equivalente noparamtrico del test-t paramtrico, para comparar medias poblacionales. Sean X" ,...,Xn" una muestra aleatoria de tamao n" de la poblacin X y Y" ,...,Yn una muestra aleatoria, independiente de la anterior, de tamao n# de la poblacin Y. Suponiendo, adems, que las variables en estudio son continuas, y que la escala de medida es por los menos ordinal el procedimiento es como sigue. Se combinan las n" +n# =n observaciones ordenndolas de menor a mayor (de acuerdo a su magnitud). Enseguida, se asigna rango a cada una de las observaciones ordenadas del conjunto, pero de modo tal que stas no pierdan la identificacin de la muestra de la cual provienen. Si varios valores muestrales son exactamente iguales a otros (empates), se asigna a cada uno el promedio de los rangos que se habran asignados a ellos al ser considerados distintos. La hiptesis que se plantea es H! : Las dos poblaciones X e Y tienen la misma distribucin, frente a la alternativa H" : Las distribuciones de las poblaciones X e Y difieren en ubicacin. Para un test bilateral, esto lo planteamos como H! : F(X)=G(Y) versus H" : F(X) G(Y), donde F(X) y G(Y) son las funciones de distribucin correspondiente a las poblaciones X e Y, respectivamente. El estadstico de Prueba para n pequeo (n" 10, n# 10) se obtiene considerando TX = n" n# + y T] = n" n# +
n# (n# +1) 2 n" (n" +1) 2
R" R#
295
donde R" y R# son la suma de los rangos para la muestra en X e Y, respectivamente. TX y T] corresponden a la suma de los rangos del nmero de observaciones de Y y X, respectivamente. El estadstico de prueba para un test bilateral es T= mn{TX , T] } y la regla de decisin es: rechazar H! si T T! , con P(T T! ) = !/2, donde T! se obtiene de las tablas de Wilcoxon para muestras independientes. Para el caso de un test unilateral de la forma H! : F(X) = G(Y) contra la alternativa H" : F(X) est desfasada a la derecha de G(Y), el estadstico de prueba es: T = TX , y la regla de decisin es rechazar H! si: TX T! , donde P(TX T! ) = !. Analogamente, si la alternativa es H" : F(X) est desfasada a la izquierda de G(Y), el estadstico de prueba es T = T] y la regla de decisin es rechazar H! si T] T! , donde P(T] T! ) = !. Si n es grande (n" > 10, n# >10), bajo H! , el estadstico T (ya sea que T=T] o bien T=TX ) se aproxima a la distribucin normal con media y varianza dadas por
n n (n" +n# +1) n# E(T) = n"2 y Var(T) = " # 12
Luego el estadstico de prueba bajo la hiptesis nula es:

T (n" n# /2) N(0,1) Z= n ] n (n +n +1)/12 " # " #
y, para un test bilateral, se rechaza H! si Z > Z"-!/# Z< Z"-!/# . La justificacin del test de Wilcoxon y Mann-Whitney es como sigue: primero se ordenan las n" +n# observaciones de menor a mayor. Luego para cada observacin Y contamos el nmero de observaciones X que la preceden. El estadstico T] es la suma de estos nmeros. Es decir para cada par de observaciones Xi e Yj definimos: îj = 0 , si X i>Y j con i=1,...,n" j=1,...,n#
1 , si X <Y
i j
As, la suma de estos Z es el estadstico T] 296
TY = ! ! Zij
n" n# i" j-"
Analogamente para definir TX , se intercambia el 1 por el 0. TX es el nmero total de observaciones Y que preceden las observaciones de X. Como tenemos n" n# trminos en la suma de los Zij e intercambiando 0 y 1 en TY produce TX . As, es claro que TX +T] = n" n# . Bajo la hiptesis nula de igualdad de efectos, P(X>Y) = P(X<Y) = 1/2, y tanto la media como la varianza de T] puede ser calculada. De hecho, E(T] ) = E[ ! ! Zij ] = ! ! E(Zij ) = n" n# /2
n" n# n" n# i" j" i" j"
pues E(Zij ) =1/2. Calcular la varianza no es simple, debido a que los trminos en la suma que representa T] no son variables aleatorias independientes. La varianza de TY es Var(T] ) = !!!! Cov (Zij , Zhk ).
i j h k
Ahora, Zij Zhk = as, E(Zij Zhk ) = P(Xi <Yj Xh <Yk ) E(Zij Zhk ) = 1/4 13 de aqu 0 1/2 i=h y j=k ih y jk i=h y j k y i h 1 0 si Xi <Yj y Xh <Yk en otros casos
ih y jk i=h y j=k Cov(Zij Zhk )= 1/4 1/12 i=h y j k o j=k y i h El clculo completo de Var(T] ), es solamente necesario al contar el nmero de trminos en cada caso. Hay n" n# trminos en los cuales i=h y j=k, y n# " n# trminos en los cuales j=k. Por otra parte, n" n# tiene tambin i=h, dejando n# " n# n" n# = n" n# (n" 1) en los cuales j=k y i h. Similarmente, hay n" n# (n# 1) trminos en los cuales i=h y j k. De esta manera, 297
Var(T] ) = n" n# /4 + (n" n# (n" 1) + n" n# n# -1))/12 = n" n# (n" +n# +1)/12.
Ejemplo. Se desea comparar la resistencia de dos tipos de papel para embalar. El primero es un papel estndar con un peso determinado y el segundo es el mismo papel estndar tratado con una sustancia qumica. Para este efecto, durante el proceso productivo, se seleccionan al azar diez tiras de cada tipo de papel, y se midieron las resistencias, las que se muestran en la Tabla 9.3. Queremos averiguar si el papel tratado es ms resistente. Para esto planteamos la hiptesis que no hay diferencia entre las distribuciones de las resistencias de los dos tipos de papel frente a la hiptesis alternativa de que el papel tratado tiende a ser ms resistente; esto es, H! : F(X) = G(Y) versus H" : F(X) est desfasada a la izquierda de G(Y) Tabla 9.3 Resistencias de dos tipos de papel de embalaje
Estndar X Rango Tratado Y Rango 1.21 2 1.49 15 1.43 12 1.37 7.5 1.35 6 1.67 20 1.51 17 1.50 16 1.39 9 1.31 5 1.17 1 1.28 3.5 1.48 14 1.52 18 1.42 11 1.37 7.5 1.28 3.5 1.44 13 1.40 10 1.53 19
Dado que se pretende detectar un desfasamiento en la distribucin de las mediciones Y hacia la derecha de las distribuciones de las mediciones de X, rechazamos H! si T] T! al nivel de significacin ! = 0.05 De los datos de la tabla tenemos que: n = n" +n# = 20, R1 = 2+12+6+17+9+1+14+11+3.5+10 = 85.5, R# = 15+7.5+5+20+16+5+3.5+18+7.5+13+19 = 124.5 y T] = n" n# +n# (n# +1)/2 - R# = 30.5 Utilizando las tablas correspondientes, tenemos que la P(U U! ) ms cercana a 0.05 es 0.0526, con U! =28. Como T] =30.5 > U! =28, no podemos Rechazar H! a un nivel de significacin del 5% y concluimos que no hay evidencia suficiente para indicar que el papel tratado es ms resistente que el estndar.
298
9.4 Test de Kruskal Wallis El test de Mann-Whitney para dos muestras independientes, visto en la seccin anterior, se puede extender al problema de analizar k muestras independientes, k 2. Esta extensin se debe a Kruskal y Wallis (1952). Los datos consisten de k muestras aleatorias, posiblemente de tamaos diferentes. Sea Xi" ,...,Xini la i-sima muestra aleatoria de tamao ni con i=1,...,k. Los datos pueden ser colocados en columnas de la manera siguiente
Muestra 1 x"" x"# . . x1n1
Muestra 2 x#" x## . . x2n2

k
Muestra 3 ...................Muestra k x$" ............ xk" x$# ............ xk# . ............ . . ............ . x3n3 ............. xknk
donde n = n" +n# +...+nk =! ni el nmero total de observaciones.

i"
Se ordenan todas las observaciones en forma creciente en orden de magnitud, enseguida se asigna rango 1 al menor, rango 2 al que sigue, ... , rango n al valor mayor. Destacando con algn smbolo la muestra a la cual las observaciones pertenecen. Si rij representa el rango asignado a Xij , entonces Ri = ! Rij , con i=1,2,...,k
ni j"
es la suma de los rangos asignados a la i-sima muestra. Los empates se manejan como antes, es decir, si dos o ms observaciones estn empatadas para un mismo rango, se asigna a cada miembro del grupo empatado el promedio de los rangos que se hubieran asignado a estas observaciones. Para su aplicacin hay que considerar los siguientes supuestos: todas las muestras son aleatorias de sus respectivas poblaciones; hay independencia mutua entre las muestras; las variables aleatorias Xij son continuas; un nmero moderado de empates es tolerable y la escala de medicin es al menos ordinal.
299
La hiptesis nula que se plantea es H! : Las K poblaciones tienen funciones de distribucin idnticas, y la alternativa es H" : Al menos dos de las distribuciones poblacionales difieren en ubicacin. _ Para determinar el estadstico de prueba, notemos que si Ri =Ri /ni es _ el promedio de los rangos de las observaciones de la i-sima poblacin, y si R es el promedio global de todos los rangos, entonces podemos considerar el anlogo en rango de la Suma de los Cuadrados de los Tratamientos, como un estadstico de prueba, el cual se calcula utilizando los rangos en lugar de los valores reales de la mediciones, es decir, _ _ k V = ! ni (Ri - R)#
i"
Si la hiptesis nula es verdadera y las poblaciones no difieren en ubicacin, _ esperaramos que los Ri fueran aproximadamente iguales y que el valor resultante de V fuera relativamente pequeo. Si la hiptesis alternativa es verdadera, esperamos que esto se manifestar _ mediante diferencias entre los valores de los Ri y un valor grande para V. Notemos que _ Suma de los n primeros nmeros enteros R= n =
n(n+1)/2 n
= (n+1)/2
y por lo tanto _ k V=! ni (Ri i" n+1 2
)# .
En lugar de V, Kruskal y Wallis consideran el estadstico:

12 T = n(n+1) V
_ k 12 ! = n(n+1) ni (Ri (n+1)/2)2

i"
el que despus de algunas operaciones algebraicas podemos escribir tambin como
300
12 ! Ri 3(n+1) T = n(n+1) ni
k
#
i"
que es la expresin ms utilizada para los clculos. Si k=3 y las 3 muestras son de tamao 5 o menos (ni 5, i=1,2,3), la regla de decisin es: rechazar H! si T T! , donde T! es un valor crtico tal que P(T T! ) = !" , cuando H! es verdadera. Este valor crtico se encuentra tabulado. El valor crtico T! del Test de Kruskal-Wallis, para tres muestras pequeas(ni 5, i=1,2,3) se puede ver en la Tabla 12 del libro de J.W. Conover, 1971. Para el caso de muestras grandes, Kruskal y Wallis demostraron que si los ni son grandes (ni >5), la distribucin de T bajo la hiptesis nula se puede aproximar mediante una distribucin chi-cuadrado con k l grados de libertad. Utilizando este hecho, la regla de decisin en este caso es: rechazar H! si # # T>;# "-! con k 1 grados de libertad, donde P(; < ;! ) = !. La justificacin de la aproximacin para la distribucin de T, para el caso de muestras grandes, est basada en el hecho que Ri es la suma de ni variables aleatorias, as, Ri = ! Rij , i=1,2,3,...,k
ni j"
donde E(Ri ) = ni (n+1)/2 y Var (Ri ) = ni (n+1)(n ni )/12 Luego para ni grandes y bajo la hiptesis nula, por el Teorema Central del Lmite tenemos que
Ri E(Ri ) Var(Ri )
N(0,1)
por lo tanto
(Ri E(Ri ))# Var(Ri )
(Ri (ni (n+1)/2))# ni (n+1)(nni )/12
;# . ("
Si los ri son independientes
301
T =!
k
w
i"
(Ri (ni (n+1)/2))# ni (n+1)(nni )/12
;# k
Sin embargo, la suma de los Ri es n, as existe dependiencia entre los Ri . Kruskal (1952) demostr que si se multiplica el i-simo trmino de Tw por (nni )/n, i=1,...,k, entonces el estadstico Tw se transforma en T =!
k
i"
(Ri (ni (n+1)/2))# ni (n+1)n/12
k # 12 ! (Ri ni (n+1)/2) = n(n+1) ni i" k
12 ! Ri = n(n+1) ni 3(n+1)
#
i"
con lo que obtenemos el resultado deseado;esto es, que T se distribuye como una chi-cuadrado con k-1 grados de libertad, en forma asinttica.
Ejemplo. Un ingeniero del departamento de control de calidad de una empresa que fabrica componentes electrnicos, seleccion muestras independientes de la produccin de tres lneas de montajes. En cada lnea se examin la produccin de diez horas, seleccionadas al azar, y se observ el nmero de productos defectuosos. Los datos y los rangos asignados, aparecen en la Tabla 9.4. Proporcionan los datos de la tabla evidencia suficiente de que las distribuciones de probabilidad del nmero de defectuosos por hora de produccin difieren en ubicacin para por lo menos dos de las lneas de produccin?. Utilice !=0.05 Tabla 9.4 Nmero de defectuosos en tres lineas de montaje
302
Linea 1 Defectos 6 38 3 17 11 30 15 16 25 5 n1 =10
Rango 5 27 2 13 8 21 11 12 17 4 R1 =20
Linea 2 Defectos 34 28 42 13 40 31 9 32 39 27 n2 =10
Rango 25 19 30 9.5 29 22 7 23 28 18 R2 =210.5
Linea 3 Defectos 13 35 19 4 29 0 7 33 18 24 n3 =10
Rango 9.5 26 15 3 20 1 6 24 14 16 R3 =134.5
n = n" +n# +n$ = 10+10+10 = 30 Utilizando los datos de la tabla tenemos:

12 ! Ri 3(30+1) T = 30(30+1) ni
k
#
i"
12 ( (120)# (210.5)# (134.5)# ) = 930 3(31) 10 + 10 + 10
= 6.10 Las hiptesis a considerar en este caso son: H! : Las 3 distribuciones de probabilidad del nmero de defectuosos por hora de produccin son iguales. versus H" : Al menos una de las distribuciones difieren en ubicacin. Dado que todos los ni (i=1,2,3) son mayores o iguales a 5, podemos utilizar la aproximacin para la distribucin de T y vamos a rechazar H! si T>;# "-! con k 1=3 1=2 grados de libertad. Ahora, para ! =0.05, de la tabla chi-cuadrado tenemos que:
# ;# "!!&# = ;!*&# = 5.99
303
Por lo tanto, como T=6.10 > ;# !*& = 5.99, rechazamos H! a un nivel de !=0.05 y concluimos que al menos una de las tres lneas tiende a producir un mayor nmero de defectuosos que las otras.
9.5. Test de aleatoridad ( de Rachas ) En casi todos los test, tanto paramtricos como noparamtricos, se supone que las muestras extradas son aleatorias. El test de rachas es uno de varios test que existen para probar aleatoridad. En general, una racha es una secuencia mxima de elementos similares, sin importar el tamao de dicha subsecuencia. Consideremos dos conjuntos de observaciones muestrales X" ,...,Xn e Y" ,...,Ym , de tamaos n y m respectivamente. Las observaciones se combinan y se ordenan, simbolizando la muestra de la cual provienen. En la aplicacin del test se supone que la escala de medicin debe ser continua, ya sea de intervalo o de razn. Las hiptesis que se plantean son las siguientes: H! : Las poblaciones X e Y tienen la misma distribucin, contra la alternativa H" : Las distribuciones de X e Y estn desfasadas en ubicacin. El estadstico de prueba es R, el nmero total de rachas observadas, donde R puede tomar cualquier valor en el conjunto {2,3,...,n+m}, y la regla de decisin es: rechazar H! si R r! , para un nivel !, donde r! es un valor que se obtiene de tablas y es tal que P(r r! )=!. Para muestras grandes; esto es, si n y m son mayores o iguales que 10, se puede utilizar aproximacin normal, donde E(R) = 1+2nm/(n+m) y Var(R) = (n+m)# (n+m1) .
2nm(2nmnm)
Ejemplo. Un grupo feminista sospecha que una gran empresa sigue una poltica de sueldos que discrimina a las mujeres en favor de los trabajadores varones, en los cargos ejecutivos. Para verificar esto, se seleccionaron 12 empleados de cada sexo (H=hombre, M=mujer), de entre los que tienen responsabilidades y experiencias similares en el trabajo. Sus ingresos brutos anuales, en millones de pesos, son los siguientes: H 21.9 21.6 22.4 24.0 24.1 23.4 21.2 23.9 20.5 24.5 22.3 23.6 M 22.5 19.8 20.6 24.7 23.2 19.2 18.7 20.9 21.6 23.5 20.7 21.6 Quremos averiguar si existe evidencia de discriminacin, al 5% de significacin, de acuerdo a los datos recopilados.
304
En general, el problema lo podemos plantear mediante la pregunta Existe alguna razn para creer que estas muestras aleatorias provienen de poblaciones con diferentes distribuciones?. Ordenando en forma creciente las observaciones e indicando si es H o M, tenemos la siguiente secuencia MMMHMMMHHMMHHH MMHMHHHHHM 1 2 3 4 5 6 7 8 9 10 11 de donde R= 11 (nmero de rachas), con n = m = 12. Aproximando R por una normal tenemos que bajo H!
R E(R) Z = Var(R) N(0,1)
con E(R) = 13 y Var(R) = 5.739. Entonces Z = 0.83, y para !=0.05, el valor de tablas es z =-1.96, y como -0.83 >-1.96, no se rechaza H! ; es decir, existe aleatoridad y concluimos que no hay razn para pensar en que existe discriminacin.
EJERCICIOS 1. Diez muestras de suelos tomados de una regin particular estn sujetas a anlisis qumicos para determinar el pH de cada muestra. Los pH encontrados fueron: 5.93, 6.08, 5.86, 6.12, 5.90, 5.89, 5.98, 5.95, 5.91 y 5.96. Se tena la creencia previa que la mediana del pH del suelo de esta regin era 6.0. Indican los datos de la muestra que la verdadera mediana del pH es diferente de 6.0?. Haga T = el nmero de valores pH, en la muestra, que exceden a 6.0, y use el test de los signos al nivel 0.05 para probar la hiptesis apropiada. 2. Un laboratorio est interesado en determinar si un tratamiento qumico para una forma especfica de cncer cambia la temperatura del cuerpo. Diez pacientes con la enfermedad son seleccionados al azar de un conjunto de pacientes bajo control experimental. Sus temperaturas son medidas antes y despus de tomar el tratamiento, Los datos, dados en grados Farenheit, estn listados a continuacin. Paciente 1 2 3 4 Antes 98.4 98.2 98.0 99.0 Despus 99.6 100.9 97.6 99.9 305
5 6 7 8 9 10
98.6 97.0 98.4 100.0 99.8 98.6
98.2 98.4 98.4 102.6 102.2 98.8
Pruebe la hiptesis que las dos medias poblacionales son iguales al nivel !=0.01, usando el test de rangos signados de Wilcoxon. 3. Dos fertilizantes, A y B, son usados en dos parcelas de terreno idnticas sembradas con maz. Cada parcela es dividida en ocho secciones iguales. Al final del experimento, la cosecha por seccin para los dos fertilizantes son medidos. Los datos se muestran a continuacin: Fertilizante A 80.2 76.8 93.2 90.1 85,7 81.5 79.0 82.0 Fertilizante B 95.2 84.7 88.9 98.6 100.8 89.8 99.6 101.4
Usando el test de Mann-Whitney y !=0.05, pruebe la hiptesis que las dos muestras provienen de la misma poblacin. Cul es el valor-p para este test?. 4. En un test para determinar si el suelo pre-tratado con pequeas cantidades de Basic-H se hace ms permeable al agua, las muestras de suelos fueron divididas en bloques y cada bloque recibi cada uno de los 4 tratamientos bajo estudio. Los tratamientos fueron: A= agua con 0.001% de Basic-H diluda en el suelo control B = agua sin Basic-H en control C = agua con Bassic-H diluda en suelo pretratado con Basic-H, y D= agua sin Basic-H en suelo pretratado con Basic-H. Bloques 4 5 25.9 25.5 20.3 18.3 47.9 38.2 40.9 39.4
A B C D
1 37.1 33.2 58.9 56.7
2 31.8 25.3 54.2 49.6
3 28.0 20.0 49.2 46.4
6 25.3 19.3 48.8 37.1
7 23.7 17.3 47.8 37.5
8 24.4 17.0 40.2 39.6
9 21.7 16.7 44.0 35.1
10 26.2 18.3 46.4 36.5
306
Pruebe al 1% de nivel si existe algn efecto debido a los diferentes tratamientos. 5. Los tiempos, en minutos, tomados por 25 personas para completar un examen escrito para obtener su licencia de conducir fueron: 10.72, 3.82, 4.42, 4.8, 11.91, 12.86, 8.16, 7.16, 8.38, 8.13, 12.41, 4.01, 12.7, 6.22, 7.88, 2.55, 3.55, 10.12, 8.82, 5.57, 3.58, 14.36, 2.7, 3.19, 14.03. Aplique el test de rachas para probar aleatoriedad de las observaciones.
307
Tabla I. Valores de la Funcin de Distribucin Normal Estndar.

z
F(z) = '-_ (1/21)exp(-t2 /2)dt=P(Z z).
308
Valores de la Funcin de Distribucin Normal Estndar. (Continuacin).
309
Tabla II. Percentiles de la Distribucin t-Student
310
Tabla III. Percentiles de la Distribucin ;2 .
311
Tabla IV. Percentiles de la Distribucin F.
312
Percentiles de la Distribucin F. (Continuacin).
313
314
315
316
317
Tabla V. Coeficientes del Contraste de Shapiro Wilks. Coeficientes ain para la prueba W de Shapiro Wilks, n es el tamao muestral.
318
Coeficientes del Contraste de Shapiro Wilks. (Continuacin).
319
Tabla VI. Percentiles del estadstico W de Shapiro Wilks.
320
Percentiles del estadstico W de Shapiro Wilks. (Continuacin).
321
322

Libro Estadistica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro Estadistica

Cargado por

Copyright:

Formatos disponibles

CAPITULO I PROBABILIDADES

n" , n#n,...,nk = Pn n" n# nk =

n! n" !n# ...nk !

El nmero de particiones en este caso esta dado por:

n P(Ai Aj Ak )+...+( 1)n" P( Ai ), i" ijk

Adems, Ei Ej =F ai j. Enseguida, aplicando Ax.3 o Teorema 1.3 forma directa, tenemos

! P(Ei ) = lim n _ i"

n = lim P(U Ei ) n_ i" 12

6 P(B) = ! P(i,j) = n(H) = 36 =1 6 n(B)

P[(A" B)(A# B)...] P(B) P(A" B) P(A# B) P(B) + P(B) +...

La pregunta (b) es una probabilidad condicional y corresponde a

Para la parte (c) tenemos que

1/4 3/5 = 1/5 - 2/5 =1/8.

0.20 2 = 0.8 =7 = 0.286. 0.56

CAPITULO II VARIABLES ALEATORIAS

si = = (s,s,s) si = = (s,s,c), (c,s,s),(s,c,s) si = = (c,c,s), (c,s,c),(s,c,c) si = = (c,c,c)

4/16 P(X=x) 1/16

Figura 2.1 Distribucin de probabilidades para el nmero de caras

Figura 2.4. Funcin de densidad para la altura de los rboles

Claramente fX (x) 0, ax y ( 1/5 dx = 1.

Similarmente, la probabilidad que tenga que esperar ms de 4 minutos es P(X > 4) = (

ce-x/2 dx = 1, se obtiene que c=1/2. Por lo tanto,

y la probabilidad que ocurra el problema de polucin es P(X > 6) = (

(1/2) e-x# dx = e-("#)' = e-$ = 0.05.

0 si x < 0 x2 /2 si 0 x <1 H(x) = 3/4 si 1 x < 2 (x 1)/4 si 2 x < 3 1 si x 3.

. . . . . . . . . . 1.3 1.8 2.3 2.8

1 0.75 F(x) 0.5 0.25 0 1.4 2 2.4 x . . . . . . . . . 3 3.4

La funcin de distribucin de X la determinamos como sigue: 41

Para t<0; FX (t) = 0 Para 0 t<1; FX (t)=( fX (x)dx = ( 0dx + ( 2xdx = t#

FX (t) = ( fX (x)dx = ( 0dx + ( 2xdx + ( 0dx =1.

y su grfico es una funcin continua de t, como se muestra en la Figura 2.8.

0.4 0.2 0 0 0.4 0.8 1.5

y su funcin de distribucin por

El grfico de FX (t) se muestra en las Figura 2.10.

(ii) E[X] = ( xfX (x)dx ; si X es continua

Dado que X es una variable aleatoria discreta, la esperanza de X la calculamos como 47

distribucin. De hecho, lo que se obtiene es probabilidades.

una cota para dichas

g(x) fX (x)dx g(x)fX (x)dx +(

# Enseguida, tomando g(X)=(X .x )# y k=r# 5x en el teorema anterior, se tiene de inmediato el resultado.

Notemos que la desigualdad de Chebyshev la podemos escribir en forma alternativa como 50

!H(x)p (x) X E[H(X)] = H(X)fX (x)dx (

si X es una variable discreta si X es una variable continua

tX MX (t) = E[ de dt ] = E[Xe ] d tX MX (t) = E[ dt ] = E[X# etX ] # e k dk tX MX (t) = E[ dt ] = E[Xk etX ]. k e #

etX 500 e-&!!x dx

500 e-x&!!-t dx si t<500.

De aqu tenemos que MX (0) = m" = .X =

MX (0) = m# = 2/(500)# , de donde

La funcin generadora de momentos de X est dada por

(1+3et +3e#t + e$t ) (1+et )$ .

2.8 Funciones de una Variable Aleatoria

x que podemos escribir como: pX (x) = 721 ; x=1,..,6

Luego, pY (y) = pX ( y300000 ) 200 55

7( y300000 ) 200 21 301400y 4200 ,

y la funcin de densidad de Y es f] (y) = fX (H-" (y)) |

= fX (H-" (t)) = fX (H-" (t))|

f] (t) = fX (H-" (t)) |

As, FZ (t) = 1 e-2(

t+. /5 1/5 >0.

Para 1 y 4: FY (y) = P(Y 1) + P(1<Y y)

=2 3 +FX ( y)- FX (1) =2 3+

Derivando la funcin de distribucin, obtenemos la densidad de Y

si 0<y 1 si 1<y 4 e.o.c.

2(1-y) 0< y< 1. e.o.c.