Está en la página 1de 60

Inferencia

Virgilio L. Foglia
E-mail address: ing@foglia.com.ar
URL: http://www.ifoglia.com
Contents

Chapter 1. ESTIMACION 5
1. De…nición de Estimador 5
2. Método de máxima verosimilitud 7
3. Estadistico muestral y Su…ciencia 10
4. Estimación de de una población Poisson 11
5. Estimación de p de una población Bernouilli 12
6. Estimación de en una población Gamma 14
7. Estimación de parámetros en una población normal 16
8. Estimador en pool 19
Chapter 2. INTERVALOS DE CONFIANZA 23
1. De…nición de Intervalo de Con…anza 23
2. Método del estadístico pivotal 25
3. IC para de una población normal con conocida 26
4. IC para 2 de una población normal con desconocida 28
5. Método del estadístico muestral 29
6. IC para p de una población Bernouilli 30
7. IC para de una Poisson 32
8. IC para en una población Normal de desconocida 33
9. IC en dos poblaciones normales independientes 34
10. IC para = x y (desvíos conocidos) 34
11. IC para = x y (desvíos desconocidos e iguales) 35
12. IC para = x y (desvíos desconocidos) 36
2
13. IC para '2 = x
2 37
y

14. IC para = x en dos poblaciones gamma independientes 38


y
15. Un ejemplo con poblaciones normales 39
16. Incorporación del error de un instrumento 42
17. Intervalos NO exactos [ NO óptimos 45
Chapter 3. PRUEBAS DE HIPOTESIS 53

3
CHAPTER 1

ESTIMACION

1. De…nición de Estimador
Considérese una v.a. X continua cuya función de densidad es f (x= ). Esta
densidad es conocida salvo su parámetro .
(Si X fuese discreta la densidad sería p(x= ). Además si los parámetros de-
sconocidos fuesen dos, escribiriamos f (x= 1 ; 2 ), o p(x= 1 ; 2 ))
A continuación se toma una muestra X1 X2 Xn independiente(podría no serlo,
pero en todo lo que sigue se considerarán muestras independientes).
Se tendrá entonces:

f (x= )
X1 X2 Xn
En la práctica la muestra son n números reales x1 x2 xn totalmente conocidos. La
intención es, con estos números, realizar alguna operación que nos proporcione una
estimación del valor del parámetro . Supongamos que se propone como operación,
cierta función g de la muestra, llamada la función estimadora, se tendría
b = g(x1 x2 xn )
Aquí b sería un número, que representa la estimación de , con la muestra x1 x2 xn
que tenemos.
Este planteo tiene dos problemas: 1 ) conocemos la estimación b, pero como
es desconocido, no tenemos forma de saber si b esta cerca o lejos del ; 2 ) si se
toma otra muestra, los x1 x2 xn cambiarán, y también la estimación b. O sea, el
valor estimado no es el mismo siempre, cambiará con la muestra.
Por eso para poder evaluar una función estimadora g, es necesario tener en
cuenta que la muestra son variables aleatorias X1 X2 Xn y la correspondiente
estimación b también lo será, o sea
b = g(X1 X2 Xn )
Aquí b , el estimador, es una variable aleatoria, que depende de la muestra
también aleatoria, y tendrá su correspondiente función de densidad f b (b= ).
El problema general de estimación es el de averiguar la expresión de la fun-
ción estimadora g, que hace que la variable aleatoria estimador b tenga buenas
propiedades.

1.1. Propiedades deseables del estimador b .


Si probamos con varias muestras X1 X2 Xn y con cada una de ellas
calculamos los correspondientes valores del estimador b , es deseable que
5
6 1. ESTIM AC IO N

estos valores esten alrededor de que es el valor que se quiere estimar, o


sea pediremos que
E( b ) =
Si un estimador cumple esta propiedad, se dice que es insesgado.
Suponiendo que el estimador es insesgado, las estimaciones proporcionadas
estarán alrededor de . Entonces será deseable que además de estar alrede-
dor de , esten muy cerca de el, o sea se pedirá que
V ar( b ) sea la menor posible
Example 1. Considerese una v.a. X N ( ; 2) y se quiere estimar con una
muestra de tamaño n = 4. Se tiene entonces
N ( ; 2)
X1 X2 X3 X4
Se proponen 3 funciones estimadoras:
X1 + X2 + X3 X4 X1 + X2 + X3 + X4 X1 + 2X2 + 3X3 + 4X4
b1 = b2 = b3 =
2 4 5
Como E(b1 ) = + + 2 = resulta insesgada; E(b2 ) = + + 4
+
= también
+2 +3 +4
es insesgada. Además E(b3 ) = 5 = 2 , entonces b 3 es sesgada, propor-
ciona estimaciones que están alrededor de 2 , o sea el doble del valor a estimar.
Por eso la descartamos por el momento. Si a continuación se analizan las varianzas
de las dos primeras, se tendrá:
22 + 22 + 22 + 22 22 + 22 + 22 + 22
V ar(b1 ) = = 4 y V ar(b 2 ) = =1
22 42
De aquí resulta que el mejor estimador es b2 . Si ahora se analizan las distribuciones
de estos dos estimadores, teniendo es cuenta que son combinaciones lineales de v.a.
normales se tiene
b1 N ( ; 2) b2 N ( ; 1)
O sea b1 proporciona estimaciones alrededor de con desvío 2, mientras que
el elegido b2 proporciona estimaciones, tambien alrededor de pero en general mas
cerca ya que el desvío es 1.
1.2. Corrección del sesgo de un estimador. Si b = g(X1 X2 Xn ) es un
estimador con E( b ) = cte , este estimador es sesgado. Si la cte no depende de ,
se de…ne el correspondiente estimador insesgado b I mediante:
b
bI =
cte
b E( b )
ya que E( b I ) = E( cte ) = = cte
cte cte = (insesgado).
Menos usual, si b = g(X1 X2 Xn ) es un estimador con E( b ) = + cte,
este estimador es sesgado. Si la cte no depende de , se de…ne el correspondiente
estimador insesgado b I mediante:
bI = b cte
ya que E( b I ) = E( b cte) = E( b ) cte = + cte cte = (insesgado).
2. M ÉTODO DE M ÁXIM A VEROSIM ILITUD 7

Example 2. En el ejemplo anterior se descartó b3 por ser sesgado, ya que


E(b3 ) = 2 . Se de…ne entonces
X1 +2X2 +3X3 +4X4
b3 5 X1 + 2X2 + 3X3 + 4X4
b3I = = =
2 2 10
Ahora sí las estimaciones de este estimador estarán alrededor de . Para compararlo
con los dos anteriores se evaluara su varianza
22 + 22 22 + 32 22 + 42 22
V ar(b3I ) = = 1:2
102
Luego en de…nitiva, el mejor de los tres estimadores insesgados sigue siendo b2 , le
sigue b3I , y el peor de todos es b1 .

2. Método de máxima verosimilitud


Se presentará ahora un método para obtener una función estimadora. Es el
mas utilizado, ya que el estimador correspondiente tiene muy buenas propiedades.
Considérese una v.a. X discreta cuya función de densidad es p(x= ) (si X es
continua se utilizará f (x= )), y una muestra X1 X2 Xn independiente
p(x= )
X1 X2 Xn
Como la muestra consiste en n v.a. independientes, cada una con densidad p(x= ),
y recordando lo visto en V V A, la función de densidad de la muestra será el
producto de las n densidades marginales, o sea
p(x1 x2 xn = ) = p(x1 = ) p(x2 = ) p(xn = )
En la teoría de probabilidad, en V V A, el parámetro es conocido, y los x1 x2 xn
representan todas las muestras posibles. Además usando este conocido y cualquier
muestra x1 x2 xn , la p(x1 x2 xn = ) proporciona la probabilidad de que cuando se
tome una muestra, esta asuma los valores x1 x2 xn .
En el problema de estimación, ocurre al revés, ya que la muestra la conocemos,
(es la muestra que tenemos, es conocida), y lo desconocido es .
Entonces cuando a la p(x1 x2 xn = ) la evaluamos para la muestra que tenemos,
dándole a cualquier valor que elegimos, el número obtenido proporcionaría, en el
caso de tomar otra muestra, cuanto vale la probabilidad de que salga la muestra
que realmente tenemos.
En lugar de usar el término probabilidad, a este concepto se lo designa verosimil-
itud de la muestra.
Como la muestra es …ja, se usa la notación L( =x1 x2 xn ) (del inglés Like-
lihood), poniendo después de la barra lo conocido, y antes el desconocido. Sin
embargo su expresión funcional es la misma
L( =x1 x2 xn ) = p(x1 = ) p(x2 = ) p(xn = )
Ahora L( =x1 x2 xn ) se la piensa como una función solo de , ya que la muestra
es conocida. Y entonces los valores de que hacen que L( =x1 x2 xn ) tome un
valor alto, se interpretan como que son que hacen a la muestra que tenemos muy
verosimil en relación a , y al revés cuando toma un valor bajo.
8 1. ESTIM AC IO N

En de…nitiva el método de Maxima verosimilitud propone como estimador del


parámetro, al valor de que hace más verosimil a la muestra que tenemos. O sea:
bM V es el valor de que hace máxima a la L( =x1 x2 xn )
Para obtener el estimador, en general habrá que derivar la verosimilitud respecto
de , y buscar el máximo.
En el caso que la densidad de la población sea continua (f (x= )), los resultados
obtenido son similares, solo habría que cambiar p(x= ) por f (x= ), y modi…car
algunos detalles de la explicación anterior.
Remark 1. Obtenido el estimador, este será función solo de la muestra, o sea
bM V = g(x1 x2 xn ). Si aquí se reemplazan las xi por las correspondientes v.a. de
la muestra, las Xi , se obtiene la expresión del estimador como variable aleatoria
b M V = g(X1 X2 Xn )
Esto es importante para estudiar las propiedades del estimador obtenido. Por ejem-
plo, si se quiere averiguar si es insesgado (propiedad que no garantiza el estimador
de MV), habrá que evaluar si E( b M V ) = . Si esto no ocurre, se tratará de corre-
girlo si esto es posible, y obtener el correspondiente estimador insesgado.
Remark 2. Si la densidad poblacional tiene mas parámetros, por ejemplo
dos como p(x= 1 ; 2 ) o f (x= 1 ; 2 ); la verosimilitud entonces será función de dos
parámetros como L( 1 ; 2 =x1 x2 xn ), y al maximizar habrá que utilizar derivadas
parciales.
Example 3. Sea la densidad(continua) f (x= ) = ( + 1)x para 0 < x < 1 y
> 1. Se pide estimar por MV. Se tendrá entonces
f (x= ) = ( + 1)x para 0 < x < 1 y > 1
X1 X2 Xn
Se tiene entonces
L( =x1 x2 xn ) = ( + 1)x1 ( + 1)x2 ( + 1)xn = ( + 1)n (x1 x2 xn )
Para evitar errores y facilitar el calculo, se darán dos recomendaciones:
(1) Como las xi son valores conocidos, llamamos momentaneamente a = x1 x2
xn entonces queda:
L( =x1 x2 xn ) = ( + 1)n a
(2) Habría que derivar esto respecto de . Pero antes conviene calcular el
ln(L( =x1 x2 xn )) y después derivar. El estimador obtenido no cambia, ya
que el logaritmo es una función creciente, y entonces obtener el máximo en
L( =x1 x2 xn ), es equivalente a obtener el máximo de ln(L( =x1 x2 xn ))
.
ln(L( =x1 x2 xn )) = n ln( + 1) + ln(a)
Ahora sí derivando, e igualanco a cero
d ln(L( =x1 x2 xn )) n
= + ln(a) = 0
d +1
De aquí surge(habría que veri…car que es realmente un máximo)
bM V = 1 n n
= 1
ln(a) ln(x1 x2 xn )
2. M ÉTODO DE M ÁXIM A VEROSIM ILITUD 9

Finalmente la expresión del estimador como variable aleatoria sería


b MV = 1 n
ln(X1 X2 Xn )
Este es el estimador de que surge del método de máxima verosimilitud. Es un
estimado muy bueno, pero no está garantizado que sea insesgado. Para analizar
esto habria que evaluar si se cumple
E( b M V ) =
(y por supuesto corregir el estimador para hacerlo insesgado, si es posible)

2.1. Método de los momentos. Este método para encontrar la función esti-
madora de un estimador, suele ser muy simple de aplicar, pero el estimador obtenido
no tiene tan buenas propiedades como el de MV. Se lo presentará para una población
con dos parámetros 1 y 2 . Consideremos el caso continuo
f (x= 1 ; 2)
X1 X2 Xn
Cuando se estudiaron los conceptos de media y varianza de una v.a. se de…nió:
Si se tiene la densidad poblacional f (x= 1 ; 2 ), la media y varianza "poblacionales"
serán:
Z Z
2
= xf (x= 1 ; 2 )dx = g( 1 ; 2 ) = (x )2 f (x= 1 ; 2 )dx = h( 1 ; 2 )
dom dom

Notar que como 1 y 2 son desconocidos, la y 2 "poblacional" depen-


derán de 1 y 2 .
Si se tiene una muestra X1 X2 Xn , la media y varianza "muestral" serán:
n
X
(Xi X)2
X1 + X2 + Xn
X= S2 = i = 1
n n
Además se comentó que para n "grande", estas medias y varianzas "mues-
trales" tienden (el algún sentido), a las correspondientes medias y varianzas "pobla-
cionales", o sea
X ! = g( 1 ; 2) S2 ! 2
= h( 1 ; 2)

Este método se basa en suponer que el n es su…cientemente grande como para


postular la igualdad o sea que
X = g( 1 ; 2 )
S 2 = h( 1 ; 2 )

Finalmente de este sistema se despejan 1 y 2 en función de X y S 2 , y resultan


los estimadores buscados. Se presentará un ejemplo.
Example 4. Considérese una población G( ; ) y una muestra
G( ; )
X1 X2 Xn
10 1. ESTIM AC IO N

Aquí no hace falta integrar ya que para la gamma la media y variaza "poblacionales"
son = y 2 = 2 y para la muestra la media y varianza "muestrales" son X
y S 2 . Igualando queda el sistema
(
X=
S2 = 2
Resolviendo resultan, como v.a. los estimadores
2
X X
b= 2 y b= 2
S S
Remark 3. Si la población tiene un solo parámetro a estimar, como por ejem-
plo la Po ( ), no hace falta un sistema con dos ecuaciones, basta con una. En este
caso la media "poblacional" es = , y la "muestral" es X. Luego igualando
X = , resulta el estimador, como v.a. b = X.

3. Estadistico muestral y Su…ciencia


Consideremos una población, por ejemplo continua, con un parámetro de-
sconocido, y una muestra
(3.1) f (x= )
X1 X2 Xn
En inferencia estadística, la muestra es conocida, y con ella se pretende averiguar
información respecto del de la población. Por ejemplo, con la muestra: 1) estimar
, o 2) hallar un intervalo de con…anza para , o 3) averiguar si 10(estos dos
últimos puntos,se verán mas adelante).
Para evaluar todo esto se requiere pensar la muestra como n variables aleatorias
independientes, con su correspondiende función de densidad
f (x1 x2 xn = ) = f (x1 = ) f (x2 = ) f (xn = )
Claro que esto suele ser muy complicado, ya que hay que utilizar la teoría de V V A,
con integrales múltiples(son n!!).
Sería mucho mas simple de…nir una nueva variable aleatoria, H, que es función
de la muestra, que se llamará estadístico muestral
H = g(X1 X2 Xn )
Esto es un cambio de variable, y si se averigua la densidad de H, esta será
f (h= ), que es una densidad en una variable, y que seguramente dependerá de (esto
no siempre ocurre), ya que la muestra X1 X2 Xn tiene una densidad f (x1 x2 xn = )
que depende de .
Entonces, para dar respuesta a las tres inquietudes de la inferencia estadística
sugeridas al iniciar este tema, la idea sería: en lugar de considerar toda la muestra,
que tiene la densidad f (x1 x2 xn = ), como en (3.1); considerar que la muestra es
solo H con densidad f (h= ) o sea
(3.2) f (h= )
H
Esta forma de proceder es habitual en estadística, ya que es considerablemente mas
simple.
4. ESTIM ACIÓN DE DE UNA POBLACIÓN POISSON 11

Pero claro, hasta ahora no se dijo nada respecto de quien es la función g(X1 X2
Xn ) que de…ne al estadístico muestral; puede ser cualquier función?
Para evaluar este tema se requeriría el concepto de función de densidad condi-
cional(que no fué visto). Así que para evitar esto se de…nirá, bastante ambigua-
mente, un concepto sobre información.
En (3.1), diremos que la muestra tiene cierta "información" respecto de .
Parece razonable, ya que si no la tuviese, no sería posible, solo con la muestra
estimar . De…nimos entonces a la información que contiene la muestra respecto
de a Inf (X1 X2 Xn ):
Por ejemplo si tomamos una muestra de tamaño 1, la información que contiene
respecto de sería Inf (X1 ), en cambio si tomamos una muestra de tamaño 3, la
información sería Inf (X1 X2 X3 ). En este caso es razonable pensar que Inf (X1 )
Inf (X1 X2 X3 ). O sea que cuanto mayor es la muestra, mayor información tendrá
respecto de . Aunque esto no siempre ocurre, lo habitual es que muestras mas
grandes, tengan mayor información respecto de .
Si utilizamos un estadistico muestral como en (3.2), H en general tendrá tam-
bién cierta información respecto de . De…nimos la información que contiene H
respecto de , a Inf (H).
Si la función g con la cual de…nimos el estadístico es una función cualquiera,
lo habitual es que Inf (H) Inf (X1 X2 Xn ). Esto es así ya que la información
que tenemos inicialmente es la de toda la muestra, Inf (X1 X2 Xn ). Y si por
comodidad resolvemos utilizar H = g(X1 X2 Xn ), que es una sola variable, la
información en general será menor.
Definition 1. Un estadístico muestral es su…ciente respecto de un parámetro
si
Inf (H) = Inf (X1 X2 Xn )
O sea, si logramos encontrar una función g tal que H = g(X1 X2 Xn ) sea
su…ciente respecto de , esta resuelto el problema. Descartamos utilizar toda la
muestra, y a partir de ahora usaremos solo H para "fabricar" estimaciones de ,
intervalos de con…anza sobre , o pruebas de hipótesis sobre , con la seguridad que
lo obtenido será tan bueno como si hubiese sido obtenido con toda la muestra, pero
mucho mas simple operativamente.
Solo falta un método para, dada la densidad de una muestra, averiguar si existe
un estadístico su…ciente para . Esto lo proporciona el siguiente teorema.
Theorem 1. Teorema de factorización de Neyman: Dada la densidad de
la muestra f (x1 x2 xn = ), entonces h = g(x1 x2 xn ) es un estadístico su…ciente
respecto de , si la densidad se puede factorizar así
f (x1 x2 xn = ) = u(h; ) v(x1 x2 xn )
O sea, un factor que es función solo a h y , y el otro, solo función de la mues-
tra(aquí no puede aparecer ).

4. Estimación de de una población Poisson


Example 5. Estadístico su…ciente, y estimación de , para una mues-
tra de una Po ( ): Sea
(4.1) Po ( )
X1 X2 Xn
12 1. ESTIM AC IO N

x
La densidad de la Poisson es p(x= ) = e x! . Luego la densidad de la muestra
x1 x2 xn
p(x1 x2 xn = ) = e e e
x1 ! x2 ! xn !
x1 +x2 + +xn
n
= e
x1 !x2 ! xn !
Inspeccionando, si designamos h = x1 + x2 + +xn queda
h i 1
p(x1 x2 xn = ) = e n h = u(h; ) v(x1 x2 xn )
x1 !x2 ! xn !
Luego H = X1 + X2 + Xn es un estadístico su…ciente para . Y utilizando

Suma de Poisson independientes


(4.2) X Po ( x)
Ind Q=X +Y ! Q Po ( x + y)
Y Po ( y)

Resulta H = X1 + X2 + Xn Po (n ) la distribución del estadístico su…ciente


para .
Luego para hacer inferencias sobre , podemos considerar que la población es
Po (n ), y la muestra solo H

(4.3) Po (n )
H
h
n (n )
Por ejemplo para estimar por MV: la densidad de H es p(h= ) = e h! , la
h
n (n )
verosimilitud de H es L( =h) = e h! , luego ln L( =h) = n + h ln(n )
ln(h!) y derivando
d ln L( =h) n h
= n+h 0 = 0 luego resulta b =
d n n
En de…nitiva para una muestra de una Poisson(4.1), se puede trabajar solo con el
estadístico su…ciente como en (4.3) y obtener el estimador

b = H = X1 + X2 + Xn
n n
Que es insesgado, ya que E( ) = b E(X1 )+E(X2 )+ E(Xn )
= + +
= n
= ; y
n n n
b
V ar( ) = V ar(X1 )+V ar(X2 )+ V ar(Xn )
= + + + n
= n2 = n .
n2 n2

5. Estimación de p de una población Bernouilli


Example 6. Estadístico su…ciente y estimación de p, para una mues-
tra de una Bernouilli(p). Recordando, un experimento de Bernouilli tiene solo
dos resultados exito y exito. La P (exito) = p, y P (exito) = 1 p: Para expresar
esto como v.a. de…nimos X = 1 si el resultado es exito, y X = 0 si el resultado
es exito. Entonces la densidad de X será: p(x=p) = px (1 p)1 x para x = 1; 0.
Veri…quemos: p(0=p) = p0 (1 p)1 0 = 1 p; p(1=p) = p1 (1 p)1 1 = p. Notemos
de paso que la densidad de X Bernouilli(p) coincide con la Bi (1; p), en efecto
pbi (x=1; p) = x1 px (1 p)1 x = px (1 p)1 x ya que para x = 0; 1 el combinatorio
5. ESTIM ACIÓN DE p DE UNA POBLACIÓN BERNOUILLI 13

vale 1. Con esta introducción supongamos que tenemos una muestra de tamaño n
de una Bernouilli(p) t Bi (1; p)
Bi (1; p)
X1 X2 Xn
La densidad de la muestra es
p(x1 x2 xn =p) = px1 (1 p)1 x1 px2 (1 p)1 x2 pxn (1 p)1 xn

= px1 +x2 + +xn (1 p)n x1 +x2 + +xn


Inspeccionando, si designamos h = x1 + x2 + +xn queda
h n h
p(x1 x2 xn =p) = p (1 p) = u(h; p) 1 (aquí v(x1 x2 xn ) = 1)
Luego H = X1 + X2 + Xn es un estadístico su…ciente para p. Y utilizando

Suma de Binomiales independientes de igual p


(5.1) X Bi (nx ; p)
Ind Q=X +Y ! Q Bi (nx + ny ; p)
Y Bi (ny ; p)
Resulta H = X1 + X2 + Xn Bi (n; p) la distribución del estadístico su…ciente
para p. (esto lo conocemos: el número de éxitos en n repeticiones es Bi (n; p))
Remark 4. Que H = X1 +X2 + Xn es un estadístico su…ciente para p, surgió
aquí, del teorema de factorización. Sin embargo pudo haberse intuido. Supongamos
que interesa el p (de defectuoso) de una máquina. Para evaluar esto se fabrican
n = 10 artículos, obteniendo la muestra X1 X2 X10 = 0; 1; 0; 0; 1; 0; 0; 0; 1; 0, pero
se esconde esta muestra. A continuación se nos pregunta que preferimos (si nuestra
intención es averiguar cuanto valdrá p), Opción 1: que nos den toda la muestra;
Opción 2: que nos digan cuanto vale H = X1 + X2 + Xn = 3? Se comprende
que tanto la muestra, como conocer solo que H = 3 tienen la misma información
respecto de p? Porque, si tener toda la muestra fuese superior, esto querria decir
que la posición concreta en que aparecen los 3 defectuosos en la muestra aporta algo
sobre p: No parece razonable esto. Por eso H es su…ciente.
Luego para hacer inferencias sobre p, podemos considerar que la población es
Bi (n; p), y la muestra solo H (el número de defectuosos)

Bi (n; p)
H
Si queremos estimar p por MV: la densidad de H es pBi (h=n; p) = nh ph (1 p)n h ,
la verosimilitud de H es L(p=h) = nh ph (1 p)n h , luego ln L(p=h) = ln nh +
h ln p + (n h) ln(1 p) derivando
d ln L(p=h) 1 1 h
=0+h (n h) =0 luego resulta pb =
dp p 1 p n
En de…nitiva para una muestra de una Bernouilli(p) u Bi (1; p), se puede trabajar
solo con el estadístico su…ciente y obtener el estimador
H X1 + X2 + Xn
pb = =
n n
14 1. ESTIM AC IO N

Notar que es razonable este estimador, o sea pb = numero de exitos


n
en la muestra
.
Además como la media de la binomial es np y la varianza np(1 p) resulta:
np np(1 p) p(1 p)
E(b
p) = = p (insesgado) y V ar(bp) = 2
=
n n n
Remark 5. Cuando una población tiene 2 parámetros desconocidos, por ejem-
plo f (x= 1 2 ), usualmente la información de la muestra respecto de 1 2 ,no se
puede resumir en un solo número H1 = g1 (X1 ; X2 Xn ) sinó que se requieren más,
por ejemplo (H1 ; H2 ) con H1 = g1 (X1 ; X2 Xn ) y H2 = g2 (X1 ; X2 Xn ). En este
caso el estadístico su…ciente sería la pareja (H1 ; H2 ). Esto ocurre con la gamma y
sus dos parámetros.

6. Estimación de en una población Gamma


Exercise 1. Estadístico su…ciente para una muestra de una G( ; ): Sea
G( ; )
X1 X2 Xn
1 x
Como la densidad de la gamma es f (x= ; ) = ( )x e la densidad de la
muestra es
1 x1 1 xn
f (x1 x2 xn = ; ) = x1 e xn e
( ) ( )
n
1 (x1 +x2 + +xn )
= n(
(x1 x2 xn ) e
)
Entonces llamando h1 = x1 x2 xn y h2 = x1 + x2 + +xn resulta la factorización
n
1 (h2 )
f (x1 x2 xn = ; ) = n(
(h1 ) e 1 = u(h1 ; h2 ; ; ) 1
)
Luego la pareja de estadísticos H1 = X1 X2 Xn y H2 = X1 + X2 + Xn contienen
la misma información que toda la muestra, respecto de los parámetros ; .
Como caso particular se presentará otro ejemplo relacionado.
Example 7. Estadístico su…ciente y estimación de , para una muestra de una
G(1; ):Sea
G(1; )
X1 X2 Xn
Aquí habría que repetir lo del ejemplo anterior para la G(1; ) que es mas simple,
y resulta el estadístico su…ciente para
H = X1 + X2 + Xn
Y utilizando el resultado
Suma de Gammas independientes de igual
(6.1) X G( x ; )
Ind Q=X +Y ! Q G( x + y; )
Y G( y ; )
resulta
H = X1 + X2 + Xn G(n; )
6. ESTIM ACIÓN DE EN UNA POBLACIÓN GAM M A 15

Ahora si, si se quiere un estimador de , en lugar de trabajar con toda la


muestra, podemos hacerlo solo con H. Como la densidad de H es f (h=n; ) =
n n n 1

(n) h
n 1
e h , la verosimilitud será L( =h) = (n) hn 1 e h = h (n) n e h y su
logaritmo
hn 1
ln L( =h) = ln( ) + n ln h
(n)
d ln L( =h) n
= 0+ h=0
d
De aquí surge que
b= n = n
=
1
H X1 + X2 + Xn X
6.1. Función de un estadístico su…ciente. Sea f (x= ) una población, X1 X2
Xn una muestra de esta población, y H = g(X1 X2 Xn ) un estadístico su…ciente
para .
Si nuestro interés es averiguar información respecto del desconocido, y nos
preguntan que preferimos conocer: toda la muestra o solo el valor de H? La
respuesta sería "indistinto", ya que los dos tienen la misma información respecto
de (aunque como vimos es mas práctica la segunda opción, pues trabajamos con
solo una v.a.).
Pero que tal si la opción es, que preferimos conocer: solo H, o solo el valor de
T = 3H? Aquí la respuesta tambiés es "indistinto". En efecto, si nos dan T , lo
dividimos por 3, y tenemos H. O sea H y T tienen la misma información respecto
de . O sea también T es un estadístico su…ciente. De aquí el resultado:
Lemma 1. Si H es su…ciente, y T = g(H) con g inyectiva =) T será su…ciente
también
Este resultado se aplicará varias veces en lo que sigue. Por ejemplo es usual
que, respecto de un parámetro , resulte H = X1 + X2 + Xn un estadístico
su…ciente. Pero entonces X = H n también será su…ciente(ya que conociendo X
podemos averiguar H).
2
Sin embargo T = X en general no será su…ciente(conocido T , no queda unívo-
camente de…nido el valor de X, ya que puede ser X o X, pues la función cuadrática
no es inyectiva).
A continuación se presentará un listado de estadísticos su…cientes para distintas
distribuciones y parámetros.
6.2. Listado de estadísticos su…cientes. A continuación se presenta un
listado de estadísticos su…cientes(todos surgen del teorema de factorización).
Cuando un parámetro es conocido, se le pondrá un circulo como subíndice(" ").
Además en el caso de dos parámetros desconocidos, aparece como estadístico, una
pareja su…ciente (H1 ; H2 ).
N ( ; 2 ) H = X1 + X2 + Xn
N ( ; 2 ) H = (X1 )2 + +(Xn )2
N ( ; ) H1 = X1 + X2 + Xn y H2 = (X1 X)2 + +(Xn X)2
2

Po ( ) H = X1 + X2 + Xn
G( ; ) H1 = X1 X2 Xn y H2 = X1 + X2 + Xn
Bi (1; p) H = X1 + X2 + Xn
16 1. ESTIM AC IO N

7. Estimación de parámetros en una población normal


7.1. Estimación de cuando o es conocido.
N( ; )
X1 X2 Xn
p
Del listado, como H = X1 + X2 + Xn es su…ciente para , y H N (n ; n ),
podemos utilizar la verosimilitud de H
(h n )2
1 2n 2
L( =h) = p p e
2 n
Hallando ln L( =h) y derivando surge
H
b= = X (este estimador es su…ciente pues es función inyectiva de H su…ciente)
n
y además
b = X N ( ; p ) o sea insesgado
n
7.2. Estimación de 2 cuando o es conocido. (consideramos como parámetro
v = 2 para evitar radicales)
2
N( ; )
X1 X2 Xn
2
Esta vez, en lugar de utilizar el estadístico su…ciente para v = , (del listado),
usaremos toda la muestra. Como la densidad de cada X es
1 (x )2
f (x=v) = p p e 2v
2 v
La verosuimilitud de la muestra será
1 (x1 )2 + +(xn )2
L(v=x1 x2 xn ) = n n e
2v
(2 ) 2 v 2
Luego
n n (x1 )2 + +(xn )2
ln L(v=x1 x2 xn ) = ln(2 ) 2 ln v
2 2v
d ln L(v=x1 x2 xn ) n (x1 )2 + +(xn )2
=0 + =0
dv 2v 2v 2
despejando surge
H (X1 )2 + +(Xn )2
vb = S 2 = =
n n
Este es el estimador de varianza obtenido por MV, que al ser función inyectiva del
su…ciente H, es su…ciente. Pero para mas adelante , necesitamos su distribución.
Partiendo de
(X1 )2 + +(Xn )2
S2 =
n
resulta
nS 2 = (X1 )2 + +(Xn )2
y dividiendo por 2
2 2
nS 2 X1 Xn
2
= + +
7. ESTIM ACIÓN DE PARÁM ETROS EN UNA POBLACIÓN NORM AL 17

Como cada paréntesis es la estandarización del respectivo Xi que es normal, reem-


pazando cada Xi por Zi N (0; 1) resulta
nS 2
2
= Z12 + +Zn2

Además como los Xi son independientes, también lo serán los Zi .


Pero necesitamos un resultado
Cuadrado de una N(0;1)
Z N (0; 1) ! Y = Z 2 ! Y G( 21 ; 12 ) = 2
1

O sea, el cuadrado de una v.a. N (0; 1) se distribuye como una G( 21 ; 12 ), que a


partir de ahora se llamará chi-cuadrado con 1 grado de libertad(esto se verá a
continuación).
Utilizando este resultado, cada Zi2 G( 12 ; 12 ). Entonces del lado derecho ten-
emos la suma de n v.a. independientes G( 12 ; 12 ). Con el resultado(6.1) sobre suma
de gammas independientes de igual beta, resulta
n 1
Z12 + +Zn2 G( ; ) = 2
n
2 2
Esta distribución, que es una gamma particular que tiene = n2 y = 12 se la
designa 2n con "n" grados de libertad. Lo de grados de libertad tiene que ver con
que se puede expresar como la suma de "n" cuadrados de v.a. independientes y
N (0; 1) como en este caso. En de…nitiva queda
nS 2 2
2 n

2
Entonces sabemos que nS2 se distribuye según una 2n , pero ahora queremos analizar
como se distribuye S 2 . Pero necesitamos otro resultado.
Producto de una Gamma por una cte
X G( ; ) ! Y = cte X ! Y G( ; cte )
2
Usando esto, como nS2 G( n2 ; 12 ), si multiplicamos el lado izquierdo por la con-
2
stante n , el lado derecho será una G( n2 ; 2n2 ) o sea
n n
S 2 G( ; 2 )
2 2
luego resulta, utilizando = y var = 2

n=2 n=2 2 4
E(S 2 ) = = 2
(insesgado) y V ar(S 2 ) = =
n=2 2 (n=2 2 )2 n
Entonces el estimador de varianza S 2 es insesgado, y la varianza de este estimador
4
es 2n (como en todo estimador, la varianza del estimador mide que tan cerca de 2
estará S 2 ).

7.3. Estimación de y (ambos desconocidos). (ambos parámetro de-


sconocidos y v = 2 para evitar radicales)
2
N( ; )
X1 X2 Xn
18 1. ESTIM AC IO N

2
Aplicando el método de MV se obtienen los estimadores de yv=
X1 + X2 + Xn (X1 X)2 + +(Xn X)2
b= = X y vb =
n n
Si se consulta el listado de estadísticos su…cientes, resulta b = Hn1 y vb = Hn2 ambos
estimadores son su…cientes.
Respecto del primero se tiene que
b=X N ( ; p ) o sea insesgado
n
Para el segundo, para ver si es insesgado habría que evaluar E(bv ) pero, como da
un poco de trabajo, se presenta el resultado
n 1 2
E(b
v) =
n
O sea es sesgado. El estimador vb no estima 2 , sinó un "poco" menos. Si se corrige
por sesgo, designando S 2 al estimador insesgado
(X1 X)2 + +(Xn X)2
2 vb n (X1 X)2 + +(Xn X)2
S = n 1 = n 1 = este sí es insesgado
n n
n 1
O sea, cuando se conoce la media de la normal( ), como fué analizado anterior-
mente, en el estimador de varianza se divide por n. Pero al desconocer la media, el
divisor debe ser n 1 para que el estimador sea insesgado.
Para analizar su distribución, procediendo como en el caso anterior, pasando
n 1 a la izquierda, y dividiendo por 2 resulta
2 2
(n 1)S 2 X1 X Xn X
(7.1) 2
= + +

En el caso anterior(donde = ), el lado derecho quedaba expresado como la


suma Z12 + +Zn2 de n v.a. N (0; 1) independientes, y entonces resultaba una 2n .
Pero ahora ocurren dos problemas: 1 ) como en cada paréntesis …gura X en
lugar de la verdadera media , la distribución no es N (0; 1) ya que por ejemplo
r
Xi X n2 n + 1
N (0; ) 6= N (0; 1)
n2
Aunque esto se podría corregir , mas grave es el 2 ) las v.a. contenidas en los
paréntesis no son v.a. independientes. En efecto el X esta presente en todos los
paréntesis, o mejor aún, si las sumamos
X1 X Xn X X1 + +Xn nX nX nX
+ + = = =0
Claramente estas v.a. son dependientes ya que su suma da exactamente 0 siempre.
Luego, ni son N (0; 1) ni tampoco independientes.
Sin embargo se puede demostrar, y esto no es tan simple, que el lado derecho
de (7.1) se puede expresar como la suma de n 1 v.a. N (0; 1) independientes así
(n 1)S 2
2
= Z12 + +Zn2 1

Donde cada Zi es función de las Xi . Entonces según lo visto antes, resulta


(n 1)S 2 2
2 n 1
8. ESTIM ADOR EN POOL 19

Notar que los grados de libertad de la 2n 1 coincide con el divisor utilizado en la


fórmula de S 2 para hacer que sea insesgado.
2
Entonces, como (n 1)S 2 G( n 2 1 ; 12 ), si multiplicamos el lado derecho por la
2
constante n 1 , el lado izquierdo será una G( n 2 1 ; n2 21 ) o sea
n 1 n 1
S2 G( ; )
2 2 2
luego resulta, utilizando = y var =
2

(7.2)
(n 1)=2 (n 1)=2 2 4
E(S 2 ) = 2
= 2 (insesgado) y V ar(S 2 ) = 2 2
=
(n 1)=2 ((n 1)=2 ) n 1
Aquí se obtuvieron los estimadores X y S 2 para estimar los parámetros y
2
ambos desconocidos. Ambos estimadores se construyeron utilizando la misma
muestra X1 X2 Xn . Por este motivo, lo esperable es que las v.a. X y S 2 sean
dependientes. Sin embargo se demuestra(y no es tan simple), que para población
normal los estimadores X y S 2 son v.a. independientes. Este resultado se usará
más adelante.

8. Estimador en pool
Ahora se analizará una situación que se presenta a veces, cuando se tienen dos
poblaciones independientes, que comparten un mismo parámetro, y se quiere, con
las dos muestras estimar este parámetro común. Concretamente
f (x= ) f (y= )
X 1 X 2 X nx Y1 Y2 Yny
Supongamos, que por MV o el método que sea, tenemos los estimadores insesgados
b x = gx (X1 X2 X nx ) y b y = gy (Y1 Y2 Yny )
Entonces para estimar , podriamos utilizar b x , o también b y .
Pero ya que tenemos dos muestras, la idea es ver si podemos combinarlos en
un solo estimador que llamaremos b pool .
Una primera propuesta podría ser promediar ambas estimaciones, o sea
bx + by
b pool =
2
Esto parece atractivo, sin embargo si por ejemplo nx = 5 y ny = 1000, probable-
mente el estimador b y será mucho mas con…able(tendrá menor varianza) que el b x ,
y entonces al promediar un estimador malo con uno bueno, estariamos arruinando
el estimador bueno.
Notar que esta propuesta de estimador en pool equivale a
b pool = 1 b x + 1 b y
2 2
O sea el estimador asigna igual "peso" a cada estimador, en este caso 12 y 12 . Quizás,
si el mejor es b y lo correcto seriá usar otros "pesos", por ejemplo 10
1
y 109
.
Entonces la idea es proponer como estimador en pool una expresión del tipo
b pool = x
bx + y
b y donde x y y son los "pesos" a determinar
20 1. ESTIM AC IO N

Como se quiere que b pool sea insesgado, se exigirá que


E( b pool ) =
Pero E( b pool ) = E( x b x + y b y ) = x E( b x ) + y E( b y ) = x + y =
De aquí resulta que una primera condición a cumplir por los "pesos" es
x + y =1
Reemplazando el estimador buscado debera ser
b pool = x
b x + (1 x)
by
Cualquiera sea el valor de x este estimador es insesgado. Ahora se buscará x de
manera que el estimador b pool tenga varianza mínima. Calculando su varianza
V ar( b pool ) = 2
xV ar( b x ) + (1 2
x) V ar( b y )
Ahora se deriva para encontrar el x que minimiza esta varianza
dV ar( b pool )
=2 xV ar( b x ) 2(1 x )V ar( b y ) = 0
d x
De aquí sale que
V ar( b y ) V ar( b x )
x = y y =
V ar( b x ) + V ar( b y ) V ar( b x ) + V ar( b y )
Si se divide numerador y denominador por el producto V ar( b x )V ar( b y ), se obtiene
una expresión mas compleja en este caso, pero mas simple de generalizar a varias
poblaciones
V ar 1 ( b x ) V ar 1 ( b y )
x = y y =
V ar 1 ( b x ) + V ar 1( b
y) V ar 1 ( b x ) + V ar 1( b
y)

Un requisito importante que se debe cumplir para que este estimador sea útil, es
que estos "pesos" x y y , no dependan de . Y esto es así ya que un estimador
debe depender solo de las muestras, conocidas, y nunca del parámetro que se
quiere estimar.
Example 8. Si se tiene tres muestras independientes de poblaciones que com-
parten el mismo parámetro
f (x= ) f (y= ) f (z= )
X 1 X 2 X nx Y1 Y2 Yny Z1 Z2 Znz
El estimador en pool de , b pool = x
bx + y
by + z
b z tendrá

V ar 1
( b x)
x =
V ar 1( b 1( b 1( b
x) + V ar y) + V ar z)

V ar 1
( b y)
y =
V ar 1( b 1( b 1( b
x) + V ar y) + V ar z)

V ar 1
( b z)
z =
V ar 1( b 1( b 1( b
x) + V ar y) + V ar z)

(útil si x, y y z no dependen de ).
8. ESTIM ADOR EN POOL 21

2
Example 9. Se tienen artículos de peso A N( ; ). Se venden en cajas de
5 y cajas de 10. Se tienen las muestras:
I X1 X2 X8 de pesos de 8 cajas chicas
I Y1 Y2 Y3 de pesos de 3 cajas grandes
Se pide estimar y 2 ?
Solution 1. Primero hay que averiguar de que poblaciones provienen las dos
muestras. Para esto llamemos X a el peso de una cualquiera de las 8 cajas chicas.
Como X = A1 + A2 + +A5 N (5 ; 5 2 ), entonces la muestra X1 X2 X8
2
proviene de una N (5 ; 5 ). Además llamando Y al peso de una cualquiera de las
cajas grandes, y como Y = A1 + A2 + +A10 N (10 ; 10 2 ), la población de la
segunda muestra es N (10 ; 10 2 ). En de…nitiva se tiene
N (5 ; 5 2 ) N (10 ; 10 2
)
X1 X2 X8 Y1 Y2 Y3
I 2 I
Sx
Como Sx2 !5 2
(es estimador insesgado de 5 2
), resulta 5 ! 2
(estimador
2 I Sy2 I
insesgado de ). Además como Sy2
! 10 , resulta también ! 2 . En- 2
10
2
tonces, para lograr un mejor estimador de , la idea es combinar en pool los esti-
S2 S2
madores insesgados 5x y 10y . Para obtenerlo se necesitan las varianzas de estos dos
estimadores. Se recuerda la expresión de la varianza de un estimador de varianza,
vista en (7.2)
2 4
V ar(S 2 ) = (donde 4
=( 2 2
) es el cuadrado de la varianza poblacional)
n 1
Entonces:
2(5 2 )2 2(10 2 )2
S2 8 1 2 4 Sy2 3 1 2 4
V ar( x ) = = y V ar( ) = =
5 52 8 1 10 102 3 1
Luego
2
2
8 1 Sx 3 1 Sy S2 S2 S2 S2
2 2 4 5 + 2 4 10 (8 1) 5x + (3 1) 10y 7 x + 2 10y
Spool = 8 1 3 1 = = 5
2 4 + 2 4
(8 1) (3 1) 7+2
O sea, y esto es general para un estimador en pool de varianza, los dos estimadores
S2 S2
insesgados 5x y 10y se combinan en pool con "pesos" proporcionales a los grados de
libertad de los estimadores de varianza involucrados, o sea 8-1 y 3-1
Sx2 S2
2 7 5+ 2 10y
Spool =
7+2
Además vale también que
2
(7 + 2)Spool 2
2 7+2
2
Notar que al tener la 27+2 , 9 grados de libertad, el estimador Spool es mejor que
los dos iniciales(tiene menor varianza). Ahora se analizará un estimador para el
I I I I
parámetro . Como X ! 5 y Y ! 10 , resultan X 5 ! y 10 Y
! ambos
estimadores insesgador de . Para combinarlos el pool se necesitan sus varianzas
2 2
5 2 10 2
X Y
V ar( ) = 82 = y V ar( ) = 32 =
5 5 40 10 10 30
22 1. ESTIM AC IO N

Luego
40 X 30 Y
2 5 + 2 10 40 X Y
5 + 30 10
bpool = 40 30 =
2 + 2 40 + 30
Que expresado en función de X y Y queda
8 3
bpool = X+ Y
70 70
Por ejemplo si interesa la distribución de este estimador, como es insesgado E(bpool ) =
, y al ser lineal de poblaciones normales
r
82 5 2 32 10 2
bpool N ( ; + ) = N( ; p )
702 8 702 3 70
CHAPTER 2

INTERVALOS DE CONFIANZA

1. De…nición de Intervalo de Con…anza


Si se necesita averiguar el parámetro de una densidad f (x= ), por ejemplo
para utilizar después dicha densidad en otros cálculos, lo apropiado sería, con una
muestra x1 x2 xn y un estimador, obtener el estimado b, reemplazarlo en la den-
sidad, obteniendo f (x=b), y luego utilizarla en los cálculos deseados.
Pero claro, b es solo una estimación que obtuvimos con una muestra, y no está
garantizado que coincida con el verdadero valor de . Lo conveniente es este caso
sería estimar también el desvío de la estimación bb . Si es pequeño podemos suponer
que b w , lo que justi…caría usar b para reemplazar en la densidad. Si es grande,
convendría tomar una muestra mas grande, para obtener una mejor estimación.
O sea, acompañar la estimación b con su desvío bb, es una manera de evaluar
que tan cerca está b de .
Otra manera de presentar esto es con un intervalo de con…anza para . En este
caso, con la muestra x1 x2 xn , se "fabrica" un intervalo, por ejemplo [2; 5], que
tiene la propiedad de incluir al verdadero , con un "nivel de con…anza" alto(no se
dice "probabilidad", se dice "con…anza", por motivos que se verán más adelante).
El nivel de con…anza del intervalo, con notación NC, se impone antes de
obtener el intervalo, y usualmente se usan NC de 0.90, 0.95 o 0.99(a veces se habla
de NC al 90%, 95% o 99%).
Ya que el NC se …ja antes de obtener el intervalo, podría pensarse que lo ideal
sería imponer por ejemplo NC=0.999, ya que de esta manera el intervalo obtenido
tendría un altísimo "nivel de con…anza" de incluir a . Lamentablemente cuando
se toma un NC tan alto, el correspondiente intervalo se ensancha, y pierde utilidad.
Al revés, si tomamos NC=0.1, muy bajo, el intervalo obtenido será muy angosto,
lo cual es deseable, pero con muy poco "nivel de con…anza" de incluir a . Esto
tampoco sirve. Por eso los valores sugeridos.
Por último antes de la de…nición, si NC es el nivel de con…anza impuesto, se
designa = 1 N C. O sea siempre
NC + =1
Definition 2. Intervalo de Con…anza de nivel NC: Sea la población y
una muestra aleatoria

f (x= )
X1 X2 Xn
Supongamos que encontramos dos funciones de la muestra, L = l(X1 X2 Xn ) y
U = u(X1 X2 Xn ) (obviamente L y U son v.a., ya que son funciones de la muestra,
23
24 2. IN TERVALO S D E C O N FIAN ZA

que es aleatoria también), de manera que podemos demostrar que se cumple


(1.1) P (L U ) = N C o sea:
(1.2) P (l(X1 X2 Xn ) u(X1 X2 Xn )) = N C
Entonces estos dos extremos de…nen el intervalo de con…anza aleatorio
(1.3) IC al NC : [l(X1 X2 Xn ); u(X1 X2 Xn )]
Lo que garantiza esta de…nición, es que, pensado "a priori"(o sea, antes de
tomar la muestra): cuando tomemos una muestra concreta, la probabilidad de
que el intervalo obtenido incluya a es NC(aquí sí es válido utilizar el término
probabilidad).
O de otra manera, si tomamos una muestra, y después otra, y otra, etc. y con
cada una de ellas reemplazamos en (1.3) obteniendo los correspondientes intervalos,
alrededor del NC% de los intervalos obtenidos incluirá a el parámetro .
O sea, es el método de fabricación del intervalo, el que garantiza con prob-
abilidad NC, que el intervalo incluirá a .
Sin embargo, cuando tomamos una muestra concreta x1 x2 xn y obtenemos
el correspondiente intervalo [l(x1 x2 xn ); u(x1 x2 xn )], NO podemos, esta vez "a
posteriori"(o sea, después de conocer la muestra), a…rmar que este intervalo tiene
probabilidad NC de incluir a . Este intervalo podrá o no incluir a . Por eso en este
caso decimos solamente que tenemos un "nivel de con…anza NC" que incluya a
, ya que fué construído con un método que "a priori" garantiza con probabilidad
NC, la inclusión de .
A continuación se presentarán dos procedimientos para obtener un intervalo de
con…anza: el método del estadístico pivotal, y el método del estadístico muestral.
En ambos, y esto es similar a lo recomendado en los problemas de estimación,
no se trabajará con toda la muestra, sinó que se partirá de un estadistico muestral,
que es una sola v.a., lo que hace que los desarrollos para obtener el intervalo sean
mas simples.
De esta manera obtendremos un "buen" intervalo de con…anza.
Lo de "bueno" quiere decir que para el NC que …jamos, la amplitud del inter-
valo obtenido es en general mas pequeña. O sea si lo fabricamos partiendo de un
estadistico muestral no su…ciente, es de esperar intervalos mas anchos.
Definition 3. Fractil de orden de una v.a. continua: Sea X una
v.a. continua con función de distribución F (x) estrictamente creciente, una
probabilidad, con 0 < < 1, se de…ne fractil de orden de la v.a. X, con notación
x , al valor de la variable que deja a la izquierda(incluído x ), una probabilidad ,
o sea:
F (x ) = o también P (X x )=
Por ejemplo si Z N (0; 1), se tiene:
a) z0:5 = 0, ya que Fz (0) = 0:5, o también P (Z 0) = 0:5
b) z0:05 = 1:645, ya que Fz ( 1:645) = 0:05, o tambiéne P (Z 1:645) =
0:05
c) z0:90 = 1:282, ya que Fz (1:282) = 0:90, o tambiéne P (Z 1:282) = 0:90
Y en general, si se quiere el fractil de orden, por ejemplo 0:27 de una v.a., hay
que resolver la ecuación Fx (x) = 0:27, y la solución será x0:27 .
2. M ÉTODO DEL ESTADíSTICO PIVOTAL 25

2. Método del estadístico pivotal


Se presentará en varios pasos. Sea la población continua y una muestra aleato-
ria
f (x= )
X1 X2 Xn
1) Sea H = g(X1 X2 Xn ) un estadístico su…ciente respecto de
2) Averiguamos la distribución de H, supongamos que
H f (h= )
Notar que en esta expresión, del lado izquierdo esta H = g(X1 X2 Xn ) que es
función solo de la muestra, y en el lado derecho aparece el parámetro , dentro
de la densidad de H.
3) Aquí se de…ne un estadístico "pivotal" V = v(H; ), que es una función de
H y del parámetro , con la particular propiedad
V = v(H; ) f (v)
Notar que del lado izquierdo aparece la muestra(en H) y el parámetro , y
del lado derecho una densidad totalmente conocida, ya que aquí no aparece el
parámetro. Es importante que esta densidad sea totalmente conocida, o sea no
debe aparecer en ella ningun otro parámetro desconocido.
Se aclara que para un estadístico muestral, no siempre se puede obtener un
estadístico pivotal con las propiedades exigidas. Por eso se presenta después otro
método para obtener intervalos de con…anza.
4) Como f (v) es conocida, podemos dibujarla. A continuación se buscan dos
abcisas, que encierren entre ellas una probabilidad NC. O, lo que es lo mismo,
que fuera de ellas la probabilidad sea 1 N C = . Según la …gura deberá ser
1 + 2 = (esta escrito a1 y a2 en lugar de 1 y 2 ). Entonces una de las abcisas
es el fractil v 1 (en la …gura v(a1)), que deja a la izquierda una probabilidad 1 ; y
la otra el fractil v1 2 (en la …gura v(1-a2), que deja a la derecha una probabilidad
2.

NC

a1 a2
v(a1) v(1-a2) v
26 2. IN TERVALO S D E C O N FIAN ZA

Remark 6. Como NC es conocido, también lo es = 1 N C. Entonces la


elección de 1 y 2 queda indeterminada, sujeta al cumplimiento 1 + 2 = .
Usualmente en los problemas se toma 1 = 2 = 2 , y entonces los fractiles a
considerar son v =2 y v1 =2 .
Aquí para mayor generalidad, consideraremos los fractiles v 1
y v1 2
entonces
P (v 1
V v1 2
) = NC
5) Ahora, como V = v(H; ), se reemplaza en la expresión anterior V por
v(H; ) quedando
(2.1) P (v 1 v(H; ) v1 2 ) = NC
Lo que está dentro del paréntesis es todo conocido salvo . En realidad es una doble
desigualdad, que equivale a la intersección
(v 1
v(H; )) \ (v(H; ) v1 2
)
Si se despeja de la primera, v 1 v(H; ), puede quedar así: l(H; v 1 )
(a veces queda al revés). Y despejando de la segunda v(H; ) v1 2 puede
quedar así: u(H; v1 2 ) (también, a veces queda al revés), luego es equivalente
a escribir
(l(H; v 1 ) )\( u(H; v1 2 )) que es lo mismo que l(H; v 1 ) u(H; v1 2 )
Y reemplazando en el parentesis de (2.1) queda
P (l(H; v 1 ) u(H; v1 2
)) = N C
pero esta es la de…nición del intervao de con…anza deseado, o sea
IC al NC : [l(H; v 1 ) u(H; v1 2
)]
Se presentarán un par de ejemplos.

3. IC para de una población normal con conocida

N( ; )
X1 X2 Xn
1) Partimos de H = X1 + X2 + +Xn que es su…ciente respecto de . Pero por
comodidad se usará X = H
n que es también su…ciente, y de paso es un estimador
de .
2) Distribución: X N ( ; pn )
3) Estadístico pivotal: estandarizando resulta Z = X=pn N (0; 1) y este es
un estadístico pivotal
4) En la N(0;1) se buscan dos fractiles que encierren probabilidad NC(tomamos
z =2 y z1 =2 ). Entonces resultará
P (z =2 Z z1 =2 ) = NC
X p
5) Reemplazando aquí Z = = n
queda

X
P (z =2 p z1 =2 ) = NC
= n
3. IC PARA DE UNA POBLACIÓN NORM AL CON CONOCIDA 27

Trabajando con la doble desigualdad resulta

P (X z1 =2 p X z =2 p ) = NC
n n
En el caso particular de la N (0; 1), por la simetría, resulta z =2 = z1 =2 , expre-
sando el intervalo en función de z1 =2 , queda el intervalo

X z1 =2 p ; X + z1 =2 p o también expresado X z1 =2 p
n n n

Notar que el estimador de es b = X, y el intervalo de con…anza tiene el aspecto


X plus, donde el plus es la semi-amplitud del intervalo. Cuanto mayor tomemos
el NC, mayor será la semi-amplitud del intervalo. Esto parece lógico. Además
la semi-amplitud es constante para un mismo tamaño de muestra(esto no siempre
ocurre), o sea, no depende de los valores particulares de la muestra, es decir de los
X1 X2 Xn .

Remark 7. 1) Sea la Población N ( ; 5) y la muestra X1 X2 X16 de la que


se conoce que X = 30 que es un estimador de . Se quiere un IC con NC=0.90.
Como = 0:10, con el PQRS obtenemos z0:05 = 1:645 y z0:95 = +1:645 luego un
IC al 90% será
5 32:06 27:94
30 1:645 p = [27:94; 32:06] con semi-amplitud = = 2: 06
16 2
Remark 8. 2) En el ejemplo anterior los dos fractiles que encierran prob-
abilidad 0.9 fueron z0:05 y z0:95 . Pero que tal si hubiesemos elegido los fractiles
z0:01 = 2:326 y z0:91 = 1:341. Estos fractiles también encierran una probabilidad
0.9. Y se puede construir un IC con ellos. Pero habrá que partir de
X
P (z0:01 Z z0:91 ) = 0:90 y luego P (z0:01 p z0:91 ) = 0:90
= n
Trabajando con la desigualdad, y reemplazando, queda el intervalo
32:91 28:32
X z0:91 p ; X z0:01 p = [28:32; 32:91] con semi-amplitud = = 2:30
n n 2
Notar que los dos intervalos obtenidos tienen el mismo NC=90%, pero el primero
es mas angosto, así que es más conveniente. En el caso de la N (0; 1), como es
simétrica, los fractiles z =2 y z1 =2 son los que están mas cerca entre sí, y los que
proporcionan un IC mas angosto.

Remark 9. 3) Supongamos que la semi-amplitud obtenida en 1) parece de-


masiado grande. La pregunta ahora es: que tamaño de muestra se debe tomar, para
que el IC tenga, por ejemplo semi-amptud = 1. Deberá ser entonces
5
1:645 p = 1
n
Despejando surge n = 68, o sea, si queremos un IC mas angosto, el precio a pagar
es un mayor tamaño de muestra
28 2. IN TERVALO S D E C O N FIAN ZA

2
4. IC para de una población normal con desconocida

2
N( ; )
X1 X2 Xn
1) Del listado de estadísticos su…cientes H1 = X1 + X2 + Xn y H2 = (X1
X)2 + +(Xn X)2 son su…cientes respecto de la pareja ( ; 2 ). Usaremos aquí S 2 =
H2 (X1 X)2 + +(Xn X)2
n 1 = n 1 que es también su…ciente, y de paso es un estimador
2
de . 2
(n 1)S 2
2) Como (n 1)S2
2
n 1 estonces 2 es un estadístico pivotal
3) En la 2n 1 se buscan dos fractiles que encierren probabilidad NC(tomamos
2 2
n 1; =2 y n 1;1 =2 ). Entonces resultará
2 2 2
P( n 1; =2 n 1 n 1;1 =2 ) = NC
4) Reemplazando el estadístico pivotal
2 (n 1)S 2 2
P( n 1; =2 2 n 1;1 =2 ) = NC

5) Trabajando con la doble desigualdad queda


(n 1)S 2 2 (n 1)S 2
P( 2 2 ) = NC
n 1;1 =2 n 1; =2

En de…nitiva queda:
" # "s s #
(n 1)S 2 (n 1)S 2 (n 1)S 2 (n 1)S 2
IC 2 : 2 ; 2 y también IC : 2 ; 2
n 1;1 =2 n 1; =2 n 1;1 =2 n 1; =2

Remark 10. 1) Si la población normal tuviese la media conocida, o sea N ( ; 2 ),


lo único que cambiaría es que el estimador de varianza a utilizar debería ser S 2 =
(X1 )2 + +(Xn )2 2

n con un pivotal nS2 2


n , y el intervalo para la varianza
sería " #
nS 2 nS 2
IC 2 : 2 ; 2
n;1 =2 n; =2

Remark 11. 2) Si interesa el problema inverso: Cuál debe ser el tamaño de


muestra n para que el IC para 2 tenga una amplitud dada, tropezamos con una
di…cultad. En efecto si se evalua la amplitud del intervalo
(n 1)S 2 (n 1)S 2 1 1
amplitud = 2 2 =( 2 2 )(n 1)S 2
n 1; =2 n 1;1 =2 n 1; =2 n 1;1 =2

Notar que la amplitud es una v.a, en efecto aparece S 2 , que depende de la mues-
tra(que todavía no hemos tomado!!). Si igualamos esta expresión de amplitud a un
valor dado, no podremos despejar n pues nos queda el S 2 que desconocemos. Una
alternativa consiste en re-de…nir el concepto de amplitud del intervalo. Se de…ne
amplitud al cociente entre el extremo superior / extremo inferior del intervalo
(n 1)S 2
2
ext: sup 2
n 1; =2 n 1;1 =2
amplitud = = (n 1)S 2
= 2
ext: inf 2 n 1; =2
n 1;1 =2
5. M ÉTODO DEL ESTADíSTICO M UESTRAL 29

Por ejemplo, supongamos que interesa averiguar que tamaño de muestra habrá que
tomar, para obtener un IC de N C = 0:90 tal que su extremo superior sea un 30%
mayor que el inferior. Entonces el IC 2 para 2 deberá tener una amplitud =
1:32 = 1: 69. Para esto deberá cumpirse
2
n 1;0:95
2 = 1:69
n 1;0:05

Probando con el pqrs resulta n 1 = 80, o sea se necesita una muestra de tamaño
81.
Remark 12. 3) En el caso del IC tomamos como fractiles z =2 y z1 =2 , y
se comentó que esta elección de 1 = 2 = 2 es la óptima, ya que con ellos se
obtiene el intervalo mas angosto. Sin embargo, para un IC 2 , como la 2n 1 no es
simétria, la elección de los fractiles 2n 1;1 =2 y 2n 1; =2 no es la óptima. O sea,
para un dado, habrían que elegir 1 y 2 , con 1 + 2 = de manera que el IC
tenga amplitud mínima. O sea(ver expresión de la amplitud)
1 1
buscar 1 tal que: 2 2 sea mínimo
n 1; 1 n 1;1 1

Como esto es complicado, se toma usualmente 1 = 2 = 2.

5. Método del estadístico muestral


Sea la población(se lo desarrollará para una discreta, pero vale también para
continua) y una muestra aleatoria

p(x= )
X1 X2 Xn
1) Sea H = g(X1 X2 Xn ) un estadístico su…ciente respecto de
2) Averiguamos la distribución de H, supongamos que
H p(h= )
3) Sea h = g(x1 x2 xn ) el valor del estadístico para la muestra concreta que ten-
emos(este valor lo conocemos). Aunque no se demostrará el método, se justi…cará
intuitivamente el procedimiento.
La expresión de la densidad de H, que es p(h= ), la conocemos salvo a ; y de
ella salió el h que conocemos.
Ahora, que tal si a le damos valores crecientes 1 2 100 y gra…camos las
correspondientes p(h= i ). La densidad irá cambiando de lugar según el valor de i .
A continuación elegimos cual es el valor de i que hace que p(h= i ) tenga
sus "bastones" altos alrededor de h. Supongamos que este valor es 40 .
Entonces 40 hace que el h observado muestralmente sea un valor "razon-
able" de observar. Si nuestro interés fuese estimar , entonces 40 serviría
como estimador de .
Seguidamente probamos con 41 42 etc y supongamos que vemos que
p(h= i ) se va corriendo más y más a la derecha. A medida que incre-
mentamos i, la correspondiente densidad p(h= i ) hace que el h obtenido
sea cada vez más "irrazonable" en relación al respectivo i . Entonces un
30 2. IN TERVALO S D E C O N FIAN ZA

extremo del IC será el valor de que hace que la probabilidad P (H h)


sea pequeña, y tomaremos 2 a esta probabilidad, o sea

sup : P (H h) = o sea F (h= sup ) =


2 2
Ahora probamos para el otro lado con 39 38 etc, y la densidad se va
corriendo a la izquierda. A medida que disminuimos i, la correspondiente
densidad p(h= i ) hace que el h obtenido sea cada vez más "irrazonable"
en relación al respectivo i . Entonces otro extremo del IC será el valor de
que hace que la probabilidad P (H h) sea pequeña, y tomaremos 2 a
esta probabilidad, o sea

inf : P (H h) = o sea G(h= inf ) =


2 2
En de…nitiva los dos extremos del IC se obtienen resolviendo
F (h= ) = 2 y de aquí sale el intervalo [ inf ; sup ]
G(h= ) = 2

Claim 1. En la justi…cación anterior se asumió que al incrementarse la


p(h= ) se corre a la derecha. Si esto es así, con la primera ecuación surge sup , y
con la segunda inf . Sin embargo a veces ocurre al revés, es decir, al incrementarse
la p(h= ) se corre a la izquierda. Entonces, de la primera surge inf y de la
segunda sup . Esto se verá en los ejemplos.

6. IC para p de una población Bernouilli

Bi (1; p)
X1 X2 Xn

Para concretar supongamos que se fabricaron 20 artículos con una máquina en que
P (art{culo def ectuoso) = p, y se encontraron 5 artículos defectuosos. Se quiere un
ICp al 90%. Se tendrá entonces

Bi (1; p)
X1 X2 X20

Cada Xi vale 1 o 0, según el correspondiente artículo sea defectuoso, o no.


1) Utilizaremos H = X1 + X2 + +X20 que es su…ciente respecto de p.
2) Sabemos que H Bi (20; p)
3) Como se nos informa que se obtuvieron 5 defectuosos, el valor muestral de
H es h = 5.
4) Luego las ecuaciones a resolver son:

P (H 5) = FBi (5=20; p) = 0:05


P (H 5) = GBi (5=20; p) = 0:05
Ahora sí, para la primera, vamos al pqrs, Binomial, n = 20, p elegimos cualquier
valor, por ejemplo p = 0:3, Botón, y cuando aparece la densidad, en el centro del
6. IC PARA p DE UNA POBLACIÓN BERNOUILLI 31

"tetris" ponemos 6 y luego Botón. De esta manera, en la casilla izquierda del


"tetris" …gurará P (H 5) que en este caso da 0; 4164.

Como P (H 5) = 0; 4164 6= 0:05 el p = 0:3 elegido inicialmente no es la solución.


En este caso tendremos que elegir un p mayor, de manera que al correrse la
densidad a la derecha, resulte P (H 5) = 0:05. Seguramente habrá que probar
varias veces con diferentes valores de p. Supongamos que ponemos p = 0; 455, y
luego Botón

Ahora sí, para p = 0; 455, resulta P (H 5) = 0:0505 ' 0:05, y entonces psup =
0; 455.
Para resolver la segunda ecuación, en el centro del "tetris" ponemos 4 y Botón.
De esta manera, en la casilla derecha del "tetris" …gurará P (H 5). Aquí también
32 2. IN TERVALO S D E C O N FIAN ZA

hay que probar varias veces. Supongamos que ponemos p = 0; 104; entonces resulta

Ahora sí, la densidad se corre a la izquierda, y para p = 0; 104, resulta P (H 5) =


0:0499 ' 0:05, y entonces pinf = 0; 104.
En de…nitiva el ICp al 90% es [0; 104; 0; 455].

7. IC para de una Poisson


Example 10. Ciertos rollos de cable de 10m, presentan fallas de aislación
según un proceso de Poisson. Se inspeccionaron 5 rollos, encontrando en c/u de
ellos: 2, 1, 1, 0 y 3 fallas. Se pide un IC al 90%. Como el número de fallas en
cada rollo es Po ( ) con = 10 se tiene
Po ( 10)
F1 F2 F5
Usamos como estadístico H = F1 + F2 + +F5 que es su…ciente para (y por lo
tanto para ), y además su distribución es
H Po (5 ) = Po (50 )
Por simplicidad llamemos = 50 , y entonces será H Po ( ). El valor de H
para la muestra que tenemos es h = 7:Entonces planteando las ecuaciones
P (H 7) = FPo (7= ) = 0:05
P (H 7) = GPo (7= ) = 0:05
Con el pqrs surge sup = 13:15 = 50 sup y inf = 3:286 = 50 inf . En de…nitiva el
IC al 90% es
[0:0657; 0:263]
Distribución de Student. A continuación se presenta una v.a. que aparece,
cuando en poblaciones normales interesa como parámetro la media, pero se de-
sconoce el desvío estándar. Se de…ne así:
De…nición de T de Student con grados de libertad
Z N (0; 1) T = pZU
2 Ind !T T
U
O sea, esta v.a. aparecerá cuando tengamos una expresión, donde en el numerador
hay v.a. que es N (0; 1) y en el denominador la raíz cuadrada de otra, que es una
v.a. 2 , pero dividida por sus grados de libertad.
8. IC PARA EN UNA POBLACIÓN NORM AL DE DESCONOCIDA 33

Los grados de libertad de la T coinciden con los de la 2 que aparece en su


de…nición.
Visualmente la T tiene una densidad tipo "campana" como la normal, centrada
en cero, y con mayor desvío(para 3), pero con otra expresión funcional.
Además cuando ! 1, la T ! N (0; 1). Esto quiere decir que, por ejemplo
si = 7, la T7 es diferente a la N (0; 1), sin embargo si 30, la T es practicamente
muy parecida a la N (0; 1). Por eso en los problemas, cuando aparece una T con
30, se la suele reemplazar por una N (0; 1).

8. IC para en una población Normal de desconocida

N( ; )
X1 X2 Xn
1) Partimos de H = X1 + X2 + +Xn que es su…ciente respecto de . Pero por
comodidad se usará X = H
n que es también su…ciente, y de paso es un estimador
de .
2) Distribución: X N ( ; pn )
3) Estadístico pivotal: estandarizando resulta Z = X=pn N (0; 1) pero este
NO es un estadístico pivotal. En efecto, debería depender solo de la muestra y del
parámetro , pero depende también de que es desconocido.
Una salida "ingenua" a esta di…cultad sería, con la muestra estimar con el
estimador que conocemos
s
(X1 X)2 + +(Xn X)2
S=
n 1
y lo reemplazamos en el estadístico anterior, quedando
X
Z = p
S= n
Pero el problema es que este estadístico, si bién depende solo de la muestra y el
parámetro , no conocemos su distribución. Para que sea N (0; 1), en el denomi-
nador debe …gurar la conocida,
p NO la v.a. S que es un estimador de .
Pero dividiendo por = n el numerador y denominador queda
Xp Xp
= n = n
Z = S
= q
S2
2

Xp
Notar que en el numerador …gura = n
= Z, que es N (0; 1). Además dentro del
radical del denominador
(n 1)S 2
S2 2 U 2
2
= = donde U n 1
n 1 n 1
Luego(apelando a la independencia entre X y S 2 ), y según la de…nición de la T de
Student
X Z
Z = p =q Tn 1
S= n U
n 1
34 2. IN TERVALO S D E C O N FIAN ZA

En de…nitiva el estadístico pivotal deseado es


X
p Tn 1
S= n
Xp
Notar que si conociesemos , el estadístico pivotal sería = n
Z, pero al descono-
Xp
cer y tener que estimarlo con la muestra, el estadístico pivotal es S= n
Tn 1 . Y
el costo por desconocer se re‡ejará en tener que utilizar para los IC una Tn 1 en
lugar de una Z. Y como la Tn 1 tiene una densidad con mas desvío que la normal,
los intervalos obtenidos serán mas anchos. Lo que sigue para obtener el intervalo
es como siempre.
4) Buscamos los fractiles tn 1; 2 y tn 1;1 2 de la Tn 1 , luego será
P (tn 1; 2 Tn 1 tn 1;1 2
) = NC
y reemplazando
X
P (tn 1; 2 p tn 1;1 ) = NC
S= n 2

y luego de invertir queda(como la Tn 1 es simétrica respecto de 0, tn 1; 2 =


tn 1;1 2 )
S
IC al NC: X tn 1;1 p
2
n

9. IC en dos poblaciones normales independientes


Cuando se tienen dos poblaciones normales independientes, se tienen en general
4 parámetros(dos medias y dos desvíos). Pero suelen ser de interés, otros parámetros
que se derivan de estos 4. Por ejemplo si las normales son N ( x ; x ) y N ( y ; y )
puede interesar como parámetro a:
= x y : este parámetro es de utilidad si se quiere evaluar como es
x respecto de y . Por ejemplo si = 0 quiere decir que x = y , si > 0
signi…ca que x > y , etc.
2
'2 = x
2 : este se utilizará para comparar varianzas. Si '2 = 1 quiere
y

decir que las varianzas de las dos poblaciones son iguales, y si '2 > 1
signi…ca que 2x > 2y , etc.
Para se analizarán tres casos según los desvíos de las poblaciones sean :
conocidos ambos, desconocidos pero iguales, y desconocidos(sin suponer igualdad).
Para '2 se analizará un solo caso.

10. IC para = x y (desvíos conocidos)

N ( x; x ) N ( y; y )
X 1 X 2 X nx Y1 Y2 Yny
Como estimador de tomamos b = X Y (es función de su…cientes), y además
como
2 2
E(b) = y V ar(b) = x y
x y = +
nx ny
11. IC PARA = x y (DESVíOS DESCONOCIDOS E IGUALES) 35

resultará s
2 2
b=X Y N( ; x
+
y
)
nx ny
y resulta el estadístico pivotal
(X Y)
q 2 2
Z
y
x
nx + ny

Tomando los fractiles z1 2


y planteando
(X Y)
P ( z1 2
q 2 2
z1 2
) = NC
y
x
nx + ny

Y luego de invertir resulta


" s #
2 2
x y
IC al N C : (X Y) z1 +
2
nx ny

11. IC para = x y (desvíos desconocidos e iguales)

N ( x; ) N ( y; )
X 1 X 2 X nx Y1 Y2 Yny
Como estimador de tomamos b = X Y (es función de su…cientes), y además
como
2 2
1 1
E(b) = x y = y V ar(b) = + = 2
( + )
nx ny nx ny
resultará s
b=X 1 1
Y N( ; + )
nx ny
luego
(X Y )
q Z
1 1
nx + ny

Pero este no un estadístico pivotal pues es desconocido. Con argumentos similares


al utilizado cuando interesaba como parámetro en una normal con desconocido,
I
buscamos un estimador de 2 . El mejor es el estimador en pool. Como Sx2 ! 2
I
y Sy2 ! 2 , luego como los pesos del estimador son proporcionales a los grados de
libertad de cada estimador de varianza, resulta
2
2
(nx 1)Sx2 + (ny 1)Sy2 (nx + ny 2)Spool 2
Spool = y resultando también 2 nx +ny 2
nx + ny 2
Omitiendo detalles, si se reemplaza este estimador en el estadístico anterior, resul-
tará
(X Y )
q Tnx +ny 2
Spool n1x + n1y
36 2. IN TERVALO S D E C O N FIAN ZA

Este si es pivotal respecto del parámetro . Buscando los fractiles tnx +ny 2;1 2
y planteando
(X Y)
P ( tnx +ny 2;1 2
q +tnx +ny 2;1 2
) = NC
1 1
Spool nx + ny

y luego de invertir, resulta


" s #
1 1
IC al N C : (X Y) tnx +ny 2;1 Spool +
2
nx ny

12. IC para = x y (desvíos desconocidos)

N ( x; x) N ( y; y)
X 1 X 2 X nx Y1 Y2 Yny
Como estimador de tomamos b = X Y (es función de su…cientes), y además
como
2 2
E(b) = y V ar(b) = x y
x y = +
nx ny
resultará s
2 2
b=X Y N( ; x
+
y
)
nx ny
luego
(X Y)
q 2 2
Z
y
x
nx + ny

Nuevamente este no un estadístico pivotal pues tanto 2x como 2x son desconocidos.


Quizás podrámos usar un recurso similar al del ejemplo anterior, es decir estimarlos.
Estimariamos 2x con Sx2 y 2y con Sy2 . Entonces el estadístico dependería solo de
la muestra y del desconocido, como necesitamos. Sin embargo no hay teoría
que demuestre cuál es la distribución de este estadístico(no es ni N (0; 1) ni T
de Student). Sin embargo, sí se puede demostrar, que aproximadamente se
distribuye como una T , con unos grados de libertad que se calculan mediante la
fórmula de Welch
2
2
Sx Sy2
nx + ny
W elch = 4 Sy4
Sx
n2x S 2 + n2y S 2
X Y

Remark 13. En el denominador de esta expresión, SX 2 y 2 son los grados


SY
de libertad de los dos estimadores de varianza. SX 2 = nx 1 y SY2 = ny 1.
2
Como SX se obtuvo solo con la muestra X1 X2 Xnx , tiene SX 2 = nx 1 grados
2
de libertad, idem para SY que tiene SY2 = ny 1 grados de libertad. Pero, si
por ejemplo en otro problema, la varianza 2x se estima haciendo un pool con otra
2
muestra, obteniendo SpoolX , en lugar de nx 1 debemos usar en la fórmula, los
grados de libertad de este pool, o sea SpoolX
2 . Idem si pasa lo mismo con 2y .
2
13. IC PARA '2 = x
2 37
y

Entonces resultará aproximadamente


(X Y)
q T W elch
2
Sx Sy2
nx + ny

Buscando los fractiles t W elch ;1 2


y planteando
(X Y)
P( t W elch ;1
q +t W elch ;1
) = NC
2 2
Sx Sy2 2

nx + ny

y luego de invertir, resulta


" s #
Sx2 Sy2
IC al N C : (X Y) t W elch ;1
+
2
nx ny
12.0.1. Distribución F de Fisher. A continuación se presenta una v.a. que
aparece, cuando en poblaciones normales interesa como parámetro el cociente entre
dos varianzas; y también en otros problemas en que interviene el cociente entre dos
v.a. Gamma. Se de…ne así:
De…nición de F de Fisher con 1 y 2 grados de libertad
2
Ux
2
x
Ind F =U x= x
Uy = y !F F x; y
Uy y

2
13. IC para '2 = x
2
y

N ( x; x) N ( y; y)
X 1 X 2 X nx Y1 Y2 Yny
Como estadísticos su…cientes respecto de 2x y 2y usaremos Sx2 y Sy2 . Además
llamemos Ux y Uy a los correspondientes estadísticos pivotales para 2x y 2y , o sea
(nx 1)Sx2 2
(ny 1)Sy2 2
Ux = 2 nx 1 y Uy = 2 ny 1
x y

Usando la de…nición de la F de Fisher


2 2
(nx 1)Sx Sx
Ux =(nx 1) 2 =(nx 1) 2 Sx2 =Sy2 Sx2 =Sy2
x x
= (ny 1)Sy2
= Sy2
= 2= 2
= Fnx 1;ny 1
Uy =(ny 1) 2 =(ny 1) 2 x y '2
y y

O sea
Sx2 =Sy2
Fn x 1;ny 1
'2
2
es un estadístico pivotal respecto del parámetro '2 = x
2 . Buscando los fractiles de
y
la Fnx 1;ny 1 resultará
P (fnx 1;ny 1; 2 Fn x 1;ny 1 fnx 1;ny 1;1 2
) = NC
luego reemplazando
Sx2 =Sy2
P (fnx 1;ny 1; 2 fnx 1;ny 1;1 ) = NC
'2 2
38 2. IN TERVALO S D E C O N FIAN ZA

e invirtiendo resulta
" #
Sx2 =Sy2 Sx2 =Sy2
IC'2 al NC : ;
fnx 1;ny 1;1 2
fnx 1;ny 1; 2

14. IC para = x
en dos poblaciones gamma independientes
y

G(1; x ) G(1; y )
X 1 X 2 X nx Y1 Y2 Yny
Utilizando los correspondientes estadísticos su…cientes para x y y

Hx = X 1 + X 2 + +Xnx G(nx ; x) y Hy = Y1 + Y2 + +Yny G(ny ; y)

recordando que cuando a una v.a. gamma se la multiplica por una constante, el
respectivo beta queda dividido por esta constante(en este caso la constante utilizada
es 2 )
x y
2 x Hx G(nx ; ) y2 y Hy G(ny ; )
2 x 2 y
o sea
2nx 1 2ny 1
2 x Hx G( ; ) y2 y Hy G( ; )
2 2 2 2
quedando
2 2
2 x Hx 2nx y2 y Hy 2ny

otro resultado anterior decía: cuando a una v.a. que es 2 x se la divide por sus g.l.;
y a otra independiente que es 2 y se la divide también por sus g.l., y luego se hace
el cociente, se obtiene una F x ; y o sea
2 x Hx
2nx
2 y Hy
F2nx ;2ny
2ny

Hx Hy
como nx =X y ny = Y , y simpli…cando

x X
(14.1) F2nx ;2ny
y Y

llamando = x
queda
y

X
F2nx ;2ny
Y
Como este es un estadístico pivotal para resulta
X
P (f2nx ;2ny ; 2 F2nx ;2ny f2nx ;2ny ;1 2
) = N C y P (f2nx ;2ny ; 2 f2nx ;2ny ;1 2
) = NC
Y
o sea
Y Y
IC al NC : f2nx ;2ny ; 2 ; f2nx ;2ny ;1 2
X X
15. UN EJEM PLO CON POBLACIONES NORM ALES 39

Remark 14. A veces lo que interesa como parámetro es el cociente entre las
medias de las dos exponenciales. Como x = 1 y y = 1 , luego = x = y ,
x y y x
luego reemplazando en (14.1) el estadístico pivotal en este caso sería
1X
F2nx ;2ny
Y
Remark 15. Un enfoque parecido se puede aplicar si las poblaciones son G( x ; x )
y G( y ; x ) independientes, con x y y conocidos y números naturales, cuando el
parámetro de interés es el cociente entre los betas.

15. Un ejemplo con poblaciones normales


La …nalidad del siguiente ejemplo es integrar diversos conceptos, estudiados por
separado, en poblaciones normales.
Example 11. Considere artículos de peso N ( ; ) que se venden en cajas de
peso …jo . Se tienen las muestras:
I de cajas con 2 artículos:X1 X2 :::X4 con X = 36; Sx = 2:9
I de cajas con 4 artículos:Y1 Y2 :::Y6 con Y = 54; Sy = 4:1
I de artículos solamente:A1 A2 ::A4 con A = 10; Sa = 2
Hallar los mejores IC al 90% para: ; y

Solución
Primero, esto es importante, hay que averiguar las poblaciones de las que
provienen las muestras.
Si A N ( ; ), y X es el peso de una caja con 2 artículos, entonces
2
X = + A1 + A2 N( + 2 ; 2 )
Idem si Y es el peso de una caja con 4 artículos, entonces
2
Y = + A1 + A2 + A3 + A4 N( + 4 ; 4 )
Luego se tienen las poblaciones y muestras
N ( + 2 ; 2 2) N ( + 4 ; 4 2) N ( ; 2)
X1 X2 X4 Y1 Y2 Y6 A1 A2 A4
IC
Para estimar 2 disponemos de los estimadores Sx2 =2, Sy2 =4 y de Sa2 . El mejor
estimador de 2 con las muestras disponibles es(utilizando pesos proporcionales a
los grados de libertad de cada estimador de 2 )
S2 S2
2 (4 1) 2x + (6 1) 4y + (4 1)Sa2 2
Spool = que tiene 11 gl (haciendo cuentas Spool = 4:15, Spool = 2:037)
(4 1) + (6 1) + (4 1)
luego
2
11Spool 2
2 11

y el correspondiente intervalo será


" # "s s #
2 2 2
11Spool 2
11Spool
11Spool 11Spool
IC 2 al 95% : 2 ; 2 o sea IC al 95% : 2 ; 2
11;0:95 11;0:05 11;0:95 11;0:05
40 2. IN TERVALO S D E C O N FIAN ZA

2 2
Como(pqrs) 11;0:95 = 19:68 y 11;0:05 = 4:57 reemplazando valores queda

IC al 90% : [1:52; 3:16]

Por supuesto, para obtener IC podríamos haber utilizado solo la tercera muestra,
con Sa2 que tiene solo 3gl. Pero el intervalo no sería el mejor, sería mas ancho,
ya que estaríamos desperdiciando la información respecto de 2 que contienen las
otras dos muestras.
IC
Necesitamos un estimador de . Hay varias opciones.
2
La más simple sería A. Como E(A) = y V ar(A) = 4 estandarizando

A
p =Z N (0; 1)
=:4
No es pivotal ya que es desconocido. Si lo reemplazamos por un estimador,
:
el mejor sin duda es Spool y entonces quedaría
:
A Spool 2:037
:
p = T11 con el IC al 90% : A t11;0:95 p = 10 1:796 p = [8:17; 11:83]
Spool =:4 :
4 :
4

Pero con esta solución, hemos desperdiciado la información respecto de que tam-
I I
bién tienen las otras dos muestras. Por ejemplo X ! + 2 y Y ! + 4 , que
I I
no son estimadores de , sin embargo Y X ! 2 , y entonces Y 2 X ! , sí es
un estimador insesgado de .
Podríamos con este estimador construir un IC como recién hicimos con A.
Pero como Y 2 X depende solo de las dos primeras muestras, A de la tercera, y
son independientes, entonces la idea es obtener el estimador en pool de con estos
dos.
Tenemos
Y X I I
! y A !
2
con
2 2
4 2 2
Y X 6 + 4 7 2
(15.1) V ar( )= = y V ar(A) =
2 22 24 4
2
Luego(simpli…cando el )
24 Y X
7 ( 2 )+ 4A 6 Y X 7
bpool = 24 = ( )+ A
7 +4
13 2 13

Como (utilizando las varianzas calculadas en 15.1)


2 2 2
6 7 2 7 7 2
E(bpool ) = y V ar(bpool = ( )+ =
13 24 13 4 52
Luego
bpool
q =Z N (0; 1)
: 7
52
15. UN EJEM PLO CON POBLACIONES NORM ALES 41

:
Para llegar a la T usamos el Spool anterior, y reemplazando la expresión de bpool
queda
6 Y X 7
( 13 ( 2 ) + 13 A)
q = T11
: 7 :
S
52 pool
y luego " #
r
6 Y X 7 : 7 :
IC al 95% : ( ( ) + A) t11;0:95 S
13 2 13 52 pool
reemplazando valores queda
IC al 95% : [8:20; 10:88]
de amplitud menor que el obtenido con solo A(antes 3.66, ahora 2.68), ya que
el estimador de que utilizamos es superior.
IC
I I
Aquí como X ! + 2 y Y ! + 4 , que no son estimadores de , sin
I
embargo 2X Y ! , y entonces b = 2X Y , sí es un estimador insesgado de
. Podriamos construir el IC basandonos en este estimador. Pero claro, no hemos
utilizado la tercer muestra. Se propondrá un método mas general para evaluar si
esto es posible.
I I I
En principio tenemos X ! + 2 , Y ! + 4 y A ! , todos estimadores
independientes. Se propone ahora
b pool = X + Y + A
Donde , y son constantes a determinar. No se trata del concepto de estimador
en pool visto antes, donde los estimadores estimaban el mismo parámetro, sinó que
ahora estiman combinaciones lineales diferentes de los parámetros. Como queremos
que
E( b pool ) =
deberá ser
E( b pool ) = E( X + Y + A) = ( + 2 ) + ( + 4 ) + =
Y agrupando
( + ) + (2 + 4 + ) =
Para que esta igualdad se cumpla 8 y 8 deberá ser
+ =1 + =1
o sea
2 +4 + =0 +2 = 2
Resolviendo el sistema en y resulta
+2 y
= = ( + 1)
2 2
Luego el estimador insesgado de sería
(15.2) b pool = ( + 2)X ( + 1)Y + A
2 2
Este estimador, para cualquier valor de , cumple siempre E( b pool ) = . Como
lo desconocemos, elegiremos este valor de manera que
V ar( b pool ) : sea mínima
42 2. IN TERVALO S D E C O N FIAN ZA

Pero
(15.3) V ar( b pool ) = ( + 2)2 V ar(X) + ( + 1)2 V ar(Y ) + 2
V ar(A)
2 2
2 2 2
2 4
= ( + 2)2 +( + 1)2 + 2
2 4 2 6 4
1 2 1
= ( + 2)2 + ( + 1)2 + 2 2
2 2 2 3 4
Derivando la llave respecto de e igualando a cero
1 1 1 2 1
2( + 2)( ) + 2( + 1)( ) + 2 =0
2 2 2 2 2 3 4
De aquí resulta = 20 13 para lograr varianza mínima. Reemplazando en (15.2)
queda el estimador óptimo deseado
b pool = 16 X 3
Y
20
A
13 13 13
Obviamente E( b pool ) = , pero veamos su varianza(ver 15.3)
2 2 2 2 2 2
16 2 3 4 20 18
V ar( b pool ) = + + = 2
13 4 13 6 13 4 13
luego
b pool 18 2
N( ; )
13
y también
b pool
q =Z N (0; 1)
18
13
:
y utilizando Spool
b
qpool T11
18 :
13 Spool
luego " r #
16 3 20 18 :
IC al 95% : ( X Y A) t11;0:95 S
13 13 13 13 pool
Aquí 1316
X 3 20 b pool = 16:46 es la estimación del peso …jo,
13 Y 13 A = de las
cajas, y el intervalo resulta
" r #
18
16:46 1:796 2:037 = [12:16; 20:76]
13

16. Incorporación del error de un instrumento


Supongamos que ! es el valor de cierta cantidad que queremos medir. Por
ejemplo el voltaje entre dos puntos de un circuito, o el peso de un artículo, o la
concentración de glucosa en una muestra de sangre. El valor de ! lo desconocemos,
y para averiguarlo usaremos un instrumento de medición.
En el primer ejemplo el instrumento sería un voltímetro, en el segundo una
balanza, y en el tercero realizar un análisis bioquímico.
Como los instrumentos tienen errores, el valor medido seguramente no coin-
cidirá con ! que es el valor que queremos averiguar.
16. INCORPORACIÓN DEL ERROR DE UN INSTRUM ENTO 43

Si se designa X al valor que proporciona el instrumento al efectuar una medición,


supondremos que
X = ! + E con E N (0; )
O sea, el valor medido(X) es el valor verdadero que buscamos(!), más un error(E)
aleatorio que le agrega el instrumento de medición. De aquí surge que
X N (!; )
En estos casos, para lograr mayor precisión en el conocimiento de !, se suelen efec-
tuar n mediciones con el instrumento, teniendo entonces la muestra de mediciones
X1 X2 Xn y resultará
N (!; )
X1 X2 Xn
Aquí seguramente interesará un IC! al N C, que lo obtendremos con la T de Stu-
dent, como ya fué visto
S
IC! al NC: X tn 1;1 2 p
n
Por supuesto, cuanto mayor sea n, mas angosto será el intervalo.
Remark 16. Lo usual es suponer que E N (0; ), o sea que la media del error
del instrumento es cero. Si esto es así se dice que el instrumento esta calibrado.
Cuando esto no ocurre supondremos que E N ( ; ), donde es el sesgo del
instrumento. En este caso el valor medido será también X = ! + E, y resultará
X N (! + ; )
Esto quiere decir que las mediciones que hagamos(X) estarán alrededor de ! + ,
y no de ! que es el valor que nos interesa. Si > 0 obtendremos mediciones en
general un poco arriba de !, y al revés si < 0. Habría que calibrar el instrumento!
Example 12. La concentración de glucosa en sangre(G) de ciertos animales
responde a una N ( g ; g ) mg/dl. Se tomaron al azar 4 animales, se les sacó sangre,
obteniendo 4 tubos de ensayo con la sangre de cada animal, se tendrá entonces
N ( g; g)
(16.1)
G1 G 2 G 4
Aquí los Gi representan la concentración de glucosa en cada tubo. Se pide:
(a): IC al 90% para la concentracion real de glucosa de cada animal(o sea,
la presente en cada tubo de ensayo)
(b): IC al 90% para g (la concentración media de glucosa de este tipo de
animales)
Notar que en (16.1) los G1 G2 G4 , los desconocemos, así que no podemos
utilizarlos como muestra para dar respuesta a lo que pide el problema.
Para la parte (a), designaremos g1 ; g2 ; g3 ; g4 a los valores reales de glucosa
en cada tubo(o sea el valor que toma cada Gi en cada tubo). Estos valores son
…jos pero desconocidos, y el problema pide justamente hallar intervalos de con…-
anza para cada gi . Antes tendremos que usar un instrumento(un glucómetro) para
determinar la concentración de glucosa en cada tubo. Supondremos que el error
de este instrumento es E N (0; ) ya que está calibrado. Y para lograr mayor
precisión se harán 3 determinaciones de glucosa en cada tubo. Por ejemplo para
el primer tubo, si g1 es la concentración real de glucosa en este tubo, el primer
44 2. IN TERVALO S D E C O N FIAN ZA

valor medido por el instrumento será X11 = g1 + E11 N (g1 ; ), el segundo valor
X12 = g1 + E12 N (g1 ; ), y el tercero X13 = g1 + E13 N (g1 ; ), o sea las tres
mediciones en el primer tubo constituyen la muestra obtenida y se tendrá
N (g1 ; )
(16.2)
X11 X12 X13
Como esto lo hacemos para los 4 tubos, se tendrán(con los respectivos valores
muestrales)
N (g1 ; ) N (g2 ; ) N (g3 ; ) N (g4 ; )
X11 X12 X13 X21 X22 X23 X31 X32 X33 X41 X42 X43
X 1 = 80 S1 = 2 X 2 = 90 S1 = 1 X 3 = 87 S1 = 3 X 4 = 83 S1 = 2
Se obtendrá solo el ICg1 al 90%, para el primer tubo(los otros salen en forma
similar).
I
Como X 1 ! g1 entonces X 1 N (g1 ; p3 ) y
X1 g1
=Z N (0; 1)
p
3

Como estimador de 2 usamos


2 (3 1)S12 + (3 1)S22 + (3 1)S32 + (3 1)S42
Spool = = 4:5 (o sea Spool = 2:121)
(3 1) + (3 1) + (3 1) + (3 1)
Como tiene 8 gl, resulta
X1 g1
Spool
T8
p
3
Y el intervalo deseado para la concentración de glucosa del primer animal será:
Spool 2:121
ICg1 al 90%: X1 t8;0:95 p = 80 1:86 p = [77:72; 82:28] (de long: 4.55)
3 3
Notar que aquí se utilizaron 4 muestras de 4 poblaciones diferentes. Pero solo
la primera muestra, a través de X 1 tiene información respecto del parámetro g1
de interés. Sin embargo se utilizaron las cuatro muestras para obtener el mejor
estimador de 2 , que es Spool
2
con 8 gl. De haber utilizado solo la primera muestra
para estimar , usando S12 con solo 2 gl, el intervalo …nal obtenido hubiese sido
2

mas ancho(de long: 6.27).


Para la parte (b), el parámetro de interés es g de (16.1), que es el valor
alrededor del cual están los G1 G2 G4 que desconocemos. Aquí necesitamos pensar a
las Gi como variables aleatorias, no como los valores …jos g1 ; g2 ; g3 ; g4 de la parte (a).
La primera determinación que hacemos de G1 con el instrumento es X11 = G1 +E11 ,
la segunda X12 = G1 + E12 y la tercera X13 = G1 + E13 luego el promedio de estas
tres es
r
G1 + E11 + G1 + E12 + G1 + E13 E11 + E12 + E13 2
X1 = = G1 + N ( g; 2 + )
g
3 3 3
Analizando lo mismo con X 2 , X 3 y X 4 resulta que los cuatro promedios vienen
de la misma normal, se tendrá entonces
q
N ( g; 2 + 2)
g 3
X1 X2 X3 X4
17. INTERVALOS NO EXACTOS [ NO ÓPTIM OS 45

q
2
Llamando 2 + = queda
g 3 x

N ( g ; x)
X1 X2 X3 X4
X 1 +X 2 +X 3 +X 4 I
Ahora sí: X = 4 ! g con X N( g;
px )
4
luego

X g
=Z N (0; 1)
px
4

2
Como estimador de x usamos(teniendo en cuenta que X = 85)
(X 1 X)2 + (X 2 X)2 + (X 3 X)2 + (X 4 X)2
Sx2 = = 19:33(o sea Sx = 4:4)
4 1
Como tiene 3 gl, resulta
X g
Sx
T3
p
4
Y el intervalo deseado para la concentración media glucosa de ese tipo de animales
será:
Sx 4:4
IC g al 90%: X t3;0:95 p = 85 2:35 p = [79:83; 90:17] (de long: 10.34)
4 4
Remark 17. En este problema se hicieron en total 12 mediciones. Para la
parte (a), se repartieron en 3 por tubo, para lograr mejores estimaciones de los gi
y por lo tanto ICgi mas angostos. La parte (b) se resolvió utilizando las mismas
mediciones, con otra teoría. Sin embargo, y manteniendo las 12 mediciones, si
el objetivo del problema es obtener solo el IC g , lo más apropiado hubiese sido
tomar una muestra de 12 animales, con solo q una medición por animal. En este
caso, cada Xi sería Xi = Gi + Ei N ( g ; 2 + 2 ) teniendo(llamando
g x a este
desvío)
N ( g ; x)
I Sx
X1 X2 X12 y como X ! g, Sx2 con 11gl, resulta IC g
al 90% : X t11;0:95 p
X , Sx 12

Con este diseño, el intervalo para g sería mas angosto.

17. Intervalos NO exactos [ NO óptimos


Casi todos los intervalos analizados hasta ahora eran exactos \ óptimos.
Se partía de una población f (x= ) y su correspondiente muestra X1 X2 Xn .
Un requisito para construir el intervalo, era conocer la distribución del
estadístico H(o un pivotal que surge de H)
H f (h= ) o V = v(H; ) f (v)
Y el intervalo obtenido es exacto, si se usa esta f (h= ) o f (v) conocida.
Además para construirlo, por comodidad, en lugar de usar toda la muestra
X1 X2 Xn , lo hacíamos con un estadístico su…ciente respecto de
H = g(X1 X2 Xn ) su…ciente respecto de
46 2. IN TERVALO S D E C O N FIAN ZA

Entonces el intervalo obtenido es óptimo, ya es tan "bueno" como si lo


hubiesemos obtenido con toda la muestra(esto es debido a la su…ciencia,
ya que H tiene la misma "información" respecto de que toda la muestra).
Por diversos motivos, uno o ambos de estos dos requisitos, a veces no se cumple.
El primer incumplimiento se presenta en general, cuando la densidad de H o
V , o sea f (h= ) o f (v), se desconoce, o es complicada. En este caso se la reemplaza
por otra que la aproxime. Entonces el intervalo obtenido será NO exacto.
Remark 18. Esto de reemplazar la densidad de H por otra que la aproxime,
tiene un motivo: se recordará que en varios casos ya vistos, el estadístico su…ciente
es una suma, o sea H = X1 + X2 + +Xn . Supongamos que la exacta densidad
de H es f (h= ). Sin embargo, si n es "grande", y utilizando el TCL, la densidad
de H será aproximadamente una N (; ) con media y sigma a determinar en cada
caso. Si se utiliza esta normal como densidad de H, el intervalo será aproximado.
Remark 19. El caso de reemplazar la densidad de V por una que la aproxime,
ya se utilizó cuando se estudió el IC para = x y en dos poblaciones normales
independientes con desvíos desconocidos(se aproximó la densidad del estadístico
pivotal, por una t de Student, usando la fórmula de Welch, cuando en realidad se
desconocía su distribución).
El segundo incumplimiento se presenta, si en lugar de construir el intervalo
con un estadístico su…ciente, se lo hace con otro
R = r(X1 X2 Xn ) NO su…ciente respecto de
Entonces el intervalo obtenido NO será óptimo, y esto en general se verá re‡ejado
en un intervalo mas ancho. Por eso, si se opta por un R no su…ciente, este
estadístico deberá contener "bastante" información respecto del parámetro, como
para que el intervalo obtenido no sea demasiado ancho.
Remark 20. Esto usualmente ocurre cuando, con la muestra disponible no se
puede calcular el apropiado estadístico su…ciente.
Se analizarán dos ejemplos de intervalos no exactos, y dos de intervalos no
óptimos.
Example 13. Intervalo de con…anza para p de una muestra de población
Bernouilli(p) t Bi (1; p), cuando n es grande
Bi (1; p)
X1 X2 Xn
Aquí el estadístico su…ciente es H = X1 + X2 + +Xn Bi (n; p). Pero en lugar
de H trabajaremos con
H X1 + X2 + +Xn
Pb = =
n n
que también es su…ciente, y además, es un estimador de p. Como en esta expresión
aparece una suma, si n es grande, por el TCL resultará aproximadamente Pb N (; ).
Para obtener la media y sigma de esta normal, calculamos(utilizando media y sigma
de la H Bi (n; p))
H np H np(1 p) p(1 p)
E(Pb) = E( )= =p y V ar(Pb) = V ar( )= =
n n n n2 n
17. INTERVALOS NO EXACTOS [ NO ÓPTIM OS 47

Luego resulta r
p(1 p)
Pb N (p; )
n
y entonces estandarizando, y reemplazando Pb = h
n = pb
pb p
q =Z N (0; 1)
p(1 p)
n

utilizando los fractiles de la normal


pb p
P ( z1 2
q z1 2
) = NC
p(1 p)
n

Habría que invertir esta doble desigualdad. Esto es matemáticamente simple(aparece


solo una ecuación cuadrática), pero da bastante trabajo. El intervalo obtenido sería
z12
q
2n + p
2
b z1 2 pb(1n pb)
z12
1+ n
2

q
b(1 p
p b)
Bien entendido: hay que calcular los dos extremos con pb z1 2 n , luego
z12 z12
a cada extremo se le suma 2n
2
, y luego ambos extremos se dividen por 1 + n
2
.
z12
Esto sería muy complicado. Sin embargo notar que como n es grande, 2n
2
'0y
z12
1+ n
2
' 1. Utilizando esto queda …nalmente
" r #
pb(1 pb)
ICp al NC : pb z1 2
n
Una expresión muy simple, y razonable ya que el intervalo es: pb (que esqun esti-
mador de p), mas/menos un plus, que depende del desvío del estimador( pb(1n pb) )
y del fractil. Este sería un intervalo óptimo pero aproximado.
Remark 21. El IC para p que vimos anteriormente, con el método del estadís-
tico muestral era óptimo y exacto. Sin embargo tiene el inconveniente que se hace
muy difícil evaluar tamaño de muestra. Con esta última expresión, aproximada, es
mucho mas simple. Supongamos que interesa un ICp con N C = 90%, pero quere-
mos averiguar que tamaño de muestra será necesario para que la semi-amplitud del
intervalo sea por ejemplo 0.05. Entonces la ecuación a resolver sería(z0:95 = 1:645)
r
pb(1 pb)
1:645 = 0:05
n
de aquí hay que despejar n
2
1:645
n= pb(1 pb)
0:05
Pero claro, como todavía no hemos tomado la muestra, no conocemos pb. Entonces
esto no tendría solución! Estas situaciones son comunes cuando hay que averiguar
tamaño de muestra. Suelen haber algunas cantidades cuyos valores se desconocen,
48 2. IN TERVALO S D E C O N FIAN ZA

y no se puede despejar el n. Lo que se hace es darle algún valor a pb. Pero cual?
En esta expresión aparece una función cuadrática del tipo y = x(1 x). Es una
parábola invertida con raíz en 0 y 1(representarla!). Se busca cual es el valor de x
que da el máximo. Este valor es x = 0:5. O sea si usamos pb = 0:5, resulta n = 271.
Cualquier otro valor de pb que usemos, dará un n menor. De esta manera, tomar
n = 271 es la opción mas conservadora. Después, cuando tomemos la muestra, y
obtengamos el ICp , notaremos que su semiamplitud será, como máximo 0.05.
Example 14. Intervalo de con…anza para de una muestra de población
Po ( ), cuando n es grande
Po ( )
X1 X2 Xn
Aquí H = X1 + X2 + +Xn Po (n ) es su…ciente. Igual que en el ejemplo
b
anterior, usaremos = n =H X1 +X2 + +Xn
que también es su…ciente, y de paso es
n
un estimador de . Como en su expresión aparece una suma, si n es grande, por
el TCL resultará
b N (; )
y como
H n H n
E( b ) = E( ) = = y V ar( b ) = V ar( ) = 2 =
n n n n n
luego r
b N( ; )
n
y entonces estandarizando
b
q =Z N (0; 1)
n

utilizando los fractiles de la normal


b
P ( z1 2
q z1 2
) = NC
n

inviertiendo(aquí es mas simple que el ejemplo anterior), y reemplazando b = H


n =
b, la estimación de con la muestra
2 ! s 3
z12 b z2
4 b+ 2
z1 2 + 2 5
2n n 4n2

z12 z12
igual que antes, si n es grande, 2n
2
'0y 4n2
2
' 0 y entonces
2 s 3
b
IC al NC : 4b z1 5
2
n

Nuevamente, la expresión b
qdel intervalo es atractiva: (que es el estimador de )
b
mas/menos el fractil por n que es el desvío del estimador. Este sería un intervalo
óptimo pero aproximado.
17. INTERVALOS NO EXACTOS [ NO ÓPTIM OS 49

Remark 22. Si interesa que tamaño de muestra habría que tomar, para obtener
un IC con N C = 90% con semiamplitud, por ejemplo 0:5, habría que resolver(z0:95 =
1:645) s
b 1:645
2
1:645 = 0:5 o sea n = b = 10:82b
n 0:5
Como se desconoce b habría que asignarle un valor. Pero aquí no podemos tomar el
valor que de el n máximo posible, ya que sería 1. En un caso como este, se requiere
alguna información adicional sobre la población, por ejemplo que "di…cilmente se
mayor que 5". Entonces usando b = 5, resulta n = 54.
Example 15. Intervalo de con…anza para de una muestra de la sigu-
iente población, cuando n es grande
f (x= ) = 2x2 para 0 x
X1 X2 Xn
Esta densidad es triangular entre 0 y .

f(x/tita)= 2x/tita2

tita x

Si se averigua un estadístico su…ciente este es


H = max fX1 X2 Xn g
O sea para construir el IC basta trabajar con el mayor valor de la muestra, y
descartar las restantes observaciones. Esto es razonable, pues si se presta atención
a la densidad, el máximo de la muestra es la observación que está más cerca de .
Con este estadístico obtendremos un IC muy angosto. Sin embargo en la materia,
no hemos estudiado la distribución del máximo muestral. Así que buscaremos otro
estadístico. Si se calcula la media y sigma de la población(integrando!) resulta
2
E(X) = y Desv(X) = p
3 18
Veamos como es el siguiente estadístico muestral
X1 + X2 + +Xn
R=X=
n
Sabemos que la media muestral, R = X tiende a la media poblacional, 23 cuando
n es grande. O sea, si el X muestral nos da pequeño, esto lo interpretaremos como
que es pequeño, y si X muestral da un valor grande, signi…cará que será grande.
Este análisis intuitivo nos convence que X tiene "alguna" información respecto de
50 2. IN TERVALO S D E C O N FIAN ZA

, así que lo usaremos como estadístico. Como en la expresión de R aparece una


suma, por TCL resultará p
2 = 18
X N( ; p )
3 n
luego
X 23
= Z N (0; 1)
p
18n
utilizando los fractiles de la normal
2
X 3
P ( z1 2
z1 2
) = NC
p
18n
invirtiendo resulta
2 3
X X
IC al NC : 4 z1 ; z1
5
2 2
3 + p 2
18n 3
p 2
18n

Por ejemplo si la muestra fué de tamaño n = 72, y se obtuvo X = 47, el IC al 95%


es [65:18; 76:78]. Por otro lado, para la misma muestra, si hubiesemos utilizado el
estadístico su…ciente H = max fX1 X2 Xn g, y en este caso h = 69, el correspon-
diente intervalo sería IC al 95% : [69:01; 70:8], muchísimo mas angosto. Esto
demuestra la importancia de un estadístico su…ciente para construir un intervalo.
Example 16. A veces, las condiciones en que se toma la muestra, determi-
nan la utilización de un estadístico que no es su…ciente para la población original.
Supongamos que en la etapa …nal de fabricación de un artículo, se requieren 15min
de tallado con un instrumento que tiene un repuesto de duración G(4; )min. El
inconveniente es que si en estos 15min se rompe el repuesto, deja marcas en el
artículo, y queda como defectuoso. Por eso se decide empezar el tallado de cada
artículo con un repuesto nuevo. Interesa un IC al 90%, donde es la duración
media de cada repuesto( = 4 ). Lo ideal en este problema(desde el punto de vista
estadístico), sería tomar una muestra de duraciones de n repuestos, o sea
G(4; )
X1 X2 Xn
Aquí el estadístico su…ciente es H = X1 + X2 + +Xn G(4n; ). Transformando
2 H G( 8n 1
2 ; 2)
2
8n , y expresado en función de = 4
8H 2
8n

luego
" #
2 8H 2 8H 8H
P( 8n;0:05 8n;0:95 ) = 0:9 y queda IC al 90% : 2 ; 2
8n;0:95 8n;0:05

El inconveniente aquí es de tipo práctico. Para conseguir la muestra X1 X2 Xn ,


habría que tallar cada artículo, no 15min, sinó el tiempo necesario para que se
rompa el repuesto, y de esta manera conocer cada Xi . Lo común un un problema
de este tipo es que la información disponible sea, por ejemplo
"De 80 artículos fabricados, 24 resultaron defectuosos"
17. INTERVALOS NO EXACTOS [ NO ÓPTIM OS 51

O sea, de cada artículo solo se sabe si resultó defectuoso, o bueno. Llamando


P (Def ) = p = P (X < 15) = F (15=4; ), la población y muestra a utilizar
será(Di = 1 si es defectuoso, Di = 0 si es bueno)
Bi (1; p
D1 D2 D80
Usando H = D1 + D2 + +D80 Bi (80; p) (que es su…ciente para esta nueva
población) resulta, como h = 24
FBi (24=80; psup ) = 0:05
resultando ICp al 90% : [0:216; 0:395]
GBi (24=80; pinf ) = 0:05
4
Como p = F (15=4; ) sale IC al 90%: [0:158; 0:213], y como = resulta
IC al 90% : [18:8; 25:3]
Por supuesto, si hubiésemos tomado la muestra X1 X2 X80 de la población original
G(4; ), el IC hubiese sido mucho mas angosto.
CHAPTER 3

PRUEBAS DE HIPOTESIS

Como en los capítulos anteriores, siempre tendremos una población con un


parámetro desconocido, y una muestra X1 X2 Xn , con Xi independientes. Pero
ahora nuestro interés será analizar si se cumple una hipótesis respecto de este
parámetro, por ejemplo si < 5, o si > 8 o si = 15.
Como la información que tenemos de la población es a través de la muestra,
con ella deberemos decidir si la hipótesis es válida, o no.
Igual que en temas de estimación e intervalos de con…anza, por motivos prác-
ticos, en lugar de trabajar con la muestra, lo haremos con un estadístico su…ciente
respecto del parámetro. Y también aquí existirán dos métodos para construir una
prueba de hipótesis: con un estadístico muestral, o con uno pivotal, eligiendo el
mas conveniente según el caso.
Por motivos de claridad, se presentará el tema con varios ejemplos, de…niendo
la terminología particular de las pruebas de hipótesis.
Example 17. En cierto proceso productivo la concentración de una sustancia
química varía de frasco en frasco según una N ( ; 2)mg=g. Con el actual sistema
de elaboración, no supera los 10mg=g. Hay una propuesta de un nuevo proceso
de elaboración, con el cual se a…rma que se obtendrían valores de > 10. Esto es
importante ya que mejoraría la calidad del producto, pero claro, hay que modi…car
todo el proceso productivo, lo que tiene sus costos. Por eso, antes de decidirse por el
cambio, se decide fabricar 16 frascos con el nuevo procedimiento, medir después
la concentración de la sustancia en cada frasco, y luego tomar una decisión. O sea,
se tendrá
N ( ; 2)
X1 X2 X16
donde el valor de con el nuevo procedimiento lo desconocemos, pero queremos
decidir entre las hipótesis
H0 : 10 v.s. Ha : > 10
H0 se designa "hipótesis nula", y representa en este caso, la situación en que el
nuevo procedimiento es similar al anterior. Y Ha es la "hipótesis alternativa",
y representa la situación en que el nuevo procedimiento es superior al anterior, y
que querriamos detectar(para decidir el cambio). Para evaluar entre estas hipótesis
usaremos la muestra. Pero mejor, un estadístico su…ciente, que en este caso es
H
H = X1 + X2 + +X16 , o también X = 16 N ( ; p216 ) = N ( ; 0:5), o sea
trabajaremos con
(0.1) N ( ; 0:5)
X
53
54 3. PRU EBAS D E H IPO TESIS

Ahora representamos la densidad de X cuando = 10, o sea la N (10; 0:5)

N(10;0.5)

_
10 12.5 x

Esta normal nos dice que si = 10, el X obtenido de la muestra estará alrededor de
10. Pero si 2 Ha , por ejemplo = 12:5, la normal será otra, una N (12:5; 0:5),
mas corrida a la derecha(representada en punteado), y el X tomaría en general
valores mas grandes(alrededor de 12:5). Comprendido esto, ahora se determinará
RC, la región crítica(o región de rechazo) de esta PH. Es un intervalo de
valores que puede tomar X , tal que, si = 10, la probabilidad que X caiga en
RC sea muy baja. A esta probabilidad se la designará , nivel de signi…cación
de la PH, y usaremos en este ejemplo = 0:05. Pero hay muchas regiones con
= 0:05. Un segundo requisito es elegir la RC, en que es mas probable que caiga
X si 2 Ha . Pero como vimos que si 2 Ha , el X muestral estará mas a la
derecha, buscamos una región crítica hacia la derecha, o sea
Si = 10, buscamos xcr : P (X xcr ) = = 0:05
O sea, deberá ser P (X < xcr ) = 0:95, luego Fz ( xcr0:510 )
= 0:95, o sea(pqrs),
xcr 10
0:5 = 1:645, esto es xcr = 10:82, luego la región crítica es
RC : [10:82; 1)
y representando

N(10;0.5)

_
10 10.82 RC x

Ahora sí, llegó el momento de obtener la muestra, calcular el valor de X, y tomar


una decisión. Emplearemos aquí una regla de decisión que parece natural, aunque
3. PRU EBAS D E H IPO TESIS 55

después la cambiaremos.

Regla de decisión provisoria


Si X 2 RC =) Aceptamos Ha
= RC =) Aceptamos H0
Si X 2

Recordar que planteamos esta PH porque no sabiamos cuál, si H0 o Ha era cierta.


Luego de tomada la muestra, y según si X 2 RC o X 2 = RC, concluiremos(con
esta regla de decisión "provisoria"), cual aceptaremos como cierta. Pero debemos
analizar que tan bién funciona esta regla. Lo ideal sería que si H0 fuese cierta, la
regla nos conduzca a aceptar H0 ; y si la cierta fuese Ha , con la regla aceptemos
Ha . Pero a veces esto no ocurre, y cometemos un error.

Error cuando X 2 RC : si Ha fuese cierta, al aceptar Ha no hay ningún


error. Pero si la cierta fuese H0 , al aceptar Ha esto es un error. Este error
se designa "Error tipo I", y depende del valor que tenga dentro de
H0 , así que se lo designará ( ). Calculemos que tan probable es cometer
este error.

P (Error tipo I) = P 2H0 (X2 RC) = P 2H0 (X 10:82)


10:82
= ( ) = 1 Fz ( ) = 0:05 8 2 H0
0:5
Para = 10, ( ) = = 0:05. Y si 2 H0 con < 10, como la N ( ; 0:5)
va a estar mas corrida a la izquierda, entonces en estos casos ( ) será
todavía menor que = 0:05. O sea, este error esta acotado superiormente
por . Como este error es muy chico para todo 2 H0 , si X 2 RC es
"casi" válido a…rmar que Aceptamos Ha .
Error cuando X 2 = RC : si H0 fuese cierta, al aceptar H0 no hay ningún
error. Pero si la cierta fuese Ha , al aceptar H0 esto es un error. Este error
se designa "Error tipo II", y también dependerá del valor de dentro
de Ha , y lo designaremos ( ). Calculemos que tan probable es este error.

P (Error tipo II) = P 2Ha (X 2= RC) = P 2Ha (X < 10:82)


10:82
= ( ) = Fz ( )<1 = 0:95 8 2 Ha
0:5
Para = 12:5, (12:5) = 0:0004, muy chico. Sin embargo, si = 10:3,
(10:3) = 0:85, muy grande. Y si 2 Ha con muy cercano a 10 por la
derecha, por ejemplo = 10+ , este error sería todavía mayor (10+ ) =
1 = 0:95. Este error esta acotado superiormente por 1 = 0:95. Pero
esta cota es muy alta. Notar entonces, que si Ha es cierta, y X 2= RC,
el error que podemos cometer al Aceptar H0 puede ser muy probable de
ocurrir(dependiendo del de Ha ). Entonces no parece razonable a…rmar
que Aceptamos H0 .
O sea, las PH presentan una asimetría: cuando X 2 RC es "casi" válido decir
que Aceptamos Ha , en cambió si X 2 = RC, no es correcto decir que Aceptamos
H0 , ni tampoco que Aceptamos Ha , o sea, en este caso no podremos decidir nada.
Por este motivo la regla de decisión que se utiliza, con la terminología usualmente
56 3. PRU EBAS D E H IPO TESIS

empleada es
Regla de decisión de una PH
(0.2) Si X 2 RC =) Se Rechaza H0 = Aceptamos Ha
Si X 2
= RC =) NO se Rechaza H0
0.1. Decisión usando el valor de p. Con la regla(0.2), la decisión se tomaba
utilizando el estadístico X (según caiga o no en la RC).
Para la PH con RC : [10:82; 1), veamos tres casos, según el valor concreto de
X, y teniendo en cuenta la Regla de decisión.
Caso 1: X = 10:5. En este caso NO Rechazamos H0 . No se puede decidir
nada.
Caso 2: X = 10:9. En este caso Rechazamos H0 y Aceptamos Ha . Se
decide cambiar el proceso productivo.
Caso 3: X = 11:5. En este caso Rechazamos H0 y Aceptamos Ha . Se
decide cambiar el proceso productivo.
Esto es correcto.
Sin embargo, en los casos 2 y 3, aunque la decisión es la misma, parecería que en
el 3, la decisión de cambiar el proceso productivo, es en algún sentido mas "fuerte"
que en el 2. Y sin embargo este aspecto no está contemplado en la Regla.
Otra forma, mas completa, de tomar una decisión en una PH es utilizando el
"valor de p". En lugar de decidir con X, lo haremos con p = g(X) que es una
función de X.
Recordar que la condición para hallar el comienzo de la región crítica, xcr ,
fué(imponiendo = 0:05)
(0.3) Si = 10, buscamos xcr : P (X xcr ) = = 0:05
y de aquí resultó RC : [10:82; 1) y la …gura

N(10;0.5)

_
10 10.82 RC x

Luego comparando el X obtenido con xcr = 10:82, resultaron las conclusiones de


los Casos 1, 2 y 3. Ahora procederemos al revés.
En el Caso 2 obtuvimos X = 10:9(un poco a la derecha de 10:82). Que tal si nos
preguntamos "que valor podría haber tenido de la PH, para que este X = 10:9
caiga justo al comienzo de la RC", o sea para que xcr = 10:9? Usando la (0.3),
con xcr = 10:9 resulta
10:9 10
Si = 10, P (X 10:9) = 1 Fz ( ) = 0:0359
0:5
3. PRU EBAS D E H IPO TESIS 57

Este es el llamado valor de p para X = 10:9, o sea p(X)X=10:9 = 0:0359.


Entonces en el Caso 2, diriamos que se rechaza H0 , y por lo tanto que aceptamos
Ha con un valor p = 0:0359:
Para el Caso 3, donde obtuvimos X = 11:5 si efectuamos el mismo cálculo
11:5 10
Si = 10, P (X 11:5) = 1 Fz ( ) = 0:0013
0:5
Aquí el valor de p para X = 11:5, o sea p(X)X=11:5 = 0:0013.
Y en el Caso 3, diriamos que se rechaza H0 , y por lo tanto que aceptamos Ha
con un valor p = 0:0013. Notar que como este valor de p es menor que en el caso
2, la decisión de rechazar H0 y aceptar Ha es mas "fuerte".
Por último si calculamos el valor de p para el caso 1
10:5 10
Si = 10, P (X 10:5) = 1 Fz ( ) = 0:1587
0:5
Aquí el valor de p para X = 10:5, o sea p(X)X=10:5 = 0:1587. O sea si tomasemos
= 0:1587 también rechazaríamos en este caso. Pero claro, el valor de de nuestra
PH es 0.05, y este valor es …jo, y es el máximo P(error tipo I) admisible. Así que
cuando ocurre esto no rechazamos H0 , y no podemos tomar una decisión.
En de…nitiva, la Regla de decisión usando el valor de p queda
Regla de decisión de una PH
Si p(X) =) Se Rechaza H0 = Aceptamos Ha
Si p(X) > =) NO se Rechaza H0

0.2. Curva de potencia. Se de…nirá ahora la "curva de potencia" de esta


PH. Mide la probabilidad de Rechazar(que el X caiga en la RC), en función del
valor del parámetro, en este caso .
10:82
( ) = P (X 2 RC) = P (X xcr ) = 1 Fz ( )
0:5
Si se representa esta función de

1
P(Rech)

10 µ

La interpretación de esta curva varía dependiendo si 2 H0 o 2 Ha . Notar


que:
Si H0 es cierta( 10):
P (Error tipo I) = ( ) = P (Rechazar) = P (X 2 RC) = ( ) para 2 H0
58 3. PRU EBAS D E H IPO TESIS

O sea la curva de potencia para 2 H0 (o sea 10) nos proporciona


la P (Error tipo I) para diferentes . En particular para = 10, resulta
(10) = que es el error tipo I máximo, y decrece para < 10. Como
vemos, muy bajo error.
Si Ha es cierta( > 10):

P (Error tipo II) = ( ) = P (NO Rechazar) = P (X 2


= RC) = 1 ( ) para 2 Ha

O sea, 1 - la curva de potencia, para 2 Ha (o sea > 10) nos da la


P (Error tipo II) para diferentes . Como vemos, este error puede ser muy
grande, ya que está acotado por 1 = 0:95.
En de…nitiva la curva de potencia de una PH nos proporciona información
completa sobre los dos tipos de errores que se pueden cometer en una PH(debajo
de la curva para 2 H0 , y arriba para 2 Ha ).

0.3. Curva de potencia ideal. La curva de potencia ideal para las hipótesis
del ejemplo, sería

1
P(Rech)

10 µ

Según esta curva, cuando 2 H0 ( 10), P (Error tipo I) = P (Rechazar) =


( ) = 0. Y cuando 2 Ha ( > 10), P (Error tipo II) = P (NO Rechazar) =
1 ( ) = 1 1 = 0: O sea los dos errores serian nulos.
Con esta curva de potencia, Rechazar H0 equivaldría a Aceptar Ha sin error.
Y No Rechazar equivaldría a Aceptar H0 sin error.
Pero claro, es una curva ideal. Raramente ocurre en las aplicaciones.
En el ejemplo anterior, cuando 2 H0 ( 10), la curva de potencia ( )
toma valores muy bajos, concretamente ( ) = 0:05, o sea se parece bastante
a la ideal(el error tipo I es pequeño). Esto se pudo lograr al imponer un valor de
= 0:05 muy bajo. Pero para 2 Ha ( > 10), ( ) toma valores que di…eren
mucho de 1, así que el error tipo II es grande. Y este error esta fuera de control.
Pero como se puede hacer para obtener una curva de potencia lo mas parecida
a la ideal?
Una forma es utilizar para la PH un estadístico su…ciente respecto de parámetro(
en este caso). Si el estadistico usado no fuese su…ciente, la ( ) para 10 tomara
aún, valores bajos, menores que , ya que este valor es impuesto. Pero para > 10,
la ( ) distará mucho del 1. Por eso se enfatiza el usar un estadístico su…ciente, ya
que con el se obtiene para > 10, una ( ) lo mas cercana posible a 1.
3. PRU EBAS D E H IPO TESIS 59

En nuestro problema utilizamos un estadístico su…ciente, y sin embargo para


> 10, la ( ) si bién es la mejor posible para la muestra de n = 16, todavía dista
mucho de 1.
Que podemos hacer entonces?
La solución: usar el estadístico su…ciente, pero aumentar el tamaño de la mues-
tra. Cuanto mayor sea la muestra, el estadístico su…ciente contiene mayor infor-
mación respecto del parámetro, lo que se re‡ejará en una curva de potencia, para
> 10, cada vez mas cercana a 1(tendiendo a 1 para n ! 1). Pero claro, esto en
general no es gratis, tiene un costo.
En de…nitiva, en inferencia estadística, cuando se aumenta el tamaño de la
muestra(n):
Si un estimador depende de un estadístico su…ciente, disminuirá la vari-
anza del estimador.
Si un IC se construyó con un estadístico su…ciente, disminuirá la longitud
del intervalo.
Si una PH se construyó con un estadístico su…ciente, mejorará la curva de
potencia.
0.4. Mejoramiento de la PH anterior. Como vimos, solo si X 2 RC, al
Rechazar H0 (y Aceptar Ha ), tomamos la decisión de cambiar el proceso productivo.
Pero si X 2= RC, no se puede tomar ninguna decisión.
Supongamos ahora que si el nuevo proceso tiene = 11, se considera este valor
su…cientemente interesante como para emprender el cambio del proceso.
Entonces, en este caso, sería deseable que con la PH rechazemos, ya que así
efectuaríamos el cambio.
Pero veamos, con la PH anterior, cual es la P(Rechazo) si = 11. Usamos la
curva de potencia.
10:82 11
(11) = P =11 (X 2 RC) = P =11 (X xcr ) = 1 Fz ( ) = 0:64
0:5
Este valor no es muy alto. O también, visto por el complemento, si = 11, P(NO
rechazar) = P(Error tipo II) = 0:36

1
P(Rech)
0.36

0.64

10 11 µ

O sea, hay un riesgo del 36% de no rechazar, y por lo tanto no poder tomar ninguna
decisión(cuando en realidad querriamos efectuar el cambio).
Nos gustaría para = 11 una probabilidad de rechazar de 0:90, y de no rechazar
0:1.
60 3. PRU EBAS D E H IPO TESIS

Para resolver este inconveniente habrá que modi…car nuestra PH incrementando


el tamaño de muestra. O sea consideraremos una muestra X1 X2 Xn , con n a
determinar, manteniendo el estadístico su…ciente X, pero ahora su distribución
será N ( ; p2n ). O sea tendremos
N ( ; p2n )
X
La nueva PH tendrá otro n y otro xcr (o sea cambiará la RC). Las condiciones que
exigiremos a la curva de potencia serán:
Si = 10 P(Rechazar) = 0:05
Si = 11 P(Rechazar) = 0:90
La primera para mantener el error de tipo I máximo en = 0:05, y la segunda para
que en 11 el error de tipo II sea 0:10.
La curva de potencia será
xcr
( ) = P (X 2 RC) = P (X xcr ) = 1 Fz ( p )
2= n
O sea deberá cumplirse
(
(10) = 1 Fz ( x2=
cr p 10
n
) = 0:05
xcrp11
(11) = 1 Fz ( 2= n ) = 0:90
O sea
xcr 10 8
( p >
Fz ( x2=
cr p 10
) = 0:95 <
= 1:645
n
o sea(pqrs) 2= n
xcrp11
Fz ( 2= n ) = 0:10 > x 11
: cr p = 1:282
2= n
Resolviendo el sistema resulta n ' 35 y xcr = 10:56, con curva de potencia

1
P(Rech) 0.10

0.90

10 11 µ

Notar que se mantiene el nivel de signi…cación = 0:05(ya que (10) = 0:05),


pero, aunque no se ve muy claro en la …gura, debajo de 10, la curva decrece más
rápidamente, lo que signi…ca que para < 10, la P (error tipo I) será aún menor.
Lo que sí se nota claramente es que para > 10 la curva sube más rápido, y en
= 11 alcanza una P (Rechazo)=0.90, o sea un P(error tipo II)=0.10.
0.5. PH usando un estadístico pivotal.

También podría gustarte