Está en la página 1de 18

,

CAPITULO 11
NOCIONE S SOBRE ESTIMACIÓN DE PARÁMETROS
Sumario: 1. Estimación d I d. •
confianza ara la m . e a me ,a Y la van~~za. 2. Intervalos de confianza. 3. Intervalo de
dist .b . p edia µ de una poblac1on Normal con desvío u conocido 4 Las
Ch'~I uciones Chi-cu_ad~ado: . t de STUDENT y F de FISHER-SNEDECOR. 4.1. Disirib~ción
4
~ ~:i~r~do. 4 · 2 • Distri~ucion ( de STUDENT. 4.3. Distribución F de FISHER-SNEDECOR.
·d· ci~nes entre las distribuciones. 5. Intervalo de confianza para la mediaµ con desvío
0 esconoc1do. 6. Problemas.

1. Estimación de la media y la varianza

... En el Capítulo I dimos algunas nociones sobre el concepto de estimación estadística y ' en particular '
· · s de la media ·
· y la varianza
. 1as eSt1mac10ne
diJimos que de una variable, a partir de una muestra de n
observaciones, X,, X2, ... , X,,, se calculan con las siguientes expresiones:

1 11
(2-1) J[ = - ~X.I
n i=l

1 n
(2-2) S2 = - ~(X1 - µ) 2 si se conoce la media poblacional µ
n i=l

1 n
(2-3) S2 = -- ~(X, -X} 2 si no se conoceµ y se estima con X'
n-1 i=l

Así pues, debe quedar en claro que:

Los parámetros µ y a son, en la práctica, generalmente desconocidos, pues su conocimiento razona-


blemente exacto requiere del ,elevamiento de toda la población o de una muestra sumamente grande.
Las estimaciones X y S se calculan con los valores producidos por una muestra de n observaciones
mediante las expresiones (2-1) y (2-2) o (2-3) Y cometen un error con respecto a los parámetros, que será
tanto más pequeño cuanto mayor sea el tamaño n de la muestra.

Luego explicaremos por qué el divisor en (2-3) es (n-1) y non.


Dado que un estimador es un valor que se calcula a partir de los datos de una muestra, si tomamos
otra muestra su valor va a cambiar; por lo tanto, tenemos la siguiente conclusión importante:

Un estimador es una variable aleatoria.

En cambio, un parámetro es una constante fija, generalmente desconocida.


En general, cualquier función de las observaciones es una variable aleatoria.

Uamamos estadístico a cualquier función de las observaciones de una muestra.

En·particular, un estimador es un estadístico cuyos valores se consideran medidas experimentales de


un parámetro desconocido. . . .
· Se deduce entonces que el error que comete el estimador, o sea su d1ferenc1a con respecto al
parámetro, no puede conocerse porque no _se conoce el parámetro; pero ad~más, dicho error es asimismo
aleatorio porque el e~timador lo es. Lo que mtentaremos entonces es acotar dicho error, esto es, tratar de dar

Scanned by CamScanner
Roberto Mariano García: /11fere11cia estadfstícn y dise110 de experímemos
46

un . . o, equivalentemente
valor max1mo . • dar un valor máximo
. y mínimo para el parámetro desconocido . Esto
· ·
se consegu1ra con la técnica de los intervalos
. de confianza
. que veremos luego.
D do que un estimador es una variable aleatoria debe tener, como tal, las características gene
. d. .b . • d. ra es de
.ables aleatorias. Debe tener su propia 1stri ucmn, con su me ia y su varianza Co .d 1
a
to as as va rl
d I . · ns1 eremos
ahora la media de un estimador. . , .
·Qué es Ja media de la variable X? Sena el promedio general o poblacional que se b . .
e1 x-de cada una y luego pr
0 tendna s1
to máramos" muchas -teoricamente
• · · t"mllas-
m · muestras, calcu 1aramos
• ct··
dichos valores. Supongamos que hemos tomado K muestras, cada una con n observaciones y orne . d taramos
. _
g rande -por Jo que tenemos Kn observacmnes en total- y llamamos X. (j = 1 a K) a las med·
, sien o K muy
. de la variable
. 1 ias muestrales
obtenidas, la media X- sera:

l K
(2-4) E(X) =- EX1
K j=I

- la media
Rigurosamente, si conociéramos la distribución de la variable
. o esperanza matemat1ca
, . de
r., a través de su func1on
·• d .
e densidad
/{X), X- se calcularía mediante:

(2-5) E(xj = f Xf(){) dX

Sin embargo,. el cálculo práctico de la esperanza de una variable, que es la obtención de su valor numérico,
nunca se_ re~lrza con la expresió~ (2-5) pues, si bien puede conocerse la función de densidad -que aquí es
ftf{j-_,d1fic1lmente ~e la t~ndra totalmente especificada. Es decir, que se conocerá el tipo O familia
funcional pero falta~a especificarle sus parámetros. La verdadera utilidad de una expresión como (2-5) es
establecer una relación entre la esperanza de la variable y los parámetros; y, precisamente, esa relación se
podrá utilizar luego para estimar dichos parámetros. lo que se conoce como mérodo de los mamemos -que
veremos en la sección siguiente.

Nos preguntamos ahora si esta cantidad -E(X)- está relacionada con la media de la variable X, que
es µ=E(X). Dicho de otro modo, si hay alguna relación entre la esperanza de X: la inedia del estimador,
Y el parámetro estimado µ. Vamos a ver ahora que estas dos cantidades son exactamente iguales, lo que
significa que la media de X- es igual a la media de X, o que la esperanza matemática del estimador coincide
con el parámetro que está estimando. Veremos, también, que esta propiedad de X la tienen muchos
estimadores pero no todos.
Para ello, daremos ahora una propiedad de la esperanza matemática que, en rigor, debiéramos haberla
visto en el Capítulo anterior, y que no lo hicimos porque no la necesitábamos en ese momento. Se trata de la
linealidad, es decir, si X es una variable aleatoria cualquiera se tiene:

(2-6) E(aX + b) = aE(X) + b


. bl I t . por una constante a, su media
La expresión (2-6) nos dice que si multiplicamos una vana e a ea ona . tuitivo.
. st t b Esto es bastante m
queda afectada del mismo modo; y análogamente, s1 sum~os una co~ an e · X la combinación lineal:
Con más generalidad, si tenemos un conjunto de vanables aleatorias X1, X2, · · · • • Y .

r::-
~( ;"
..·
·(2:.7)

\\yft(:0:: •-•· ·.._.la media de W está dada por:


:({i_f_:·:_:··_,·_.·;,_-.} 2_,__
-sr;·:· E(»-) ;,.·ªº + a1ECX1) + a2E(X2) + + a.E(X,.)
- . ' .,· •'Li;ariable
.. ··- .
Yes~ combinación Hneal de variables aleatorias. pues:
. -· ,. . . .

,...

...::,':::-.::_\:.:· . , , '

Scanned by CamScanner
Capitulo II. Nociones sobre estimación de parámetros 47

-
(2-9) X = -1l1 (X1 + X2 + ... + X,.)

Y s~ observa entonces que (2-9) es caso particular de (2-7) con a =0 y a =a =...a,.=lln. Por lo tanto,
0 1 2
aplicando (2-8) tenemos:

1 1 1
(2-10) E(X) =- E(X1) +- E(X2) + ... + - E(X)
n n n n

pe_ro X1, X2, ... , Xn son, antes de obtener sus valores numéricos, variables aleatorias que, por provenir de la
misma distribución, tienen todas la misma mediaµ:

Reemplazando en (2-10), obtenemos:

1 1 1
(2-11) E(X) =- µ +- µ + ... + - µ =µ
n n n

Que la esperanza matemática del estimador coincida con el parámetro estimado significa lo siguiente:
en sucesivas muestras, el estimador X varía, es decir oscila. Luego veremos que sus variaciones u oscilaciones
serán tanto menores cuanto mayor sea el tamaño n de las muestras. Pero esas variaciones son alrededor de su
esperanza matemática, que es en este caso el parámetroµ .

Se dice que rm estimador es i11sesgado, no viciado, imparcial o desprejuiciado, si s11 esperanza mate-
mática coincide con el parámetro q11e estima.

La insesgadez o ausencia de vicio, es una cualidad deseable para cualquier estimador. Pero hay otras
cualidades que también tienen importancia; en particular, la denominada consistencia, que es más importante
que la insesgadez. La consistencia es la propiedad por la cual el estimador se aproxima cada vez más al
parámetro al aumentar el tamaño de la muestra. Vamos a profundizar un poco en este concepto . ¿Qué significa
realmente que el estimador se aproxin1a cada vez más al parámetro? ¿Significa acaso que el parámetro es el
límite del estimador? Esto implicaría que:

Lím X=µ

Pero esta tupresión es incorrecta, porque significa lo siguiente: dado un entorno del límite de
semiarnplitud e, es decir un intervalo µ±e, habría un valor de 11 , función de e -digamos 110 (1:)- t~ que para
todo n > n , todos los X deberían caer dentro del intervalo µ±e. Diríamos entonces que X converge
0
asintóticamente con µ. Sin embargo, esto no puede ser así. Los sucesos IX -
µ 1 > e pueden presentarse para
todo 11 porque X es una variable_aleatori!!__ y, por lo tanto, no pueden predeterminars~ sus valores. ¿Cómo ~e
roduce entonces la aproximación de X a µ? Se produce de una forma más débil que la convergencia
p •ntótica que se denomina convergencia estocástica. Su significado es el siguiente: los sucesos indeseados
as1\X_ ' e siempre
µ\> pueden producirse, pero a me d'd I a que aumenta 11 , van_~ ~cumr. cad~ vez
con menos
frecuencia O más esporádicamente, lo cual puede expresarse en forma probab1hst1ca como sigue: _

(2-12) Lím P(\ X -


11-00
µI > e) = O

Scanned by CamScanner

Roberto Mariano - • /nl"erencia
Garc1a. estadística y dise,io de experi111e111os
48 'J'

Se dice que u,, estmiuuor es collsiste11te c11a11do


• _,1
d N,, co1tverge estocásticamente al valor del pará'ietro
1
o tambiéll cuando cumple con la Ley de los Grall es llllleros. . .

. dad es fundamental ' más importante


Esta prop1e . d que d b la ,insesgadez y,p en mi opinión ' debería tomarse
.. .
como la defimc16 n misma del estimador. Todo .estimad or e . ena poseer
. 1a. or eso, todos los estimadores que
trataremos en esta o bra Cump lirán con la
, propiedad e consistencia.
v . .
. b"
S1~~ tamos hablando espec1ficamente de A, estas defimc10nes generales se aplican a ~~ .
1
1 1 estimador. . -
1 Vamos a estudiar ahora el tema de la varianza de X. Para ello, volvemos a la combinación lineal:

cuya varianza está dada por la siguiente expresión -que indicamos sin prueba-:

Pero debemos aclarar lo siguiente: así como la expresión (2-8) para la media de W es válida sin
restricciones, no ocurre lo mismo para (2-13), la cual es únicamente válida si las variables X , X , •• • , x.
1 2
son estadísticamente independientes. Si bien la definición rigurosa de independencia estadística es demasiado
compleja y no corresponde tratarla aquí, digamos en sentido menos estricto que su significado es que cada
variable no da información sobre las otras. Adviértase también que la constante a0 no aparece en (2-13).
(¿Por qué?)
Apliquemos (2-13) a (2-9), teniendo en cuenta que los coeficientes a; valen todos 1/n. Tendremos así
la varianza de X'

Nuevamente, las variables X 1, X2 , ••• , X,, provienen todas de la misma distribución y tienen la misma
varianza, que llamamos o 2 ; por lo tanto:

1 1 1 o2
D2(.\j = - 2 az + -,,2 az + ... + - 2 az = -n
11 11

az
(2-14) D 2(.\j =-
n

. . b el si nificado de esta fórmula. Expresa


. . Es importante que el lector reflexione cmdadosamente so re_ d gla muestra· es decir, que a mayor
.
que la varianza del estimador es mversamen te proporcional
. ald tamano
1 e
timadores ' que, en e1fi~ndo' ésta
dado do
tamaño de muestra, menor varianza .. Así d_ebería oc~mr co::~eº~e:o::rar que, si un esti~ador es insesga
es nuevamente la propiedad de cons1stenc1a. Más :ni se pestra entonces es también cons1stent; .. imos que,
y su-varianza ·tiende a cero al aumentar el t~año e a mu bre la estimación de la varianza. IJ
. . Veamos ahora en forma breve los mismos conceptos so .
si se conoce µ, . podemos poner:

. . ·. J n . . . 2
,(2-2) · S2 = - .lJ(X¡ ~ µ) ranza
n_i =l . . . d Hemos visto que la espe
.. matemática de este estima or.
·· · al ul la esperanza
· Trátemos ahora de e e ar - anzas Entonces, ·
de una suma es igu~ a la suma de la espe_r .
. .
-~ ;º:i· .

Scanned by CamScanner
Cap(tulo II. Nociones sobre estimació11 de parámetros 49

Pero también hemos visto que, por definición es o 2 =E[(X; - µ) 1 ] , por lo que la última suma de (2-15)
está formada por 11 términos iguales a o 2 • Entonces,

E(S2 ) = -111 na 2 = o2
(2-16) E(S 2) = 02

con lo cual queda probado que el estimador S2, dado por (2-2), es insesgado.
Veamos ahora el caso un poco más complejo, pero más frecuente en la práctica, en que µ es
desconocido. El estimador a utilizar en ese caso es:

1 /1
(2-3) S2 =- I!(X1- x,2
n-1 i=l

Se puede demostrar que:

(2-17) E[I!(X; - ,\') 2] = (n- 1)o 2

y por lo tanto :

E(S 2) = -1 E[I!(X1 - .\')1 ] =02


n-1

con lo cual queda probado que este estimador también es insesgado.


Veamos la demostración. Expresemos la suma del siguiente modo:

I!(X; - X}2 = I![(X1 - µ) - (X" - µ)]2

= I!(X1 - µ)2 + I!(X" - µ)2 - 2I!(X1 - µ)(X" - µ)

pero:

I!(X - µ)2 = n(X" - µ)2

I!(X1 - µ)(X" - µ) = (X" - µ)I!(X1 - µ) = (X" - µ)(I!X1 - nµ) = (X" - µ)(nX" - nµ)

= n(X" _· µ)2
luego:

Entonces,

Scanned by CamScanner
1
.~ .
50 Roberto Mariano García: J11_¡ere11cia estadística y dise/Ío de experimelllos

Pero, por definición, es:

con lo cual tenemos finalmente:

Ahora queda claro por qué h~mo~ dividido p~r _(n-1


) , y no por 11, para lograr este resultado. Hay, en
realidad, otra explicación mucho mas slillple del d1v1s
or (11-l). Supongamos que quisiéramos tomar una
muestra de una sola observación (n= 1) e intentáram
os con ella estim ar 0 2 -supu esto que no conocemos
Si dividiéramos por n, tendríamos S2=I:(X;-X) 2 /n=O µ-.
/l =0, lo cual sería una gruesa subestimación del
verdadero valor a 2 • Para evitarlo, dividamos por (n-1)
y así el cálculo de S2 con 11 = 1 queda indeterminado
como reflejo de la imposibilidad de estim ar una varia
nza con un solo dato, desde que ésta mide desviaciones
Si conocemos µ, entonces, aún con n=l , ya hay dos .
datos y podemos calcular la desviación (X -µ).
Para seguir el mismo tratamiento que con la media, 1
deberíamos ahora tratar el problema de la varianza
de S2 y comprobar que tiende a cero cuan do aume
nta el tamaño de la mues tra, probando de ese modo
también cumple con la propi edad de consistencia. que
Efectivamente es así, pero no lo demostraremos debido
lo extensa que sería la expre sión algeb raica de a
la cuestión. Digamos únicamente que, para poblac
Normales, la varianza del estim ador S2 es: iones

siendo u=n o 11-l, según que cono zcam os o no la


medi a poblacional µ, o sea, según que calculemos S2
(2-2) o (2-3). con

2. Intervalos de confianza

En la secci ón anter ior nos ocup amos de la estim ación ,


puntual de parametros, es decir,
· d dar un único
e od'13mos
valor, aproximado, para un parám etro desco nocid · ., d"'"
o. Al come nzar dicha secc1 on, 1Jimos ueno p
.
conocer el error que come te el estim ador con respe , q , que
cto al param etro, pues no conocíamos este, per0
íbamos a tratar de dar un valor míni mo y máxi mo , -
para el. Sea, por eJem p1O e
e l parámetro deseonocido-
Trata remo s de calcu lar dos valor es A y B tales que:

- (2-19) A < 0 <B


_ •
_ - _ El intervalo (A; B) se denomina intervalo de confia · ·, omprobaremos que declaratal·la
nza Y~n esta discusion, c firmar con seguridad to
ción (2-19) sólo puede hacerse en forma probabilística.
Lo que significa q~e_norem ;::z a, y escribirell105:
que ·e1 intervalo (A; B) conte nga al parám etro, sino
con una dada probabihda • 0 con
', •.

:
,.· - (2-20) P(A < 8 < B) == 1. :... « . , ·... _.- _ : . · · ·· -i·ctad
:·. . · babi¡
~·:'_· ·- . . , ás deno mina « una pro trº·
L:__ st~ndo «) una prob abili dad eleva da, del 8~% o ~ob~ bilid ad da nivel de confianza y
0- a al parárlle
de que el intervalo no conteng
i j;;. pequeña, deno mina da nivel de riesgo, que sena
i·,,'..--, - l:l la ~ .
flt/ n . d d
ge~r al,_el. nivel de conf ianza es a O por el mism o usuar io.
ff'f,P•·-· . -•, : · ·
~ ~r-:,;_;· · · ..
~ '.(~:~;~~:i:~: -_ . . '- .. .
.
. .'
. . -

Scanned by CamScanner
Capítulo II. Nociones sobre estimación de parámerros 51

. La expresión (2-20) significa lo siguiente: si repitiéramos el muestreo, en cada muestra obtendríamos


un intervalo (A; B) diferente, pero la fracción (1-a) de las muestras tomadas arrojarán intervalos que
contendrán al parámetro. Es decir que los límites de confianza A y B, son variables aleatorias del muestreo
Y e? el (1-a) X 100% de las veces obtendremos muestras que conducirán a intervalos que contengan al
parametro. La necesidad de esta interpretación proviene del hecho de que en la estadística clásica, el parán1etro
es una constante fija -aunque desconocida-, y por lo tanto, no parece correcto dar declaraciones de
probabilidad sobre él. Pero en el fondo, el significado es de todos modos lo que la expresión indica: que la
probabilidad de que el parámetro esté comprendido entre A y Bes (1-a).
En este capítulo me referiré únicamente al intervalo de confianza para la media µ. de una población,
con desvío a conocido y desconocido, postergando para capítulos posteriores la obtención de intervalos de
confianza para la diferencia de medias (µ. 1 -µ. 2) de dos poblaciones, la varianza (a2) de una población Normal,
la relación de varianzas (a/lo/) de dos poblaciones Normales independientes, la probabilidad de éxito de un
proceso de BERNOULLI, etcétera.

3. Intervalo de confianza para la media µ. de una población Normal con desvío a conocido

Dado que un intervalo de confianza implica una declaración probabilística, para su cálculo deberemos,
necesariamente, tratar con las distribuciones de las variables aleatorias que surgen del muestreo. En este caso,
analizaremos la distribución de la variable J[, que es el estadístico natural para esta situación. Según vimos
en la sección anterior, la variable J[ tiene una media igual a la media de la variable original -la variable
"madre" de la población-, es decir:

(2-21) E(.\j = µ.
y un desvío igual al desvío de la variable original dividido por la raíz cuadrada del tamaño de la muestra:

o
(2-22) D(.\j = ✓,,-
¿Qué podemos decir sobre la distribución de X"! Si la variable original es Normal, entonces X-también
es Normal, y ésta es una propiedad de la distribución Normal: cualquier suma o combinación lineal de
variables Normales independientes tiene distribución Normal, y J[ es una combinación lineal de variables
independientes:

y las X, son independientes, pues ésta es la hipótesis de las muestras aleatorias.


. y si la variable original X no fuese Normal? E n ta l caso, tarobº,
ten pod remos esperar que
tenga una v
~
. ·b ~ón Normal al menos aproximadamente, si el tamaño de la muestra fuese lo suficientemente grande
d1stn UCI • . , . .
como para que la relación (o/./n)/µ. sea menor que 0,2, en virtud del Teorema Central del L1m1te, que vimos
en el capítulo anterior (Sección 8.1). Entonces:

Independientemente de la distribución de la variable original -que tiene media µ. y desvío estándar


_ comideraremos que 'J[ es una variable con distribución Nomial de media µ. Y_desv(o estándar o/vn.
0
- .
Por lo tanto, podemos estandarizar la variable J[para obtener una variable Normal estandarizada:
. .

X-µ (X- µ.) ✓


n
· · (2-23) Z = o/./n = 0

Scanned by CamScanner
.
l
52 ,I'.
Roberto Mariano García: l 1!Jerenc ·a estadística y dise1io de experi mellto s
,

y, recordando que llamamos Zw al fraet1.1 w de la variable z, es decir al valor de Z tal que la probabilidad d
no superarlo es {a), es decir: e

P(Z < ZJ =w
podemos poner (Fig. 2.1):

(2-24) P(Za12 < Z < Z,.an) = 1- a

Así, por ejemplo, para a=0, 90, es a/2= 0,05,


Zan= - 1,64 y Z 1.a12=1,64 (Fig. 2.1).

Reemplazando en (2-24) a la variable Z por su igual en


(2-23), resulta:

(X- µ)vn ]
(2-25) P [ Za12 < a < Z1.a12 = 1- a

De esta expresión (2-25) se puede obten er una prime ra


conclusión obvia, reordenando los términos:

que no es más que un declaración proba bilíst ica sobre la


variable aleatoria X. Ahora, en realidad, para nuestro
objetivo actual, el valor de X es conoc ido y no nos intere
san en este momento las probabilidades sobre él;
como nuestra incóg nita es µ, el truco consi ste en escrib
ir la mism a expresión, reordenando nuevamente los
términos, en la forma siguie nte:

(2-27) P(X- + Za12 ~ < µ < J[ + z,.a12 ~ ) = 1- «

que es, justam ente, el interv alo de confi anza que buscá
bamo s. Dado que, por la simetría de la variable
Norm al, es Za12 = -Z1.a12, pode mos pone r tamb ién:

. ) A (x-- z o
.c2-2s 1.a12 rn < µ < x- + z,.a12 rn
o ) = 1- «

Scanned by CamScanner
Capitulo II. Nociones sobre esti111ació11 de parámetros 53

Obsérvese que la semiamplitud del intervalo de confianza:

o
(2-29) E = z1. a12 rn

disminuye, como era de esperarse, al aumentar el tamaño de la muestra. Denominaremos a E, error máximo
probable del muestreo.
Un problema que se presenta con frecuencia es la determinación del tamaño de muestra necesario para
obtener un error estipulado, con un nivel de confianza dado. De (2-29) obtenemos:

valor que se recomienda redondear al entero superior. Nótese que, cuanto más pequeño se desee el error E,
mayor debe ser el tamaño de la muestra a tomar.

Ejemplo l. Una máquina llenadora de botellas de gaseosa dosifica volúmenes variables con
distribución Normal, con un desvío estándar del que se sabe que es muy estable y vale 14 cm3•
Sin embargo, el volumen medio, que debiera valer 990 cm3 , al salirse de punto la máquina,
presenta variaciones; razón por la cual debe controlárselo periódicamente y ajustarlo, de ser
necesario. A estos efectos, se toman muestras periódicas de 5 envases y se mide su contenido
neto, calculando luego su media aritmética X" y un intervalo de confianza del 90%. Si dicho
intervalo no contiene al valor especificado (990 cm3), se efectúa una revisión cuidadosa de la
máquina. Una de estas muestras arrojó una media de 983 cm3 • a) Calcule el intervalo confianza
e indique la decisión a tomar. b) ¿Qué tamaño de muestra habría que tomar para poder dar un
intervalo cuyo error máximo probable de muestreo sea 5 cm3?

Solución:
a) El intervalo de confianza se calcula con la expresión (2-28):

o 14
X"± Z1.a12 ✓rz= 983 ± Zi.9s v'3 = 983 ± 10,3 (Zl.95 =1,6449)

y, al estar el valor 990 cm3 especificado comprendido en el intervalo de confianza, concluirnos que no es
necesario ajustar la máquina.

b) Aplicando (2-30) obtenemos:

y deberá tomarse entonces una muestra de n=22 botellas.

; ..
Scanned by CamScanner
54 Roberto Mariano García: Inferen
cia estadística y dise1io de exp
erimentos
,
4 . Las distribuciones Chi-cuadrado, t de ST UD EN T Y F de
FIS HE R-S NE DE CO R
4.1. Distribución Chi-cuadrado

En la sección anterior decíamos


que , al estar ligado un interva
robabilística, debíamos tratar con lo de confianza a una declaració
ciertas variables del mu est reo ,
~stadísticos muestrales. Un estadís es decir, con las distribuciones
tico fundamental es la varianza de algunon
de la mu est ra, definida como:
s
1 11
(2-2) S2 = - :E(X; - µ)2 si se con oce la me dia poblacion
11 i= 1 al µ,

o como:
1 n _
(2-3) S2 = -- :E(X; -X ) 2 si no se con oce µ,
y se est ima con X.
n-1 i=l

Se puede demostrar que, si la dis


tribución de la variable madre X
distribución Gamma, con parámetro es Normal, el estadístico (2-2) tiene
s r= n/2 y A=n /20 2 , cuya media
distribución Gamma pero con r=( es r/')..=0 2 • El estadístico (2-3) tam
n-1 )/2 y A= (n- 1)/ 20 2 • La bién tiene
omitirla, dada la índole de est a demostración de esto es bastante
obra. Véase en el Capítulo XV árid a y prefiero
Ello no obstante, por raz one s una discusión sobre la distribució
má s que nad a his tór ica s, el pun n Gam ma.
estas cuestiones es la dis trib uci to de par tida considerado natural
ón Chi-cuadrado que , com o ver para
distribución Ga mm a. emos enseguida, es un caso par
ticular de la
Una variable Ch i-cu adr ado
se def ine corno una sum a
independientes ele vad as al cua de variables Normales estanda
dra do, es dec ir: rizadas

Cad a una de las var iab les Z tien


e me dia cer o y varianza unitari
a, por lo tanto:

. E(Z2) = D2(Z) + E 2(Z) = 1

y e·ntonces, la me dia de la Ch i-cu


adr ado res ulta igual al núm ero
u de sumandos:

(2-32) E(X2) =u
.
Est e val or u es el único par ám . . .
· má s adelante, "N úm ero de
etro de est a d1s tnbuc1ón Y se denomm
.
a,
por razones que se explicar~
gra dos de libe rtad ".
· .· . · La función de den sid ad de pro
bab ilid ad de la Chi-cuadrado es:

1. . .
. (2~3· 3) 11-vl) = . 1
•·· . J\A . 2 r(u /2) (x,l/2)uf2,- .Ex p(- "f._2

/2)

Scanned by CamScanner
Capítulo II. Nociones sobre estimación de parámetros 55

La función de densidad de la distribución Gamma es:

).
(2-34) j{x) =- ().xy-1 e-l,
I'(r)

Entonces, la Chi-cuadrado es una Gamma con r=u/2 y .l..=0,5.


En (2-34) I'(r) es la función Gamma, que puede definirse mediante la siguiente integral:

00

(2-35) I'(r) = fe-Y y'-1 dy


o

Parar entero, esta función coincide con el factorial de (r-1) y, para valores no enteros del argumento
r, la función se encuentra tabulada o se puede calcular con adecuados programas de computadora. Para valores
semienteros del argumento, se conocen sus valores exactos 1• Se tiene así:

(2-36) I'(u/2) = (u/2 - 1)! si u es par

(u -1)! In
(2-37) I'(u/2) =- - - .-- si u es impar
(\-1 )i2- 1

La forma de la función (2-33) depende del valor de u, siendo más simétrica cuando más grande es u,
aproximándose a la Normal, pues es una suma de variables independientes, por el Teorema Central del Límite
(Capítulo I, Sección 8.1). Esto puede observarse en la Fig. 2.2.

Hay tablas que dan los fractiles


de la variable, esto es, los valores
·asociados a una dada probabilidad. Así,
el fractil w es el valor X2 u,w tal que la
probabilidad de no superarlo es w, o sea

Como veremos en un Capítulo posterior, estas tablas serán de utilidad para calcular intervalos de
confianza para la varianza de una población Normal. La planilla EXCEL suministra el valor de la función de
distribución acumulada derecha P(X2 ~ y) con la función =DISTR.CHI(y; u) y el fractil X2u,w con la función
=PRUEBA.CHI.INV(l-w, u). De modo que el argumento de entrada es la probabilidad acunmlada derecha.
La distribución Chi-cuadrado tiene la siguiente propiedad de aditividad, que se desprende
inmediatamente de su definición:

Dadas k variables co11 distribucioms Chi-cuadrado, independientes entre sí, x/, 'X}, ... , xk1
co11 grados de liberlad u" Vi, •• •, q, la suma:

"/..z = x.i1 +· "/..il + ••• + 'X,/


tie11e distribucióll Clii-cuadrado COII grados de liberlad u=u,+ U1+ ... + \)k

l. La planilla EXCEL devuelve la función Ln[r(r)] digitando =GAMMA.LN(r).

Scanned by CamScanner
56 Roberto Mariano García: /11fere11cia estadística y diseíío de experim
elltos
""'
4.2. Distribución t de STUDE NT

La siguie nte distrib ución de impor tancia , en relació n con la


· da "d'1stn'buc,on infere ncia en las poblaci N
es la denom ma . ' d e STUDENT "
, en h onor de su autor, WILLIAM SEALy GOSSETones C ,Ortnales,
1937), que escrib ió su célebr e artícul o de 1908 con el seudó
nimo "STUDENT". ingles, 1876,
La variab le t de STUDENT se define como el cocien te entre
una Norma l estand •.
cuadra da de una Chi-cu adrado , indepe ndient e de la anteri or,
. . dividi da ésta por su númer o de andzada Y_la raíz
Es dec1r. gra os de hbertact
.

(2-39) t
z
= -;:::::::;=;:::::- (Z y y,_ 2 son indepe ndient es)
✓x2 / u

Es posibl e demos trar que la funció n de densid ad está dada


por la siguie nte expres ión:

r[(u+ 1)/2] 1
(2-40) fl.t) =---- -----
htur( u/2) (1 + tl/u)<o+l)/2

siendo la funció n r(r) defini da por (2-35) .


· ~a curva . repres entati va de la funció n de densid ad (2-40)
se parece bastan te a la de la Normal
estand arizad a, Y tiende a ella al aumen tar el parám etro u,
hecho que puede observ arse en la Fig. 2.3.
Es decir que
Fig. 2.3
Distrib ución de STUDENT
Lím fl.t) = e-1' 12
/✓2rt
u-00

Como la Norm al estand arizad a, la t de STUDENT tiene


media igual cero, pero su varian za es mayor , pues su expres
ión es
_u=l

(2-41) D (t)2 = u
\)- 2

en tanto que, como se record ará, la varian za de la Norma


l estand arizad a es igual a la unidad . Se advierte en
(2-41) que la varian za de la t de STUDENT es mayor que la unidad
, pero tambié n que dicha expresión sólo tiene
sentid o si el parám etro u es mayor que 2, lo cual, en la práctic
a no trae inconvenientes.
· · · Como en el caso de la Chi-cu adrado , hay tablas que dan
los fractiles de la distrib ución, es decir tos
valore s 10 ,.., tales que:

· ::· que, como verem os en la secció n siguie nte, serán


de utilida d para calcul ar interva los de confianza par~~ª
·\ _. . media µ. con o desconocido. Tam~ i~n, podem os obtene
r sus valore s media nte la planill a EXCE~.: La
r(-- · =DISTR.T (t;u; colas) da la probab1hdad acumu lada derech a si
colas= 1
fun;\;
{~:~.\¿.:' colas si colas=2· la funció n =DISTR. T.ÍNV [2(1-w ); u] da el fractil y la suma de las pro~ab1hdades d
1 .., para: 'w~0,5 . ·
0

l!l i~f:.];;/ .' •..··. . .


Scanned by CamScanner
Capítulo II. Nociones sobre estimación de parámetros 57

4 •3 • Distribución F de FISIJER-SNEDECOir

. d ~a variable F de FISHER-SNEDECOR se define como el cociente de dos variables Chi-cuadrado,


m ependientes entre sí, divididas por sus grados de libertad, es decir:

(2-43)

Se demuestra que su función de densidad es:

Fig. 2_4
En la Fig. 2.4 podemos ver la gráfica de la función.
La media y la varianza están dadas por:

U2
(2-45) µ= - -
U2 -2 Dlstrlbuclon F do FISliIR-SNIDECIIR

Hay tablas que suministran los fractiles de la distribución, es decir, valores F ui.ui.w tales que:

P(F ~ F ul,u2,w ) = ú)

y también la podemos obtener mediante la planilla EXCEL mediante la función =DISTR.F(F,u 1,u2) que da la
probabilidad acumulada derecha y la función = DISTR.F.INV(l-w, u 1,u2) da el fractil Fv1.ui.w·
Como veremos en capítulos posteriores, esta distribución desempeña un papel fundamental en · la
estadística experimental, pues las pruebas del Análisis de la Varianza se realizan con ella. La utilizaremos
también, en el Capítulo XVI, para el cálculo de intervalos de confianza para la relación de varianzas de dos
poblaciones Normales independientes.

4.4. Relacio11es e11tre las distribuciones

-Relación exacta entre la Normal estandarizada y la Chi-cuadrado

(2-47) Z2w = X\2w-l (ú> ~ 0,5)


(2-47') Z2.,, = x\1 -2w (w ~ 0,5)

. 2. RONALD AYMER FISHER (Inglés, 1890-1962). GEORGE w. SNEDECOR (Estadounidense, 1881-1974).

Scanned by CamScanner
·
Roberto Manano García·· J11rere11cia
u• estadística y diseiio de experimentos
58

-Aproximación de WILSON-HILFERTY (1931)

(2-48)

-Apro{imacióll de FISHER

-Relaciones exactas entre la t de STUDENT y la F de FJSHER-SNEDECOR

(2-50) t\;w = F1 :u;2w-l (w ~ 0,5)


(2-50') t2u;w = F1 ;u;l-2w (w !, 0,5)

-Relación exacta de CACOULLOS (1965) elltre la t de STUDENT y la F de FJSIIER-SNEDECOR

-Relación exacta e11tre la F de FISHER-SNEDECOR y la Bi11omial

(u 1 par~ 2)

U2
;p=---
U1F+u2

-Aproximacióll de PAULSON (1942) para la F

3
2a~ 2a; 42;
--+-----
U2 U1 U 1U 2
(2-53)
... 2 22;
'.-
a2 - -
u2
-

(w<0,99)

Scanned by CamScanner
Capítulo II. Nociones sobre esti111ació11 de parámetros 59

-Relación exacta entre la Chi-cuadratlo y la F


2
(2-55) Fu· • · w = X v;w
.. \)

5. Intervalo de confianza para la media µ con desvío o desconociclo

Como vimos en la Sección 3, el intervalo de confianza paraµ con a conocido se basó en el hecho de
que la variable:

(2-23) z= (X - µ) i/n
a

tiene distribución Normal estandarizada. Cuando a no se conoce, debemos estimarlo con S y reemplazamos
este valor en (2-23), para obtener:

(X - µ)i/n
(2-56) t = - -- - -
s

que, como veremos enseguida, tiene distribución t de STUDENT con u=11- l grados de libertad. De este modo,
los límites de confianza para µ se calculan mediante:

(2-57) X
- ± l v·l -a/2 c-
s
• Vil

Es decir, que es la misma expresión con a conocido, cambiando a por S y Z por t.


La semiamplitud del intervalo de confianza, que abreviadamente llamamos error de muestreo, es:

s
E = lv·. l-a/2 Vc-
il

de la cual se puede obtener el tamaño de muestra necesario para tener una semiamplitud dada:

(2 _58) n = ( lu:1-; S )2

expresión análoga a (2-30). Sin embargo, en (2~58) tenemos dos inconvenientes:

1) ún problema esencial es que el valor de S qu~ aparece en la_ fórmula es el desvío estándar de la
muestra que todavía no se ha tomado -precisamente se esta tratando de calcular su tamaño n-.

2) El fractil tu,i -a12 de la/ de STUDEN: depende de 11 pues u=:'11-_I, ~ero és_tc es un inconveniente de tipo
. matemático, pues se trata simplemente de que la mcogmta esta en los dos miembros de la
· écuación - aunque esta ecuación pueda ser matemáticamente complicada.

Scanned by CamScanner
Roberto Mariano García: l11fere11cia esradfstica y diselio
l
60 de experimemos

Para resolver la primera dificultad, esto es, que el tamaño


requerido de la muestra depende de S
a su vez surgirá de la misma muestra, no tenemos una ~o1 .6 .
uc1 n 1mpecable. D e hecho, ésta es una sit ' que..
"
que se produce en diversos problemas de la Inieren . U . demos
c1a. mcam ente po reem plaza r un valor raz uac1on
. b
Puede ser. una estim ·1 d
. ación de una .muestra previa -muestra p1 oto- o pue .e ser un valor estimado subJ.et· ona le·'
por el mismo analis ta o por alguien que conozca razonablemente la variable.
STUD ENT que depende de 11 , se resue1ve . d. . .
El problema del fractil divamente
me d ,ante .
un proce 1m1ento Iterativo. Esto se aclarará nle· e 1a t de
. '
e1emplo nume, nco.
.
Jor con un

Ejemplo 2. Las ventas de una revista semanal han sido


, · las· siguientes (en miles de ·
en las ultimas cuatro semanas: 15,4; 18 ,5; 16,3; 19 2. a) Calcular
. los límites de e eJemp 1ares)
95 % para el promed10 semanal de las ventas. b) ¿Cua' . on 1--1anza del
· ntos datos más harían falt
caIcu1ar un mterv alo de cont··1anza con un error máximo probable del mues
1.000 ejemplares)? treo de ª+ para
¡ ( poder
- 0 sea de
a) De los datos obtenemos:

X= 17,35; S = 1,7935; lu; l-tr/2 = t3;0,975 = 3,1824


por lo que el intervalo de confianza se calcula mediante
(2-56):

- S l,7935
X± lu;l-a/2 vn = 17,35 ± 3,1824 x /4 = 17,35 ± 2,85

b) El tamaño de muestra se calcula con (2-58):

(2-58) n= ( _. __
lu·l-a/2 S )2
E

En esta expresión no conocemos el valor de S, pues aún


no hemos tomado la muestra; sin embargo,
d~do que tenemos una muestra anterior que arrojó S=l,
7935 , esperaremos que el S de la muestra final no
difiera demasiado de éste, ya que ambos son estimadore
s del mismo parámetro o. Por lo tanto, ése es el valor
q~e reemplazaremos en la expresión, sabiendo que el tamañ
o de muestra que calcularemos será aproximado .
Si el desvío que obtenemos en la muestra final resulta
menor que éste, el tamaño de muestra será adecuado;
de 10 contrario, el intervalo de confianza será mayor y
en ese caso habrá que recalcular el tamaño de muestra
Y tomar una muestra adicional. Finalmente, queremos
que E valga 1 (1.000 ejemplares), entonces:

(2-Sg) 11 = ( lu;0,975 X 1,7935 )2 · = 3 217 f-


l , u;o,975

· En esta ecuación, la incógnita n aparece en ambos miem


, bros, pues u=n- 1 . Para resolverla, ap1·ic.arnos
un ?'1eto do .iterat
.
ivo de aproximaciones sucesivas. Debemos comenzar
obviamente mayor que 4 . Comencemos con n= 10; obten dando a 11 un va1or cualqu iera,
_ 2622 ,
. . . emos de la tabla de la t de STUDENT '9:0,975 - 2' , os
que al reem plazarlo en (2-59. ). nos da un nuevo valor den= 16,5 que
redondeamos a 11= 17 · Luego. obtenerncon
!16•0 975 =2, 1199 y nuevamente ·con (2-59 . · -15 e0 nunuamos
·· ' ) resulta ahora 11= 14,5, que redondeamos a n- · .
.
: ~1~; 0 ,975_=2, 1448, que impl ican = 14,8, ~e redondeamos a
. . .· . . Resulta entonces n = 15 el tamano de muestra
n=: · iterativo.
15, y con esto finahza el_proces~ de confianza
=·.•:
n~cesano para po~er .calcular un_mterva!estra adicional
cuyo·error probable de.muestreo sl!a E= 1. Como ya tema
mos 4 obser~ac1ones, el tamano de m .
:·· s_erá finalmente n' =11 . .


Scanned by CamScanner
Capítulo II. Nociones sobre estimación de parámetros 61

No hemos probado aún que la expresión (2-56):

(2-56) t = (X - µ) ✓,i"
s
tiene distribución
, de STUDENT. En la secc1on
· , antenor
· d JJJmos
"· que e1estad'1stJco
· S 2 tiene
· · · · , Gamma
d1stnbuc1on
2
con parametros r=u/2 Y A=u/20 ; además, si una variable Y tiene distribución Gamma la variable 2}..Y tiene
distribución Chi-cuadrado con u=2r. Por lo tanto, en nuestro caso, la variable: '

(2-60) x2 = 2)..S2 = 2 ~ s2 = uS2


20 2 o2

tiene distribución Chi-cuadrado con u grados de libertad. Además, como X- tiene distribución Normal, la
variable:

(2-23) z= (X - µ) ✓,i"
o

tiene distribución Normal estandarizada. Si recordamos la definición de variable t de STUDENT, dada por (2-39):

z
(2-39) t = (Z y x 2 son independientes)
✓x 2 7u

obtenemos, de (2-23) y (2-60):

(X - µ) ✓,i"

o (X - µ)./n
(2-61) t = ----= s
s
o

Para completar la demostración, deberíamos probar que los estadísticos X y S son estadísticamente
independientes. Se puede demostrar -no lo haremos acá- que efectivamente es así, si la distribución de la
variable original (X) es Normal. Es decir, que el intervalo de confianza paraµ con o desconocido mediante
la 1 de STUDENT, es exactamente válido bajo dicha suposición de Normalidad de la población madre. Sin
embargo, se han realizado investigaciones que prueban que, si el tamaño de muestra es razonablemente
grande, la t de STUDENT es de todos modos válida, au~que no se cumpla dicho supuesto.
Resumiendo entonces, podemos afirmar que, s1 X es Normal:

(X - µ)./n
(i-23) Z = o

es exactamente una Normal estandarizada, y

(X - µ)./n"
(2-56) l = S

Scanned by CamScanner
62 Roberto Man•ano Garc1,a: ln.1er
,r, . estadística y dise1io de experimentos
encia

es exactamente una r de STUDENT • Si X no es N l ambas variables tendrán aproximadamente dicha


s
orma
. . . .
d1stnbuc1ones siem l
pre que e tamano- d la muestra sea' grande . Cuán grande tenga que ser II dependerá de
., . n e , ·r l a X de una Normal, tendra, que ser mayor. En
cada poblac1on en part1cular; porque cuanto mas d1 eren e se
. · t
los casos mas desfavorables, es sufici~n n 11 -40 Cuando un n1odelo sigue siendo aproximadamente válido
_e co
aunque no se cumplan lo supuestos teoncos que-lo · entan se dice que es robusto. Así pues, podemos decir
sust •
que los modelos (2-23) y (2-56) son robustos.

6. Problemas

2.1) Una máquina llenadora de latas de café


dosifica cantidades variables con distribución No~i_
15 gramos. A interv alos regulares se toman muestras de 10 envases ~on :1al ?~
desví? estándar
estas muestras arrojó una media de 246 gramos. el fin d~ estimar la doSif_ica~,~~ medi~ . Una de
a) Calcular los límites de conhanza p~ra 1~ doSif
10% de riesgo . b) ¿Cuántos envases más habría icacton media con un
que pesar para poder obtener una esttmactón cuyo
fuera 5 gramos? error de muestreo

2.2) Una empresa dedicada a la fabricación


de envases de vidrio cuenta con un plantel nume
estimar el tiempo medio de tardanza de los mism roso de operarios, y desea
os. El estudio se realizará sobre la base de las
estableciendo que: 1) El máximo error muestra! admi tarjetas horarias,
tido debe ser de 2 minutos; 2) el nivel de confianza,
desvío estándar poblacional es de 5 minutos, cono del 99%; 3) el
cido por ensayos anteriores. En consecuencia: a)
adecuado de muestra. b) Se toma la muestra y se Calcular el tamaño
obtiene que la tardanza media es de 15 minutos.
de confianza. Calcular los límites

2.3) En una fábrica de materiales eléctricos


se desea estimar el peso promedio del último lote
cobre salido de producción . Para ello, se eligió al de rollos de alambre de
azar una muestra de 20 que arrojó un promedio
además, de registros históricos, el desvío poblaciona de 38 Kg. Se conoce
l, que vale 4,2 Kg. a) Estimar el peso medio de
95% de confianza. b) ¿Cuántos rollos más habrí los rollos con un
a que pesar para poder obtener una estimación cuyo
fuera 1 Kg? error de muestreo

2.4) En un lote de novillos, se desea calcular


el tamaño de muestra para poder dar un intervalo
promedio de los mismos. A tal efecto, se sabe que de confi
anza para el peso
el desvío estándar de sus pesos es aproximadamen
desea que el error de muestreo, esto es, la semia te de 20 Kg y se
mplitud del intervalo, valga 10 Kg. Calcule el tama
un nivel de confianza del 90 %. ño de muestra para

2.5) En una industria textil hay un lote de tambores


de 100 litros de capacidad que contienen un suavi
se han usado parcialmente, por lo que se desea zante textil, que
estimar el contenido medio de los mismos. A tal
muestra de 15 tambores, se midieron sus contenidos efecto se tomó una
y se obtuvo una media de 63 litros con un desví
litros . Calcular: a) Los límites de confianza del 80% o estándar de 12,5
para el contenido medio de los ta~bores de Ja pobla
tamafio de muestra adicional habría que tomar para ción. b) ¿Qué
poder dar un error de muestreo de ±31itros?
2,6) Se desea estimar el ingreso medio de los
habitantes de una ciudad, a cuyo efecto se tomó
personas, que arrojó una media de $ 625 y un desví una muestra de lOO
o estándar de $ 576. a) Calcule los límites de confi
el ingreso medio de esta ciudad. b) ¿Qué tamaño anza del 90% para
de muestra adicional deberá tomarse si se desea
de ±$50? c) Usted seguramente advertirá que esta un error de muestreo
variable no tiene distribución Normal (en el Capít
que el modelo apropiado para esta situación es el ulo XV veremos
Lognormal). ¿Queda invalidado nuestro cálculo
por ello?
· 2·7) .La vana · b'l:d
11 ad entre parcelas de un mism
· o cultiv
· o es mher
· ente a 1as 1111sm
· as parcelas e · nte de la varied
_del cultivo que se somete a prueba. Se realizó un independie
experimento con una nueva variedad sobre 20 parce , adue
arroj_ó ~n rendim!ento medio de 37 ,8 Kg y un desví las de lOO 111 ' ; el
· · renduniento medio verdadero. b) ¿Qué tamaño
o de 4,2 Kg. a) Calcule un intervalo de confianza
de muestra habría que tomar para tener un error
del 90
muestra! de
f:~;
g

. ..

u ~,;:¿~~~:~,.,;,;_~;;:.~_,: --.---
Scanned by CamScanner

También podría gustarte