Documentos de Académico
Documentos de Profesional
Documentos de Cultura
13 Tema5
13 Tema5
5.1 Introducción Supongamos que la población tiene un núnlero, N, de elementos Inuy grande y que el
La construcción de los modelos probabilísticos, presentada en el último tema, es un tamaño de la muestra, 11, es relativalnente pequelio. Si la fracción n/N es 171a)'or que 0,1
ejemplo de razonamiento deductivo. Empezamos con varias hipótesis respecto a la (es decir que muestreamos más del 10% de la población) los métodos que
estructura de una variable aleatoria y a partir de ellas se deduce la distribución de presentaremos aquí son sólo aproxil1laciones. (En estos casos, existen correcciones que
probabilidad de los valores posibles. En la injerencia estadística (o estadística es preciso us·ar.)
inductiva) se realiza el proceso inverso. Dadas algunas obsenJaciones de una variable,
es decir algunos datos, se intenta injerir el I1lodelo probabilístico asociado con la Para seleccionar una m.a.s de una población finita, hoy en día se utilizan dfgitos
variable que ha generado estos datos. aleatorios s~nlulados por ordenador. Si los métodos de simulación son correclOs. se
puede considerar los dígitos. resultantes como dígitos producidos por el siguiente
La inferencia estadística puede dividirse en dos áreas principales: estinzación y pruebas método. Empezamos con 10 trozos de papel, cada trozo de11ni.nno tan1all0. En el primer
de hipótesis. Consideramos los procedimientos asociados con estimación en este tema y trozo escribimos el dígito O; en el segundo 1; ... y en el décimo 9. Situamos los] O trozos
los de pruebas de hipótesis en el tema siguiente. de papel en un sOlnbrero de copa, sacudinl0s el sombrero para 111ezclar los trozos de
papel. De esta manera, cuando elegimos un trozo de papel al azar, cada dígito tiene la
5.2 Población y muestreo nlisnla probabilidad de ocurrencia. Ahora, elegimos un trozo de papel al azar y
Llamaremos población a un conjunto homogéneo de e/elnentos en los que se estudia anotamos el dígito escrito en él. Después, reemplazamos el trozo de papel y repetimos
una característica de interés. En la mayoría de los casos no es posible estudiar todos los este proceso para obtener una serie de dígitos aleatorios. Utilizando este procedimiento,
elementos de una población, ya que: producimos una serie de dígitos como la que sigue (que ha sido simulada utilizando
Minitab).
• El estudio puede necesitar la destrucción de los elementos. Por ejemplo, se puede
estudiar el tiempo de vida de un modelo de coches o la tensión de rotura de cables. Si 1 487 7 5 8 974 862 5 997 8 043 895 4 5 7 097 1 O 5 79] 776
destruimos todos los elementos de la población no se tendrán más elementos que 1 574 6 O 9 6 946 149 9 9 268 267 O 2 9 O 9 3 2 8 O 5 261 833 1
vender, usar, etc. 5 9 6 848 847 241 165 5 054 3 8 871 1 443 1 1 2 883 7 8 1 9 7
• Los elementos pueden existir sólo conceptualmente y no en la realidad. Por ejemplo, 797 O 3 5 O 2 3 4 6 6 3 061 220 O 7 1 9 2 3 069 9 1 7 594 3 560 7
la población de televisores que producirá una empresa.
0756129 1 3 1 763 8 1 542 5 6 2 670 7 3 268 7 5 3 4 8 2 655 2
4 895 9 O 9 O 2 9 8 925 1 829 9 265 6 9 O 4 8 6 4 9 4 124 2 7 197
• Puede ser inviable econónlica1nente estudiar toda la población. 323 5 075 7 9 6 3 044 3 2 6 8 3 6 1 8 7 042 3 144 5 224 6 5 558
• El estudio llevaría lanto lienlpo que sería inlpracticable. Incluso, es Inuy probahle 631 1 423 5 4 3 666 077 867 2 1 919 1 4 3 O 4 4 2 8 O 7 4 1 479
que, las características de la población hubieran variado en el tiempo. 3 066 3 5 647 886 944 1 553 3 225 6 7 2 4 7 4 9 4 098 7 O 7 5 6
4 5 2 5 6 7 4 4 2 2 7 6 3 O 4 O 9 6 2 3 149 7 6 3 5 294 644 7 1 J 320
Entonces, en lugar de realizar un censo (es decir, un estudio exhaustivo de todos los 4 4 999 1 9 9 045 1 9 5 9 3 1 9 O O 4 647 O 3 4 7 264 8 O 3 2 5 324
elementos de una población), se selecciona un conjunto representativo de elelnenTos, 185 2 244 O 3 4 5 9 8 2 7 O 6 9 2 O O 3 6 4 6 028 5 4 7 5 1 8 1 3 359
que se llama nluestra. El proceso de escoger una muestra se conoce como 111uestreo. El 2 3 3 846 1 095 3 5 5 O 4 8 9 8 O O O 2 6 6 7 O 3 O 3 641 275 972 1
núnlero de elel11entos en la Inuestra recibe el nombre de lalnalio de la 1nuestra. Si la 4 O 8 9 688 1 4 O 2 1 7 1 674 5 9 944 O 1 6 2 9 2 8 O O O 2 9 S 9 5 7 3
7 6 8 2 150 8 251 9 2 8 9 4 O 7 6 O 2 847 9 8 O 9 6 O 6 5 8 1 262 7 8
muestra está bien escogida puede proporcionar una información muy precisa sobre la
O 1 969 1 6 8 9 2 745 7 6 6 9 7 1 521 5 2 3 8 3 O 5 5 220 1 4 O 1 2 9
característica de interés, pero con lnayor rapidez y 1nenor coste que si se efectuara un
834 3 6 3 9 7 4 O O 5 8 O 9 3 5 6 8 5 6 8 3 6 8 145 225 5 849 091 2
censo. Existen varios tipos de muestreo, y la cla\'e del nluestreo es garantizar que la 325 765 5 3 1 8 1 3 4 7 6 O 2 1 094 640 821 5 2 9 695 5 843 9 9
Inuestra sea represenTaTiva de la población. A continuación consideraremos métodos de 089 8 593 5 923 7 O 9 O 3 824 3 7 8 ] 367 5 545 126 5 840 1 9
estimación que suponen que la muestra se selecciona con el denominado I1luestreo 781 5 2 7 941 1 5 6 654 8 O 8 6 2 8 5 6 2 7 8 5 073 1 191 792 6 6
aleaTorio sin1ple. 3 4 3 698 5 6 O 1 2 051 ] 9 O 3 5 3 O 3 3 8 O 9 6 O 1 S O O 5 2 5 637 1
5 O4 6 O 1 833 125 6 1 1 569 5 2 O O 5 7 1 105 948 1 8 2 O9 8 8 2 5.4 Estimación
7 5 3 2 O 5 7 6 1 785 7 384 O 3 5 860 9 9 8 379 ] 085 3 9 7 5 ] 15 5.4.1 Introducción
5 7 1 5 535 100 9 6 178 163 171 135 9 15 8 9 8 9 6 4 8 4 749 3 El método clásico de la inferencia estadística es seleccionar la fornla de la distribución
1 13 849 3 254 1 3 8 327 074 144 6 4 6 8 100 6 8 8 7 4 O 7 645 inicial a la vista de los datos)' el contexto del problel11a, y luego aplicar métodos para
5 19 6 697 6 3 3 O 246 895 1 3 2 O 6 043 estilnar eficientemente sus pará111etros desconocidos.
Con una lista de dígitos aleatorios de este tipo, se selecciona una m.a.s de la siguiente 5.4.2 Identificación del modelo
manera. Se numeran los elementos de la población (finita) de 1 a N y se toman números El enfoque para111étrico supone que la forma del modelo es conocida. En realidad,
construidos por los dígitos aleatorios, de tantas cifras como tenga N. El valor del cuando realizamos un experimento aleatorio, los datos no vienen con el nombre de un
número construido indicará el elemento a seleccionar. Si el número es más grande que N modelo pegado. En la práctica, tenemos una nu~estra y cierta infonnación sobre el
(lo que es posible si N ~ 10,100,1 000, ...) ignoramos este número y seguimos con el experi111ento realizado para conseguir los datos de eJIa. Además, si con anterioridad se
siguiente. Por ejemplo, supongamos que queremos una m.a.s. de 10 estudiantes en un han realizado experimentos silnilares, es posible que éstos también proporcionen
grupo de 253 estudiantes. Numerando los estudiantes de 1 a 253, y utilizando la serie de infonnación útil. Resumiendo, al inicio del procedimiento de estimación, tenemos que
dígitos aleatorios dada arriba, el número fonnado por los tres primeros dígitos es 148. seleccionar un l11odelo a partir de los datos Inuestrales, el contexto de) experimento
Este número corresponde a uno de los estudiantes. Los cinco núlneros próximos (775, actual, la variable de interés y experinlentos silnilares.
897, 486, 259, 978) no se encuentran dentro del intervalo 1 - 253. El siguiente número
es 043 que si está entre 1 y 253. Los dos números próximos (895, 457) no corresponden En relación con el uso de información sobre el contexto del experimento., supongamos
a ningún alumno. Los próximos dos números (097 y 105) identifican dos miembros más que estamos interesados en la proporción de unidades defectuosas producidas por una
de la muestra. Los dos números siguientes (791 y 776) no sirven para identificar otros máquina. Si la probabilidad de producir una unidad defectuosa es constante y el estado
miembros de la muestra. Siguiendo este procedimiento, obtenemos los números 157, de cualquier unidad es independiente del de cualquier otra, podemos considerar el
052, 241, 165, 144 Y 197 para los últimos 6 miembros de la muestra. Resumiendo, la estado de una unidad como una variable aleatoria de Bernoulli. Si utilizamos la
muestra consta de los 10 al Ulnnos con los números de identificación: 148, 043, 097, nláquina para producir una muestra de n unidades, entonces un modelo obvio para el
105. 157, 052, 241, 165, 144 Y 197. número de unidades defectuosas en la muestra es el binolnial. Después de identificar
este modelo, el problema consiste en estimar el paránletro desconocido de) modelo, es
Una vez que helnos identificado los n elenlentos de la muestra, podemos medir el valor decir, p.
de la variable de interés, X, para estos elementos. Antes de identificar los n elementos de
la muestra y medir sus valores de X, consideramos estas observaciones potenciales Si el contexto del experimento no sugiere un modelo específico, pero éste es parecido a
como variables aleatorias denotadas por X l' X 2 , ••• , X n' donde X¡ representa el i-ésimo otros experinlentos previos, es posible que las conclusiones de estos experimentos
valor de la variable X que vamos a observar. Los valores numéricos obtenidos después indiquen un modelo apropiado. Por ejemplo, supongamos que la variable de interés en
de la medición los denotamos por xI' X 2 , ••• , x n • Debido a las condiciones idénticas bajo un experimento es el tiempo de vida de un componente electrónico y que los
las cuales se seleccionan los elementos de la muestra, es razonable suponer que las n componentes en cuestión tienen características muy similares a componentes utilizados
variables aleatorias Xl' X 2' ..• ' X son independientes y que cada una tiene la nlis171a
11 en otros estudios. Si en estos otros estudios se dedujo que puede considerarse el tiempo
distribución de probabilidad que la población. Decimos que las n variables aleatorias de vida de los componentes respectivos como una variable exponencial, entonces un
X I ,X 2 , ••• ,X n son independientes e idénticalnente distribuidas (f.i.d.). Si f(·) es la modelo exponencial es un candidato obvio para el tiempo de vida de los componentes
función de densidad de la población y f¡(·) es la función de densidad de X¡: en el estudio nuevo. El problema se convierte en la estimación de) parámetro
desconocido, A.
f l (.) = f 2 (.) =...= fn (.) = f(·)
Por último, si no es posible identificar un modelo apropiado a partir de la información
Además, las Xi son independientes y entonces la variable aleatoria n-dimensional sobre el contexto del experimento o información adicional, podemos investigar si los
miSl110S datos indican la forma de un modelo específico. Podemos producir gráficos,
( Xl' X 2' ... ' X 11) tiene función de densidad conjunta: COlno diagralnas de barras o histogralnas, esperando que estos gráficos sugieran la
forma de un modelo adecuado. Por ejemplo, es posible que el histograma de los datos de
f(x I ,X2 ,···,xn ) = f(x l )f(x2 )···f(xn ) una variable continua tenga una forma parecida a la función de densidad de una
distribución nornlal. Esto indicará que un modelo nonnal será apropiado para la variable
que es la condición Inatel11ática del muestreo aleatorio simple. de interés. Luego, el problema ha reducido a la estimación de los ~os parámetros
desconocidos de la distribución, Jl y 0'.
3 4
I t /lHó.' - 11,.;' I t l / l / U L.\lLH41.\/H '1. 1_.\i//lUH H'"
I C/UO J . JlljeUlIllll L\It.JdJ.\!/( O. L.\!iU;dl/OI/
Repetimos que en una m.a.s. Xl'X 2 , ••• ,X las n variables .aleatorias son i.i.d..
tt
,
5.4.4.2 Algunos estimadores importantes
Cualquier función de estas variables se llama un estadístico. Como un estadístico es una 5.4.4.2.1 Muestras de una distribución de Bernoulli
función de variables aleatorias es también una variable aleatoria. Supongamos que tenemos una m.a.s. XI' X 2 , ... , XII de una distribución de Bernoulli,
con probabilidad de "éxito" p (desconocido). Un estimador natural de p es la frecuencia
5.4.3.2 Algunos estadísticos importantes relativa del suceso "éxito", p, donde:
5.4.3.2.1 Estadísticos de tendencia central de la muestra
Si Xl' X 2 , ••• , XII representa una m.a.s. de tamaño n, se define: p=(Número de éxitos en la muestra) / n
=0 2(n-l
-- J
n 11
í n 2 l _
0 ,( 1}
00
1--
11
(j
2
=-a
-
n
2
n J n L ;=1
i
= I(x
i=1
i
- Jl)1 -n(X - J-l)2 IX i
P. .~ =X =..1::.L
Il
7 8
sontodosinsesgados. Pero:
Observanlos que la varianza de este estimador de J.1 depende del valor de la varianu a:!.
Se puede demostrar también que. para una tll.a.S. de una distribución nornla):
0 2
0'2
V( íl.) =2' V(íl2) =4 y
V( Jl.\
A ) _
-
O' 1
n
V(S2) = 20
(n-1)
Entonces, de los tres estimadores, il J es el de menor varianza (es decir, mayor
precisión).
y esta variunza es entonces la varianza nlínil11a de cualquier estilnador ¡llsesgado de a 2.
Si se consideran todos Jos est;,nadores insesgados posibles de algún parálnetro e, aquél
5.4.5 Estimación por intervalos
con la varianza más pequeiia recibe el nombre de estilnador nlás eficiente (o lnás
5.4.5.1 Problema básico
preciso) de 9.
En ]a práctica, es cierto que la precisión del estimador insesgado más eficiente crece
con el tamaño de la muestra. Desafortunadamente, es ta¡nbién cierto que la estimación
Es posible demostrar que de todos los estimadores insesgados del parámetro p de una puntual de una muestra dada no sería exactal11ente igual al paránletro poblacional que se
distribución de Berlloulli, p = X es el más eficiente. Como la varianza de p viene dada supone estimar. Por esta razón, interesa no solamente dar una estinlación puntual de un
por: parám~tro, sino, además, un intervalo que permita expresar la incertidllnlbre existente
(!X¡ I !v(X.) !{[(J)2 p+(O)2(1_ p)]_ p2} en la estÍ/lIación. Para introducir la construcción de este tipo de intervalo, primero
tenemos que consIderar la distribución de un estilnador en el,l1uestreo.
V(p)=V(X)=Vl-':I-J=
n
;xl
n
2 = ;.. 1 .,
11
5.4.5.2 Distribuciones de estimadores en el muestreo
Como sabemos ahora, un estin1ador es un estadístico y un estadístico es una función
!(p_ p2) de los variables aleatorias de una muestra. Entonces, como dijimos en la sección 5.4.3.],
,=1 npq pq un estinlador es una variable aleatoria y por tanto tiene su propia distribución de
2 =-2-=
n n n probabi I ¡dad.
.
entonces Ia vananza ".
l111llllna d
ecuaIqUler
' estIma
. d or ',,¡sesgado de p es -
pq.
11 5.4.5.2. t Distribución en el ro uestro de una proporción
Para c'oncretar esta idea, supongamos que tenemos una m.a.s. XI' X 2 'oo., X" de una
También es posible demostrar que de todos los estimadores insesgados del parámetro Jl población de Bernoulli con parámetro p desconocido. Sabemos que p= X es el
de una distribución de Poisson, Ji = X es el más eficiente. Como la varianza de ft estimador insesgado más eficiente de p pero, ¿Cuál es la distribución de p? Aquí,
viene dada por :
x
entonces la varianza ,nínima de cualquier estimador insesgado de Jl es ~. Observamos Es decir, la probabilidad de que la proporción en la muestra, ¡j, sea - es igual a la
11 11
que la varianza del estimador aumenta cuando crece Jl. probabilidad de obtener x "éxitos" en una muestra de t~lInaño 11. Esta probahilidad viene
dada por la distribución binomial con parámetros 11 y p. Para resumir esta hecho, se dice
En eJ caso de una m.a.s. de una distribución nOrlnn/ con media Jl y varianza a 2, se que la distribución en el 111uesrreo de ¡j es binoloial (con parálnetros 11 y p).
puede demostrar que Jos estimadores ft = X y cr 2 =S2 son los nzás eficientes de todos
los estimadores insesgados. Entonces, )'1 varianza JJlílliJno de cualquier estimador
inse.rgado de J.1 es:
1]
12
las muestras. 11 1 y 11 2 , son grandes, la distribución en el muestreo de (XI - X~) es Si las dos poblaciones originales son llorlnales. el primer resultado de esta sección 110 es
aprOX;111adaI11ente: una aprox;nlacióll - es exacto para tll111aiios 111uestrales cualesquiera. Es decir.
N(J.11
0'2 0'2]
2
- J.1 2), --.L+_ 2
[ III 11 2
(XI - X2 ) - N[( Il ) - Il 2 ), cr1,)1 + cr11 i ]
2
donde 0'1
2
ai
Y son las varianzas de las dos poblaciones. Aplicando la transformación a
una variable aleatoria normal estándar: exactalnellte. Aplicando la transformación a una variable aleatoria normal estándar:
aprOX;111adanlellle. exaclanlenle.
Si estas varianzas son desconocidas (un caso muy usual) podemos estimarlas utilizando El problema con este último resultado es que depende del conocimiento de las varianzas
los estimadores óptimos, ó ~ y ó ~ . En este caso se puede demostrar que, para nluestras poblacionales. 0'12 y 0';. En nluchas aplicaciones no sabemos sus valores y entonces es
necesario estimarlos. Distinguimos dos casos; uno en que las dos varianzas son iguaJes
grandes de poblaciones nO-llonl1ales, la distribución en el muestreo de (x)- Xl) es
(es decir, 0'12 = 0'22 =0':2), Yel otro en que las dos varianzas no son iguales (es decir, 0')2 ;t.
aprox;,nadal11en te:
0';). En el primer caso, estimamos la varianza común, O' 2 , por:
~2 A2J
N (J.11 - J.12)'
( ~+~
ni 11 2 S2 = (1/1 - I)S,2 +(1/ 2 - I)S;
11) +1l 2 - 2
Aplicando la transformación a una variable aleatoria normal estándar:
donde SI2 y S: son las varianzas 1nuestrales (corregidas) de las dos muestras. Es posible
(XI - X2 ) - (1.1, - 1.12) _ N(O,I) demostrar que,
~ 2 ~ 2
¡
~+0'2 (XI - X2 ) - (JlI - Jl2)
ni 11 2 1 1
52 ( -+
J -t",~"~_2
aproxil11adal11ente.
"1 "2
Como un caso particular de estos resultados, si las poblaciones son de Berlloul/i,
2 En el segundo caso (el lJaJnado proble111a de Behrells-Fisher), 0'12 y son distintas y (Ji
J.l, =P.. 112 = P2' 0'1 .= Plql Y 0'; = P2q2· Estimando PI por p) = XI' P2 por P2 = X2'
0;1 por Ó ~ =Plq, Y 0'; por Ó ~ =P2Q2' la distribuci6n en el muestreo de (Ji¡ - P2) es
estimamos 0'12 por S,2 y 0'; por S;.
No hay una solución única para este problema pero
se puede demostrar que, aproxiI11adaI11en/c:
aprox;'lIada117ellle:
ni 12 2
donde ql =(1- PI) Y q2 =(1- P2)· Aplicando la transfonnaci6n a una variable aleatoria
nornlal estándar: donde, el número de grados de libertad, v, viene dado por:
(p,- p¡)-(p,- P2) _N(O,I)
'Plq, + P2q¡
11) 11 2
aproxil11adolllCl1te.
11
14
Tema 5 - Inferencia Estadística: E.Himación Tema 5 - Inferencia Estadística: Estimaciáll
S2/
1 aJ
2 S2J a.,2 ~ p[-z(a/2)~ :/:}f; ~ z(a/2)] == )-a
52 a 2
2/ =~-
2S2a·J F"1-1."2- 1
~ 1-z(a/2)-J;;~X -~ ~ z(a/2}i]= )-a
Este resultado se aplica en la esti111ación por intervalos y contrastes de hipótesis en
relación a la razón de las varianzas de dos poblaciones nornlales. ~ p[ X+z(a/2)i~ ~ ~ X-z(a/2)-J:;] =)-a
~ p[ X- z(a/2)i~~ ~ X +z(a/2)±]== )-a
5.4.5.3 Intervalos de confianza
5.4.5.3.1 Introducción
Una vez dados los resultados para las distribuciones nluestrales de estimadores de la
última sección, podemos plantear ahora la construcción de los llamados intervalos de
Finalmente, si seleccionamos una m.a.s. de tamaño 12 de una población nonnal con
confianza.
varianza conocida, cr 2, Y calculamos su media x, el intervalo de confianza del
Llamaremos intervalo de confianza para el parámetro e con nivel, o coeficiente, de (1- a )100% para Jl viene dado por (e 1,e 2) donde:
confianza 1- a , a una expresión del tipo:
a,
el =x- z(a/2) vil y a,
e2= x + z(a/2) vil
el~e~e2
es decir, los lbllites del intervalo vienen dados por:
e
donde los límites 8\ y 2 del intervalo dependen de la 171uestra y se calculan de manera
cr
tal que, si construimos intervalos de este tipo para l1luchas nluestras distilltas, x±z(a/2) .¡;;
1000- a )0/0 de ellos contendrán el verdadero valor del parámetro (y lOen % no
contendrán este valor). Por ejemplo, un intervalo de confianza para el parámetro con e
nivel 0,95 tiene la propiedad de que el 95% de los intervalos de este tipo contienen e) Es importante notar que si tenemos una muestra de datos y construimos un intervalo de
verdadero valor de] parámetro (y el 50/0 no). confianza de este tipo, el valor verdadero de Jl está de12tro o fuera de, este intervalo.
Entonces, la uprobabilidad" de que el verdadero valor de Jl esté dentro de este intervalo
5.4.5.3.2 Intervalo de confianza para ~ (muestra normal; cr conocida)
Para introducir la construcción de intervalos de confianza, consideramos la situación
es °ó 1.
descrita anteriomlente en la sección 5.4.5.2.2. En este caso, sabemos que: Ejemplo 5.2
Un fabricante produce focos cuyos tieInpos de vida siguen una distribución normal
con desviación típica de 40 horas. Si una muestra de 30 focos tiene un tiempo de vida
!X; (Jl, crr ')
X -_.i.=L.- N I
media de 780, encuentre un estimación puntual, y un intervalo de confianza del 96%,
para la media poblacional de todos los focos que produce esta empresa.
12 Vil)
y entonces Solución
z=X-Jl
crj'¡;; -N(O,I)
Aquí, cr = 40, 12 = 30, x = 780. Una estimación puntual de la media poblacional es
¡l =x =780. De la tabla de la distribución normal estándar,z(0,02) == 2,05 y entonces
Luego,
un intervalo de confianza de Jl del 96% es:
P[-z(a/2) ~ Z ~ z(a/2)) = l-a
15 ]6
Tema 5 - Inferencia Estadistica: Estimnción Tema 5 . Inferencia Estadística: E.\"t;mació"
5.4.5.3.3 Otros inter\'alos de confianza importantes Si la varianza no es conocida, podemos aproximar su valor por 6':! . En este caso, un
Utilizando los resultados para las distribuciones muestrales de estimadores intervalo de confianza para Jl, de nivel aproxil11adamente (1 - a. )1000/0 , viene dado por:
introducidos en la sesión 5.4.5.2, y siguiendo un procedimiento análogo a el de la
sección antérior, podemos obtener los siguientes intervalos de confianza. Ó
-+ "7(a/2) vn
x_"\:
I
LXí2_~
(
2,x.
9 J (9,05):!
proporción de artículos defectuosos en un proceso, suponiendo que en una muestra de
tamaño 100 se han encontrado ocho artículos con defecto.
s= ti ;=1 n 9,1051- -9- =0,024551533
11-1 " S Solución
Una estimación puntual de la media poblacional es p = ~00 = 0,08. El tamaño de la
Entonces un intervalo de confianza de Jl del 990/0 es: muestra es grande y entonces podemos utilizar una aproximación normal para calcular
el intervalo de confianza. De la tabla de la distribución normal estándar, z( 0,01) ~ 2,33 Y
s . 0,024551533 ( ) entonces un intervalo de confianza para p de nivel aproximadamente 98% es:
X±ls (0,005 ) .¡;;::: 1,005±3,36 ~ == 0,978 ; 1,033
cualquiera, con varianza (j:! conocida, un intervalo de confianza para Jl, de nivel
aproximadamente (I - (l )100% viene dado por:
(j
x±.:(a/2) .¡;;
Tema 5 - Inferencia E.HadíJTica: ESTimación TelJla 5 _ inferC'ncia Estadística: Est;mación
X:-I(CY;)
2
Xn _1(1-CY;) .... 2 .... 2
( XI-X2)±z(a./2),/~+~
donde X:-I(CY;) y xL¡( 1-~) son valores de la distribución chi-cuadrado con 12-1 ", n2
a) Una estimación puntual para la diferencia entre las dos medias poblacionales.
Entonces, un iotervalo de confianza para JlI - Jl~, de nivel exactamente 0- a)1 000/0, b) Un intervalo de confianza del 950/0 para la diferencia entre las dos medias
viene dado por: poblacionales, suponiendo que:
0 o;
(XJ -x2 )±z(a/2) -l...+-=
2
i) (J)2 = 8 ya; = 9.
nI n2 ii) Las varianzas poblacionales son desconocidas pero son iguales.
iii) Las varianzas poblacionales son desconocidas y no son iguales.
Este último resultado supone que sabemos los valores de los parámetros poblacionales
cr l2 Y cr;. Si no conocemos sus valores, es necesario estimarlos. Como vimos en la Solución
sección 5.4.5.2.5, si cr)'2 = cri = cr 2, estimamos la varianza cOll11¡n, cr 2, por: A partir de los datos, se puede calcular: xA = 49,6 ; xB = 54,4 ; SA = 8,38 Y SB = 9,61.
a) Estimamos JlA - Jl B por }lA -}lB = XA- XB = 49,6- 54,4 = -4,8.
(ni -l)s~ +(11 2 -1)s~ b) i) Un intervalo de confianza para la diferencia entre las medias poblacionales de
S2 nivel 950/0, viene dado por:
ni +n 2 -2
2 2 2
En este caso un intervalo de confianza para JlI - Jl 2 , de nivel exactalnente 0- a)] 00%, cr cr =-4,8±1,96~2
(x) -X2 )±z(0,025),/-l...+-l.. - +9- =(-15,4; 5,8)
viene dado por: nI 11 2 5 5
Si cr J2 y cri son distintas, estimamos cr l2 por s~ y cri por si. Luego, un intervalo de (XI- - X- 2 )±t8 (0,025),/s-.,(-1+ -]
nI n2
J=-4,8±2,31 ~81,2{-+-
1 1J=(-18,0; 8,4)
5 5
confianza para Jl I - Jl 2 , de nivel aproximadamente (J -a )]00%, viene dado por:
ni 11 2
8,38
2
9,612
( - 5- + -5
J
donde t\, (a /2) es el valor de la distribución t de Student co~:
Tema 5 - Infcrcncia Esradí.Hica: Esti11lllciún Tema 5 - Inferencia Estadística: Estimación
Redondcando al entcro más cercano, v = 8. Entonces, el intervalo es: 5.4.5.3.4 Determinación del tamaño nluestral
Hasta ahora supusimos que el tamaño de una muestra era conocido. En la práctica.
_ _ SI s;
1(2"J =-4,8±2,31 - -2+ -2J =(-18,0;
(x l -x:J±t8 (O,025),/-+
1Z 1 11:
J( 8,38
5
9,61
5
8,4)
cuando estamos diseñando un experiJnento aleatorio, la determinación del taInaño de
una nluestra es crucial. No queremos un tamaño más grande que lo necesario, porque no
queremos gaslarnlás Inedias (tiempo, dinero, etc.) que los absolutamente necesarios.
Por otro lado, si el tamaño de la muestra es demasiado pequejio, no será posible alcanzar
5.4.5.3.3.8 Intervalo de confianza para la razón de varianzas (poblaciones
normales)
una precisión adecuada. Las fórmulas obtenidas anteriormente para los intervalos de
confianza, nos penniten deducir el tamaño muestral necesario para una precisión
Suponganl0s que tenemos dos nluestras aleatorias simples independientes de
especificada. A continuación, consideramos dos casos particulares.
tamaños 11 1 y 11 2 , respectivamente, de dos poblaciones nOr/na/es. Utilizando el resultado
de la sección 5.4.5.2.6, un intervalo de confianza para cr l2 /o~, de nivel (I - a)l 00% , 5.4.5.3.4.1 Estimación de una media
viene dado por: Supongamos que utilizamos una m.a.s. para construir un intervalo de confianza de
s; 1 a 2 S2 nivel (I - a)1 000/0 para la media, )1, de una población. Según se ha visto en las
S2 F
a 22 -< ...L
2 .,-1.•,-1 (a. /2) 5: -l... si F.,-1.•,-1 (a. /2 ) secciones 5.4.5.3.2 y 5.4.5.3.3.2, el intervalo viene dado por:
O'
donde Fnl_l.n~_)(a/2) es el valor de la distribución F de Fisher-Snedecor con nI -1 y x±z(a /2) .¡;;
112 - 1grados de libertad, que deja un área de a /2 a la derecha. Fn~-J.'II_I (u /2) es el valor
análogo para 11 2 - 1 Y 11 1 - 1 grados de libertad. (Este intervalo es exacto si la población es nOr1nal y una aprox;l1lación si la población
es llo-nor1llal pero el tamaño de la muestra es grande.) Entonces, la al1lp/itud del
Ejenlplo 5.10
Dos muestras dc dos poblaciones normales han dado los siguientes resultados: 11 = 8,
intervalo es 2z(aj2) a,-.. Si queremos un intervalo de amplitud 2L, es decir x± L,
vn
1
4 Ejemplo 5.11
Entonces, una estimación puntual para ai la; es s¡ Isi = 3.6 = 1,11 Y un intervalo de
Los tiempos de vida de los focos producidos por un fabricante tienen una distribución
confianza de nivel 90% para (512 / a ; es: normal con desviación típica de 40 horas. ¿Qué tamaño muestral se requiere, si se desea
tener una confianza del 960/0 de que la media muestral difiera en menos de 10 horas de
la media poblacional?
4] 4
( (3,6) (3,1355); (3,6) (3,6365)
J=(0,35 ; 4,04)
Solución
23 24
Tema 5 . Inferencia EstmJúticu: Estimación
P±z(a/2)jP!
~~
Q. Q.
N~
n -e !:;.
"n
" "nen o
::l ~ ,.,
-l
o o o :::> 3
!:?
::l
o
n
::l
o
n
Q.
~
""
'" '"
La amplitud de este intervalo es 2z(a/2)jP!. El problema con este fónnula es que no o: o: ~
1>
-Q'"
11
amplitud 2L, es decir P± L, ~~
Q
~Ct
~
11
L =z(a/2)~){,
Q
y entonces,
-";. :>':1 _:>':1 ~
z2(a/2)
n = -2 ~ I I ,
_:>':1
~ :>':1 :>':1 l§"
'"
:;;
4L ;~'
:>':1 ,:<1 N:>':I ~ ':
..,S" "
'~
Ejemplo 5.12
r'
Calcular el tamaño de muestra que se debe tomar para estimar una proporción. si se s,
~
desea que el intervalo del 95% sea del tipo p± L. para valores de L = 0,1; 0.05; 0.01. _:>':1 _:>.:/ _:>':1 ::;::
~
~ --
N";.I-~ :: +I .J--I~I
~:>':I
.... ~ ~:>':I- I-,"-
...- '"~ :S"
I~
v, -;'" 1 ~
Solución ClCl- -~ :: 1- - I:>':1 ::
~""'-N J-.. + J v, 1:>':1 [
~
Q Q
• (1,96)2 ::!v, ~ ~IQ ~ ~ ~----
AqU!, z(O,025) = 1,96. Entonces, n =~. Luego, cuando: l ~ ""' .... ~
+
"",:::1-:- ",- ""''''''¿ ~ ¿., 1= ¿., 1= 1 ---- 1 ::l
e.,
~
,">1 '-----" I '-----" I 1 I I I $
.
1)
(1,96)2 6
L=OI' n=--=9 04.
, , 4(0,1)2 '
-,
:
.:~
~
1=
....
--
1=
,...
I
--
1=
,... ~
~
~-
-
3?
o
S
~
2
~.
~
g:
~
<
§.
ii) L = 0,05; n = (I,96Y, 384,16. ~
,
4(0,05)
~ ~
"",t.,NI_t.-,
,">1 ...-..
~ ~
~~
•
::
_>-el
J
1
:-:1 _"1
,_ "<1 :::....- I :: ;:
Q :::....-
~~ ~ ~ 1+
1+ "<1:::-" 1 "', :-:,;:;
~
-
<~
1+
~ I+!::::-- "'," ~~
:::....- 1+::;
.~ JJ ;tJ~ ~I~
,!:i.... 2.
Q ,
Q-~
N ...-.. Q ::l
~"',"I_"'," ~ ~ ~ ~ <-/'"
~~
- ...-.. Q"
.e.
IV - ' N ~ .......... ::l
1 '" ::
~
, 'J
" _:: 1-'"
+ ~
,..-----------...........
"'~ -
:: I- ~
:::-.. ::
Q -
,
1
.::=.
¿.,/ '" ::
-,
::
Z N:: I'';-'N
'---' + ,.:: 1.~ I~ Q "',. ;
" "" .~ 1
'----"
Tema 5 - /llfc'rcllcia Estadútica: Esril1UlcÍÚll
- ....., ~ 1""0
::: -...,
~
~
-1=
~
:F 1=
oS'
¡::
Q
1=
Q
~
:::
~
5.6 Ejercicios
I~~ ~
"'t
I I I o ~~
J: ~
1= 1= 1= o- o- (J :::
o
~
'=J ~ ~
~ ...,~
N N N t;;'" ti: ~ t'.l 5.6.1 Los contenidos de 7 recipientes similares de ácido sulfúrico son: 9,8 , 10,2 , 10,4 ,
~ (J (J
o
oS' Q ~
~
~ ('")
o Q 6~ o ('") o 9,8 , 10,0 , 10,2 Y9,6 litros. Encuentre una estimación puntual, y un intervalo de
c' O""
-N -N
::;, ~
on e: ~
~ S '< '< c.. e confianza del 950/0, para la media de todos los recipientes de este tipo, suponiendo
t'.l
----.
n
o· NN
Q Q
NN
~
--o e
~
...~ que la población es normal.
~
o
~ o
::J (J
~ n
:n
o ~.
~ en
(J
::s CI'}
t'.l
:::¡ c.. o O
(J
O
::;, 5.6.2 En una muestra aleatoria simple de 1000 casas de una ciudad, se encuentra que
~ ::s
~ 228 de ellas tienen calefacción de petróleo. Halle una estimación puntual y un
~
~
~
~ o
o (J t.'
en
...,
~ ~.
en
a:
p;
'-" intervalo de confianza del 99% para la proporción de hogares en la ciudad que
~> ~
~
§ o ~ tienen este tipo de calefacción.
~ 2.
~.
",,=>
~
;:P> ~
2'"
""':
5.6.3 Una muestra de tamaño 1Ode una distribución N(~1'225) resulta con Xl =170,2
Yotra de tamaño 12 de N(Jl2,256) conduce a x2 = 176,7. Encuentre una
estimación puntual y un intervalo del 96% para Jl 1- Jl2 .
I~§.
_><1 _><1 _~I c..:
I I I ><1 5.6.4 Se está considerando cambiar el procediJniento de fabricación de componentes. Se
-~>
....~I ....><1 N><I
~l ~I
~
~
o
..., ~
toman muestras, tanto del procedimiento actual como del nuevo, para detenninar
si este último resulta ser mejor. Si 75 de los 1500 componentes del procedimiento
I~>
I ::
~
,"3=> ~I""=>I ~
... 1
-- I~> actual presentaron defectos y lo mismo sucedió con 80 de 2000 componentes del
1 --1""=> ~ "'""
+ J- - l~> ~ ~ ~
nuevo procedimiento, determine una estimación puntual y un intervaJo de
Ir"}:> ""= 1 ~ ~
confianza del 900/0 para la diferencia real de las proporciones de componentes
'" I~> 1 3 ~ _><1 ~ _><1 ~
;:; defectuosos entre los dos procesos.
1 ""
~o ~ J I I :s.
~I~~ ~;g;:
I-ct ~;w:::
l-~ ~ ~I ~I ~I ~I ~I ~I ~
N
~
~.
-J f.o)
1 B 5.6.5 Una compañía contrata diez tubos de filamentos de tipo A Ydiez de filamentos de
3 -5 ~ + ~11= ~1= ~1=
I + I + I ::: ~
~o o ~.
,..: : : I,. .><1 1?"
- "";: I,..Q>"" í='
- ,:::
.. /,9,.. í?'
- 1 1 1 o~
~. tipo B. Las duraciones de vida observadas han sido:
~
;.< r"')
~
~
.....-.. I I 13 =<: 3~
~
1= 1= 1= o 'O o~· Tipo A: 1614 1094 1293 1643 1466 1270 1340 1380 1028 1497
-5
a ~ ~ ~ --- --- ::; s. Tipo B: 1383 1138 1092 1143 1017 1061 1627 1021 1711 1065
)< 1 lIt,;' ";:' '2 ~ 5.
..: 3 <: <: ~ -6 ~ ~ . g'
-. -. o ..., o ~
~o
-.
t.:
~
~
.....-..
~
-
~
-.
t.:
r
~
~?<~
~ ~-
a) Suponiendo que las poblaciones son normales y las varianzas soñ iguales,
encuentre un intervalo de confianza del 950/0 para la diferencia de medias.
b) Resuelva el apartado a) suponiendo las varianzas desiguales.
- ~>
"O
ax
"O
a
x
..:-
-o
o
)<
~
~
~
5.6.6 Un fabricante de baterías para coches asegura que sus baterías duran, en promedio,
- l}=> ~
",,=> 3 años con una varianza de 1 año. Si 5 de estas baterías tienen duraciones de 1,9,
1+
1+
N i 2,4 , 3,0 , 3,5 Y4,2 años, determine una estimación puntual y un intervalo de
--
N ~
Q .-......
-- ~
Q
~ 18
~ :;1 _~I :;J
::--
confianza del 95% para la varianza verdadera. ¿Es creíble la afirmación del
l'
~
I I I fabricante sobre el valor de la varianza? (Suponga que la población de las
~ ::1 ~ ~I ' ~I ~ duraciones de las baterías se distribuye en fonna normal.)
::: I~> :: l:g: 1+
~
1+
1+ 1+ ;.el 1+ ~
- ~> N
N
_ _N 1+
N N ~
N
Q'C
Q ~. ~
+
::: 1,"5= > --
~ --
'Q'
lV
_lV ~
N
'Q'
-l--.)
-
~ ~
5.6.7 En la comparación de las economías de combustible para dos tipos de coches
diesel, se utilizaron 12 coches Volkswagen y 10 Toyota en pruebas a vel~idad
:w
::¡:~
'''''
_::: I-~I
fija de 90 km./h. Para los 12 Volkswagen se obtuvo una media de 16 kilómetros
+ por litro y una desviación típica de 1.0 km.!l. Para los 10 Toyota la media fue de
" ,: : I,~I
+ 11 km.!l y la desviación típica de 1.8 km.!l. Suponiendo que las distancias por litro
- 1,,,Q....
,: > ,: I,-Av ~
28