Tema 5 Castella

Muestreo Estadístico
Tema 5. Estimadores de razón, diferencia y regresión
1. Introducción. Uso de estimadores auxiliares: Estimadores de razón, dife-

rencia y regresión
El uso de variables auxiliares para mejorar la precisión de nuestras estimaciones es una idea que ya hemos
visto de manera indirecta. En efecto, la estratificación se puede interpretar como un ejemplo, ya que los estratos
se definen homogéneos respecto de una o diversas variables auxiliares, relacionadas con la variable de interés.
El objetivo de este capítulo es ver cómo se puede explotar de otra manera esta misma idea de utilizar una
variable auxiliar más conocida, con respecto a su comportamiento poblacional, que la que nos interesa.
Suponemos que queremos estimar una media µy de una variable y y que conocemos la media µx de una
variable auxiliar x, y que podemos plantearnos un modelo funcional del tipo y = f (x), que para simplificar
supondremos lineal, es decir, con f (x) = a + bx. Si escogemos una muestra de tamaño n de nuestra población
podemos observar Y1 , . . . , Yn y X1 , . . . , Xn y a partir de estas observaciones, estimar de alguna manera los
parámetros a y b. Si las estimaciones de éstos parámetros son â y b̂ podemos estimar µy mediante el estimador
µ̂y = â + b̂µx
y aprovechar así el hecho que conocemos µx . El estimador µ̂y , que utiliza información auxiliar proporcionada
por la variable x ¿es mejor que Y ?
En la primera parte del capítulo queremos estimar una razón o ratio

µy
r= ,
µx
que se estima mediante el estimador

Y
rb = .
X
Hay que distinguir dos situaciones:
1. Estamos interesados directamente en la razón r. Por ejemplo, queremos estimar la proporción de los
ingresos familiares que se dedican a pagar la vivienda.
2. Utilizamos la estimación de r para estimar µy o el total ty . Por ejemplo, queremos estimar la media de los
ingresos familiares que se dedican a pagar vivienda, y conocemos la media µx de los ingresos familiares.
Entonces estimamos la razón r por rb y se propone el estimador
µ
by = rbµx .
Notad que este caso es la situación que hemos comentado al principio con a = 0.
En la segunda parte del capítulo consideraremos el caso en que se define una variable diferencia d =
y − x, cuya media se estima mediante un estimador D, y este estimador se utiliza para estimar µy mediante el
estimador µ
by = µx + D. Este caso corresponde, en el planteamiento inicial, a b = 1.
Finalmente en la tercera parte se considera el caso general con a 6= 0 y b 6= 1.

2 Estimadores de razón
2. El estimador de razón
Empezamos planteando dos ejemplos.
Ejemplo 1. Supongamos que un auditor quiere valorar (en dinero) el conjunto de los bienes inventariables
de una empresa; llamamos y al valor de un bien. La empresa tiene un inventario hecho unos años antes, que
considera desfasado. Una primera posibilidad para actualizar el valor del inventario es olvidar el inventario
anterior, escoger una muestra de bienes y valorarlos, Y1 , . . . , Yn , y calcular su total TY y el total modificado
TY0 , que es un estimador sin sesgo de ty . Este método prescinde totalmente del inventario anterior.
Otra posibilidad es utilizar el inventario anterior; llamamos x a la variable que da el valor de un bien en
aquel inventario. Entonces se escoge una muestra de elementos del inventario, de los cuales se tiene su valor
inventariado X1 , . . . , Xn y se evalúa también su valor actual Y1 , . . . Yn . Evidentemente se conoce tx que es el
valor total registrado en el inventario y el objetivo del auditor es estimar ty . Si se define
ty µy
r= = ,
tx µx
se tiene que ty coincide con r tx . Por lo tanto el problema se reduce a estimar r. Normalmente se utiliza
Y
rb = .
X
En resumidas cuentas, hemos visto dos maneras de estimar ty : primero TY0 y después rb tx . ¿Cuál de los dos
estimadores es mejor?
Observación. Hay que notar que el estimador TY0 = (N/n) TY = N Y utiliza el tamaño total de la población
N , y hay situaciones en que no es fácil conocerlo, como veremos en el siguiente ejemplo.
Ejemplo 2. Supongamos que estamos interesados en comprar un cargamento de naranjas, las cuales se valoran
por la cantidad de azúcar que contienen y no por su peso. La cantidad de azúcar está relacionado con el peso,
pero la relación es diferente en función de la variedad, la partida, etc ... Para medir la cantidad de azúcar,
evidentemente hay que destruir la naranja.
Designamos por y la cantidad de azúcar de una naranja y por x su peso. La primera posibilidad es escoger
una muestra de naranjas, calcular su cantidad total de azúcar ty y después estimar ty por TY0 , o bien, equiva-
lentemente, calcular la media de azúcar en la muestra Y y después estimar la cantidad total de azúcar con el
estimador N Y . Aquí el problema añadido es que desconocemos N.
Otra posibilidad es aprovechar el hecho de que podemos calcular el peso total del cargamento simplemente
pesando el camión y quitándole la tara, es decir, es fácil conocer tx . Por otra parte, a partir de la muestra
podemos calcular X y rb = Y /X, y entonces, podemos estimar el total de azúcar ty mediante el estimador
rb tx . Evidentemente, para la muestra de naranjas escogida tendremos que calcular ahora el peso y la cantidad
de azúcar de cada una de ellas.
3. El estimador de razón, su sesgo y varianza

Tenemos una población de tamaño N y dos variables, la que centra nuestro interés y y la que utilizamos
como auxiliar x. Queremos estimar la razón
ty µy
r= = ,
tx µx
donde
N
X N
X
tx = xi y ty = yi
i=1 i=1
Tema 5 3
y
N N
1 X tx 1 X ty
µx = xi = y µy = yi =
N N N N
i=1 i=1
Tomamos una muestra de tamaño n sobre la que medimos x e y, y obtenemos X1 , . . . , Xn y Y1 , . . . , Yn . Como

es habitual, consideramos
Xn X n
TX = Xi y TY = Yi .
i=1 i=1
Queremos estimar r mediante el estimador
Y TY
rb = = .
X TX
Ejemplo. Consideramos la situación del inventario de un negocio de venta de muebles con 5 productos, y
designamos por y el valor actual y por x el precio de un inventario de hace 5 años.
Producto 1 2 3 4 5 Total
y 350 600 205 180 300 1635
x 230 480 180 140 280 1310
Cuadro 1. Valores de las variables x e y en la población, y totales poblacionales tx y ty
La razón entre los precios actuales y los de hace 5 años para estos muebles es
r = 1,248
Tomamos una muestra de tamaño 2. Las muestras posibles están en el Cuadro 2.
Muestra 1-2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5
TY 950 555 530 650 805 780 900 385 505 480
TX 710 410 370 510 660 620 760 320 460 420
rb 1.338 1.354 1.432 1.274 1.220 1.258 1.184 1.203 1. 098 1.143
Cuadro 2. Distribución del estadístico rb
Entonces,
r] = 1,25
E[b y Var(b
r) = 0,009.
La diferencia entre r = 1,248 y E[b r] = 1,25 no es debida a un error de redondeo, sino a que el estadístico rb
tiene sesgo, pero el sesgo tiende a 0 cuando n → ∞. Por otra parte, es un estimador consistente ya que las
medias muestrales convergen en las poblacionales al aumentar el tamaño de la muestra.
En relación a la varianza de rb, las fórmulas son más complicadas de lo que hemos visto hasta ahora,
ya que tanto el numerador como el denominador son variables aleatorias. Cuando el coeficiente de variación
(poblacional) de x, Vx = σx /µx , es menor que 0.05, la varianza de rb se puede aproximar por
r2 N − n 2
r) ≈
Var(b Vx + Vy2 − 2ρxy Vx Vy ,
n N −1
donde Vy = σy /µy es el coeficiente de variación (poblacional) de y y ρxy es el coeficiente de correlación

(poblacional) entre x e y:
PN PN
i=1 (xi − µx )(yi − µy )/N (xi − µx )(yi − µy )
ρxy = = qP i=1 .
σx σy N 2
PN 2
(x
i=1 i − µ x ) (y
i=1 i − µ y )
En el ejemplo,
Vx = 2,15, Vy = 2,75 y ρxy = 0,97,
y se obtiene la estimación para Var(b

r) de 0.42, que es muy diferente de la real (hay que tener presente que Vx
no cumple la condición de ser ≤ 0,05).
En la práctica, sin embargo, todos los parámetros poblacionales son desconocidos, y entonces para la va-
rianza se utiliza la estimación
\ rb2 N − n b 2 b 2
Var(b
r) = VX + VY − 2b
ρXY VbX VbY ,
n N −1
donde
r r
N − 1 SX b N − 1 SY
VbX = , VY =
N X N Y
y
Pn Pn
i=1 (Xi − X)(Yi − Y )/(n − 1) (Xi − X)(Yi − Y )
ρbXY = = qP i=1 .
SX SY n
(X − X)2 n (Y − Y )2
P
i=1 i i=1 i
Finalmente, bajo hipótesis bastante generales, la distribución asintótica de rb es normal. Para muestras mo-
deradas, la distribución tiene, en general, una cierta asimetría positiva. En general, podemos considerar que no
hay problemas graves al utilizar rb si la muestra es bastante grande. En este caso, podemos suponer normalidad,
y podemos considerar válida la estimación de la desviación típica. Como norma de uso, se exige n ≥ 30 y que
r
1 N − n SX
≤ 0,05.
n N X
Entonces, un intervalo de confianza de nivel γ para r viene dado por
q
\
rb ± z Var(b
r),
donde z es el valor correspondiente de la ley normal para el nivel de significación γ.

Tema 5 5
Estimación de una razón
Parámetro poblacional
ty µy
r= = .
tx µx
Estadístico muestral
Y TY TY0
rb = = = 0
.
X TX TX
Varianza teórica
r2 N − n
r) ≈
Var(b Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1
Varianza estimada
rb2 N − n b 2
\
Var(b
r) = VX + VbY2 − 2ρbXY VbX VbY ,
n N −1
donde
r r Pn
N − 1 SX b N − 1 SY i=1 (Xi− X)(Yi − Y )
VbX = , VY = y ρbXY = qP .
N X N Y n
(X − X) 2
Pn
(Y − Y ) 2
i=1 i i=1 i
Intervalo de confianza aproximado para r de nivel γ

q
\
rb ± z Var(b r).
3.1. Tamaño muestral

a. Error absoluto. Fijado un límite para el error absoluto δ, es decir, que la semilongitud del intervalo de
confianza sea menor que δ, trabajando con la varianza teórica de r, tenemos que
p
z Var(b r) ≤ δ,
de donde podemos aislar n y obtenemos

z 2 r2 N Vx2 + Vy2 − 2ρxy Vx Vy
n≥ ,
z 2 r2 Vx2 + Vy2 − 2ρxy Vx Vy + (N − 1)δ 2
donde r, Vx , Vy y ρxy tienen que ser conocidos o estimados a partir de una encuesta piloto.
b. Error relativo. Si queremos fijar un error relativo , de manera que

p
z r) ≤ r,
Var(b
entonces el tamaño muestral da

z 2 N Vx2 + Vy2 − 2ρxy Vx Vy
n≥ .
z 2 Vx2 + Vy2 − 2ρxy Vx Xy + (N − 1)2
4. Estimación de un total mediante un estimador de razón

Al ejemplo del inventario que hemos visto antes no estábamos interesados en estimar r sino en ty . Pero
ahora podemos utilizar que tx = 1,310 es conocido, ya que es el valor total del inventario de hace cinco años.
Dado que
ty
r= ,
tx
tenemos que
ty = r tx .
Entonces podemos estimar ty por
TY00 = rb tx .
Por ejemplo, si hemos obtenido la muestra 1-3, con rb = 1,354, tendremos
TY00 = 1,354 × 1310 = 1773,74.
Notamos que el estimador ordinario de ty , TY0 , vale

5
TY0 = × 555 = 1387,5.
2
Tenemos que
E[TY00 ] = tx E[b
r],
de manera que, debido a que rb tiene sesgo, también TY00 tendrá sesgo, pero tenderá a 0 al aumentar el tamaño de
la muestra. Además,
r2 N − n 2
Var(TY00 ) = t2x Var(br) ≈ t2x Vx + Vy2 − 2ρxy Vx Vy ,
n N −1
que en la práctica se puede estimar por
2
\00 ) = t2 rb N − n Vb 2 + Vb 2 − 2b

Var(TY x X Y ρXY V
bX VbY . (1)
n N −1
La fórmula para el tamaño muestral es la misma que hemos visto antes.
Estimación de un total mediante un estimador de razón
TY00 = rb tx ,
donde
Y
rb =
X
Varianza teórica
r2 N − n
Var(TY00 ) ≈ t2x Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1
Varianza estimada
2
\00 ) = t2 rb N − n Vb 2 + Vb 2 − 2ρbXY VbX VbY .

Var(T Y x
n N −1 X Y
Tema 5 7
4.1. Comparación de los estimadores TY0 y TY00
Recordamos que TY = ni=1 Yi es el total muestral de la variable y y TX = ni=1 Xi es el total muestral de

P P
PN
x, rb = TY /TX es el estimador de la razón poblacional r = ty /tx , donde tx = i=1 xi es el total poblacional
de x, que suponemos conocido. También,
N
TY0 = TY y TY00 = rb tx .
n
En primer lugar, recordamos que TY0 no tiene sesgo, mientras que TY00 sí, pero lo consideramos despreciable. La
varianza de TY0 la podemos escribir de la siguiente forma:
N2 N2 N − n 2 N2 N − n 2 2 1 N −n 2 2
Var(TY0 ) = Var(TY ) = σ = µ V = t V ,
n2 n N −1 y n N −1 y y n N −1 y y
mientras que la varianza de TY00 es
r2 N − n 2 1 N −n
Var(TY00 ) ≈ t2x Vx + Vy2 − 2ρxy Vx Vy = t2y Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1 n N −1
Entonces
Var(TY00 ) Vx2 + Vy2 − 2ρxy Vx Vy
≈ ,
Var(TY0 ) Vy2
de donde Var(TY00 ) < Var(TY0 ) si y sólo si
Vx2 + Vy2 − 2ρxy Vx Vy < Vy2 ,
que equivale a
Vx
< 2ρxy .
Vy
Por lo tanto, si suponemos que los coeficientes de variación de x y de y son aproximadamente iguales (lo cual
es razonable en muchas situaciones), como mayor sea el coeficiente de correlación entre x y y, mejor irá TY00
que TY0 .
5. Estimación de una media con un estimador de razón

Definimos el estimador de razón de la media µy por
Y R = rb µx .
Como para el estimador de un total, todas las propiedades son muy fáciles de deducir.
Estimación de una media con un estimador de razón
Y R = rb µx ,
donde
Y
rb = .
X
Varianza teórica
r2 N − n
Var(Y R ) ≈ µ2x Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1
Varianza estimada
2
\ ) = µ2 rb N − n Vb 2 + Vb 2 − 2ρb Vb Vb .

Var(Y R x XY X Y
n N −1 X Y
6. Estimación de la razón y muestreo estratificado

Suponemos para empezar que tenemos muestras lo bastante grandes en cada estrato de manera que podemos
utilizar la aproximación de la varianza del estimador de razón, y que podemos obviar el sesgo. Se pueden definir
dos tipos de estimadores de razón en muestreo estratificado:
Uno consiste en estimar la razón entre µy y µx en cada estrato y después hacer una media ponderada de
estas estimaciones. Este estimador se llama estimador de razón separado, y se define por
L
X tx,k Y k
rbs = ,
tx X k
k=1
donde tx,k es el total de la variable x en el estrato k, tx es el total de x en toda la población, y Y k y X k

son las medias muestrales en el estrato k. Una fórmula equivalente es
PL 00
k=1 TY,k
rbs = ,
tx
00 es el estimador del total de y en el estrato k basado en la razón r Yk

donde TY,k bk = , que hemos definido
Xk
en la sección anterior:
00 Yk
TY,k = tx,k
Xk
El otro consiste en estimar primero las medias globales de cada variable con el estimador usual del
muestreo estratificado, y después estimar la razón mediante el cociente de los estimadores. Éste estimador
se llama estimador de razón combinado.
Y est
rbc = .
X est
La varianza del estimador de razón separado se puede calcular, suponiendo que tx es conocido,
L
1 X 00
Var(b
rs ) = Var(TY,k ),
t2x
k=1
Tema 5 9
donde cada Var(T00Y,k ) se puede aproximar por la fórmula (1) de la página 6 en cada estrato. El problema de este
estimador es que esta varianza es aproximada, y que el sesgo puede ser importante. Por lo tanto, el estimador
sólo es claramente útil si el tamaño de la muestra en cada estrato es bastante grande.
Respecto del estimador de razón combinado, tenemos
L
1 X Nk2 (Nk − nk ) 2 2 2

rc ) ≈
Var(b σ y,k + r σ x,k − 2rρxy,k y,k x,k ,
σ σ
N 2 µ2x nk (Nk − 1)
k=1
donde r es la razón global en toda la población.
Usualmente, el sesgo de este segundo estimador es menor. Por otro lado, no se hace una estimación de cada
rk , y por lo tanto, el estimador es válido aunque algunas muestras de algunos estratos no sean muy grandes.
La varianza del estimador de razón separado es en general menor. Por tanto en principio es un estimador
más adecuado. El problema está en que puede tener un sesgo grande si no hay bastante muestra en cada estrato.
En caso de muestras pequeñas, es mejor el estimador combinado. Si suponemos que las razones son iguales en
todos los estratos, también es mejor usar el estimador combinado.
7. Estimación de diferencia
En algunas situaciones, dada la variable de interés y de la cual queremos estimar su media µy , y una variable
auxiliar x, se define la variable d = y − x y el parámetro µd = µy − µx . Dada una muestra X1 , . . . , Xn y
Y1 , . . . , Yn , definimos
Di = Yi − Xi ,
y se plantea el uso del estimador de µy definido por
Y d = µx + D
donde evidentemente D = Y − X
Las propiedades de este estimador son las siguientes:
1. Se trata de un estimador sin sesgo ya que E(Y d ) = µx + µy − µx = µy .
2. Su varianza es la varianza de D:
Var(Y d ) = Var(µx + D) = Var(D).
Por lo tanto, si suponemos que la selección de la muestra se hace utilizando muestreo aleatorio simple
sin reposición,
N −n
Var(Y d ) = σ2
(N − 1) n d
Dado que
di − µd = di − (µy − µx ) = (yi − µy ) − (xi − µx ),
se deduce fácilmente que
σd2 = σy2 + σx2 − 2ρxy σx σy .

3. La estimación de la varianza será
\ ) = N − n S2 ,
Var(Y d
Nn D
donde
n
2 1 X
SD = (Di − D)2 .
n−1
i=1
4. El estimador Y d es mejor que la media muestral Y , en el sentido que tiene varianza más pequeña, si y
sólo si
σd2 ≤ σy2 .
Por lo tanto, si y sólo si
σy2 + σx2 − 2ρx,y σx σy ≤ σy2 .
Simplificando la desigualdad y aislando la correlación ρ se obtiene
1 σx
ρx,y ≥ .
2 σy
Estimación de una media por un estimador de diferencia
Y d = µx + D
donde
D = Y − X.
Y d es un estimador de µy sin sesgo:
E[Y d ] = µy
Varianza teórica
N −n
Var(Y d ) = σd2 .
(N − 1) n
Varianza estimada
\ ) = N − n S2 ,
Var(Y d D
Nn
donde
n
2 1 X
SD = (Di − D)2 .
n−1
i=1
8. Estimadores de regresión
8.1. Estimador de regresión de la media
Supongamos que las variables x y y tienen una relación aproximadamente lineal:
y ≈ a + bx.
Entonces, también aproximadamente

µy ≈ a + bµx .
Si tomamos una muestra X1 , . . . , Xn y Y1 , . . . , Yn , dado que E[X] = µx y E[Y ] = µy , tendremos

E Y − b(X − µx ) ≈ µy .
Tema 5 11
Entonces se define un estimador por µy , llamado estimador de regresión, por
Y L = Y − b(X − µx ).
(La L viene de regresión Lineal). Este estimador depende del parámetro b, y por lo tanto, primero de todo hay
que suponer un valor para b o bien hacer una estimación a partir de una muestra. Observamos que si b = 0 se
obtiene Y L = Y es decir, el estimador coincide con la media muestral ordinaria. En cambio si b = 1 se tiene
Y L = Y D , el estimador de la diferencia de la sección anterior.
Analizaremos primero el caso en que se determina previamente b, para pasar después al caso en que se
estima b. De manera más rigurosa, consideramos
yi = a + bxi + εi , i = 1, . . . , N,
PN
donde i=1 εi = 0.
1. Si b es una constante conocida, entonces el estimador Y L tiene las propiedades siguientes:

1. Es no sesgado ya que
E(Y L ) = µy − b(µx − µx ) = µy .
2. Para calcular su varianza definimos primero la variable u = y − b(x − µx ). Entonces el estimador Y L

coincide con U , donde Ui = Yi − b(Xi − µx ). Por lo tanto,
N −n
Var(Y L ) = σ2
(N − 1) n u
y
σu2 = σy2 + b2 σx2 − 2bρxy σx σy ,
de donde
N −n
σy2 + b2 σx2 − 2bρxy σx σy .

Var(Y L ) = (2)
(N − 1) n
Su estimación es
\ ) = N − n S 2 + b2 S 2 − 2bρd S S .
Var(Y L Y X XY X Y
Nn
2. Si hay que estimar b, entonces un criterio razonable es encontrar b que minimice Var(Y L ). Derivando (2)
respecto de b e igualando a cero se obtiene
PN
σy i=1 (xi − µx )(yi − µy )
b = ρxy = PN ,
σx i=1 (xi − µx )
2
que es exactamente la pendiente de la recta de regresión poblacional.

La varianza de Y L para una muestra grande es
N −n
σy2 1 − ρ2xy ,

Var(Y L ) =
(N − 1) n
σ
donde hemos sustituido b por este valor óptimo b = ρxy σxy .
En la práctica esta b óptima no se conoce y se estima por
Pn
SY (Xi − X)(Yi − Y )
b̂ = ρd
XY = i=1 Pn 2
,
SX i=1 (Xi − X)
que, de nuevo, es la fórmula para la pendiente de la recta de regresión muestral. La estimación de la varianza
de Y L (para n grande) es
\ ) = N − n S 2 1 − ρd 2 .
Var(Y L XY
Nn Y
Estimación de una media por un estimador de regresión con estimación del

parámetro
YL = Y −b
b(X − µx ),
donde Pn
i=1 (Xi − X)(Yi − Y)
b̂ = Pn 2
.
i=1 (Xi − X)
Varianza estimada (n grande)
\ ) = N − n S 2 1 − ρ[ 2 .
Var(Y L Y XY
Nn
8.2. Estimador de regresión de un total

A partir del estimador de regresión de µY
Y L = Y − b(X − µx )
definimos el estimador de regresión del total TY por
00
TY,L = N Y L = TY0 − b(TX0 − tx ),
n
N X
donde TY0 = 00 es un estimador sin sesgo
Yi , y análogamente TX0 . Si b es un valor conocido, entonces TY,L
n
i=1
00 tenemos
de ty . Si hay que estimar b a partir de la muestra, entonces, por la manera cómo hemos construido TY,L
que el valor óptimo de b es el de antes y se estima por
Pn
SY (Xi − X)(Yi − Y )
b̂ = ρdXY = i=1 Pn 2
.
SX i=1 (Xi − X)
00 = N Y una estimación de la varianza de éste estimador.
También se deduce del hecho que TY,L L
Estimación de un total por un estimador de regresión con estimación del parámetro
00
TY,L = TY0 − b 0
b(TX − tx ),
donde Pn
i=1 (Xi − X)(Yi − Y)
b=
b Pn 2
.
i=1 (Xi − X)
Varianza estimada (n grande)
\ 00
N (N − n) 2 2
Var(T Y,L ) = SY 1 − ρ[
XY .
n
Tema 5 13
9. Problemas
1. El departamento de I+D de una empresa de carburantes está desarrollando un nuevo aditivo que añadido
a la gasolina reduciría la emisión de gases contaminantes. Para hacer pruebas, el departamento dispone de
un parque automovilístico de 763 coches para los que el tiempo en completar el circuito de pruebas de la
empresa (sin aditivo) es de µ = 17,2 segundos. (Suponed que en las pruebas de circuito el factor humano de
conducción es negligible, por tener pilotos con niveles similares). Se cree que además de reducir la emisión
de gases contaminantes, el nuevo aditivo también mejora la potencia del motor y por eso se prueban 11
coches en el circuito con los resultados siguientes,
Coche Con aditivo Sin aditivo

1 14,3 15,2
2 15,7 16,1
3 17,8 18,1
4 17,5 17,6
5 13,2 14,5
6 18,8 19,4
7 17,6 17,5
8 14,3 14,1
9 14,9 15,2
10 17,1 17,1
11 19,2 19,5
Utilizando como variable auxiliar el tiempo que un coche tarda en hacer el circuito y el estimador de la
razón, estimad el tiempo medio que tardan los coches con el nuevo aditivo en el carburante en completar el
circuito y estableced un límite para el error de estimación.
2. Se cree que ciertos organismos son sensibles a la luz solar de manera que la exposición moderada potencia
su crecimiento. En un laboratorio se dispone de 100 de estos organismos de los que se conoce por un estudio
previo la longitud media de 3,1 cm. Durante tres semanas se expone los organismos a luz solar moderada.
En finalizar el experimento se seleccionan al azar 10 organismos y se les vuelve a medir la longitud con los
resultados (medidos en centímetros),
Organismo Longitud inicial Longitud final

1 3,2 4,1
2 3,0 4,0
3 2,9 4,1
4 2,8 3,9
5 2,8 3,7
6 3,1 4,1
7 3,0 4,2
8 3,2 4,1
9 2,9 3,9
10 2,5 3,5
a) Comentad el porqué de la utilización de un estimador de razón en esta situación.

b) Estimad la longitud media final y estableced un límite para el error de estimación.
3. Un investigador tiene una colonia de 500 ratas que han estado sometidas a un fármaco, y el tiempo de
reacción a un estímulo fue de 8.8 segundos. El investigador quiere verificar que una combinación del fármaco
inicial con alcohol hace aumentar el tiempo de reacción. Somete a las ratas de la colonia a la combinación,
toma una muestra aleatoria de 12 ratas y mide los nuevos tiempos de reacción. Los resultados (medidos en
segundos) fueron los siguientes,
Rata Fármaco Combinación

1 8,15 8,97
2 9,19 9,92
3 6,90 7,52
4 9,84 10,93
5 2,00 7,68
6 2,60 8,28
7 13,23 14,28
8 10,67 11,52
9 7,89 8,75
10 5,73 6,42
11 8,34 9,09
12 10,49 11,22
Estimad el tiempo medio de reacción de las ratas sometidas a la combinación fármaco y alcohol y estableced
un límite para el error de estimación.
4. Una cadena de pequeños supermercados de ámbito local está interesada en verificar el efecto de una nueva
campaña de promoción sobre las ventas totales de cierto producto. Se selecciona una muestra aleatoria
simple de 20 puntos de venta de entre los 452 supermercados de la cadena y se obtienen los datos referentes
a las ventas totales (en euros) del producto para los tres meses previos a la campaña y durante los tres meses
posteriores:
Punto Previo X Posterior Y Punto Previo X Posterior Y

1 208 239 11 599 626
2 400 428 12 510 538
3 440 472 13 828 888
4 259 276 14 473 510
5 351 363 15 924 998
6 880 942 16 110 171
7 273 294 17 829 889
8 487 514 18 257 265
9 183 195 19 388 419
10 863 897 20 244 257
a) Estimad ty , el total de ventas para el periodo posterior y estableced un límite para el error de estimación
suponiendo que el total de ventas para el periodo previo a la campaña ha sido de 216.256 euros.
b) Determinad el tamaño de muestra necesario para estimar ty con un límite para el error de estimación
de 1.000 euros
5. En la prensa especializada se comentó que el regalo estrella de las fiestas navideñas del año 2009 fueron las
pantallas planas, y una compañía informática quiso estimar el total de ventas de estas pantallas al final del
periodo navideño. Se disponía también de las ventas de este tipo en todos los puntos de venta que tiene la
compañía en el estado para el periodo correspondiente del año 2008. Se seleccionó una muestra aleatoria
simple de 13 de los 123 puntos totales que tiene la compañía en todo el estado con los siguientes resultados,
Tema 5 15
Punto Navidad 2008 Navidad 2009

1 550 610
2 720 780
3 1500 1600
4 1020 1030
5 620 600
6 980 1050
7 928 977
8 1200 1440
9 1350 1570
10 1750 2210
11 670 980
12 729 865
13 1530 1710
a) Conociendo que el total de ventas el año 2008 fue de 128.200 euros y utilizando un estimador de razón
estimad el total de ventas del año 2009 de pantallas planas. Estableced también un límite para el error
de estimación.
b) Con los datos del apartado anterior estimad las ventas medias de cada punto de venta y estableced
también un límite para el error de estimación.
c) Estimad las ganancias medias utilizando un estimador de regresión en lugar del de razón. Comparad
los resultados.
6. Para estimar el número de participantes en una manifestación se propone un nuevo método basado en la
fotografía aérea. Se divide el total del recorrido principal de la manifestación en 200 parcelas de 10 metros
cuadrados y se estima el número total de personas en cada una de las parcelas en función de la información
aérea. Con este método, se postula que el total de participantes es de 4200. Por otro lado, en 10 de las
parcelas se cuentan a los participantes reales que había en el momento de tomar las fotografías con los
resultados siguientes,
Parcela Aérea Real

1 12 18
2 30 42
3 24 24
4 24 36
5 18 24
6 30 36
7 12 14
8 6 10
9 36 48
10 40 50
Estimad el total de participantes en la manifestación usando un estimador de regresión. Comparad el resul-

tados obtenido con el de 4200 personas que se obtiene sin utilizar el estimador de regresión.
7. En el almacén de una empresa se dispone de 45 artículos inventariados con un valor establecidos en el libro
de cuentas de 2174.2 euros. Esta empresa sufre una auditoría en la que se toma una muestra aleatoria de 10
artículos y se anota el valor en el libro del artículo y el valor real del producto. Los resultados son
Artículo Libro Real

1 13,6 14,5
2 37,7 42,7
3 15,2 15,1
4 48,4 53,6
5 19,6 25,4
6 33,5 35,9
7 44,4 48,5
8 198,3 211,2
9 99,2 104,0
10 15,4 17,0
a) Encontrad un estimador de razón del valor total en el inventario y estableced un límite para el error de
estimación.
b) Encontrad un estimador de regresión del valor total en el inventario y estableced un límite para el error
de estimación.
c) Encontrad un estimador de diferencia del valor total en el inventario y estableced un límite para el error
de estimación.
d) ¿Cuál de los tres métodos es preferible en esta situación? Razonad la respuesta.
8. Se quiere calcular la edad media de un bosque que tiene 1132 árboles, pero para mirar la edad de un árbol
hay que cortarlo y contar el número de anillos que tiene. Por otra parte, es sencillo medir el diámetro de los
árboles. Entonces se mide el diámetro de todos los árboles del bosque y se obtiene una media de 1.03 m.
Después se seleccionan al azar 20 árboles, se cortan y se mide su diámetro y su edad. Los resultados son
Diámetro 1.2 1 .1 0. 8 0 .9 1 0,8 0.7 1 1. 2 1.1

Edad 12 12 8 9 10 12 7 13 15 17
Diámetro 0 .6 0. 8 1 1 .2 0. 9 0 .8 0. 7 1.1 0.9 0.8

Edad 6 8 11 15 12 11 8 9 10 10
Estimad la edad media de los árboles mediante un estimador de regresión y dad un intervalo de confianza
del 95 %.

Tema 5 Castella

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 5 Castella

Cargado por

Copyright:

Formatos disponibles

Muestreo Estadístico

Tema 5. Estimadores de razón, diferencia y regresión

1. Introducción. Uso de estimadores auxiliares: Estimadores de razón, dife-

En la primera parte del capítulo queremos estimar una razón o ratio

que se estima mediante el estimador

Finalmente en la tercera parte se considera el caso general con a 6= 0 y b 6= 1.

3. El estimador de razón, su sesgo y varianza

Tomamos una muestra de tamaño n sobre la que medimos x e y, y obtenemos X1 , . . . , Xn y Y1 , . . . , Yn . Como

Queremos estimar r mediante el estimador

Cuadro 1. Valores de las variables x e y en la población, y totales poblacionales tx y ty

Tomamos una muestra de tamaño 2. Las muestras posibles están en el Cuadro 2.

Cuadro 2. Distribución del estadístico rb

donde Vy = σy /µy es el coeficiente de variación (poblacional) de y y ρxy es el coeficiente de correlación

y se obtiene la estimación para Var(b

Entonces, un intervalo de confianza de nivel γ para r viene dado por

donde z es el valor correspondiente de la ley normal para el nivel de significación γ.

Estimación de una razón

Intervalo de confianza aproximado para r de nivel γ

3.1. Tamaño muestral

de donde podemos aislar n y obtenemos

b. Error relativo. Si queremos fijar un error relativo , de manera que

entonces el tamaño muestral da

4. Estimación de un total mediante un estimador de razón

TY00 = 1,354 × 1310 = 1773,74.

Notamos que el estimador ordinario de ty , TY0 , vale

Estimación de un total mediante un estimador de razón

4.1. Comparación de los estimadores TY0 y TY00

Recordamos que TY = ni=1 Yi es el total muestral de la variable y y TX = ni=1 Xi es el total muestral de

mientras que la varianza de TY00 es

de donde Var(TY00 ) < Var(TY0 ) si y sólo si

Vx2 + Vy2 − 2ρxy Vx Vy < Vy2 ,

5. Estimación de una media con un estimador de razón

Estimación de una media con un estimador de razón

6. Estimación de la razón y muestreo estratificado

donde tx,k es el total de la variable x en el estrato k, tx es el total de x en toda la población, y Y k y X k

00 es el estimador del total de y en el estrato k basado en la razón r Yk

σd2 = σy2 + σx2 − 2ρxy σx σy .

Por lo tanto, si y sólo si

σy2 + σx2 − 2ρx,y σx σy ≤ σy2 .

Simplificando la desigualdad y aislando la correlación ρ se obtiene

Estimación de una media por un estimador de diferencia

Entonces, también aproximadamente

Entonces se define un estimador por µy , llamado estimador de regresión, por

1. Si b es una constante conocida, entonces el estimador Y L tiene las propiedades siguientes:

2. Para calcular su varianza definimos primero la variable u = y − b(x − µx ). Entonces el estimador Y L

que es exactamente la pendiente de la recta de regresión poblacional.

Estimación de una media por un estimador de regresión con estimación del

8.2. Estimador de regresión de un total

Estimación de un total por un estimador de regresión con estimación del parámetro

Coche Con aditivo Sin aditivo

Organismo Longitud inicial Longitud final

a) Comentad el porqué de la utilización de un estimador de razón en esta situación.

Rata Fármaco Combinación

Punto Previo X Posterior Y Punto Previo X Posterior Y

Punto Navidad 2008 Navidad 2009

Parcela Aérea Real

Estimad el total de participantes en la manifestación usando un estimador de regresión. Comparad el resul-

Artículo Libro Real

Diámetro 1.2 1 .1 0. 8 0 .9 1 0,8 0.7 1 1. 2 1.1

Diámetro 0 .6 0. 8 1 1 .2 0. 9 0 .8 0. 7 1.1 0.9 0.8

También podría gustarte

b. Error relativo. Si queremos fijar un error relativo , de manera que