Documentos de Académico
Documentos de Profesional
Documentos de Cultura
µ̂y = â + b̂µx
y aprovechar así el hecho que conocemos µx . El estimador µ̂y , que utiliza información auxiliar proporcionada
por la variable x ¿es mejor que Y ?
1. Estamos interesados directamente en la razón r. Por ejemplo, queremos estimar la proporción de los
ingresos familiares que se dedican a pagar la vivienda.
2. Utilizamos la estimación de r para estimar µy o el total ty . Por ejemplo, queremos estimar la media de los
ingresos familiares que se dedican a pagar vivienda, y conocemos la media µx de los ingresos familiares.
Entonces estimamos la razón r por rb y se propone el estimador
µ
by = rbµx .
Notad que este caso es la situación que hemos comentado al principio con a = 0.
En la segunda parte del capítulo consideraremos el caso en que se define una variable diferencia d =
y − x, cuya media se estima mediante un estimador D, y este estimador se utiliza para estimar µy mediante el
estimador µ
by = µx + D. Este caso corresponde, en el planteamiento inicial, a b = 1.
2. El estimador de razón
Empezamos planteando dos ejemplos.
Ejemplo 1. Supongamos que un auditor quiere valorar (en dinero) el conjunto de los bienes inventariables
de una empresa; llamamos y al valor de un bien. La empresa tiene un inventario hecho unos años antes, que
considera desfasado. Una primera posibilidad para actualizar el valor del inventario es olvidar el inventario
anterior, escoger una muestra de bienes y valorarlos, Y1 , . . . , Yn , y calcular su total TY y el total modificado
TY0 , que es un estimador sin sesgo de ty . Este método prescinde totalmente del inventario anterior.
Otra posibilidad es utilizar el inventario anterior; llamamos x a la variable que da el valor de un bien en
aquel inventario. Entonces se escoge una muestra de elementos del inventario, de los cuales se tiene su valor
inventariado X1 , . . . , Xn y se evalúa también su valor actual Y1 , . . . Yn . Evidentemente se conoce tx que es el
valor total registrado en el inventario y el objetivo del auditor es estimar ty . Si se define
ty µy
r= = ,
tx µx
se tiene que ty coincide con r tx . Por lo tanto el problema se reduce a estimar r. Normalmente se utiliza
Y
rb = .
X
En resumidas cuentas, hemos visto dos maneras de estimar ty : primero TY0 y después rb tx . ¿Cuál de los dos
estimadores es mejor?
Observación. Hay que notar que el estimador TY0 = (N/n) TY = N Y utiliza el tamaño total de la población
N , y hay situaciones en que no es fácil conocerlo, como veremos en el siguiente ejemplo.
Ejemplo 2. Supongamos que estamos interesados en comprar un cargamento de naranjas, las cuales se valoran
por la cantidad de azúcar que contienen y no por su peso. La cantidad de azúcar está relacionado con el peso,
pero la relación es diferente en función de la variedad, la partida, etc ... Para medir la cantidad de azúcar,
evidentemente hay que destruir la naranja.
Designamos por y la cantidad de azúcar de una naranja y por x su peso. La primera posibilidad es escoger
una muestra de naranjas, calcular su cantidad total de azúcar ty y después estimar ty por TY0 , o bien, equiva-
lentemente, calcular la media de azúcar en la muestra Y y después estimar la cantidad total de azúcar con el
estimador N Y . Aquí el problema añadido es que desconocemos N.
Otra posibilidad es aprovechar el hecho de que podemos calcular el peso total del cargamento simplemente
pesando el camión y quitándole la tara, es decir, es fácil conocer tx . Por otra parte, a partir de la muestra
podemos calcular X y rb = Y /X, y entonces, podemos estimar el total de azúcar ty mediante el estimador
rb tx . Evidentemente, para la muestra de naranjas escogida tendremos que calcular ahora el peso y la cantidad
de azúcar de cada una de ellas.
y
N N
1 X tx 1 X ty
µx = xi = y µy = yi =
N N N N
i=1 i=1
Y TY
rb = = .
X TX
Ejemplo. Consideramos la situación del inventario de un negocio de venta de muebles con 5 productos, y
designamos por y el valor actual y por x el precio de un inventario de hace 5 años.
Producto 1 2 3 4 5 Total
y 350 600 205 180 300 1635
x 230 480 180 140 280 1310
La razón entre los precios actuales y los de hace 5 años para estos muebles es
r = 1,248
Muestra 1-2 1-3 1-4 1-5 2-3 2-4 2-5 3-4 3-5 4-5
TY 950 555 530 650 805 780 900 385 505 480
TX 710 410 370 510 660 620 760 320 460 420
rb 1.338 1.354 1.432 1.274 1.220 1.258 1.184 1.203 1. 098 1.143
Entonces,
r] = 1,25
E[b y Var(b
r) = 0,009.
La diferencia entre r = 1,248 y E[b r] = 1,25 no es debida a un error de redondeo, sino a que el estadístico rb
tiene sesgo, pero el sesgo tiende a 0 cuando n → ∞. Por otra parte, es un estimador consistente ya que las
medias muestrales convergen en las poblacionales al aumentar el tamaño de la muestra.
En relación a la varianza de rb, las fórmulas son más complicadas de lo que hemos visto hasta ahora,
ya que tanto el numerador como el denominador son variables aleatorias. Cuando el coeficiente de variación
(poblacional) de x, Vx = σx /µx , es menor que 0.05, la varianza de rb se puede aproximar por
r2 N − n 2
r) ≈
Var(b Vx + Vy2 − 2ρxy Vx Vy ,
n N −1
4 Estimadores de razón
PN PN
i=1 (xi − µx )(yi − µy )/N (xi − µx )(yi − µy )
ρxy = = qP i=1 .
σx σy N 2
PN 2
(x
i=1 i − µ x ) (y
i=1 i − µ y )
En el ejemplo,
Vx = 2,15, Vy = 2,75 y ρxy = 0,97,
En la práctica, sin embargo, todos los parámetros poblacionales son desconocidos, y entonces para la va-
rianza se utiliza la estimación
\ rb2 N − n b 2 b 2
Var(b
r) = VX + VY − 2b
ρXY VbX VbY ,
n N −1
donde
r r
N − 1 SX b N − 1 SY
VbX = , VY =
N X N Y
y
Pn Pn
i=1 (Xi − X)(Yi − Y )/(n − 1) (Xi − X)(Yi − Y )
ρbXY = = qP i=1 .
SX SY n
(X − X)2 n (Y − Y )2
P
i=1 i i=1 i
Finalmente, bajo hipótesis bastante generales, la distribución asintótica de rb es normal. Para muestras mo-
deradas, la distribución tiene, en general, una cierta asimetría positiva. En general, podemos considerar que no
hay problemas graves al utilizar rb si la muestra es bastante grande. En este caso, podemos suponer normalidad,
y podemos considerar válida la estimación de la desviación típica. Como norma de uso, se exige n ≥ 30 y que
r
1 N − n SX
≤ 0,05.
n N X
q
\
rb ± z Var(b
r),
Parámetro poblacional
ty µy
r= = .
tx µx
Estadístico muestral
Y TY TY0
rb = = = 0
.
X TX TX
Varianza teórica
r2 N − n
r) ≈
Var(b Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1
Varianza estimada
rb2 N − n b 2
\
Var(b
r) = VX + VbY2 − 2ρbXY VbX VbY ,
n N −1
donde
r r Pn
N − 1 SX b N − 1 SY i=1 (Xi− X)(Yi − Y )
VbX = , VY = y ρbXY = qP .
N X N Y n
(X − X) 2
Pn
(Y − Y ) 2
i=1 i i=1 i
donde r, Vx , Vy y ρxy tienen que ser conocidos o estimados a partir de una encuesta piloto.
TY00 = rb tx ,
donde
Y
rb =
X
Varianza teórica
r2 N − n
Var(TY00 ) ≈ t2x Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1
Varianza estimada
2
\00 ) = t2 rb N − n Vb 2 + Vb 2 − 2ρbXY VbX VbY .
Var(T Y x
n N −1 X Y
Tema 5 7
N
TY0 = TY y TY00 = rb tx .
n
En primer lugar, recordamos que TY0 no tiene sesgo, mientras que TY00 sí, pero lo consideramos despreciable. La
varianza de TY0 la podemos escribir de la siguiente forma:
N2 N2 N − n 2 N2 N − n 2 2 1 N −n 2 2
Var(TY0 ) = Var(TY ) = σ = µ V = t V ,
n2 n N −1 y n N −1 y y n N −1 y y
r2 N − n 2 1 N −n
Var(TY00 ) ≈ t2x Vx + Vy2 − 2ρxy Vx Vy = t2y Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1 n N −1
Entonces
Var(TY00 ) Vx2 + Vy2 − 2ρxy Vx Vy
≈ ,
Var(TY0 ) Vy2
que equivale a
Vx
< 2ρxy .
Vy
Por lo tanto, si suponemos que los coeficientes de variación de x y de y son aproximadamente iguales (lo cual
es razonable en muchas situaciones), como mayor sea el coeficiente de correlación entre x y y, mejor irá TY00
que TY0 .
Y R = rb µx .
Como para el estimador de un total, todas las propiedades son muy fáciles de deducir.
8 Estimadores de razón
Y R = rb µx ,
donde
Y
rb = .
X
Varianza teórica
r2 N − n
Var(Y R ) ≈ µ2x Vx2 + Vy2 − 2ρxy Vx Vy .
n N −1
Varianza estimada
2
\ ) = µ2 rb N − n Vb 2 + Vb 2 − 2ρb Vb Vb .
Var(Y R x XY X Y
n N −1 X Y
donde cada Var(T00Y,k ) se puede aproximar por la fórmula (1) de la página 6 en cada estrato. El problema de este
estimador es que esta varianza es aproximada, y que el sesgo puede ser importante. Por lo tanto, el estimador
sólo es claramente útil si el tamaño de la muestra en cada estrato es bastante grande.
Respecto del estimador de razón combinado, tenemos
L
1 X Nk2 (Nk − nk ) 2 2 2
rc ) ≈
Var(b σ y,k + r σ x,k − 2rρxy,k y,k x,k ,
σ σ
N 2 µ2x nk (Nk − 1)
k=1
donde r es la razón global en toda la población.
Usualmente, el sesgo de este segundo estimador es menor. Por otro lado, no se hace una estimación de cada
rk , y por lo tanto, el estimador es válido aunque algunas muestras de algunos estratos no sean muy grandes.
La varianza del estimador de razón separado es en general menor. Por tanto en principio es un estimador
más adecuado. El problema está en que puede tener un sesgo grande si no hay bastante muestra en cada estrato.
En caso de muestras pequeñas, es mejor el estimador combinado. Si suponemos que las razones son iguales en
todos los estratos, también es mejor usar el estimador combinado.
7. Estimación de diferencia
En algunas situaciones, dada la variable de interés y de la cual queremos estimar su media µy , y una variable
auxiliar x, se define la variable d = y − x y el parámetro µd = µy − µx . Dada una muestra X1 , . . . , Xn y
Y1 , . . . , Yn , definimos
Di = Yi − Xi ,
y se plantea el uso del estimador de µy definido por
Y d = µx + D
donde evidentemente D = Y − X
Las propiedades de este estimador son las siguientes:
1. Se trata de un estimador sin sesgo ya que E(Y d ) = µx + µy − µx = µy .
2. Su varianza es la varianza de D:
Var(Y d ) = Var(µx + D) = Var(D).
Por lo tanto, si suponemos que la selección de la muestra se hace utilizando muestreo aleatorio simple
sin reposición,
N −n
Var(Y d ) = σ2
(N − 1) n d
Dado que
di − µd = di − (µy − µx ) = (yi − µy ) − (xi − µx ),
se deduce fácilmente que
4. El estimador Y d es mejor que la media muestral Y , en el sentido que tiene varianza más pequeña, si y
sólo si
σd2 ≤ σy2 .
1 σx
ρx,y ≥ .
2 σy
Y d = µx + D
donde
D = Y − X.
Y d es un estimador de µy sin sesgo:
E[Y d ] = µy
Varianza teórica
N −n
Var(Y d ) = σd2 .
(N − 1) n
Varianza estimada
\ ) = N − n S2 ,
Var(Y d D
Nn
donde
n
2 1 X
SD = (Di − D)2 .
n−1
i=1
8. Estimadores de regresión
8.1. Estimador de regresión de la media
Supongamos que las variables x y y tienen una relación aproximadamente lineal:
y ≈ a + bx.
Y L = Y − b(X − µx ).
(La L viene de regresión Lineal). Este estimador depende del parámetro b, y por lo tanto, primero de todo hay
que suponer un valor para b o bien hacer una estimación a partir de una muestra. Observamos que si b = 0 se
obtiene Y L = Y es decir, el estimador coincide con la media muestral ordinaria. En cambio si b = 1 se tiene
Y L = Y D , el estimador de la diferencia de la sección anterior.
Analizaremos primero el caso en que se determina previamente b, para pasar después al caso en que se
estima b. De manera más rigurosa, consideramos
yi = a + bxi + εi , i = 1, . . . , N,
PN
donde i=1 εi = 0.
N −n
Var(Y L ) = σ2
(N − 1) n u
y
σu2 = σy2 + b2 σx2 − 2bρxy σx σy ,
de donde
N −n
σy2 + b2 σx2 − 2bρxy σx σy .
Var(Y L ) = (2)
(N − 1) n
Su estimación es
\ ) = N − n S 2 + b2 S 2 − 2bρd S S .
Var(Y L Y X XY X Y
Nn
2. Si hay que estimar b, entonces un criterio razonable es encontrar b que minimice Var(Y L ). Derivando (2)
respecto de b e igualando a cero se obtiene
PN
σy i=1 (xi − µx )(yi − µy )
b = ρxy = PN ,
σx i=1 (xi − µx )
2
que, de nuevo, es la fórmula para la pendiente de la recta de regresión muestral. La estimación de la varianza
de Y L (para n grande) es
\ ) = N − n S 2 1 − ρd 2 .
Var(Y L XY
Nn Y
YL = Y −b
b(X − µx ),
donde Pn
i=1 (Xi − X)(Yi − Y)
b̂ = Pn 2
.
i=1 (Xi − X)
Varianza estimada (n grande)
\ ) = N − n S 2 1 − ρ[ 2 .
Var(Y L Y XY
Nn
00
TY,L = TY0 − b 0
b(TX − tx ),
donde Pn
i=1 (Xi − X)(Yi − Y)
b=
b Pn 2
.
i=1 (Xi − X)
Varianza estimada (n grande)
\ 00
N (N − n) 2 2
Var(T Y,L ) = SY 1 − ρ[
XY .
n
Tema 5 13
9. Problemas
1. El departamento de I+D de una empresa de carburantes está desarrollando un nuevo aditivo que añadido
a la gasolina reduciría la emisión de gases contaminantes. Para hacer pruebas, el departamento dispone de
un parque automovilístico de 763 coches para los que el tiempo en completar el circuito de pruebas de la
empresa (sin aditivo) es de µ = 17,2 segundos. (Suponed que en las pruebas de circuito el factor humano de
conducción es negligible, por tener pilotos con niveles similares). Se cree que además de reducir la emisión
de gases contaminantes, el nuevo aditivo también mejora la potencia del motor y por eso se prueban 11
coches en el circuito con los resultados siguientes,
Utilizando como variable auxiliar el tiempo que un coche tarda en hacer el circuito y el estimador de la
razón, estimad el tiempo medio que tardan los coches con el nuevo aditivo en el carburante en completar el
circuito y estableced un límite para el error de estimación.
2. Se cree que ciertos organismos son sensibles a la luz solar de manera que la exposición moderada potencia
su crecimiento. En un laboratorio se dispone de 100 de estos organismos de los que se conoce por un estudio
previo la longitud media de 3,1 cm. Durante tres semanas se expone los organismos a luz solar moderada.
En finalizar el experimento se seleccionan al azar 10 organismos y se les vuelve a medir la longitud con los
resultados (medidos en centímetros),
3. Un investigador tiene una colonia de 500 ratas que han estado sometidas a un fármaco, y el tiempo de
reacción a un estímulo fue de 8.8 segundos. El investigador quiere verificar que una combinación del fármaco
14 Estimadores de razón
inicial con alcohol hace aumentar el tiempo de reacción. Somete a las ratas de la colonia a la combinación,
toma una muestra aleatoria de 12 ratas y mide los nuevos tiempos de reacción. Los resultados (medidos en
segundos) fueron los siguientes,
Estimad el tiempo medio de reacción de las ratas sometidas a la combinación fármaco y alcohol y estableced
un límite para el error de estimación.
4. Una cadena de pequeños supermercados de ámbito local está interesada en verificar el efecto de una nueva
campaña de promoción sobre las ventas totales de cierto producto. Se selecciona una muestra aleatoria
simple de 20 puntos de venta de entre los 452 supermercados de la cadena y se obtienen los datos referentes
a las ventas totales (en euros) del producto para los tres meses previos a la campaña y durante los tres meses
posteriores:
a) Estimad ty , el total de ventas para el periodo posterior y estableced un límite para el error de estimación
suponiendo que el total de ventas para el periodo previo a la campaña ha sido de 216.256 euros.
b) Determinad el tamaño de muestra necesario para estimar ty con un límite para el error de estimación
de 1.000 euros
5. En la prensa especializada se comentó que el regalo estrella de las fiestas navideñas del año 2009 fueron las
pantallas planas, y una compañía informática quiso estimar el total de ventas de estas pantallas al final del
periodo navideño. Se disponía también de las ventas de este tipo en todos los puntos de venta que tiene la
compañía en el estado para el periodo correspondiente del año 2008. Se seleccionó una muestra aleatoria
simple de 13 de los 123 puntos totales que tiene la compañía en todo el estado con los siguientes resultados,
Tema 5 15
a) Conociendo que el total de ventas el año 2008 fue de 128.200 euros y utilizando un estimador de razón
estimad el total de ventas del año 2009 de pantallas planas. Estableced también un límite para el error
de estimación.
b) Con los datos del apartado anterior estimad las ventas medias de cada punto de venta y estableced
también un límite para el error de estimación.
c) Estimad las ganancias medias utilizando un estimador de regresión en lugar del de razón. Comparad
los resultados.
6. Para estimar el número de participantes en una manifestación se propone un nuevo método basado en la
fotografía aérea. Se divide el total del recorrido principal de la manifestación en 200 parcelas de 10 metros
cuadrados y se estima el número total de personas en cada una de las parcelas en función de la información
aérea. Con este método, se postula que el total de participantes es de 4200. Por otro lado, en 10 de las
parcelas se cuentan a los participantes reales que había en el momento de tomar las fotografías con los
resultados siguientes,
7. En el almacén de una empresa se dispone de 45 artículos inventariados con un valor establecidos en el libro
de cuentas de 2174.2 euros. Esta empresa sufre una auditoría en la que se toma una muestra aleatoria de 10
artículos y se anota el valor en el libro del artículo y el valor real del producto. Los resultados son
16 Estimadores de razón
a) Encontrad un estimador de razón del valor total en el inventario y estableced un límite para el error de
estimación.
b) Encontrad un estimador de regresión del valor total en el inventario y estableced un límite para el error
de estimación.
c) Encontrad un estimador de diferencia del valor total en el inventario y estableced un límite para el error
de estimación.
d) ¿Cuál de los tres métodos es preferible en esta situación? Razonad la respuesta.
8. Se quiere calcular la edad media de un bosque que tiene 1132 árboles, pero para mirar la edad de un árbol
hay que cortarlo y contar el número de anillos que tiene. Por otra parte, es sencillo medir el diámetro de los
árboles. Entonces se mide el diámetro de todos los árboles del bosque y se obtiene una media de 1.03 m.
Después se seleccionan al azar 20 árboles, se cortan y se mide su diámetro y su edad. Los resultados son
Estimad la edad media de los árboles mediante un estimador de regresión y dad un intervalo de confianza
del 95 %.