Está en la página 1de 31

Estimación de razón, regresión y diferencia (II)

Bulmaro Juárez Hernández

Otoño de 2020

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 1 / 31
Seleccionar el tamaño de la muestra

Se ha dicho anteriormente que la cantidad de información contenida en la


muestra depende de la variación de los datos (que frecuentemente es
controlada por el diseño de la encuesta muestral) y el número de
observaciones n incluidas en la muestra. Una vez elegido el procedimiento
de muestreo (diseño), el investigador debe determinar el número de
elementos que serán seleccionados. Se considerará el tamaño de muestra
requerido para estimar un parámetro de la población R, µy , o τy con un
límite para el error de estimación de magnitud B unidades, para un
muestreo aleatorio simple usando estimadores de razón.
Tenga en cuenta que el procedimiento para elegir el tamaño de muestra n
es idéntico al presentado en la Sección correspondiente al MAS. El número
de observaciones necesarias para estimar R , una razón poblacional, con un
límite para el error de estimación de magnitud B , se determina
estableciendo dos desviaciones estándar del estimador de razón r igual a B
y resolviendo esta expresión para n.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 2 / 31
Es decir, debemos resolver

2 V (r ) = B, (1)
p

para n. Aunque no se ha discutido la forma de V (r ), recuerde que la


varianza estimada de r viene dada por la fórmula:

1
 Pn 2
n i=1 (yi − rxi )

V (r ) = 1 − . (2)
nµ2x n−1
b
N

o, equivalentemente, como

n  1 sr2
  
V (r ) = 1 − . (3)
µ2x n
b
N

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 3 / 31
Se puede obtener de Vb (r ) una varianza poblacional aproximada, V (r ),
reemplazando s 2 con la varianza poblacional correspondiente σ 2 . Por lo
tanto, el número de observaciones necesarias para estimar R con un límite
B para el error de estimación se determina resolviendo la siguiente ecuación
para n: s
n  1 σ2
q   
2 V (r ) = 2
b 1− 2
= B. (4)
N µx n

Tamaño de muestra requerido para estimar R con un límite en el error de


estimación B:
Nσ 2 B 2 µ2x
n= , donde D = . (5)
N · D + σ2 4

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 4 / 31
En una situación práctica, nos enfrentamos a un problema para determinar
el tamaño de muestra apropiado porque no conocemos σ 2 . Si no hay
información pasada disponible para calcular sr2 como una estimación de σ 2 ,
se toma una muestra preliminar de tamaño n0 y se calcula
Pn 0 2
2 i=1 (yi − rxi )
σ
b = .
n0 − 1

Luego se sustituye esta cantidad por σ 2 en la Ecuación. (5), y se encuentra


un tamaño de muestra aproximado. Si también se desconoce µx , se puede
reemplazar por la media muestral x , calculada a partir de las n0
observaciones preliminares.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 5 / 31
Ejemplo (4)
Una empresa manufacturera desea estimar la razón de cambio del año
pasado a este año en el número de horas-trabajador perdidas debido a
enfermedad. Se realiza un estudio preliminar de n0 = 10 registros de los
empleados y los resultados se dan en la siguiente Tabla. Los registros de la
empresa muestran que el número total de horas-trabajador perdidas por
enfermedad durante el año anterior fue τx = 16, 300. Utilice los datos para
determinar el tamaño de muestra requerido para estimar R , la tasa de
cambio para la empresa, con un límite en el error de estimación de
magnitud B = 0.01. Suponga que la empresa tiene N = 1000 empleados.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 6 / 31
Tabla: Horas perdidas por enfermedad
Horas del trabajador Horas del trabajador
perdidas en el año perdidas en el año
Empleado anterior, x en curso y yi − rxi
1 12 13 0.39326
2 24 25 -0.21349
3 15 15 -0.75843
4 30 32 0.48314
5 32 36 2.38202
6 26 24 -3.31461
7 10 12 1.49438
8 15 16 0.24157
9 0 2 2.00000
10 14 12 -2.70787

Tabla: Estadísticas
N Media Mediana DS
x 10 17.80 15.00 9.99
y 10 18.70 15.50 10.36
yi − rxi 10 0.00 0.32 1.87

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 7 / 31
Solución: A partir de los datos proporcionados, se determina
P10 P10
187
i=1 yi i=1 (yi − rxi )2
r = P10 = b2 =
= 1.05 y σ = 1.862 = 3.46.
x
i=1 i
178 9

El tamaño de muestra requerido ahora se puede encontrar usando la


Ecuación (5). Tenga en cuenta que

τx 16, 300 B 2 µ2x (0.012 )(16.32 )


µx = = = 16.3 y D = = = 0.006642.
N 1000 4 4
Así,
Nσb2 1000(3.46)
n= 2
= = 342.5.
ND + σ
b 1000(0.006642) + 3.46
Por lo tanto, debemos muestrear aproximadamente 343 registros de
empleados para estimar R , la tasa de cambio en las horas de trabajo
perdidas debido a enfermedad, con un límite en el error de estimación de
0.01 horas.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 8 / 31
De manera similar, se puede determinar el número de observaciones n
necesarias para estimar una media poblacional µy , con un límite en el error
de estimación de magnitud B . El tamaño de muestra requerido se
encuentra resolviendo la siguiente ecuación para n:

2 V (b (6)
p
µ) = B.

Dicho de otra manera, a partir de la siguiente Ecuación,

µy ) = 2µ2x Vb (r ) = B.
2Vb (b

La solución se muestra en la Ecuación (7)


Tamaño de muestra requerido para estimar µy con un límite para el error
de estimación B :
Nσ 2 B2
n= , donde D = . (7)
ND + σ 2 4

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 9 / 31
Obsérvese que no es necesario conocer el valor de µx para determinar n en
la ecuación. (7); sin embargo, necesitamos una estimación de σ 2 , ya sea a
partir de información previa, si está disponible o de información obtenida en
un estudio preliminar.
Ejemplo (5)
Un investigador desea estimar el número promedio de árboles por acre en una

plantación de N = 1000 acres. Planea muestrear n parcelas de 1 acre y contar el


número de árboles y en cada parcela. También tiene fotografías aéreas de la
plantación a partir de las cuales puede estimar el número de árboles x en cada

parcela para toda la plantación. Por lo tanto, conoce µx , aproximadamente. Por

lo tanto, parece apropiado utilizar un estimador de razón par µy . Determine el

tamaño de muestra necesario para estimar µy con un límite en el error de

estimación de magnitud B = 1.0.

Solución: Suponiendo que no se dispone de información previa, debemos


realizar un estudio preliminar para estimar σ 2 . Debido a que un investigador
puede examinar fácilmente diez parcelas de 1 acre en un día para
determinar el número total de árboles y por parcela, es conveniente realizar
un estudio preliminar de n0 = 10 parcelas.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 10 / 31
Los resultados de dicho estudio se dan en la siguiente Tabla, con las
correspondientes estimaciones aéreas x .

Tabla: Número de árboles por parcela


Estimación Numero
Parcela aérea, x real, y yi − rxi
1 23 25 0.5625
2 14 15 0.1250
3 20 22 0.7500
4 25 24 -2.5625
5 12 13 0.2500
6 18 18 -1.1250
7 30 35 3.1250
8 27 30 1.3125
9 8 10 1.5000
10 31 29 -3.9375
n Media Mediana DS
y 10 20.80 21.50 7.79
x 10 22.10 23.00 8.06
yi − rxi 10 0.000 0.41 2.06

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 11 / 31
El diagrama de dispersión de los datos, Figura siguiente, muestra una
fuerte correlación positiva sin observaciones inusuales (puntos de datos).

Figura: Gráca de dispersión de los datos dados en el Ejemplo 5

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 12 / 31
El diagrama de dispersión de los datos, vea la Figura, muestra una fuerte
correlación positiva sin observaciones inusuales (puntos de datos).
Del estudio preliminar,
P10
1 yi 221 22.1
r = Pi=
10 = = = 1.06,
i=1 xi
208 20.8
P10
2 i=1 (yi − rxi )2
y σ
b = = 4.23.
9
B2 1
Ahora se determina n usando la Ecuación (7), donde D = = :
4 4
Nσb2 1000(4.23)
n= = = 16.62.
ND + σb2 1000(0.25) + 4.23
Para resumir, se necesita examinar aproximadamente 17 parcelas para
estimar µy , el número promedio de árboles por parcela de 1 acre, con un
límite en el error de estimación de B = 1.0. Solo se necesitan siete
observaciones adicionales porque se tienen diez del estudio preliminar.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 13 / 31
El tamaño de muestra requerido para estimar τy con un límite en el error
de estimación de magnitud B se puede encontrar resolviendo la siguiente
ecuación para n:
q q
τy ) = B, o 2τx
2 V (b Vb (r ) = B. (8)

Tamaño de muestra requerido para estimar τy con un límite en el error de


estimación B :
Nσ 2 B2
n= , donde D = . (9)
ND + σ 2 4N 2

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 14 / 31
Ejemplo (6)
Un auditor desea comparar el valor real en dólares de un inventario de un
hospital, τy , con el inventario registrado, τx . El inventario registrado τx se
puede resumir a partir de los registros hospitalarios almacenados en
computadora. El inventario real τy se podría determinar examinando y
contando todos los suministros hospitalarios, pero este proceso requeriría
mucho tiempo y sería muy costoso. Por lo tanto, el auditor planea estimar
τy a partir de una muestra de n elementos diferentes seleccionados al azar
de los suministros del hospital.
Los registros en la computadora enumeran N = 2100 diferentes tipos de
artículos y el número de cada artículo en particular en el inventario del
hospital. Con estos datos, se puede obtener un valor total para cada
artículo, x , multiplicando el número total de cada artículo registrado por el
valor unitario por artículo. Se encuentra que el valor total en dólares del
inventario obtenido de la computadora, τx , es de $ 45 000. Determine el
tamaño de la muestra (número de elementos) necesario para estimar τy con
un límite en el error de estimación de magnitud B = $500.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 15 / 31
Tabla: Valor de inventario
Valor en dólares de Valor real en
Artículo la computadora, x dólares, y yi − rxi
1 15.0 14.0 -0.72102
2 9.5 9.0 -0.32331
3 14.2 12.5 -1.43590
4 20.5 22.0 1.88128
5 6.7 6.3 -0.27539
6 9.8 8.4 -1.21773
7 25.7 28.5 3.27799
8 12.6 10.0 -2.36565
9 15.1 14.4 -0.41916
10 30.9 28.2 -2.12529
11 7.3 15.5 8.33577
12 28.6 26.3 -1.76807
13 14.7 13.1 -1.32660
14 20.5 19.5 -0.61872
15 10.9 9.8 -0.89727
n Media Mediana DS
x 15 16.13 14.70 7.57
y 15 15.83 14.00 7.38
yi − rxi 15 0.00 -0.72 2.73

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 16 / 31
Solución: Debido a que no hay información previa disponible, se debe

realizar un estudio preliminar para estimar σ 2 . Dos personas pueden


determinar el valor real en dólares y para cada uno de los 15 artículos en
un día. Para este ejemplo, se usan los datos del inventario de un solo día
(n0 = 15) como un estudio preliminar para obtener una estimación
aproximada de σ 2 y, en consecuencia, una aproximación del tamaño de
muestra requerido n. En realidad, el investigador probablemente haría un
estudio preliminar del inventario de dos o tres días para proporcionar una
buena aproximación de σ 2 y, por tanto, de n; sin embargo, para simplicar
los cálculos, aquí se considera un estudio preliminar de n0 = 15 artículos.
Estos datos se resumen en la Tabla inmediata anterior junto con las
estadísticas correspondientes de la computadora (entradas en cientos de
dólares).
De estos datos,
P15
y 15.83 i=1 (yi − rxi )2
r= = b2 =
= 0.9814 y σ = 2.732 = 7.45.
x 16.13 14

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 17 / 31
El tamaño de muestra requerido ahora se puede encontrar usando la
Ecuación (9). Así, se tiene

B2 5002
D= = = 0.01417,
4N 2 4(21002 )
y de donde,

Nσ 2 2100(7.45)
n= 2
= = 420.2.
ND + σ 2100(0.01417) + 7.45
Por lo tanto, el auditor debe muestrear aproximadamente 421 artículos para
estimar τy , el valor real en dólares del inventario, con un error de
estimación de magnitud B = $500.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 18 / 31
Parece que las soluciones a los problemas de estimación de razón, como en
el Ejemplo 6, se resuelven perfectamente mediante las técnicas que se
acaban de presentar, pero echemos un vistazo más de cerca a la sensibilidad
de estos cálculos a algunos puntos de datos particulares. El diagrama de
dispersión de los datos del Ejemplo 6 se muestra en la siguiente Figura.
Tenga en cuenta que la mayoría de los puntos se encuentran cerca de una
línea recta con pendiente positiva, por lo que existe una fuerte correlación
positiva entre y y x . Uno de los puntos, sin embargo, se encuentra bastante
alejado del patrón de línea recta generado por el resto de puntos. En otra
escala, en la Figura que se ancuentra más adelante en la que se graca las
desviaciones (yi − rxi ) contra los valores de x . Una vez más, hay una
observación que muestra una desviación extremadamente grande y, por lo
tanto, hace una contribución inusualmente grande a la varianza.
Se debe vericar la exactitud de este valor de datos aparentemente inusual;
quizás alguien interpretó mal el valor de y o el valor de x . Si es correcto,
tal vez represente un caso muy inusual (como artículos antiguos que han
aumentado mucho de valor desde que se compraron) y se pueden eliminar
de la base de datos con justicación para su manejo por separado.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 19 / 31
Figura: Diagrama de dispersión de los datos del Ejemplo 6.

¾Qué sucede con el análisis si se elimina este punto de datos? Los cálculos
resumidos muestran que
15.86
r= b2 = 1.582 = 2.50.
= 0.95, y σ
16.76
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 20 / 31
Estos valores producen una estimación del tamaño de la muestra de 163,
½en contraste con la estimación original de 421!. Por lo tanto, las
estimaciones en la estimación de razones, en particular las estimaciones de
la varianza y el tamaño de la muestra, son bastante sensibles a los puntos
de datos que no se ajustan al patrón ideal para esa técnica, las llamadas
observaciones inuyentes. Es muy importante trazar los datos y buscar
estos puntos de datos inusuales antes de continuar con un análisis.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 21 / 31
Estimación de razones en muestreo aleatorio estraticado
Por las mismas razones indicadas en el DEA, a veces resulta ventajoso
estraticar la población antes de usar un estimador de razón. Suponemos
que podemos tomar una muestra lo sucientemente grande de x e y en
cada estrato para que las aproximaciones de varianza funcionen bastante
bien. En particular, generalmente se sugiere que las aproximaciones de
varianza funcionan bien cuando el coeciente de variación de la media de
DS(x)
x (cv (x) = ) es pequeño (es decir, menor de 0.10).
n
Hay dos métodos diferentes para construir estimadores de una razón en un
muestreo estraticado. Una es estimar la razón de µy a µx dentro de cada
yi
estrato por Rbi = y luego formar un promedio ponderado de estas
xi
estimaciones separadas como una estimación única de la razón de
L
Ni
población, es decir, RbRS = Rbi . El resultado de este procedimiento se
X
N
i=1
denomina estimador de razón separado.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 22 / 31
La varianza de la i-ésima razón se estima mediante,

sR2 i − Rbi xij )2


Pni
j=1 (yij
 
n 2
Vb (Rbi ) = 1− i , donde sRi = .
Ni µ2x,i ni n−1

En el caso de que se desconozcan las medias de x del estrato, µ2x,i se


pueden reemplazar por x 2i en la forma usal.
La media poblacional de y se puede estimar mediante
L
X Ni yi
µ
by ,RS = µ
by ,i .
N xi
i=1

Lo que tiene de especial este estimador es que en lugar de multiplicar la


razón única por la media poblacional de x (es decir, µx RbRS ), se usa la
estimación de razón por separado para la media de y en cada estrato, luego
se combinan en una estimación de la media poblacional de y .

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 23 / 31
Esto generalmente produce un estimador más preciso que la fórmula más
simple. La varianza es estimada por
L 
Ni 2 sR2 i
  
n
1− i
X
var (b
µY ,RS ) = .
N Ni ni
i=1

El otro método implica estimar primero µy por el habitual y est y estimar de


y
manera similar µx por x est . Entonces RbRC = est se puede utilizar como
x est
µy
estimador de . Este estimador se llama estimador de razón combinada.
µx

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 24 / 31
El estimador de la varianza de la razón es
 2
1 X Ni 2
L 
ni sRRC ,i
 
V (RRC ) = 2
b b 1− ,
µX N Ni ni
i=1

donde,
− RbRC xij )2
Pni
2 j=1 (yij
sRRC ,i = .
n−1
Tenga en cuenta que se utiliza la misma razón para calcular la varianza en
todos los estratos.
En este caso, el estimador para la media de y es
y
bY ,RC = RbRC µX = est µX , con varianza estimada por
µ
x est
L 
Ni 2 sR2 RC
  
ni
1−
X
var (b
µY ,RC ) = .
N Ni ni
i=1

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 25 / 31
Ejemplo (7)
Remitase al Ejemplo 4. Trate las diez observaciones que se dan allí sobre
las horas de trabajo perdidas debido a enfermedad como una muestra
aleatoria simple de la empresa A. Así, nA = 10, y A = 18.7,
x A = 17.8, rA = 1.05, nA = 1000, y τxA = 16, 300. Se tomó una muestra
aleatoria simple de nB = 10 mediciones de la empresa B dentro de la
misma industria. (Suponga que las empresas A y B juntas forman la
población de trabajadores de interés en este problema). Los datos se dan en
la siguiente Tabla 5. Se sabe que NB = 1500 empleados y τxB = 12, 800.
Encuentre la estimación de razón separada de µy y su varianza estimada.
yA
Solución: El estimador de razón de µyA es µ [ver Ecuación (6)], y su
x A xA
varianza estimada está dada por la Ecuación (7). El correspondiente
yB
estimador de µyB es µ con una varianza estimada similar.
x B xB
Para obtener un estimador de µy , la media poblacional de los valores de y ,
se necesita promediar los estimadores, como en el MAE.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 26 / 31
Tabla: Horas perdidas por enfermedad, empresa B.
Horas de trabajo Horas de trabajo
perdidas en el perdidas en el
Empleado año anterior, xB año en curso, yB
1 10 8
2 8 0
3 0 4
4 14 6
5 12 10
6 6 0
7 4 2
8 0 4
9 8 4
10 16 8
Totales 78 46

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 27 / 31
Por lo tanto, µ
byRS (donde el subíndice RS signica razón separada), dado
por
NA y A NB y B
µ
byRS = µxA + µxB ,
N xA N xB
Será el estimador de µy con varianza estimada
sr2,A sr2,B
 2    2  
NA nA NB nB
Vb (b
µyRS ) = 1− + 1− .
N NA nA N NB nB
El valor observado de µ
byRS de los datos es

1000 18.7 1500 4.6


     
(16.3) + (8.53) = 9.87.
2500 17.8 2500 7.8
La varianza estimada es 0.403, lo que arroja una DE estimada de 0.63. A
partir de esto, es relativamente fácil construir la varianza estimada:
2  2 
1000 990 1 1500 1490 1
   
Vb (b
µyRS ) = (1.86)2 + (3.12)2 = 0.403.
2500 1000 10 2500 1500 10

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 28 / 31
Ejemplo (8)
Consulte los datos del ejemplo 7 y encuentre una estimación de razón
combinada de µy .

Solución: Aquí se usa y est para estimar a µy , x est para estimar a µx , y


y est
µ
byRC = µx ,
x est
(donde RC signica razón combinada) como el estimador de razón
y est
combinada de µy . Si se denota por rC , la varianza estimada de µ byRC es
x est
 2   2 2   2
sr ,A sr ,B

N A n A N B nB
Vb (b
µyRS ) = 1− + 1− .
N NA n A N NB nB
2 es la varianza de los términos (y − r x ) para el conjunto de
donde srA i C i
2 es la varianza de las desviaciones correspondientes para el
datos A y srB
conjunto de datos B .
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 29 / 31
Por los datos dados,

y est = (0.4)(18.7) + (0.6)(4.6) = 10.24


x est = (0.4)(17.8) + (0.6)(7.8) = 11.80
rC = 0.868
16, 300 + 12, 800
µx = = 11.64.
2500
De donde, el valor observado de µ
byRC es

10.24
(11.64) = 10.10.
11.80
Usando Excel, se calcula que la estimación de la varianza es de 0.66.

Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 30 / 31
Al comparar los ejemplos 7 y 8, se observa que el estimador de razón
combinado da la varianza estimada más grande. Este es generalmente el
caso, por lo que el estimador de razón separado se usa la mayor parte del
tiempo. Sin embargo, el estimador de razón separado puede tener un sesgo
mayor porque cada estimación de razón de estrato contribuye a ese sesgo.
En resumen, si los tamaños de la muestra del estrato son lo sucientemente
grandes (digamos, 20 más o menos) para que las proporciones separadas no
tengan grandes sesgos y para que las aproximaciones de varianza funcionen
adecuadamente, utilice el estimador de razón independiente. Si los tamaños
de la muestra del estrato son muy pequeños, o si las razones dentro del
estrato son todas aproximadamente iguales, entonces el estimador de razón
combinado puede funcionar mejor.
Por supuesto, se puede encontrar un estimador de la población total
multiplicando cualquiera de los dos estimadores por el tamaño de la
población N y las varianzas se pueden ajustar en consecuencia. El primero
de estos estimadores es entonces
τbyRS = N µ
byRS .
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 31 / 31

También podría gustarte