Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Otoño de 2020
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 1 / 31
Seleccionar el tamaño de la muestra
2 V (r ) = B, (1)
p
o, equivalentemente, como
n 1 sr2
V (r ) = 1 − . (3)
µ2x n
b
N
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 3 / 31
Se puede obtener de Vb (r ) una varianza poblacional aproximada, V (r ),
reemplazando s 2 con la varianza poblacional correspondiente σ 2 . Por lo
tanto, el número de observaciones necesarias para estimar R con un límite
B para el error de estimación se determina resolviendo la siguiente ecuación
para n: s
n 1 σ2
q
2 V (r ) = 2
b 1− 2
= B. (4)
N µx n
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 4 / 31
En una situación práctica, nos enfrentamos a un problema para determinar
el tamaño de muestra apropiado porque no conocemos σ 2 . Si no hay
información pasada disponible para calcular sr2 como una estimación de σ 2 ,
se toma una muestra preliminar de tamaño n0 y se calcula
Pn 0 2
2 i=1 (yi − rxi )
σ
b = .
n0 − 1
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 5 / 31
Ejemplo (4)
Una empresa manufacturera desea estimar la razón de cambio del año
pasado a este año en el número de horas-trabajador perdidas debido a
enfermedad. Se realiza un estudio preliminar de n0 = 10 registros de los
empleados y los resultados se dan en la siguiente Tabla. Los registros de la
empresa muestran que el número total de horas-trabajador perdidas por
enfermedad durante el año anterior fue τx = 16, 300. Utilice los datos para
determinar el tamaño de muestra requerido para estimar R , la tasa de
cambio para la empresa, con un límite en el error de estimación de
magnitud B = 0.01. Suponga que la empresa tiene N = 1000 empleados.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 6 / 31
Tabla: Horas perdidas por enfermedad
Horas del trabajador Horas del trabajador
perdidas en el año perdidas en el año
Empleado anterior, x en curso y yi − rxi
1 12 13 0.39326
2 24 25 -0.21349
3 15 15 -0.75843
4 30 32 0.48314
5 32 36 2.38202
6 26 24 -3.31461
7 10 12 1.49438
8 15 16 0.24157
9 0 2 2.00000
10 14 12 -2.70787
Tabla: Estadísticas
N Media Mediana DS
x 10 17.80 15.00 9.99
y 10 18.70 15.50 10.36
yi − rxi 10 0.00 0.32 1.87
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 7 / 31
Solución: A partir de los datos proporcionados, se determina
P10 P10
187
i=1 yi i=1 (yi − rxi )2
r = P10 = b2 =
= 1.05 y σ = 1.862 = 3.46.
x
i=1 i
178 9
2 V (b (6)
p
µ) = B.
µy ) = 2µ2x Vb (r ) = B.
2Vb (b
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 9 / 31
Obsérvese que no es necesario conocer el valor de µx para determinar n en
la ecuación. (7); sin embargo, necesitamos una estimación de σ 2 , ya sea a
partir de información previa, si está disponible o de información obtenida en
un estudio preliminar.
Ejemplo (5)
Un investigador desea estimar el número promedio de árboles por acre en una
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 11 / 31
El diagrama de dispersión de los datos, Figura siguiente, muestra una
fuerte correlación positiva sin observaciones inusuales (puntos de datos).
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 12 / 31
El diagrama de dispersión de los datos, vea la Figura, muestra una fuerte
correlación positiva sin observaciones inusuales (puntos de datos).
Del estudio preliminar,
P10
1 yi 221 22.1
r = Pi=
10 = = = 1.06,
i=1 xi
208 20.8
P10
2 i=1 (yi − rxi )2
y σ
b = = 4.23.
9
B2 1
Ahora se determina n usando la Ecuación (7), donde D = = :
4 4
Nσb2 1000(4.23)
n= = = 16.62.
ND + σb2 1000(0.25) + 4.23
Para resumir, se necesita examinar aproximadamente 17 parcelas para
estimar µy , el número promedio de árboles por parcela de 1 acre, con un
límite en el error de estimación de B = 1.0. Solo se necesitan siete
observaciones adicionales porque se tienen diez del estudio preliminar.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 13 / 31
El tamaño de muestra requerido para estimar τy con un límite en el error
de estimación de magnitud B se puede encontrar resolviendo la siguiente
ecuación para n:
q q
τy ) = B, o 2τx
2 V (b Vb (r ) = B. (8)
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 14 / 31
Ejemplo (6)
Un auditor desea comparar el valor real en dólares de un inventario de un
hospital, τy , con el inventario registrado, τx . El inventario registrado τx se
puede resumir a partir de los registros hospitalarios almacenados en
computadora. El inventario real τy se podría determinar examinando y
contando todos los suministros hospitalarios, pero este proceso requeriría
mucho tiempo y sería muy costoso. Por lo tanto, el auditor planea estimar
τy a partir de una muestra de n elementos diferentes seleccionados al azar
de los suministros del hospital.
Los registros en la computadora enumeran N = 2100 diferentes tipos de
artículos y el número de cada artículo en particular en el inventario del
hospital. Con estos datos, se puede obtener un valor total para cada
artículo, x , multiplicando el número total de cada artículo registrado por el
valor unitario por artículo. Se encuentra que el valor total en dólares del
inventario obtenido de la computadora, τx , es de $ 45 000. Determine el
tamaño de la muestra (número de elementos) necesario para estimar τy con
un límite en el error de estimación de magnitud B = $500.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 15 / 31
Tabla: Valor de inventario
Valor en dólares de Valor real en
Artículo la computadora, x dólares, y yi − rxi
1 15.0 14.0 -0.72102
2 9.5 9.0 -0.32331
3 14.2 12.5 -1.43590
4 20.5 22.0 1.88128
5 6.7 6.3 -0.27539
6 9.8 8.4 -1.21773
7 25.7 28.5 3.27799
8 12.6 10.0 -2.36565
9 15.1 14.4 -0.41916
10 30.9 28.2 -2.12529
11 7.3 15.5 8.33577
12 28.6 26.3 -1.76807
13 14.7 13.1 -1.32660
14 20.5 19.5 -0.61872
15 10.9 9.8 -0.89727
n Media Mediana DS
x 15 16.13 14.70 7.57
y 15 15.83 14.00 7.38
yi − rxi 15 0.00 -0.72 2.73
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 16 / 31
Solución: Debido a que no hay información previa disponible, se debe
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 17 / 31
El tamaño de muestra requerido ahora se puede encontrar usando la
Ecuación (9). Así, se tiene
B2 5002
D= = = 0.01417,
4N 2 4(21002 )
y de donde,
Nσ 2 2100(7.45)
n= 2
= = 420.2.
ND + σ 2100(0.01417) + 7.45
Por lo tanto, el auditor debe muestrear aproximadamente 421 artículos para
estimar τy , el valor real en dólares del inventario, con un error de
estimación de magnitud B = $500.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 18 / 31
Parece que las soluciones a los problemas de estimación de razón, como en
el Ejemplo 6, se resuelven perfectamente mediante las técnicas que se
acaban de presentar, pero echemos un vistazo más de cerca a la sensibilidad
de estos cálculos a algunos puntos de datos particulares. El diagrama de
dispersión de los datos del Ejemplo 6 se muestra en la siguiente Figura.
Tenga en cuenta que la mayoría de los puntos se encuentran cerca de una
línea recta con pendiente positiva, por lo que existe una fuerte correlación
positiva entre y y x . Uno de los puntos, sin embargo, se encuentra bastante
alejado del patrón de línea recta generado por el resto de puntos. En otra
escala, en la Figura que se ancuentra más adelante en la que se graca las
desviaciones (yi − rxi ) contra los valores de x . Una vez más, hay una
observación que muestra una desviación extremadamente grande y, por lo
tanto, hace una contribución inusualmente grande a la varianza.
Se debe vericar la exactitud de este valor de datos aparentemente inusual;
quizás alguien interpretó mal el valor de y o el valor de x . Si es correcto,
tal vez represente un caso muy inusual (como artículos antiguos que han
aumentado mucho de valor desde que se compraron) y se pueden eliminar
de la base de datos con justicación para su manejo por separado.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 19 / 31
Figura: Diagrama de dispersión de los datos del Ejemplo 6.
¾Qué sucede con el análisis si se elimina este punto de datos? Los cálculos
resumidos muestran que
15.86
r= b2 = 1.582 = 2.50.
= 0.95, y σ
16.76
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 20 / 31
Estos valores producen una estimación del tamaño de la muestra de 163,
½en contraste con la estimación original de 421!. Por lo tanto, las
estimaciones en la estimación de razones, en particular las estimaciones de
la varianza y el tamaño de la muestra, son bastante sensibles a los puntos
de datos que no se ajustan al patrón ideal para esa técnica, las llamadas
observaciones inuyentes. Es muy importante trazar los datos y buscar
estos puntos de datos inusuales antes de continuar con un análisis.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 21 / 31
Estimación de razones en muestreo aleatorio estraticado
Por las mismas razones indicadas en el DEA, a veces resulta ventajoso
estraticar la población antes de usar un estimador de razón. Suponemos
que podemos tomar una muestra lo sucientemente grande de x e y en
cada estrato para que las aproximaciones de varianza funcionen bastante
bien. En particular, generalmente se sugiere que las aproximaciones de
varianza funcionan bien cuando el coeciente de variación de la media de
DS(x)
x (cv (x) = ) es pequeño (es decir, menor de 0.10).
n
Hay dos métodos diferentes para construir estimadores de una razón en un
muestreo estraticado. Una es estimar la razón de µy a µx dentro de cada
yi
estrato por Rbi = y luego formar un promedio ponderado de estas
xi
estimaciones separadas como una estimación única de la razón de
L
Ni
población, es decir, RbRS = Rbi . El resultado de este procedimiento se
X
N
i=1
denomina estimador de razón separado.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 22 / 31
La varianza de la i-ésima razón se estima mediante,
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 23 / 31
Esto generalmente produce un estimador más preciso que la fórmula más
simple. La varianza es estimada por
L
Ni 2 sR2 i
n
1− i
X
var (b
µY ,RS ) = .
N Ni ni
i=1
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 24 / 31
El estimador de la varianza de la razón es
2
1 X Ni 2
L
ni sRRC ,i
V (RRC ) = 2
b b 1− ,
µX N Ni ni
i=1
donde,
− RbRC xij )2
Pni
2 j=1 (yij
sRRC ,i = .
n−1
Tenga en cuenta que se utiliza la misma razón para calcular la varianza en
todos los estratos.
En este caso, el estimador para la media de y es
y
bY ,RC = RbRC µX = est µX , con varianza estimada por
µ
x est
L
Ni 2 sR2 RC
ni
1−
X
var (b
µY ,RC ) = .
N Ni ni
i=1
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 25 / 31
Ejemplo (7)
Remitase al Ejemplo 4. Trate las diez observaciones que se dan allí sobre
las horas de trabajo perdidas debido a enfermedad como una muestra
aleatoria simple de la empresa A. Así, nA = 10, y A = 18.7,
x A = 17.8, rA = 1.05, nA = 1000, y τxA = 16, 300. Se tomó una muestra
aleatoria simple de nB = 10 mediciones de la empresa B dentro de la
misma industria. (Suponga que las empresas A y B juntas forman la
población de trabajadores de interés en este problema). Los datos se dan en
la siguiente Tabla 5. Se sabe que NB = 1500 empleados y τxB = 12, 800.
Encuentre la estimación de razón separada de µy y su varianza estimada.
yA
Solución: El estimador de razón de µyA es µ [ver Ecuación (6)], y su
x A xA
varianza estimada está dada por la Ecuación (7). El correspondiente
yB
estimador de µyB es µ con una varianza estimada similar.
x B xB
Para obtener un estimador de µy , la media poblacional de los valores de y ,
se necesita promediar los estimadores, como en el MAE.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 26 / 31
Tabla: Horas perdidas por enfermedad, empresa B.
Horas de trabajo Horas de trabajo
perdidas en el perdidas en el
Empleado año anterior, xB año en curso, yB
1 10 8
2 8 0
3 0 4
4 14 6
5 12 10
6 6 0
7 4 2
8 0 4
9 8 4
10 16 8
Totales 78 46
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 27 / 31
Por lo tanto, µ
byRS (donde el subíndice RS signica razón separada), dado
por
NA y A NB y B
µ
byRS = µxA + µxB ,
N xA N xB
Será el estimador de µy con varianza estimada
sr2,A sr2,B
2 2
NA nA NB nB
Vb (b
µyRS ) = 1− + 1− .
N NA nA N NB nB
El valor observado de µ
byRS de los datos es
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 28 / 31
Ejemplo (8)
Consulte los datos del ejemplo 7 y encuentre una estimación de razón
combinada de µy .
10.24
(11.64) = 10.10.
11.80
Usando Excel, se calcula que la estimación de la varianza es de 0.66.
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 30 / 31
Al comparar los ejemplos 7 y 8, se observa que el estimador de razón
combinado da la varianza estimada más grande. Este es generalmente el
caso, por lo que el estimador de razón separado se usa la mayor parte del
tiempo. Sin embargo, el estimador de razón separado puede tener un sesgo
mayor porque cada estimación de razón de estrato contribuye a ese sesgo.
En resumen, si los tamaños de la muestra del estrato son lo sucientemente
grandes (digamos, 20 más o menos) para que las proporciones separadas no
tengan grandes sesgos y para que las aproximaciones de varianza funcionen
adecuadamente, utilice el estimador de razón independiente. Si los tamaños
de la muestra del estrato son muy pequeños, o si las razones dentro del
estrato son todas aproximadamente iguales, entonces el estimador de razón
combinado puede funcionar mejor.
Por supuesto, se puede encontrar un estimador de la población total
multiplicando cualquiera de los dos estimadores por el tamaño de la
población N y las varianzas se pueden ajustar en consecuencia. El primero
de estos estimadores es entonces
τbyRS = N µ
byRS .
Bulmaro Juárez Hernández Estimación de razón, regresión y diferencia (II) Otoño de 2020 31 / 31