Está en la página 1de 12

TEORÍA DEL MUESTREO EN POBLACIONES FINITAS

Prof. Luis Firinguetti.

I. INTRODUCCIÓN

1. Objetivo:
Muchas veces nos interesa estudiar características o parámetros de una población,
tales como medias, totales, proporciones y varianzas. Un estudio de esta naturaleza
puede hacerse mediante una investigación de la totalidad de los elementos de la
población, lo que constituye un censo. En cambio el muestreo pretende estudiar
dichas características mediante información obtenida de una muestra o subconjunto
de la población.

2. Ventajas del Muestreo


i) Poblaciones infinitas. En este caso o incluso cuando la población es muy grande
es prácticamente imposible el estudio dela población completa.
ii) Procesos de medición destructivos. Sucede que para estudiar la calidad de los
productos estos se deben destruir, como ocurre por ejemplo con las pilas.
Naturalmente esto hace inaceptable el estudio de la población completa.
iii) Poblaciones suficientemente uniformes. En estos casos carece de sentido
estudiar la población completa, ya que bastaría con una pequeña muestra. Por
ejemplo una muestra de sangre.
iv) Calidad. La recolección de información mediante muestras requiere menos
personal. Esto permite trabajar con personal especializado, mejor entrenado, el
que suele ser escaso. Además admite el uso de equipos y técnicas más
sofisticadas. Todo lo cual redunda en una mejor supervisión y control,
asegurando una mayor calidad. Esto en definitiva permite controlar los errores
ajenos al muestreo.
v) Economía. El uso de muestras en lugar de un censo reduce significativamente
los costos. Además al liberar recursos se puede obtener más información y más
detallada.
vi) Tiempo. Muchas veces la toma de decisiones requiere disponer de información
muy rápidamente, lo que hace impracticable trabajar con toda la población.

3. Limitaciones del Muestreo


i) Evidentemente no es posible utilizar muestras cuando se requiere información
para todos los elementos de la población.
ii) No es conveniente usar muestras cuando se requiere información para grupos u
áreas muy pequeñas, pudiéndose obtener información para la totalidad de los
miembros de la población.

4. Definiciones Básicas
a) Población: conjunto total de elementos, sujetos u objetos bajo estudio para los
cuales se desea estudiar alguna característica. Se supone que tenemos un listado
de la misma. La población puede ser:

1
• Finita, compuesta por N miembros. Ej. habitantes de Concepción; alumnos
de una Facultad de la UBB,
• Infinita, en este caso la población no es completamente observable. Por
ejemplo: los artículos que se producen mediante una máquina.

Además debemos distinguir entre población objetivo y población muestreada:


• Población objetivo: que representa la población deseada, la que se desea
alcanzar e investigar. Sin embargo partes de la población objetivo pueden
ser imposibles de alcanzar (por ejemplo los “niños de la calle” o los
“mendigos” para los cuales no hay listas y tampoco tienen residencias
permanentes y sin embargo forman parte de la población de la ciudad. De
manera similar, al considerar la población de pacientes potenciales con una
enfermedad, no es posible muestrear a aquellos que no han nacido aun.
• Población muestreada: se refiere a la población a la que realmente
podemos llegar. Desde luego debe buscarse la más estrecha
correspondencia posible entre la población objetivo y la muestreada.

b) Marco Muestral: es el listado de todas la unidades que se utilizan para elegir la


muestra (es la lista de los elementos de la población muestreada). Este marco
puede estar conformado, por ejemplo, por una lista de personas o de unidades
de vivienda; puede ser también un mapa subdividido en áreas, o una lista de
nombres y domicilios almacenados en algún medio electrónico, como por
ejemplo un archivo en un disco duro o en una base de datos. Se distinguen tres
grandes grupos de Marcos Muestrales:

• Marcos Muestrales “de Lista”, son aquellos en los cuales las Unidades de
Muestreo se encuentran dispuestas en una lista o directorio. Un ejemplos
de este tipo de Marcos Muestrales es el que utiliza para las Encuestas
Industriales.
• Marcos de Áreas o Conglomerados. En realidad son también Marcos de
Listas aunque sus elementos son áreas geográficas. Estos marcos se
utilizan cuando no se dispone de otro Marco de Lista que sea completo.
Por ejemplo en las Encuestas de Hogares se comienza con un marco de
áreas geográficas puesto que no se cuenta con un marco actualizado de
viviendas particulares.
• Marcos Muestrales “Encestados” o “Encajados”. En estos casos, las
unidades de un Marco son, a su vez Marcos Muestrales las que permiten
alcanzar un Marco con las llamadas Unidades Últimas de Muestreo. En
otra palabras, la Población se encuentra particionada. Cada elemento de
esta partición constituye una unidad del Marco Muestral Primario a las
que llamaremos Unidades Primarias de Muestreo. Cada Unidad Primaria
puede a su vez estar particionada. Los elementos de cada partición de
Unidades Primarias son unidades de sendos Marcos Muestrales
Secundarios y a sus respectivas unidades se les llama Unidades
Secundarias de Muestreo. Estas Unidades Secundarias pueden o no estar
particionadas. Si lo están definiríamos Marcos Muestrales Terciarios con

2
Unidades Terciarias de Muestreo y así se podría continuar considerando
nuevos Marcos “encajados” en las Unidades de los Marcos Muestrales
previos. Las Unidades del último Marco Muestral considerado se llaman
Unidades Últimas de Muestreo. Un caso típico de estos marcos son los
utilizados en las Encuestas de Hogares.

Es deseable que los Marcos Muestrales cuenten con información auxiliar


referida a sus respectivas unidades, esto permite mejorar el diseño
muestral mediante la estratificación o el uso de estimadores de razón o
regresión.

c) Unidad de Análisis: es la unidad para la cual se desea obtener información


estadística. Es la entidad que va a ser objeto específico de estudio en una
medición. Las unidades de análisis más comunes son las personas, los hogares,
los predios agrícolas y los establecimientos comerciales. También pueden ser
productos que salgan de una máquina procesadora. Se llama frecuentemente a
la unidad de análisis un elemento de la población. Puede ser que haya más de
una unidad de análisis para la misma encuesta; por ejemplo, hogares y personas;
o el número de predios agrícolas y las hectáreas de tierra cultivadas.

d) Unidad muestral: corresponde a cada elemento en que se divide la población


para seleccionar la muestra. Es la entidad básica mediante la cual se accederá a
la unidad de análisis. En el ejemplo, la vivienda. Las unidades muestrales las
elige el investigador. Deben ser distinguibles e identificables, aunque a veces no
están perfectamente definidas. Por ejemplo en el caso de encuestas de
morbilidad se suele trabajar con hogares como unidad de muestreo e individuos
de dichos hogares, como unidad de análisis. Por cierto hay casos en que las
unidades de muestreo y de análisis coinciden, y de cualquier modo debe haber
una correspondencia entre ellas

e) Unidad de información: es quien entrega la información y puede o no


coincidir con la unidad de análisis. Por ejemplo en un estudio sobre hábitos
sociales de preescolares la unidad de análisis es el niño, pero la unidad de
información sería algún adulto que está a cargo.

Ejemplo: Para determinar las características socioeconómicas de una comuna.


Necesitamos:
i) El número total de viviendas de la comuna (esta información podría obtenerse
de la municipalidad ), supongamos N = 50.000.
ii) Un listado, o un plano del barrio, donde individualizarlas.
iii) Determinar el tamaño de la muestra, supongamos n = 2500.

Coeficiente de expansión: N° de individuos de la población representados por


N 50000
cada individuo de la muestra: CE = = = 20 , es decir cada vivienda
n 2500
encuestada representa a 20 viviendas de la comuna.

3
Fracción del muestreo: proporción de unidades de la población contenidas en
n 2500
la muestra. f = = = 0, 05 , es decir se ha encuestado al 5% de la
N 50000
población.

5. Etapas del Muestreo:

a) Objetivos del Estudio.


Debe establecerse de la manera más clara y precisa posible los objetivos del
estudio para evitar desviarse de estos y lograr que se cumplan. Es necesario
establecer que información se necesita y como se esperan usar los resultados.
b) Condiciones, recursos y limitaciones.
Establecer las limitaciones presupuestarias, de recursos humanos y de tiempo a
la que debe someterse la investigación. Debe tenerse en cuenta también las
restricciones legales y administrativas que pueden influir en el plan de trabajo.
c) Definición de la población.
Debe definirse la población a partir de la cual se extraerá la muestra. Es preciso
distinguir entre población objetivo y población muestreada y establecer de que
manera estas difieren. Es preciso tener presente que los resultados sólo son
válidos para la población muestreada y la posibilidad de extenderlos a la
población objetivo dependen de cuanto y como difieran ambas poblaciones.
Junto con la población es necesario definir la unidad de análisis y la unidad
muestral.
d) Marco muestral.
Se debe elaborar el listado de todas la unidades muestrales. Este marco muestral
debería coincidir con la población objetivo.
e) Selección del método de muestreo y tamaño de la muestra.
i. La muestra debe ser aleatoria, representativa de la población. Mediante
la generación de números aleatorios se puede obtener una muestra
aleatoria (Excel tiene una rutina para este propósito).
ii. El método de muestreo depende del problema en estudio y de los recursos
disponibles.
iii. El tamaño de la muestra depende de la variabilidad, de la fiabilidad y del
costo.
f) Método de recolección de la información.
Se debe decidir la forma en que se obtendrá la información: observación
directa; entrevistas personales; entrevistas telefónicas; cuestionarios enviados
por correo.
g) Instrumento de medición.
Debe definirse cómo se harán las mediciones. Generalmente se utilizan
cuestionarios, en cuyo caso estos deben diseñarse para minimizar la no
respuesta y evitar la introducción de sesgos.
h) Organización del trabajo de campo.

4
Debido a que el trabajo de campo requiere una gran cantidad de personal para
cumplir diversas tareas (encuestadores, supervisores, digitadores, etc.) es
necesario elaborar cuidadosamente un programa de actividades, y establecer
líneas de autoridad.
i) Selección y entrenamiento del personal de campo
Debe seleccionarse y adiestrarse adecuadamente a quienes van a recoger la
información en terreno. Deben estar familiarizados con el instrumento de
medición, facilitar la obtención de respuestas pero evitar la introducción de
sesgos.
j) Prueba piloto
Esta prueba, que se basa en una pequeña muestra, es crucial para probar en la
práctica los instrumentos de medición, calificar a los encuestadores, y verificar
el manejo de las operaciones de campo.
k) Organización de la recolección de datos
Debido a que usualmente se genera una gran cantidad de información es preciso
elaborar un esquema para manejarla y construir una bases de datos, partiendo
con la recolección de estos en el trabajo de campo, hasta su análisis final,
pasando por la digitación y verificación de los datos. Es preciso que haya un
adecuado control dela calidad de los datos.
l) Análisis de los resultados y elaboración de conclusiones
Los resultados deben ser tabulados y analizados mediante técnicas estadísticas
apropiadas. A partir de esto se podrán elaborar las conclusiones y redactar el
informa final.

6. Errores en el muestreo
Resultan de disponer sólo de información de un subconjunto de la población total.
Tipos de errores:
a) Aleatorios, propios del muestreo: Son debidos al azar y al mecanismo
probabilístico. Una observación tiende a compensarse con otra. Estos errores se
pueden reducen aumentando el tamaño de la muestra.
b) Sistemáticos o ajenos al muestreo: No tienen que ver con el tipo de muestreo.
Para corregirlos se debe controlar la forma en que se obtiene la muestra.
Ejemplos de este tipo de error:
• debidos a la falta de respuesta a todo el cuestionario (ausencia de
encuestado) o a una parte del cuestionario (no responde o no sabe o no
contesta, ns/nc).
• mala o incorrecta definición de la población. Ejemplo elecciones USA en
1936
• respuestas falsas , erróneas o imprecisas: preguntas difíciles de entender o
que den a entender que una respuesta es mejor que otra.
• errores en la recolección, codificación, tabulación o elaboración de
los datos.

7. Tipos de muestreo
Atendiendo a las fases que hay en el proceso:
a) Unietápico. Ejemplo, seleccionar a alumnos de una lista.

5
b) Polietápico: En cada etapa se seleccionan las unidades muestrales. Ejemplo: Se
seleccionan aulas (unidad primaria), después, a partir de las aulas seleccionadas,
se seleccionan alumnos (unidad secundaria).
Además el muestreo puede hacerse:
a. Con reposición: tras cada elección el individuo vuelve a la población, pudiendo
haber elementos repetidos en la muestra.
b. Sin reposición: tras cada elección el individuo se elimina de la población Es
imposible que haya elementos repetidos en la muestra.
El muestreo también puede ser de tipo:
a. Probabilístico: Cuando cada elemento de la población tiene una probabilidad
conocida de ser seleccionado en la muestra.
b. No probabilístico: Cuando la probabilidad de selección de cada elemento es
desconocida. :
i. Muestreo por conveniencia (no aleatorio):
ii. Basado en juicio
iii. Por cuotas
iv. Bola de nieve

8. Tipos de Muestreo Probabilístico


Muestreo aleatorio simple: se selecciona una muestra de una población, donde
cada individuo tiene igual probabilidad de ser elegido. Este tipo de muestreo tiene
las siguientes características:
a. Es sencillo desde el punto de vista teórico y es la base para los demás tipos de
muestreo probabilístico.
b. A cada elemento en la población se le asigna un número y se seleccionan SIN
reposición.
c. Selección de individuos se hace mediante tabla de números aleatorios
d. Todas las muestras son igualmente probables.
e. Para hacer este muestreo necesitamos:
• Lista de todos los elementos de la población enumerados consecutivamente.
• Una tabla de números aleatorios
• Identificar los números seleccionados

Muestreo estratificado: La población se divide en estratos, heterogéneos entre si,


mientras que cada estrato tiene elementos homogéneos. Conviene usar este tipo de
muestreo cuando hay estratos naturales (Regiones; Hombre / Mujer, etc.), en
especial cuando se desea tener resultados representativos no sólo para la población
total sino además para cada estrato individual. La ventaja principal de este tipo de
muestreo sobre el muestreo aleatorio simple es que mediante la estratificación se
puede aumentar la precisión de las estimaciones.
Dentro de cada estrato se hace un muestreo aleatorio simple. Para determinar como
se reparte n (tamaño de la muestra) entre los diferentes estratos se pueden usar los
siguientes criterios
N
• Afijación proporcional: nh = h n ; h = 1, 2,… , L donde
N
N h es el tamaño del estrato h ( n° de elementos en el estrato h)

6
nh es el tamaño de la muestra en el estrato h ( n° de elementos en la muestra del
estrato h)

Ejemplo. Suponga una población de N =50000 casas: 35000 clasificadas como


del tipo 1, 5000 del tipo 2 y 10000 del tipo 3. Si se desea seleccionar la muestra
35000 5000
de n=2500, entonces: n1 = 2500 = 1750 , n2 = 2500 = 250 y
50000 50000
10000
n3 = 2500 = 500 .
50000

• Afijación óptima: tiene presente no sólo el tamaño de la población de cada


estrato sino también su dispersión (desviación estándar). Este procedimiento
obliga a utilizar una encuesta piloto previa para estimar dispersiones, a menos
que se disponga de esta información en algún estudio similar realizado
anteriormente. Si llamamos L al número de estratos y N h al número de
elementos del estrato h, la fórmula para determinar el tamaño de la muestra
dentro de cada estrato es:
N S
nh = n L h h
∑ N jS j
j =1

1 Nh
donde S = 2
h ∑
N h − 1 i =1
( yhi − Yh ) 2 es la cuasivarianza del estrato h

yhi es el i-ésimo elemento del estrato h


Yh es la media de los elementos de del estrato h

Muestreo por conglomerados: Los conglomerados son agrupaciones heterogéneas


de elementos. Aquí ocurre lo apuesto al muestreo estratificado, ya que los
conglomerados se parecen entre si (homogéneos), mientras que la heterogeneidad se
da al interior de cada conglomerados
• En este caso la unidad de muestreo es el conglomerado.
• Se seleccionan conglomerados y luego se seleccionan todos los elementos del
conglomerado seleccionado. Por ejemplo si se van a seleccionar 2500
viviendas, entonces una manzana se puede considerar como un conglomerado,
y si cada manzana tiene 25 viviendas, entonces se seleccionan 2500 / 25 = 100
manzanas y se entrevista a la totalidad de las familias en las manzanas
(conglomerados) seleccionadas (2500).
• Este tipo de muestreo tiene la ventaja de requerir menos unidades muestrales.
Tampoco es necesario un listado de todos los elementos de la población ni
saber el tamaño de la población.
• Otra ventaja es que las entrevistas a un conglomerado son menos costosas
(evita muchos desplazamientos del entrevistador)
• Este tipo de muestreo tiene el inconveniente de que cada conglomerado puede
ser muy similar (barrios de obreros, de profesores, de militares, etc.)

7
• Es recomendable sólo si confiamos en la aleatoriedad de los elementos del
conglomerado.

Muestreo Sistemático: Si se dispone de un listado con todos los miembros de la


población enumerados de 1 a N y se desea tomar una muestra de tamaño n tal que
k = N / n . Entonces una muestra sistemática se obtiene eligiendo un elemento al
azar entre los primeros k y los restantes se eligen a partir de este, de k en k. Es decir
si el primer elemento elegido es k0 , con 1 ≤ k0 ≤ k , entonces los elementos elegidos
en la muestra serían: k0 , k0 + k , k0 + 2k ,… , k0 + (n − 1)k .

II. MUESTREO ALEATORIO SIMPLE O IRRESTRICTAMENTE ALEATORIO

1. Notación y Definiciones
Sean:
y1 , y2 , , y N las observaciones de una variable y para los N elementos (individuos,
objetos, etc) que constituyen una población.
y1 , y2 , , yn los valores correspondientes en la muestra. Nótese que estos valores
son un subconjunto de los valores poblacionales que NO corresponden
necesariamente con los n primeros valores poblacionales.
Para representar características poblacionales usaremos letras mayúsculas mientras
que para las estimaciones muestrales usaremos letras minúsculas:

Característica Población Muestra


Total N n
Y = ∑ yi = y1 + y2 + + yN ∑y i = y1 + y2 + + yn
i =1 i =1

Media Y 1 N 1 n
Y = = ∑ yi y= ∑ yi
N N i =1 n i =1
Razón Y Y
R= = r=
∑y i
=
y
X X ∑x i x
Proporción A a
P= p=
N n
Varianza 1 N N −1 2
σ = ∑ ( yi − Y )2
2
σˆ 2 = s
N i =1 N
Cuasi-Varianza 1 N
N 1 n
S2 = ∑
N − 1 i =1
( yi − Y ) 2 =
N −1
σ2 s2 = ∑ ( yi − y )2
n − 1 i =1

A = n° de unidades en la población que presentan una característica de interés


a = n° de unidades en la muestra que presentan una característica de interés

Las estimaciones de los parámetros poblacionales a considerar en este contexto


serán las siguientes:

8
Característica Estimador
Media: Y Yˆ = y
Total: Y Yˆ = Ny
Razón: R R̂ = r
Proporción: P P̂ = p
Varianza: σ2 N −1 2
σˆ 2 = s
N
Cuasi-varianza: S 2 1 n
Sˆ 2 = s 2 = ∑
n − 1 i =1
( yi − y ) 2

2. Propiedades del Muestreo Aleatorio Simple (MAS)

El MAS se puede caracterizar por las siguientes probabilidades:


• La probabilidad de que una unidad cualquiera yi , i = 1, 2,.… , N , aparezca en
una extracción cualquiera es P ( yi ) = 1/ N .
• La probabilidad de que una unidad yi aparezca en una extracción específica
dado que la unidad y j ( i ≠ j ) ya apareció en otra extracción es
P ( yi / y j ) = 1/( N − 1) .
• La probabilidad de que las unidades yi e y j aparezcan en dos extracciones
específicas es P ( yi , y j ) = P ( yi / y j ) P( y j ) = (1/( N − 1))i(1/ N ) = 1/ N ( N − 1) .
• El total de muestras de tamaño n que se pueden seleccionar SIN
⎛N⎞
REPOSICIÓN de esta población de N unidades es ⎜ ⎟ . Luego la
⎝n⎠
1
probabilidad de elegir cada una de esas muestras es .
⎛N⎞
⎜ ⎟
⎝n⎠
El número de muestras en que puede aparecer una unidad específica yi es
⎛ N − 1⎞
Cn −1 = ⎜
N −1 ⎟ . Esto es así debido a que hay N − 1 unidades adicionales
⎝ n −1 ⎠
para completar el resto de la muestra y n − 1 lugares que llenar en la muestra.
Esto es, una vez fijado un elemento, con las N − 1 unidades restantes se
⎛ N − 1⎞
pueden formar ⎜ ⎟ combinaciones para completar una muestra de
⎝ n −1 ⎠
tamaño n.

9
• La probabilidad de que una unidad poblacional dada forme parte de una
muestra de tamaño n, o de ser seleccionada en una muestra de tamaño n es:
⎛ N − 1⎞
⎜ ⎟
casos favorables ⎝ n − 1 ⎠ n
= = .
casos posibles ⎛N⎞ N
⎜ ⎟
⎝n ⎠
• El número de muestras en que puede aparecer un par ( yi , y j ) es
⎛ N − 2⎞
N −2Cn − 2 = ⎜ ⎟ . Esto es así debido a que hay N − 2 unidades adicionales
⎝n−2 ⎠
para completar el resto de la muestra y n − 2 lugares que llenar en la muestra.
Esto es, una vez fijados dos elementos, con las N − 2 unidades restantes se
⎛ N − 2⎞
pueden formar ⎜ ⎟ combinaciones para completar una muestra de
⎝n−2 ⎠
tamaño n. Por tanto cada par tiene la siguiente probabilidad de aparecer en las
muestras:
⎛ N − 2⎞
⎜ ⎟
casos favorables ⎝ n − 2 ⎠ n(n − 1)
= =
casos posibles ⎛N⎞ N ( N − 1)
⎜ ⎟
⎝n ⎠

3. Propiedades de los Estimadores en el Muestreo Aleatorio Simple

3.1. Insesgamiento de la media y total muestral: E ( y ) = Y y E (Yˆ ) = Y


⎛N⎞
Recordando que hay un total de N Cn = ⎜ ⎟ muestras posibles y si
⎝n⎠
denotamos por yk a la media que resultaría de utilizar la k-ésima muestra,
entonces cada una de estas medias tiene probabilidad P ( yk ) = 1/ N C n ,
k = 1, 2,… , N Cn . Luego el valor esperado es:
N Cn N Cn
1 1 1
E ( y ) = ∑ yk = ∑y k = ( y1 + y2 + + y N Cn )
k =1 N Cn N Cn k =1 N Cn

1 1 ⎧⎪⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎫⎪
= ⎨⎜ ∑ yi ⎟ + ⎜ ∑ yi ⎟ + + ⎜ ∑ yi ⎟ ⎬
⎩⎝ i
N Cn n ⎪ ⎠1 ⎝ i ⎠2 ⎝ i ⎠ N Cn ⎪⎭

Como vimos anteriormente cada unidad poblacional yi aparece en N −1 Cn −1


muestras, luego la suma en llaves es igual a
N

N −1 Cn −1 ( y1 + y2 + + yN ) = N −1 Cn −1 ∑ yi . Por lo tanto
i =1

10
⎛ N − 1⎞ ( N − 1)!
⎜ ⎟ N (n − 1)!( N − n ) ! 1 N
1 1⎧ N
⎫ ⎝ n −1 ⎠ 1
E( y ) = ⎨ N −1 Cn −1 ∑ yi ⎬ = ∑ i y = ∑ yi
N Cn n ⎩ i =1 ⎭ ⎛ N ⎞ n i =1 N! n i=1
⎜ ⎟ n !( N − n ) !
⎝n ⎠
1 N
= ∑ yi = Y
N i =1
Además para el estimador del total poblacional se tiene que

E (Yˆ ) = E ( Ny ) = NY = Y .

3.2. Insesgamiento de s 2
A continuación demostraremos que E ( s 2 ) = S 2 . Como
1 ⎛ n 2 ⎞
s2 = ⎜ ∑
n − 1 ⎝ i =1
yi − ny 2 ⎟

Luego:
1 ⎛ ⎛ n 2⎞ 2 ⎞
E (s 2 ) = ⎜ E ⎜ ∑ yi ⎟ − nE ( y ) ⎟ ,
n − 1 ⎝ ⎝ i =1 ⎠ ⎠
⎛N⎞
y como hay Cn = ⎜ ⎟ muestras, cada una de ellas con probabilidad
N
⎝n⎠
1/ N Cn , entonces

⎛ n ⎞ 1 ⎧⎪⎛ 2⎞ ⎛ 2⎞ ⎛ ⎞ ⎫⎪
E ⎜ ∑ yi2 ⎟ = ⎨⎜ ∑ yi ⎟ + ⎜ ∑ yi ⎟ + + ⎜ ∑ yi2 ⎟ ⎬
⎝ i =1 ⎠ N Cn ⎩⎪⎝ i ⎠1 ⎝ i ⎠2 ⎝ i ⎠ N Cn ⎭⎪

⎛ N − 1⎞
Pero como ya hemos establecido, cada yi ( yi2 ) aparece en N −1 Cn −1 = ⎜ ⎟
⎝ n −1 ⎠
muestras, entonces

⎛ N − 1⎞
⎜ ⎟
⎛ n 2 ⎞ N −1 Cn −1 N 2 ⎝ n − 1 ⎠ N 2 n N
E ⎜ ∑ yi ⎟ = ∑ yi = ∑ yi = N ∑y 2

⎛ N ⎞ i =1
i
⎝ i =1 ⎠ N Cn i =1 i =1
⎜ ⎟
⎝n ⎠
Por otro lado

11
1 ⎡⎛ n ⎞ ⎤ 1 ⎡ ⎛ n 2 n n ⎞⎤
2

E ( y ) = 2 E ⎢⎜ ∑ yi ⎟ ⎥ = 2 E ⎢⎜ ∑ yi + ∑∑ yi y j ⎟ ⎥
2

n ⎢⎣⎝ i =1 ⎠ ⎥⎦ n ⎢⎣⎝ i =1 i≠ j ⎠ ⎥⎦
1 1 ⎪⎧⎛ 2⎞ ⎛ 2⎞ ⎛ ⎞ ⎪⎫
= 2 ⎨⎜ ∑ yi ⎟ + ⎜ ∑ yi ⎟ + + ⎜ ∑ yi2 ⎟ ⎬
n N Cn ⎪⎩⎝ i ⎠1 ⎝ i ⎠2 ⎝ i ⎠ N Cn ⎪⎭

1 1 ⎧⎪⎛ n n ⎞ ⎛ n n ⎞ ⎛ n n ⎞ ⎪⎫
+ 2 ⎨⎜ ∑∑ i j ⎟ + ⎜ ∑∑ yi y j ⎟ +
y y + ⎜ ∑∑ yi y j ⎟ ⎬
n N Cn ⎪⎝ i ≠ j ⎠1 ⎝ i ≠ j ⎠2 ⎝ i≠ j ⎠ N Cn ⎭⎪

⎛ N − 1⎞
pero cada yi aparece en N −1 Cn −1 = ⎜ ⎟ muestras, mientras que cada par
⎝ n −1 ⎠
⎛ N − 2⎞
( yi , y j ) aparece en N −2 Cn − 2 =⎜ ⎟ muestras. Por lo tanto
⎝n−2 ⎠
1 1 ⎧ N N N

E( y 2 ) = ⎨ N −1 Cn −1 ∑ yi + N − 2 n − 2 ∑∑ yi y j ⎬
2
C
n2N n ⎩
C i =1 i≠ j ⎭
⎛ N − 1⎞ ⎛ N − 2⎞
⎜ ⎟ ⎜ ⎟
N −1 Cn −1 ⎝ n −1 ⎠ n N − 2 Cn − 2 ⎝ n − 2 ⎠ n(n − 1)
Pero = = ; = = , luego
N Cn ⎛N⎞ N N Cn ⎛N⎞ N ( N − 1)
⎜ ⎟ ⎜ ⎟
⎝n ⎠ ⎝n ⎠

1 ⎧n N
n(n − 1) N N ⎫ 1⎧1 N 2 (n − 1) N N ⎫
E( y 2 ) =
n2
⎨ ∑ yi2 + ∑∑
N ( N − 1) i ≠ j
yi j⎬
y = ⎨ ∑ i y + ∑∑
N ( N − 1) i ≠ j
yi y j ⎬
⎩N
i =1 ⎭ n ⎩ N i =1 ⎭
1 ⎧ ( N − 1) N 2 (n − 1) N N ⎫
= ⎨
n( N − 1) ⎩ N i =1
∑ yi + ∑∑ yi y j ⎬
N i≠ j ⎭
1 ⎧[( N − n) + (n − 1)] N 2 (n − 1) N N ⎫
=
n( N − 1) ⎩
⎨ ∑ yi + ∑∑ yi y j ⎬
N i =1 N i≠ j ⎭
1 ⎧⎪ ( N − n) N 2 ⎧1 N
1 N N ⎫⎪⎫
= ⎨
n( N − 1) ⎪⎩ N
∑ yi + (n − 1) ⎨ ∑ yi2 + ∑∑ y y i j ⎬⎬
i =1 ⎩N i =1 N i≠ j ⎭⎪⎭
1 ⎧ ( N − n) N 2 ⎫
= ⎨
n( N − 1) ⎩ N
∑i =1
yi + N (n − 1)Y 2 ⎬

Por lo tanto:

12

También podría gustarte