Está en la página 1de 4

1

Poblacin y muestra
Poblacin (population) es el conjunto sobre el que estamos
interesados en obtener conclusiones (hacer inferencia).
Normalmente es demasiado grande para poder abarcarlo.
Muestra (sample) es un subconjunto de la poblacin al que
tenemos acceso y sobre el que realmente hacemos las observaciones
(mediciones)
Debe ser representativo
Est formado por miembros seleccionados de la poblacin
(individuos, unidades experimentales).
Teora del muestreo
La poblacin ideal que se pretende estudiar se denomina poblacin
objetivo.
No es fcil estudiarla por completo. Aproximamos mediante muestras que
den idealmente la misma probabilidad a cada individuo de ser elegido.
Tampoco es fcil elegir muestras de la poblacin objetivo:
Si llamamos por telfono excluimos a los que no tienen.
Si elegimos indiv. en la calle, olvidamos los que estn trabajando...
El grupo que en realidad podemos estudiar (ej los que tienen telfono)
se denomina poblacin de estudio.
Muestreo
Proceso que nos permite la extraccin de una muestra a
partir de una poblacin
Fuentes de sesgo
Las poblaciones objetivo y de estudio pueden diferir en cuanto a las
variables que estudiamos.
El nivel econmico en la poblacin de estudio es mayor que en la
objetivo,...
Los individuos que se eligen en la calle pueden ser de mayor edad
(mayor frecuencia de jubilados p.ej.)
En este caso, diremos que las muestras que se elijan estarn sesgadas. Al
tipo de sesgo debido a diferencias sistemticas entre poblacin objetivo y
poblacin de estudio se denomina sesgo de seleccin.
Hay otras fuentes de error/sesgo
No respuesta a encuestas embarazosas
Consumo de drogas, violencia domstica, prcticas poco ticas,
Mentir en las preguntas delicadas.
Para evitar este tipo de sesgo se utilizan la tcnica de respuesta
aleatorizada.
Tcnicas de muestreo
Cuando elegimos individuos de una poblacin de estudio para formar
muestras podemos encontrarnos en las siguientes situaciones:
Muestreos probabilistas
Se conoce o se puede calcular la probabilidad de que un individuo sea
elegido para la muestra.
Interesantes para usar estadstica matemtica con ellos.
Muestreos no probabilistas
La seleccin de los sujetos de la muestra no se hace al azar.
Son muestreos que seguramente esconden sesgos.
En principio no se pueden extrapolar los resultados a la poblacin.
Interesa trabajar con muestreos con la menor posibilidad de sesgo
(probabilistas).
Mtodos de muestreo clasificados de acuerdo con el nmero de
muestras tomadas de una poblacin.
Puede ser: muestreo simple, doble y mltiple.
Muestreo probabilstico
Este muestreo garantiza que, a la larga, las
muestras que se van obteniendo de la
poblacin sean representativas de la misma.
Tipos de muestreo probabilstico
Muestreo aleatorio simple
Muestreo estratificado
Muestreo por conglomerados
Muestreo por etapas
Muestreo sistemtico
1 Muestreo aleatorio simple (m.a.s.)
Se eligen individuos de la poblacin de estudio, de
manera que todos tienen la misma probabilidad de
aparecer, hasta alcanzar el tamao muestral deseado.
Se puede realizar partiendo de listas de individuos de la
poblacin, y eligiendo individuos aleatoriamente con un
ordenador.
Normalmente tiene un coste bastante alto.
En general, las tcnicas de inferencia estadstica
suponen que la muestra ha sido elegida usando m.a.s.
Muestreo probabilstico
2
2 Muestreo estratificado
Se aplica cuando sabemos que hay ciertos factores
(variables, subpoblaciones o estratos) que pueden influir
en el estudio y queremos asegurarnos de tener cierta
cantidad mnima de individuos de cada tipo:
Hombres y mujeres,
Jovenes, adultos y ancianos
Se realiza entonces un m.a.s. de los individuos de cada
uno de los estratos. Cada individuo debe pertenecer a
un estrato (y solo uno), y cada individuo del estrato
habr de tener la misma probabilidad de ser escogido
como parte de la muestra.
Al extrapolar los resultados a la poblacin hay que tener
en cuenta el tamao relativo del estrato con respecto al
total de la poblacin.
Muestreo probabilstico
3 Muestreo por grupos o conglomerados
Se aplica cuando es difcil tener una lista de todos los individuos
que forman parte de la poblacin de estudio, pero sabemos que se
encuentran agrupados naturalmente en grupos.
Se realiza eligiendo varios de esos grupos al azar, y ya elegidos
algunos podemos estudiar a todos los individuos de los grupos
elegidos o bien seguir aplicando dentro de ellos ms muestreos por
grupos, por estratos, aleatorios simples,
Para conocer la opinin de los mdicos del sistema nacional de salud,
podemos elegir a varias regiones de Espaa, dentro de ellas varias
comarcas, y dentro de ellas varios centros de salud, y
Al igual que en el muestreo estratificado, al extrapolar los resultados
a la poblacin hay que tener en cuenta el tamao relativo de unos
grupos con respecto a otros.
Regiones con diferente poblacin pueden tener probabilidades
diferentes de ser elegidas, comarcas, hospitales grandes frente a
pequeos,
Muestreo probabilstico
4 Muestreo por etapas
En este caso se combina el muestreo aleatorio
simple con el muestreo por conglomerados:
Primero se realiza un muestreo por conglomerados
ej. si los conglomerados son colegios en Valencia, se seleccionan
aleatoriamente varios de ellos
Segundo, no se eligen todos los alumnos (como
ocurrira en un muestro por conglomerados), sino
que se elige una muestra aleatoria. (Dicha
muestra puede ser obtenida por muestreo
aleatorio simple o puede ser estratificado.)
Es decir, hemos tenido 2 etapas de muestreo. Y
claro est, es posible tener ms de 2 etapas...
Muestreo probabilstico
5 Muestreo sistemtico
Se tiene una lista de los individuos de la poblacin de
estudio. Si queremos una muestra de un tamao dado,
elegimos individuos igualmente espaciados de la lista,
donde el primero ha sido elegido al azar.
CUIDADO: Si en la lista existen periodicidades,
obtendremos una muestra sesgada.
Un caso real: Se eligi una de cada cinco casas para un estudio
de salud pblica en una ciudad donde las casas se distribuyen
en manzanas de cinco casas. Salieron con mucha frecuencia las
de las esquinas, que reciben ms sol, estn mejor ventiladas,
Muestreo probabilstico
1 Muestreo por cuotas o accidental
Basado en un buen conocimiento de los estratos de la poblacin
y/o de los individuos ms "representativos" o "adecuados" para los
fines de la investigacin. Tiene semejanzas con el muestreo
aleatorio estratificado, pero no tiene el carcter de aleatoriedad de
aqul.
Muestreo no probabilstico
2 Muestreo sin norma (o de conveniencia,
incidental, casual)
Se elige a una muestra por ser conveniente, fcil, econmica Pero
no se hace en base a un criterio de aleatoridad. (Ej. Voluntarios)
3 Muestreo intencional (de juicio, de criterio, de
casos extremos)
Sus elementos son seleccionados mediante juicio personal. La persona que
selecciona los elementos de la muestra, usualmente es un experto en la
medida dada y procura que se garantice la representatividad de la
muestra
Estimacin
Un estimador es una cantidad numrica calculada sobre una
muestra y que esperamos que sea una buena aproximacin de
cierta cantidad con el mismo significado en la poblacin
(parmetro).
Caractersticas deseables de un estimador:
Carencia de sesgo: el valor medio del estimador para
diferentes muestras coincide con el valor del parmetro
Consistencia: cuando el tamao de la muestra crece
arbitrariamente, el valor estimado se aproxima al parmetro
desconocido
Eficiencia: Mnima dispersin respecto al valor central
(mnima varianza)
Suficiencia: Aprovecha toda la informacin de la muestra
3
Propiedades deseables en los estimadores
1. Ser insesgado. Se dice que un estimador de un
parmetro es insesgado o centrado si su valor medio o
esperado coincide exactamente con . Esta propiedad es
deseable en tanto que el valor medio de una variable seala
la zona donde se concentran los valores de mxima
probabilidad de la variable, sobre todo si su funcin de
densidad es notablemente simtrica.
La media muestral es un estimador insesgado de la media
poblacional.
Pero la varianza muestral NO es un estimador insesgado de la
varianza poblacional, pero s lo es en cambio la cuasivarianza.
2. Consistencia. Se dice que un estimador es consistente si
se cumple que
A medida que se incrementa el tamao muestral, la diferencia
entre el estimador y el parmetro ser menor que cualquier
nmero ().
A diferencia de la ausencia de sesgo que se define para valores
finitos de n, la consistencia es una propiedad asinttica.
Tanto la media muestral como la cuasivarianza son estimadores
consistentes.
Nota: la varianza muestral ES un estimador consistente de la
varianza poblacional, dado que a medida que el tamao muestral
se incrementa, el sesgo disminuye
Propiedades deseables en los estimadores
( )
lim 0
n
P

> =

Propiedades deseables en los estimadores


Se puede comprobar que la varianza muestral es ms
eficiente que la cuasivarianza muestral a la hora de estimar
la varianza poblacional. (An as, se prefiere la
cuasivarianza muestral como estimador de la varianza
poblacional por ser un estimador insesgado.)
3. Eficiencia. Se emplea para COMPARAR estimadores.
Si tenemos dos estimadores y de un mismo parmetro , diremos que
es ms eficiente que si tenemos que var( )<var( )
1

4. Suficiencia. Diremos que es un estimador suficiente del


parmetro si dicho estimador basta por s solo para estimar

Puesto que la varianza de una variable aleatoria es una medida de


dispersin de la variable, respecto de su valor medio, en este caso
representara una medida del error que se puede cometer en la estimacin;
por lo que deberemos elegir aquel estimador de mnima varianza o ms
eficiente.
Es til conocer la distribucin de un estimador?
Es la clave para hacer inferencia. (teorema del lmite central).
Si de una variable conocemos y , sabemos que para muestras
grandes, la media muestral es:
aproximadamente normal,
con la misma media y,
desviacin tpica mucho menor (error estndar)
Es decir si por ejemplo =60 y =5, y obtenemos muestras de tamao
n=100,
La desv. tpica de la media muestral (error estndar) es
como la media muestral es aproximadamente normal, el 95% de los
estudios con muestras ofreceran estimaciones entre 601
Dicho de otra manera, al hacer un estudio tenemos una confianza del
95% de que la verdadera media est a una distancia de 1.
n
EE

=
5 . 0
100
5
= = EE
Valores aberrantes
Dixon: slo permite detectar un valor aberrante en cada paso. Distribucin
normal
1
1
x x
x x
Q
n
n n

0.165 0.216 0.260 0.310 0.342 0.371 0.407 0.430 30


0.176 0.230 0.277 0.329 0.364 0.395 0.430 0.455 25
0.193 0.251 0.300 0.356 0.393 0.426 0.464 0.491 20
0.220 0.284 0.338 0.398 0.438 0.473 0.515 0.544 15
0.274 0.349 0.412 0.482 0.527 0.568 0.614 0.647 10
0.291 0.370 0.436 0.508 0.555 0.596 0.644 0.675 9
0.314 0.398 0.467 0.542 0.591 0.633 0.682 0.716 8
0.344 0.433 0.507 0.587 0.636 0.681 0.731 0.763 7
0.387 0.484 0.563 0.646 0.698 0.744 0.792 0.822 6
0.452 0.559 0.643 0.729 0.782 0.824 0.869 0.895 5
0.561 0.679 0.766 0.847 0.889 0.921 0.949 0.964 4
0.782 0.886 0.941 0.976 0.988 0.994 0.998 0.999 3
=0.2 =0.1 =0.05 =0.02 =0.01 =0.005 =0.002 =0.001 N
El algoritmo descrito por Horn et al. tiene los siguientes pasos
consecutivos:
(1) Transformar los datos originales para conseguir una
distribucin lo ms cercana a una gaussiana.
El algortimo original empleaba la transformacin BoxCox para
este propsito.
(2) Estimar los cuartiles Q1 y Q3, y el rango intercuartlico (IQR:
Q3-Q1) para los datos transformados.
(3) Definir las 2 bisagras de Tukey: Q1 - 1.5 IQR y Q3 +1.5 IQR.
(4) Identificar como posibles valores aberrantes todos los que se
localicen fuera de dichas bisagras.
Solberg et al. Describen dos modificaciones, donde en lugar de
la BoxCox emplean bien la transformacin exponencial o bien
dos transformaciones secuenciales: exponencial seguida del
mdulo.
Tanto el algoritmo de Horn como diversas modificaciones fallan
en la deteccin de aberrantes, dado que requiere la gaussianidad
4
3
1
1
1
>

x x
x x
r
n
n n
Reed propone un mtodo de deteccin de valores aberrantes, en el contexto del
clculo de rangos de referencia de parmetros bioqumicos. Se rechaza el valor ms
alto, Xn, si
Si los datos siguen una distribucin normal y el tamao muestral es 30, el criterio de
Reed tiene un nivel de significacin aproximadamente igual a 2.5%, esto es, la
probablidad de que r sea mayor que la tercera parte del rango es prxima a 0.025.

También podría gustarte