Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadistica Inferencial
Estadistica Inferencial
Técnicas inferenciales:
Intervalo: medias
Elementos básicos:
Probabilidad
Cada variable puede tomar diversos valores dependiendo del azar. Así pues, no basta
con conocer los posibles valores que puede tomar, sino la probabilidad de que estos
ocurran.
Probabilidad apriorística
En una población cada uno de sus elementos tiene las mismas opciones de ser
seleccionado en una muestra. Todos tienen la misma probabilidad individual, son
equiprobables.
Probabilidad empírica
Se basa en el supuesto de que la proporción de apariciones de los sucesos observada
en el pasado, persistirá en el futuro. Son tan solo estimaciones de las probabilidades
verdaderas,`pero cuanto sea mayor sea el número de casos total observados más
precisa será la estimación.
• A B : Ocurrencia de A ó B
• A B : Ocurrencia de A y B
0≤ P(A) ≤1
2. Regla de la adición.
1. Si los sucesos A y B son mutuamente excluyentes, la probabilidad de obtener A
o B es igual a la suma de sus probabilidades. P(A o B) = P(AB)= P(A)+P(B)
P(AB C)= P(A)+P(B) +P(C)
P(AB)= P(A)+P(B)-P(AB)
3. Regla de la multiplicación
P(AB)=0
1) Sucesos independientes
1) Sucesos dependientes
Combinatoria
Variaciones
Se refiere a los distintos grupos que pueden formarse con m elementos tomados de n
en n. Siendo n<m
Los grupos varían solo en el orden de los elementos que lo integran. Puede
considerarse como un caso particular de las variaciones cuando m=n.
Pmn= n!
Combinaciones
Cuando los grupos varían por la naturaleza de sus elementos, sin tener en cuenta el
orden.
Muestreo
La teoría del muestreo es el estudio de las relaciones existentes entre una población y
las muestras extraídas de la misma.
Los procedimientos de muestreo son unos medios para desarrollar una adecuada
validez externa.
La muestra
De modo más científico, se pueden definir las muestras como una parte de un
conjunto o población debidamente elegida, que se somete a observación científica en
representación del conjunto, con el propósito de obtener resultados válidos, también
para el universo total investigado.
Muestro y probabilidad
Un estimador es insesgado si, en promedio, los valores del estadístico obtenidos del muestreo
realmente son iguales al parámetro
Caso especial del muestreo por cuotas: No es estrictamente probabilístico per puede
dar lugar a estimaciones muy precisas. La cuota suele ser introducida, solamente en la
última fase del muestreo.
La muestra, ventajas
1. Mediante ellas, con una muestra relativamente reducida con relación al universo,
se pueden encuestar las grandes poblaciones y núcleos humanos, que de otra manera
seria muy difícil o prácticamente imposible investigar.
2. En todo caso las muestras suponen una gran economía en las encuestas y la
posibilidad de mayor rapidez en su ejecución.
3.- La adquisición de unos datos más comprensivos. A veces un buen plan de muestreo
obtiene unas mejores estimaciones de los valores de la población que un censo. (de
hecho, hasta el último censo de población, los datos de los censos, eran datos de una
muestra). Un censo produce mas errores no muestrales y de mayor magnitud que el
propio error de muestreo.
4. Que sea representativa o reflejo fiel del universo, de tal modo que reproduzca
sus características básicas en orden a la investigación
El Marco Muestral
Lo ideal seria formar una base de muestra específica para la encuesta. Pero esto no es
posible, por lo general, en las investigaciones sociales. Supondría casi tanta dificultad
como efectuar la encuesta a toda la población.
Además hay que verificar si la población que queremos encuestar (universo teórico) y
aquella de la que se toma de hecho la muestra (universo de trabajo) o a la que se
refiere la base de la muestra, coinciden, porque podría haber discrepancias más o
menos extensas entre ellas.
La unidad muestral
Las unidades de este registro representan y remiten a las unidades de observación que
forman el universo a investigar.
Las unidades de la muestra no solo pueden ser simples, sino también colectivas, como
cuando están constituidas por familias, grupos, sectores de ciudades, pueblos, etc. El
número de individuos que comprende la unidad de la muestra cuando es colectiva se
llama talla de la muestra.
Relación Universo-Muestra
Pero también la muestra tiene la misma forma circular que el universo. Ello pretende
indicar que, cualitativamente, la muestra debe tener las mismas características que la
población que representa.
El universo está formado por toda la población o conjunto de unidades que se quiere
estudiar y que podrían ser observadas individualmente en el estudio (el universo de
trabajo).
UNIVERSO TEORICO-----
Para realizar un buen diseño muestral, debe tenerse muy claro que es lo que se está
muestreando. Se evitan muchos problemas si se conceptualizan claramente los
objetos que han de servir como base para las generalizaciones de una investigación.
Tipos de muestreo
Probabilístico
• Aleatorio simple
Con reemplazamiento
Sin reemplazamiento
• Sistemático
• Estratificado
• Por conglomerados
• Polietápico
No probabilístico
• De conveniencia o Accidental
• Mas similar/diferente
• Caso típico
• Caso crítico
• Bola de nieve
• Cuotas
Muestreo no probabilístico
Muestreo de conveniencia
Estos estudios son útiles dado que se comparan pocos casos, necesita pocos recursos y
sirve a las necesidades de comparación. Pero su capacidad de generalización queda
limitada a los casos estudiados.
Caso típico
Caso crítico
Bola de nieve
Una vez seleccionados los primeros individuos para una muestra, estos se ocupan a su
vez de seleccionar a otros individuos de la población. Estos a su vez seleccionan a
otros, etc..
Inconveniente: En universos con gran número de elementos, es muy costoso hacer una
relación individualizada.
Se utiliza como prototipo para el cálculo de los tamaños muestrales y los errores de
muestreo, y como patrón para medir la eficacia de los muestreos estratificados y por
conglomerados.
Las medias de las muestras aleatorias simples extraídas de una población que se
distribuye normalmente, dan lugar a una distribución muestral que es también normal,
aunque el tamaño N sea mas pequeño. Cada una de las muestras tiene una media X,
que variará ligeramente de un muestra a otra, pero que tenderán a agruparse en torno
a y con desviación típica /N. De aquí que cuanto mayor sea N, menor será la
desviación típica y mayor el agrupamiento de las medias muestrales (estimadores)
alrededor de la media poblacional (parámetro).
1.- La de la población
La segunda parte del teorema del límite central, establece que, al extraer repetidas
muestras aleatorias de tamaño N de una población de cualquier forma, de media y
con desviación típica , cuando N es suficientemente grande, la distribución muestral
de las medias tiende a distribuirse normalmente con media y con desviación típica
/ N.
Muestreo sistemático
Problema: que el listado de la población esté repartido de manera cíclica, de tal forma
que al hacer la selección el ciclo coincida con la selección interval.
Si existe periodicidad, debe eliminarse del marco muestral, cambiando el orden de los
elementos o seleccionar otro tipo de muestreo.
Muestreo estratificado
Facilita la coordinación del trabajo de campo. Cada Estrato puede formar áreas
operativas distintas.
Facilita la estimación por separado de los distintos estratos, siempre que la muestra
esté adecuadamente dimensionada.
Si se conoce la varianza por estrato (difícil, pero se pueden conocer indicadores, como
renta, tamaño de viviendas, tamaño poblacional etc.), se pueden aplicar fracciones de
muestreo distintas en cada estrato, de acuerdo con el valor de la varianza. En estratos
más homogéneos, se pueden utilizar fracciones muestrales más pequeñas.
Muestreo en el que la unidad muestral no son los individuos, sino un conjunto de ellos
que, bajo determinados aspectos, se puede considerar que forman una unidad.
(Hospitales, secciones censales...)
Los conglomerados son definidos también como “áreas o partes bien delimitadas del
terreno, de modo que todas las unidades correspondientes al área son las que
constituyen el conglomerado”. (muestreo por áreas).
Muestreo polietápico
Interesa que las unidades primeras sean altamente heterogéneas respecto a las
características en estudio.
La selección suele entonces hacerse de forma que cada uno de ellos tenga
probabilidad proporcional a su tamaño. (ejemplo muestra pg. 35-38)
A veces puede ser deseable que los tamaños de los estratos sea desproporcionado.
1.- El que realiza el INE en las encuestas de la EPA, EPF, etc. La selección de las
unidades últimas de muestreo se hace mediante listados sobre la composición de la
sección: viviendas, hogares, individuos. Permite utilizar métodos de selección más
rigurosos, ya que se tiene mayor información sobre el marco muestra. Este sistema
solo puede ser utilizado por el INE y los servicios estadísticos de las CCAA ya que solo
ellos pueden disponer de los listados completos del censo y padrón de habitantes.
2.- Otros institutos se basan en las secciones censales como unidades de segunda
etapa, y a partir de ellas se hace la selección de los elementos de la muestra,
fundamentalmente de dos formas:
Estos sistemas son aleatorios y no precisan un conocimiento tan preciso del marco
muestral, pero tienen dificultades porque, la persona elegida aleatoriamente para ser
entrevistada impone una gran rigidez: está de viaje, no está en casa y volverá tarde. No
quiere responder, etc. Debe evitarse el recurso fácil de las sustituciones (aunque en la
realidad se practica) para ello se contempla la obligación de realizar hasta tres visitas al
domicilio para hablar con la persona seleccionada.
3.- Otra forma mas sencilla es, una vez elegidos los municipios donde van a hacerse las
entrevistas, se define el numero de rutas, tantas como sean necesarias para que en
cada una de ellas haya de 8 a 10 entrevistas. Sobre mapas se eligen aleatoriamente los
puntos de partida y se procede a la realización de igual forma que en las anteriores.
Para evitar las rigideces de los sistemas anteriores, se recurre muchas veces al
muestreo por cuotas.
La selección aleatoria del ultimo estrato se deja, en parte al criterio del entrevistador,
siempre que recoja la información de aquellos individuos que se le asignan. La
distribución total de los individuos de la muestra, reproduce la composición del censo,
y reflejan, por tanto perfectamente el universo de la muestra.
A la hora de diseñar la muestra deben tenerse en cuenta los criterios que se van a
utilizar para la clasificación de los individuos. Lo mas usual es utilizar cuotas de sexo y
edad, que en la mayoría de las veces no tiene demasiado que ver con las variables de
la encuesta, pero que son fáciles de obtener.
La selección por cuotas sólo debe aplicarse en la unidades últimas del muestreo.
Cuando en las viviendas hay más de una persona que pueda ser entrevistada,
se selecciona a la más joven.
Las entrevistas solo se pueden realizar en las secciones o áreas previstas en la
muestra.
Se utiliza mucho porque agiliza y simplifica el trabajo de campo. Sabes que las
sustituciones no deformarán el diseño muestral.
Tamaño de la muestra
Universos pequeños
Media
NK22
n= ——————
Ne2+K2 2
Proporción
NK2 P(1-P)
n= —————————
(N-1)e2+K2 P(1-P)
Total
N2K22
n= ——————
e2+NK2 2
n= Tamaño muestral
N= Tamaño poblacional
K= Nivel de confianza
P= Proporción
P(1-P)= Varianza
Total
N2K22
n= ——————
e2+NK2 2
n= Tamaño muestral
N= Tamaño poblacional
K= Nivel de confianza
P= Proporción
P(1-P)= Varianza
Tamaño de la muestra y precisión de los estimadores son conceptos inseparables.
Cuando uno varía, el otro también en el mismo sentido.
Varianza poblacional
El tipo de muestreo
A la hora de diseñar la muestra, se debe fijar el nivel de confianza, de acuerdo con los
objetivos de la investigación. En general en CC.SS. se utilza un nivel de confianza del 95,5%
.
Afijación de la muestra
Tipos de afijación
Afijación
Simple
Se pretende que la muestra, para un determinado nivel de error, sea representativa para
cada uno de los estratos, y por tanto puedan sacarse conclusiones a ese nivel. En la
práctica, y para conseguir este objetivo, se suele utilizar la proporcional, cargando la
muestra en los estratos en los que interesa obtener estimaciones mas próximas a la
realidad.
Optima
Desagregación
A veces es preciso diseñar muestras para estimas no solo la población tomada como
un todo sino también de diferentes partes del universo de estudio.
Ponderación de la muestra
Las técnicas de afijación no proporcional hacen que las fracciones de muestreo sean
distintas y, por lo tanto, si se quieren tabular conjuntamente las diferentes
submuestras, hay que proceder a su ponderación, si no quieren deformarse las
estimaciones. Se pretende devolver a cada subpoblación o estrato, la proporcionalidad
que tiene en la realidad con el objeto de poder agregarlas.
Estimaciones de parámetros
La estimación
Universos pequeños
Media Proporción
Universos grandes
Media Proporción
( 2= s2 )
Estimación por intervalo: Dado que la estimación del parámetro poblacional depende
del error y del nivel de confianza, el valor estimado no será único, sino que estará
comprendido en un intervalo cuyos límites serán el estimador nivel de confianza por
error típico del muestreo. El tamaño de la muestra determina la amplitud del
intervalo.
Intervalo de confianza
A partir de la estimación del error típico del muestreo se pueden determinar los
intervalos de confianza, que son del tipo (p-ks, p+ks).
El valor que se trata de estimar se encuentra dentro de ese intervalo con una
“confianza” medida en términos de probabilidad. Determinada por el valor que tome
k.
Ejemplo
Supongamos que hacemos una encuesta para estimar el nivel de parados. La muestra
es de 1.000 entrevistas. con un margen de error de 3,16% para un nivel de confianza
del 95,5%=2 sigma y para P=Q=50%.
Una vez realizada la encuesta el porcentaje de parados es del 12%. ¿Entre que valores
oscilará el parámetro poblacional?
Z=-2 P Z=2
Las proporciones p1, p2, p3, p4 y p6 se encuentran dentro del intervalo ±2 sp,
mientras que la proporción p5 se encuentra fuera de dicho intervalo. La probabilidad
del 95,5 por 100 utilizada en nuestro ejemplo significa que si se realizara un gran
número de estimaciones por intervalo, tales como las que aparecen en el gráfico
anterior, y cada una de ellas basada en una muestra p, el 95,5 por 100 de los intervalos
de confianza incluirían el parámetro y sólo el 4,5 por 100 de ellos lo dejarían fuera.