Estadistica Inferencial

Estadística Inferencial
 Estudio de grupos pequeños (muestras), a fin de sacar conclusiones respecto a grandes

grupos de personas (poblaciones)
 La utilidad de la muestra viene de la imposibilidad de acceder al total de la población.
 El objeto de la sociología es el estudio de colectivos humanos, desde su observación,

hasta el conocimiento de sus características y leyes de distribución, incluyendo la
interdependencia y conexiones entre ellos y dentro de ellos así como del valor de la
inferencia que se haga acerca de ese colectivo, basándose en las muestras observadas.
 Vamos a hablar de estimaciones de valores de las poblaciones (parámetros

poblacionales) a través de datos obtenidos mediante muestras (estadísticos o
estimadores).
 Tambien hablaremos de la fiabilidad o confianza de estos estadísticos a la hora de

estimar los parámetros.
 Técnicas inferenciales:
 Estimación por parámetros para los distintos niveles de medición
 Nominal y ordinal: porcentaje
 Intervalo: medias
 Pruebas de hipótesis para los diferentes niveles de medición. Las mismas,

mediante análisis univariable o bivariable.
 Elementos básicos:
 Teoría de las probabilidades
 Teoría del muestreo
Probabilidad
 Fenómeno aleatorio: Un fenómeno es aleatorio si puede dar lugar a varios resultados,

sin que pueda ser posible enunciar con certeza real cual va a ser el resultado del
fenómeno.
 Espacio muestral :conjunto de los posibles resultados de ese fenómeno. El suceso de

un experimento aleatorio será un subconjunto del espacio muestral.
 Características de un fenómeno aleatorio:
 Probabilidad de repetición indefinida de un

fenómeno en condiciones similares.
 Imposibilidad de predecir exactamente el

resultado de cada experimento particular.
Variable aleatorio
 En una magnitud que puede aparecer en un experimento aleatorio. Asigna un número

al resultado de cada experimento aleatorio. Los valores que toma son números reales.
 Cada variable puede tomar diversos valores dependiendo del azar. Así pues, no basta
con conocer los posibles valores que puede tomar, sino la probabilidad de que estos
ocurran.
Tipos de variables aleatorias
 Discreta: puede tomar determinado nº de valores.
Continua: Puede tomar un conjunto continuo de valores
Probabilidad apriorística
 En una población cada uno de sus elementos tiene las mismas opciones de ser
seleccionado en una muestra. Todos tienen la misma probabilidad individual, son
equiprobables.
 Probabilidad a priori de elección de un elemento con una característica determinada

es igual a la frecuencia relativa de esa característica.
P(A)= a/n = casos favorables/casos posibles
 La probabilidad al igual que la frecuencia relativa, oscila entre 0 y 1. Si P=1 ocurrirá

seguro, si P=0 no ocurrirá nunca.
 Probabilidad empírica
Se basa en el supuesto de que la proporción de apariciones de los sucesos observada
en el pasado, persistirá en el futuro. Son tan solo estimaciones de las probabilidades
verdaderas,`pero cuanto sea mayor sea el número de casos total observados más
precisa será la estimación.
Apoyándonos en la experiencia previa, es posible obtener buenas estimaciones de los sucesos
Sucesos que se excluyen mutuamente
 Dos sucesos A y B se excluyen mutuamente si no tienen elementos en común. A y B no

pueden acontecer juntos.
 Vamos a introducir los términos unión () e intersección ().
• A  B : Ocurrencia de A ó B
• A  B : Ocurrencia de A y B
Propiedades de las probabilidades

1. La probabilidad oscila entre 0 y 1.
0≤ P(A) ≤1
2. Regla de la adición.
1. Si los sucesos A y B son mutuamente excluyentes, la probabilidad de obtener A
o B es igual a la suma de sus probabilidades. P(A o B) = P(AB)= P(A)+P(B)
P(AB C)= P(A)+P(B) +P(C)
2. Fenómenos no mutuamente excluyentes.
P(AB)= P(A)+P(B)-P(AB)
3. Regla de la multiplicación
a. Fenómenos mutuamente excluyentes
P(AB)=0
• Fenómenos no mutuamente excluyentes
1) Sucesos independientes
P(AB)= P(A) · P(B)
1) Sucesos dependientes
P(AB)= P(A) · P(B/A) *(probabilidad condicionada)
P(B/A)= P(BA)/ P(A)
Puede ampliarse a más sucesos, A, B, C, D...
Combinatoria
 El análisis combinatorio se utiliza para la obtención de probabilidades de sucesos

complejos cuando la enumeración de los casos es difícil y laboriosa. Se refiere a la
forma en que pueden asociarse un conjunto de elementos.
 Vamos a ver la variaciones, permutaciones y combinaciones.
Variaciones
 Se refiere a los distintos grupos que pueden formarse con m elementos tomados de n
en n. Siendo n<m
 Ej: V3,2 =3*2/1= 6 [(1,2) (2,1) (1,3) (3,1) (2,3) (3,2)]
 Dos grupos son distintos si difieren en el orden o la naturaleza de sus elementos

Permutaciones
 Los grupos varían solo en el orden de los elementos que lo integran. Puede
considerarse como un caso particular de las variaciones cuando m=n.
Pmn= n!
P3 =6 [(123) (132) (312) (321) (231) (213)]
Combinaciones
 Cuando los grupos varían por la naturaleza de sus elementos, sin tener en cuenta el
orden.
C3,2 =3 (1,2) (1,3) (2,3)
Muestreo
 La teoría del muestreo es el estudio de las relaciones existentes entre una población y
las muestras extraídas de la misma.
 Población es el conjunto de casos o unidades que tienen en común una serie

determinada de características (fumadores, trabajadores del sector servicios,
propietarios de olivares) sobre las que se desea obtener cierta información. Esta
información puede consistir en la proporción de personas con ingresos superiores a
una cantidad, la extensión media de cultivos dedicados al olivo, etc. Estos valores que
se pretenden conocer y que se expresarán mediante medidas de frecuencia, tendencia
central o variación, tales como proporciones, razones, medias, desviaciones típicas,
etc. se les denomina valores verdaderos o parámetros.
 Normalmente dichos valores no se pueden calcular directamente porque las

poblaciones no son directamente asequibles. Así hay que recurrir al muestreo, que es
un procedimiento por el que se infieren los valores verdaderos de una población, a
través de la experiencia obtenida con un grupo que contiene un número menor de
casos que la población. Una muestra será el grupo de elementos seleccionados con la
intención de estimar los valores verdaderos de la población. Deberá procurarse que el
número de elementos sea lo suficientemente representativo para que puedan
realizarse generalizaciones seguras sobre la población. Los valores hallados en la
muestra son llamados estadísticos o estimadores.
 Los procedimientos de muestreo son unos medios para desarrollar una adecuada
validez externa.
La muestra
 Una muestra es simplemente, en general, una parte representativa de un conjunto,

población. o universo, cuyas características debe reproducir en pequeño lo más
exactamente posible.
 De modo más científico, se pueden definir las muestras como una parte de un
conjunto o población debidamente elegida, que se somete a observación científica en
representación del conjunto, con el propósito de obtener resultados válidos, también
para el universo total investigado.
 Las muestras tienen un fundamento matemático estadístico. Este consiste en que

obtenidos de una muestra, elegida correctamente y en proporción. Adecuada, unos
determinados resultados, se puede hacer la inferencia o generalización, fundada
matemáticamente, de que dichos resultados son válidos para el universo del que se ha
extraído la muestra, dentro de unos límites de error y probabilidad, que se pueden
determinar estadísticamente en cada caso.
Muestro y probabilidad
 Al hablar de muestreo debemos mencionar la teoría de las probabilidades. Las

muestras obtenidas son muestras probabilísticas: en ellas cada elemento del universo
tiene una probabilidad igual e independiente de figurar en la muestra. En este
supuesto, las estimaciones son insesgadas y se pueden calcular los errores de
muestreo que permiten determinar la precisión de las estimaciones.
Un estimador es insesgado si, en promedio, los valores del estadístico obtenidos del muestreo
realmente son iguales al parámetro
 Para que el muestreo sea probabilístico, es necesario que se respete la aleatoriedad:
 Al elegir y aplicar el método de selección
 A la hora de recoger la información (evitar sesgos por sustituciones)
 La precisión de un estimador va ligado al tamaño de la muestra. (no se puede llegar a

niveles de desagregación grandes) y a los procesos de selección y estimación que se
apliquen.
 Caso especial del muestreo por cuotas: No es estrictamente probabilístico per puede
dar lugar a estimaciones muy precisas. La cuota suele ser introducida, solamente en la
última fase del muestreo.
La muestra, ventajas
Las muestras presentan las siguientes ventajas, en las ciencias sociales:
 1. Mediante ellas, con una muestra relativamente reducida con relación al universo,
se pueden encuestar las grandes poblaciones y núcleos humanos, que de otra manera
seria muy difícil o prácticamente imposible investigar.
 2. En todo caso las muestras suponen una gran economía en las encuestas y la
posibilidad de mayor rapidez en su ejecución.
 3.- La adquisición de unos datos más comprensivos. A veces un buen plan de muestreo
obtiene unas mejores estimaciones de los valores de la población que un censo. (de
hecho, hasta el último censo de población, los datos de los censos, eran datos de una
muestra). Un censo produce mas errores no muestrales y de mayor magnitud que el
propio error de muestreo.
Condiciones de las muestras
 Las condiciones fundamentales de las muestras son cuatro:
 1. Que comprendan parte del universo y no la totalidad de este.
 2. Que su amplitud sea estadísticamente proporcionada a la magnitud del universo.

Esta condición. Se halla en relación con el punto práctico de determinación del tamaño
de la muestra y sirve para decidir si, según las unidades que comprende respecto al
universo, una muestra es o no admisible.
 3. La ausencia de distorsión en la elección de los elementos de la muestra. Si esta

elección presenta alguna anomalía, la muestra resultará por este mismo hecho viciada.
4. Que sea representativa o reflejo fiel del universo, de tal modo que reproduzca
sus características básicas en orden a la investigación
El Marco Muestral
 Los elementos principales de la muestra, son la base y la unidad de la misma.
 La base de la muestra es, en todo caso, la población de la que se obtiene o saca la

muestra. Esta población puede no estar censada o puede estarlo. En el primer caso,
existe la base de la muestra en sentido real o material, pero no en sentido formal,
mientras que en el segundo caso hay base de la muestra tanto material, la población
real a investigar, como formal, el censo de todos los individuos que la componen.
Precisamente con el término de base de la muestra se suele designar de manera
específica este censo o registro.
 La importancia de la base de la muestra, tomada específicamente o en sentido

estricto, se deriva de que la muestra, operativamente, es el resultado de la elección de
unidades dentro de una población o conjunto previamente determinado de aquéllas.
Por ello, fundamento básico de la muestra, es la existencia de un registro de dicho
conjunto, en el que aparezcan individualizadas todas sus unidades, y permita realizar
la elección mediante un sorteo riguroso.
 Esta puede consistir en un censo, un registro, una lista, un fichero, un catálogo, un

mapa, un plano, etc. Se debe dar normalmente un número a cada ficha o elemento del
catálogo,
 En la base de la muestra deben figurar individualizadas todas las unidades que forman
la población con expresión de su número en el universo, nombre, domicilio en su caso,
etc. Por ello, la base de la muestra hace posible la identificación de los elementos que
se hayan seleccionado mediante la muestra y su encuesta posterior.
 La base de la muestra en este sentido estricto, no siempre existe. Hay muchos

universos que no están censados o catalogados y que es prácticamente imposible
catalogar. Por ejemplo, no lo están el público que circula por las calles ni los asistentes
a un espectáculo. La solución que se adopta entonces es practicar la elección de la
muestra por algún procedimiento aleatorio imperfecto, como v.g. encuestar uno de
cada cinco que se encuentren por la calle
 Lo ideal seria formar una base de muestra específica para la encuesta. Pero esto no es
posible, por lo general, en las investigaciones sociales. Supondría casi tanta dificultad
como efectuar la encuesta a toda la población.
 Por eso, normalmente, se utilizan bases ya formadas. En este caso es preciso

asegurarse de que la base está actualizada, pues si no nos exponemos a dejar fuera de
la muestra, por ejemplo, a la población más joven de ella.
 Además hay que verificar si la población que queremos encuestar (universo teórico) y
aquella de la que se toma de hecho la muestra (universo de trabajo) o a la que se
refiere la base de la muestra, coinciden, porque podría haber discrepancias más o
menos extensas entre ellas.
 En el orden práctico, respecto a la base de la muestra, hay que buscarla, analizarla y

prepararla a efectos del muestreo si existe. Si no existe, y ello es posible, hay que
formarla. En este caso se debe cuidar, de modo especial, según lo indicado, que no
resulte ordenada de alguna forma que pueda determinar una elección distorsionada o
no representativa de la muestra.
La unidad muestral
 La unidad de la muestra es cada uno de los elementos que comprende su base y

figuran, numerados e individualizados, en el registro de la misma cuando existe.
 Las unidades de este registro representan y remiten a las unidades de observación que
forman el universo a investigar.
 Las unidades de la muestra no solo pueden ser simples, sino también colectivas, como
cuando están constituidas por familias, grupos, sectores de ciudades, pueblos, etc. El
número de individuos que comprende la unidad de la muestra cuando es colectiva se
llama talla de la muestra.
 Esta talla de las unidades de la base de la muestra o población es lo que determina lo

que se suele llamar el nivel de agregación en la investigación. Este nivel puede
presentar grados de agregación diversos, bien de carácter espacial, social, económico,
según los colectivos que se elijan como agregados.
 Así, por ejemplo, para estudiar las compras de TV en color se puede operar al nivel de
agregación de individuos o de colectivos y, dentro de los colectivos, especialmente,
estos pueden ser municipios, distritos, regiones, naciones. Desde un punto de vista
social los agregados pueden ser familias, establecimientos de venta, empresas,
organismos y asociaciones determinados.
Relación Universo-Muestra
 La muestra, como se ve, es una parte reducida de una determinada población o

universo, con relación a la cual representa cuantitativamente una fracción.
 Pero también la muestra tiene la misma forma circular que el universo. Ello pretende
indicar que, cualitativamente, la muestra debe tener las mismas características que la
población que representa.
 El universo está formado por toda la población o conjunto de unidades que se quiere
estudiar y que podrían ser observadas individualmente en el estudio (el universo de
trabajo).
 Sin embargo, por razones de economía se investiga en su representación la muestra.
UNIVERSO TEORICO-----
UNIVERSO DE TRABAJO ----
MUESTRA ------------------------ (de menos a más)
 el universo o población forma parte también de un conjunto más amplio al que se

llama universo teórico. Este universo hipotético está constituido por todas las
poblaciones existentes en las que se podría también efectuar la investigación
proyectada
Universo del muestreo
 Para realizar un buen diseño muestral, debe tenerse muy claro que es lo que se está
muestreando. Se evitan muchos problemas si se conceptualizan claramente los
objetos que han de servir como base para las generalizaciones de una investigación.
 Aquí deberíamos diferenciar entre lo que se denomina universo general y universo de

trabajo.
 Universo general es la población abstracta y teórica a la que el investigador desea

generalizar sus resultados, en tanto que universo de trabajo es la operacionalización
concreta de ese universo general del que se va a obtener una muestra. Es importante
realizar esta distinción, porque en la investigación sociológica, raramente se pueden
obtener muestras directamente del universo general.
Tipos de muestreo
 Probabilístico
• Aleatorio simple
 Con reemplazamiento
 Sin reemplazamiento
• Sistemático
• Estratificado
• Por conglomerados
• Polietápico
 No probabilístico
• De conveniencia o Accidental
• Mas similar/diferente
• Caso típico
• Caso crítico
• Bola de nieve
• Cuotas
Muestreo no probabilístico
 Es usado en muchas investigaciones.
 En la selección de los individuos juega un papel importante la subjetividad del

investigador.
 En muchas ocasiones, es el único método posible de muestreo.
 En ocasiones cuando el investigador está interesado en un grupo concreto de la

población, es el mejor método (ej: madres con niños menores de 2 años).
 En estudios exploratorios, cuando el investigador debe determinar si un problema

existe o nó (estudio piloto).
 Problema: la subjetividad del investigador.
Muestreo de conveniencia
 Una muestra de conveniencia es un grupo de individuos fácilmente accesibles y

dispuestos a participar en un estudio. Son voluntarios.
 El caso típico de los experimentos: asignamos los individuos a un grupo de tratamiento

y a otro de control.
 La generalización está muy afectada por los sesgos en la selección y el
desconocimiento de la población real.
Mas similar/ más diferente
 Utilizado en estudios gubernamentales. Se utiliza para comparar determinadas

características sociales, económicas o políticas entre diferentes países. La selección de
casos marca los “mejores” y los “peores” para hacer comparaciones.
 Estos estudios son útiles dado que se comparan pocos casos, necesita pocos recursos y
sirve a las necesidades de comparación. Pero su capacidad de generalización queda
limitada a los casos estudiados.
Caso típico
 Cuando hay limitaciones de tiempo o presupuesto, el investigador selecciona una

muestra de individuos que, a su juicio, son los más típicos o usuales. Aquellos que son
considerados únicos o especiales no se seleccionan.
 Es importante que el investigador tenga un profundo conocimiento de las

características de la población que quiere analizar.
 Su problema principal es el error producido por la subjetividad del investigador. (son

los casos los más típicos, o los que le han sido más fáciles de contactar). Todos y cada
uno de los casos deben ser cuidadosamente seleccionados.
Caso crítico
 El investigador selecciona aquellos casos que, por la experiencia anterior, permitan

hacer una generalización a la población.
 La selección de determinados distritos electorales para predecir el resultado de las

elecciones es una de sus aplicaciones más comunes.
Bola de nieve
 Una vez seleccionados los primeros individuos para una muestra, estos se ocupan a su
vez de seleccionar a otros individuos de la población. Estos a su vez seleccionan a
otros, etc..
 Se utiliza cuando no se puede disponer de un listado de los individuos de una

población y es muy difícil su confección por parte de los investigadores.
 Se aplica en grupos de consumidores de drogas, poblaciones marginales, inmigrantes o

miembros de “elites” políticas, económicas o sociales.
Muestreo aleatorio simple
 Es el muestreo probabilístico más sencillo. Se parte de un listado (exhaustivo) de los

elementos de la población y se seleccionan aleatoriamente n elementos de la
población para formar con ellos la muestra. La selección aleatoria se lleva a cabo de tal
forma que:
 Cada elemento de la población tenga idéntica probabilidad de ser

incluido en la muestra
 Cada posible combinación de n elementos tenga la misma

probabilidad de constituir la muestra.
De tal forma que si el número de elementos de la población es M, la probabilidad de cada

elemento dentro de la muestra es 1/M. Y el número posible de muestras de tamaño n es
igual a Mn
 En este muestreo la selección de los elementos de la muestra se hace en una sola

etapa, directamente y sin reemplazamiento. Equivale a censar o utilizar el censo de la
población en estudio, para sacar después, al azar, los elementos que van a formar
parte de la muestra.
 Inconveniente: En universos con gran número de elementos, es muy costoso hacer una
relación individualizada.
 Es el muestreo teórico más deseable, pero de muy difícil realización en la práctica,

debido fundamentalmente a los altos costes de tiempo y económicos que conlleva su
realización.
 Se utiliza como prototipo para el cálculo de los tamaños muestrales y los errores de
muestreo, y como patrón para medir la eficacia de los muestreos estratificados y por
conglomerados.
Teorema del límite central
 Si se extraen repetidas muestras aleatorias simples de tamaño N a partir de una

población distribuida normalmente, de media  y de desviación típica , las medias de
tales muestras se distribuyen normalmente con media  y desviación típica /  N
 Las medias de las muestras aleatorias simples extraídas de una población que se
distribuye normalmente, dan lugar a una distribución muestral que es también normal,
aunque el tamaño N sea mas pequeño. Cada una de las muestras tiene una media X,
que variará ligeramente de un muestra a otra, pero que tenderán a agruparse en torno
a  y con desviación típica /N. De aquí que cuanto mayor sea N, menor será la
desviación típica y mayor el agrupamiento de las medias muestrales (estimadores)
alrededor de la media poblacional (parámetro).
 Existe pues tres tipos de distribuciones:
1.- La de la población
2.- La de los valores dentro de cada una de las muestras

3.- La distribución muestral de un estadístico. En ella los casos, son las medias de las
diferentes muestras.
Ley de los grandes números
 La segunda parte del teorema del límite central, establece que, al extraer repetidas
muestras aleatorias de tamaño N de una población de cualquier forma, de media  y
con desviación típica , cuando N es suficientemente grande, la distribución muestral
de las medias tiende a distribuirse normalmente con media  y con desviación típica
/  N.
 Lo importante es que cuando N es grande, no tenemos que preocuparnos de la

normalidad de la población. . Dado que la distribución de probabilidades suele ser
conocido (distribución normal), en este tipo de muestras es posible proceder a la
inferencia estadística, trasladando los datos muestrales a la población. Haciendo las
correspondientes estimaciones en base a los datos muestrales.
Muestreo sistemático
 Similar al anterior pero difiere la forma de selección de las unidades muestrales. Se

halla el coeficiente de elevación N/n y se elige al azar un número no superior a él que
sirva de arranque de la selección. A partir de ahí se suma el coeficiente de elevación
para hacer la selección.
 Se simplifica la elección pero se introduce un sesgo al elegir los elementos de forma

periódica, caso de que el universo esté ordenado por criterios que puedan influir en la
selección sistemática.
 Se emplea en la selección de miembros de un club, alumnos de una escuela, etc.
 También se le llama muestreo por conglomerados en una etapa.
 Problema: que el listado de la población esté repartido de manera cíclica, de tal forma
que al hacer la selección el ciclo coincida con la selección interval.
 Si existe periodicidad, debe eliminarse del marco muestral, cambiando el orden de los
elementos o seleccionar otro tipo de muestreo.
 Ventaja sobre el muestreo aleatorio: (1) no se necesita un marco muestral completo.

(2) Si el marco está ordenado respecto a una variable de estratificación, la selección
sistemática proporciona una muestra estratificada.
Muestreo estratificado
 La población marco se subdivide en fracciones o estratos mutuamente excluyentes y

exhaustivos, de tal forma que cada unidad solo pertenezca a uno de los estratos. Así
pues cada estrato puede ser tratado de forma independiente.
 Se selecciona una muestra aleatoria, simple e independiente en cada uno de los

estratos.
 Con este método:
 se pueden reducir las varianzas de las estimaciones muestrales. Es tanto en cuanto

cada estrato reúna unidades homogéneas entre sí y heterogéneas en relación a las de
otros estratos, con ello aumenta la precisión de las estimaciones y disminuye el error
de muestreo.
 Facilita la coordinación del trabajo de campo. Cada Estrato puede formar áreas
operativas distintas.
 Posibilita la utilización simultanea, en una misma muestra de diversos métodos de

muestreo, en función de las necesidades del diseño y de la información disponible de
cada estrato.
 Facilita la estimación por separado de los distintos estratos, siempre que la muestra
esté adecuadamente dimensionada.
 Si se conoce la varianza por estrato (difícil, pero se pueden conocer indicadores, como
renta, tamaño de viviendas, tamaño poblacional etc.), se pueden aplicar fracciones de
muestreo distintas en cada estrato, de acuerdo con el valor de la varianza. En estratos
más homogéneos, se pueden utilizar fracciones muestrales más pequeñas.
 En general para estratificas se suele recurrir a variables espaciales: CC.AA., Provincias,

municipios, etc. o a subdivisiones inherentes al universo del estudio (especialidades
médicas, etc.).
 Ejemplo de muestreo estratificado: pgs. 29-31 Rodríguez Osuna.
Muestreo por conglomerados
 Muestreo en el que la unidad muestral no son los individuos, sino un conjunto de ellos
que, bajo determinados aspectos, se puede considerar que forman una unidad.
(Hospitales, secciones censales...)
 Los conglomerados son definidos también como “áreas o partes bien delimitadas del
terreno, de modo que todas las unidades correspondientes al área son las que
constituyen el conglomerado”. (muestreo por áreas).
 Si los conglomerados son muy grandes deberíamos recurrir al submuestreo.
Muestreo polietápico
 El submuestreo consiste en subdividir en unidades más pequeñas las unidades de

población utilizadas en el diseño muestral.
 Se utiliza cuando el número de elementos del conglomerado es elevado y, no solo por

la dificultad de entrevistar a todos y cada uno de los elementos del mismo, sino , sobre
todo por la necesidad de obtener estimaciones más precisas.
 Etapas del muestreo

 La selección de las unidades últimas a las que ha de aplicarse la muestra, se realiza por
etapas sucesivas. El muestreo polietápico consiste en una jerarquía de diferentes tipos
de unidades.
 La importancia de la estructura del conglomerado: Cuando son homogéneos, basta

con tomar en primera etapa, pocas unidades de cada uno de ellos, por lo que hay que
aumentar el número de conglomerados seleccionados. Si, por el contrario, los
conglomerados de 1ª etapa son heterogéneos, se pueden tomar mas elementos por
conglomerado y, por consiguiente, se puede tomar un número menor de
conglomerados.
 Interesa que las unidades primeras sean altamente heterogéneas respecto a las
características en estudio.
 Tamaño de los conglomerados y proporcionalidad
 Los conglomerados no siempre tienen un tamaño similar y eso afecta al proceso de

selección de la muestra, pues no tienen la misma probabilidad de formar parte de ella.
 La selección suele entonces hacerse de forma que cada uno de ellos tenga
probabilidad proporcional a su tamaño. (ejemplo muestra pg. 35-38)
 A veces puede ser deseable que los tamaños de los estratos sea desproporcionado.
 Selección última de las unidades de muestreo
 El último paso sería elegir, aleatoriamente y con probabilidades iguales, a los

individuos dentro de las secciones censales. Los sistemas utilizados para ello son
múltiples y variados.
 1.- El que realiza el INE en las encuestas de la EPA, EPF, etc. La selección de las
unidades últimas de muestreo se hace mediante listados sobre la composición de la
sección: viviendas, hogares, individuos. Permite utilizar métodos de selección más
rigurosos, ya que se tiene mayor información sobre el marco muestra. Este sistema
solo puede ser utilizado por el INE y los servicios estadísticos de las CCAA ya que solo
ellos pueden disponer de los listados completos del censo y padrón de habitantes.
 2.- Otros institutos se basan en las secciones censales como unidades de segunda
etapa, y a partir de ellas se hace la selección de los elementos de la muestra,
fundamentalmente de dos formas:
 Rutas aleatorias dentro de la sección. Donde se elige aleatoriamente

el punto de partida y posteriormente se siguen todas las instrucciones
tanto en los desplazamientos como en la selección de portales, pisos,
puertas e individuo a entrevistar (explicar el método de kish).
 Conseguir un plano de la sección, calcular aproximadamente el

numero de viviendas y a partir de ahí se fija la ruta y la frecuencia de
selección de cada vivienda. Se saca al azar un número aleatorio y se
comienza la ruta por ese punto.
 En estos dos sistemas de elección se fija aproximadamente un número de 10

entrevistas por sección.
 Estos sistemas son aleatorios y no precisan un conocimiento tan preciso del marco
muestral, pero tienen dificultades porque, la persona elegida aleatoriamente para ser
entrevistada impone una gran rigidez: está de viaje, no está en casa y volverá tarde. No
quiere responder, etc. Debe evitarse el recurso fácil de las sustituciones (aunque en la
realidad se practica) para ello se contempla la obligación de realizar hasta tres visitas al
domicilio para hablar con la persona seleccionada.
 3.- Otra forma mas sencilla es, una vez elegidos los municipios donde van a hacerse las
entrevistas, se define el numero de rutas, tantas como sean necesarias para que en
cada una de ellas haya de 8 a 10 entrevistas. Sobre mapas se eligen aleatoriamente los
puntos de partida y se procede a la realización de igual forma que en las anteriores.
Muestreo por cuotas
 Para evitar las rigideces de los sistemas anteriores, se recurre muchas veces al
muestreo por cuotas.
 El más utilizado por los institutos de investigación de mercados y opinión. Se emplea

en la última etapa y consiste en proporcionar al entrevistador el perfil de la persona
que tiene que entrevistar en cada una de las secciones en las que va a trabajar.
 La selección aleatoria del ultimo estrato se deja, en parte al criterio del entrevistador,
siempre que recoja la información de aquellos individuos que se le asignan. La
distribución total de los individuos de la muestra, reproduce la composición del censo,
y reflejan, por tanto perfectamente el universo de la muestra.
 A la hora de diseñar la muestra deben tenerse en cuenta los criterios que se van a
utilizar para la clasificación de los individuos. Lo mas usual es utilizar cuotas de sexo y
edad, que en la mayoría de las veces no tiene demasiado que ver con las variables de
la encuesta, pero que son fáciles de obtener.
 La selección por cuotas sólo debe aplicarse en la unidades últimas del muestreo.
 La composición de las cuotas viene dada por el conocimiento, normalmente de los

censos de población de la proporción de individuos que poseen las características de
cada categoría de una variable. Ej Sexo.
 Para que el proceso se acerque más a la aleatoriedad, se suelen dar instrucciones

concretas a los entrevistadores como:
 Las entrevistas solo se harán en las viviendas.
 Cuando en las viviendas hay más de una persona que pueda ser entrevistada,
se selecciona a la más joven.
 Las entrevistas solo se pueden realizar en las secciones o áreas previstas en la
muestra.
 No se pueden hacer entrevistas a los amigos, primos, etc.
 Se utiliza mucho porque agiliza y simplifica el trabajo de campo. Sabes que las
sustituciones no deformarán el diseño muestral.
 En grandes investigaciones de carácter estatal, nunca se utiliza este tipo de

investigación
Tamaño de la muestra
 Universos pequeños
Media
NK22
n= ——————
Ne2+K2 2
Proporción
NK2 P(1-P)
n= —————————
(N-1)e2+K2 P(1-P)
Total
N2K22
n= ——————
e2+NK2 2
n= Tamaño muestral
N= Tamaño poblacional
K= Nivel de confianza
2= Cuasivarianza poblacional
e= Error del muestreo
P= Proporción
P(1-P)= Varianza
Total
N2K22
n= ——————
e2+NK2 2
n= Tamaño muestral
N= Tamaño poblacional
K= Nivel de confianza
2= Cuasivarianza poblacional
e= Eerror del muestreo
P= Proporción
P(1-P)= Varianza

Tamaño de la muestra y precisión de los estimadores son conceptos inseparables.
Cuando uno varía, el otro también en el mismo sentido.
 A medida que aumenta la precisión del estimador,el intervalo de confianza se hace

menor, y por tanto, las diferencias entre los parámetros poblacionales y los
estimadores se hace menor. Esta precisión se mide por el error de muestreo, que no es
mas que la desviación típica del estimador.
 En función del objetivo de nuestra investigación, admitiremos un margen mayor o

menor de error, y en función de ello el tamaño de la muestra variará.
Factores que intervienen
 Varianza poblacional
 El conocimiento de la homogeneidad o heterogeneidad en el aspecto que se quiere

analizar, es determinante a la hora de calcular el tamaño de la muestra, cuanto mas
homogéneos son los elementos de una población, mayor es la precisión de sus
estimadores para un numero determinado de entrevistas.
 Debería intentarse el conocimiento aproximado de la varianza: (1) La experiencia en

estudios que se repiten periódicamente o (2) mediante estudios piloto. No obstante,
como se suelen preguntar muchas cosas, lo normal es tomar la opción más
desfavorable p=q=0,5 exige un tamaño muestral mayor, pero garantiza que no nos
equivocaremos.
 El tipo de muestreo
También influye en el tamaño de la muestra. En relación al muestreo aleatorio simple, el

muestreo por conglomerados es menos preciso y el estratificado lo es más. De ahí que
siempre que se pueda, sea deseable realizar un muestreo estratificado.
 Nivel de confianza
A la hora de diseñar la muestra, se debe fijar el nivel de confianza, de acuerdo con los
objetivos de la investigación. En general en CC.SS. se utilza un nivel de confianza del 95,5%
.
 Afijación de la muestra
Es la distribución de la muestra entre los diferentes subconjuntos en que se puede dividir

el universo.
 Tipos de afijación
• Simple: asignar a cada estrato un numero igual de entrevistas
• Proporcional: de acuerdo con el peso relativo de la población de cada estrato.
• Optima: tiene en cuenta la homo o heterogeneidad de la población bajo

determinados aspectos.
Afijación
 Simple
Se pretende que la muestra, para un determinado nivel de error, sea representativa para
cada uno de los estratos, y por tanto puedan sacarse conclusiones a ese nivel. En la
práctica, y para conseguir este objetivo, se suele utilizar la proporcional, cargando la
muestra en los estratos en los que interesa obtener estimaciones mas próximas a la
realidad.
 Optima
Estratos homogéneos( pequeña) --> Muestra pequeña
Estratos heterogéneos( grande) --> Muestra mayor
Desagregación
 A veces es preciso diseñar muestras para estimas no solo la población tomada como
un todo sino también de diferentes partes del universo de estudio.
 Según analizamos grupos mas pequeños de la muestra, el grado de error en las

estimaciones aumenta. Para resolver esto se pueden adoptar varias decisiones:
• Aumentar el tamaño de la muestra total, hasta que el de la submuestra sea el

adecuado. Es muy costoso y poco eficiente.
• Afijación no proporcional tratando cada subdivisión como si fuera un universo

diferente. Solo se incrementa la muestra en aquellas áreas que interesa
estudiar. Ejemplo de la EPA.
Ponderación de la muestra
 Las técnicas de afijación no proporcional hacen que las fracciones de muestreo sean
distintas y, por lo tanto, si se quieren tabular conjuntamente las diferentes
submuestras, hay que proceder a su ponderación, si no quieren deformarse las
estimaciones. Se pretende devolver a cada subpoblación o estrato, la proporcionalidad
que tiene en la realidad con el objeto de poder agregarlas.
 Elevadores: otra forma de homogeneizar las sumbuestras, para poder agregarlas es

recurrir al sistema de elevadores (la inversa de la fracción de muestreo), con lo que se
consigue trasladar los resultados al universo total. Para utilizarlos hay que conocer el
tamaño real del universo, sino se falsearían los datos del estudio.
Estimaciones de parámetros
 En el diseño de la muestra se determinan el tamaño de la misma, la afijación, el tipo

de muestreo y el proceso de selección de los individuos, conjugando las técnicas de
muestreo y el conocimiento del universo. Posteriormente, y en base a la muestra
diseñada, se realiza la recogida de la información mediante el trabajo de campo, al que
se le aplican los correspondientes controles para que no se distorsione la muestra
proyectada. Mas tarde se graba la información, se somete a procesos de control y
verificación y, finalmente se realiza la tabulación que dará como resultado la
estimación de los parámetros poblacionales.
 Entre el diseño de la muestra y la estimación de parámetros, está el proceso de

muestreo y tabulación, pasándose de los supuestos a la realidad de los datos y de la
aproximación a la concreción de los datos.
 De la formula del tamaño muestral, el tamaño n y el nivel de confianza K se mantienen

invariables, pero seguramente los valores reales de P no tiene porque ser 0,5, lo que
supone que el error de muestreo e ha variado y, por tanto el nivel de precisión de las
estimaciones. Por ello una vez realizada la encuesta, hay que pasar de las
aproximaciones efectuadas en el diseño a concreciones individualizadas.
 Hay que pasar de la estimación puntual a la estimación por intervalo.
La estimación
 Supongamos que siguiendo el procedimiento aleatorio simple, hemos obtenido una

muestra de n unidades. La expresión es un estimador de la proporción P.
a es el total de individuos que tiene una característica.
 El estimador ha sido calculado en base a las n unidades de la muestra, en lugar de las N

unidades que constituyen la población. Así cometemos un error que llamaremos error
típico de muestreo. La estimación del error típico de muestreo se hace mediante la
fórmula:
Error típico de muestreo
Universos pequeños
 Media Proporción
Universos grandes
 Media Proporción
( 2= s2 )
Como En muestras grandes n/N=0
 Con la estimación de parámetros, deseamos estimar el valor de un parámetro a través

de un estadístico calculado en la muestra. Ej: edad media de una población o el % de
abstención en una votación.
 Estimación puntual: Se estima un parámetro poblacional a través de la media o la

proporción calculados en la muestra. Un problema es que no podemos establecer la
probabilidad de que el estimador sea igual al parámetro.
 Estimación por intervalo: Dado que la estimación del parámetro poblacional depende
del error y del nivel de confianza, el valor estimado no será único, sino que estará
comprendido en un intervalo cuyos límites serán el estimador  nivel de confianza por
error típico del muestreo. El tamaño de la muestra determina la amplitud del
intervalo.
Intervalo de confianza
 A partir de la estimación del error típico del muestreo se pueden determinar los
intervalos de confianza, que son del tipo (p-ks, p+ks).
 El valor que se trata de estimar se encuentra dentro de ese intervalo con una
“confianza” medida en términos de probabilidad. Determinada por el valor que tome
k.
 Así, para la proporción a un nivel de confianza del 95,5% el intervalo será

 Para le media será
Ejemplo
 Supongamos que hacemos una encuesta para estimar el nivel de parados. La muestra
es de 1.000 entrevistas. con un margen de error de 3,16% para un nivel de confianza
del 95,5%=2 sigma y para P=Q=50%.
 Una vez realizada la encuesta el porcentaje de parados es del 12%. ¿Entre que valores
oscilará el parámetro poblacional?
Significado del intervalo
 Como P es un valor fijo, la probabilidad de encontrarse entre 9,94 y 14,06 es 1 o 0. Es

decir, o bien está dentro de esos limites o no está. Lo que varía de muestra a muestra
es el estadístico p, dado que al no conocer P, se construye el intervalo alrededor de p,
la posición del intervalo en relación al parámetro depende de la localización del valor
particular de p que se ha utilizado a partir de la distribución muestral. Dado que el
95,5% de las proporciones p se encuentran dentro de  2 unidades de desviacion de la
proporción de la población y como hemos utilizado  2 sp para construir el intervalo
alrededor de p, cualquier p dentro de dichos límites dará lugar a un intervalo de
confianza que incluirá a P.
Z=-2 P Z=2
 Las proporciones p1, p2, p3, p4 y p6 se encuentran dentro del intervalo ±2 sp,
mientras que la proporción p5 se encuentra fuera de dicho intervalo. La probabilidad
del 95,5 por 100 utilizada en nuestro ejemplo significa que si se realizara un gran
número de estimaciones por intervalo, tales como las que aparecen en el gráfico
anterior, y cada una de ellas basada en una muestra p, el 95,5 por 100 de los intervalos
de confianza incluirían el parámetro y sólo el 4,5 por 100 de ellos lo dejarían fuera.
 Además de servir como indicación del grado de exactitud de una estimación, la

colocación de un intervalo de confianza alrededor de una estimación puede servir,
implícitamente, para contrastar una serie de hipótesis. En efecto, en un intervalo de
confianza se contiene una prueba implícita para cada posible valor del parámetro, por
ejemplo la media, que se desea contrastar. La hipótesis alternativa se establece de
forma que el valor del parámetro que se desea estimar quede dentro del intervalo de
confianza para el nivel de probabilidad elegido. Así, por ejemplo, si establecemos un
nivel de significación del 0,05, sabemos que el intervalo de confianza, en el caso de
estimación de una media, tendrá como límites ± 1,96 error de la media. Pues bien, si
la media muestral queda dentro de dichos límites se aceptará la hipótesis, mientras
que si se obtiene un valor que queda fuera se rechazará la hipótesis.

Estadistica Inferencial

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Inferencial

Cargado por

Copyright:

Formatos disponibles

Estadística Inferencial

 Estudio de grupos pequeños (muestras), a fin de sacar conclusiones respecto a grandes

 La utilidad de la muestra viene de la imposibilidad de acceder al total de la población.

 El objeto de la sociología es el estudio de colectivos humanos, desde su observación,

 Vamos a hablar de estimaciones de valores de las poblaciones (parámetros

 Tambien hablaremos de la fiabilidad o confianza de estos estadísticos a la hora de

 Estimación por parámetros para los distintos niveles de medición

 Nominal y ordinal: porcentaje

 Pruebas de hipótesis para los diferentes niveles de medición. Las mismas,

 Teoría de las probabilidades

 Teoría del muestreo

 Fenómeno aleatorio: Un fenómeno es aleatorio si puede dar lugar a varios resultados,

 Espacio muestral :conjunto de los posibles resultados de ese fenómeno. El suceso de

 Características de un fenómeno aleatorio:

 Probabilidad de repetición indefinida de un

 Imposibilidad de predecir exactamente el

 En una magnitud que puede aparecer en un experimento aleatorio. Asigna un número

Tipos de variables aleatorias

 Discreta: puede tomar determinado nº de valores.

Continua: Puede tomar un conjunto continuo de valores

 Probabilidad a priori de elección de un elemento con una característica determinada

P(A)= a/n = casos favorables/casos posibles

 La probabilidad al igual que la frecuencia relativa, oscila entre 0 y 1. Si P=1 ocurrirá

Apoyándonos en la experiencia previa, es posible obtener buenas estimaciones de los sucesos

Sucesos que se excluyen mutuamente

 Dos sucesos A y B se excluyen mutuamente si no tienen elementos en común. A y B no

 Vamos a introducir los términos unión () e intersección ().

Propiedades de las probabilidades

2. Fenómenos no mutuamente excluyentes.

a. Fenómenos mutuamente excluyentes

• Fenómenos no mutuamente excluyentes

P(AB)= P(A) · P(B)

P(AB)= P(A) · P(B/A) *(probabilidad condicionada)

P(B/A)= P(BA)/ P(A)

Puede ampliarse a más sucesos, A, B, C, D...

 El análisis combinatorio se utiliza para la obtención de probabilidades de sucesos

 Vamos a ver la variaciones, permutaciones y combinaciones.

 Ej: V3,2 =3*2/1= 6 [(1,2) (2,1) (1,3) (3,1) (2,3) (3,2)]

 Dos grupos son distintos si difieren en el orden o la naturaleza de sus elementos

P3 =6 [(123) (132) (312) (321) (231) (213)]

C3,2 =3 (1,2) (1,3) (2,3)

 Población es el conjunto de casos o unidades que tienen en común una serie

 Normalmente dichos valores no se pueden calcular directamente porque las

 Una muestra es simplemente, en general, una parte representativa de un conjunto,

 Las muestras tienen un fundamento matemático estadístico. Este consiste en que

 Al hablar de muestreo debemos mencionar la teoría de las probabilidades. Las

 Para que el muestreo sea probabilístico, es necesario que se respete la aleatoriedad:

 Al elegir y aplicar el método de selección

 A la hora de recoger la información (evitar sesgos por sustituciones)

 La precisión de un estimador va ligado al tamaño de la muestra. (no se puede llegar a

Las muestras presentan las siguientes ventajas, en las ciencias sociales:

Condiciones de las muestras

 Las condiciones fundamentales de las muestras son cuatro:

 1. Que comprendan parte del universo y no la totalidad de este.

 2. Que su amplitud sea estadísticamente proporcionada a la magnitud del universo.

 3. La ausencia de distorsión en la elección de los elementos de la muestra. Si esta

 Los elementos principales de la muestra, son la base y la unidad de la misma.

 La base de la muestra es, en todo caso, la población de la que se obtiene o saca la

 La importancia de la base de la muestra, tomada específicamente o en sentido

 Esta puede consistir en un censo, un registro, una lista, un fichero, un catálogo, un

 La base de la muestra en este sentido estricto, no siempre existe. Hay muchos

 Por eso, normalmente, se utilizan bases ya formadas. En este caso es preciso

 En el orden práctico, respecto a la base de la muestra, hay que buscarla, analizarla y