Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cconceptos de Inferencia Estadistica 2019
Cconceptos de Inferencia Estadistica 2019
1. INTRODUCCIÓN
Todas las herramientas estadísticas con las que se cuenta hasta ahora, tales
como tablas, gráficos y cálculo de medidas descriptivas se podrían englobar en el
término Estadística Descriptiva, puesto que ellas esencialmente permiten describir,
presentar y resumir información que ha sido recolectada de alguna forma.
Población objetivo
Población muestreada
2
Consideremos, por ejemplo, un sondeo telefónico que realizó la cadena de
televisión ABC inmediatamente antes de las elecciones de 1980 entre Carter y
Reagan. La ABC invitó a sus televidentes a llamar (por larga distancia) para dar a
conocer sus preferencias presidenciales. En vez de lograr una muestra del sentir
real de los electores, la ABC obtuvo una muestra de las preferencias de los votantes
que estaban suficientemente interesados en desviar el resultado del sondeo como
para invertir en las llamadas telefónicas de larga distancia. Es claro que la ABC no
realizó un muestreo aleatorio de la población de posibles votantes. Más demócratas
hicieron las llamadas de larga distancia, y la ABC pronosticó así una victoria
electoral de Carter. Antes de extender cualquier conclusión, es necesario evaluar
qué factores selectivos y sesgos distinguen a la población realmente muestreada
(todos los votantes que hicieron las llamadas de larga distancia) de la población
objetivo (todos los posibles votantes).
3
En cualquier estudio, los investigadores deben escribir de manera
completamente explícita la manera en la cual las muestras han sido elegidas y
cuando se escribe o se lee cualquier trabajo de investigación uno debería hacerse
las siguientes preguntas:
4
Previamente se han estudiado las reglas básicas de probabilidad y distintas
distribuciones de probabilidad como la Binomial, Poisson, Normal, Exponencial
entre otras. En esta unidad se usarán estas reglas de probabilidad junto con el
conocimiento de las distribuciones de probabilidad para analizar, cómo ciertas
medidas (media, proporción) pueden usarse para hacer inferencias respecto a los
parámetros poblacionales. Pero para ello, es fundamental disponer de la definición
de muestra aleatoria.
g ( x1 , x 2 ,.............x n ) f ( x1 ) f ( x 2 )........... f ( x n ) .
2. DISTRIBUCIÓN MUESTRAL
5
En los ejemplos dados, los parámetros poblacionales son la media y la proporción;
generalmente se denotan con a lamedia y con Pa la proporción.
6
Tabla 5.1: Símbolos usuales para parámetros y estimadores
Características Símbolo del Símbolo del
parámetro Estimadores
Media
x
Desvío
s
estándar
Varianza s2
r
Correlación
P P̂
Proporción
Por otra parte, si se pudiera extraer todas las posibles muestras del mismo
tamaño (n) de la población de interés y con cada una de ellas se calcula el valor del
estimador o estadístico correspondiente, se obtendría todas las estimaciones
posibles del parámetro. Luego a partir de ellos se podría construir la distribución
de probabilidad del estimador o estadístico tal distribución de probabilidad que
recibe el nombre de distribución muestral del estimador ( o estadístico) de interés.
7
¿Se puede llegar a la conclusión de que el parámetro de la población es
idéntico al estadístico de la muestra o es probable que exista algún error?.
Del estadístico que se elija para estimar el parámetro (media aritmética o mediana,
desvío estándar muestral o rango intercuartos)
8
Para clarificar estos conceptos, se considera el caso en que el parámetro
poblacional es la media y el estadístico para estimarla es la media aritmética x ,
obtenida a partir de una muestra de tamaño n de la población.
Como ya se dijo, si se quiere obtener la distribución muestral de x ,
extrayendo todas las muestras de tamaño n, esto consumiría más tiempo que el
requerido para tomar la información de toda la población y, en consecuencia, sería
poco práctico. En su lugar, es posible usar la teoría estadística para determinar la
distribución muestral de la media aritmética en cualquier situación particular,
siempre que se cumplan algunas condiciones para la distribución de probabilidad
de la variable que se está estudiando (Ver Figura 2).
9
1. La media de la distribución muestral de x , es decir, el valor esperado x
= E( x ) de la distribución de probabilidad de x , es igual a la media x de la
distribución de probabilidad de la variable X.
2. El desvío estándar en la distribución muestral de x es igual a . Esta
n
cantidad es denominada error estándar de la media (SEM).
3. Con muestras de tamaño grande, la distribución muestral de x sigue un
modelo teórico denominado modelo de distribución normal, sin importar la
forma de la distribución de la población original, siempre que se cumplan las
condiciones mencionadas.
Otra manera de expresar este resultado y que resulta útil para expresar los
resultados de los métodos de inferencia es la siguiente:
Independiente de la distribución que tenga la variable aleatoria X, siempre que tenga media
y varianza 2 finitas, al hacerse lo bastante grande el tamaño de muestra n, entonces la
distribución del estadístico
X
Z (1)
/ n
es Normal con media 0 y varianza 1, es decir, N(0, 1).
10
DISTRIBUCIÓN MUESTRAL DE LA MEDIA ARITMÉTICA (X)
DISTRIBUCIÓN DE LA POBLACIÓN DE X
DISTRIBUCIÓN DE LA POBLACIÓN DE X CON
MEDIA
DESVÍO
ESTÁNDAR
DESVÍO ERROR ESTÁNDAR
ESTÁNDAR n
x1
M1
x2
/ n
M2
x3
M3
x4
M4 ...
/ n
.
X
Mm xm
POBLACIÓN DE X
POBLACIÓN DE X
MUESTRAS DE TAMAÑO n
Observación:
será aproximadamente normal con media x = 1,20 litros y con un error estándar
dado por
0.2
SE( x ) = SEM = = = 0.2/10 = 0.02.
n 100
11
Obviamente, en la práctica siempre se desconoce el valor de y casi
siempre el valor de , de manera que esto es sólo el respaldo teórico de toda la
inferencia estadística, como se verá en las secciones subsiguientes.
En el caso en que sea desconocido, él debe ser estimado usando los datos
de la muestra. Un estimador razonable para , como ya se vio en las unidades
previas, es la desviación estándar de la muestra
2
n
n
xi x x 2
i nx 2
(2)
s i 1 i 1
n 1 n 1
t X (3)
s/ n
12
ya no es N(0,1) debido a que se usa una estimación para y en consecuencia se
introduce en la expresión (3) una variabilidad adicional. En efecto, el estadístico t
definido en (3) posee una distribución denominada t de Student, la cual tiene una
apariencia similar a la distribución normal, simétricas y en forma de campana, pero
la distribución t es más dispersa. El único parámetro de la distribución t de Student
es el denominado grados de libertad y que en este caso se encuentra relacionado al
tamaño de muestra n, y ello se expresa diciendo que el estadístico
3. ESTIMACIÓN
13
otra parte, que no haya demasiada variabilidad entre los valores del estadístico,
obtenidos de muestra en muestra. Esto se puede formalizar definiendo algunas
propiedades a tener en cuenta de los estadísticos, a saber:
2. Eficiente: Significa que las estimaciones obtenidas para distintas muestras varían poco
entre ellas. De una manera más formal, el estimador más eficiente dentro de un
conjunto de estimadores insesgado será aquel que tiene la menor varianza.
Observaciones:
14
Si bien la precisión se incrementa en la medida que el tamaño de la muestra
aleatoria crece, no hay razón para esperar que la estimación puntual de una
muestra dada deba ser exactamente igual al parámetro poblacional que se supone
estima. Entonces, existen muchas situaciones en las cuales es preferible determinar
un intervalo dentro del cual se esperaría encontrar el valor del parámetro, tal
metodología se conoce como estimación por intervalos y el intervalo se denomina
Intervalo de Confianza
15
donde k1 y k2 dependen de la forma de la distribución muestral de ˆ .
ˆ = x = 1.22 litros,
donde SE( x ) = SEM = = 0.02 y k1 = k2 = 1.96 se obtienen a partir de la distribución
n
muestral de X , que como se vio en la sección anterior ella se distribuye N(0, 1).
/ n
Por lo tanto,
Interpretación
Otra manera alternativa de expresar los IC para la media poblacional cuando se usa a
la media aritmética como estimador es la siguiente:
z 2
x (5)
n
o bien
z 2 z 2
x x (6)
n n
donde
16
z 2 = valor de z tal que el área debajo de la curva de la función de
densidad de una distribución normal correspondiente al intervalo
[ z 2 , ) es igual /2 si n es grande (este valor es 1.96).
n = tamaño de la muestra
Ejemplo 4: Una corporación quiere emitir algunos pagarés a corto plazo y espera que los
intereses que tendrá que pagar no sean mayores a 11,5%. Para obtener cierta información
acerca de la tasa media de interés que habría que pagar, la corporación pone a la venta 40
pagarés, uno a través de cada una de 40 firmas de corretaje. Los valores del interés se
suponen que tienen una distribución normal con media y varianza 2 conocida, tal que
= 0,31%. A partir de la muestra de tamaño n = 40, se obtiene una estimación de , dada
por x = 10,3%. Luego, usando la expresión (2) el IC del 100(1- )% para la media
poblacional de una distribución normal es:
10.21 10.41
Interpretación
Con un nivel de confianza del 95%, la tasa promedio de interés por pagaré
de la población está contenida dentro del intervalo que va de 10.21% a 10.41%.
17
t ( n 1), / 2 s
x (7)
n
donde se reemplaza por s y z(/2) por t(n-1), /2 que es el valor crítico de la distribución t
con n-1 grado de libertad.
n 50 2
xi x , dando en este caso el valor s = 0,24, entonces, reemplazando este
i 1
s
n 1
valor en la expresión (7), donde además se reemplaza z(/2) por t(n-1), /2. Luego, el valor
estimado del error estándar será,
SE x s
0.24
0.034
n 50
y el valor de t(n-1),/2 = 2.01. Luego, el intervalo de confianza para la media poblacional con
una confianza del 95% está dado por:
Observaciones:
18
proporciona una medida de la exactitud para la estimación efectuada por la empresa de
investigaron de mercado.
Actividad 5.2:
19