Está en la página 1de 38

FUNDAMENTOS

PARA LA
INFERENCIA
Teoría Básica de la Estadística
Cat: MSc. Inga. Guippsy Menéndez

SILENCIAR SUS MICRÓFONOS


POR FAVOR
POBLACIÓN MUESTRA
obtiene

hacer generalizaciones
sobre la población
a partir de la muestra

INFERENCIA ESTADÍSTICA
Conocer una población a través de una muestra
POBLACIÓN MUESTRA

Es representada por Inferencia estadística sobre


parámetros (descripciones los parámetros, a partir de
numéricas): estadísticos conocidos:
• Media µ • Media Ⴟ
• Desviación estándar δ • Desviación estándar s

INFERENCIA ESTADÍSTICA

Cuando nos referimos a la inferencia estadística nos referimos a:


• Estimación
• Puntual
• Por intervalos
• Prueba de hipótesis
ESTIMACIÓN PUNTUAL

Es un solo número que se utiliza para estimar un parámetro de población


desconocido.

Ejemplo:
• Apuesto a que esa persona pesa 150 libras.
• El próximo semestre tendremos 200 estudiantes

Una estimación puntual es insuficiente, debido a que sólo tiene 2


opciones: es correcta o incorrecta, por lo tanto una estimación puntual es
mucho más útil si viene acompañada por una estimación del error que
podría estar implicado.
ESTIMACIÓN POR INTERVALOS

Es un conjunto de valores que se utiliza para estimar un parámetro de la


población, con un cierto grado de confianza.

Ejemplo:
• Apuesto a que esa persona pesa entre 140 y 160 libras.
• Estimo que el próximo semestre tendremos entre 150 y 250
estudiantes.

Una estimación de este tipo indica el error de 2 maneras: por la extensión


del intervalo y por la probabilidad de que el verdadero parámetro
poblacional se encuentre dentro del intervalo.
El propósito de tomar muestras es conocer más acerca de una población.
Podemos calcular esta información a partir de las muestras como
estimaciones puntuales.
Una estimación de intervalo describe un conjunto o rango de valores
dentro del cual es posible que esté un parámetro de la población.
Sabemos que, si seleccionamos y graficamos un número grande de
medias de muestras de una población, la distribución de estas medias se
aproximará a la curva normal, además la media de las medias muestrales
será la misma que la media de la población.

Si se toman muestras aleatorias de n elementos de una población y se


calculan los promedios, es de esperar que los valores de las medias no
sean todos iguales. La diferencia entre estos valores se atribuye al azar.
A esto le llamamos Error Estándar de la Media: Desviación estándar de
las medias muestrales.

TEOREMA
Si se extrae una muestra aleatoria de tamaño n de una población que
tiene media µ y varianza finita σ², entonces x es el valor de una variable
aleatoria con media µ y desviación estándar σ :
Para muestras tomadas Para muestras tomadas
de poblaciones infinitas de poblaciones finitas
De tamaño N
Se puede demostrar que para N grande en comparación al tamaño n de
la muestra el factor de corrección para muestras

Es aproximadamente 1 por lo que las 2 fórmulas del error estándar darían


prácticamente el mismo valor.
Ejemplo: si tenemos una población de 3000 y se toma una muestra de 30
unidades y se sabe que σ=8.6, el error estándar de la media es:

Si calculamos el factor de corrección:

Si calculamos el error estándar aplicando el factor de corrección:


Ejemplo: El nivel de glucosa en la sangre de una cierta población
compuesta por 5000 miembros tiene una σ=29 mg/dl. Se toma una
muestra de 40 personas, ¿Cuál es el factor de corrección y el error estándar
de la media?

Si calculamos el factor de corrección:

Si calculamos el error estándar aplicando el factor de corrección:


TEOREMA DEL LÍMITE CENTRAL

Si una población tiene media µ y varianza finita σ², entonces la media


muestral Ⴟ tendrá una distribución normal con media µ y desviación
estándar σ

Conforme aumenta el tamaño de la muestra n

Al colocar los promedios muestrales en una tabla de frecuencia y hacer el


gráfico, se ve que la distribución muestral de las medias es
aproximadamente normal, independientemente de la forma que sea la
población, conforme el tamaño de la muestra es mayor.
INTERVALOS DE CONFIANZA

Conjunto de valores formado a partir de una muestra de datos de forma


que exista la posibilidad de que el parámetro poblacional ocurra dentro de
dicho conjunto con una probabilidad específica.
Cuando se utiliza la media muestral Ⴟ para construir un intervalo de
confianza para estimar la media µ, la probabilidad de que esta estimación
no falle es como máximo de 1 – α. Esta probabilidad se le conoce como
nivel de confianza.
La probabilidad específica recibe el nombre de nivel de confianza

Gráficamente se puede expresar en términos de la distribución normal


El análisis de los estimadores puntuales y los intervalos de confianza
comienza con el estudio del cálculo de la media poblacional. Se deben
considerar 2 casos:

• Se conoce la desviación estándar de la población (σ)


• Se desconoce la desviación estándar de la población (σ). En este caso se
sustituye la desviación estándar de la muestra (s) por la desviación
estándar de la población (σ)
¿Cómo determinar los intervalos de confianza?

La amplitud del intervalo se determina por medio del nivel de confianza y


de la magnitud del error estándar de la media.

Estimador puntual ± (valor crítico) * (error estándar)

* Si se conoce la desviación estándar de la población (σ), el valor crítico


para el intervalo de confianza se encuentra en el valor z para un nivel de
confianza particular.

A continuación se presentan los valores de z que corresponden a varios


niveles de confianza que se usan en la práctica:
Por lo que el intervalo de confianza con una σ conocida seria:

* Si se desconoce la desviación estándar de la población (σ), el valor


crítico para el intervalo de confianza se encuentra en el valor t para un
nivel de confianza particular.

t es un valor crítico de la distribución t de Student con n-1 grados de


libertad y un área de α/2 en cada cola. α=1-nivel de confianza.
Por lo que el intervalo de confianza con una σ desconocida seria:

A continuación se presenta la distribución t de Student con los valores de t


que corresponden a varios niveles de confianza con n-1 grados de libertad
Para n=12 y un nivel de confianza del 95%, tenemos: gl=n-1=11
α=1-0.95=0.05 → un área de α/2=0.025 en cada cola → t=2.59
Ejemplo 1
Durante una semana se toma una muestra aleatoria de 50 empleados de
una empresa, y se obtiene un salario promedio de Q206. Se conoce que
la desviación estándar poblacional es de Q40. Determine los intervalos de
confianza del 95% para la media de los salarios de esta empresa.

n=50 Ⴟ=206 σ=40 nivel de confianza=95% → z=1.96


Estimador puntual ± (valor crítico) * (error estándar)

Ⴟ ± z * σ / √n 206 ± 1.96 * 40 / √50

Li = 206 - 1.96 * 40 / √50 = 194.91


Ls = 206 + 1.96 * 40 / √50 = 217.09

En conclusión, se tiene una confianza de 95% de que la media de los salarios


de esta empresa se encuentra entre Q194.91 y Q217.09
Ejemplo 2
Se sabe que el tiempo que toma completar una prueba psicométrica tiene
una varianza de 225 minutos, Una muestra de 20 estudiantes es
sometida a la prueba obteniéndose una media de 71 minutos. Obtenga los
límites de confianza del 99% para el tiempo medio en que se completa
dicha prueba.
n=20 Ⴟ=71 σ=15 nivel de confianza=99% → z=2.58

Estimador puntual ± (valor crítico) * (error estándar)

Ⴟ ± z * σ / √n 71 ± 2.58 * 15 / √20

Li = 71 - 2.58 * 15 / √20 = 62.36


Ls = 71 + 2.58 * 15 / √20 = 79.64

En conclusión, se tiene una confianza de 99% de que el tiempo de


terminación de la prueba se encuentra entre 62.36 y 79.64
Ejemplo 3
El ciclo medio de vida de una muestra aleatoria de 12 focos es de 2000
horas, con una desviación estándar muestral de 200 horas. Se supone
que la vida media de los focos se distribuye normalmente. Determine los
intervalos de confianza del 95% para la vida media de los focos.
n=12 Ⴟ=2000 s=200 nivel de confianza=95% → Se busca en la
distribución t con una significancia del 0.05/2 con 2 colas y gl = 11 → t=2.59
Estimador puntual ± (valor crítico) * (error estándar)

Ⴟ ± t * s / √n 2000 ± 2.59 * 200 / √12


Li = 2000 - 2.59 * 200 / √12 = 1850.29
Ls = 2000 + 2.59 * 200 / √12 = 2149.71

En conclusión, se tiene una confianza de 95% de que la vida media de los


focos se encuentra entre 1850.29 y 2149.71
EJERCICIOS
EN
EXCEL
PRUEBA DE HIPÓTESIS

HIPÓTESIS: Afirmación relativa a un parámetro de la población sujeta a


verificación.

PRUEBA DE HIPÓTESIS: Procedimiento basado en evidencia de la muestra


y la teoría de la probabilidad para determinar si la hipótesis es una
afirmación razonable.

Comienza con una afirmación, o suposición, sobre un parámetro de la


población, como la media poblacional

Para probar la validez de la afirmación, se debe seleccionar una muestra


de la población, calcular el estadístico muestral de la población y, con base
en ciertas reglas de decisión, aceptar o rechazar la hipótesis.
PASOS PARA PROBAR UNA HIPÓTESIS

1 Se establece la hipótesis nula y la hipótesis alternativa

2 Se selecciona un nivel de significancia para la prueba

3 Se identifica el estadístico de prueba

4 Se formula una regla para tomar decisiones

Se llega a una decisión: se acepta o se rechaza la hipótesis


5 nula
PASO 1: Se establece la hipótesis nula y la hipótesis alternativa
El primer paso consiste en establecer la hipótesis por probar. Ésta recibe
el nombre de hipótesis nula, la cual se designa Ho, se formula para
realizar una prueba. Ho es una afirmación que no se rechaza a menos
que la información de la muestra ofrezca evidencia convincente que es
falsa.
HIPÓTESIS NULA: Enunciado relativo al valor de un parámetro poblacional
formulado con el fin de probar evidencia numérica.

La hipótesis alternativa describe lo que se concluirá si se rechaza la


hipótesis nula, se representa H1, también se le conoce como hipótesis de
investigación, H1 se acepta si la información de la muestra ofrece
suficiente evidencia estadística para rechazar la hipótesis nula.
HIPÓTESIS ALTERNATIVA: Afirmación que se acepta si los datos de la
muestra ofrecen suficiente evidencia para rechazar la hipótesis nula.
PASO 2: Se selecciona un nivel de significancia para la prueba

El nivel de significancia se expresa con la letra α, también se conoce


como nivel de riesgo, porque se trata del riesgo que se corre al rechazar
la hipótesis nula cuando es verdadera

NIVEL DE SIGNIFICANCIA: Probabilidad de rechazar la hipótesis nula


cuando es verdadera.

No existe ningún nivel de significancia que se aplique a todas las pruebas.


Se acostumbra elegir el nivel de 5% para los proyectos de investigación
relacionados con consumidores; el nivel de 1% en relación con el control
de calidad y el de 10% para las encuestas políticas.

Al basarse en los datos de la muestra, es posible cometer 2 tipos de


errores: error tipo I y error tipo II
Al rechazar la hipótesis nula siendo verdadera, se incurrió en un error tipo
I. La probabilidad de cometer este tipo de error es α
ERROR TIPO I: Rechazar la hipótesis nula, Ho, cuando es verdadera

La probabilidad de cometer otro tipo de error, conocido como error tipo II,
se expresa con la letra β
ERROR TIPO II: Aceptar la hipótesis nula, Ho, cuando es falsa
PASO 3: Se identifica el estadístico de prueba

El siguiente paso es seleccionar un estadístico de prueba, es decir, un


valor que se emplea para ser contrastado contra el valor crítico, un valor
determinado por el nivel de significancia en una distribución de
probabilidad apropiada. Esto permite establecer una regla para tomar la
decisión de aceptar o rechazar la hipótesis nula.

ESTADÍSTICO DE PRUEBA: Valor determinado a partir de la información de


la muestra, para determinar si se rechaza la hipótesis nula.
La prueba de hipótesis para la media poblacional µ, cuando se conoce σ,
es el estadístico de prueba de la distribución z (zc: valor calculado):

El valor z se basa en la distribución del muestreo Ⴟ, que sigue la


distribución normal.

La prueba de hipótesis cuando se desconoce σ, debe calcularse por medio


de s, es el estadístico de prueba de la distribución t con n-1 gl (tc: valor
calculado):
PASO 4: Se formula una regla para tomar decisiones

Se especifica un criterio de aceptación o rechazo de la hipótesis nula


según el estadístico de prueba usado en el paso anterior.

En las hipótesis para la media el criterio puede ser:


• Prueba de una cola si H1:µ>µo
• Prueba de una cola si H1:µ<µo
• Prueba de dos colas si H1:µ≠µo
Prueba de una cola si H1:µ>µo
Prueba de una cola si H1:µ<µo

Prueba de dos colas si H1:µ≠µo


Se calcula z o t de acuerdo a la tabla normal o tabla t de student

Luego se puede establecer la regla siguiente en términos de z:


• Si |zc|>|z| se rechaza Ho y se acepta H1
• Si |zc|≤|z| se acepta Ho

o se puede establecer la regla siguiente en términos de t:


• Si |tc|>|t| se rechaza Ho y se acepta H1
• Si |tc|≤|t| se acepta Ho
PASO 5: Se llega a una decisión, se acepta o se rechaza Ho

Con base a la regla establecida en el paso anterior y a los valores


obtenidos, se llega a una decisión:

• Si se rechaza Ho y se acepta H1
• Si se acepta Ho
EJEMPLO1: Una empresa fabrica baterías que tienen una vida útil de 800
horas, con desviación estándar de 40 horas. Al tomar una muestra de 40
baterías, estas tienen una duración promedio de 788 horas. Determine a
un nivel de significancia del 5% si la media poblacional de estas baterías
es efectivamente de 800 horas.
µ=800 σ=40 n=40 Ⴟ=788 α=0.05

PASO 1: Se establece la hipótesis nula y la hipótesis alternativa


Probar que la media verdadera es de 800 horas, la hipótesis nula es:
Ho: µ=800

Como en la muestra la media es 788, la hipótesis alternativa es:


H1: µ<800
PASO 2: Se selecciona un nivel de significancia para la prueba
Nivel de significancia es del 5% por lo tanto α=0.05

PASO 3: Se identifica el estadístico de prueba

Cuando se conoce σ, el estadístico de prueba es la distribución z (zc: valor


calculado): µ=800 σ=40 n=40 Ⴟ=788

Zc = (788 – 800) / (40/√40) → zc=-1.897


PASO 4: Se formula una regla para tomar decisiones
Como H1: µ<800 la prueba es de una cola y se tiene la zona de rechazo del
lado izquierdo

Se calcula z de acuerdo a la tabla normal


z=1.64

Como zc=-1.897 y z= 1.64, tenemos que:


|zc|>|z| → |-1.897|>|1.64| → se rechaza Ho y se acepta H1
PASO 5: Se llega a una decisión, se acepta o se rechaza Ho
A un nivel de significancia del 5%, se rechaza la hipótesis nula Ho de que
la vida media de las baterías es de 800 horas y se considera que existe
evidencia estadística para aceptar la hipótesis alternativa de que la vida
útil de las baterías es menor de las 800 horas
EJEMPLO2: Una compañía de tarjetas de crédito desea probar si el saldo
promedio de sus clientes es superior a Q500. En una muestra de 15
tarjetahabientes se obtuvo un saldo promedio de Q535 con una
desviación estándar de Q215. ¿Qué puede concluirse a un nivel de
significancia del 5%?
µ=500 s=215 n=15 Ⴟ=535 α=0.05

PASO 1: Se establece la hipótesis nula y la hipótesis alternativa


Se quiere probar si la media es superior a Q500, la hipótesis nula es:
Ho: µ=500

Como en la muestra la media es 535, la hipótesis alternativa es:


H1: µ>500
PASO 2: Se selecciona un nivel de significancia para la prueba
Nivel de significancia es del 5% por lo tanto α=0.05

PASO 3: Se identifica el estadístico de prueba

Cuando no se conoce σ, el estadístico de prueba es la distribución t (tc:


valor calculado): µ=500 s=215 n=15 Ⴟ=535

tc = (535 – 500) / (215/√15) → tc=0.63


PASO 4: Se formula una regla para tomar decisiones
Como H1: µ>500 la prueba es de una cola y se tiene la zona de rechazo del
lado derecho

Se calcula t de acuerdo a la tabla t con gl=14


t=1.76

Como tc=0.63 y t= 1.76, tenemos que:


|tc|<|t| → |0.63|<|1.76| → se acepta Ho

PASO 5: Se llega a una decisión, se acepta o se rechaza Ho


A un nivel de significancia del 5%, se acepta la hipótesis nula Ho de que
la media es igual a Q500 y se considera que no existe suficiente
evidencia estadística para considerar que el saldo promedio de sus
clientes es superior a Q500
LABORATORIO

También podría gustarte