Está en la página 1de 20

ESTADÍSTICA

AVANZADA
RICARDO GARIBAY ZAMORA
CAPITULO 8
MÉTODOS DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE

¿Qué es una muestra?

5 razones para muestrear:


• Tiempo
• Costo
• Tamaño de la población
• Naturaleza destructiva de la prueba
• Los resultados son adecuados
Tipos de muestras
CAPITULO 8
MÉTODOS DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE

Aleatorio simple Aleatorio estratificado

𝑁𝑁
𝑘𝑘 =
Aleatorio 𝑛𝑛
por conglomerados
𝑖𝑖 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 (1 → 𝑘𝑘)

Aleatorio
𝑀𝑀 = (𝑖𝑖, 𝑖𝑖 + 𝑘𝑘, 𝑖𝑖 + 𝑛𝑛 − 1 𝑘𝑘)
sistematizado
CAPITULO 8
MÉTODOS DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE

Error de muestreo: es la diferencia entre el


estadístico de una muestra y el parámetro de la
población correspondiente.
“La identificación de errores es primordial
Media de la población
para obtener resultados confiables”
∑𝑿𝑿
𝝁𝝁 =
𝑵𝑵
Media de la muestra
∑𝑿𝑿
� 𝟏𝟏 =
𝑿𝑿
𝒏𝒏
∑𝑿𝑿

𝑿𝑿𝟐𝟐 =
𝒏𝒏

Error de muestreo
� 𝟏𝟏 − 𝝁𝝁
𝒆𝒆𝟏𝟏 = 𝑿𝑿
� 𝟐𝟐 − 𝝁𝝁
𝒆𝒆𝟐𝟐 = 𝑿𝑿
CAPITULO 8
MÉTODOS DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE

Distribución muestral de la media: Distribución de probabilidad de todas las


posibles medias de las muestras de un determinado tamaño muestral de la
población.
Total de muestras
𝑵𝑵!
𝑵𝑵𝑪𝑪𝒏𝒏 =
𝒏𝒏! 𝑵𝑵 − 𝒏𝒏 !

Media de la distribución muestral


𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒅𝒅𝒅𝒅 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒍𝒍𝒍𝒍𝒍𝒍 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎
𝝁𝝁�𝒙𝒙 =
𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻 𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎
CAPITULO 8
MÉTODOS DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE

Teorema central del límite: Si todas las muestras de un tamaño en particular se


seleccionan de cualquier población, la distribución muestral de la media se
aproxima a una distribución normal. A medida que toma muestras más grandes,
es decir, n=20 en lugar de n=5, la distribución muestral de las medias se
aproximará a la distribución normal.
Desviación estándar de la Cálculo del valor z de 𝑋𝑋 cuando se no conoce la
distribución muestral de la media desviación estándar de la población
(error estándar de la media) 𝑿𝑿 − 𝝁𝝁
𝒛𝒛 =
𝝈𝝈 𝝈𝝈
𝝈𝝈𝑿𝑿� = 𝒏𝒏

Cálculo del valor z de 𝑋𝑋� cuando se conoce


la desviación estándar de la población
� − 𝝁𝝁
𝑿𝑿
𝒛𝒛 =
𝝈𝝈⁄ 𝒏𝒏
CAPITULO 9
ESTIMACIÓN E INTERVALOS DE CONFIANZA

Estimador puntual consiste en un solo Intervalo de confianza: es un conjunto de valores que se forma a partir de una
valor deducido de una muestra para muestra de datos de forma que exista la posibilidad de que el parámetro
calcular un parámetro poblacional. poblacional ocurra dentro de dicho conjunto con una probabilidad específica.

Intervalos de confianza de una media


poblacional
𝝈𝝈
� ± 𝒛𝒛
𝑿𝑿
𝒏𝒏

Desviación estándar de la población


conocida
𝝈𝝈
𝝈𝝈𝑿𝑿 =
𝒏𝒏

Desviación estándar poblacional


desconocida
𝒔𝒔
� ± 𝒕𝒕
𝑿𝑿
𝒏𝒏
CAPITULO 10
PRUEBAS DE HIPÓTESIS DE UNA MUESTRA

¿Qué es una hipótesis? Es la afirmación relativa a un


parámetro de la población sujeta a verificación.

¿Qué es la prueba de hipótesis? Procedimiento basado en


evidencia de la muestra y la teoría de la probabilidad para
determinar si la hipótesis es una afirmación razonable.

Procedimiento de cinco pasos para probar una hipótesis

Se establecen Se selecciona se identifica el Se formula una Se toma una


las hipotesis un nivel de estadístico de regla para muestra; se
nula y significancia la prueba tomar llega a una
afirmativa decisiones decisión
CAPITULO 10
PRUEBAS DE HIPÓTESIS DE UNA MUESTRA

1- Se establece la hipótesis nula (H0) y la hipótesis alternativa (H1):


Hipótesis nula: Enunciado relativo al valor de
un parámetro poblacional que se formula con
el fin de probar evidencia numérica.

Hipótesis alternativa: Enunciado que se acepta


si los datos de la muestra ofrecen suficiente evidencia
para rechazar la hipótesis nula.

2- Se selecciona un nivel de significancia:


Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera.
Error Tipo I: Rechazar la hipótesis nula, H0, cuando es verdadera.
Error Tipo II: Aceptar la hipótesis nula cuando es falsa.
CAPITULO 10
PRUEBAS DE HIPÓTESIS DE UNA MUESTRA

3- Se selecciona el estadístico de prueba


Estadístico de Prueba: Valor, determinado a partir de la información de la
muestra, para determinar si se rechaza la hipótesis nula.
Prueba de la media cuando se conoce 𝜎𝜎:
� − 𝝁𝝁
𝑿𝑿
𝒁𝒁 =
𝝈𝝈/ 𝒏𝒏

4- Se formula la regla de decisión: es un enunciado sobre las condiciones


específicas en que se rechaza la hipótesis nula y aquellas en las que no se rechaza.

5- Se toma una decisión: consiste en calcular el estadístico de la prueba,


comparándola con el valor crítico, y tomar la decisión de rechazar o no la hipótesis
nula.
CAPITULO 10
PRUEBAS DE HIPÓTESIS DE UNA MUESTRA

Pruebas de significancia de una y dos colas


Prueba de dos colas: No interesa si los resultados de la
muestra son más grandes o más pequeños que la media
poblacional propuesta, lo que interesa es si ésta es
diferente del valor propuesto para la media poblacional.

Prueba de una cola: En esta se especifica un sentido en


la variación.

Valor p en la prueba de hipótesis: Probabilidad de observar un valor muestral tan


extremo o más que el valor observado, si la hipótesis nula es verdadera.

Prueba de la media poblacional: desviación estándar de la población desconocida


� − 𝝁𝝁
𝑿𝑿
𝒕𝒕 =
𝒔𝒔/ 𝒏𝒏
CAPITULO 12
ANÁLISIS DE LA VARIANZA

La distribución F (Ronald Fisher): indica si dos muestras provienen de poblaciones


que tienen varianzas iguales, y también se aplica cuando se desea comparar varias
medias poblacionales en forma simultánea (ANOVA).
Sufran con mi
VARIANZA
Características de la distribución
1. Existe una familia de distribuciones F. Cada miembro de la familia se determina mediante
dos parámetros: los grados de libertad del numerador y los grados de libertad del
denominador.
2. La distribución F es continua. Supone un número infinito de valores entre 0 y el infinito
positivo.
3. La distribución F no puede ser negativa.
4. Tiene sesgo positivo. La cola larga de la distribución es hacia el lado derecho. Cuando el
número de grados de libertad aumenta, tanto en el numerador como en el denominador, la
distribución se aproxima a ser normal.
5. Es asintótica. Cuando los valores de X aumentan, la curva F se aproxima al eje X pero
nunca lo toca.
CAPITULO 12
ANÁLISIS DE LA VARIANZA

Comparación de dos varianzas poblacionales

Estadístico de prueba para comparar dos varianzas


𝒔𝒔𝟐𝟐𝟏𝟏
𝑭𝑭 = 𝟐𝟐
𝒔𝒔𝟐𝟐

Suposiciones en el análisis de la varianza (ANOVA)

Condiciones:
1. Las poblaciones siguen la distribución normal.
2. Las poblaciones tienen desviaciones estándares iguales
3. Las poblaciones son independientes.
CAPITULO 12
ANÁLISIS DE LA VARIANZA

La prueba ANOVA

Media global: suma de las observaciones entre el total de observaciones


Variación Total: Suma de las diferencias entre cada observación y la media
global elevadas al cuadrado.
Variación de Tratamiento: Suma de las diferencias entre la media de cada
tratamiento y la media global elevadas al cuadrado
Variación Aleatoria: Suma de las diferencias entre cada observación y su media
de tratamiento elevadas al cuadrado.

𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡⁄(𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 − 1)


𝐹𝐹 =
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎⁄(𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡)

Si F es muy distinta a 1, se concluye que las medias de los tratamientos no son iguales.
CAPITULO 12
ANÁLISIS DE LA VARIANZA

Tratamiento e inferencia sobre pares de medias

𝟏𝟏 𝟏𝟏
� 𝟏𝟏 − 𝑿𝑿
(𝑿𝑿 � 𝟐𝟐 ) ± 𝒕𝒕 𝑴𝑴𝑴𝑴𝑴𝑴( + )
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐

donde:
𝑋𝑋�1 es la media de la primera muestra.
𝑋𝑋�2 es la media de la segunda muestra.
t se obtiene del apéndice B.2. Los grados de libertad son iguales a n – k.
MSE es el error medio cuadrático que se obtuvo de la tabla ANOVA [SSE/(n – k)].
EL NÚMERO MÁGICO!
n_1 es el número de observaciones en la primera muestra.
n_2 es el número de observaciones en la segunda muestra.

Si intervalo incluye el cero, no hay una diferencia significativa entre las


medias de tratamiento seleccionadas.
Por otro lado, si los puntos extremos del intervalo de confianza tienen el
mismo signo, esto indica que las medias de tratamiento difieren.
CAPITULO 13
REGRESIÓN LINEAL Y CORRELACIÓN

¿Qué es el análisis de correlación? Es un grupo de técnicas para medir la asociación entre dos
variables. Se comienza trazando los datos en un diagrama de dispersión.

Coeficiente de correlación (Karl Pearson):


describe la fuerza de la relación entre dos
conjuntos de variables en escala de intervalo
o de razón.

Características del coeficiente de correlación


1. El coeficiente de correlación de la muestra se identifica con la letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de intervalo o en
escala de razón.
3. Varía de -1 hasta +1.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables.
CAPITULO 13
REGRESIÓN LINEAL Y CORRELACIÓN

Coeficiente de correlación
� )(𝒀𝒀 − 𝒀𝒀
𝜮𝜮(𝑿𝑿 − 𝑿𝑿 �)
𝒓𝒓 =
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝒙𝒙 𝑺𝑺𝒚𝒚

Prueba de la importancia del coeficiente de correlación


𝒓𝒓 𝒏𝒏 − 𝟐𝟐
𝒕𝒕 =
𝟏𝟏 − 𝒓𝒓𝟐𝟐

Análisis de regresión: es la técnica para desarrollar la ecuación y proporcionar las


estimaciones.

Ecuación de regresión: es la ecuación que expresa la relación lineal entre dos variables.

Principio de los mínimos cuadrados: determina una ecuación de regresión al minimizar la


suma de los cuadrados de las distancias verticales entre los valores reales de Y y los valores
pronosticados de Y.
CAPITULO 14
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN MÚLTIPLE

Análisis de regresión múltiple: Describe la relación


entre diversas variables independientes y una
variable dependiente.
𝑌𝑌� = 𝑎𝑎 + 𝑏𝑏1 𝑋𝑋1 + 𝑏𝑏2 𝑋𝑋2 + 𝑏𝑏3 𝑋𝑋3 + ⋯ + 𝑏𝑏𝑘𝑘 𝑋𝑋𝑘𝑘

Evaluación de una ecuación de regresión múltiple:


permite hacer predicciones de una variable en función
de otra.

La tabla ANOVA:
CAPITULO 14
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN MÚLTIPLE

Error estándar de estimación múltiple: es comparable con la desviación estándar

� )𝟐𝟐
𝜮𝜮(𝒀𝒀 − 𝒀𝒀 𝑺𝑺𝑺𝑺𝑺𝑺
𝑺𝑺𝒀𝒀.𝟏𝟏𝟏𝟏𝟏𝟏…𝒌𝒌 = =
𝒏𝒏 − (𝒌𝒌 + 𝟏𝟏) 𝒏𝒏 − (𝒌𝒌 + 𝟏𝟏)

Coeficiente de determinación múltiple: Es el porcentaje de variación de la variable


dependiente, explicada por el conjunto de variables independientes
𝑺𝑺𝑺𝑺𝑺𝑺
𝑹𝑹𝟐𝟐 =
𝑺𝑺𝑺𝑺 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕

Coeficiente ajustado de determinación: mide el porcentaje de variación de la variable


dependiente (al igual que el coeficiente de determinación) pero teniendo en cuenta el número
de variables incluidas en el modelo.
𝑺𝑺𝑺𝑺𝑺𝑺
𝒏𝒏 − (𝒌𝒌 + 𝟏𝟏)
𝑹𝑹𝟐𝟐𝒂𝒂𝒂𝒂𝒂𝒂 = 𝟏𝟏 −
𝑺𝑺𝑺𝑺 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕
𝒏𝒏 − 𝟏𝟏
ESTADÍSTICA
AVANZADA
RICARDO GARIBAY ZAMORA

También podría gustarte