Estadística Avanzada

ESTADÍSTICA
AVANZADA
RICARDO GARIBAY ZAMORA
CAPITULO 8
MÉTODOS DE MUESTREO Y TEOREMA CENTRAL DEL LÍMITE
¿Qué es una muestra?
5 razones para muestrear:

• Tiempo
• Costo
• Tamaño de la población
• Naturaleza destructiva de la prueba
• Los resultados son adecuados
Tipos de muestras
CAPITULO 8
Aleatorio simple Aleatorio estratificado
𝑁𝑁
𝑘𝑘 =
Aleatorio 𝑛𝑛
por conglomerados
𝑖𝑖 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 (1 → 𝑘𝑘)
Aleatorio
𝑀𝑀 = (𝑖𝑖, 𝑖𝑖 + 𝑘𝑘, 𝑖𝑖 + 𝑛𝑛 − 1 𝑘𝑘)
sistematizado
CAPITULO 8
Error de muestreo: es la diferencia entre el

estadístico de una muestra y el parámetro de la
población correspondiente.
“La identificación de errores es primordial
Media de la población
para obtener resultados confiables”
∑𝑿𝑿
𝝁𝝁 =
𝑵𝑵
Media de la muestra
∑𝑿𝑿
� 𝟏𝟏 =
𝑿𝑿
𝒏𝒏
∑𝑿𝑿
�
𝑿𝑿𝟐𝟐 =
𝒏𝒏
Error de muestreo
� 𝟏𝟏 − 𝝁𝝁
𝒆𝒆𝟏𝟏 = 𝑿𝑿
� 𝟐𝟐 − 𝝁𝝁
𝒆𝒆𝟐𝟐 = 𝑿𝑿
CAPITULO 8
Distribución muestral de la media: Distribución de probabilidad de todas las

posibles medias de las muestras de un determinado tamaño muestral de la
población.
Total de muestras
𝑵𝑵!
𝑵𝑵𝑪𝑪𝒏𝒏 =
𝒏𝒏! 𝑵𝑵 − 𝒏𝒏 !
Media de la distribución muestral

𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺 𝒅𝒅𝒅𝒅 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕 𝒍𝒍𝒍𝒍𝒍𝒍 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎
𝝁𝝁�𝒙𝒙 =
𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻𝑻 𝒅𝒅𝒅𝒅 𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎𝒎
CAPITULO 8
Teorema central del límite: Si todas las muestras de un tamaño en particular se

seleccionan de cualquier población, la distribución muestral de la media se
aproxima a una distribución normal. A medida que toma muestras más grandes,
es decir, n=20 en lugar de n=5, la distribución muestral de las medias se
aproximará a la distribución normal.
Desviación estándar de la Cálculo del valor z de 𝑋𝑋 cuando se no conoce la
distribución muestral de la media desviación estándar de la población
(error estándar de la media) 𝑿𝑿 − 𝝁𝝁
𝒛𝒛 =
𝝈𝝈 𝝈𝝈
𝝈𝝈𝑿𝑿� = 𝒏𝒏
Cálculo del valor z de 𝑋𝑋� cuando se conoce

la desviación estándar de la población
� − 𝝁𝝁
𝑿𝑿
𝒛𝒛 =
𝝈𝝈⁄ 𝒏𝒏
CAPITULO 9
ESTIMACIÓN E INTERVALOS DE CONFIANZA
Estimador puntual consiste en un solo Intervalo de confianza: es un conjunto de valores que se forma a partir de una
valor deducido de una muestra para muestra de datos de forma que exista la posibilidad de que el parámetro
calcular un parámetro poblacional. poblacional ocurra dentro de dicho conjunto con una probabilidad específica.
Intervalos de confianza de una media

poblacional
𝝈𝝈
� ± 𝒛𝒛
𝑿𝑿
𝒏𝒏
Desviación estándar de la población

conocida
𝝈𝝈
𝝈𝝈𝑿𝑿 =
𝒏𝒏
Desviación estándar poblacional

desconocida
𝒔𝒔
� ± 𝒕𝒕
𝑿𝑿
𝒏𝒏
CAPITULO 10
PRUEBAS DE HIPÓTESIS DE UNA MUESTRA
¿Qué es una hipótesis? Es la afirmación relativa a un

parámetro de la población sujeta a verificación.
¿Qué es la prueba de hipótesis? Procedimiento basado en

evidencia de la muestra y la teoría de la probabilidad para
determinar si la hipótesis es una afirmación razonable.
Procedimiento de cinco pasos para probar una hipótesis
Se establecen Se selecciona se identifica el Se formula una Se toma una

las hipotesis un nivel de estadístico de regla para muestra; se
nula y significancia la prueba tomar llega a una
afirmativa decisiones decisión
CAPITULO 10
1- Se establece la hipótesis nula (H0) y la hipótesis alternativa (H1):

Hipótesis nula: Enunciado relativo al valor de
un parámetro poblacional que se formula con
el fin de probar evidencia numérica.
Hipótesis alternativa: Enunciado que se acepta

si los datos de la muestra ofrecen suficiente evidencia
para rechazar la hipótesis nula.
2- Se selecciona un nivel de significancia:

Nivel de significancia: Probabilidad de rechazar la hipótesis nula cuando es verdadera.
Error Tipo I: Rechazar la hipótesis nula, H0, cuando es verdadera.
Error Tipo II: Aceptar la hipótesis nula cuando es falsa.
CAPITULO 10
3- Se selecciona el estadístico de prueba

Estadístico de Prueba: Valor, determinado a partir de la información de la
muestra, para determinar si se rechaza la hipótesis nula.
Prueba de la media cuando se conoce 𝜎𝜎:
� − 𝝁𝝁
𝑿𝑿
𝒁𝒁 =
𝝈𝝈/ 𝒏𝒏
4- Se formula la regla de decisión: es un enunciado sobre las condiciones

específicas en que se rechaza la hipótesis nula y aquellas en las que no se rechaza.
5- Se toma una decisión: consiste en calcular el estadístico de la prueba,

comparándola con el valor crítico, y tomar la decisión de rechazar o no la hipótesis
nula.
CAPITULO 10
Pruebas de significancia de una y dos colas

Prueba de dos colas: No interesa si los resultados de la
muestra son más grandes o más pequeños que la media
poblacional propuesta, lo que interesa es si ésta es
diferente del valor propuesto para la media poblacional.
Prueba de una cola: En esta se especifica un sentido en

la variación.
Valor p en la prueba de hipótesis: Probabilidad de observar un valor muestral tan

extremo o más que el valor observado, si la hipótesis nula es verdadera.
Prueba de la media poblacional: desviación estándar de la población desconocida

� − 𝝁𝝁
𝑿𝑿
𝒕𝒕 =
𝒔𝒔/ 𝒏𝒏
CAPITULO 12
ANÁLISIS DE LA VARIANZA
La distribución F (Ronald Fisher): indica si dos muestras provienen de poblaciones

que tienen varianzas iguales, y también se aplica cuando se desea comparar varias
medias poblacionales en forma simultánea (ANOVA).
Sufran con mi
VARIANZA
Características de la distribución
1. Existe una familia de distribuciones F. Cada miembro de la familia se determina mediante
dos parámetros: los grados de libertad del numerador y los grados de libertad del
denominador.
2. La distribución F es continua. Supone un número infinito de valores entre 0 y el infinito
positivo.
3. La distribución F no puede ser negativa.
4. Tiene sesgo positivo. La cola larga de la distribución es hacia el lado derecho. Cuando el
número de grados de libertad aumenta, tanto en el numerador como en el denominador, la
distribución se aproxima a ser normal.
5. Es asintótica. Cuando los valores de X aumentan, la curva F se aproxima al eje X pero
nunca lo toca.
CAPITULO 12
Comparación de dos varianzas poblacionales
Estadístico de prueba para comparar dos varianzas

𝒔𝒔𝟐𝟐𝟏𝟏
𝑭𝑭 = 𝟐𝟐
𝒔𝒔𝟐𝟐
Suposiciones en el análisis de la varianza (ANOVA)
Condiciones:
1. Las poblaciones siguen la distribución normal.
2. Las poblaciones tienen desviaciones estándares iguales
3. Las poblaciones son independientes.
CAPITULO 12
La prueba ANOVA
Media global: suma de las observaciones entre el total de observaciones

Variación Total: Suma de las diferencias entre cada observación y la media
global elevadas al cuadrado.
Variación de Tratamiento: Suma de las diferencias entre la media de cada
tratamiento y la media global elevadas al cuadrado
Variación Aleatoria: Suma de las diferencias entre cada observación y su media
de tratamiento elevadas al cuadrado.
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡⁄(𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 − 1)

𝐹𝐹 =
𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉𝑉 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎⁄(𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡)
Si F es muy distinta a 1, se concluye que las medias de los tratamientos no son iguales.
CAPITULO 12
Tratamiento e inferencia sobre pares de medias
𝟏𝟏 𝟏𝟏
� 𝟏𝟏 − 𝑿𝑿
(𝑿𝑿 � 𝟐𝟐 ) ± 𝒕𝒕 𝑴𝑴𝑴𝑴𝑴𝑴( + )
𝒏𝒏𝟏𝟏 𝒏𝒏𝟐𝟐
donde:
𝑋𝑋�1 es la media de la primera muestra.
𝑋𝑋�2 es la media de la segunda muestra.
t se obtiene del apéndice B.2. Los grados de libertad son iguales a n – k.
MSE es el error medio cuadrático que se obtuvo de la tabla ANOVA [SSE/(n – k)].
EL NÚMERO MÁGICO!
n_1 es el número de observaciones en la primera muestra.
n_2 es el número de observaciones en la segunda muestra.
Si intervalo incluye el cero, no hay una diferencia significativa entre las

medias de tratamiento seleccionadas.
Por otro lado, si los puntos extremos del intervalo de confianza tienen el
mismo signo, esto indica que las medias de tratamiento difieren.
CAPITULO 13
REGRESIÓN LINEAL Y CORRELACIÓN
¿Qué es el análisis de correlación? Es un grupo de técnicas para medir la asociación entre dos
variables. Se comienza trazando los datos en un diagrama de dispersión.
Coeficiente de correlación (Karl Pearson):

describe la fuerza de la relación entre dos
conjuntos de variables en escala de intervalo
o de razón.
Características del coeficiente de correlación

1. El coeficiente de correlación de la muestra se identifica con la letra minúscula r.
2. Muestra la dirección y fuerza de la relación lineal (recta) entre dos variables en escala de intervalo o en
escala de razón.
3. Varía de -1 hasta +1.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa entre las variables.
CAPITULO 13
REGRESIÓN LINEAL Y CORRELACIÓN
Coeficiente de correlación
� )(𝒀𝒀 − 𝒀𝒀
𝜮𝜮(𝑿𝑿 − 𝑿𝑿 �)
𝒓𝒓 =
(𝒏𝒏 − 𝟏𝟏)𝑺𝑺𝒙𝒙 𝑺𝑺𝒚𝒚
Prueba de la importancia del coeficiente de correlación

𝒓𝒓 𝒏𝒏 − 𝟐𝟐
𝒕𝒕 =
𝟏𝟏 − 𝒓𝒓𝟐𝟐
Análisis de regresión: es la técnica para desarrollar la ecuación y proporcionar las

estimaciones.
Ecuación de regresión: es la ecuación que expresa la relación lineal entre dos variables.
Principio de los mínimos cuadrados: determina una ecuación de regresión al minimizar la

suma de los cuadrados de las distancias verticales entre los valores reales de Y y los valores
pronosticados de Y.
CAPITULO 14
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN MÚLTIPLE
Análisis de regresión múltiple: Describe la relación

entre diversas variables independientes y una
variable dependiente.
𝑌𝑌� = 𝑎𝑎 + 𝑏𝑏1 𝑋𝑋1 + 𝑏𝑏2 𝑋𝑋2 + 𝑏𝑏3 𝑋𝑋3 + ⋯ + 𝑏𝑏𝑘𝑘 𝑋𝑋𝑘𝑘
Evaluación de una ecuación de regresión múltiple:

permite hacer predicciones de una variable en función
de otra.
La tabla ANOVA:
CAPITULO 14
ANÁLISIS DE CORRELACIÓN Y REGRESIÓN MÚLTIPLE
Error estándar de estimación múltiple: es comparable con la desviación estándar
� )𝟐𝟐
𝜮𝜮(𝒀𝒀 − 𝒀𝒀 𝑺𝑺𝑺𝑺𝑺𝑺
𝑺𝑺𝒀𝒀.𝟏𝟏𝟏𝟏𝟏𝟏…𝒌𝒌 = =
𝒏𝒏 − (𝒌𝒌 + 𝟏𝟏) 𝒏𝒏 − (𝒌𝒌 + 𝟏𝟏)
Coeficiente de determinación múltiple: Es el porcentaje de variación de la variable

dependiente, explicada por el conjunto de variables independientes
𝑺𝑺𝑺𝑺𝑺𝑺
𝑹𝑹𝟐𝟐 =
𝑺𝑺𝑺𝑺 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕
Coeficiente ajustado de determinación: mide el porcentaje de variación de la variable

dependiente (al igual que el coeficiente de determinación) pero teniendo en cuenta el número
de variables incluidas en el modelo.
𝑺𝑺𝑺𝑺𝑺𝑺
𝒏𝒏 − (𝒌𝒌 + 𝟏𝟏)
𝑹𝑹𝟐𝟐𝒂𝒂𝒂𝒂𝒂𝒂 = 𝟏𝟏 −
𝑺𝑺𝑺𝑺 𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕𝒕
𝒏𝒏 − 𝟏𝟏
ESTADÍSTICA
AVANZADA
RICARDO GARIBAY ZAMORA

Estadística Avanzada

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadística Avanzada

Cargado por

Copyright:

Formatos disponibles

ESTADÍSTICA

¿Qué es una muestra?

5 razones para muestrear:

Aleatorio simple Aleatorio estratificado

Error de muestreo: es la diferencia entre el

Distribución muestral de la media: Distribución de probabilidad de todas las

Media de la distribución muestral

Teorema central del límite: Si todas las muestras de un tamaño en particular se

Cálculo del valor z de 𝑋𝑋� cuando se conoce

Intervalos de confianza de una media

Desviación estándar de la población

Desviación estándar poblacional

¿Qué es una hipótesis? Es la afirmación relativa a un

¿Qué es la prueba de hipótesis? Procedimiento basado en

Procedimiento de cinco pasos para probar una hipótesis

Se establecen Se selecciona se identifica el Se formula una Se toma una

1- Se establece la hipótesis nula (H0) y la hipótesis alternativa (H1):

Hipótesis alternativa: Enunciado que se acepta

2- Se selecciona un nivel de significancia:

3- Se selecciona el estadístico de prueba

4- Se formula la regla de decisión: es un enunciado sobre las condiciones

5- Se toma una decisión: consiste en calcular el estadístico de la prueba,

Pruebas de significancia de una y dos colas

Prueba de una cola: En esta se especifica un sentido en

Valor p en la prueba de hipótesis: Probabilidad de observar un valor muestral tan

Prueba de la media poblacional: desviación estándar de la población desconocida

La distribución F (Ronald Fisher): indica si dos muestras provienen de poblaciones

Comparación de dos varianzas poblacionales

Estadístico de prueba para comparar dos varianzas

Suposiciones en el análisis de la varianza (ANOVA)

Media global: suma de las observaciones entre el total de observaciones

Tratamiento e inferencia sobre pares de medias

Si intervalo incluye el cero, no hay una diferencia significativa entre las

Coeficiente de correlación (Karl Pearson):

Características del coeficiente de correlación

Prueba de la importancia del coeficiente de correlación

Análisis de regresión: es la técnica para desarrollar la ecuación y proporcionar las

Principio de los mínimos cuadrados: determina una ecuación de regresión al minimizar la

Análisis de regresión múltiple: Describe la relación

Evaluación de una ecuación de regresión múltiple:

Error estándar de estimación múltiple: es comparable con la desviación estándar

Coeficiente de determinación múltiple: Es el porcentaje de variación de la variable

Coeficiente ajustado de determinación: mide el porcentaje de variación de la variable

También podría gustarte