Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Intervalos de Confianza Prueba de Hipotesis Regresion y Correlacion
Intervalos de Confianza Prueba de Hipotesis Regresion y Correlacion
Asignatura:
Estadística para Ingeniería Civil
Profesor:
Paco Villalobos Villegas
Contenido
Intervalos de confianza
Prueba de hipótesis
Regresión y correlación
Intervalos de confianza
ESTIMACIÓN PUNTUAL
Parámetro Estimador
Media poblacional (µ ) Media muestral (𝑥)ҧ
4
ESTIMACIÓN INTERVÁLICA
Es un conjunto de valores que probablemente contiene el valor del
parámetro. Tiene límite inferior y superior que se asocia a un grado
de confianza, que es una medida de certeza (probabilidad) que
tenemos de que el intervalo contenga al valor del parámetro.
5
1.- INTERVALO DE CONFIANZA PARA ESTIMAR 𝝁
CON 𝝈𝟐 CONOCIDA.
N: desconocida
𝜎 𝜎
𝑃 𝑥ҧ − 𝑧1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
N: conocida
𝜎 𝑁−𝑛 𝜎 𝑁−𝑛
𝑃 𝑥ҧ − 𝑧1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 𝑁−1 2 𝑛 𝑁−1
6
EJEMPLOS
2.- INTERVALO DE CONFIANZA PARA ESTIMAR 𝝁
CON 𝝈 DESCONOCIDA.
n ≤ 30
𝑠 𝑠
𝑃 𝑥ҧ − 𝑡1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑡1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
n > 30
𝑠 𝑠
𝑃 𝑥ҧ − 𝑧1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
9
3.- INTERVALO DE CONFIANZA PARA ESTIMAR LA PROPORCIÓN
POBLACIONAL 𝝅 DE UNA POBLACIÓNBINOMIAL.
𝑝ҧ 1 − 𝑝ҧ 𝑝ҧ 1 − 𝑝ҧ
𝑃 𝑝ҧ − 𝑧1−𝛼 ∗ ≤ 𝜋 ≤ 𝑝ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
12
4.- INTERVALO DE CONFIANZA PARA ESTIMAR LA VARIANZA
POBLACIONAL 𝝈𝟐 DE UNA POBLACIÓN NORMAL.
Sea 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 una muestra aleatoria de tamaño n, extraída de una población
normal con varianza poblacional (𝜎 2 ) desconocida. Su estimador puntual de 𝜎 2 , es:
σ 𝑛 2 σ 𝑛 2 2
𝑖=1 𝑥 𝑖 − 𝑥ҧ 𝑖=1 𝑥𝑖 − 𝑛 𝑥ҧ
𝑆2 = =
𝑛−1 𝑛−1
2
Para determinar el intervalo de confianza para 𝜎 se utiliza la distribución chi (ji)
cuadrada con n-1 grados de libertad ∀ 𝑛 ≥ 2
𝑛 − 1 𝑠2 𝑛 − 1 𝑠2
𝑃 ≤ 𝜎2 ≤ =1−𝛼
2
𝑥𝛼
,𝑛−1
𝑥2 𝛼
2
1− ,𝑛−1
2
15
1) Una máquina produce piezas metálicas en forma cilíndrica. Para estimar la
variabilidad de los diámetros, se toma una muestra aleatoria de 10 piezas
producidas por la máquina, encontrando los siguientes diámetros en
centímetros:
10.1 9.7 10.3 10.4 9.9 9.8 9.9 10.1 10.3 9.9
Suponga que los diámetros de las piezas se distribuyen según la normal.
Estimar un intervalo de confianza con el 95% para:
a) La varianza.
b) El diámetro promedio.
De investigación Estadística
• Descriptivas de un valor o dato • De estimación
pronosticado
• De correlación
• Correlacionales • De diferencia de medias
• De la diferencia de grupos
• Causales
Tipos de hipótesis
Nula Alterna
Es una suposición tentativa acerca Es una suposición contraria a la
del parámetro de una población. Se
hipótesis nula. Se denota como 𝐻𝑎
denota como 𝐻0
𝐻𝑎 : 𝜋 ≠ 0.45
Ejemplo.
𝐻0 : 𝜋 = 0.45
ELABORACIÓN DE HIPÓTESIS
Hipótesis de investigación
La hipótesis de investigación debe plantearse como la hipótesis alternativa o alterna.
Ejemplo.
Considere un determinado modelo de automóvil en el que el rendimiento de la gasolina
es 24 millas por galón. Un grupo de investigación elabora un nuevo sistema de inyección
de combustible diseñado para dar un mejor rendimiento en millas por galón de gasolina.
Para evaluar el nuevo sistema se fabrican varios de éstos, se instalan en los automóviles
y se someten a pruebas controladas de manejo. En este caso, el grupo de investigación
busca evidencias para concluir que el nuevo sistema aumenta la media del rendimiento.
Entonces las hipótesis quedan de la siguiente manera:
En toda situación en la que se desee probar la validez de una afirmación, la hipótesis nula
se
suele basar en la suposición de que la afirmación sea verdadera.
Ejemplo.
Considere una situación en la que un fabricante de refrescos asegura que los envases de
dos litros de refresco contienen en promedio, por lo menos, 67.6 onzas de líquido. Se
selecciona una muestra de envases de dos litros y se mide su contenido para confirmar lo
que asegura el fabricante. En este tipo de situaciones de prueba de hipótesis, se suele
suponer que el dicho del fabricante es verdad a menos que las evidencias muestrales
indiquen lo contrario. Entonces las hipótesis quedan de la siguiente manera:
𝐻𝑜 : 𝜇 ≥ 67.6 𝑜𝑛𝑧𝑎𝑠
𝐻𝑎 : 𝜇 < 67.6 𝑜𝑛𝑧𝑎𝑠
Hipótesis en situación de toma de decisiones
En general, este tipo de situaciones se presentan cuando la persona que debe tomar una
decisión tiene que elegir entre dos líneas de acción, una relacionada con la hipótesis nula
y otra con la hipótesis alternativa.
Ejemplo
Suponga que una especificación para unas piezas determinadas sea que su longitud
media deba ser de dos pulgadas. Si la longitud media es menor o mayor a dos pulgadas,
las piezas ocasionarán problemas de calidad en la operación de ensamblado. Las
hipótesis quedan de la siguiente manera:
𝐻𝑜 : 𝜇 = 2 𝑝𝑢𝑙𝑔𝑎𝑑𝑎𝑠
𝐻𝑎 : 𝜇 ≠ 2 𝑝𝑢𝑙𝑔𝑎𝑑𝑠
H0 = θ = θ𝐻
0
𝑜 : 𝜃 = 𝜃0 H0 = θ ≤ θ𝐻
0
𝑜 : 𝜃 ≤ 𝜃0 H0 = θ ≥ θ𝐻
0
𝑜 : 𝜃 ≥ 𝜃0
𝐻𝑎 : 𝜃 ≠ 𝜃0 𝐻𝑎 : 𝜃 > 𝜃0 𝐻𝑎 : 𝜃 < 𝜃0
Ha= θ ≠ θ0 Ha =θ > θ0 Ha= θ < θ0
TIPOS DE ERRORES EN EL CONTRASTE DE
HIPÓTESIS
Error de tipo I: Se comete cuando se decide rechazar la hipótesis nula H0 que en realidad
es verdadera. La probabilidad de cometer ese error es α.
P[ Rechazar H0 / H0 es verdadera ] = α
Error de tipo II: Se comete cuando se decide no rechazar la hipótesis nula H0 que en
realidad es falsa. La probabilidad de cometer ese error es β.
P[ No rechazar H0 / H0 es falsa ] = β
Por tanto,
1 - α es la probabilidad de tomar una decisión correcta cuando H0 es verdadera.
1 - β es la probabilidad de tomar una decisión correcta cuando H0 es falsa.
Naturaleza de H0
Decisión
Verdadera Falsa
teoría.
6. Comparar el valor del estadístico de prueba con el valor crítico, para decidir
si se rechaza 𝐻𝑜
7. Conclusión.
PROCEDIMIENTO GENERAL DE
UN TEST DE HIPÓTESIS BASADO
EN EL P_VALUE
Otro procedimiento general de un test de hipótesis más usado en la actualidad debido a la
disponibilidad de paquetes de programas estadísticos, consiste en tomar la decisión a partir
de la probabilidad del error Tipo I que brindan las salidas de tales paquetes de programas,
denominado P_value o simplemente P.
1.- CONTRASTES PARA LA MEDIA CON VARIANZA
POBLACIONAL CONOCIDA.
Planteamiento de hipótesis
Bilateral Unilateral izquierda Unilateral derecha
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻𝑎 : 𝜇 ≠ 𝜇𝑜
Estadígrafo de prueba
𝑥ҧ − 𝜇𝑜
𝑧𝑐𝑎𝑙 = 𝜎 ~ 𝑁 0,1
ൗ 𝑛
Regla de decisión
Ejemplo.
Al estudiar si conviene tener o no una sucursal en la ciudad de Tarapoto, la gerencia
de una gran tienda comercial de Lima, establece el siguiente criterio para tomar una
decisión: Abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha
ciudad es no menos de $500 y no abrirla en caso contrario. Si una muestra aleatoria
de 100 ingresos familiares de esa ciudad ha dado una media de $480. ¿Cuál es la
decisión que deberá tomar al nivel de significancia de 10%?
2.- CONTRASTES PARA DIFERENCIA DE MEDIAS CON VARIANZA
POBLACIONAL CONOCIDA
Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 = 𝜇2 𝐻𝑜 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
Estadígrafo de prueba
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑧𝑐𝑎𝑙 =
𝜎12 𝜎22
𝑛1 + 𝑛2
Regla de decisión
Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼
2 2
no rechazar 𝐻𝑜
Ejemplo
Durante el 2003 los precios de la gasolina alcanzaron record de precios altos
en 16 estados de Estados Unidos (The Wall Street Journal, 7 de marzo de
2003). Dos de los estados afectados fueron California y Florida. La American
Automobile Association encontró como precio medio muestral por galón $2.04
en California y $1.72 por galón en Florida. Use 40 como tamaño de la muestra
de California y 35 como tamaño de la muestra en Florida. Suponga que
estudios anteriores indican que la desviación estándar poblacional en
California es 0.10 y en Florida 0.08.
¿Existe diferencia significativa en los precios promedio de gasolina en los
estados de California y Florida? Use 𝛼 = 0.10
3.- CONTRASTES PARA LA MEDIA CON VARIANZA POBLACIONAL
DESCONOCIDA.
MUESTRAS PEQUEÑAS 𝐧 ≤ 𝟑𝟎
Planteamiento de hipótesis
Bilateral Unilateral izquierda Unilateral derecha
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻𝑎 : 𝜇 ≠ 𝜇𝑜
Estadígrafo de prueba
𝑥ҧ − 𝜇𝑜
𝑡𝑐𝑎𝑙 = 𝑠 ~ 𝑡𝑛−1
ൗ 𝑛
Regla de decisión
Si 𝑡1−𝛼;𝑛−1 < 𝑡𝑐𝑎𝑙 < 𝑡1−𝛼;𝑛−1 Si 𝑡𝑐𝑎𝑙 > 𝑡𝛼;𝑛−1 Si 𝑡𝑐𝑎𝑙 < 𝑡1−𝛼;𝑛−1
2 2
no rechazar 𝐻𝑜 no rechazar 𝐻𝑜 no rechazar 𝐻𝑜
Ejemplo.
De acuerdo con un estudio sobre un régimen alimenticio, la ingesta elevada de sodio se
relaciona con ulceras, cáncer estomacal y migrañas. El requerimiento humano de sal es
de tan solo 220 miligramos diarios, el cual se rebasa en la mayoría de las porciones
individuales de cereales listos para comerse. Si una muestra aleatoria de 20 porciones
similares de cierto cereal tiene un contenido medio de 244 miligramos de sodio y una
desviación estándar de 24.5 miligramos, ¿esto sugiere, a un nivel de significancia de
0.05, que el contenido promedio de sodio para porciones individuales de ese cereal es
mayor que 220 miligramos? Suponga que la distribución de contenidos de sodio es
normal.
37
4.- CONTRASTES PARA DIFERENCIA DE MEDIAS CON VARIANZA
POBLACIONAL DESCONOCIDA E IGUALES.
Caso 1: 𝒏𝟏 + 𝒏𝟐 ≤ 𝟑𝟎
Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 = 𝜇2 𝐻𝑜 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
Estadígrafo de prueba
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2 𝑛1 − 1 𝑠12 + 𝑛2 − 1 𝑠22
𝑡𝑐𝑎𝑙 = ~ 𝑡𝑛1 +𝑛2−2 𝑠𝑝 =
1 1 𝑛1 + 𝑛2 − 2
𝑠𝑝 ∗ +
𝑛1 𝑛2
Regla de decisión
Si 𝑡(𝑛 𝛼 < 𝑡𝑐𝑎𝑙 < 𝑡(𝑛 𝛼
1 +𝑛2 −2), 2 1 +𝑛2 −2),1− 2
no rechazar 𝐻𝑜
Ejemplo
Merrill Lynch solicita periódicamente a sus clientes evaluaciones sobre la
asesoría financiera y los servicios que les presta (2000 Merrill Lynch Client
Satisfation Survey). Puntuaciones más altas indican mejor servicio, 7 es la
puntuación más alta. A continuación se presentan en forma resumida las
puntuaciones dadas a dos consultores financieros por los miembros de dos
muestras aleatorias independientes. El consultor A tiene 10 años de
experiencia, mientras que el consultor B tiene 1 año de experiencia. Use α
0.05 y realice una prueba para determinar si el consultor que tiene más años
de experiencia obtuvo una puntuación más alta.
Consultor A Consultor B
𝑛1 = 14 𝑛2 = 10
𝑥ҧ1 = 6.82 𝑥ҧ2 = 6.25
𝑆1 = 0.64 𝑆1 = 0.75
4.- CONTRASTES PARA DIFERENCIA DE MEDIAS CON VARIANZA
POBLACIONAL DESCONOCIDA E IGUALES.
Caso 2: 𝒏𝟏 + 𝒏𝟐 > 𝟑𝟎
Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 = 𝜇2 𝐻𝑜 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
Estadígrafo de prueba
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑧𝑐𝑎𝑙 =
𝑆12 𝑆22
𝑛1 + 𝑛2
Regla de decisión
Si 𝑡(𝑛 𝛼 < 𝑡𝑐𝑎𝑙 < 𝑡(𝑛 𝛼
1 +𝑛2 −2), 2 1 +𝑛2 −2),1− 2
no rechazar 𝐻𝑜
Ejemplo.
En las zonas costeras de Estados Unidos, Cape Cod, Outer Banks, las
Carolinas y la costa del Golfo, hubo, durante los años noventa, un crecimiento
relativamente rápido de la población. Los datos recolectados son sobre las
personas que viven tanto en zonas costeras como en zonas no costeras de
todo Estados Unidos (USA Today, 21 de julio de 2000). Suponga que se
obtuvieron los resultados muestrales siguientes sobre las edades de estas dos
poblaciones de personas.
Zona costera Zona no costera
𝑛1 = 150 𝑛2 = 175
𝑥ҧ1 = 39.3 años 𝑥ҧ2 = 35.4 años
𝑆1 = 16.8 años 𝑆1 = 15.2 años
5.- CONTRASTES PARA PROPORCIONES POBLACIONALES CON
DISTRIBUCIONES BINOMIALES
Planteamiento de hipótesis
𝐻𝑜 : 𝜋1 = 𝜋𝑜
𝐻𝑎 : 𝜋1 ≠ 𝜋0
Estadígrafo de prueba
𝑝 − 𝜋𝑜
𝑧𝑐𝑎𝑙 = ~ N(0,1)
𝜋𝑜 1 − 𝜋𝑜
𝑛
Regla de decisión
Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼
2 2
no rechazar 𝐻𝑜
6.- CONTRASTES PARA DIFERENCIA DE PROPORCIONES
POBLACIONALES CON DISTRIBUCIONES BINOMIALES
Planteamiento de hipótesis
𝐻𝑜 : 𝜋1 = 𝜋2
𝐻𝑎 : 𝜋1 ≠ 𝜋2
Estadígrafo de prueba 𝑥1 + 𝑥2 𝑝1 𝑛1 + 𝑝2 𝑛2
𝑝= 𝑝=
𝑛1 + 𝑛2 𝑛1 + 𝑛2
𝑝1 − 𝑝2 − 𝜋1 − 𝜋2
𝑧𝑐𝑎𝑙 = ~ N(0,1)
1 1 𝑝= 1−𝑝
𝑝∗𝑞 𝑛 +𝑛
1 2
Regla de decisión
Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼
2 2
no rechazar 𝐻𝑜
7.- CONTRASTE PARA DIFERENCIA DE MEDIAS PARA MUESTRAS
DEPENDIENTES O APAREDADAS.
Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 − 𝜇2 = ∆0
𝐻𝑎 : 𝜇1 − 𝜇2 ≠ ∆0
Regla de decisión
Si 𝑡𝛼 < 𝑡𝑐𝑎𝑙 < 𝑡1−𝛼
2 2
Estadígrafo de prueba no rechazar 𝐻𝑜
𝑑ҧ − ∆0
𝑡𝑐𝑎𝑙 = 𝑠 ~ 𝑡𝑛−1
𝑑
ൗ 𝑛
2
σ𝑛𝑖=1 𝑑𝑖 σ𝑛
𝑖=1 𝑑𝑖 − 𝑑
ҧ
2
𝑠𝑑 = 𝑠𝑑 = 𝑠𝑑2
𝑑ҧ = 𝑛−1
𝑛
Análisis de regresión y correlación
El análisis de regresión tiene como objetivo modelar en forma matemática el
comportamiento de una variable de respuesta en función de una o más
variables independientes (factores). Por ejemplo, suponga que el rendimiento
de un proceso químico está relacionado con la temperatura de operación. Si
mediante un modelo matemático es posible describir tal relación, entonces este
modelo puede ser usado para propósitos de predicción, optimización o control.
Para estimar los parámetros de un modelo de regresión son necesarios los
datos, los cuales pueden obtenerse de experimentos planeados, de
observaciones de fenómenos no controlados o de registros históricos.
REGRESIÓN LINEAL SIMPLE
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
Donde:
Y, se le llama la variable dependiente o la variable de respuesta.
X, se le conoce como variable independiente o variable regresora.
𝜀, es un error aleatorio con media cero y varianza 𝜎 2
𝛽0 , es el punto en el cual la línea recta intercepta o cruza el eje Y
𝛽1 , es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable Y por cada unidad que se incrementa X.
ESTIMACIÓN DE LA RECTA DE REGRESIÓN LINEAL SIMPLE
𝑦ො = 𝑏0 + 𝑏1 𝑥 Modelo estimado
Residuo: 𝒆𝒊 = 𝒚𝒊 − 𝒚
ෝ𝒊
Este método consiste en estimar los parámetros de la recta de regresión,
considerando que la suma de los errores al cuadro, éste debe de ser mínimo.
σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 ∗ 𝑥ҧ ∗ 𝑦ത
𝑏1 =
σ𝑛𝑖=1 𝑥𝑖2 − 𝑛 ∗ 𝑥ҧ 2
𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
Ejemplo 1.
Un comerciante minorista realizo un estudio para determinar la relación que
hay entre los gastos semanales de publicidad y las ventas. Los datos son los
siguientes.
Costos de
publicidad Ventas ($) a) Elabore un diagrama de dispersión.
($) b) Calcule la ecuación de la recta de regresión
40 385
para pronosticar las ventas semanales a
20 400
25 395 partir de los gastos de publicidad.
20 365 c) Estime las ventas semanales si los costos
30 475
de publicidad son de $35.
50 440
40 490
20 420
50 560
40 525
25 480
50 510
Ejemplo 2
Un estudio sobre la cantidad de lluvia y la contaminación del aire eliminada
produjo los siguientes datos:
Cantidad de Partículas
lluvia diaria eliminadas
(0.01 cm) (ug/m3)
a) Calcule la ecuación de la recta de regresión
4.3 126
para predecir las partículas eliminadas de la
4.5 121
cantidad de precipitación diaria.
5.9 116
5.6 118 b) Estime la cantidad de partículas eliminadas
COEFICIENTE DE DETERMINACIÓN
Mide la variabilidad explicada por la recta de regresión lineal estimada.
𝑟= 𝑟2