Está en la página 1de 52

Facultad de Ingeniería

Asignatura:
Estadística para Ingeniería Civil

Profesor:
Paco Villalobos Villegas
Contenido

Intervalos de confianza
Prueba de hipótesis
Regresión y correlación
Intervalos de confianza
ESTIMACIÓN PUNTUAL

Parámetro Estimador
Media poblacional (µ ) Media muestral (𝑥)ҧ

Varianza poblacional (σ2) Varianza nuestra ( s2 )

Proporción Poblacional (𝜋) Proporción muestral (p)

4
ESTIMACIÓN INTERVÁLICA
Es un conjunto de valores que probablemente contiene el valor del
parámetro. Tiene límite inferior y superior que se asocia a un grado
de confianza, que es una medida de certeza (probabilidad) que
tenemos de que el intervalo contenga al valor del parámetro.

5
1.- INTERVALO DE CONFIANZA PARA ESTIMAR 𝝁
CON 𝝈𝟐 CONOCIDA.

N: desconocida
𝜎 𝜎
𝑃 𝑥ҧ − 𝑧1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
N: conocida

𝜎 𝑁−𝑛 𝜎 𝑁−𝑛
𝑃 𝑥ҧ − 𝑧1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 𝑁−1 2 𝑛 𝑁−1
6
EJEMPLOS
2.- INTERVALO DE CONFIANZA PARA ESTIMAR 𝝁
CON 𝝈 DESCONOCIDA.

n ≤ 30
𝑠 𝑠
𝑃 𝑥ҧ − 𝑡1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑡1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
n > 30
𝑠 𝑠
𝑃 𝑥ҧ − 𝑧1−𝛼 ∗ ≤ 𝜇 ≤ 𝑥ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
9
3.- INTERVALO DE CONFIANZA PARA ESTIMAR LA PROPORCIÓN
POBLACIONAL 𝝅 DE UNA POBLACIÓNBINOMIAL.

𝑝ҧ 1 − 𝑝ҧ 𝑝ҧ 1 − 𝑝ҧ
𝑃 𝑝ҧ − 𝑧1−𝛼 ∗ ≤ 𝜋 ≤ 𝑝ҧ + 𝑧1−𝛼 ∗ =1−𝛼
2 𝑛 2 𝑛
12
4.- INTERVALO DE CONFIANZA PARA ESTIMAR LA VARIANZA
POBLACIONAL 𝝈𝟐 DE UNA POBLACIÓN NORMAL.
Sea 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 una muestra aleatoria de tamaño n, extraída de una población
normal con varianza poblacional (𝜎 2 ) desconocida. Su estimador puntual de 𝜎 2 , es:
σ 𝑛 2 σ 𝑛 2 2
𝑖=1 𝑥 𝑖 − 𝑥ҧ 𝑖=1 𝑥𝑖 − 𝑛 𝑥ҧ
𝑆2 = =
𝑛−1 𝑛−1
2
Para determinar el intervalo de confianza para 𝜎 se utiliza la distribución chi (ji)
cuadrada con n-1 grados de libertad ∀ 𝑛 ≥ 2

𝑛 − 1 𝑠2 𝑛 − 1 𝑠2
𝑃 ≤ 𝜎2 ≤ =1−𝛼
2
𝑥𝛼
,𝑛−1
𝑥2 𝛼
2
1− ,𝑛−1
2

15
1) Una máquina produce piezas metálicas en forma cilíndrica. Para estimar la
variabilidad de los diámetros, se toma una muestra aleatoria de 10 piezas
producidas por la máquina, encontrando los siguientes diámetros en
centímetros:

10.1 9.7 10.3 10.4 9.9 9.8 9.9 10.1 10.3 9.9
Suponga que los diámetros de las piezas se distribuyen según la normal.
Estimar un intervalo de confianza con el 95% para:
a) La varianza.
b) El diámetro promedio.

2) Se escoge una muestra aleatoria de 13 o producto de consumo popular tiene


una desviación estándar de 6 dólares. Se supone que las ventas del producto
tienen una distribución normal. Estimar un intervalo de confianza con el 99%
para:
a) La varianza.
b) La desviación estándar.
3) Los siguientes son los pesos, en decagramos, de 10 paquetes de se millas
de pasto distribuidas por cierta empresa:
46.4 46.1 45.8 47.0 46.1 45.9 45.8 46.9 45.2 46.0
Calcule un intervalo de confianza del 90% para la varianza de todos los pesos
de este tipo de paquetes de semillas de pasto distribuidos por la empresa.
Suponga una población normal.

4) Una muestra aleatoria de 20 estudiantes obtuvo una media de 𝑥ҧ = 72 puntos


y una varianza de 16 en un examen universitario de colocación en
matemáticas. Suponga que las calificaciones se distribuyen normalmente y con
base en esto construya un intervalo de confianza del 95% para 𝜎 2

5) Un fabricante de baterías para automóvil afirma que sus baterías duraran, en


promedio, 3 anos con una varianza de 1 año. Suponga que 5 de estas baterías
tienen duraciones de 1.9, 2.4, 3.0, 3.5 y 4.2 años y con base en esto construya
un intervalo de confianza del 90% para 𝜎 2 , después decida si la afirmación del
fabricante de que 𝜎 2 = 1 es válida. Suponga que la población de duraciones de
las baterías se distribuye de forma aproximadamente normal.
Prueba de hipótesis
DEFINICIÓN
“Son explicaciones tentativas de la relación entre dos o más variables” (Hernández,
2006).

“Las hipótesis indican lo que tratamos de probar y se definen como explicaciones


tentativas del fenómeno investigado. Se derivan de la teoría existente y deben
formularse a manera de proposiciones”(Williams, 2003).

Contraste o prueba de hipótesis es un proceso estadístico mediante el cual se


investiga si una propiedad que se supone que cumple una población es compatible
con lo observado en una muestra de dicha población. Es un procedimiento que
permite elegir una hipótesis de trabajo de entre dos posibles y antagónicas.
CLASIFICACIÓN DE HIPÓTESIS

De investigación Estadística
• Descriptivas de un valor o dato • De estimación
pronosticado
• De correlación
• Correlacionales • De diferencia de medias
• De la diferencia de grupos
• Causales
Tipos de hipótesis

Nula Alterna
Es una suposición tentativa acerca Es una suposición contraria a la
del parámetro de una población. Se
hipótesis nula. Se denota como 𝐻𝑎
denota como 𝐻0
𝐻𝑎 : 𝜋 ≠ 0.45
Ejemplo.

El 45% de la población de Nueva


Cajamarca es femenina.

𝐻0 : 𝜋 = 0.45
ELABORACIÓN DE HIPÓTESIS
Hipótesis de investigación
La hipótesis de investigación debe plantearse como la hipótesis alternativa o alterna.
Ejemplo.
Considere un determinado modelo de automóvil en el que el rendimiento de la gasolina
es 24 millas por galón. Un grupo de investigación elabora un nuevo sistema de inyección
de combustible diseñado para dar un mejor rendimiento en millas por galón de gasolina.
Para evaluar el nuevo sistema se fabrican varios de éstos, se instalan en los automóviles
y se someten a pruebas controladas de manejo. En este caso, el grupo de investigación
busca evidencias para concluir que el nuevo sistema aumenta la media del rendimiento.
Entonces las hipótesis quedan de la siguiente manera:

𝐻𝑜 : 𝜇 ≤ 24 𝑚𝑖𝑙𝑙𝑎𝑠 𝑝𝑜𝑟 𝑔𝑎𝑙ó𝑛


𝐻𝑎 : 𝜇 > 24 𝑚𝑖𝑙𝑙𝑎𝑠 𝑝𝑜𝑟 𝑔𝑎𝑙ó𝑛
Hipótesis de validez de una afirmación

En toda situación en la que se desee probar la validez de una afirmación, la hipótesis nula
se
suele basar en la suposición de que la afirmación sea verdadera.
Ejemplo.
Considere una situación en la que un fabricante de refrescos asegura que los envases de
dos litros de refresco contienen en promedio, por lo menos, 67.6 onzas de líquido. Se
selecciona una muestra de envases de dos litros y se mide su contenido para confirmar lo
que asegura el fabricante. En este tipo de situaciones de prueba de hipótesis, se suele
suponer que el dicho del fabricante es verdad a menos que las evidencias muestrales
indiquen lo contrario. Entonces las hipótesis quedan de la siguiente manera:

𝐻𝑜 : 𝜇 ≥ 67.6 𝑜𝑛𝑧𝑎𝑠
𝐻𝑎 : 𝜇 < 67.6 𝑜𝑛𝑧𝑎𝑠
Hipótesis en situación de toma de decisiones
En general, este tipo de situaciones se presentan cuando la persona que debe tomar una
decisión tiene que elegir entre dos líneas de acción, una relacionada con la hipótesis nula
y otra con la hipótesis alternativa.
Ejemplo
Suponga que una especificación para unas piezas determinadas sea que su longitud
media deba ser de dos pulgadas. Si la longitud media es menor o mayor a dos pulgadas,
las piezas ocasionarán problemas de calidad en la operación de ensamblado. Las
hipótesis quedan de la siguiente manera:

𝐻𝑜 : 𝜇 = 2 𝑝𝑢𝑙𝑔𝑎𝑑𝑎𝑠
𝐻𝑎 : 𝜇 ≠ 2 𝑝𝑢𝑙𝑔𝑎𝑑𝑠

Este tipo de prueba de hipótesis se emplea en el procedimiento de control de calidad


conocido como muestreo de aceptación de lotes.
TIPO DE CONTRASTE DE HIPÓTESIS
Contraste unilateral: Cola a la Contraste unilateral: Cola a la
Contraste bilateral derecha izquierda

H0 = θ = θ𝐻
0
𝑜 : 𝜃 = 𝜃0 H0 = θ ≤ θ𝐻
0
𝑜 : 𝜃 ≤ 𝜃0 H0 = θ ≥ θ𝐻
0
𝑜 : 𝜃 ≥ 𝜃0

𝐻𝑎 : 𝜃 ≠ 𝜃0 𝐻𝑎 : 𝜃 > 𝜃0 𝐻𝑎 : 𝜃 < 𝜃0
Ha= θ ≠ θ0 Ha =θ > θ0 Ha= θ < θ0
TIPOS DE ERRORES EN EL CONTRASTE DE
HIPÓTESIS
Error de tipo I: Se comete cuando se decide rechazar la hipótesis nula H0 que en realidad
es verdadera. La probabilidad de cometer ese error es α.
P[ Rechazar H0 / H0 es verdadera ] = α

Error de tipo II: Se comete cuando se decide no rechazar la hipótesis nula H0 que en
realidad es falsa. La probabilidad de cometer ese error es β.
P[ No rechazar H0 / H0 es falsa ] = β

Por tanto,
1 - α es la probabilidad de tomar una decisión correcta cuando H0 es verdadera.
1 - β es la probabilidad de tomar una decisión correcta cuando H0 es falsa.
Naturaleza de H0
Decisión
Verdadera Falsa

Error de tipo I Decisión correcta


Rechazar H0
P=α P=1-β

Decisión correcta Error de tipo II


No rechazar H0
P=1-α P=β
PROCEDIMIENTO A SEGUIR EN EL CONTRASTE DE
HIPÓTESIS
1. Plantear adecuadamente las hipótesis nula y alternativa.

2. Elegir el nivel de significación (𝛼)

3. Elegir el estadístico para la prueba, de acuerdo a los requisitos que exige la

teoría.

4. Definir la región de rechazo, según la hipótesis alternativa propuesta.

5. Calcular el estadístico seleccionado para realizar la prueba de hipótesis.

6. Comparar el valor del estadístico de prueba con el valor crítico, para decidir

si se rechaza 𝐻𝑜

7. Conclusión.
PROCEDIMIENTO GENERAL DE
UN TEST DE HIPÓTESIS BASADO
EN EL P_VALUE
Otro procedimiento general de un test de hipótesis más usado en la actualidad debido a la
disponibilidad de paquetes de programas estadísticos, consiste en tomar la decisión a partir
de la probabilidad del error Tipo I que brindan las salidas de tales paquetes de programas,
denominado P_value o simplemente P.
1.- CONTRASTES PARA LA MEDIA CON VARIANZA
POBLACIONAL CONOCIDA.

Planteamiento de hipótesis
Bilateral Unilateral izquierda Unilateral derecha
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻𝑎 : 𝜇 ≠ 𝜇𝑜

Estadígrafo de prueba
𝑥ҧ − 𝜇𝑜
𝑧𝑐𝑎𝑙 = 𝜎 ~ 𝑁 0,1
ൗ 𝑛
Regla de decisión

Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼 Si 𝑧𝑐𝑎𝑙 > 𝑧𝛼 Si 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼


2 2
no rechazar 𝐻𝑜 no rechazar 𝐻𝑜 no rechazar 𝐻𝑜
Ejemplo.
La estatura promedio de mujeres en el grupo de primer año de cierta universidad ha
sido, históricamente, de 162.5 centímetros, con una desviación estándar de 6.9
centímetros ¿Existe alguna razón para creer que ha habido un cambio en la estatura
promedio, si una muestra aleatoria de 50 mujeres del grupo actual de primer año tiene
una estatura promedio de 164.2 centímetros?. Use 𝛼 = 0.05

Ejemplo.
Al estudiar si conviene tener o no una sucursal en la ciudad de Tarapoto, la gerencia
de una gran tienda comercial de Lima, establece el siguiente criterio para tomar una
decisión: Abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha
ciudad es no menos de $500 y no abrirla en caso contrario. Si una muestra aleatoria
de 100 ingresos familiares de esa ciudad ha dado una media de $480. ¿Cuál es la
decisión que deberá tomar al nivel de significancia de 10%?
2.- CONTRASTES PARA DIFERENCIA DE MEDIAS CON VARIANZA
POBLACIONAL CONOCIDA

Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 = 𝜇2 𝐻𝑜 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0

Estadígrafo de prueba
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑧𝑐𝑎𝑙 =
𝜎12 𝜎22
𝑛1 + 𝑛2

Regla de decisión
Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼
2 2
no rechazar 𝐻𝑜
Ejemplo
Durante el 2003 los precios de la gasolina alcanzaron record de precios altos
en 16 estados de Estados Unidos (The Wall Street Journal, 7 de marzo de
2003). Dos de los estados afectados fueron California y Florida. La American
Automobile Association encontró como precio medio muestral por galón $2.04
en California y $1.72 por galón en Florida. Use 40 como tamaño de la muestra
de California y 35 como tamaño de la muestra en Florida. Suponga que
estudios anteriores indican que la desviación estándar poblacional en
California es 0.10 y en Florida 0.08.
¿Existe diferencia significativa en los precios promedio de gasolina en los
estados de California y Florida? Use 𝛼 = 0.10
3.- CONTRASTES PARA LA MEDIA CON VARIANZA POBLACIONAL
DESCONOCIDA.

MUESTRAS PEQUEÑAS 𝐧 ≤ 𝟑𝟎
Planteamiento de hipótesis
Bilateral Unilateral izquierda Unilateral derecha
𝐻𝑜 : 𝜇 = 𝜇𝑜
𝐻𝑎 : 𝜇 ≠ 𝜇𝑜

Estadígrafo de prueba
𝑥ҧ − 𝜇𝑜
𝑡𝑐𝑎𝑙 = 𝑠 ~ 𝑡𝑛−1
ൗ 𝑛

Regla de decisión

Si 𝑡1−𝛼;𝑛−1 < 𝑡𝑐𝑎𝑙 < 𝑡1−𝛼;𝑛−1 Si 𝑡𝑐𝑎𝑙 > 𝑡𝛼;𝑛−1 Si 𝑡𝑐𝑎𝑙 < 𝑡1−𝛼;𝑛−1
2 2
no rechazar 𝐻𝑜 no rechazar 𝐻𝑜 no rechazar 𝐻𝑜
Ejemplo.
De acuerdo con un estudio sobre un régimen alimenticio, la ingesta elevada de sodio se
relaciona con ulceras, cáncer estomacal y migrañas. El requerimiento humano de sal es
de tan solo 220 miligramos diarios, el cual se rebasa en la mayoría de las porciones
individuales de cereales listos para comerse. Si una muestra aleatoria de 20 porciones
similares de cierto cereal tiene un contenido medio de 244 miligramos de sodio y una
desviación estándar de 24.5 miligramos, ¿esto sugiere, a un nivel de significancia de
0.05, que el contenido promedio de sodio para porciones individuales de ese cereal es
mayor que 220 miligramos? Suponga que la distribución de contenidos de sodio es
normal.

37
4.- CONTRASTES PARA DIFERENCIA DE MEDIAS CON VARIANZA
POBLACIONAL DESCONOCIDA E IGUALES.
Caso 1: 𝒏𝟏 + 𝒏𝟐 ≤ 𝟑𝟎
Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 = 𝜇2 𝐻𝑜 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0

Estadígrafo de prueba
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2 𝑛1 − 1 𝑠12 + 𝑛2 − 1 𝑠22
𝑡𝑐𝑎𝑙 = ~ 𝑡𝑛1 +𝑛2−2 𝑠𝑝 =
1 1 𝑛1 + 𝑛2 − 2
𝑠𝑝 ∗ +
𝑛1 𝑛2

Regla de decisión
Si 𝑡(𝑛 𝛼 < 𝑡𝑐𝑎𝑙 < 𝑡(𝑛 𝛼
1 +𝑛2 −2), 2 1 +𝑛2 −2),1− 2
no rechazar 𝐻𝑜
Ejemplo
Merrill Lynch solicita periódicamente a sus clientes evaluaciones sobre la
asesoría financiera y los servicios que les presta (2000 Merrill Lynch Client
Satisfation Survey). Puntuaciones más altas indican mejor servicio, 7 es la
puntuación más alta. A continuación se presentan en forma resumida las
puntuaciones dadas a dos consultores financieros por los miembros de dos
muestras aleatorias independientes. El consultor A tiene 10 años de
experiencia, mientras que el consultor B tiene 1 año de experiencia. Use α
0.05 y realice una prueba para determinar si el consultor que tiene más años
de experiencia obtuvo una puntuación más alta.
Consultor A Consultor B
𝑛1 = 14 𝑛2 = 10
𝑥ҧ1 = 6.82 𝑥ҧ2 = 6.25
𝑆1 = 0.64 𝑆1 = 0.75
4.- CONTRASTES PARA DIFERENCIA DE MEDIAS CON VARIANZA
POBLACIONAL DESCONOCIDA E IGUALES.
Caso 2: 𝒏𝟏 + 𝒏𝟐 > 𝟑𝟎

Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 = 𝜇2 𝐻𝑜 : 𝜇1 − 𝜇2 = 0
𝐻𝑎 : 𝜇1 ≠ 𝜇2 𝐻𝑎 : 𝜇1 − 𝜇2 ≠ 0
Estadígrafo de prueba
𝑥ҧ1 − 𝑥ҧ2 − 𝜇1 − 𝜇2
𝑧𝑐𝑎𝑙 =
𝑆12 𝑆22
𝑛1 + 𝑛2

Regla de decisión
Si 𝑡(𝑛 𝛼 < 𝑡𝑐𝑎𝑙 < 𝑡(𝑛 𝛼
1 +𝑛2 −2), 2 1 +𝑛2 −2),1− 2
no rechazar 𝐻𝑜
Ejemplo.
En las zonas costeras de Estados Unidos, Cape Cod, Outer Banks, las
Carolinas y la costa del Golfo, hubo, durante los años noventa, un crecimiento
relativamente rápido de la población. Los datos recolectados son sobre las
personas que viven tanto en zonas costeras como en zonas no costeras de
todo Estados Unidos (USA Today, 21 de julio de 2000). Suponga que se
obtuvieron los resultados muestrales siguientes sobre las edades de estas dos
poblaciones de personas.
Zona costera Zona no costera
𝑛1 = 150 𝑛2 = 175
𝑥ҧ1 = 39.3 años 𝑥ҧ2 = 35.4 años
𝑆1 = 16.8 años 𝑆1 = 15.2 años
5.- CONTRASTES PARA PROPORCIONES POBLACIONALES CON
DISTRIBUCIONES BINOMIALES

Planteamiento de hipótesis
𝐻𝑜 : 𝜋1 = 𝜋𝑜
𝐻𝑎 : 𝜋1 ≠ 𝜋0

Estadígrafo de prueba
𝑝 − 𝜋𝑜
𝑧𝑐𝑎𝑙 = ~ N(0,1)
𝜋𝑜 1 − 𝜋𝑜
𝑛

Regla de decisión
Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼
2 2
no rechazar 𝐻𝑜
6.- CONTRASTES PARA DIFERENCIA DE PROPORCIONES
POBLACIONALES CON DISTRIBUCIONES BINOMIALES

Planteamiento de hipótesis
𝐻𝑜 : 𝜋1 = 𝜋2
𝐻𝑎 : 𝜋1 ≠ 𝜋2

Estadígrafo de prueba 𝑥1 + 𝑥2 𝑝1 𝑛1 + 𝑝2 𝑛2
𝑝= 𝑝=
𝑛1 + 𝑛2 𝑛1 + 𝑛2
𝑝1 − 𝑝2 − 𝜋1 − 𝜋2
𝑧𝑐𝑎𝑙 = ~ N(0,1)
1 1 𝑝= 1−𝑝
𝑝∗𝑞 𝑛 +𝑛
1 2

Regla de decisión
Si 𝑧𝛼 < 𝑧𝑐𝑎𝑙 < 𝑧1−𝛼
2 2
no rechazar 𝐻𝑜
7.- CONTRASTE PARA DIFERENCIA DE MEDIAS PARA MUESTRAS
DEPENDIENTES O APAREDADAS.

Planteamiento de hipótesis
𝐻𝑜 : 𝜇1 − 𝜇2 = ∆0
𝐻𝑎 : 𝜇1 − 𝜇2 ≠ ∆0
Regla de decisión
Si 𝑡𝛼 < 𝑡𝑐𝑎𝑙 < 𝑡1−𝛼
2 2
Estadígrafo de prueba no rechazar 𝐻𝑜
𝑑ҧ − ∆0
𝑡𝑐𝑎𝑙 = 𝑠 ~ 𝑡𝑛−1
𝑑
ൗ 𝑛

2
σ𝑛𝑖=1 𝑑𝑖 σ𝑛
𝑖=1 𝑑𝑖 − 𝑑
ҧ
2
𝑠𝑑 = 𝑠𝑑 = 𝑠𝑑2
𝑑ҧ = 𝑛−1
𝑛
Análisis de regresión y correlación
El análisis de regresión tiene como objetivo modelar en forma matemática el
comportamiento de una variable de respuesta en función de una o más
variables independientes (factores). Por ejemplo, suponga que el rendimiento
de un proceso químico está relacionado con la temperatura de operación. Si
mediante un modelo matemático es posible describir tal relación, entonces este
modelo puede ser usado para propósitos de predicción, optimización o control.
Para estimar los parámetros de un modelo de regresión son necesarios los
datos, los cuales pueden obtenerse de experimentos planeados, de
observaciones de fenómenos no controlados o de registros históricos.
REGRESIÓN LINEAL SIMPLE

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀

Donde:
Y, se le llama la variable dependiente o la variable de respuesta.
X, se le conoce como variable independiente o variable regresora.
𝜀, es un error aleatorio con media cero y varianza 𝜎 2
𝛽0 , es el punto en el cual la línea recta intercepta o cruza el eje Y
𝛽1 , es la pendiente de la línea, es decir, es la cantidad en que se incrementa o
disminuye la variable Y por cada unidad que se incrementa X.
ESTIMACIÓN DE LA RECTA DE REGRESIÓN LINEAL SIMPLE

𝑦ො = 𝑏0 + 𝑏1 𝑥 Modelo estimado

MÉTODO DE MÍNIMOS CUADRADOS

Residuo: 𝒆𝒊 = 𝒚𝒊 − 𝒚
ෝ𝒊
Este método consiste en estimar los parámetros de la recta de regresión,
considerando que la suma de los errores al cuadro, éste debe de ser mínimo.

σ𝑛𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 ∗ 𝑥ҧ ∗ 𝑦ത
𝑏1 =
σ𝑛𝑖=1 𝑥𝑖2 − 𝑛 ∗ 𝑥ҧ 2

𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ
Ejemplo 1.
Un comerciante minorista realizo un estudio para determinar la relación que
hay entre los gastos semanales de publicidad y las ventas. Los datos son los
siguientes.
Costos de
publicidad Ventas ($) a) Elabore un diagrama de dispersión.
($) b) Calcule la ecuación de la recta de regresión
40 385
para pronosticar las ventas semanales a
20 400
25 395 partir de los gastos de publicidad.
20 365 c) Estime las ventas semanales si los costos
30 475
de publicidad son de $35.
50 440
40 490
20 420
50 560
40 525
25 480
50 510
Ejemplo 2
Un estudio sobre la cantidad de lluvia y la contaminación del aire eliminada
produjo los siguientes datos:
Cantidad de Partículas
lluvia diaria eliminadas
(0.01 cm) (ug/m3)
a) Calcule la ecuación de la recta de regresión
4.3 126
para predecir las partículas eliminadas de la
4.5 121
cantidad de precipitación diaria.
5.9 116
5.6 118 b) Estime la cantidad de partículas eliminadas

6.1 114 si la precipitación diaria es 4.8 unidades.


5.2 118
3.8 132
2.1 141
7.5 108
ANOVA

Suma de cuadrados del error


𝑆𝐶𝐸 = ෍ 𝑦𝑖 − 𝑦ො𝑖 2 = ෍ 𝑦𝑖 − 𝑏0 + 𝑏1 𝑥 2 = ෍ 𝑦𝑖2 − 𝑏0 ෍ 𝑦𝑖 − 𝑏1 ෍ 𝑥𝑖 𝑦𝑖

Suma de cuadrados del total


σ 𝑦𝑖 2
𝑆𝐶𝑇 = ෍ 𝑦𝑖 − 𝑦ത 2
= ෍ 𝑦𝑖2 −
𝑛
Suma de cuadrados de regresión
𝑆𝐶𝑅 = 𝑆𝐶𝑇 − 𝑆𝐶𝐸

Fuente de Suma de Grados de Cuadrados


variación cuadrados libertad medios F
Regresión SCR 1 CMR=SCR/1 CMR/CME
Residuos SCE n-2 CME=SCE/(n-2)
Total SCT n-1
COEFICIENTE DE CORRELACIÓN
Mide la dirección y la fuerza de relación entre dos variables cuantitativas
2 σ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥ҧ 𝑦ത
2
𝑆𝑥𝑦
𝑟 = =
𝑆𝑥𝑥 𝑆𝑦𝑦 2 2
σ 𝑥𝑖2 − 𝑛𝑥ҧ 2 σ 𝑦𝑖2 − 𝑛𝑦ത 2
−1 ≤ 𝑟 ≤ 1
2
𝑆𝐶𝐸
𝑟 =1−
𝑆𝐶𝑇

COEFICIENTE DE DETERMINACIÓN
Mide la variabilidad explicada por la recta de regresión lineal estimada.
𝑟= 𝑟2

También podría gustarte