Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadística Inferencial Aplicada
Estadística Inferencial Aplicada
ASIGNATURA: ESTADÍSTICA II
TAREA:
“TAREA SOBRE REGRESIÓN Y CORRELACIÓN”.
PRESENTADO POR:
AMAYA AMAYA, LUIS MIGUEL.
ARGUETA AYALA, SILVIA ELIZABETH.
BENAVIDES CASTRO, JACQUELINNE VANESSA.
HERNÁNDEZ GARAY, SAÚL ANTONIO.
MARTÍNEZ GUTIÉRREZ, JOSÉ RIGOBERTO.
Contenido Pág.
1. ANÁLISIS DE REGRESIÓN
a. Desarrollo del modelo: Mínimos Cuadrados Ordinarios
Procedimiento.
suma de los cuadrados de las distancias verticales entre los valores de los datos y los
de la regresión estimada, es decir, minimizar la suma de los residuos al cuadrado,
teniendo como residuo la diferencia entre los datos observados y los valores del
modelo (línea).
la recta y=ax + b que pasa lo más cerca posible de los puntos experimentales (de
forma que éstos estén repartidos uniformemente alrededor de la recta).
El método del ajuste por mínimos cuadrados o regresión lineal permite obtener la
variables cualesquiera.
1
denomina VARIABLE EXPLICATIVA o REGRESOR y se le utiliza para explicar la variable
dependiente.
Y=a + bx +E
Dónde:
igual a cero.
cero.
• La línea de regresión de MCO siempre cruzará la media de la muestra, ie, la
media de x y la media de y.
2
1. El modelo es lineal en los parámetros (los betas).
2. Las variables explicativas toma valores fijos en muestreo repetitivo.
3. Los términos de error son independientes. La esperanza del error es nula es de decir, no
hay auto correlaciones en los errores, es decir que la esperanza de las covarianzas entre
los errores es nula para todo.
4. Homocedasticidad: que significa que la varianza de los errores es constante.
Var(u) =σ2Inxn
5. El modelo está correctamente especificado.
6. No hay relación lineal perfecta entre las variables explicativas.
7. El número de observaciones es mayor que los parámetros estimados.
8. Los errores “e” siguen distribución normal. (0, σ). Es decir, media cero y varianza
constante.
9. Las Variables explicativas “X” son exógenas.
10. Variabilidad de los errores en la regresión lineal:
• Variabilidad total: Sumatoria de los cuadrados totales.
• Variabilidad explicada: Sumatoria de los cuadrados de errores
• Variabilidad no explicada: Sumatoria de los cuadrados de la regresión
El error estándar es una medida que indica qué tan preciso es el pronóstico de y con
𝑆𝑒 = √𝐶𝑀𝐸
Donde:
𝑆𝐶𝐸
𝐶𝑀𝐸 =
𝑛−2
(𝑆𝐶𝑥𝑦)2
𝑆𝐶𝐸 = 𝑆𝐶𝑦 −
𝑆𝐶𝑥
3
d. Pruebas Inferenciales
i) Prueba de hipótesis
Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar
una afirmación acerca de una población dependiendo de la evidencia proporcionada
Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
de la muestra.
diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al diseñar
una prueba de hipótesis, establecemos la hipótesis nula como lo que queremos
desaprobar. Puesto que establecemos el nivel de significancia para que sea pequeño
antes del análisis (por lo general, un valor de 0.05 funciona adecuadamente), cuando
fuera pequeña.
4
ii) Intervalos de confianza
Margen de error
Cuando usted utiliza estadísticos para estimar un valor, es importante recordar que,
sin importar lo bien que esté diseñado su estudio, su estimación está sujeta a error
relacionado con los resultados de las encuestas. Por ejemplo, una encuesta política
podría indicar que el nivel de popularidad de un candidato es de 55% con un margen
de error de 5%. Esto significa que el nivel de popularidad real es +/- 5% y, por lo
tanto, se ubica entre 50% y 60%.
1.
Mientras mayor sea el margen de error, más ancho será el intervalo y menos seguro
podrá estar usted del valor de la estimación de punto.
5
2. ANÁLISIS DE CORRELACIÓN
a) Coeficiente de correlación:
Si entre dos variables cuantitativas existe una relación lineal, el análisis de correlación
lineal simple se usa para determinar la dirección y la magnitud de dicha relación. La
correlación, que brinda una medida cuantitativa de la fuerza de la relación entre dos
variables.
4. Un valor cercano a 0 indica que hay poca asociación entre las variables.
5. Un valor cercano a 1 indica una asociación directa o positiva entre las variables.
6. Un valor cercano a 1 indica una asociación inversa o negativa entre las variables.
b) Coeficiente de determinación
7
de Regresión para obtener predicciones buenas (en el sentido de que sean lo menos
erróneas posible).
este:
Gran parte del trabajo realizado para probar las inferencias sobre el coeficiente de
cero y que una muestra engañosa hizo que se asumiera equivocadamente una
relación. Por consiguiente se debe probar la hipotesis.
Ho: p=0
Ha: p ≠ 0
8
𝑟−𝑝
𝑡=
𝑆𝑟
1−𝑟ˆ2
𝑆𝑟 = √
𝑛−2
Consumidor 1 2 3 4 5 6 7 8 9 10 11 12
Ingreso 24.3 12.5 31.2 28.0 35.1 10.5 23.2 10.0 8.5 15.9 14.7 15
Consumo 16.2 8.5 15 17 24.2 11.2 15 7.1 3.5 11.5 10.7 9.2
9
a) Haga un diagrama de dispersión para los datos.
Diagrama de Dispersión
30
25
Consumo (Y)
20
15
10
0
0 5 10 15 20 25 30 35 40
Ingreso (X)
̿ = 𝟏𝟗. 𝟎𝟕𝟓
𝐗
̿ = 𝟏𝟐. 𝟒𝟐𝟓
𝐘
(∑ 𝑋)2
𝑆𝐶𝑥 = ∑ 𝑋 2 −
𝑛
(288.9)2
𝑆𝐶𝑥 = 5250.83 −
12
𝑺𝑪𝒙 = 𝟖𝟖𝟒. 𝟓𝟔𝟐𝟓
(∑ 𝑌)2
𝑆𝐶𝑦 = ∑ 𝑌 2 −
𝑛
(149.1)2
𝑆𝐶𝑦 = 2178.81 −
12
𝑺𝑪𝒚 = 𝟑𝟐𝟔. 𝟐𝟒𝟐𝟓
(∑ 𝑋)(∑ 𝑌)
𝑆𝐶𝑥𝑦 = ∑ 𝑋𝑌 −
𝑛
10
(228.9)(149.1)
𝑆𝐶𝑥𝑦 = 3337.82 −
12
𝑺𝑪𝒙𝒚 = 𝟒𝟗𝟑. 𝟕𝟑𝟕𝟓
𝑏0 = 12.425 − (0.558171412)19.075
𝒃𝟎 = 𝟏. 𝟕𝟕𝟕𝟖𝟖𝟎𝟑𝟏𝟔
Lo que significa la proporción por cada dólar de ingreso que tenga. El coeficiente de
regresión significa que, por cada incremento de una unidad en X, Y aumentara en
$0.558171412.
Y = 𝑏0 + 𝑏1 𝑥
̂ = 1.777880316 + 0.558171412X
Y
̂ = 1.777880316 + 0.558171412(27,500)
Y
11
d) ¿Cuál es el error estándar de estimación para el departamento de Recursos
Humanos de Florida State? ¿Cómo interpretaría los resultados? Utilice una
gráfica.
Para calcular el error estándar de estimación primero tenemos que conocer la suma de
cuadrados de error.
(𝑆𝐶𝑥𝑦)2
𝑆𝐶𝐸 = 𝑆𝐶𝑦 −
𝑆𝐶𝑥
(493.7375)2
𝑆𝐶𝐸 = 326.2425 −
884,5625
243776.7189
𝑆𝐶𝐸 = 326.2425 −
884.5625
𝑆𝐶𝐸 = 326.2425 − 275.5901577
𝑺𝑪𝑬 = 𝟓𝟎. 𝟔𝟓𝟐𝟑𝟒𝟐𝟐𝟔
𝑆𝑒 = √𝐶𝑀𝐸
𝑆𝑒 = √5.065234226
Por lo que entre más dispersos estén los datos más grandes será el valor del error estándar
de estimación, en este caso vemos que los datos no están en la misma recta por lo que
asumimos que hay una dispersión y es por eso nuestro valor del error estándar que se aleja
de cero.
12
Consumo(Y) Linear (Consumo(Y)) Ƴ= 1.777880316+0558171412X
30
25
20
CONSUMO (Y)
15
10
0
0 5 10 15 20 25 30 35 40
INGRESO (X)
𝑆𝐶𝑥𝑦
𝑟=
√(𝑆𝐶𝑥)(𝑆𝐶𝑦)
493.7375
𝑟=
√(884.5625)(326.2425)
𝑟 = 0.919097497
Al obtener un coeficiente positivo y que este cerca de decimos que existe una
correlación.
𝑟˄2 = (0.919097497)˄2
r˄2 =0.844740209
13
f) ¿La relación entre el ingreso y el consumo es significativa? Pruebe la
hipótesis a un nivel de significancia del 1%. Asegúrese de mostrar los
diferentes pasos. Compárela con su prueba para .
Para β1
𝐻0 : β = 0
𝐻𝐴 : β ≠ 0
𝑏−𝛽
𝑡=
𝑆𝑏
0.5581 − 0
𝑡=
0.075672019
𝒕 = 𝟕. 𝟑𝟕𝟓𝟐𝟒𝟗𝟐𝟑𝟐
𝑆𝑒
𝑆𝑏 =
√𝑆𝐶𝑥
2.250607524
𝑆𝑏 =
√884.5625
𝑺𝒃 = 𝟎. 𝟎𝟕𝟓𝟔𝟕𝟐𝟎𝟓
Regla de decisión:
No rechazar Ho si −3.169 ≤ 𝑡 ≤ 3.169
14
Para P
𝐻0 : = 0
𝐻𝐴 : ≠ 0
𝑟−𝑝
𝑡=
𝑆𝑟
0.919097497 − 0
𝑡=
0.124603286
𝒕 = 𝟕. 𝟑𝟕𝟔𝟏𝟖𝟗𝟖𝟕𝟖
1 − 0.844740209
𝑆𝑟 = √
12 − 2
0.155259791
𝑆𝑟 = √
10
𝑆𝑟 = √0.015525979
𝑺𝒓 = 𝟎. 𝟏𝟐𝟒𝟔𝟎𝟑𝟐𝟖𝟔
Regla de decisión:
No rechazar Ho si −3.169 ≤ 𝑡 ≤ 3.169
1 (𝑋𝑖 − 𝑋̅)2
𝑆𝑦 = 𝑆𝑒√ +
𝑛 𝑆𝐶𝑥
𝑋𝑖 = 14,500/1000
𝑋𝑖 = 14.50
15
1 (14.5 − 19.075)2
𝑆𝑦 = 2.250607524√ +
12 884.5265
1 (−4.575)2
𝑆𝑦 = 2.250607524√ +
12 884.5265
1 20.930625
𝑆𝑦 = 2.250607524√ +
12 884.5265
1
𝑆𝑦 = 2.250607524√ + 0.023663084
12
𝑆𝑦 = 2.250607524√0.106996417
𝑆𝑦 = 2.250607524(0.327103067)
𝑺𝒚 = 𝟎. 𝟕𝟑𝟔𝟏𝟖𝟎𝟔𝟐𝟑
̂ = 1.777880316 + 0.558171412X
b) Y
̂ = 1.777880316 + 0.558171412(14.5)
Y
̂ = 𝟗. 𝟖𝟕𝟏𝟑𝟔𝟓𝟕𝟗
𝐘
𝐼. 𝐶 𝑝𝑎𝑟𝑎 𝑌𝑥 = 𝑌⏞1 ± 𝑡. 𝑆𝑦
El economista del Depto. De RR. HH. Puede estar un 99% seguro de que la media del
consumo de muchas personas con ingresos de $14,500 estaría entre $7,538 y $12,204.
16