Estadistica Aplicada Iii - R.L.S. Uni

ESTADISTICA
APLICADA III
CORRELACION Y REGRESION LINEAL SIMPLE
MACHICAO BEJAR NILTON

nmachicao@uni.edu.pe
COEFICIENTE DE CORRELACIÓN LINEAL (PEARSON)
Mide el grado de relación entre dos variables
r=
 xy − nxy −1  r  1
(  x − nx )(  y
2 2 2
− ny 2 )
SCX =  x 2 − nx 2
SPXY SCY =  y 2 − ny 2
r=
SCX SCY SPXY =  xy − nyx
r = -1 Si –1< r < -0.8 → Correlación negativa intensa

Correlación negativa perfecta Si –0.2 < r < 0 → Correlación negativa débil
Si 0 < r < 0.2 → Correlación positiva débil
r= 1
Correlación positiva perfecta Si 0.8 < r < 1 → Correlación positiva intensa
EJEMPLO 1
Se desea saber si el ingreso y el gasto de las familias de cierto
distrito están relacionadas o no. Por lo que se toma una muestra de
10 familias y se registra su ingreso y gasto (en miles de soles). Los
datos son:
Familia 1 2 3 4 5 6 7 8 9 10
Ingreso 3,4 1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
Gasto 3 1,6 5,87 4,6 2 3,67 1,25 4,5 4 2,7
Datos/Observaciones
Datos/Observaciones
SPXY= 142.0293 – 10 (3.662) (3.319)
= 20.48752
SCX= 156.2166 – 10 (3.662)2

= 22.11416
SCY= 129.7483 – 10 (3.319)2

= 19.59069
20.48752
𝑟= = 0.9843
22.11416 19.59069
Datos/Observaciones
⚫ DIAGRAMA DE DISPERSIÓN: GRÁFICA QUE
PRESENTA LA RELACIÓN ENTRE DOS
VARIABLES DE INTERÉS.
Gráfico de dispersión
entre el ingreso y el gasto
7
GASTO (MILES DE SOLES) 6
0
0 1 2 3 4 5 6 7
INGRESO (MILES DE SOLES)
Datos/Observaciones
REGRESIÓN LINEAL SIMPLE
Técnica estadística que nos lleva a encontrar una ecuación que
exprese la relación funcional (lineal-recta) entre dos variables
cuantitativas, donde una de ellas es la variable respuesta
(dependiente Y) y la otra es la variable predictora (independiente X)
con el objetivo de realizar predicción.
El modelo poblacional el cual se pretende estimar es:
yi =  0 + 1 xi + ei
REGRESIÓN LINEAL SIMPLE
yˆ =b 0 +b1 x
La recta se estima como:
SPXY
b1 = ;
SCX El coeficiente de regresión: es el
b0 = y − b1 x cambio (aumento o disminución)

en promedio en Y cuando X varía
en una unidad.
Usando los datos del ejemplo 1
𝑆𝑃𝑋𝑌 20.48752
𝑏1 = = = 0.9264
𝑆𝐶𝑋 22.11416
𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ = 3.319 − 0.9264(3.662)
𝑏0 = −0.0736
𝑦ො = 𝑏0 + 𝑏1 𝑥 = −0.0736 + 0.9264𝑥
Interpretación del coeficiente de regresión:

Si el ingreso de una familia aumenta en mil soles, en promedio el gasto
aumentará en 926.4 soles, ¿Qué significa b0?
Datos/Observaciones
ERROR ESTÁNDAR DE LA ESTIMACIÓN
Se =
 − b0  y − b1  xy
y 2
= CME
n−2
Mide la variabilidad de los puntos alrededor de la línea de

regresión estimada.
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de variación de la variable Y (dependiente)
explicado por X (variable independiente).
0 < R2 < 1
SC Re g
R =
2
SCT
𝑟 2 = 0.9843 2 = 0.9688
→ 𝑟 2 = 96.88%
෡𝑖 = - 0.0736 + 0.9264 𝑋𝑖
𝑌
𝑌෡1 = - 0.0736 + 0.9264 (3.4) = 3.07616
𝑌෡2 = - 0.0736 + 0.9264 (1.9) = 1.68656
𝑌෡3 = - 0.0736 + 0.9264 (6.4) = 5.85536
𝑌෡4 = - 0.0736 + 0.9264 (5.56) = 5.077184
𝑌෡5 = - 0.0736 + 0.9264 (2.5) = 2.2424
𝑌෡6 = - 0.0736 + 0.9264 (3.59) = 3.252176
𝑌෡7 = - 0.0736 + 0.9264 (1.5) = 1.316
𝑌෡8 = - 0.0736 + 0.9264 (4.57) = 4.160048
𝑌෡9 = - 0.0736 + 0.9264 (4.3) = 3.90992
𝑌෢
10 = - 0.0736 + 0.9264 (2.9) = 2.61296
𝑒𝑖 = 𝑌𝑖 − 𝑌෡𝑖
𝑒1 = 3 − 3.07616 = - 0.07616
𝑒2 = 1.6 - 1.68656 = 0.08656
𝑒3 = 5.87 - 5.85536 = 0.01464
𝑒4 = 4.6 - 5.077184 = - 0.477184
𝑒5 = 2 - 2.2424 = - 0.2424
𝑒6 = 3.67 - 3.252176 = 0.417824
𝑒7 = 1.25 - 1.316 = - 0.066
𝑒8 = 4.5 - 4.160048 = 0.339952
𝑒9 = 4 - 3.90992 = 0.09008
𝑒10 = 2.7 - 2.61296 = 0.08704
2
𝑒𝑖
(- 0.07616)2 = 0.0058003456
( 0.08656)2 = 0.0074926336
( 0.01464)2 = 0.0002143296
( - 0.477184)2 = 0.22770456985
( - 0.2424)2 = 0.05875776
( 0.417824)2 = 0.17457689497
( - 0.066)2 = 0.004356
( 0.339952)2 = 0.11556736230
( 0.09008)2 = 0.0081144064
( 0.08704)2 = 0.0075759616
SUMA TOTAL = 0.61016
EJERCICIO ILUSTRATIVO DE ESTIMACIÓN DE
PARÁMETROS EN UN MODELO LINEAL
SIMPLE (MCO) Familia
Gasto alimentación Ingreso Total
(nuevos soles) (nuevos soles)
Se dispone de información de
1 830 2100
los ingresos totales y gastos
2 510 1100
en alimentación de 12 3 420 900
familias 4 560 1600
5 1250 3200
6 840 2300
7 720 1800
8 490 700
9 690 1300
10 850 2400
11 550 1200
12 780 1700
Datos/Observaciones
Familia Yi Xi X i Yi X2 Yî î= Yi − Yî
1 830 2,100 1,743,000 4,410,000 830.22 -0.22
2 510 1,100 561,000 1,210,000 529.69 -19.69
3 420 900 378,000 810,000 469.58 -49.58
4 560 1,600 896,000 2,560,000 679.95 -119.95
5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20
6 840 2,300 1,932,000 5,290,000 890.32 -50.32

7 720 1,800 1,296,000 3,240,000 740.06 -20.06
8 490 700 343,000 490,000 409.48 80.52
9 690 1,300 897,000 1,690,000 589.79 100.21
10 850 2,400 2,040,000 5,760,000 920.37 -70.37
11 550 1,200 660,000 1,440,000 559.74 -9.74
12 780 1,700 1,326,000 2,890,000 710.00 70.00
Totales 8,490 20,300 16,072,000 40,030,000 8,490 0

Datos/Observaciones
SOLUCIÓN
Como los parámetros a estimar son β1 y β2 se establece las ecuaciones

normales siguientes:
Y reemplazando, se tiene:
En (1)
En (2)
Si se despeja de la primera ecuación el intercepto y se reemplaza dicho
valor en le segunda se obtienen los siguientes estimadores:
Datos/Observaciones
La función de regresión muestral, es decir la regresión de Y con respecto a
X:
Sustituyendo las observaciones muestrales de X en la ecuación anterior se

obtiene la columna 6 de la tabla.
Comparando estos valores con aquellos observados para la variable

dependiente hallamos los errores correspondientes a cada observación de
la muestra. Se verifica que la suma de errores estimados es 0. (Columna
µi)
Datos/Observaciones
Familia 𝒀𝒊 𝑿𝒊 𝑿𝒊 𝒀𝒊 X 2 Yî î= Yi − Yî 𝒀𝒊 𝟐 Yi − Yî 𝟐
1 830 2,100 1,743,000 4,410,000 830.22 -0.22 688900 0.0484
2 510 1,100 561,000 1,210,000 529.69 -19.69 260100 387.6961
3 420 900 378,000 810,000 469.58 -49.58 176400 2458.1764
4 560 1,600 896,000 2,560,000 679.95 -119.95 313600 14388.0025
5 1,250 3,200 4,000,000 10,240,000 1160.8 89.2 1562500 7956.64
6 840 2,300 1,932,000 5,290,000 890.32 -50.32 705600 2532.1024
7 720 1,800 1,296,000 3,240,000 740.06 -20.06 518400 402.4036
8 490 700 343,000 490,000 409.48 80.52 240100 6483.4704
9 690 1,300 897,000 1,690,000 589.79 100.21 476100 10042.0441
10 850 2,400 2,040,000 5,760,000 920.37 -70.37 722500 4951.9369
11 550 1,200 660,000 1,440,000 559.74 -9.74 302500 94.8676
12 780 1,700 1,326,000 2,890,000 710 70 608400 4900
Totales 8,490 20,300 16,072,000 40,030,000 8,490 0 6575100 54597.3884
Datos/Observaciones
EJEMPLO
Número de Ingreso Consumo
familia X Y
1 80 70
2 100 65
3 120 90
4 140 95
5 160 110
6 180 115
7 200 120
8 220 140
9 240 155
10 260 150
Donde :
Y : Consumo
X : Ingreso
Datos/Observaciones
PRUEBA DE SIGNIFICANCIA DEL MODELO O VALIDACIÓN DEL MODELO
Mide el grado de relación entre dos variables
➢ ¿Es el modelo significativo?, ¿El modelo es válido? ¿X influye en Y?
1. Hipótesis: II. Estadístico de Prueba:
H o : 1 = 0 b1 Se
tc = ~ t( n − 2 ) Sb1 =
H1 : 1  0 Sb1 SCX
III. Decisión: No Rechazar Ho: El modelo no es válido.

− t tab  t c  t tab No hay relación lineal entre X e Y.
Rechazar Ho: El modelo es válido.
t c  −t tab ó t tab  t c
Hay relación lineal entre X e Y.
PUEBA DE HIPOTESIS
 𝐻0 : 𝛽1 = 0  𝛼 = 0.05
𝐻1 : 𝛽1 ≠ 0
 𝑏1 𝑆𝑒
𝑡𝑐 = ; 𝑆𝑏1 =
𝑆𝑏1 𝑆𝐶𝑋
𝑆𝐶𝐸
𝑆𝑒 = 𝐶𝑀𝐸 𝐶𝑀𝐸 =
𝑛−2
0.61016
𝐶𝑀𝐸 =
8
𝐶𝑀𝐸 = 0.07627
𝑆𝑒 = 0.07627 = 0.27617
0.27617
𝑆𝑏1 = = 0.05824
22.48752
0.9264
𝑡𝑐 = = 15.91
0.05824

8 g.l.
 Se rechaza H0
ZONA DE
0.025 0.025
ACEPTACIÓN
H0
 Conclusión
-2.3.6 2.306
MINITAB
Datos/Observaciones
PRUEBA DE HIPÓTESIS PARA LA PENDIENTE
Hipótesis:
H 0 : 1 = k H 0 : 1 = k H 0 : 1 = k
H 1 : 1  k H 1 : 1  k H 1 : 1  k
Estadístico de Prueba:
b1 − k
tc = ~ t(n − 2 )
Sb1
Decisión: tc  t n − 2, / 2 ó
tc  t n − 2,1− tc  t n − 2,1−
tc  t n − 2,1− / 2
se rechaza Ho se rechaza Ho
se rechaza Ho
Datos/Observaciones
INTERVALO DE CONFIANZA PARA LA ESTIMACIÓN
MEDIA DE “Y” DADO “X=X0”
El propósito del intervalo de confianza para el valor medio de predicción es
ubicar entre qué valores se encuentra el valor promedio poblacional de Y
respecto a un valor dado de X, considerando un nivel de confianza o
seguridad.
1 (x 0 − x )
2
IC(μ y/x0 ) = (b 0 + b1x 0 )  t 0Se +
n x − n x
2 2
INTERVALO DE PREDICCIÓN PARA “X=X0”
Datos/Observaciones
EJEMPLO 2
Para un 95% de confianza, estime el gasto promedio para un ingreso de
1500 soles.
1 (x 0 − x ) 2
IC(μ y/x0 ) = (b 0 + b1x 0 )  t 0Se +
n x − n x
2 2
Para un 95% de confianza, estime el gasto para un ingreso de 1500

soles.
Datos/Observaciones
Para decidir sobre estas hipótesis se construye la
siguiente tabla de análisis de varianza (Tabla ANOVA)
Suma de Grados Cuadrado

Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)
Debido a la
Regresión SCReg 1 CMReg FC
Debido al
Error SCE n-2 CME
Total SCT n-1
Regla de decisión
Rechace Ho al nivel de significancia α si Fc > F(α, 1,n-2)
De otro modo no rechace Ho
Datos/Observaciones
Donde:
SCT = SCR + SCE 𝑆𝐶𝑅

• 𝐶𝑀𝑅 =
1
𝑛
SCT = σ𝑖=1 𝑌𝑖 − 𝑌ത 2 = SCY
𝑆𝐶𝐸
𝑛 2 • 𝐶𝑀𝐸 = = 𝑆𝑒2
SCR = σ𝑖=1 𝑌෠ − 𝑌ത 𝑛−2
𝐶𝑀𝑅
𝑛 2 • 𝐹𝑐 =
SCE = σ𝑖=1 𝑌𝑖 − 𝑌෠ 𝐶𝑀𝐸
Datos/Observaciones
Tabla ANOVA del ejemplo1
Suma de Grados Cuadrado

Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)
Debido a la
Regresión 18.981 1 18.981 248.87
Debido al
Error 0.61016 8 0.07627
Total 19.591 9
Regla de decisión
Rechace Ho al nivel de significancia α=0.05 si Fc > F(α= 0.05, 1,8)
De otro modo no rechace Ho
Datos/Observaciones

Estadistica Aplicada Iii - R.L.S. Uni

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadistica Aplicada Iii - R.L.S. Uni

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA

MACHICAO BEJAR NILTON

r = -1 Si –1< r < -0.8 → Correlación negativa intensa

SCX= 156.2166 – 10 (3.662)2

SCY= 129.7483 – 10 (3.319)2

GASTO (MILES DE SOLES) 6

El modelo poblacional el cual se pretende estimar es:

b0 = y − b1 x cambio (aumento o disminución)

Interpretación del coeficiente de regresión:

Mide la variabilidad de los puntos alrededor de la línea de

5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20

6 840 2,300 1,932,000 5,290,000 890.32 -50.32

Totales 8,490 20,300 16,072,000 40,030,000 8,490 0

Como los parámetros a estimar son β1 y β2 se establece las ecuaciones

Sustituyendo las observaciones muestrales de X en la ecuación anterior se

Comparando estos valores con aquellos observados para la variable

III. Decisión: No Rechazar Ho: El modelo no es válido.

INTERVALO DE PREDICCIÓN PARA “X=X0”

Para un 95% de confianza, estime el gasto para un ingreso de 1500

Suma de Grados Cuadrado

Total SCT n-1

SCT = SCR + SCE 𝑆𝐶𝑅

Suma de Grados Cuadrado

También podría gustarte