Está en la página 1de 31

ESTADISTICA

APLICADA III
CORRELACION Y REGRESION LINEAL SIMPLE

MACHICAO BEJAR NILTON


nmachicao@uni.edu.pe
COEFICIENTE DE CORRELACIÓN LINEAL (PEARSON)
Mide el grado de relación entre dos variables

r=
 xy − nxy −1  r  1
(  x − nx )(  y
2 2 2
− ny 2 )
SCX =  x 2 − nx 2
SPXY SCY =  y 2 − ny 2
r=
SCX SCY SPXY =  xy − nyx

r = -1 Si –1< r < -0.8 → Correlación negativa intensa


Correlación negativa perfecta Si –0.2 < r < 0 → Correlación negativa débil
Si 0 < r < 0.2 → Correlación positiva débil
r= 1
Correlación positiva perfecta Si 0.8 < r < 1 → Correlación positiva intensa
EJEMPLO 1
Se desea saber si el ingreso y el gasto de las familias de cierto
distrito están relacionadas o no. Por lo que se toma una muestra de
10 familias y se registra su ingreso y gasto (en miles de soles). Los
datos son:

Familia 1 2 3 4 5 6 7 8 9 10
Ingreso 3,4 1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
Gasto 3 1,6 5,87 4,6 2 3,67 1,25 4,5 4 2,7

Datos/Observaciones
Datos/Observaciones
SPXY= 142.0293 – 10 (3.662) (3.319)
= 20.48752

SCX= 156.2166 – 10 (3.662)2


= 22.11416

SCY= 129.7483 – 10 (3.319)2


= 19.59069

20.48752
𝑟= = 0.9843
22.11416 19.59069

Datos/Observaciones
⚫ DIAGRAMA DE DISPERSIÓN: GRÁFICA QUE
PRESENTA LA RELACIÓN ENTRE DOS
VARIABLES DE INTERÉS.
Gráfico de dispersión
entre el ingreso y el gasto
7

GASTO (MILES DE SOLES) 6

0
0 1 2 3 4 5 6 7
INGRESO (MILES DE SOLES)

Datos/Observaciones
REGRESIÓN LINEAL SIMPLE
Técnica estadística que nos lleva a encontrar una ecuación que
exprese la relación funcional (lineal-recta) entre dos variables
cuantitativas, donde una de ellas es la variable respuesta
(dependiente Y) y la otra es la variable predictora (independiente X)
con el objetivo de realizar predicción.

El modelo poblacional el cual se pretende estimar es:

yi =  0 + 1 xi + ei
REGRESIÓN LINEAL SIMPLE

yˆ =b 0 +b1 x
La recta se estima como:

SPXY
b1 = ;
SCX El coeficiente de regresión: es el

b0 = y − b1 x cambio (aumento o disminución)


en promedio en Y cuando X varía
en una unidad.
Usando los datos del ejemplo 1

𝑆𝑃𝑋𝑌 20.48752
𝑏1 = = = 0.9264
𝑆𝐶𝑋 22.11416

𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ = 3.319 − 0.9264(3.662)

𝑏0 = −0.0736

𝑦ො = 𝑏0 + 𝑏1 𝑥 = −0.0736 + 0.9264𝑥

Interpretación del coeficiente de regresión:


Si el ingreso de una familia aumenta en mil soles, en promedio el gasto
aumentará en 926.4 soles, ¿Qué significa b0?

Datos/Observaciones
ERROR ESTÁNDAR DE LA ESTIMACIÓN

Se =
 − b0  y − b1  xy
y 2

= CME
n−2

Mide la variabilidad de los puntos alrededor de la línea de


regresión estimada.
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de variación de la variable Y (dependiente)
explicado por X (variable independiente).

0 < R2 < 1

SC Re g
R =
2

SCT
𝑟 2 = 0.9843 2 = 0.9688
→ 𝑟 2 = 96.88%
෡𝑖 = - 0.0736 + 0.9264 𝑋𝑖
𝑌
𝑌෡1 = - 0.0736 + 0.9264 (3.4) = 3.07616
𝑌෡2 = - 0.0736 + 0.9264 (1.9) = 1.68656
𝑌෡3 = - 0.0736 + 0.9264 (6.4) = 5.85536
𝑌෡4 = - 0.0736 + 0.9264 (5.56) = 5.077184
𝑌෡5 = - 0.0736 + 0.9264 (2.5) = 2.2424
𝑌෡6 = - 0.0736 + 0.9264 (3.59) = 3.252176
𝑌෡7 = - 0.0736 + 0.9264 (1.5) = 1.316
𝑌෡8 = - 0.0736 + 0.9264 (4.57) = 4.160048
𝑌෡9 = - 0.0736 + 0.9264 (4.3) = 3.90992
𝑌෢
10 = - 0.0736 + 0.9264 (2.9) = 2.61296
𝑒𝑖 = 𝑌𝑖 − 𝑌෡𝑖
𝑒1 = 3 − 3.07616 = - 0.07616
𝑒2 = 1.6 - 1.68656 = 0.08656
𝑒3 = 5.87 - 5.85536 = 0.01464
𝑒4 = 4.6 - 5.077184 = - 0.477184
𝑒5 = 2 - 2.2424 = - 0.2424
𝑒6 = 3.67 - 3.252176 = 0.417824
𝑒7 = 1.25 - 1.316 = - 0.066
𝑒8 = 4.5 - 4.160048 = 0.339952
𝑒9 = 4 - 3.90992 = 0.09008
𝑒10 = 2.7 - 2.61296 = 0.08704
2
𝑒𝑖
(- 0.07616)2 = 0.0058003456
( 0.08656)2 = 0.0074926336
( 0.01464)2 = 0.0002143296
( - 0.477184)2 = 0.22770456985
( - 0.2424)2 = 0.05875776
( 0.417824)2 = 0.17457689497
( - 0.066)2 = 0.004356
( 0.339952)2 = 0.11556736230
( 0.09008)2 = 0.0081144064
( 0.08704)2 = 0.0075759616
SUMA TOTAL = 0.61016
EJERCICIO ILUSTRATIVO DE ESTIMACIÓN DE
PARÁMETROS EN UN MODELO LINEAL
SIMPLE (MCO) Familia
Gasto alimentación Ingreso Total
(nuevos soles) (nuevos soles)
Se dispone de información de
1 830 2100
los ingresos totales y gastos
2 510 1100
en alimentación de 12 3 420 900
familias 4 560 1600
5 1250 3200
6 840 2300
7 720 1800
8 490 700
9 690 1300
10 850 2400
11 550 1200
12 780 1700

Datos/Observaciones
Familia Yi Xi X i Yi X2 Yˆi ˆi= Yi − Yˆi
1 830 2,100 1,743,000 4,410,000 830.22 -0.22
2 510 1,100 561,000 1,210,000 529.69 -19.69
3 420 900 378,000 810,000 469.58 -49.58
4 560 1,600 896,000 2,560,000 679.95 -119.95

5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20

6 840 2,300 1,932,000 5,290,000 890.32 -50.32


7 720 1,800 1,296,000 3,240,000 740.06 -20.06
8 490 700 343,000 490,000 409.48 80.52
9 690 1,300 897,000 1,690,000 589.79 100.21
10 850 2,400 2,040,000 5,760,000 920.37 -70.37
11 550 1,200 660,000 1,440,000 559.74 -9.74
12 780 1,700 1,326,000 2,890,000 710.00 70.00

Totales 8,490 20,300 16,072,000 40,030,000 8,490 0


Datos/Observaciones
SOLUCIÓN

Como los parámetros a estimar son β1 y β2 se establece las ecuaciones


normales siguientes:

Y reemplazando, se tiene:
En (1)

En (2)
Si se despeja de la primera ecuación el intercepto y se reemplaza dicho
valor en le segunda se obtienen los siguientes estimadores:

Datos/Observaciones
La función de regresión muestral, es decir la regresión de Y con respecto a
X:

Sustituyendo las observaciones muestrales de X en la ecuación anterior se


obtiene la columna 6 de la tabla.

Comparando estos valores con aquellos observados para la variable


dependiente hallamos los errores correspondientes a cada observación de
la muestra. Se verifica que la suma de errores estimados es 0. (Columna
µi)

Datos/Observaciones
Familia 𝒀𝒊 𝑿𝒊 𝑿𝒊 𝒀𝒊 X 2 Yˆi ˆi= Yi − Yˆi 𝒀𝒊 𝟐 Yi − Yˆi 𝟐
1 830 2,100 1,743,000 4,410,000 830.22 -0.22 688900 0.0484
2 510 1,100 561,000 1,210,000 529.69 -19.69 260100 387.6961
3 420 900 378,000 810,000 469.58 -49.58 176400 2458.1764
4 560 1,600 896,000 2,560,000 679.95 -119.95 313600 14388.0025
5 1,250 3,200 4,000,000 10,240,000 1160.8 89.2 1562500 7956.64
6 840 2,300 1,932,000 5,290,000 890.32 -50.32 705600 2532.1024
7 720 1,800 1,296,000 3,240,000 740.06 -20.06 518400 402.4036
8 490 700 343,000 490,000 409.48 80.52 240100 6483.4704
9 690 1,300 897,000 1,690,000 589.79 100.21 476100 10042.0441
10 850 2,400 2,040,000 5,760,000 920.37 -70.37 722500 4951.9369
11 550 1,200 660,000 1,440,000 559.74 -9.74 302500 94.8676
12 780 1,700 1,326,000 2,890,000 710 70 608400 4900
Totales 8,490 20,300 16,072,000 40,030,000 8,490 0 6575100 54597.3884
Datos/Observaciones
EJEMPLO
Número de Ingreso Consumo
familia X Y
1 80 70
2 100 65
3 120 90
4 140 95
5 160 110
6 180 115
7 200 120
8 220 140
9 240 155
10 260 150

Donde :
Y : Consumo
X : Ingreso
Datos/Observaciones
PRUEBA DE SIGNIFICANCIA DEL MODELO O VALIDACIÓN DEL MODELO
Mide el grado de relación entre dos variables
➢ ¿Es el modelo significativo?, ¿El modelo es válido? ¿X influye en Y?
1. Hipótesis: II. Estadístico de Prueba:
H o : 1 = 0 b1 Se
tc = ~ t( n − 2 ) Sb1 =
H1 : 1  0 Sb1 SCX

III. Decisión: No Rechazar Ho: El modelo no es válido.


− t tab  t c  t tab No hay relación lineal entre X e Y.
Rechazar Ho: El modelo es válido.
t c  −t tab ó t tab  t c
Hay relación lineal entre X e Y.
PUEBA DE HIPOTESIS

 𝐻0 : 𝛽1 = 0  𝛼 = 0.05
𝐻1 : 𝛽1 ≠ 0

 𝑏1 𝑆𝑒
𝑡𝑐 = ; 𝑆𝑏1 =
𝑆𝑏1 𝑆𝐶𝑋

𝑆𝐶𝐸
𝑆𝑒 = 𝐶𝑀𝐸 𝐶𝑀𝐸 =
𝑛−2
0.61016
𝐶𝑀𝐸 =
8

𝐶𝑀𝐸 = 0.07627

𝑆𝑒 = 0.07627 = 0.27617
0.27617
𝑆𝑏1 = = 0.05824
22.48752

0.9264
𝑡𝑐 = = 15.91
0.05824


8 g.l.
 Se rechaza H0
ZONA DE
0.025 0.025
ACEPTACIÓN
H0
 Conclusión

-2.3.6 2.306
MINITAB

Datos/Observaciones
PRUEBA DE HIPÓTESIS PARA LA PENDIENTE
Hipótesis:
H 0 : 1 = k H 0 : 1 = k H 0 : 1 = k
H 1 : 1  k H 1 : 1  k H 1 : 1  k
Estadístico de Prueba:
b1 − k
tc = ~ t(n − 2 )
Sb1
Decisión: tc  t n − 2, / 2 ó
tc  t n − 2,1− tc  t n − 2,1−
tc  t n − 2,1− / 2
se rechaza Ho se rechaza Ho
se rechaza Ho

Datos/Observaciones
INTERVALO DE CONFIANZA PARA LA ESTIMACIÓN
MEDIA DE “Y” DADO “X=X0”
El propósito del intervalo de confianza para el valor medio de predicción es
ubicar entre qué valores se encuentra el valor promedio poblacional de Y
respecto a un valor dado de X, considerando un nivel de confianza o
seguridad.
1 (x 0 − x )
2
IC(μ y/x0 ) = (b 0 + b1x 0 )  t 0Se +
n x − n x
2 2

INTERVALO DE PREDICCIÓN PARA “X=X0”

Datos/Observaciones
EJEMPLO 2
Para un 95% de confianza, estime el gasto promedio para un ingreso de
1500 soles.

1 (x 0 − x ) 2
IC(μ y/x0 ) = (b 0 + b1x 0 )  t 0Se +
n x − n x
2 2

Para un 95% de confianza, estime el gasto para un ingreso de 1500


soles.

Datos/Observaciones
Para decidir sobre estas hipótesis se construye la
siguiente tabla de análisis de varianza (Tabla ANOVA)

Suma de Grados Cuadrado


Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)

Debido a la
Regresión SCReg 1 CMReg FC

Debido al
Error SCE n-2 CME

Total SCT n-1

Regla de decisión
Rechace Ho al nivel de significancia α si Fc > F(α, 1,n-2)
De otro modo no rechace Ho
Datos/Observaciones
Donde:

SCT = SCR + SCE 𝑆𝐶𝑅


• 𝐶𝑀𝑅 =
1
𝑛
SCT = σ𝑖=1 𝑌𝑖 − 𝑌ത 2 = SCY
𝑆𝐶𝐸
𝑛 2 • 𝐶𝑀𝐸 = = 𝑆𝑒2
SCR = σ𝑖=1 𝑌෠ − 𝑌ത 𝑛−2

𝐶𝑀𝑅
𝑛 2 • 𝐹𝑐 =
SCE = σ𝑖=1 𝑌𝑖 − 𝑌෠ 𝐶𝑀𝐸

Datos/Observaciones
Tabla ANOVA del ejemplo1

Suma de Grados Cuadrado


Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)

Debido a la
Regresión 18.981 1 18.981 248.87

Debido al
Error 0.61016 8 0.07627

Total 19.591 9

Regla de decisión
Rechace Ho al nivel de significancia α=0.05 si Fc > F(α= 0.05, 1,8)
De otro modo no rechace Ho
Datos/Observaciones

También podría gustarte