Está en la página 1de 32

ESTADÍSTICA INFERENCIAL

PARA PSICOLOGIA
ANALISIS DE CORRELACION Y REGRESION LINEAL SIMPLE

MACHICAO BEJAR NILTON


Temario

1. Análisis de Correlación.
2. Análisis de Regresión Lineal Simple.
Logro

Al finalizar la sesión, el estudiante aplica los conocimientos


aprendidos en el análisis de Correlación y Regresión Lineal
Simple.
COEFICIENTE DE CORRELACIÓN LINEAL (PEARSON)
Mide el grado de relación entre dos variables

r
 xy  nxy 1  r  1
  x  nx   y
2 2 2
 ny 2

SCX   x 2  nx 2
SPXY SCY   y 2  ny 2
r
SCX SCY SPXY   xy  nyx

r = -1 Si –1< r < -0.8  Correlación negativa intensa


Correlación negativa perfecta Si –0.2 < r < 0  Correlación negativa débil
Si 0 < r < 0.2  Correlación positiva débil
r= 1
Correlación positiva perfecta Si 0.8 < r < 1  Correlación positiva intensa
EJEMPLO 1
Se desea saber si el ingreso y el gasto de las familias de cierto
distrito están relacionadas o no. Por lo que se toma una muestra de
10 familias y se registra su ingreso y gasto (en miles de soles). Los
datos son:

Familia 1 2 3 4 5 6 7 8 9 10
Ingreso 3,4 1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
Gasto 3 1,6 5,87 4,6 2 3,67 1,25 4,5 4 2,7

Datos/Observaciones
Datos/Observaciones
SPXY= 142.0293 – 10 (3.662) (3.319)
= 20.48752

SCX= 156.2166 – 10 (3.662)2


= 22.11416

SCY= 129.7483 – 10 (3.319)2


= 19.59069

20.48752
𝑟= = 0.9843
22.11416 19.59069

Datos/Observaciones
 DIAGRAMA DE DISPERSIÓN: GRÁFICA QUE
PRESENTA LA RELACIÓN ENTRE DOS
VARIABLES DE INTERÉS.
Gráfico de dispersión
entre el ingreso y el gasto
7

GASTO (MILES DE SOLES) 6

0
0 1 2 3 4 5 6 7
INGRESO (MILES DE SOLES)

Datos/Observaciones
REGRESIÓN LINEAL SIMPLE
Técnica estadística que nos lleva a encontrar una ecuación que
exprese la relación funcional (lineal-recta) entre dos variables
cuantitativas, donde una de ellas es la variable respuesta
(dependiente Y) y la otra es la variable predictora (independiente X)
con el objetivo de realizar predicción.

El modelo poblacional el cual se pretende estimar es:

yi  0  1 xi  ei
REGRESIÓN LINEAL SIMPLE

yˆ b 0 b1 x
La recta se estima como:

SPXY
b1  ;
SCX El coeficiente de regresión: es el

b0  y  b1 x cambio (aumento o disminución)


en promedio en Y cuando X varía
en una unidad.
Usando los datos del ejemplo 1

𝑆𝑃𝑋𝑌 20.48752
𝑏1 = = = 0.9264
𝑆𝐶𝑋 22.11416

𝑏0 = 𝑦ത − 𝑏1 𝑥ҧ = 3.319 − 0.9264(3.662)

𝑏0 = −0.0736

𝑦ො = 𝑏0 + 𝑏1 𝑥 = −0.0736 + 0.9264𝑥

Interpretación del coeficiente de regresión:


Si el ingreso de una familia aumenta en mil soles, en promedio el gasto
aumentará en 926.4 soles, ¿Qué significa b0?

Datos/Observaciones
ERROR ESTÁNDAR DE LA ESTIMACIÓN

Se 
  b0  y  b1  xy
y 2

 CME
n2

Mide la variabilidad de los puntos alrededor de la línea de


regresión estimada.
COEFICIENTE DE DETERMINACIÓN
Mide el porcentaje de variación de la variable Y (dependiente)
explicado por X (variable independiente).

0 < R2 < 1

SC Re g
R 
2

SCT
𝑟 2 = 0.9843 2 = 0.9688
→ 𝑟 2 = 96.88%
෡𝑖 = - 0.0736 + 0.9264 𝑋𝑖
𝑌
𝑌෡1 = - 0.0736 + 0.9264 (3.4) = 3.07616
𝑌෡2 = - 0.0736 + 0.9264 (1.9) = 1.68656
𝑌෡3 = - 0.0736 + 0.9264 (6.4) = 5.85536
𝑌෡4 = - 0.0736 + 0.9264 (5.56) = 5.077184
𝑌෡5 = - 0.0736 + 0.9264 (2.5) = 2.2424
𝑌෡6 = - 0.0736 + 0.9264 (3.59) = 3.252176
𝑌෡7 = - 0.0736 + 0.9264 (1.5) = 1.316
𝑌෡8 = - 0.0736 + 0.9264 (4.57) = 4.160048
𝑌෡9 = - 0.0736 + 0.9264 (4.3) = 3.90992
𝑌෢
10 = - 0.0736 + 0.9264 (2.9) = 2.61296
𝑒𝑖 = 𝑌𝑖 − 𝑌෡𝑖
𝑒1 = 3 − 3.07616 = - 0.07616
𝑒2 = 1.6 - 1.68656 = 0.08656
𝑒3 = 5.87 - 5.85536 = 0.01464
𝑒4 = 4.6 - 5.077184 = - 0.477184
𝑒5 = 2 - 2.2424 = - 0.2424
𝑒6 = 3.67 - 3.252176 = 0.417824
𝑒7 = 1.25 - 1.316 = - 0.066
𝑒8 = 4.5 - 4.160048 = 0.339952
𝑒9 = 4 - 3.90992 = 0.09008
𝑒10 = 2.7 - 2.61296 = 0.08704
2
𝑒𝑖
(- 0.07616)2 = 0.0058003456
( 0.08656)2 = 0.0074926336
( 0.01464)2 = 0.0002143296
( - 0.477184)2 = 0.22770456985
( - 0.2424)2 = 0.05875776
( 0.417824)2 = 0.17457689497
( - 0.066)2 = 0.004356
( 0.339952)2 = 0.11556736230
( 0.09008)2 = 0.0081144064
( 0.08704)2 = 0.0075759616
SUMA TOTAL = 0.61016
EJERCICIO ILUSTRATIVO DE ESTIMACIÓN DE
PARÁMETROS EN UN MODELO LINEAL
SIMPLE (MCO) Familia
Gasto alimentación Ingreso Total
(nuevos soles) (nuevos soles)
Se dispone de información de
1 830 2100
los ingresos totales y gastos
2 510 1100
en alimentación de 12 3 420 900
familias 4 560 1600
5 1250 3200
6 840 2300
7 720 1800
8 490 700
9 690 1300
10 850 2400
11 550 1200
12 780 1700

Datos/Observaciones
Familia Yi Xi X i Yi X2 Yˆi ˆi Yi  Yˆi
1 830 2,100 1,743,000 4,410,000 830.22 -0.22
2 510 1,100 561,000 1,210,000 529.69 -19.69
3 420 900 378,000 810,000 469.58 -49.58
4 560 1,600 896,000 2,560,000 679.95 -119.95

5 1,250 3,200 4,000,000 10,240,000 1160.80 89.20

6 840 2,300 1,932,000 5,290,000 890.32 -50.32


7 720 1,800 1,296,000 3,240,000 740.06 -20.06
8 490 700 343,000 490,000 409.48 80.52
9 690 1,300 897,000 1,690,000 589.79 100.21
10 850 2,400 2,040,000 5,760,000 920.37 -70.37
11 550 1,200 660,000 1,440,000 559.74 -9.74
12 780 1,700 1,326,000 2,890,000 710.00 70.00

Totales 8,490 20,300 16,072,000 40,030,000 8,490 0


Datos/Observaciones
SOLUCIÓN

Como los parámetros a estimar son β1 y β2 se establece las ecuaciones


normales siguientes:

Y reemplazando, se tiene:
En (1)

En (2)
Si se despeja de la primera ecuación el intercepto y se reemplaza dicho
valor en le segunda se obtienen los siguientes estimadores:

Datos/Observaciones
La función de regresión muestral, es decir la regresión de Y con respecto a
X:

Sustituyendo las observaciones muestrales de X en la ecuación anterior se


obtiene la columna 6 de la tabla.

Comparando estos valores con aquellos observados para la variable


dependiente hallamos los errores correspondientes a cada observación de
la muestra. Se verifica que la suma de errores estimados es 0. (Columna
µi)

Datos/Observaciones
Familia 𝒀𝒊 𝑿𝒊 𝑿𝒊 𝒀𝒊 X 2 Yˆi ˆi Yi  Yˆi 𝒀𝒊 𝟐 Yi  Yˆi 𝟐
1 830 2,100 1,743,000 4,410,000 830.22 -0.22 688900 0.0484
2 510 1,100 561,000 1,210,000 529.69 -19.69 260100 387.6961
3 420 900 378,000 810,000 469.58 -49.58 176400 2458.1764
4 560 1,600 896,000 2,560,000 679.95 -119.95 313600 14388.0025
5 1,250 3,200 4,000,000 10,240,000 1160.8 89.2 1562500 7956.64
6 840 2,300 1,932,000 5,290,000 890.32 -50.32 705600 2532.1024
7 720 1,800 1,296,000 3,240,000 740.06 -20.06 518400 402.4036
8 490 700 343,000 490,000 409.48 80.52 240100 6483.4704
9 690 1,300 897,000 1,690,000 589.79 100.21 476100 10042.0441
10 850 2,400 2,040,000 5,760,000 920.37 -70.37 722500 4951.9369
11 550 1,200 660,000 1,440,000 559.74 -9.74 302500 94.8676
12 780 1,700 1,326,000 2,890,000 710 70 608400 4900
Totales 8,490 20,300 16,072,000 40,030,000 8,490 0 6575100 54597.3884
Datos/Observaciones
EJEMPLO
Número de Ingreso Consumo
familia X Y
1 80 70
2 100 65
3 120 90
4 140 95
5 160 110
6 180 115
7 200 120
8 220 140
9 240 155
10 260 150

Donde :
Y : Consumo
X : Ingreso
Datos/Observaciones
PRUEBA DE SIGNIFICANCIA DEL MODELO O VALIDACIÓN DEL MODELO
Mide el grado de relación entre dos variables
 ¿Es el modelo significativo?, ¿El modelo es válido? ¿X influye en Y?
1. Hipótesis: II. Estadístico de Prueba:
H o : 1  0 b1 Se
tc  ~ tn  2  Sb1 
H 1 : 1  0 S b1 SCX

III. Decisión: No Rechazar Ho: El modelo no es válido.


 t tab  t c  t tab No hay relación lineal entre X e Y.
Rechazar Ho: El modelo es válido.
t c  t tab ó t tab  t c
Hay relación lineal entre X e Y.
PUEBA DE HIPOTESIS

 𝐻0 : 𝛽1 = 0  𝛼 = 0.05
𝐻1 : 𝛽1 ≠ 0

 𝑏1 𝑆𝑒
𝑡𝑐 = ; 𝑆𝑏1 =
𝑆𝑏1 𝑆𝐶𝑋

𝑆𝐶𝐸
𝑆𝑒 = 𝐶𝑀𝐸 𝐶𝑀𝐸 =
𝑛−2
0.61016
𝐶𝑀𝐸 =
8

𝐶𝑀𝐸 = 0.07627

𝑆𝑒 = 0.07627 = 0.27617
0.27617
𝑆𝑏1 = = 0.05824
22.48752

0.9264
𝑡𝑐 = = 15.91
0.05824


8 g.l.
 Se rechaza H0
ZONA DE
0.025 0.025
ACEPTACIÓN
H0
 Conclusión

-2.3.6 2.306
PRUEBA DE HIPÓTESIS PARA LA PENDIENTE
Hipótesis:
H 0 : 1  k H 0 : 1  k H 0 : 1  k
H 1 : 1  k H 1 : 1  k H 1 : 1  k
Estadístico de Prueba:
b1  k
tc  ~ tn  2 
S b1
Decisión: t c  t n  2 , / 2 ó
tc  t n  2,1 tc  t n  2,1
t c  t n  2 ,1 / 2
se rechaza Ho se rechaza Ho
se rechaza Ho

Datos/Observaciones
INTERVALO DE CONFIANZA PARA LA ESTIMACIÓN
MEDIA DE “Y” DADO “X=X0”
El propósito del intervalo de confianza para el valor medio de predicción es
ubicar entre qué valores se encuentra el valor promedio poblacional de Y
respecto a un valor dado de X, considerando un nivel de confianza o
seguridad.
1 (x 0  x )
2
IC(μ y/x0 )  (b0  b1x 0 )  t 0Se 
n x nx2 2

INTERVALO DE PREDICCIÓN PARA “X=X0”

Datos/Observaciones
EJEMPLO 2
Para un 95% de confianza, estime el gasto promedio para un ingreso de
1500 soles.

1 (x 0  x )
2
IC(μ y/x0 )  (b0  b1x 0 )  t 0Se 
n x nx2 2

Para un 95% de confianza, estime el gasto para un ingreso de 1500


soles.

Datos/Observaciones
Para decidir sobre estas hipótesis se construye la
siguiente tabla de análisis de varianza (Tabla ANOVA)

Suma de Grados Cuadrado


Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)

Debido a la
Regresión SCReg 1 CMReg FC

Debido al
Error SCE n-2 CME

Total SCT n-1

Regla de decisión
Rechace Ho al nivel de significancia α si Fc > F(α, 1,n-2)
De otro modo no rechace Ho
Datos/Observaciones
Donde:

SCT = SCR + SCE 𝑆𝐶𝑅


• 𝐶𝑀𝑅 =
1
𝑛
SCT = σ𝑖=1 𝑌𝑖 − 𝑌ത 2 = SCY
𝑆𝐶𝐸
𝑛 2 • 𝐶𝑀𝐸 = = 𝑆𝑒2
SCR = σ𝑖=1 𝑌෠ − 𝑌ത 𝑛−2

𝐶𝑀𝑅
𝑛 2 • 𝐹𝑐 =
SCE = σ𝑖=1 𝑌𝑖 − 𝑌෠ 𝐶𝑀𝐸

Datos/Observaciones
Tabla ANOVA del ejemplo1

Suma de Grados Cuadrado


Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)

Debido a la
Regresión 18.981 1 18.981 248.87

Debido al
Error 0.61016 8 0.07627

Total 19.591 9

Regla de decisión
Rechace Ho al nivel de significancia α=0.05 si Fc > F(α= 0.05, 1,8)
De otro modo no rechace Ho
Datos/Observaciones

También podría gustarte