Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Existen dos técnicas estadísticas que sirven para analizar la relación entre dos o más
variables, la relación puede ser del tipo funcional, si esta relación es entre una variable
cuantitativa y otra u otras variables también cuantitativas entonces, el análisis se llama
regresión, que a su vez puede ser lineal o no lineal, simple o múltiple; en cambio si el análisis
es para determinar el grado de asociación entre dos o más variables entonces, el análisis se
llama correlación.
1. CORRELACIÓN
variables. Esta medida o índice de correlación r puede variar entre -1 y +1, ambos extremos indicando
correlaciones perfectas, negativa y positiva respectivamente. Un valor de r = 0 indica que no existe relación
lineal entre las dos variables. Una correlación positiva indica que ambas variables varían en el mismo
sentido, es decir son directamente proporcionales. Una correlación negativa significa que ambas variables
varían en sentidos opuestos, son inversamente proporcionales. Lo interesante del índice de correlación es
que r es en sí mismo una medida del tamaño del efecto, que suele interpretarse de la siguiente manera:
No existe correlación si r = 0
correlación despreciable o casi nula si: r < |0.1|
correlación baja si : |0.1| < r ≤ |0.3|
correlación mediana o regular si: |0.3| < r ≤ |0.7|
correlación fuerte o alta si: < r ≤|0.8|
correlación muy fuerte o muy alta si: < r ≤|0.9|
correlación casi perfecta si: r →
correlación perfecta si r =
Por otro lado, la correlación se refiere a que si existe un vínculo entre dos o más variables. Una de las
herramientas que nos permite inferir si existe dicho vínculo es justamente el análisis de correlación. Este
procedimiento tiene por objetivo indicar si existe relación entre dos variables, así como la naturaleza de
dicha relación, y la fuerza de dicha relación. Para poder realizar un análisis de correlación confiable, lo
primero que se necesita es realizar muchas observaciones de dos variables en forma pareada.
REGRESIÓN Y CORRELACIÓN
COEFICIENTE DE CORRELACIÓN DE PEARSON
𝝆 = coeficiente de correlación poblacional
𝑪𝒐𝒗(𝒙,𝒚)
𝝆= ; -1 ≤ 𝝆 ≤ 𝟏
𝝈𝒙 𝝈𝒚
𝐸ሺ
𝑋, 𝑌 ሻ− 𝐸 ሺ
𝑋ሻ𝐸(𝑌)
𝜌=
ඥሾ𝐸ሺ
𝑋 2 ሻ− 𝐸 ሺ
𝑋 ሻ2 ሿ
[𝐸ሺ
𝑌 2 ሻ− 𝐸(𝑌)2 ]
ത
σ 𝑋𝑌 −𝑛 𝑋 ത
𝑌
𝑟= ത ത
ඥ[σ 𝑋 2 −𝑛 𝑋 2 ][σ 𝑌 2 −𝑛 𝑌 2]
𝑆𝑥𝑦
r=
ඥ𝑆𝑥𝑥 𝑆𝑦𝑦
Cov(x,y) = E(XY) – E(X)E(Y)
Sx = ඥ𝑉(𝑋) → V(X) = E(X2) – E(X)2
Sy = ඥ𝑉(𝑌) → V(Y) = E(Y2) – E(Y)2
𝑆𝑥𝑥 = σ 𝑛 ത2 𝑛 2
𝑖=1 (𝑋𝑖 − 𝑋 ) = σ 𝑖=1 𝑋𝑖 - n𝑋
ത2
𝑆𝑦𝑦 = σ 𝑛 ത2 𝑛 2 ത
𝑖=1 (𝑌𝑖 − 𝑌 ) = σ 𝑖=1 𝑌𝑖 - n𝑌
2
𝑆𝑥𝑦 = σ 𝑛
𝑖=1 [ሺ
ത
𝑋𝑖 − 𝑋 ሻሺ ത
𝑌𝑖 − 𝑌 ሻ] = σ 𝑛 തത
𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋 𝑌
1) Ho: 𝜌 = 0
H1: 𝜌 ≠ 0
2) α = 0.05
3) El estadístico es una t con 15-2 = 13 grados de libertad
4) los puntos críticos son: ± 2.16, si t e es mayor que 2.16 o menor que -2.16 se rechazará
Ho
0.967 ξ 15−3
5) te = = 13.6848
ඥ1−(0.967)2
6) como 13.6848 es mayor a 2.16 se rechaza Ho, en consecuencia, el coeficiente de
correlación es bastante diferente de cero.
REGRESIÓN Y CORRELACIÓN
Cuando se quiere probar que 𝜌 tiene un valor distinto de cero y cuando se quiere
construir un intervalo de confianza para estimar 𝜌, se usa lo que se llama la
transformación z, es decir, se puede hacer una transformación de la distribución de r en
una distribución aproximadamente normal con la siguiente expresión.
1 1+𝑟
Zr = 2 ln(1−𝑟 )
Este Zr tiene una distribución aproximadamente normal con E(Zr) = Z𝜌 y el error estándar
1 1 1+𝜌
ො
estimado es 𝜎𝑧 = y Z𝜌 = 𝑙𝑛 1−𝜌
ξ 𝑛−3 2
𝑧𝑟 −𝑧𝜌
Para el valor experimental se usa la siguiente expresión Z = ෝ
𝜎
→N(0,1)
𝑧
1) Ho: 𝜌 = 0.90
H1: 𝜌 ≠ 0.90
2) α = 0.05
3) El estadístico z tiene distribución normal N(0,1)
4) los puntos críticos son: ± 1.96, si ze es mayor que 1.96 o menor que -1.96 se rechazará
Ho
2.043878628 −1.47221949 0.571659138
5) ze = 1/ξ 15−3
= 0.288675
= 1.98
1 1+0.967 1 1+0.9 1
ො
Zr = 2 ln(1−0.967 ) = 2.043878628; Z𝜌 = 2 ln(1−0.9) = 1.47221949; 𝜎𝑧 = =1/ξ 12 =
ξ 15−3
0.288675
6) Como 1.98 es mayor que 1.96 se rechaza Ho, en consecuencia, el coeficiente de
correlación es diferente de 0.90, más específicamente mayor que 0.90
REGRESIÓN Y CORRELACIÓN
INTERVALOS CONFIDENCIALES PARA
Los intervalos confidenciales para estimar con un 95% de seguridad es como sigue:
P[2.043878628 – 1.96(0.288675) < < 2.043878628 + 1.96(0.288675)] = 0.95
P[2.043878628 – 0.5658) < < 2.043878628 + 0.5658)] = 0.95
P[1.478) <Z < 2.6097] = 0.95
Luego se hace el proceso inverso para calcular los límites confidenciales
P(0.9011 < < 0.9892) = 0.95
Para obtener los límites confidenciales se usa la expresión r = donde A = antiln(2Zr)
A =Antiln(2x1.478) = antiln(2.956) = 19.22093405
r = = = 0.9010926 = 0.9011
A = A =Antiln(2x2.6097) = antiln(5.2194) = 184.8232568
r = = = 0.989237 = 0.9892
REGRESIÓN Y CORRELACIÓN
Ejemplo 2
En un estudio de la relación entre la edad y los resultados del electroencefalograma /EEG), se recopilaron
datos de 20 personas con edades entre 20 y 60 años. La siguiente Tabla muestra las edades y un valor de
rendimiento del EEG particular para cada una de esas 20 personas. Los investigadores pretenden saber si
es posible concluir que este rendimiento del EEG particular tiene relación inversa con la edad.
Solución.
X: Edad en años
Y: Valor resultante del encefalograma (EEG)
X 1 2 3 4
Y
1 0,10 0,10 0,05 0,05
2 0,05 0,10 0,05 0,10
3 0,05 0,05 0,20 0,10
Hallar: a) V(x + y) y b) el coeficiente de correlación de Pearson.
Solución.
a)
X P(x) XP(x) X2P(x)
1 0,20 0,20 0,20
2 0,25 0,50 1,00
3 0,30 0,90 2,70
4 0,25 1,00 4,00
Total 1,00 2,60 7,90
E(x) = 2,60
V(x) = 7,90 – (2,6)2 = 1,14
REGRESIÓN Y CORRELACIÓN
E(y) = 2,10
V(x) = 5,10 – (2,1)2 = 0,69
XY P(x, y) XYP(x, y)
1 0,10 0,10
2 0,15 0,30
3 0,10 0,30
4 0,15 0,60
6 0,10 0,60
8 0,10 0,80
9 0,20 1,80
12 0,10 1,20
Total 1,00 5,70
E(x, y) = 5,70
Cov(x, y) = 5,70 – (2,6)(2,1) = 0,24
REGRESIÓN Y CORRELACIÓN
Sea z = x + y, entonces:
Z P(z) ZP(z) Z2P(z)
2 0,10 0,20 0,40
3 0,15 0,45 1,35
4 0,20 0,80 3,20
5 0,15 0,75 3,75
6 0,30 1,80 10,80
7 0,10 0,70 4,90
Total 1,00 4,70 24,40
E(z) = 4,70
V(z) = 24,40 – (4,7)2 = 2,31
V(x + y) = 1,14 + 0,69 + 2(0,24) = 2,31
b) 0,24
r 0,2706
(1,14)(0,69 )
En este caso existe una correlación positiva entre las variables, es decir a medida que
aumenta las paralizaciones de una de las máquinas las paralizaciones de la otra
también aumentan, en tanto que la fuerza de correlación es regular.
REGRESIÓN Y CORRELACIÓN
Ejemplo 5.
Un fabricante de muebles está interesado en el número de muebles que le serán entregados
durante los meses de enero (X) y febrero (Y), por estadísticas sabe que el cuadro de distribución
de probabilidades conjunta está dada según el siguiente cuadro.
X 0 1 2 3 4 5
Y
0 0,00 0,01 0,03 0,05 0,07 0,09
1 0,01 0,02 0,04 0,05 0,06 0,08
2 0,01 0,03 0,05 0,05 0,05 0,06
3 0,01 0,02 0,04 0,06 0,06 0,05
E(x) = 3,39
REGRESIÓN Y CORRELACIÓN
V(x) = 13,45 – (3,39)2 = 1,9579
Sx = 1,39925
E(y) = 1,48
Sy = 1,1088733
XY P(x, y) XYP(x, y)
0 0,28 0,00
1 0,02 0,02
2 0,07 0,14
3 0,07 0,21
4 0,11 0,44
5 0,08 0,40
6 0,09 0,54
8 0,05 0,40
9 0,06 0,54
10 0,06 0,60
12 0,06 0,72
15 0,05 0,752
Total 1,00 4,76
E(x; y) = 4,76
REGRESIÓN Y CORRELACIÓN
Cov(x; y) = 4,76 – (3,39)(1,48) = -0,2572
Si, x + y = z
c) r 0,2572
0,16577
(1,39925)(1,1088733)
Sea X e Y, dos v.a. continuas, donde X es el empuje e Y la razón de la mezcla, que son 2
características del funcionamiento de un motor a reacción, cuya función de densidad
está dada por:
2( x y 2 xy ) 0 x 1, 0 y 1
f ( x, y )
0 en otro caso
Solución:
P( x 1 / 2, y 1 / 2) = 3 / 16
P( x 1 / 2 / y 1 / 2) ) 3/8
P ( y 1 / 2) 1/ 2
1 1
P ( x 1 / 2, y 1 / 2) (2 x 2 y 4 xy )dxdy
1/ 2 1/ 2
1 1 1 1 1 1
= 2 xdx dy 2 dx ydy 4 xdx ydy
1/ 2 1/ 2 1/ 2 1/ 2 1/ 2 1/ 2
= 3/16
REGRESIÓN Y CORRELACIÓN
1 1 1
f ( x) 2 x dy 2 ydy 4 x ydy 1 0 x 1, 0 en otro caso.
0 0 0
1 1 1
f ( y ) 2 xdx 2 y dx 4 y xdx 1 0 y 1, 0 en otro caso
0 0 0
1 1 1 1 1 1 𝟏𝟏
P( y 1 / 2) 2 xdx dy 2 dx ydy 4 xdx ydy 1 / 2 = 𝟏/𝟐 𝒅𝒚 = y/𝟏/𝟐 = 1 – ½ = 1/2
0 1/ 2 0 1/ 2 0 1/ 2
1
E ( x) xdx 1 / 2
0
1
E ( y) ydy 1 / 2
0
1
E ( x ) x 2dx 1 / 3
2
1
E( y ) y dy 1 / 3
2 2
0
REGRESIÓN Y CORRELACIÓN
= 1/3 – 1/4 = 1/12
V(x)
= -0.333, esto implica que las variables son inversamente proporcionales, pero la fuerza de la
relación es regular
REGRESIÓN Y CORRELACIÓN
Ejemplo 7
(3 / 28)( xy y 2 ) 0 x 2, 0 y 2
f ( x, y )
0 en otro caso
Solución:
P ( x 1, y 1) = 37 / 112
P ( x 1 / y 1) 37 / 92
P ( y 1) 92 / 112
1 2 1 2 1 2
3 3 3
P ( x 1, y 1) ( xy y ) dxdy 28
xdx ydy dx y dy
2 2
28 0 1 0 1
28 0 1
= 37/112
2 2
3 3 2 2 3 2 2
( xy y
2
P ( y 1) 2
) dxdy xdx ydy dx y dy
28 28 0 1 28 0 1
0 1
= 23/28 = 92/112
2 2 2
3 3 3 = 3x/14 + 2/7
f ( x) ( xy y ) dy x ydy
28
2
y 2 dy
28 0
28 0 0
2 2
3 2
E ( x) x 2 dx xdx 8 / 7
14 0 70
2 2
3 2
E ( x ) x 3dx x 2dx 34 / 21
2
14 0 70
Sx = 0,5594
2 2 2
3 3 3y 2 = (3/14)(y + y 2)
f ( y ) ( xy y )dx
2
y xdx dx
28 0 28 0 28 0
2 2
3 3
E( y ) y 4 dy 78 / 35
2 3
y dy
14 0 14 0
Sy = 0,43331
2 2 2 2
= 3 x 2 dx y 2 dy 3 xdx y 3 dy
2 2
3
E ( x, y )
28 0 0
xy ( xy y 2 )dxdy
28 0 0 28 0 0
= 34/21
r = -0,0136/(0,5594)(0,43331) = - 0,056
2. REGRESIÓN.
Es una técnica estadística que consiste en analizar la dependencia entre dos o más
variables, observando si las variaciones de una o más variable provocan o no alguna
variación en la magnitud de la otra variable, esa relación de dependencia viene
expresada en una función matemática que para valores dados de una o más variables
independientes da el valor esperado de la variable dependiente ligada a esa o esas
variables.
Esta técnica fue estudiada por Sir Francis Galton y complementada por Sir Carl
Pearson, quienes estudiaron la relación entre las estaturas de los padres con las
estaturas de sus hijos y llegaron a la conclusión que las estaturas de los hijos
regresaban al promedio de estaturas.
En otras palabras la regresión, es una técnica que permite expresar el comportamiento
general de una VARIABLE cuantitativa (denominada variable
dependiente o respuesta, y que generalmente es representada por Y) a partir de los
valores procedentes de otra u otras variables (denominadas variables
independientes, de predicción o regresoras: X, X1 , X2 , etc.) a través de una
relación funcional matemática. Esta relación puede utilizarse para calcular o predecir
los valores de la variable dependiente en función de las variables independientes.
REGRESIÓN Y CORRELACIÓN
Nube de Puntos
200
180
160
140
120
Cantidad
100
80
60
40
20
0
10 20 30 40 50 60 70 80
Precio en soles
REGRESIÓN Y CORRELACIÓN
15𝑥71000 −600𝑥1570
b= 15𝑥27550 −(600)2
= 123000/53250 = 2.30986 = 2.31
a = 104.667 – 2.31x40 = 12.2723
𝑌 = 12.27 + 2.31X
Ejemplo. Si el precio es de 80 soles la demanda será de
𝑌 = 12.27 + 2.31(80) = 197 artículos
COEFICIENTE DE DETERMINACIÓN: R2
Es una medida que sirve para determinar el grado de ajuste de los puntos observados
con la ecuación de regresión estimada, se puede expresar en términos porcentuales
multiplicando el valor obtenido por cien, entonces indicará el porcentaje de puntos que
son colineales con la recta de regresión estimada y el resto corresponde al error, es decir
a los puntos no colineales.
2
𝑆𝑥𝑦 𝑆𝐶𝑅 𝐶𝑜𝑣 (𝑥,𝑦)2
R2 = 2 2 = = ; 0 ≤ 𝑅2 ≤ 1
𝑆𝑥 𝑆𝑦 𝑆𝐶𝑇 𝑉 ሺ𝑋 ሻ𝑉(𝑌)
Cov(x,y) = E(XY) – E(X)E(Y)
REGRESIÓN Y CORRELACIÓN
Ejemplo 2. Usar los datos del ejemplo anterior para calcular R 2
σ𝑛 ത2 𝑛 ത2 𝑛 2 𝑛 ത2
𝑖=1(𝑌𝑖 − 𝑌 ) = σ 𝑖=1 (𝑌𝑖 − 𝑌𝑖 + 𝑌𝑖 − 𝑌 ) = σ 𝑖=1(𝑌𝑖 − 𝑌𝑖 ) + σ 𝑖=1(𝑌𝑖 − 𝑌 )
σ𝑛 ത2
𝑖=1(𝑌𝑖 − 𝑌 ) = σ𝑛 2
𝑖=1(𝑌𝑖 − 𝑌𝑖 ) + σ𝑛 ത2
𝑖=1 (𝑌𝑖 − 𝑌 )
Suma de cuadrados = suma de cuadrados + suma de cuadrados
del total del error de la regresión
SCT = SCE + SCR
R2 = SCR/SCT
REGRESIÓN Y CORRELACIÓN
𝑦 =𝑎+𝑏𝑥
^
(X,Y)
y
𝑦 =61+1.48
^ 𝑥
y-
y -
´
𝑌 -
∆𝑌
∆
𝑋
b
=
a
x X
REGRESIÓN Y CORRELACIÓN
Ejemplo 3. Usar los mismos datos del ejemplo anterior para calcula el coeficiente de
determinación
SCT = 𝑆𝑦𝑦 = σ 𝑛𝑖=1(𝑌𝑖 − 𝑌ത)2 = σ 𝑛𝑖=1 𝑌𝑖2 - n𝑌ത2 = 184600 – 15(1570/15)2 = 20273.333
SCE = 1332.417
SCR = SCT – SCE = 20273.333 – 1332.417 = 18940.916
2
SCR = 𝑆𝑋𝑌 / 𝑆𝑥𝑥 = b2𝑆𝑥𝑥 = (8200)2/3550 = 18940.845, comparado con el anterior es una
buena aproximación. QQ
b = 𝑆𝑥𝑦 /𝑆𝑥𝑥 = 8200/3550 = 2.31
𝑆𝑥𝑦 = σ 𝑛𝑖=1[ሺ𝑋𝑖 − 𝑋തሻሺ𝑌𝑖 − 𝑌തሻ] = σ 𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋ത𝑌ത
𝑆𝑥𝑦 = 71000 – 15(40)(1570/15) = 71000 – 62800 = 8200
𝑆𝑥𝑥 = σ 𝑛𝑖=1(𝑋𝑖 − 𝑋ത)2 = σ 𝑛𝑖=1 𝑋𝑖2 - n𝑋ത2 = 27550 – 15(40)2 = 3550
R2 = 18940.916/20273.333 = 0.934
R2 = (8200)2/(3550)(20273.333) = 0.934
Como se puede apreciar se obtiene el mismo valor
REGRESIÓN Y CORRELACIÓN
Ejemplo 4.
Una empresa de reparto de encomiendas a domicilio estudia la relación entre la
distancia de las entregas (X) y el tiempo empleado (Y), con el fin de pronosticar el tiempo
de entrega de acuerdo a la distancia de entrega, para lo cual observó 10 entregas, los
resultado son los siguientes, con los cuales estime la recta de regresión para pronosticar
el tiempo de entrega de una encomienda que dista 20 km, asimismo obtenga el
coeficiente de determinación y el coeficiente de correlación de Pearson y de Spearman.
X (km) 28 14 12 31 30 19 24 15 16 11
Y(min) 60 23 12 75 70 40 55 24 25 16
Solución.
N° X (km) Y (min) XY X2 Y2 R(Xi) R(Yi) di 𝒅𝟐𝒊
1 28 60 1680 784 3600 8 8 0 0
2 14 23 322 196 529 3 3 0 0
3 12 12 144 144 144 2 1 1 1
4 31 75 2325 961 5625 10 10 0 0
5 30 70 2100 900 4900 9 9 0 0
6 19 40 760 361 1600 6 6 0 0
7 24 55 1320 576 3025 7 7 0 0
8 15 24 360 225 576 4 4 0 0
9 16 25 400 256 625 5 5 0 0
10 11 16 176 121 256 1 2 -1 1
T 200 400 9587 4524 20880 - - - 2
REGRESIÓN Y CORRELACIÓN
𝟐 σ𝒏 𝟐
𝒊=𝟏 𝒆𝒊 σ𝑛 2
𝑖=1 (𝑌 𝑖 −𝑌 𝑖 )
ෝ
𝝈 = =
𝒏−𝟐 𝒏−𝟐
𝟐 𝟏𝟑𝟑𝟐.𝟒𝟏𝟕
ෝ
𝝈 = 𝟏𝟓−𝟐
= 102.4936
𝑺𝟐
𝒙𝒚
𝑺𝒚𝒚 −
𝟐 𝑺𝒙𝒙
ෝ
𝝈 =
𝒏−𝟐
(𝟖𝟐𝟎𝟎)𝟐
𝟐𝟎𝟐𝟕𝟑.𝟑𝟑𝟑−
𝟐
ෝ
𝝈 = 𝟐𝟓𝟓𝟎
= 102.499
𝟏𝟓−𝟐
ෝ
𝝈 = 10.124
Los estimadores a y b de α y β son estimadores MELI, por lo tanto son insesgados; es
decir, E(a) = α y E(b) = β, también los estimadores de sus varianzas deben ser insesgados
𝟐 𝒏 𝟐
2 ෝ
𝝈 σ 𝒊=𝟏 𝑿𝒊
ො
𝜎𝑎 = 𝑛𝑆 𝑥𝑥
ෝ
𝝈 𝟐
2
ො
𝜎𝑏 = 𝑆𝑥𝑥
2 (102 .499)(27550 )
ො
𝜎𝑎 = 15(3550 )
= 53.03 → ො
𝜎𝑎 = 7.282
2
ො
𝜎𝑏 = 102.499/3550 = 0.028873 → ො
𝜎𝑏 = 0.16992
REGRESIÓN Y CORRELACIÓN
Datos del ejemplo 4
Ejemplo. Datos del ejemplo 4
N° X (km) Y (min)
𝒀 )
(Y-𝒀 𝟐
(𝒀 − 𝒀)
a) Ho: α = 0, Ho: β = 0
H1: α ≠ 0, Ho: β ≠ 0
RR = 0.025 RR = 0.025
Región de no rechazo de Ho
-2.16 2.16
12.27 2.31
e) para α, el te es te = = 1.685; para β, el te es te = = 13.595
7.282 0.16992
f) Como 1.685 cae dentro de la región de no rechazo de Ho, entonces no hay evidencia
suficiente para rechazarlo, en consecuencia, el parámetro α no es significativo en el
modelo. En cambio, 13.595 cae fuera de la región de no rechazo, es decir cae en la región
de rechazo, por lo tanto, se rechaza Ho y en consecuencia el parámetro β si es
significativo en el modelo.
REGRESIÓN Y CORRELACIÓN
PRUEBA F
RNR = 0.95
RR = 0.05
Región de no rechazo de Ho
0 4.67
REGRESIÓN Y CORRELACIÓN
e) Cuadro del ANVA
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
Del ejemplo
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
Total 14 20273.333 -- --
P[b - tα/2𝜎ො ො
𝑏 ≤ β ≤ b + tα/2𝜎𝑏] = 1 – α
Ejemplo.
P[12.27 – 2.16(7.282) ≤ 𝛼 ≤ 12.27 + 2.16(7.282)] = 0.95
P[12.27 – 15.73 ≤ 𝛼 ≤ 12.27 + 15.73] = 0.95
P[-3.46 ≤ 𝛼 ≤ 28] = 0.95
P[2.31 – 2.16(0.16992) ≤ β ≤ 2.31 + 2.16(0.16992)] = 0.95
P[2.31 – 0.367 ≤ β ≤ 2.31 + 0.367] = 0.95
P[1.943 ≤ β ≤ 2.677] = 0.95
REGRESIÓN Y CORRELACIÓN
ESTIMACIÓN INTERVÁLICA PARA (𝛼 + 𝛽𝑋)
Para obtener una estimación interválica para cualquier punto de la recta de regresión,
Xo es necesario tener la desviación estándar del predictor e p, la cual es la siguiente
expresión.
ത
ത
തത
2 2 1 (𝑋𝑜 −𝑋)
V(𝑒𝑝 ) = 𝜎ො ො
𝑝 =𝜎 [ + ]
𝑛 𝑆𝑥𝑥
1 (𝑋𝑜 −𝑋ത)
𝜎ො ො
𝑝 =𝜎 ට𝑛 + 𝑆𝑥𝑥
P[𝑌𝑜 - tα/2𝜎ො ො
𝑝 ≤ Yo ≤ 𝑌𝑜 + tα/2𝜎𝑝] = 1 – α
Ejemplo. Obtenga una estimación interválica con un 95% de seguridad para la oferta de
un artículo cuyo precio es de 50 soles (ejemplo 1).
Solución.
Estimación puntual
𝑌𝑜 = 12.27 + 2.31(50) = 127.77 ~ 128 artículos
REGRESIÓN Y CORRELACIÓN
Estimación interválica
1 (50−40)
𝑝 = 10.124ට 15 +
𝜎ො
3550
= 2.67
P[127.77 – 2.16(2.67) ≤ Yo ≤ 127.77 + 2.16(2.67)] = 0.95
P[127.77 – 5.77 ≤ Yo ≤ 127.77 + 5.77] = 0.95
P[122 ≤ Yo ≤ 134] (estimación interválica con un 95% de seguridad)
Al precio de 50 soles la oferta con un 95% de seguridad debe estar entre 122 artículos
como mínimo y un máximo de 134 artículos.
P[127.77 – 3.012(2.67) ≤ Yo ≤ 127.77 + 3.012(2.67)] = 0.99
P[127.77 – 8.04 ≤ Yo ≤ 127.77 + 8.04] = 0.99
P[118 ≤ Yo ≤ 136] (estimación interválica con un 99% de seguridad
REGRESIÓN Y CORRELACIÓN
REGRESIÓN LINEAL MÚLTIPLE
En un modelo de regresión múltiple la variable dependiente Y es una función de dos o
más variables independientes, un modelo de k variables independientes se puede
expresar como sigue:
f(x) = f(X1, X2, X3, …XK)
Un modelo de regresión múltiple con k variables es como sigue
Y = 𝛽𝑂 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + ⋯ + 𝛽𝐾 𝑋𝐾 + 𝜀
Modelo muestral
y = 𝑏𝑂 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + ⋯ + 𝑏𝐾 𝑋𝐾 + 𝑒
𝑦ො= 𝑏𝑂 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑏3 𝑋3 + ⋯ + 𝑏𝐾 𝑋𝐾
En forma matricial la ecuación es como sigue
Y = Xβ + 𝜀
Modelo muestral
Y = X𝛽መ+ e
𝑦ො= X𝛽መ
e = Y - 𝑦ො
REGRESIÓN Y CORRELACIÓN
𝑖 )2
σ 𝑛𝑖=1 𝑒𝑖2 = σ 𝑛𝑖=1(𝑌𝑖 − 𝑌
X’Y = X’X𝛽መ
𝛽መ= (𝑋 ′ 𝑋)−1 X’Y
Donde: la matriz X es una matriz nx(k+1)
1 𝑋11 𝑋21 𝑋31 … . . 𝑋𝑘1
2222222222ۍ
1 𝑋12 𝑋22 𝑋32 … . . 𝑋𝑘2 22222222ې
22222222ێ 22222222ۑ
1 𝑋 𝑋 𝑋
22222222 ێ13 23 33 … . . 𝑋𝑘3 22222222ۑ
… … … … … … … … … … . . 22222222ۑ
22222222ێ
22222ۏ
1 𝑋1𝑛 𝑋2𝑛 𝑋3𝑛 … . . 𝑋𝑘𝑛 22222222222ے
𝑌1 𝑒1
2222222222ۍ
𝑌2 22222222ې 2222222222ۍ
𝑒2 22222222ې
22222222ێ
22222222ۑ መ
𝛽𝑂
𝑌 22222222ێ
𝑒 22222222ۑ
Para 𝛽መ= 𝛽መ
3
Para Y = 22222222ێ
3 22222222ۑ
1 para e = 22222222ێ
22222222ۑ
. 22222222ۑ
. 22222222ۑ
22222222ێ 22222222ێ
𝛽መ . 22222222ۑ
22222222ێ
22222222ێ
. 22222222ۑ 2
22222ۏ
𝑌𝑛 22222222222ے 22222ۏ
𝑒𝑛 22222222222ے
REGRESIÓN Y CORRELACIÓN
Ejemplo. Se tiene el consumo por familia de un producto por mes, así como
el precio del producto en soles con que compra la familia y el ingreso
mensual en miles de soles de dichas familias, con los cuales estime el
modelo de regresión correspondiente.
ത
𝑋2 = 60/12 = 5
∆ = 12(114x326 – 1692) – 36(36x326 – 60x169) + 60(36x169 – 60x114)
= 103236 - 57456 – 45360 = 420
8603 − 1596 − 756 σ 𝑦 96
′ −1 1
(𝑋 𝑋) =
420
−1596 312 132 ൩ X’Y = σ 𝑥1 𝑦= 264൩
−756 132 72 σ 𝑥2 𝑦 523
96
𝛽′𝑋′𝑌 = [21.8, -4.314, -0.171] 264൩ = 864.2
523
SCE = 878 – 864.2 = 13.8
SCT = 878 – 12(8)2 = 110 = Syy
𝑋′𝑌 - n𝑌
SCR = 𝛽′ ത2
= 864.2 – 12(8)2 = 96.2
SCR = SCT – SCE = 110 – 13.8 = 96.2
R2 = SCR/SCT = 96.2/110 = 0.8745 → 87.45% de ajuste
R = r = ξ 0.8745 = 0.935 alta correlación positiva
2
ො
𝜎 = SCE/(n-3) = 13.8/9 = 1.533
REGRESIÓN Y CORRELACIÓN
PRUEBA F PARA EL MODELO
c) El estadístico de una F con dos y n-3 grados de libertad, en el ejemplo es con dos y 9
grados de libertad
RNR = 0.95
RR = 0.05
Región de no rechazo de Ho
0 4.26
REGRESIÓN Y CORRELACIÓN
e) Cuadro del ANVA
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
K = Nº de parámetros
Del ejemplo
F. de V. g. de l. Suma de cuadrados Cuadrados M. Fe
Total 11 110.0 -- --
GRACIAS