Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Lectura 8 PDF
Lectura 8 PDF
REGRESIÓN
SEMANA
8
[ ESTADÍSTICA INFERENCIAL ]
PALABRAS
CLAVE
Regresión
lineal,
regresión
múltiple,
correlación,
determinación,
mínimos
cuadrados.
INTRODUCCIÓN
Hasta
el
momento
los
temas
vistos
han
sido
para
datos
univariados.
En
este
capítulo
se
tratarán
algunos
conceptos
importantes
relacionados
con
datos
bivariados.
Estos
datos
son
los
que
se
obtienen
al
analizar
dos
variables
en
forma
simultánea.
Por
ejemplo
el
peso
y
la
estatura
de
cada
persona,
el
tiempo
de
estudios
y
el
nivel
de
ingresos
por
empleado
o
los
costos
de
publicidad
y
los
ingresos
por
ventas.
En
el
estudio
de
las
relaciones
entre
dos
variables
se
distinguen
dos
tipos
de
técnicas:
CORRELACIÓN:
¿Existe
dependencia
entre
las
variables?
¿Cuál
es
el
grado
de
dependencia?
REGRESIÓN:
¿Cuál
es
el
tipo
de
dependencia
entre
las
dos
variables?
¿Pueden
estimarse
los
valores
de
la
dependiente
en
función
de
los
de
la
independiente?
COEFICIENTE
DE
CORRELACION
r
El
coeficiente
de
correlación
rmide
el
grado
de
asociación
entre
dos
variables.
(n∑ XY ) − (∑ X )(∑Y )
Fórmula; r = 2 2 2 2
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
EJEMPLO
Se
quiere
establecer
la
relación
entre
el
número
de
comerciales
que
se
transmiten
al
día
sobre
un
producto
y
las
ventas
semanales
del
producto
en
miles
de
unidades
monetarias.
Para
esto
se
obtiene
la
siguiente
información:
Número
de
comerciales
X:
4
4
5
6
9
11
13
14
17
18
Ventas
semanales
Y:
2.,0
1,3
1,5
2,0
2,8
3,0
3,5
3,0
4,0
4,5
Estos
valores
corresponden
a
parejas
ordenadas
(x,
y)
que
podemos
llevar
al
plano
cartesiano
y
marcar
los
puntos
respectivos
obteniendo
un
gráfico
llamado
Diagrama
de
Dispersión
o
Nube
de
Puntos.
2
[ POLITÉCNICO GRANCOLOMBIANO ]
DIAGRAMA DE DISPERSIÓN
5
4,5
4
Ventas semanales
3,5
3
2,5
2
1 ,5
1
0, 5
0
0 5 10 15 20
Número de Comerciales
La
realización
del
diagrama
de
dispersión
es
fundamental.
A
partir
de
él
visualizamos
el
comportamiento
de
los
datos
y
nos
indica,
en
forma
aproximada,
el
tipo
de
relación
que
hay
entre
las
variables.
Enseguida
elaboramos
la
siguiente
tabla,
que
facilita
la
aplicación
de
las
fórmulas
para
determinar
el
coeficiente
de
correlación
y
la
ecuación
de
regresión
lineal
simple.
2
X
Y
XY
X Y2
4
2,0
8
16
4
4
1,3
5,2
16
1,69
5
1,5
7,5
25
2,25
6
2,0
12
36
4
9
2,8
25,2
81
7,84
11
3,0
33
121
9
13
3,5
45,5
169
12,25
14
3,0
42
196
9
17
4,0
68
289
16
18
4,5
81
324
20,25
101
27,6
327,4
1273
86,28
r=
(10)(327,4) ) − (101)(27,6)
(10)(1273) − (101) 2 (10)(86,28) − ( 27,6) 2
[ ESTADÍSTICA INFERENCIAL ] 3
r
=
0,962
El
valor
de
este
coeficiente
da
entre
–1
y
1
es
decir,
− 1 ≤ r ≤ 1
de
tal
forma
que:
Si
r
se
acerca
a
1
hay
correlación
positiva
entre
las
variables
si
se
acerca
a
–1
la
correlación
es
negativa
y
si
se
acerca
a
0
las
variables
son
independientes,
no
tiene
que
ver
la
una
con
la
otra.
El
siguiente
diagrama
resume
el
análisis
del
coeficiente
de
correlación,
entre
dos
variables:
Correlación
negativa
Ninguna
correlación
Correlación
positiva
Perfecta
perfecta
-‐1
-‐
0,5
0
0,5
1
Correlación
negativa
fuerte
Correlación
negativa
débil
correlación
positiva
débil
correlación
positiva
fuerte
Este
coeficiente
se
interpreta
teniendo
en
cuenta
su
valor
como
tal
y
su
signo.
Si
el
valor
se
acerca
a
1
o
a
–1
existe
una
fuerte
correlación
entre
las
variables.
Si
se
acerca
a
0
no
hay
relación.
Si
el
signo
es
positivo
indica
que
hay
una
relación
directa
entre
X
y
Y,
es
decir,
a
mayores
valores
de
X
mayores
valores
de
Y
y
si
es
negativo,
la
relación
es
inversa,
es
decir,
a
mayores
valores
de
X
menores
valores
de
Y.
En
el
ejemplo
el
coeficiente
de
correlación
con
un
valor
de
0,962
indica
que
existe
una
relación
fuerte
entre
el
número
de
comerciales
y
las
ventas
semanales
del
producto.
Como
el
resultado
es
positivo,
indica
que
a
medida
en
que
aumenta
el
número
de
comerciales,
aumentan
las
ventas
semanales.
Una
vez
establecida
la
relación
entre
variables,
es
importante
establecer
la
Influencia
que
tiene
la
variable
independiente,
número
de
comerciales,
sobre
la
variable
dependiente,
ventas
semanales.
Para
cuantificar
dicha
relación
y
tener
una
aproximación
de
la
magnitud
de
la
influencia
de
los
gastos
en
publicidad
sobre
las
ventas,
se
debe
trabajar
el
modelo
de
regresión
lineal.
Regresión
lineal
simple
4
[ POLITÉCNICO GRANCOLOMBIANO ]
Sobre
la
nube
de
puntos
se
traza
una
línea
recta
que
cobije
la
mayoría
de
los
puntos.
La
mejor
ecuación
que
tiene
las
mínimas
distancias
con
respecto
a
los
puntos
reales,
se
establece
con
el
método
conocido
como
método
de
mínimos
cuadrados.
La
regresión
lineal
establece
para
el
análisis
de
las
dos
variables
la
ecuación
de
una
línea
recta:
Yˆ = A + BX
Yˆ :
simboliza
la
variable
dependiente
calculada
para
diferenciarla
de
la
real
u
observada.
A:
Es
el
intercepto
o
punto
de
corte
de
la
recta
con
el
eje
Y.
Si
la
pendiente
es
positiva
indica
el
valor
mínimo
estimado
de
Y,
si
es
negativa
indica
el
valor
máximo
estimado
de
Y.
B:
Es
la
pendiente
de
la
recta.
Indica
el
incremento
que
sufre
la
variable
Y
cuando
la
variable
X
aumenta
en
una
unidad.
A
y
B
son
conocidos
como
los
parámetros
del
modelo.
Son
valores
desconocidos
que
se
pueden
calcular
por
el
método
de
mínimos
cuadrados.
Para
determinar
el
valor
A
que
representa
el
punto
de
corte
de
la
recta
con
el
eje
Y
y
B
que
representa
la
pendiente
de
la
recta,
se
emplean
las
siguientes
ecuaciones:
n∑ XY − (∑ X )(∑ Y )
B=
n∑ X 2 − (∑ X ) 2
A = Y − BX
En
el
ejemplo
anterior:
Primero
se
calcula
la
pendiente
B
porque
se
requiere
para
el
cálculo
de
A
n∑ XY − (∑ X )(∑ Y )
B=
n∑ X 2 − (∑ X ) 2
10(327,4) − (101)(27,6) 3274 − 2787,6
B= = = 0,1923
10(1273) − (101) 2 12730 − 10201
A=
∑ Y − B∑ X A = 27,6 − (0,1923)(101) = 0,8175
n 10
Yˆ = 0,8175 + 0,1923 X
El
punto
de
corte
indica
que
si
X=0
es
decir
si
no
hay
comerciales,
se
estiman
ventas
mínimas
de
0,8175
unidades
monetarias.
La
pendiente
indica
que
al
aumentar
los
comerciales
las
ventas
aumentan
en
0,1923
unidades
monetarias.
Coeficiente
de
Determinación
El
coeficiente
de
determinación
mide
el
porcentaje
de
valores
de
la
variable
dependiente
Y,
que
caen
sobre
la
línea
recta,
se
interpreta
como
el
porcentaje
de
valores
de
Y
que
son
explicados
por
el
modelo
lineal
en
función
de
la
variable
X.
[ ESTADÍSTICA INFERENCIAL ] 5
5
4,5
4
Ventas semanales
3,5
3
2,5
2
1 ,5
1
0, 5
0
0 5 10 15 20
Número de Comerciales
EJEMPLO:
Se
quiere
medir
la
relación
que
existe
entre
el
número
de
empleados
(X)
y
las
ventas
semanales
(en
millones
de
$)
(Y),
para
un
grupo
de
almacenes
del
sector
de
los
alimentos
en
una
ciudad.
Los
datos
obtenidos
son
los
siguientes:
X
12
16
20
28
30
32
36
40
Y
20
30
36
44
80
60
95
98
a.
Dibuje
el
gráfico
de
dispersión
que
muestre
el
comportamiento
de
las
dos
variables.
b.
Encuentre
el
modelo
de
regresión
lineal
para
estimar
las
ventas
semanales
en
función
del
número
de
empleados.
c.
Interprete
los
parámetros
del
modelo
d.
¿Cuál
es
el
nivel
o
grado
de
asociación
entre
variables?
e.
¿Qué
porcentaje
de
las
ventas
son
explicadas
por
el
modelo
lineal
en
función
del
número
de
empleados?
6
[ POLITÉCNICO GRANCOLOMBIANO ]
f.
Estime
las
ventas
para
un
almacén
que
tiene
50
empleados.
SOLUCIÓN:
a.
Gráfico
de
dispersión:
Sobre
el
eje
X
se
colocan
los
valores
para
el
número
de
empleados
utilizando
una
escala
de
valores
apropiada,
teniendo
en
cuenta
el
valor
máximo
y
el
mínimo
de
los
datos.
En
forma
similar
se
colocan
los
valores
de
Y
y
se
ubican
las
parejas
ordenadas
de
valores.
b.
para
construir
el
modelo
de
regresión
lineal:
Yˆ = A + BX se
completan
los
valores
dados
inicialmente
de
la
siguiente
forma:
X
Y
XY
X2
Y2
12
20
240
144
400
16
30
480
256
900
20
36
720
400
1296
28
44
1232
784
1936
30
80
2400
900
6400
32
60
1920
1024
3600
36
95
3420
1296
9025
40
98
3920
1600
9604
214
463
14332
6404
33161
n = 8 ∑ X = 214 ∑Y = 463
2
∑X = 6404 ∑Y 2 = 33161 ∑ XY = 14332
[ ESTADÍSTICA INFERENCIAL ] 7
Los
resultados
obtenidos
se
van
reemplazando
en
las
fórmulas
establecidas
para
obtener
los
parámetros
del
modelo
de
regresión
lineal.
n∑ XY − (∑ X )(∑ Y ) (8)(14332) − (214)(463)
B= = = 2,8649
n∑ X 2 − (∑ X ) 2 (8)(6404) − (214) 2
A=
∑ Y − B∑ X 463 − (2,8649)(214)
= = −18,763
n 8
Reemplazando
en
la
ecuación
del
modelo
de
regresión
lineal
queda:
Yˆ = −18,763 + 2,8649 X
c.
En
este
modelo
el
valor
de
A=-‐18,763
indica
que
si
no
hay
empleados
(X=0)
se
estaría
dejando
de
vender
$18`763.000.
El
valor
de
B=2,8649
indica
que
por
cada
empleado
se
estima
que
las
ventas
semanales
aumentan
en
$2`864.900.
d)
El
nivel
o
grado
de
asociación
entre
variables
se
mide
con
el
coeficiente
de
correlación
r:
r=
(n∑ XY ) − (∑ X )(∑Y )
2 2 2 2
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
r=
(8)(14332) ) − (214)(463) = 0,936
2 2
8(6404) − ( 214) (8)(33161) − (463)
El
valor
es
positivo
y
cercano
a
1,
lo
que
indica
que
existe
una
correlación
fuerte
entre
el
número
de
empleados
y
las
ventas
semanales.
El
signo
positivo
indica
que
a
mayor
número
de
empleados,
en
los
almacenes
se
tienen
mayores
ventas
semanales.
e.
El
porcentaje
de
las
ventas
semanales
explicadas
por
el
modelo
lineal
en
función
del
número
de
empleados,
se
mide
con
el
coeficiente
de
determinación
r 2 = 0,876
El
87,6%
de
las
ventas
son
explicadas
por
el
modelo
lineal,
presentando
un
buen
modelo
para
hacer
estimación
de
valores
(r2
mayor
al
75%).
f)
Ventas
estimadas
para
un
almacén
con
50
empleados:
Yˆ = −18,763 + 2,8649(50)
Yˆ = 124 ,482
Se
estiman
ventas
de
$124`482.000
para
un
almacén
con
50
empleados.
2.
En
un
estudio
de
consumidores
se
quiere
analizar
el
comportamiento
del
consumo
semanal
del
producto
(Y
en
libras),
en
función
del
precio
del
producto
por
libra
(X
en
miles
de
pesos)y
para
esto
se
tiene
información
de
los
últimos
meses,
encontrando:
X
Y
XY
X2
Y2
17
9
153
289
81
15
12
180
225
144
8
[ POLITÉCNICO GRANCOLOMBIANO ]
A=
∑ Y − B∑ X =
113 − (−1,5776)(90)
= 36,4271
n 7
El
modelo
lineal
es:
Yˆ = 36,4271 − 1,5776 X
b.
Para
la
interpretación
de
los
parámetros
A
y
B
del
modelo
se
tiene
en
cuenta
que
la
pendiente
es
negativa.
El
consumo
máximo
estimado
es
de
36,4271
unidades
del
producto,
cuando
el
precio
aumenta
en
$1.000
el
consumo
disminuye
en
1,5776
unidades.
c.
Coeficiente
de
correlación
r=
(n∑ XY ) − (∑ X )(∑Y )
2 2 2 2
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
r=
(7)(1360) ) − (90)(113) = −0,972
2 2
7(1216) − (90) (7)(1979) − (113)
Hay
correlación
negativa
entre
el
precio
del
producto
y
el
consumo,
esto
significa
que
a
medida
en
que
aumenta
el
precio
disminuye
el
consumo.
2
d. r = 0,946
[ ESTADÍSTICA INFERENCIAL ] 9
El
94,6%
del
consumo
es
explicado
por
el
modelo
lineal
en
función
del
precio
del
producto,
el
modelo
presenta
un
buen
ajuste
para
los
datos.
e. Yˆ = 36,4271 − 1,5776 X
Yˆ = 36,4271 − 1,5776(20) = 4,8751
BIBLIOGRAFÍA
FREUND,
John
E.,
MILLER,
Irwin
y
MILLER,
Marylees.
Estadística
Matemática
con
aplicaciones.
6ed.
Madrid
Prentice
Hall,
2000.
GUTIERREZ,
Humberto
y
DE
LA
VARA,
Román.
Control
estadístico
de
Calidad
y
Seis
Sigma
(6s).
México:
McGraw-‐Hill,
2005.
KENNET,
Ron
S.,
y
ZACKS,
Shelemyahu.
Estadística
Industrial
Moderna.
Barcelona,
Thomson,
2000.
MONTGOMERY,
Douglas
C.
y
RUNGER,
George
C.
Probabilidad
y
Estadística
aplicadas
a
la
Ingeniería.
2ed.
México:
Limusa,
2002.
NEWBOLD.
Paul.
Estadística
para
los
Negocios
y
la
Economía.
4ed.
Madrid
Prentice
Hall,
1988.
WALPOLE
Ronal,
E.,
MYERS,
Raymond
H.
y
MYERS,
Sharon
L.
Probabilidad
y
Estadística
para
Ingenieros.
6ed.
Madrid
Prentice
Hall,
1998.
10
[ POLITÉCNICO GRANCOLOMBIANO ]