Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cartilla - S7
Cartilla - S7
ESTADÍSTICA II
AUTOR: Rogelio Alvarado Martinez
ÍNDICE
ÍNDICE
GENERALIDADES DESARROLLO
REFERENCIAS
En
la
unidad
anterior
manejamos
la
prueba
chi
cuadrado
de
independencia
para
determinar
si
Para
medir
el
grado
de
asociación
entre
dos
variables
se
utiliza
el
coeficiente
de
correlación
que
puede
notarse
como
r
en
minúscula
o
R
en
mayúscula.
existía
una
relación
entre
variables,
pero
esa
prueba
no
nos
dice
cómo
es
esa
relación.
En
esta
unidad
vamos
a
utilizar
el
análisis
de
regresión
y
el
de
correlación
para
determinar,
tanto
la
naturaleza
como
la
fuerza
entre
dos
variables.
Con
el
análisis
de
regresión
desarrollaremos
una
ecuación
de
estimación,
es
decir,
una
fórmula
matemática
para
determinar
una
variable
desconocida
en
base
a
unas
variables
conocidas
y
con
un
análisis
de
correlación
se
va
a
medir
el
grado
de
relación
entre
dos
variables.
(n∑ XY ) − (∑ X )(∑Y )
Fórmula;
r =
2 2 2 2
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
RECOMENDACIONES ACADÉMICAS
Ejemplo:
Hasta
el
momento
los
temas
vistos
han
sido
para
datos
univariados.
En
esta
unidad
se
tratarán
algunos
conceptos
importantes
relacionados
con
datos
bivariados.
Estos
datos
son
los
que
se
Con
el
ánimo
de
determinar
la
relación
que
existe
entre
el
número
de
comerciales
que
se
obtienen
al
analizar
dos
variables
en
forma
simultánea,
una
variable
considerada
como
variable
transmiten
al
día
sobre
un
producto
y
las
ventas
semanales
del
producto
en
miles
de
unidades
independiente,
la
variable
X
y
una
variable
dependiente,
la
variable
Y.
Por
ejemplo,
la
oferta
y
la
monetarias,
se
obtiene
la
siguiente
información:
demanda
de
un
producto,
el
tiempo
de
estudios
y
el
nivel
de
ingresos
por
empleado
o
los
costos
de
publicidad
y
los
ingresos
por
ventas
que
conducen
a
la
predicción
o
estimación
de
valores
Como
en
las
unidades
anteriores,
se
recomienda
revisar
las
lecturas
y
las
teleconferencias
en
Número
de
4
4
5
6
9
11
13
14
17
18
detalle,
siguiendo
los
ejemplos
con
papel,
lápiz
y
calculadora,
para
la
mejor
comprensión
del
comerciales
tema,
para
cualquier
duda,
puede
usar
los
canales
de
comunicación
tales
como:
correo,
X
elluminate
y
chat.
Ventas
2,0
1,3
1,5
2,0
2,8
3,0
3,5
3,0
4,0
4,5
semanales
Y
X Y XY X2 Y2
4 2,0 8 16 4
6 2,0 12 36 4
11 3,0 33 121 9
17
4,0
68
289
16
La
realización
del
diagrama
de
dispersión
es
fundamental.
A
partir
de
él,
visualizamos
el
comportamiento
de
los
datos
y
nos
indica,
en
forma
aproximada,
el
tipo
de
relación
que
hay
entre
18
4,5
81
324
20,25
las
variables.
Tabla 2. Columnas de trabajo
Fuente: Elaboración propia (2016)
Una
vez
establecida
la
relación
entre
variables,
es
importante
establecer
la
Influencia
que
tiene
la
variable
independiente,
número
de
comerciales,
sobre
la
variable
dependiente,
ventas
de
tal
forma
que:
semanales.
Si
r
se
acerca
a
1
hay
correlación
positiva
entre
las
variables,
Para
cuantificar
dicha
relación
y
tener
una
aproximación
de
la
magnitud
de
la
influencia
de
los
gastos
en
publicidad
sobre
las
ventas,
se
debe
trabajar
el
modelo
de
regresión
lineal.
si
se
acerca
a
–1
la
correlación
es
negativa
y
si
se
acerca
a
0
las
variables
son
independientes,
no
tiene
que
ver
la
una
con
la
otra.
1.2. Modelo
de
regresión
lineal
El
siguiente
diagrama
resume
los
análisis
del
coeficiente
de
correlación,
entre
dos
variables:
Sobre
la
nube
de
puntos
se
traza
una
línea
recta
que
cobije
la
mayoría
de
los
puntos.
La
mejor
ecuación
que
tiene
las
mínimas
distancias
con
respecto
a
los
puntos
reales,
se
establece
con
el
método
conocido
como
método
de
mínimos
cuadrados.
La regresión lineal establece para el análisis de las dos variables la ecuación de una línea recta:
Yˆ = A + BX
Yˆ :
simboliza
la
variable
dependiente
calculada
para
diferenciarla
de
la
real
u
observada.
A:
Es
el
intercepto
o
punto
de
corte
de
la
recta
con
el
eje
Y.
Si
la
pendiente
es
positiva
indica
el
Figura 2. Interpretación correlación valor
mínimo
estimado
de
Y,
si
es
negativa
indica
el
valor
máximo
estimado
de
Y.
A
y
B
son
conocidos
como
los
parámetros
del
modelo.
Son
valores
desconocidos
que
se
pueden
La
pendiente
indica
que
al
aumentar
los
comerciales
las
ventas
aumentan
en
0,1923
unidades
calcular
por
el
método
de
mínimos
cuadrados.
monetarias.
Para
determinar
el
valor
A
que
representa
el
punto
de
corte
de
la
recta
con
el
eje
Y
y
B
que
representa
la
pendiente
de
la
recta,
se
emplean
las
siguientes
ecuaciones:
1.3. Coeficiente
de
determinación
El
coeficiente
de
determinación
mide
el
porcentaje
de
valores
de
la
variable
dependiente
Y,
que
n∑ XY − (∑ X )(∑ Y ) caen
sobre
la
línea
recta,
se
interpreta
como
el
porcentaje
de
valores
de
Y
que
son
explicados
por
B=
el
modelo
lineal
en
función
de
la
variable
X.
n ∑ X 2 − (∑ X ) 2
El
coeficiente
de
determinación
se
simboliza
con
r2
y
se
obtiene
como
el
cuadrado
del
coeficiente
de
correlación.
A = Y − BX
Este
coeficiente
siempre
da
un
valor
entre
0
y
1
y
para
la
interpretación
se
multiplica
por
100
para
expresarlo
en
porcentaje.
Un
modelo
de
regresión
lineal
presenta
buen
ajuste
(el
modelo
es
bueno)
si
el
coeficiente
de
determinación
es
mayor
o
igual
al
75%.
En
el
ejemplo
anterior:
Primero
se
calcula
la
pendiente
B
porque
se
requiere
para
el
cálculo
de
A:
r2≥75%
el
modelo
presenta
buen
ajuste.
n∑ XY − (∑ X )(∑ Y )
B=
n ∑ X 2 − (∑ X ) 2
Para
el
modelo
del
ejemplo
anterior
se
tiene
que:
10(327,4) − (101)(27,6) 3274 − 2787,6
B= = = 0,1923
10(1273) − (101) 2 12730 − 10201
r
=
0,962
entonces
r2=
(0,962)2
r2
=
0,9254
A=
∑ Y − B∑ X
A = 27,6 − (0,1923)(101) = 0,8175
n 10
(Se
multiplica
por
100
y
se
expresa
en
porcentaje).
El
92,54%
de
las
ventas
son
explicadas
por
el
modelo
de
regresión
lineal
en
función
del
número
Yˆ = 0,8175 + 0,1923 X
de
comerciales.
El
modelo
presenta
un
buen
ajuste
para
los
datos.
b)
Encuentre
el
modelo
de
regresión
lineal
para
estimar
las
ventas
semanales
en
función
del
número
de
empleados.
e)
¿Qué
porcentaje
de
las
ventas
son
explicadas
por
el
modelo
lineal
en
función
del
número
de
empleados?
f) Estime las ventas para un almacén que tiene 50 empleados.
Solución:
a)
Gráfico
de
dispersión:
Figura 3. Ajuste del modelo
Sobre
el
eje
X
se
colocan
los
valores
para
el
número
de
empleados
utilizando
una
escala
de
valores
Fuente. Elaboración propia (2016)
apropiada,
teniendo
en
cuenta
el
valor
máximo
y
el
mínimo
de
los
datos.
En
forma
similar
se
colocan
los
valores
de
Y
y
se
ubican
las
parejas
ordenadas
de
valores.
Ejemplo:
Se
quiere
medir
la
relación
que
existe
entre
el
número
de
empleados
(X)
y
las
ventas
semanales
(en
millones
de
$)
(Y),
para
un
grupo
de
almacenes
del
sector
de
los
alimentos
en
una
ciudad.
Los
datos
obtenidos
son
los
siguientes:
X 12 16 20 28 30 32 36 40
Y 20 30 36 44 80 60 95 98
Reemplazando
en
la
ecuación
del
modelo
de
regresión
lineal,
queda:
28
44
1232
784
1936
c)
En
este
modelo
el
valor
de
A=-‐18,763
indica
que
si
no
hay
empleados
(X=0)
se
36
95
3420
1296
9025
estaría
dejando
de
vender
$18`763.000.
40
98
3920
1600
9604
El
valor
de
B=2,8649
indica
que
por
cada
empleado
se
estima
que
las
ventas
semanales
aumentan
en
$2`864.900.
r=
(n∑ XY ) − (∑ X )(∑Y )
2 2 2 2
n ∑ X − (∑ X ) n ∑ Y − (∑ Y )
n = 8
∑ X = 214
∑Y = 463
2 2
∑X = 6404
∑Y = 33161
∑ XY = 14332
El
valor
es
positivo
y
cercano
a
1,
lo
que
indica
que
existe
una
correlación
fuerte
entre
el
número
15
12
180
225
144
de
empleados
y
las
ventas
semanales.
El
signo
positivo
indica
que,
a
mayor
número
de
empleados
en
los
almacenes,
se
tienen
mayores
ventas
semanales.
15
13
195
225
169
13
16
208
169
256
e)
El
porcentaje
de
las
ventas
semanales
explicadas
por
el
modelo
lineal
en
función
del
número
de
empleados,
se
mide
con
el
coeficiente
de
determinación:
12
20
240
144
400
2
r = 0,876
10
20
200
100
400
El
87,6%
de
las
ventas
son
explicadas
por
el
modelo
lineal,
presentando
un
buen
modelo
para
hacer
estimación
de
valores
(r2
mayor
al
75%).
8
23
184
64
529
f) Ventas estimadas para un almacén con 50 empleados: 90 113 1360 1216 1979
a)
Encontrar
el
modelo
de
regresión
lineal.
Se
estiman
ventas
de
$124`482.000
para
un
almacén
con
50
empleados.
b)
Estimar
los
parámetros
del
modelo.
2.
En
un
estudio
de
consumidores
se
quiere
analizar
el
comportamiento
del
consumo
c)
Calcular
e
interpretar
el
coeficiente
de
correlación.
semanal
del
producto
(Y
en
libras),
en
función
del
precio
del
producto
por
libra
(X
en
miles
de
pesos)
y
para
esto
se
tiene
información
de
los
últimos
meses,
encontrando:
d)
Calcular
e
interpretar
el
coeficiente
de
determinación.
e)
Estimar
el
consumo
del
producto
para
un
precio
de
$20.000.
r=
(n∑ XY ) − (∑ X )(∑Y )
n = 7
∑ X = 90
∑Y = 113
n ∑ X − (∑ X ) n ∑ Y − (∑ Y ) 2 2 2 2
∑X 2
= 1216
∑Y 2 = 1979
∑ XY = 1360
r=
(7)(1360) ) − (90)(113) = −0,972
2 2
7(1216) − (90) (7)(1979) − (113)
Yˆ = A + BX
Hay
correlación
negativa
entre
el
precio
del
producto
y
el
consumo,
esto
significa
que
a
medida
en
que
aumenta
el
precio
disminuye
el
consumo.
Los
parámetros
del
modelo,
quedan:
n∑ XY − (∑ X )(∑ Y ) (7)(1360) − (90)(113)
B= 2 2
= = −1,5776
d)
r
2
= 0,946
n ∑ X − (∑ X ) (7)(1216) − (90) 2
A=
∑ Y − B∑ X =
113 − (−1,5776)(90)
= 36,4271
n 7 El
94,6%
del
consumo
es
explicado
por
el
modelo
lineal
en
función
del
precio
del
producto,
el
modelo
presenta
un
buen
ajuste
para
los
datos.
El
modelo
lineal
es:
e)
Yˆ = 36,4271 − 1,5776 X
Yˆ = 36,4271 − 1,5776 X
Yˆ = 36,4271 − 1,5776(20) = 4,8751
b)
Para
la
interpretación
de
los
parámetros
A
y
B
del
modelo,
se
tiene
en
cuenta
que
la
pendiente
es
negativa.
El
consumo
máximo
estimado
es
de
36,4271
unidades
del
producto,
cuando
el
precio
aumenta
en
$1.000
el
consumo
disminuye
en
1,5776
unidades.
Textos
Anderson
D.,
Sweenei,
D.
y
Willians,
T.
(2004).
Estadística
para
administración
y
economía.
México:
Cengage
Learning
Editores,
Lind, Marchal y Wathen (2012). Estadística Aplicada a los negocios y la economía. México: Mac Graw Hill.
Newbold, P. (2008). Estadística para los Negocios y la Economía. México: Ed. Prentice Hall.
Walpole R. y Myers R. (2008). Probabilidad y Estadística para Ingenieros. México: Prentice Hall.
Webster A. L. (2000). Estadística aplicada a los negocios y la economía. México: McGraw Hill.