Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SESIÓN 07:
Diagrama de dispersión y
Coeficiente de correlación lineal de Pearson.
Modelo de regresión lineal simple.
Coeficiente de determinación.
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
RESULTADO DE
CONTENIDOS/TEMÁTICA EVIDENCIAS DE APRENDIZAJE
APRENDIZAJE
CAPACIDADES:
Analiza el coeficiente de correlación de
Pearson para dos variables
cuantitativas y los coeficientes para el
modelo de regresión lineal simple.
TEMÁTICA:
⮚ Aplicaciones con el diagrama de
dispersión.
⮚ Coeficiente de correlación lineal de
Pearson.
⮚ Modelo de regresión lineal simple
(Uso de EXCEL).
¿Qué vamos a estudiar?
En esta unidad estudiaremos la Correlación y la Regresión Lineal simple, es decir, vamos a tratar diferentes formas
de describir la relación entre dos variables cuando estas son numéricas.
Ejemplo:
20
Var. Dependiente (Y)
25
Var. Depen-
15 20
diente (Y)
4
10 15 2
10 0
5
5
0 Var. Independiente (X)
1 3 5 7 9 0
11 6 8 10 12 14 16 18 20 22
Var. Independiente (X) Var. Independiente (X)
Correlación
Lineal Positiva Correlación Lineal Sin
(Directa) Negativa Correlación
(Inversa)
DIAGRAMA DE DISPERSION
O NUBE DE PUNTOS
•• • •
• •
•
• •
• ••
• ••
• • •
• • • •
•
•• X
•• •
X X
Y • Y Y
• •• • • • ••
•• •
•• • • •
•• • •• • • •
• ••
•
•
•• • • • • ••
•• • • ••
•
•• •• •• • • •
•• •
•••
• ••
•
X X X
(d) Curvilínea inversa (e) Lineal inversa (d) Ninguna relación
con más dispersión
COEFICIENTE DE CORRELACION
Llamado también coeficiente de correlación lineal de Pearson, es
un número que indica el grado de asociación entre las variables y
se define del siguiente modo:
r=
n xy - x y
n -
x 2
( x) n y - ( y )
2 2 2
Muy Alta Alta Moderada Baja Muy baja Muy baja Baja Moderada Alta Muy Alta
-- -- -- -- -- + + + + +
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
Perfecta -- Nula Perfecta +
INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN DE PEARSON
R INTERPRETACIÓN
+1 Perfecta Positiva
-1 Perfecta Negativa
0 Correlación Nula
COEFICIENTE DE DETERMINACION R2
El coeficiente de determinación, también conocido como Bondad de
Ajuste es la proporción de la variación total en la variable dependiente Y
que está explicada por la variación de la variable independiente X.
El coeficiente de determinación es el cuadrado del coeficiente de
correlación.
Donde:
r: Coeficiente de Correlación.
EJEMPLO 1
Consideramos que las ventas se relacionan con los gastos en publicidad y si tenemos los datos
que se presentan en la siguiente tabla entonces podremos observar la siguiente gráfica de
dispersión:
Gastos en Ventas en
publicidad millones Diagrama de Dispersión
Año
en millones de soles 160
Ventas en Millones
100
2009 5 40
80
2010 5 80 60
2011 6 120 40
2012 6 90 20
2013 7 125 0
2 3 4 5 6 7 8 9
2014 4 35
Gastos en Publicidad (Millones)
2015 8 135
Observando el gráfico de dispersión podemos decir que las ventas y el gasto en publicidad
tienen una correlación Directa o Positiva.
EJEMPLO 1
Del ejemplo 1 hallar el coeficiente de correlación de Pearson, luego interpretar el resultado.
r=
n xy - x y
8(4015) - 44(645)
0.932
n x 2
- ( x ) n y - ( y )
2 2 2
2 2
8(260) - 44 8(65975) - 645
𝟐
publicidad.
REGRESION
y=f(X1,X2) X2
y=f(x)
X1
X
Donde:
y ………………………... es la variable dependiente,
x, x1, x2, . . . , xk, ………….son variables independientes.
Se busca encontrar una función de X lineal simple que nos permita aproximar Y mediante la siguiente formula:
Y
Y = b0 + b1 X
es
b0 (ordenada en el origen, constante)
nt
ie
b1 (pendiente de la recta)
nd
pe
De
X
Esta
ientes Y e Y rara vez coincidirán por muy bueno que
determinado Independ sea el modelo de regresión. A la cantidad e= se
s
por 2 variables: Explicativa le denomina residuo o error residual.
s
Predictora
¿Qué hacer para realizar una regresión?
Y
Cuando se realiza una predicción, es importante determinar el error estándar, el cual se representa por Syx y mide la dispersión
de los datos observados con respecto a la línea de regresión.
s2 n
∑( y i)
yi − ^
2
i=1
yx =
n −2
𝑆 𝑌𝑋 =
√ 𝑦𝑥
𝑠 2
DIAGRAMA DE DISPERSION
Es la representación de los puntos o datos de cada una de las variables en el plano cartesiano.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Es recomendable en todo estudio de regresión pues permite tener una idea, sobre la existencia o
no de la regresión.
MODELO DE REGRESION LINEAL
Este tipo de regresión se utiliza cuando existe solo una variable independiente X
para una variable dependiente Y. Está definida por la siguiente ecuación lineal en
su forma general:
Modelo de Y = b 0 + b1 X
regresión
Donde: b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)
n XY ( X )( Y )
1
n X 2 ( X ) 2
0
Y
1
X
n n
EJEMPLO 1
Del ejemplo 1 determinar el modelo de regresión lineal, luego predecir las ventas en millones de soles si
se invierte en publicidad 5.5 millones de soles.
n XY ( X )( Y )
8( 4015) 44(645)
1 25.972
n X 2
( X ) 2 8( 260) 44 2
0 Y 1
X
645
( 25.972)
44
62.221
n n 8 8
Entonces el modelo de
regresión será:
Y= -62.221 +25.972 X
Podemos predecir usando el modelo de regresión lineal que las ventas a través de la variable gastos en
publicidad, está dado por la siguiente valor
Y= -62.221 +25.972 (5.5) = 80.6 millones de soles
ERROR ESTANDAR DE ESTIMACIÓN Y= -62.221 +25.972 X
Gastos en
Ventas en millones
Publicidad en
Año de soles Y estimado e e^2
millones de soles
(Y)
(X)
2008 3 20 15.694444 4.3055556 18.5378086
2009 5 40 67.638889 -27.63889 763.908179
2010 5 80 67.638889 12.361111 152.797068
2011 6 120 93.611111 26.388889 696.373457
2012 6 90 93.611111 -3.611111 13.0401235
2013 7 125 119.58333 5.4166667 29.3402778
2014 4 35 41.666667 -6.666667 44.4444444
2015 8 135 145.55556 -10.55556 111.419753
1829.86111
s2 n
17.46 es la dispersión de
∑( aquellos valores que no quedan
304.976852
2
^i )
yi − y
yx =
i=1 dentro de la recta de regresión
n −2 lineal para el conjunto de
valores Y
𝑆 𝑌𝑋 = 17.4635865
√𝑠 2
𝑦𝑥
Ejemplo 2
- Obtenga la ecuación de
regresión.
- Interprete el valor de la
pendiente.
- Si un trabajador tiene 38
años, ¿cuántos días se
espera que falte al año?
- Para calcular el valor de los Coeficientes de la Ecuación:
Las sumatorias:
Pendiente: Intercepto en el
origen:
Regresión Lineal Simple
- La Ecuación:
- Interpretación de la Pendiente:
Semana 1 2 3 4 5 6 7 8 9 10
Publicidad en 20 30 30 40 50 60 60 60 70 80
minutos X
Ventas Y 50 73 69 87 108 128 135 132 148 170
Interpretación
B0: El Número real de artículos vendidos es de 10 unidades.
B1: El número promedio de artículos vendidos aumenta en 2 unidades a medida que aumenta
cada minuto de duración, de la publicidad en la semana.
EJERCICIO 4:
La tabla siguiente muestra las notas obtenidas por 8 estudiantes en un examen parcial, las
horas de estudio dedicadas a su preparación previos al examen:
Nota 15 16 17 10 15 18 11 19
Horas de estudio 7 10 9 4 8 10 5 14
Ir a insertar, elegir
gráfico de
dispersión
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Seleccionar los
rangos de la
variable (x) , (y)
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegir en diseño
rápido la opción
“diseño 9”
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
12
f(x) = 0.589715536105033 x + 1.07932166301969
R² = 0.876241692517196
Obtenemos el
10 modelo de
regresión lineal y el
8 coeficiente de
determinación
Axis Title
0
0 2 4 6 8 10 12 14 16 18 20
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Calculando en Excel por análisis de datos
Elegimos la opción
análisis de datos
En el menú
escogemos
regresión
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos los
rangos Y , X
podemos colocar
rótulos para titular
nuestros
resultados.
Elegimos el rango
de salida donde
saldrán los
resultados y
aceptamos.
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
ANÁLISIS DE VARIANZA
Total de la muestra
Grados de libertad
Suma de cuadrados
Promedio de los cuadrados F Valor crítico de F
Regresión 1 105.952225 105.952225 70.8026564 7.5452E-06
Residuos 10 14.964442 1.4964442
Total 11 120.916667
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95.0%Superior 95.0%
Intercepción 1.07932166 0.74335121 1.45196731 0.17715225 -0.57696806 2.73561138 -0.57696806 2.73561138
Tiempo de residencia (X) 0.58971554 0.07008382 8.41443144 7.5452E-06 0.43355904 0.74587203 0.43355904 0.74587203
𝒃 𝒂
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Editamos y rotulamos
en vista de variables
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos
regresión/lineales
Elegimos variable
dependiente e
independiente
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Escogemos
estimaciones y ajuste
del modelo/ continuar
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos la variable
dependiente
(DEPENDENT) y
ajuste de la variable
predictora
(*ADJPRED)
Técnicas e
Programa de Investigación
Comparando resultados Formativa
Instrumentos para
la Investigación
Coeficiente de
correlación de
Pearson
Error estándar
Coeficiente de
determinación
𝒃 𝒂
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Gráfico de dispersión
12
También nos
10
muestra el grafico
Actitud hacia la ciudad
8 de dispersión
6
0
0 2 4 6 8 10 12 14
Elegimos
correlacionar /
bivariadas
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Elegimos las
variables
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
Correlación de
Pearson para
variables
paramétricas
Correlación
significativa,
(P<0.05) evidencia
estadística para
rechazar H0
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
2. Los gastos semanales de publicidad y las ventas de una empresa en dólares, para una muestra
de 10 semanas son:
Gastos sem 41 54 63 54 48 46 62 61 64 71
x public
Ventas 1250 1380 1425 1425 1450 1300 1400 1510 1575 1650
seman
Tiempo de 3 3 3 4 4 5 5 5 6 6 7 8
estudio
Calificación 9 1 11 12 15 14 16 15 18 16 15 17
2
6. La materia prima que se usa en la elaboración de una fibra sintética se almacena en un local que no
tiene control de humedad. Las mediciones de la humedad relativa en el local y del contenido de humedad
de una muestra de la materia prima (ambos en porcentajes) durante 12 días, dieron los
siguientes resultados.
Contenido
a)Realice un diagrama de dispersión e indique de
Humeda humedad
¿Sugiere la gráfica una asociación lineal? d (X) (Y)
b)Realice la ecuación de regresión 42 12
c)Interprete la pendiente, realice un pronóstico 35 8
50 14
d)Calcule e interprete el coeficiente de correlación 43 9
e)Calcule e interprete el coeficiente de determinación 48 11
f)Calcular e interpretar el error estándar de estimación 62 16
31 7
36 9
44 12
39 10
55 13
48 11
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación
7. El siguiente conjunto de datos se ha tomado sobre grupos de trabajadoras de. Cada grupo está
formado por trabajadores de la misma profesión, en cada uno de los veinticuatro grupos muestreados
se han observado dos variables: el índice de estandarizado de consumo de cigarrillos (x) y el índice de
muertes por cáncer de pulmón (Y) variable dependiente. Se desea estudiar la relación entre estas dos
variables.
8. El director de una escuela está interesado en relacionar dos variables en los estudiantes y
ha tomado como información los resultados de la prueba de habilidad y del puntaje obtenido
en el examen de admisión, los cuales se muestran a continuación
9. Una cadena de restaurantes de comida rápida decide llevar a cabo un experimento para
medir la influencia sobre las ventas del gasto en publicidad. En 8 regiones del país, se
realizaron diferentes variaciones relativas en el gasto en publicidad, comparado con el año
anterior, y se observaron las variaciones en los niveles de ventas resultantes. La tabla
adjunta muestra los resultados.
10. Una compañía de seguros considera que el número de vehículos (y) que circulan por una
determinada autopista a más de 120 km/h , puede ponerse en función del número de
accidentes (x) que ocurren en ella. Durante 7 días obtuvo los siguientes resultados:
Accidentes xi 5 7 5 3 2 1 9
Vehículos yi 15 18 13 11 10 8 20
REFERENCIAS
Malhotra, Narest, (2008) Investigación de mercados. Quinta edición. Editorial Pearson
Educatíón, México ISBN: 978-970-26-1185-1 Área: Administración y economía
Moore David. (1997) Estadística aplicada básica. Segunda edición. Antoni Bosch Editor
Lind, A., Marchal, G. y Wathen, A. (2012) . Estadística aplicada a los negocios y la economía.
(15. Ed). México: McGraw-Hill Interamericana Editores
Pagano, R. (2011). Estadística para ciencias del comportamiento. (9. Ed). México: Cengage
Learning Editores Corporativo Santa Fe
Técnicas e
Programa de Investigación
Instrumentos para
Formativa
la Investigación