Está en la página 1de 14

CORRELACIÓN Y REGRESIÓN LINEAL

Sea:
x = Número de horas estudiadas Relación de variables cuantitativas
y = Nota (calificación obtenida)
¿Existe una relación lineal entre las variables anteriores?

1) CORRELACIÓN: Mide la intensidad de la relación lineal que puede existir entre dos variables
cuantitativas, su grado de relación y su sentido.

a) Coeficiente de correlación (r)


Sea: n = muestra

x y n ( ∑ xy ) −( ∑ x )( ∑ y )
r= ; –1≤ r ≤1
x1
x2
y1
y2 √ [ n(∑ x )−(∑ x ) ][ n (∑ y )−(∑ y ) ]
2 2 2 2

x3 y3
. .
. .
. .
. .

b) Diagrama de dispersión (Nube de puntos)

c) Coeficiente de determinación (R2) – (Bondad de ajuste)


2 2 2
R =r ∗100 % ; 0 ≤ R ≤100

Permite medir el ajuste de los


puntos a la recta (en porcentajes)
2) ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Variable independiente Intersección en el eje Y

y=bx+ a  Ecuación de regresión simple.


+ b: Directa – por cada unidad que se incrementa en x, y aumentará en
Pendiente promedio en b unidades.
Variable dependiente
– b: Inversa – por cada unidad que se incrementa en x, y disminuye en
promedio en b unidades.
a) Ecuación de regresión lineal simple
y=bx+ a

( ∑ x )( ∑ y ) ∑ y −b ∑ x
( ∑ xy ) − n
a=
n n
b= 2
(∑ x)
( ∑ x2 ) − n

b) Coeficiente de regresión (pendiente)

Y = bx + a

*Interpretación de la pendiente (b)


 + b: Directa – por cada unidad que se incrementa en x, y aumentará en promedio en b unidades.
 – b: Inversa – por cada unidad que se incrementa en x, y disminuye en promedio en b unidades.

Ejercicio 01

x = Número de horas estudiadas  Variable cuantitativa


y = Nota (calificación obtenida)  Variable cuantitativa

x = Número de horas estudiadas y = Nota (calificación obtenida)

0 11
1 12
2 12
3 14
4 14
5 15
6 15
7 16
8 16
9 17
10 17
11 20
a) Coeficiente de correlación (r)

x = Número de horas y = Nota (calificación


x2 y2 xy
estudiadas obtenida)
0 11 0 121 0
1 12 1 144 12
2 12 4 144 24
3 14 9 196 42
4 14 16 196 56
5 15 25 225 75
6 15 36 225 90
7 16 49 256 112
8 16 64 256 128
9 17 81 289 153
10 17 100 289 170
11 20 121 400 220
∑ = 66 ∑ = 179 ∑ = 506 ∑ = 2741 ∑ = 1082

n=12

n ( ∑ xy ) −( ∑ x )( ∑ y )
r=
√ [ n(∑ x )−(∑ x ) ][ n (∑ y )−(∑ y ) ]
2 2 2 2

12∗1082−66∗179
r= → r =0.9682
√ [ 12∗506−( 66 )2 ][ 12∗2741−( 179 )2 ]

Interpretación: Existe una correlación positiva intensa directa entre la cantidad de horas
estudiadas y las calificaciones.
b) Diagrama de dispersión (Nube de puntos)

Excel

- Seleccionar las dos columnas/insertar/


- Seleccionar un punto/clic derecho/agregar
linea de tendencia/presentar ecuación en el
gráfico/presentar el valor de R.

r =R = 0.9682

Interpretación: Se observa que los puntos tienen un patrón de una línea recta con
pendiente positiva (0.6818). Por lo tanto, podemos afirmar que existe una relación
lineal directa entre las horas estudiadas y las calificaciones.

c) Coeficiente de Determinación (R2) – bondad de ajuste

2 2 2
R =r ∗100 % → R =0.9374∗100 %=93.74 %

Interpretación: El coeficiente de determinación es mayor que 70%, por lo tanto, tiene


un buen ajuste.

Observación:
2) ANALISIS DE REGRESIÓN LINEAL SIMPLE

a) Ecuación de regresión lineal simple

x = Número de horas y = Nota (calificación


x2 y2 xy
estudiadas obtenida)
0 11 0 121 0
1 12 1 144 12
2 12 4 144 24
3 14 9 196 42
4 14 16 196 56
5 15 25 225 75
6 15 36 225 90
7 16 49 256 112
8 16 64 256 128
9 17 81 289 153
10 17 100 289 170
11 20 121 400 220
∑ = 66 ∑ = 179 ∑ = 506 ∑ = 2741 ∑ = 1082

n=12

y=bx+ a

( ∑ x )( ∑ y ) 66∗179
( ∑ xy ) − n
1082−
12
b= 2
→ b= 2
=0.6818
(∑ x) ( 66 )
( ∑ x2 ) − n
506−
12

a=
∑ y −b ∑ x → a= 179 − 0.6818∗66 =11.1668
n n 12 12

y=bx+ a → y = 0.6818x + 11.1668 Ecuación de regresión

b) Coeficiente de regresión: (pendiente o el valor b)


y=b x+ c

Ejemplo 01

⏟ x+11.1668
y=0.6818
b=0.6818
positivo
directo

si: x=0→ y=0.6818 ( 0 ) +11.1668=11,1668


si: x=1 → y=0.6818 ( 1 ) +11.1668=11,8486 *En promedio aumento en 0.6818
Interpretación: Por cada hora estudiado, la calificación se incrementa en promedio en
0.6818 puntos.

Ejemplo 02

⏟ x+11.1668
y=−0.25
b=−0.25
negativo
inverso

Interpretación: Por cada hora estudiado, la calificación se disminuye en promedio en 0.25


puntos.

Excell

 ACTIVAR – análisis de datos

Archivo/ opciones/ complementos/ Administrar: Complementos en Excel/ Ir/ Herramientas


para análisis/ aceptar/

 Datos/ Análisis de datos/ Regresión/ Aceptar

y=bx+ a → y =0.6818+11.1667
EJERCICIOS ADICIONALES
EJERCICIO 01
De una determinada empresa se conoce los siguientes datos, referidos al
volumen de ventas (en miles de dólares) y el gasto en publicidad (en miles de
soles) de los últimos 10 años.
Gastos en publicidad Volumen de ventas
(miles de soles) (miles de dólares)
16 10
32 15
48 20
56 22
64 30
80 32
85 34
88 40
90 42
92 38

PASO 1: Prueba de normalidad


*Analizar/Estadístico descriptivo/Explorar/Ingresar variable: Lista dependiente Volumen +
GastoPublicidad/Gráfico: gráfico de normalidad/Aceptar.

PASO 2: Prueba paramétrica: Correlación de Pearson


*Analizar/Correlacionar/Bivariada/Ingresar las variables/Correlación Pearson/Aceptar

Planteamiento de la hipótesis:
Ho: r = 0; No hay relación entre las variables gastos y ventas
H1: r ≠ 0; Hay relación entre las variables gastos y ventas
Interpretación: Como Sig. = 0.001 < 0.05 rechazo la hipótesis nula y acepto la
alterna por lo tanto Existe una correlación directa positiva intensa entre las
variables gastos y ventas.
Excel
*Seleccionar datos (rótulo)/Insertar/Gráfico de dispersión (x;y)/Doble clic (en un punto) - Clic
derecho: Agregar línea de tendencia/Seleccionar: Presentar ecuación - Valor R

*Correlación de Pearson (Los datos tienen distribución normal)  r = 0.9780


EJERCICIO 02
Se tiene los puntajes obtenidos en 20 alumnos en la asignatura de matemática
y estadística.
Matemática Estadística
8 12
7 13
12 10
17 19
18 18
13 14
14 14
10 12
9 7
8 9
11 19
11 8
16 19
19 20
20 20
15 19
7 6
6 7
19 10
14 9

PASO 1: Prueba de normalidad


*Analizar/Estadístico descriptivo/Explorar/Ingresar variable: Lista dependiente Matemática +
Estadística/Gráfico: gráfico de normalidad/Aceptar.
PASO 2: Prueba no paramétrica: Correlación de Searman
*Analizar/Correlacionar/Bivariada/Ingresar las variables/Correlación de Sperman/Aceptar

Planteamiento de la hipótesis:

Ho: ρ = 0; No hay relación entre los cursos de matemática y estadística

H1: ρ ≠ 0; Hay relación entre los cursos de matemática y estadística


Interpretación: Como Sig. = 0.001 < 0.05 rechazo la hipótesis nula y acepto la
alterna por lo tanto Existe una correlación directa positiva intensa entre las
variables matemática y estadística.
Excel
*Seleccionar datos (rótulo)/Insertar/Gráfico de dispersión (x;y)/Doble clic (en un punto) - Clic
derecho: Agregar línea de tendencia/Seleccionar: Presentar ecuación - Valor R

Observación: R2 = 0.4668 R = r = 0.6832 (No coincide con el SPSS ρ = 0.695)  Los datos no
tienen distribución normal  Correlación de Spearman (ρ)
ACTIVIDAD INVIDIDUAL

EJERCICIO 01.

Distribucion de edad y pss


250

200

150
f(x) = 0.402290416115576 x + 108.149027876691
R² = 0.0304170375588531
100

50

0
55 60 65 70 75 80 85 90 95 100

a) Ecuación de regresión lineal


y = 0.4629x + 111.09

donde: y = Presión Sanguínea Sistólica (V. dependiente)


x = Edad (V. independiente)
m = + 0.4629 (relación directa)

Interpretación: Por edad , en promedio la Presión Sanguínea


Sistólica es de 0.4043.

1. Correlación
b) Coeficiente de correlación (r)
R =0.9137  R=√ 0.9137  R = 0.9559
2

 R = r = 0.9559
Interpretación: Las variables de edades y de Presión Sanguínea
Sistólica tiene una correlación positiva intensa (relación directa)

c) Coeficiente de determinación (R2) – Bondad de ajuste

R2 = 0.9137 *100%  R2 = 91.37% ≥ 70%

Interpretación: Las variables de edades y de Presión Sanguínea


Sistólica tienen un buen ajuste

EJERCICIO 02
Análisis de regresión:
a) Ecuación de regresión lineal
 y = 0.7292x + 79.359
donde: y = Glucosa (V. dependiente)
x = Peso (V. independiente)
m = 0.7292 (relación directa)

Interpretación: Por peso el nivel de glucosa aumenta en 0.7292

2. Correlación
b) Coeficiente de correlación (r)
R =0.0952 R=√ 0.0952  R = 0.3085 R = r = 0.3085
2

Interpretación: Las variables de peso y el nivel de glucosa correlación


positiva idebil (relación directa)

c) Coeficiente de determinación (R2) – Bondad de ajuste

R2 = 0.0952*100%  R2 = 9.52% < 70%

Interpretación: Las variables de peso y el nivel de glucosa tienen un


mal ajuste

EJERCICIO 03
Peso (y)
70

60
f(x) = 2.93002915451895 x + 19.6909620991254
R² = 0.948978182498081
50

40

30

20

10

0
6 7 8 9 10 11 12 13 14 15

También podría gustarte