Está en la página 1de 25

ANÁLISIS DE DATOS

REGRESIÓN
LINEAL SIMPLE 14
• ¿Por qué estudiar regresión lineal?
• Secuencia de estudio RLS

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


INTRODUCCIÓN

• ¿De qué factores crees tú que depende el volumen de ventas (en soles) de un platillo en
un restaurante?

Estacionalidad de
N.° platos vendidos N.° de clientes
cada platillo

Volumen de Ventas N.° de


Disponibilidad
complementos de la
de Insumos al día (S/.) comida

Precio de cada
Etc., etc., etc.
platillo

• ¿Se podrá establecer un modelo matemático que me permita un análisis técnico del comportamiento de una
variable respecto a otras?

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


¿POR QUÉ ESTUDIAR
REGRESIÓN LINEAL?

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


¿POR QUÉ ESTUDIAR REGRESIÓN LINEAL?

El análisis de regresión nos permite encontrar un modelo matemático que nos ayude a pronosticar
o estimar el comportamiento de una variable en base a los cambios que sufren otras variables
diferentes. La variable dependiente es la que se quiere predecir y las independientes son las que
se utilizan para lograr esa predicción. En nuestro estudio analizaremos la relación lineal de dos
variables, por eso la llamaremos REGRESIÓN LINEAL SIMPLE.

Existen regresiones múltiples donde se utilizan más de dos variables y también


regresiones con modelos no lineales (cuadrático, exponencial, etc.)

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


¿POR QUÉ ESTUDIAR REGRESIÓN LINEAL?

• Algunos casos que podríamos analizar con regresión


simple serían:

• ¿Cuál es la dependencia entre el resultado de las


notas obtenidas por los alumnos del curso de EAN y el
puesto obtenido en el ranking global del área?

• En este caso:

• El puesto dependería de la nota obtenida, es decir:

Puesto: Variable dependiente (Y)


Nota: Variable independiente (X)

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


• ¿Cuál es la dependencia entre los gastos en
publicidad de una empresa y su nivel de ventas?

Gastos en publicidad: independiente (X)


Nivel de ventas: dependiente (Y)

• ¿Cuál es el grado de dependencia entre el consumo


de energía en kw y el número de habitaciones que
tiene un hotel?

Consumo de Energía: dependiente (Y)


N° de habitaciones: independiente (X)

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


SECUENCIA DE
ESTUDIO RLS

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


Tamaño de Gastos en
Familia Alimentos
Analicemos la secuencia de estudio de RLS con 3 90
el siguiente ejemplo:
• Utilizando la información mostrada se desea 6 130
establecer la relación entre el número de 5 110
miembros de una familia y el dinero gastado
en alimentos semanalmente. 7 140
4 100
• Explica la dependencia entre las variables y
elabora el diagrama de dispersión 5 115
5 80
5 105
8 150
1 70

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


Depende de

ESTABLECER TIPO DE VARIABLES Tamaño Gastos en


Se debe establecer la dependencia entre el gasto y de Familia Alimentos
en tamaño de familia. Con una simple pregunta 3 90
podremos identificar la dependencia:
6 130
¿El número de miembros depende de los gastos? 5 110
o 7 140
¿El gasto depende del número de miembros?
4 100
Por tanto: 5 115
5 80
X: Tamaño de la familia
5 105
Y : Dinero gastado en alimentos 8 150
1 70

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


DIAGRAMA DE DISPERSIÓN
La información proporcionada la ubicamos en un plano y resulta el “Diagrama de Dispersión” o
“Nube de Información”
X Y Gasto en alimentos
160
Tamaño de Gastos
Familia en Alimentos
140
(6; 130)
3 90
120
6 130
5 110 100
Se
7 140 vierte
80
4 100 (3; 90)
60
5 115
5 80 40
5 105
20
8 150
0
1 70 0 1 2 3 4 5 6 7 8 9
Tamaño de familia
ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados
SECUENCIA DES ESTUDIO RLS

COEFICIENTE DE CORRELACIÓN LINEAL (r)


Es un indicador que mide qué “tan asociados linealmente” están los puntos que conforman la
nube para poder hacer el análisis lineal.

Matemáticamente se debe utilizar la siguiente fórmula para hallarlo:

n (  x . y)  (  x )(  y)
r
n (  x 2 )  (  x )2 n (  y 2 )  (  y )2 

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


SECUENCIA DES ESTUDIO RLS

COEFICIENTE DE CORRELACIÓN LINEAL (r)


Interpretación para “ r ”:
Para que se pueda decir que las variables están significativamente relacionadas, el valor de “ r ”
debe estar en el siguiente intervalo:

r ɛ [ -1 ; -0,8 ] ó [ 0,8 ; 1]

r=+ r=-

r =0 No existe correlación (la nube de información es muy heterogénea)


ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados
SECUENCIA DES ESTUDIO RLS

COEFICIENTE DE CORRELACIÓN LINEAL (r)

Es decir:

Existe relación lineal No hay relación lineal significativa Existe relación lineal directa
inversa significativa significativa

0
-1 -0.8 0 +0.8 +1

En general, diremos que es apropiado usar el modelo lineal si: r ∈ [ -1; -0,8 ] o [ 0,8; 1,0 ]

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


COEFICIENTE DE CORRELACIÓN LINEAL (r)
Si se quiere utilizar la fórmula:
para encontrar el valor de “r” tendríamos que completar el cuadro de datos:

Reemplazando en la fórmula resulta: r = 0.8982


Tamaño de Gasto en
Familia (x) Alimentos (Y) X2 Y2 XY

1 70 1 4900 70
3 90 9 8100 270
4 100 16 10000 400
5 110 25 4900 550 “La relación lineal entre las
5 115 25 8100 575 variables es significativa
5 80 25 13225 400 (es decir un estudio con
5 105 25 6400 525 regresión lineal es adecuado)”
6 130 36 11025 780
7 140 49 19600 980
8 150 64 22500 1200
Sumatorias 49 1090 275 124750 5750

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


SECUENCIA DES ESTUDIO RLS

COEFICIENTE DE CORRELACIÓN LINEAL (r)


Con calculadora resulta:

Fx – 570 ES ( o similares)
Mode 3: STAT
Seleccionas: 2: A+BX
Vacías la información en cada columna (x;y) y
grabas con AC
Shift 1-STAT 5:Regr
Seleccionas 3: r
seguido de: “ =“

r = 0.89820
“La relación lineal entre las variables
es significativa”
(se puede hacer el estudio con regresión lineal)
ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados
SECUENCIA DES ESTUDIO RLS

RECTA DE REGRESIÓN
La forma general de la ecuación de regresión es:

Y  A  BX

Y: Valor pronosticado de la variable dependiente “y” para un determinado valor de “x”.


A: Valor estimado de Y, cuando X = 0.
B: Variación de ‘Y´ cuando la variable independiente ‘X’ se incrementa en una unidad.

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


SECUENCIA DES ESTUDIO RLS

RECTA DE REGRESIÓN
Para determinar los coeficientes A y B se utilizan las siguientes fórmulas:

Haciendo cálculo obtenemos la ecuación:


A= 51.576
B= 11.719
Y  51.576  11.719X X: Tamaño de la familia

Y: Dinero gastado en alimentos

Con este modelo podremos hacer todas las estimaciones o pronósticos relativos a las
variables estudiadas.

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


SECUENCIA DES ESTUDIO RLS

RECTA DE REGRESIÓN
Con calculadora:

A= 51.576
B= 11.719

Fx – 570 ES (similares)
Mode 3: STAT
Seleccionas: 2: A+BX
Vacías la información en cada columna
Shift 1-STAT 5:Regr
Seleccionas AóB
seguido de: “ =“

Y  51.576  11.719X
ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados
SECUENCIA DES ESTUDIO RLS

COEFICIENTE DE DETERMINACIÓN (r2)


Nos da la idea de en qué medida la variación que tiene “y” se explica como consecuencia de la
variación ocurrida en “x” según el modelo lineal.

En nuestro ejemplo:
r = 0.8982 significa que las dos variables tienen una correlación lineal positiva intensa.

r2 = 0,8068 significa que el 80,68% de la variación total de los gastos familiares se debe o se
explica linealmente por la variación en el número de miembros de cada familia.
El 19,32 % restante de la variación de las ventas no está afectado linealmente
por la variación de la puntuación (se debe a otros factores)

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


CASO:
Los jefes de RRHH y Marketing de la
empresa VODE, especializados en cosmética
y productos para el cuidado de piel, citaron
al azar 5 aspirantes -con experiencia en el
rubro- para incorporarlos a su selecto grupo
de fuerza de venta. La prueba diseñada en
estos casos relaciona la puntuación de
una prueba que es tomada al momento
de la entrevista y las ventas realizadas
en una semana.

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


RESULTADOS:
Vendedor Puntos prueba Ventas semanales ($)

David Vargas 4 5000

Teofilo Olvar 7 12000 Haz un estudio para poder realizar


Carmen Liontop 3 4000 pronósticos de ventas para puntuaciones
Rosa Estuquin 6 8000 que no aparecen en la información.
Edgardo Marcona 10 11000

Debemos:
1 Identificar las variables.
2 Graficar el diagrama de dispersión.
3 Establecer la intensidad de la relación
4 Determina el modelo RLS
5 Establecer: ¿en que medida influye la variación de una variable respecto a otra?
ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados
1 Identificación de Variables:
• Variable independiente: puntuación
• Variable dependiente: Ventas semanales

2
Diagrama de dispersión:
Ventas Semanales

Puntos de Prueba

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


3
Coeficiente de correlación lineal:
n (  x . y)  (  x )(  y)
r
Con Fórmula: n (  x 2 )  (  x )2 n (  y 2 )  (  y )2 
Ventas semanales
Vendedor Ptos. Prueba “X” (miles) “Y” X2 Y2 XY

Davida Vargas 4 5 16 25 20
Teofilo Olvar 7 12 49 144 84
Carmen liontop 3 4 9 16 12
Rosa Estuquin 6 8 36 64 48
Edgardo Marcona 10 11 100 121 110
n=5 Sumas 30 40 210 370 274

Reemplazando resulta: r = 0.8779

La relación lineal entre las variables es significativa


ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados
SECUENCIA DES ESTUDIO RLS

Con calculadora resulta:

fx – 570 ES (similares)
Mode 3: STAT
Seleccionas: 2: A+BX
Vacías la información en cada columna

Shift 1-STAT 5:Regr


Seleccionas 3: r

seguido de: “ =“

r = 0.8779
La relación lineal entre las variables es significativa

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados


SECUENCIA DES ESTUDIO RLS

4
Modelo de RLS:

A = 1200 Y  1200  1133.3X


B = 1133.3

5
Coeficiente de Determinación:

r2 = 0.7707 ó 77.07%

ANÁLISIS DE DATOS  SESIÓN 14 © ISIL. Todos los derechos reservados

También podría gustarte