Está en la página 1de 8

Regresión lineal aplicada a las ventas de un negocio.

Gabriel M, Lozano Mauricio, Zapata David R, Tutachá


Facultad de ingenierı́as Facultad de ingenierı́as Facultad de ingenierı́as
Universidad San Buenaventura Universidad San Buenaventura Universidad San Buenaventura
Medellı́n, Colombia Medellı́n, Colombia Medellı́n, Colombia
gabriel.lozano192@tau.usbmed.edu.co Cesar.zapata17@tau.usbmed.edu.co david.rizo201@tau.usbmed.edu.co

I. O BJETIVOS III. R ESUMEN

A. Objetivo general En el presente proyecto se analizara la implementación de


la estadı́stica inferencial conjunto con el análisis de regresión
Exponer el efecto que tiene la publicidad sobre las ventas lineal. Tomando como problema planteado el efecto que tiene
de un negocio haciendo un uso aplicativo de los conceptos la publicidad sobre las ventas de un negocio, para solucionar
de regresión y los análisis de correlación, con los cuales se el problema planteado se hará uso de una base de datos
presentara como determinar tanto la naturaleza como la fuerza previamente realizada y ası́ obtener los datos necesarios para
de una relación entre dos variables. la realización del proyecto, y gracias al análisis de regresión
será posible entender el modo en que la variable dependiente
B. Objetivos especı́ficos es afectada por cambios de otros factores.
Palabras clave: Estadı́stica inferencial, Regresión lineal,
• Construir un modelo de regresión lineal que describa
pronostico, afectada, análisis de regresión.
como influye una o varias variables X sobre una variable
Y.
• Obtener estimaciones de los parámetros de dicho modelo. IV. M ARCO TE ÓRICO
• Estimar el valor promedio de Y para un valor de X.
Regresión lineal simple
• Minimizar los errores del modelo por medio de esti-
madores de mı́nimos cuadrados, buscando el mejor ajuste. Este algoritmo es un método estadı́stico que permite estudiar
las relaciones entre dos variables cuantitativas continuas.
II. I NTRODUCCI ÓN La regresión lineal es una técnica paramétrica utilizada
para variables dependientes continuas, dado un conjunto de
El objetivo del análisis de regresión trata de determinar variables de tipo independientes.
una función sencilla que describa el comportamiento de una Es de naturaleza paramétrica, ya que se basa en el conjunto
variable dados los valores de otra u otras variables, a su vez de datos para realizar suposiciones
haciendo uso del análisis de correlación se puede determinar Si el conjunto de datos sigue estos supuestos, la regresión
el grado en el que se relacionan las variables. resulta increı́ble, de lo contrario tiene problemas con una
Continuando con lo anterior, para llegar a realizar un precisión convincente.
análisis de regresión, primero se debe realizar mediciones, Matemáticamente, la regresión usa una función lineal para
observaciones o experimentos de donde se obtengan datos de predecir de manera aproximada la variable dependiente dada
las diferentes variables, para el caso de este proyecto estos por:
datos se obtendrán de una base datos. Por consiguiente se
debe determinar un tipo de relación de dependencia entre las Y = α + βX + ε
variables, tomando ası́ una variable independiente o explicativa
y una variable dependiente o respuesta, para ası́ lograr obtener
estimaciones razonables de la variable dependiente para los
distintos valores de la otra o otras variables independientes,
en el caso de este proyecto se estudiara la dependencia de las
ventas de un negocio frente a la publicidad que haga el mismo,
con el fin de lograr hacer pronósticos de eventos futuros de
acuerdo con el comportamiento de las variables.

Fig. 1. Modelo regresión lineal


En este caso, tenemos que recurrir a un método que impida
En donde α es la ordenada en el origen (el valor que que los negativos se anulen con los positivos, ası́ que se
toma ”Y” cuando ”X” vale 0). calculan estas diferencias elevadas al cuadrado, según la
β es la pendiente de la recta (e indica cómo cambia ”Y” al fórmula siguiente:
incrementar ”X” en una unidad). n n
ε es la variable de error, la cual puede variar minimamente X
eni =
X
(yi − ji )
2
pero representa que tan alejados estamos de la exactitud. i=1 i=1
X e Y son variables aleatorias independiente y dependiente,
por lo que no se puede establecer una relación lineal exacta En ese orden de ideas, método de los mı́nimos cuadrados
entre ellas. viene siendo la búsqueda de la recta de regresión que nos
proporcione un valor lo menor posible de la suma de los
Vamos a centrarnos un poco en el valor de ε. cuadrados de los residuos. Para calcular los coeficientes de
Podemos representarlo matemáticamente de la siguiente la recta de regresión solo tendremos que ampliar un poco la
manera: ecuación anterior, sustituyendo el valor estimado de Y por
εi = yi − ŷi los términos de la ecuación de la recta de regresión:

A esta regresión lineal se le denomina ”simple” debido n


a la existencia de unicamente una variable independiente, la
X 2
X
e2i = (yi − ŷi) = i = 1n (yi − b0 − b1 x
cual vendrı́a siendo ”x”. i=1
El objetivo de la regresión lineal simple minimizar lo más
posible la distancia vertical entre todos los datos, por lo tanto, Aquı́ se deben encontrar los valores de α y β, que minimicen
para determinar la mejor linea común, se necesita minimizar la función. Posteriormente solo se deben igualar a cero las
la distancia entre todos los puntos y la distancia de la lı́nea. derivadas parciales de la ecuación anterior.

Hay muchos métodos para lograr este objetivo, todos Para el valor de β:
estos métodos tienen solo un objetivo, que es minimizar la
Sxy
distancia. b1 =
Una forma de que el modelo de regresión encuentre la s2x
lı́nea de mejor ajuste es utilizar el criterio de los mı́nimos
Donde tenemos en el numerador la covarianza de las dos
cuadrados para reducir el error.
variables y, en el denominador, la varianza de la variable
El error es una parte inevitable del proceso de predicción
independiente. A partir de ese análisis se puede hallar el valor
, no importa qué tan fuerte sea el algoritmo que elijamos,
de α:
siempre habrá un error irreducible. Es claro que no podemos
b0 = ȳ − b1 x̄
eliminar por completo el error, pero siempre podemos
intentar reducirlo al mı́nimo posible. Es precisamente en este Con estos valores, es posible ahora construir la recta. Por
momento que se utiliza la técnica de mı́nimos cuadrados para ejemplo, en R se calcula mediante la función lm(), iniciales
lograr ese objetivo. de linear model.

Mı́nimos cuadrados Coeficiente de regresión


Para poder llegar a la ecuación del mı́nimo cuadrado, primero La relación entre la variable ”Y” frente a la variable ”X”,
se debe tener en cuenta que “X” y “Y” ya se tienen claros está dada por el coeficiente de regresión.
para posteriormente calcular la recta que mejor los pueda unir.
Lo que variará en la ecuación de la recta que seleccionemos a) Si by/x = 0, para cualquier valor de X la variable
serán los coeficientes del modelo, α y β. Los coeficientes Y es constante (es decir, no cambia).
de interés son aquellos con los que el componente aleatorio
de la ecuación (el error) sea lo menor posible. Se busca la b) Si by/x > 0, esto nos indica que al aumentar el
ecuación con un valor de la suma de residuos lo más bajo valor de X, también aumenta el valor de Y.
posible. Partiendo de la ecuación detallada anteriormente
sobre el (error), podemos representar la suma de residuos de c) Si by/x < 0, esto nos indica que al aumentar el
la forma siguiente, donde n es el número de pares de valores valor de X, el valor de Y disminuye.
de X e Y de que disponemos:
Correlación lineal
n n
X X Al hablar de regresión lineal es necesario hablar de la cor-
ei = yi − ŷi
i=1 i=1
relación lineal o coeficiente de correlación lineal. Es una
medida estadı́stica que cuantifica la dependencia lineal entre • Los residuos deben ser independientes entre si
dos variables, o sea, si se representan en un diagrama de • para cada valor  de la variable
 X, la varianza de los
dispersión los valores que toman dos variables, el coeficiente residuos ei = Ŷ i − Y i debe ser la misma (es decir,
de correlación lineal señalará lo bien o lo mal que el grupo que el ajuste es igual de preciso independientemente de
de puntos de vista representados se aproxima a una recta. los valores que tome X).
Se puede expresar como: • para cada valor de la variable X, los residuos ei tienen
Cov xy distribución normal de media cero.
ρxy =
σxσy Sistema R
Cov (x;y): la covarianza entre el valor x e y. Para utilizar la base de datos, en las herramientas del R
seleccionaremos File,Import Dataset y luego From Text(base).
σ(x): desviación tı́pica de x. posteriormente seleccionamos nuestra base de datos.

σ(y): desviación tı́pica de y

La correlación puede tomar valores menores y mayores


que cero, si toma como valor, cero; quiere decir que no hay
correlación.

Gráficamente es posible representar estos modelos de


correlación de la forma:

Fig. 5. Sistema R

Utilizaremos la expresión del modelo de regresión lineal:


Fig. 2. Correlación lineal negativa
yi = β0 + β1 Xi

Donde β0 , β1 son los parámetros desconocidos a estimar.

Para representar los valores de las variables utilizamos


un diagrama de dispersión, Para utilizar este diagrama en R
utilizamos la función Plot. Sintaxis: Plot(x,y).

Una vez se comprueba gráficamente la relación lineal


Fig. 3. Correlación lineal inexistente de las variables el siguiente paso es la estimación de los
parámetros β0 , β1 , a partir de un conjunto de datos,para esto
utilizamos la función en R, ”Lm”. Sintaxis: lm(formula, data)
donde el parámetro ”formula”, indica la relación entre la
variable dependiente y la variable independiente; además se
tendrán en cuenta unos cuantos comandos de R que nos serán
de suma ayuda, estos son:(attach, names, class, summay, y
organizar conjuntos de datos o vectores).

Finalmente, para iniciar con la puesta en práctica de la


Fig. 4. Correlación lineal positiva teorı́a necesaria para pasar a abordar un caso real, es
necesario definir también los siguientes aspectos:
Para garantizar la aproximación del modelo de regresión
lineal a la recta que de interés se debe cumplir: Publicidad: La publicidad es la herramienta de comunicación
más potente que existe,es una estrategia de mercadotecnia que
envuelve la compra de un espacio en medios para divulgar mediante la herramienta de Rstudio, primero importando el
un producto, servicio o marca, con el objetivo de alcanzar el archivo desde Excel, donde realizamos todo el registro de
público objetivo de la empresa e incentivarlo a comprar. según datos de una manera ágil para empezar:
la RAE es: ”Divulgación de noticias o anuncios de carácter
comercial para atraer a posibles compradores, espectadores,
usuarios, etc”.

Negocio: Según la RAE ”Ocupación, quehacer o trabajo.”,


es decir, una actividad económica que busca utilidades a
través del intercambio de bienes y servicio.

Ventas: Las ventas son el acto intercambiar un servicio


por un cantidad de dinero acordada,Según la RAE ”Traspasar
a alguien por el precio convenido la propiedad de lo que se
posee.”

V. A PLICACI ÓN
Para tener una visualización de como se aplicarı́a este
mencionado modelo de regresión lineal, se va a realizar un
análisis a la situación de una empresa, teniendo en cuenta Fig. 7. Importar archivo de datos a R
que es una marca de ropa muy bien posicionada en la ciudad
de Medellı́n, con varias sedes dentro del área metropolitana, Posterior a tener los datos cargados en R, se procede a
la marca desde el año 2019 decidió empezar a invertir de invocar unas cuantas librerı́as, unas que ya se encuentran en
manera constante y progresiva en la publicidad de distintas el sistema y descargar otras para poder invocarlas y utilizarlas
formas, empezando ası́ a notarse una mejorı́a en las ventas en el modelo: (tidyverse, boot, car, quantpsyc, ggplot2), Lo
del negocio pero de manera mı́nima, teniendo en cuenta que que se realizará ahora es, introducir los comandos para poder
juegan también otros factores dentro de las ventas al cierre manipular los datos que tenemos y que el programa los pueda
de cada mes. visualizar bien:

Se toma un registro de cuanto se logra invertir en cada


mes desde el inicio de la implementación de la estrategia
hasta el momento en el que deciden realizar el análisis con un
modelo de regresión lineal, buscando encontrar los resultados
de la influencia de inversión en publicidad, con el número de Fig. 8. Comandos para manipular datos
ventas mensual, los datos se registran en la tabla:
El modelo que se usará en primera instancia es:

Fig. 9. Primer modelo

Donde “lm” será la función, las “Ventas” van a depender de


la “Publicidad”, se invoca el nombre del archivo que contiene
los datos, y la parte final del modelo cumple con la función
de eliminar toda observación no necesaria en el archivo de
datos para poder trabajar solo lo necesario, en el modelo.

Con el comando “summary”, más el modelo que acabamos


de definir anteriormente, como parámetro:

Fig. 6. Datos

Lo siguiente será realizar el respectivo análisis del modelo


4.08; esto es lo que también explica la grafica mostrada
anteriormente en el marco teórico donde visualizamos la
manera en que se comporta el modelo de regresión lineal
con el parámetro β0 que son las ventas en este caso y el
parámetro β1 , que serı́a la publicidad.

Lo siguiente será graficar el modelo con el sistema de


R, para ello, se hará uso de:

Fig. 11. Comandos para graficar puntos de dispersión

Fig. 10. Datos

Se logran obtener datos como el mı́nimo, el primer


cuartil, la mediana, el tercer cuartil, el máximo, el intercepto
que vendrı́a siendo β0 y la Publicidad que vendrı́a siendo el
valor de β1 , sumado a esto se obtendrá el valor de R2 , y el
valor de R2 ajustado.

En este caso el valor de R2 , es 0.68, no está tan lejos


de 1, pero tampoco tan cerca, es bastante oportuno saber
que entre el valor de R2 más se acerque a uno quiere decir
que el modelo de regresión es más confiable, sin embargo si
se tuvieran otras variables de factores involucradas, como el
hecho de las temporadas de mayor ventas de prendas, el paso
de la pandemia, la concurrencia en las distintas sedes, sin
embargo, al ser este un modelo de regresión lineal simple,
solo se cuenta con una variable en juego y es lo necesario
para proceder con el análisis.
Fig. 12. Gráfica con puntos de dispersión
Ahora después de esta pequeña introducción, lo siguiente es
modelar la regresión lineal de este caso para realizar el análisis
de las ventas en base a la publicidad, la cual vendrı́a dada por: Aquı́ se puede observar lo que hasta el momento genera R,
un modelo de dispersión en relación Ventas – Publicidad,
V entas = Intercepto + β(publicidad) + Error ahora lo que se busca es que también se modele la lı́nea de
regresión, lo cual es el objetivo para visualizar y entender
Lo cual en R se verı́a de la siguiente forma: mejor la situación, para ello se usa:

Ventas = -2.27 (Este es el valor del intercepto según


los datos que obtuvimos anteriormente) + 4.08 (Valor de
Publicidad o β1 según los datos) Publicidad.
Fig. 13. Comandos para conseguir linea de regresión
Este modelo de una manera inferencial nos quiere decir
que si no se invierte nada en publicidad, las ventas tendrán
un valor de -2.27, sin embargo por cada peso invertido en
publicidad, las ventas se van a incrementar en un valor de
Fig. 14. Gráfica de regresión lineal

Fig. 16. Gráfica de aleatoriedad

En esta gráfica se comprueba la aleatoriedad.


Con estos nuevos comandos de entrada para R, se logra
obtener este modelo de regresión lineal, en el cual se puede
observar que la lı́nea azul, o a la que también le podemos
decir “pendiente”, vrndrı́a siendo β1 y el intercepto, es decir;
el eje de y en 0, es β0 , asi se puede predecir y sobre entender
que por cada peso que se aumente en Publicidad, las ventas
del local pasarán de -2.27 a incrementarse en un 4.08.

Ahora, para tener mayor certeza y para demostrar el


cumplimiento de los supuestos de la regresión lineal se
expone las siguientes gráficas:

Fig. 15. Comando para generar los gráficos

Fig. 17. Gráfica de distribución normal

En esta gráfica se comprueba el supuesto de distribución


normal.
de inferencia estadı́stica. La inferencia estadı́stica, es definida
como la parte de la Estadı́stica que trata de sacar consecuencias
o conclusiones de unos datos previamente obtenidos de una
muestra representativa de la población. Se utilizó estadı́stica
descriptiva, y en concreto, las tablas de contingencia, debido
a la naturaleza de las variables, a su vez consideramos este
procedimiento el idóneo para medir la posible influencia de las
variables objetivo del análisis de este proyecto, pues las tablas
de contingencia estudian la posible relación existente entre las
variables consideradas y la existencia o no de influencia entre
las mismas. Al revisa el coeficiente β1 (4.08) encontramos que
es positivo y diferente de cero, es importante poner atención
al valor de β1 puesto que las ventas tendrán un valor de
- 2.27, sin embargo por cada peso invertido en publicidad,
las ventas se van a incrementar en un valor de 4.08. Por
otra parte, el método de Mı́nimos Cuadrados Estocástico es
propiamente un método de estimación, a diferencia de otros
métodos estadı́sticos éste sólo requiere una caracterización
parcial del error. En conclusión, Se realizó la formulación
del modelo de regresión lineal múltiple teniendo en cuenta
Fig. 18. Gráfica de homocedasticidad unas de las variables más relevantes y a partir de esto se
realizó el respectivo ingreso y análisis de datos en el software
Aquı́ podemos verificar si existe una tendencia lineal o no, R. Es de aclarar que se puede cometer un error de suponer
si se tienen datos con aleatoriedad la tendencia puede no estar que un cambio en una variable es ocasionado únicamente
muy bien definida, aun ası́ con este gráfico no se podrı́a ver por un cambio en la otra variable. Los análisis de regresión
una tendencia clara. con un análisis con datos numéricos serı́a y correlación no pueden, de ninguna manera, determinar la
mucho más claro. causa y el efecto, pues el cambio puede ser causado por
muchas otras variables, aunque nuestra variable independiente
evaluada sea muy influyente, no se puede considerar que solo
por una buena publicidad se podrá vender más productos, pues
no siempre una gran publicidad será efectiva, en el caso de
nuestro ejemplo si se obtuvo la efectividad esperada.
VII. B IBLIOGRAF ÍA
[1] J. Devore, Probabilidad y estadı́stica para ingenierı́a y
ciencias, México: Thomson learning, 2005.

[2] Evans, M. Rosenthal, J Probabilidad y estadistica.


La ciencia de la incertidumbre, Barcelona: Reverté, 2005.

[3] J. Faraway, Lineal models with r, -: CRC press,


2014.

[4] J. Sanchez, Análisis de regresión, economiped, -,


2016

[5] A. L. David Molina, Regresión y correlación, Universidad


Fig. 19. Gráfica valores extremos de Granada, Granada, 2017.

Los datos que se observa en este gráfico no son influyentes [6] José Egea, Mathieu Kessler, Universidad politécnica
en el resultado de la ecuacion de predicción. los datos más de cartagena, Cartagena, -.
alejados podrı́an considerarse como datos atı́picos.
[7] C. carollo, Regresión lineal simple, U de Santiago
VI. C ONCLUSIONES de compostella, -, 2011-2012.
Todos los datos obtenidos gracias a la base de datos refer-
enciada a lo largo del proyecto fueron llevados a un proceso [8] A, Field Discovering Statistics Using IBM SPSS
Statistics FIFTH EDITION Sage edge, -, 2017.

También podría gustarte