Está en la página 1de 74

MODELO DE REGRESIÓN LINEAL MÚLTIPLE PARA EL PRONÓSTICO DE

VENTAS DE BOLSAS ECOLÓGICAS PARA LA EMPRESA BOLECO SA, EN


LA CIUDAD DE BOGOTÁ DC

GERALDINE FORERO GÓMEZ


JONATHAN ALEXANDER MARTÍNEZ LOZANO

UNIVERSIDAD COOPERATIVA DE COLOMBIA


FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ DC
2020
MODELO DE REGRESIÓN LINEAL MÚLTIPLE PARA EL PRONÓSTICO DE
VENTAS DE BOLSAS ECOLÓGICAS PARA LA EMPRESA BOLECO SA, EN
LA CIUDAD DE BOGOTÁ DC

GERALDINE FORERO GÓMEZ


JONATHAN ALEXANDER MARTÍNEZ LOZANO

ANÁLISIS SISTEMÁTICO DE LITERATURA


MONOGRAFÍA

TRABAJO PARCIAL PARA OPTAR AL TITULO DE INGENIERO INDUSTRIAL

DIRECTOR
GUSTAVO SILVA RODRÍGUEZ

UNIVERSIDAD COOPERATIVA DE COLOMBIA


FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ DC
2020

2
NOTA DE ACEPTACIÓN

____________________________________
____________________________________
____________________________________
____________________________________
____________________________________

_______________________
PRIMER JURADO

_______________________
SEGUNDO JURADO

Bogotá, enero 2020

3
Tabla de contenido

RESUMEN ............................................................................................................. 10

INTRODUCCIÓN ................................................................................................... 11

1. DESCRIPCIÓN DEL PROBLEMA............................................................... 13

1.1. PLANTEAMIENTO DEL PROBLEMA ......................................................... 13

1.2. JUSTIFICACIÓN DEL PROBLEMA ............................................................ 15


1.2.1. Justificación practica ............................................................................................................ 15
1.2.2. Justificación teórica .............................................................................................................. 17
1.2.3. Justificación metodológica .................................................................................................. 17
1.3. DELIMITACIÓN DEL PROBLEMA ............................................................................................ 17
1.3.1. Delimitación temática ........................................................................................................... 17
1.3.2. Delimitación espaciotemporal ............................................................................................ 17

2. OBJETIVOS................................................................................................. 18
2.1. Objetivo General................................................................................................................... 18
2.2. Objetivos Específicos .......................................................................................................... 18

3. ESTADO DEL ARTE ................................................................................... 19

4. MARCOS DE REFERENCIA ....................................................................... 28


4.1. MARCO TEÓRICO ....................................................................................................................... 28
4.1.1. Origen Histórico de la Regresión ....................................................................................... 28
4.1.2. Definición de regresión ........................................................................................................ 28
4.1.3. Etapas del análisis de regresión múltiple ......................................................................... 29
4.1.4. Pronósticos ............................................................................................................................ 46
4.1.5. Paquete Estadístico para las Ciencias Sociales SPSS por sus siglas en ingles
(Statistical Package for the Social Sciences) .................................................................................... 46
4.2. MARCO INSTITUCIONAL ........................................................................................................... 48
4.2.1. Descripción General ............................................................................................................ 48
4.2.2. Datos Generales................................................................................................................... 49
4.2.3. Misión ..................................................................................................................................... 50
4.2.4. Visión...................................................................................................................................... 50
4.2.5. Organigrama ......................................................................................................................... 50
4.2.6. Mapa de Procesos ............................................................................................................... 51
4.3. MARCO JURÍDICO ...................................................................................................................... 51

5. METODOLOGÍA .......................................................................................... 53
5.1. TIPO DE ESTUDIO ...................................................................................................................... 53

5.2. MUESTRA ..................................................................................................................................... 53

4
5.3. TÉCNICAS PARA LA RECOLECCIÓN Y ANÁLISIS DE LA INFORMACIÓN .................. 53

5.4. FUENTES....................................................................................................................................... 53

5.4.1. Primarias .................................................................................................................................... 53

6. CARACTERIZACIÓN DE LAS VARIABLES............................................... 54

7. FORMULACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE .... 55


7.1. INTRODUCCIÓN DE LAS VARIABLES .................................................................................. 56

7.2. SELECCIÓN DEL MÉTODO ...................................................................................................... 57

8. VALIDACIÓN DEL MODELO ...................................................................... 66

CONCLUSIONES .................................................................................................. 69

RECOMENDACIÓN .............................................................................................. 70

ANEXOS ................................................................................................................ 71

BIBLIOGRAFÍA ..................................................................................................... 72

5
LISTA DE TABLAS

Tabla 1: Distribución de las ventas de las diferentes líneas de bolsa ecológica en


la empresa BOLECO SA por monto anual y peso porcentual año 2018................ 13
Tabla 2: Reglas para determinar el nivel de medición ........................................... 47
Tabla 3: Datos Generales de Boleco SA ............................................................... 49
Tabla 4 Resumen Variables Modelo ...................................................................... 55
Tabla 5 ANOVA ..................................................................................................... 57
Tabla 6 Coeficientes .............................................................................................. 57
Tabla 7 Diagnostico de Colinealidad ...................................................................... 59
Tabla 8 Correlaciones método hacia adelante ....................................................... 59
Tabla 9 variables de entrada metodo hacia adelante ............................................ 60

6
LISTA DE GRAFICAS

Gráfica 1: Cantidad de pedidos VS entregados, suministrado por Boleco SA, año


2018 ....................................................................................................................... 15
Gráfica 2 Dispersión .............................................................................................. 67
Gráfica 3 P-P ......................................................................................................... 68
Gráfica 4: Q-Q........................................................................................................ 68

7
LISTA DE ILUSTRACIONES

Ilustración 1: Diferentes pruebas de normalidad .................................................. 35


Ilustración 2 Organigrama Boleco S.A. ................................................................ 50
Ilustración 3: Mapa de procesos BOLECO .......................................................... 51
Ilustración 4: Correlación variables ...................................................................... 56

8
LISTA DE ANEXOS

Anexo 1 Base de datos Boleco .............................................................................. 71


Anexo 2 Datos SPSS ............................................................................................. 71
Anexo 3 Regresión Intro ........................................................................................ 71
Anexo 4 Regresión Paso a Paso ........................................................................... 71
Anexo 5 Regresión Hacia Adelante ....................................................................... 71
Anexo 6 Regresión Hacia Atrás ............................................................................. 71
Anexo 7 Gráfica P-P .............................................................................................. 71
Anexo 8 Gráfica Q-Q ............................................................................................. 71

9
RESUMEN

El presente trabajo consistió en el pronóstico de ventas de bolsas ecológicas de la


empresa Boleco S.A. a través de la aplicación de un modelo de regresión lineal
múltiple; para ello se realizó una caracterización subjetiva teniendo en cuenta la
información suministrada por la empresa de las principales variables que intervienen
en el proceso productivo las cuales son: Capacidad de la Bolsa, Clientes, Ventas y
Costo de ventas, posteriormente se realizó la formulación del modelo de regresión
lineal múltiple en el programa SPSS y finalmente se procedió a realizar la validación
del modelo utilizando diferentes métodos los cuales son: Introducir, Paso a Paso,
Hacia Adelante y Hacia atrás con cada uno de estos se realizó un análisis para
identificar la correlación que existe entre cada una de las variables y cual método
da un mejor ajuste. El tipo de metodología que se empleo fue de tipo cuantitativa y
cualitativa y la técnica realizada para la recolección de la información fue de tipo
primaria pues esta fue dada por la representante legal de la empresa. Como
resultado y análisis del presente trabajo se puedo concluir que el modelo es viable
pues las variables tienden a relacionarse entre sí, lo que da un grado de significancia
alto.

Palabras clave: Pronósticos, Regresión, Proceso, Productividad, Variables y


Significancia.

10
INTRODUCCIÓN

Actualmente las organizaciones han venido implementando métodos que les


permiten conocer cómo se comportan las ventas durante un periodo determinado,
esto con el fin de minimizar costos por tiempos muertos, exceso de materia prima o
producto en stock, entre otros; los pronósticos de ventas son un punto clave tanto
en el desarrollo del proceso financiero como productivo de cualquier organización
pues permite la toma de decisiones y el mejoramiento continuo de la misma.

Un modelo de regresión lineal múltiple permite conocer cómo se comportan las


variables, es decir, determinar la relación causa-efecto que existe entre una variable
dependiente y las variables independientes. De acuerdo con lo enunciado por
algunos autores este tipo de modelo permite identificar el grado de significancia y
de correlación que existe entre las variables objeto de estudio.

Teniendo en cuenta lo anterior el presente trabajo consiste en desarrollar un


pronóstico de ventas por medio de un modelo de regresión lineal múltiple para las
bolsas ecológicas de la empresa Boleco S.A., el cual se desarrollará por medio de
una caracterización de variables, planteamiento del modelo y la validación de este.

En la primera parte del trabajo se encontrará la descripción del problema que


presenta la empresa correspondiente a la falta de un método para planificar las
ventas de las bolsas ecológicas, de allí se desprenden las respectivas justificaciones
y objetivos a desarrollar.

En la segunda parte se desarrolló un análisis sistémico de literatura en donde se


enuncian algunos documentos de interés relacionados con el método de Regresión
Lineal Múltiple y también se hace una revisión teórica sobre el tema y
posteriormente se encuentra información institucional sobre Boleco S.A.

11
Finalmente, la última parte del trabajo consta en la descripción de la metodología,
la caracterización de las diferentes variables que intervienen en el proceso
productivo, el planteamiento del modelo de regresión lineal múltiple en el programa
SPSS y la validación de este.

12
1. DESCRIPCIÓN DEL PROBLEMA

1.1. PLANTEAMIENTO DEL PROBLEMA

BOLECO SA es una microempresa dedicada al diseño, producción y


comercialización de bolsas ecológicas en diferentes tamaños, colores y
presentaciones, considerando una capacidad de producción anual de 60.000
unidades, llegando a obtener unos ingresos anuales promedio de $ 113.020.900
según lo suministrado por Boleco SA; en la tabla 1 se muestra la participación que
tiene cada tipo de bolsa.

Tabla 1: Distribución de las ventas de las diferentes líneas de bolsa ecológica en


la empresa BOLECO SA por monto anual y peso porcentual año 2018

Número Porcentaje
Ingresos
Tipo de Bolsa de de
Venta Anual
unidades Participación
Bolsas reutilizables Tela cambrel, politex,
quirúrgica 30.050 $ 63.59.5400 56%
Tipo 1 (0-12,5 kg)
Bolsa plana tela cambrel, politex, quirúrgica
28.150 $ 49.425.500 44%
Tipo 2 (0-15kg)
TOTAL 58.200 $113.020.900 100%
Fuente/ Área Contable empresa BOLECO SA AÑO 2018

Para realizar el proceso de estimación de las ventas adelanta actualmente un


pronóstico de ventas anual teniendo en cuenta el tipo de bolsa y el precio de venta
de acuerdo con las unidades solicitadas por los clientes, posterior a ello se procede
a calcular el porcentaje de participación de cada uno de los productos, esto se

13
realiza dividiendo el total de las ventas acumuladas sobre las ventas individuales de
cada una de las bolsas.

Teniendo en cuenta lo anterior y como se visualiza en la tabla 1 las bolsas


reutilizables son las que tienen mayor participación con un 56% vs la bolsa plana
que tiene un porcentaje del 44% según la información suministrada por Boleco SA,
esto quiere decir que el producto número uno es el que genera mayores ingresos a
la empresa.

Sin embargo, a pesar de los esfuerzos anteriores la empresa presenta una baja
capacidad para planificar de forma confiable las ventas de las líneas de productos
mencionadas en la tabla 1 del presente estudio. Lo anterior se evidencia en los
siguientes datos estadísticos suministrados por Boleco SA.

Como se puede evidenciar en la gráfica 1, tan solo en los meses de febrero, mayo
y septiembre del año 2018, se logró entregar la cantidad de bolsas solicitadas por
los clientes en el resto de los meses hubo deficiencia en la entrega total del pedido
solicitado debido a que actualmente el pronóstico que se tiene para satisfacer la
demanda de las bolsas es deficiente según el comportamiento de venta durante los
diferentes meses.

La información descrita corresponde al año 2018

Cantidad de pedidios vs entregados


7000
6000
5000
Suma de Bolsas Pedidas
4000
3000
Suma de Cantidad Bolsas
2000
Entregadas
1000
0
ene feb mar abr may jun jul ago sep oct nov dic

14
Gráfica 1: Cantidad de pedidos VS entregados, suministrado por Boleco SA, año
2018
De acuerdo con el análisis realizado a la Base de datos suministrada por Boleco SA
(ver anexo 1) donde se evidencia el comportamiento de las ventas de las bolsas
ecológicas durante el año 2018 y teniendo en cuenta que el pronóstico que realizan
actualmente no está asociado a ningún modelo estadístico sino es una proyección
de las ventas podría traer consigo los siguientes efectos no deseables en el
desarrollo de la empresa:

Costos innecesarios en la manutención del inventario, es decir, se tendría


más material y se producirían más unidades de las que se requieren
Se presentarían problemas asociados con la liquidez de la empresa pues al
presupuestar más unidades de ventas de las necesarias para cubrir costos
operativos y otros
Incumplimiento en tiempos de entrega acordados con el cliente
Exceso o falta de personal para cumplir con la demanda requerida según las
solicitudes de los clientes

Por consiguiente, para dar solución al problema anteriormente planteado es


necesario que la empresa realice un modelo de pronósticos, basado en el modelo
de regresión lineal múltiple para la línea de bolsas ecológicas, que le permita
extrapolar las ventas que va a realizar en un periodo determinado, así como a
quienes van dirigidas y en qué tiempo

1.2. JUSTIFICACIÓN DEL PROBLEMA

1.2.1. Justificación practica

La información que busca Boleco SA respecto a la venta de bolsas ecológicas es a


que segmento de mercado se venderá y en que patrones de tiempo es necesaria la
planeación de todas las áreas pertenecientes al proceso productivo de la empresa;

15
en los pronósticos de ventas se deben clasificar estas necesidades a corto y a largo
plazo

Al crear un modelo mediante el método de regresión lineal múltiple para un


pronóstico de ventas de bolsas ecológicas permite conocer de forma más exacta y
precisa las características con las cuales se debe interactuar, y de esta forma definir
las variables necesarias que intervienen directamente en el proceso de venta para
lograr el objetivo deseado

De igual manera, el modelamiento de regresión lineal múltiple permitirá identificar


las variables que interactúan dentro del proceso, así como la predicción de valores
que determinará el comportamiento de estas

Las ventas se deben pronosticar teniendo en cuenta los términos adecuados los
cuales son:

• La capacidad del mercado, es decir, es la cantidad de bolsas ecológicas en


términos de unidades que tienen un mercado específico en un tiempo
determinado
• El potencial del mercado el cual se basa en las ventas de bolsas ecológicas
y la cantidad de dinero que Boleco SA espera vender; para esto debe seguir
estrategias de mercadotecnia al transformar una capacidad en un potencial
• El potencial de la compañía se refiere a la venta máxima que podría tener la
empresa a un precio determinado independientemente de las instalaciones
para la producción y mercadotecnia
• El pronóstico de la compañía es la estimación de las ventas de las bolsas
ecológicas y el dinero, este reflejará las limitaciones de la empresa
• Los objetivos de ventas de la empresa son mayores que el pronóstico con el
fin de generar motivación en el equipo de trabajo y una cuota de ventas hace
parte de un plan motivacional que va de la mano con planes de
compensación en ventas

16
1.2.2. Justificación teórica

El presente estudio busca, mediante la aplicación de la teoría y los conceptos


básicos de regresión lineal múltiple y pronósticos, encontrar una solución óptima
para mejorar el pronóstico de ventas que maneja actualmente Boleco SA

1.2.3. Justificación metodológica

En el presente estudio se hará uso de herramientas estadística como la predicción


de la demanda a través del uso de pronósticos basada en la aplicación del software
SPSS (por sus siglas en inglés) Paquete Estadístico para las Ciencias Sociales, el
cual permitirá por medio de una regresión lineal múltiple un pronóstico de ventas
para la empresa Boleco SA

1.3. DELIMITACIÓN DEL PROBLEMA

1.3.1. Delimitación temática

La realización del presente estudio servirá para determinar el pronóstico de


ventas de las bolsas ecológicas de la empresa Boleco SA por medio del modelo
de regresión lineal múltiple

1.3.2. Delimitación espaciotemporal

El presente trabajo se desarrollará en el barrio Olarte de la ciudad de Bogotá, la


información suministrada será dada por la empresa Boleco SA, los datos que
serán considerados para la realización del trabajo investigativo serán
enmarcados dentro del periodo del año 2018 considerando las ventas de la
empresa objeto de estudio.

17
2. OBJETIVOS

2.1. Objetivo General

Pronosticar las ventas de bolsas ecológicas para la empresa BOLECO SA, basado
en la aplicación del modelo de regresión lineal múltiple, que garantice una mejora
en el proceso productivo de la empresa ubicada en la ciudad de Bogotá DC

2.2. Objetivos Específicos

• Caracterizar variables que intervienen en las ventas de las bolsas ecológicas


• Formular modelo para el pronóstico de las ventas de las bolsas ecológicas
por medio de la regresión lineal múltiple
• Validar modelo de regresión lineal múltiple para el pronóstico de las ventas
de las bolsas ecológicas en la empresa Boleco SA

18
3. ESTADO DEL ARTE

Se realizó una búsqueda sistemática de información relativa al objeto de estudio del


presente trabajo, donde se pretende cotejar las investigaciones más relevantes de
los últimos cinco años que permitan realizar un paralelo del trabajo que se está
realizando y lo que está en la literatura.

(Vilá Baños, Torrado Fonseca, & Reguant Álvarez, 2019), Análisis de regresión
lineal múltiple con SPSS: un ejemplo práctico. Barcelona, Barcelona.

Método: La aplicación de la técnica implica cinco pasos: 1. Seleccionar la variable


dependiente; 2. Seleccionar las variables explicativas; 3. Verificar los supuestos
necesarios para poder aplicar adecuadamente la técnica; 4. Interpretar el modelo
resultante identificando las variables predictoras propuestas y su importancia
explicativa y 5. Establecer la bondad de ajuste del modelo y su capacidad predictiva.

Variables: Dependiente: Puntuación en la escala de ciberagresión en VG2.0. E


independientes: Perfil de uso tecnológico, Experiencia en ciberbullyng (escala
Likert-3) y Escala concepto de violencia de género.

Resultados: En el ejemplo de estudio propuesto sobre violencias de género entre


adolescentes en los entornos virtuales, la aplicación de esta técnica ha permitido
identificar factores asociados con el comportamiento ciber agresor vinculados a una
serie de variables de tipo tecnológico y personal.

(Morantes Quintana, Rincón Polo, & Pérez Santodomingo, 2019), Modelo de


regresión lineal múltiple para estimar concentración de PM1

Método: Muestreo, Información Secundaria, Sección de Variables, Construcción de


modelo Multivariable, Validación del Modelo.

19
Variables: Dependiente: Concentración de material particulado e independientes:
Incendios forestales, Ocurrencia de Lluvia

Conclusión: El modelo de RLM diseñado explica el 75.9 % de la varianza, es


estadísticamente significativo para p < 0.000, cumple con los requisitos de validez
de una RLM y presenta un indicador de MBE igual a –1.5 µg/m3, por lo que se
establece que el modelo subestima la concentración de PM1

(Perez Obregón & Romero Díaz, 2018), Análisis del rendimiento académico
mediante regresión logística y múltiple

Método: Aplicación del modelo de Regresión Lineal Múltiple

Variables: Dependiente: Calificaciones de matemática e Independientes: Lengua


Extranjera y Lengua y literatura.

Conclusiones: Se logró establecer un modelo matemático regresión múltiple que


permite predecir resultados del rendimiento académico para el período lectivo actual
del estudiante relacionando calificaciones de matemática respecto a lengua
extranjera - lengua y literatura. Además de un modelo probabilístico regresión
logística que complementa los resultados del modelo anterior determinando el
intervalo de promedio en el cual se encuentra el estudiante respecto de la
calificación de matemática. Se evidencian las aproximaciones del modelo y que si
hay relación entre las asignaturas de lengua extranjera - lengua y literatura con la
asignatura de matemática, pudiendo verificar que se puede deducir esta calificación
a partir de las ecuaciones obtenidas de los modelos analizados en el estudio

(Castro Valderrama, Wilches Chiriví, & Gómez Delgado, 2018), Diseño de Bolsa
Reutilizable para Empaque y Transporte de Frutas y Verduras

Método: Regresión Lineal Múltiple – Software estadístico SPSS

Variables: Crecimiento poblacional, inflación e IPC

20
Conclusiones: Como conclusiones del trabajo citado se obtiene que el 90% de los
compradores de frutas y verduras de estrados 4 y 5 estarían dispuestos a comprar
la bolsa reutilizable mediana de nylon, también se recomienda diseñar diferentes
soluciones para los segmentos de personas que tengan otros hábitos de compra
diferentes a los expuestos en dicho trabajo.

(Brenes González, 2017), Aplicación del análisis de regresión lineal simple para la
estimación de los precios de las acciones de Facebook, Inc.

Método: Modelo de regresión lineal

Variables: Precios mensuales de las acciones y Tiempo

Conclusión: Los modelos de regresión lineal simple, establecen una relación de


dependencia entre dos variables, donde la variable dependiente se encuentra en
función de la variable independiente, con el objetivo de calcular los coeficientes de
los parámetros de la constante o intercepto y de la pendiente, para determinar la
ecuación de regresión lineal. La ecuación encontrada, sirve para estimar los valores
de la variable dependiente ante posibles cambios en la variable independiente, en
otras palabras, la ecuación sirve para realizar pronósticos o proyecciones.

(Rodríguez Mañay, Saltos Chacán, & Muñoz Moreta, 2016), Cálculo de un Cost
driver para determinar el costo de una actividad empleado un modelo de Regresión
Lineal o un modelo de Regresión Múltiple.

Método: Para descubrir el generado de costo que permitía conocer el costo de una
actividad, fue la regresión lineal simple. Método de mínimos cuadrados.

Variables: Valor en dólares de la mercancía comprada, número de órdenes de


compra, número de proveedores y costos del departamento de compras.

Conclusiones: Al realizar la aplicación de la Regresión lineal simple se determina


que la variable órdenes de compra pasó la prueba T del coeficiente de correlación
al indicar que las órdenes de compra explican el costo del departamento de

21
compras. Cuando se realiza la prueba F también indicó que existe relación entre las
dos variables órdenes de compra y el costo del departamento de compras. Al aplicar
la prueba de la pendiente se concluye que las órdenes de compra sirvieron para
pronosticar el costo del departamento de compras y al realizar la prueba de los
residuos estandarizados, el 100% de estos estuvieron dentro de +-2. Las otras dos
variables (valor de la compra de mercadería y número de proveedores no pasaron
estas evaluaciones).

Al realizar la aplicación de la Regresión Múltiple se mejora en el coeficiente de


correlación múltiple con respecto a la Regresión Lineal Simple, pero al revisar la
prueba F y los coeficientes individuales ninguno de estos ayuda a predecir el
comportamiento de los costos del departamento de compras. Bajo esta
circunstancia se escogería la variable órdenes de compra como generador de costo

(Carrasquilla Batista, y otros, 2016), Regresión lineal simple y múltiple: aplicación


en la predicción de variables naturales relacionadas con el crecimiento microalgal

Método: Regresión Lineal Múltiple

Variables: Temperatura, pH, oxígeno disuelto, dióxido de carbono, intensidad de luz


y variable de interés (y) celular por mililitro (cel/ml).

Conclusiones: Los modelos de regresión simple y múltiple presentan las


características ideales para el tratamiento de variables cuantitativas que responden
según las variables predictoras o regresaras dentro del fenómeno estudiado.

(Samaniego Pinho & Buenahora Bernal, 2016), Variables relacionadas con


ansiedad social en adolescentes: un modelo de regresión lineal múltiple.
Interacciones.

Método: El enfoque fue cuantitativo, de diseño no experimental, alcance


correlacional y transversal.

22
Variables: Escala de ansiedad social para adolescentes, Escala de miedo a la
evaluación negativa, Intervalo de ansiedad y sensibilidad a la ansiedad

Conclusiones: Esta investigación tuvo el objetivo de construir un modelo de


regresión múltiple que explique la relación entre ansiedad social, sensibilidad a la
ansiedad, rasgo de ansiedad y miedo a la evaluación negativa. Además, se
pretendió establecer la diferencia entre sensibilidad a la ansiedad y el rasgo de
ansiedad como constructos diferentes, e investigar la diferencia entre adolescentes
del género masculino y las del género femenino en ansiedad social y sus variables
relacionadas.

(García, y otros, 2016), Determinación de la humedad de suelo mediante regresión


lineal múltiple con datos TerraSAR-X

Método: Método estadístico de Regresión Lineal Múltiple.

Variables: Índice de vegetación normalizado, temperatura, precipitación, humedad


relativa del aire.

Conclusiones: En este trabajo se presentaron resultados preliminares de la


aplicación del método de regresión lineal múltiple utilizando como variables de
entrada imágenes TerraSAR-X y datos meteorológicos registrados en una región
llana, donde los movimientos predominantes del agua son verticales.

Se enfatiza que el método selecciona las variables que representan la entrada y


salida de agua al sistema. La entrada de agua queda incorporada por PP y la
pérdida de agua por HR, que está directamente relacionada a ET, mientras que la
retrodispersión de la onda X aporta el efecto de la rugosidad del suelo.

(Barahona Urbina, Veres Ferrer, & Aliaga Prieto, 2016), Deserción académica de la
Universidad de Atacama, chile

Método: Paso a paso - modelo de regresión lineal múltiple

23
Variables: Rendimiento académico, tipo de establecimiento, conformidad de la
carrera y asistencia.

Conclusión: Los resultados del primer análisis econométrico mostraron que las
variables asociadas al rendimiento académico tienen que ver con el promedio
ponderado, la asistencia a clases y el tipo de Establecimiento. Es decir, una mejor
formación en las asignaturas básicas de ingreso a la universidad (Promedio
Ponderado), mejora el rendimiento académico. Una asistencia sistemática a clases
de parte del alumno es clave para mejorar el desempeño. Por otra parte, los
resultados mostraron que el establecimiento de procedencia es una variable que a
la larga que segrega, en el sentido de que los alumnos provenientes de colegios
privados obtienen un mejor rendimiento respecto de aquellos alumnos cuyos
colegios están más cerca de la gratuidad. Luego, los peores rendimientos son de
aquellos alumnos de colegios municipales.

(Campos Aranda, 2016), Una aplicación hidrológica de la regresión lineal múltiple


ponderada.

Método: Mínimos cuadrados ponderados y Mínimos cuadros ordinarios

Variables: Indicadores de desempeño y Estación hidrométrica

Conclusión: Con base en la aplicación hidrológica descrita, se pudo verificar que


siempre alguno o varios de los indicadores de desempeño (ID) mostraron un mejor
ajuste, es decir, se redujeron, al aplicar la técnica de MCP, en comparación con los
ID obtenidos por MCO. Para el caso mostrado, en general los errores residuales se
reducen más (se obtienen valores menores de los ID) con la segunda función de
ponderado, la cual se obtiene con base en los datos cercanos

(Sabogal Cardona, Hincapié Zea, Santa Chávez, & Willmer Escobar, 2015),
Modelos de Regresión Lineal para Estimación de Tiempos de Viaje en Sistemas de
Transporte Masivo

24
Método: Se formularon dos modelos de regresión lineal. El primer modelo usa
solamente las mediciones de tiempo de viaje para cada vehículo cuando pasa por
cada sensor y toma la ubicación de cada sensor desde el punto de inicio. El segundo
modelo considera los tiempos de viaje y las medidas de velocidad para tratar de
explicar el tiempo de llegada a un sensor.

Variables: Tiempo de viaje, distancia y velocidad

Conclusiones: Para los corredores analizados y los subcorredores se ha


determinado que no es factible usar modelos de regresión lineal clásica para estimar
los tiempos de viajes. Las violaciones a los supuestos de normalidad, independencia
y homocedasticidad son inevitables. Sin embargo, el único corredor en el cual fue
posible usar una regresión lineal válida no tenía estaciones de paradas ni
intersecciones señalizadas, por lo que se puede pensar que estos dos factores
afectan la adecuación de un modelo en escenarios reales

Los datos para los modelos de regresión lineal propuestos tienen muchos puntos
influenciables que llevan al rechazo de los supuestos. Modelos de regresión robusta
y múltiple deben ser analizados como trabajos futuros

(Plascencia Villaliz, 2015), Análisis de Regresión Múltiple del Fenómeno de la Trata


de Personas en México.

Método: Aplicación del modelo de Regresión Lineal Múltiple

Variables: Ingreso Nacional Neto Ajustado per cápita, Población entre 15 y 64 años,
Población activa, Población rural, Tasa de población activa, Relación entre empleo
y población, Desempleo mujeres jóvenes, Fuerza laboral, Índice de Gini, Tasa de
incidencia de la pobreza, Tasa de alfabetización mujeres adultas, Tasa de
alfabetización mujeres jóvenes, Densidad de población y Control de Corrupción

Conclusión: El presente documento representa un primer acercamiento al fenómeno


de la trata de personas, mediante un estudio estadístico, utilizando información

25
cuantitativa. Se identifican los determinantes de la trata en México, a través de un
análisis de regresión multivariable. Como resultado, se obtuvo un modelo que nos
permite identificar las variables críticas del fenómeno.

(Ortiz, Arias, Da Silva, & Cardozo, 2015), Análisis Espacial del Precio del Suelo con
Modelos de Regresión Lineal Múltiple (MRLM)y Sistemas de Información
Geográfica (SIG)

Método: Paso a paso SPSS – Modelo de Regresión Lineal Múltiple

Variables: Dependiente: PRECIO_SUE, Independientes: DENSIDAD_QALT,


DIST_AV, INSEGURIDAD, DIST_PAV, DIST_TP, POB_NB, VIV_PLANIF,
DIST_E_V

Conclusión: El modelo obtenido presenta un ajuste (R2=0,67) y significación


conjunta (F=93,436 y p<000) aceptables. Por su parte, las variables introducidas
muestran coeficientes con signos correctos, valores de coeficientes ≠ 0 y
estadísticamente significativos al 0,05. Esto nos permite afirmar que la densidad de
estratos socioeconómicos altos, y las distancias a espacios verdes y el centro
comercial de Resistencia, influyen efectivamente en la estructura del precio fiscal
del suelo; de esta forma podemos aceptar la hipótesis de trabajo (H1) formulada
oportunamente. Sin embargo, dado la complejidad de la temática, la
implementación de un modelo que incluye solamente tres variables para explicar el
precio del suelo, puede parecer demasiado sencillo, aunque en conjunto las
variables explican el 66,9% la variabilidad y el modelo es estadísticamente robusto.

(Astorga Gómez, 2014), Aplicación de modelos de regresión lineal para determinar


las armónicas de tensión y corriente.

Método: En este artículo se manejó el modelo de regresión lineal simple, Regresión


Polinomial de orden 2 y de orden 3 y Regresión Lineal Múltiple.

26
Variables: Distorsión armónica de tensión de orden 7 (Vh7) y Distorsión armónica
de corriente de orden 7 (lh7)

Conclusión: Los pronósticos realizados con el modelo de regresión lineal múltiple,


permiten estimar la distorsión armónica individual de tensión y corriente del sistema
eléctrico y direccionar medidas correctivas para el control del contenido armónico
del proceso. Cuando se analizan las armónicas de un sistema eléctrico con carga
homogénea, el modelo de regresión lineal múltiple describe adecuadamente la
distorsión armónica individual de tensión como función de la distorsión armónica
individual de corriente

Se concluye que, si bien se emplea el modelo de regresión lineal múltiple en


diferentes áreas de aplicación, el trabajo que se propone desarrollar es novedoso
pues esta enfocado en analizar el comportamiento de las ventas de las bolsas
ecológicas en relación con las otras variables que intervienen en el proceso
productivo.

27
4. MARCOS DE REFERENCIA

4.1. MARCO TEÓRICO

4.1.1. Origen Histórico de la Regresión

Según (Damodar N. & Dawn C., 2010), el origen del término regresión se dio de la
siguiente manera:

Francis Galton fue la primera persona que acuño el termino de regresión mediante
un ensayo en el que se planteaba que, sin importar la altura de los padres, es decir
altos o bajos la tendencia de los hijos tenida a desplazarse o regresar a la altura
promedio de la población total

La ley de regresión universal de Galton fue confirmada por su amigo Karl Pearson,
quien reunió más de mil registros de estaturas de miembros de grupos familiares
Pearson descubrió que la estatura promedio de los hijos de un grupo de padres de
estatura alta era menor que la estatura de sus padres, y que la estatura promedio
de los hijos de un grupo de padres de estatura baja era mayor que la estatura de
sus padres; es decir, se trata de un fenómeno mediante el cual los hijos altos e hijos
bajos “regresan” por igual a la estatura promedio de todos los demás En palabras
de Galton, se trata de una “regresión a la mediocridad”

4.1.2. Definición de regresión

Según (Pat Fernandez, Martínez Menchaca, Pat Fernández, & Martínez Luis, 2013
) el termino de regresión es uno de los pilares estadísticos más modernos el cual
hace referencia al análisis simultaneo de dos o más variables relacionadas entre sí.

28
Una de las variables se le conoce como variable dependiente (y) y la otra como
variable independiente (x).

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ 𝛽𝑘 𝑋𝑘

Donde:

Y: es la variable dependiente, la cual también es denominada variable respuesta

𝑋𝑖 : es la variable independiente i, la cual también se llama exploratoria

𝛽𝑖 : es el coeficiente del modelo para la variable 𝑋𝑖

Tanto la variable independiente como las independientes deben ser métricas,


aunque las independientes también pueden tener valores cualitativos

4.1.3. Etapas del análisis de regresión múltiple

Basado en el libro de (Garcia, Morales Serrano, & González Cavazos, 2013) las
etapas son las siguientes:

1. Identificar problema o área de oportunidad


2. Seleccionar las variables dependientes e independientes
3. Recolectar variables
4. Realizar análisis descriptivo del tipo de relación entre variables
5. Seleccionar método
6. Calcular coeficientes del modelo de regresión lineal múltiple para construir la
función
7. Identificar problemas de colinealidad o multicolinealidad
8. Realizar prueba global de la ecuación
9. Efectuar pruebas individuales de los coeficientes
10. Probar cumplimiento de los supuestos del análisis

29
11. Interpretar coeficientes de determinación, correlación, determinación
ajustado y error estándar
12. Analizar los coeficientes de la ecuación de regresión
13. Elaborar pronósticos puntuales y por intervalo

A continuación, se desarrollarán cada una de las etapas.

Formular Problema

De acuerdo con lo enunciado en el libro (Garcia, Morales Serrano, & González


Cavazos, 2013) la formulación del problema es importante pues al definirlo se
podría encontrar una solución óptima.

Selección de Variables

Según lo enunciado en el libro de (Pat Fernandez, Martínez Menchaca, Pat


Fernández, & Martínez Luis, 2013 ) la selección de las variables se clasifica en
completamente especificados, completamente inespecificados y mixtos. En el
primer tipo todas las variables deben formar parte de él, en el segundo, se duda
de la inclusión del modelo de todas las variables explicatorias y los mixtos son
una combinación entre los dos anteriores.

✓ Selección hacia delante: En este caso se considera como variable


explicativa aquella que tiene más correlación con la variable explicada.
✓ Eliminación hacia atrás: Se empieza con el modelo completo y en cada
paso se va eliminando una variable.
✓ Selección paso a paso: En este método se unen los procedimientos
anteriormente mencionados y lo que se hace es que en cada paso a paso
se corteja si algunas de las variables que ya están incluidas en el modelo
pueden ser eliminadas.

30
Realizar análisis descriptivo del tipo de relación entre variables

Según lo enunciado en el libro de (Garcia, Morales Serrano, & González


Cavazos, 2013), es importante realizar un análisis descriptivo entre las variables
pues la relación debe ser lineal para ello se debe graficar cada variable
independiente con la dependiente.

Seleccionar método

Según lo expuesto en el libro (Colectivo de Autores, 2009) el método de


mínimos cuadrados ordinarios ofrece algunas propiedades estadísticas muy
atractivas por lo cual se ha constituido como uno de los métodos más
efectivos y populares.

Calcular coeficientes del modelo de regresión lineal múltiple para


construir la función

Los coeficientes que se deben calcular para construir el modelo de regresión


lineal múltiple son:

✓ Coeficiente de Correlación múltiple


✓ Coeficiente de Correlación múltiple corregido
✓ Coeficiente de determinación

Identificar problemas de colinealidad o multicolinealidad

Basado en el libro de (Pardo & Ruiz, 2005) la colinealidad tiende hacer un


problema pues si una de las variables independientes se relaciona de forma
perfecta con una o más variables independientes de la ecuación se dice que hay
colinealidad perfecta y en este caso no sería posible estimar los coeficientes de
la ecuación de regresión.

31
En el caso de que la colinealidad fuese parcial, aumenta el tamaño de los
residuos tipificados y esto produce coeficientes de regresión muy inestables.

la colinealidad de las variables independientes es perfectamente lineal con el


resto

Basado en el libro (Garcia, Morales Serrano, & González Cavazos, 2013) la


colinealidad surge cuando dos variables independientes están correlacionadas;
se llama multicolinealidad cuando dos o más de dos variables independientes
(Xs) están correlacionadas; es decir, no son independientes entre sí

✓ Correlación entre variables independientes

La correlación entre las X s se denota por:

𝑅𝑖𝑗 = 𝑅𝑖𝑗

Donde 𝑅𝑖𝑗 muestra la correlación que existe entre las dos variables, es decir,
entre la variable 𝑋𝑖 y la variable 𝑋𝑗 Entonces 𝑅𝑖𝑗 mide la dependencia lineal
entre variables, en este caso se usa exclusivamente para las independientes
En los modelos de regresión múltiple se desea que no exista este tipo de
problemas, por lo que el coeficiente de correlación puede ser usado para
medir la multicolinealidad

La correlación oscila entre:

−1 ≤ 𝑅𝑖𝑗 ≤ 1

En términos absolutos seria:

0 ≤ |𝑅𝑖𝑗 | ≤ 1

Donde |𝑅𝑖𝑗 | denota el valor absoluto de cada correlación, si esta la medimos


en términos absolutos, ciertos criterios establecidos indican que existen

32
problemas de multicolinealidad, si la correlación entre dos o más variables es
mayor o igual a 70% es decir:

|𝑅𝑖𝑗 | ≥ 0.7

Por lo que la correlación entre dos variables independientes no debe ser


mayor a 0.7 en términos absolutos

Realizar prueba global de la ecuación

De acuerdo con lo descrito en el libro de (Garcia, Morales Serrano, & González


Cavazos, 2013) la prueba global es aquella en la que se comprueban todas las
variables juntas.

Al pronosticar la variable dependiente se busca captar el comportamiento de


esta por medio de una ecuación, la cual debe seguir una distribución normal con
variabilidad o variación total o SST.

Ecuaciones:

𝒏 𝒏 𝒏
𝟐
∑(𝒀𝒊 − 𝒀 ̅ )𝟐 = ∑(𝒀̂𝒊 − 𝒀 ̅ )𝟐
̅ ) + ∑(𝒀̂𝒊 − 𝒀
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏

Ecuación 1 Descomposición de la varianza total

𝒏 𝒏 𝒏 𝒏
̅̅̅𝟐̅ = ∑ 𝒀𝟐 − (∑𝒊=𝟏 𝒀𝒊 )^𝟐
̅ )𝟐 = ∑( 𝒀𝒊 )^𝟐 − 𝒏𝒀
𝑺𝑺𝑻 = ∑(𝒀𝒊 − 𝒀 𝒊
𝒏
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏

Ecuación 2 Variación total

𝒏
̅ )𝟐
𝑺𝑺𝑹 = ∑(𝒀𝒊 − 𝒀
𝒊=𝟏

Ecuación 3 Variación explicada

33
𝒏
̂ )𝟐
𝑺𝑺𝑬 = ∑(𝒀𝒊 − 𝒀
𝒊=𝟏

Ecuación 4 Variación no explicada

Efectuar pruebas individuales de los coeficientes

Basado en el libro de (Garcia, Morales Serrano, & González Cavazos, 2013),


para realizar las pruebas individuales de los coeficientes es necesario realizar la
prueba para cada 𝛽.

La ecuación para realizar la prueba de hipótesis es:

𝐻0 : 𝐵𝑖 = 0 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3, … 𝑘, 0

𝐻0 : 𝐵𝑖 ≠ 0 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3, … 𝑘, 0

Probar cumplimiento de los supuestos del análisis

De acuerdo con el libro de (Ximénez & San Martín, 2013), es necesario


comprobar si el modelo es correcto para eso se deben comprobar los siguientes
supuestos:

✓ Linealidad de la relación: La relación que existe entre cada una de las


variables independientes y la variable dependiente debe ser lineal. En el
modelo de regresión lineal múltiple los diagramas de dispersión de los
residuos ayudan a verificar el cumplimiento de dicho supuesto.

✓ Independencia: Los residuos se comportan como una variable aleatoria


por lo cual son independientes entre sí de las variables independientes y
de los pronósticos. Si no se cumpliese este supuesto se produce el
problema de la autocorrelación.

34
La prueba de Durbin-Watson permite conocer el grado de independencia
entre los residuos:

𝑛 𝑛

𝐷𝑊 = ∑(𝑒𝑖 − 𝑒𝑖−1 )^2 𝑙 ∑ 𝑒𝑖2 𝐷𝑜𝑛𝑑𝑒: 0 ≤ 𝐷𝑊 ≤ 4


𝑖=2 𝑖=1

Cuando los residuos son independientes DW = 2 se puede asumir


independencia de los residuos.

✓ Homocedasticidad: Para este supuesto la variación de los residuos debe


ser uniforme a lo largo de los valores pronosticados. Esto implica que el
tamaño de los residuos es independiente del de los valores que han sido
pronosticados. Para comprobar esto se realiza el diagrama de dispersión.

✓ Normalidad

Según lo expuesto en el libro de (Garcia, Morales Serrano, & González


Cavazos, 2013), el supuesto de normalidad se puede comprobar de las
siguientes formas:

Histograma

Regla empirica
Prueba de bondad de ajuste por la ji
cuadrada
Distribución Prueba de Shapiro-Wilk
normal Prueba de Kolmogorov-Smirnof-
Lilliefors
Gráfica P-P y gráfica Q-Q

Prueba Bowman-Shelton

Ilustración 1: Diferentes pruebas de normalidad


fuente: (Garcia, Morales Serrano, & González Cavazos, 2013)

35
Continuando con lo basado en el libro de (Garcia, Morales Serrano, & González
Cavazos, 2013), a continuación, se explica cada supuesto de normalidad:

Histograma

Para la creación de un histograma es necesario formar una distribución de


frecuencia con los errores y después graficar, para ello es necesario elaborar el
histograma de los residuos tipificados para observar el grado de alejamiento con
respecto a la distribución normal.

Regla empírica

Se deben calcular los porcentajes para saber si se cumple o no con la normalidad,


sin embargo, ningún procedimiento arroja estos resultados

La extensión del teorema de Chebyshev para una distribución que es simétrica y en


forma de campana, indica lo siguiente:

68.27% de los valores caería dentro de 1 desviación estándar con respecto a la


medida, esto es:
𝜖̅ ± 1𝜎
95.45% de los valores caería dentro de 2 desviación estándar con respecto a la
media, esto es:
𝜖̅ ± 2𝜎
99.73% de los valores caería dentro de 2 desviación estándar con respecto a la
media, esto es:
𝜖̅ ± 3𝜎
La ecuación para llevar a cabo la estandarización de los residuales es:

𝜖𝑖 − 𝜖̅
𝑍𝜖𝑖 =
𝑆𝜖

36
Donde:
𝑍𝜖𝑖 : es el puntaje estándar del error i
𝜖𝑖 : es el error i
𝜖̅: es el promedio de los errores
𝑆𝜖 : es el error estándar de lo estimado

Prueba de bondad de ajuste por la ji cuadrada

Es una prueba de hipótesis para corroborar que los errores siguen una distribución
normal, los pasos a seguir son:

• Establecer las hipótesis Los enunciados serian:


𝐻𝑜 : 𝜖~𝑁, 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝜖
𝐻𝑜 : , 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
~𝑁
• Se debe construir una distribución de frecuencias con los errores
La amplitud de cada clase se calcula con el rango, el cual es el dato mayor
(DM) mejor el dato menor (dm)
𝐷𝑀 − 𝑑𝑚
𝑎=
𝐶
• Marca de clase
𝐿𝑙1 + 𝐿𝑠1
𝑀𝐶 = 𝑃𝑀 =
2
Donde:
𝐿𝑙1 : es el límite inferior de la clase i
𝐿𝑠1 : es el límite superior de la clase i
𝑀𝐶 = 𝑃𝑀: es la marca de clase o punto medio de la clase i

Prueba de Shapiro Wilk

37
La prueba de hipótesis data de los años 60, es utilizada para muestras pequeñas,
es decir, entre 3 y 50 datos u observaciones
El proceso para la obtención del estadístico de prueba requiere un coeficiente, el
cual varía según el número de datos y son valores fijos

Ecuación:
2
[∑𝑆𝑖=1(𝑎𝑖 [𝑋𝑛−𝑖+1 − 𝑋𝑖 )]]
𝑆𝑊𝑐 =
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
Donde:
𝑆𝑊𝑐 : es el estadístico de prueba de Shapiro-Wilk
a: es el coeficiente Shapiro Wilk
n: es el número de datos
𝑋𝑖 : es la variable para probar en la observación i
𝑋̅: es el promedio de la variable
𝑗
S: es el número de diferencias que deberán realizarse y sale de 𝑆 = 2

J: es el lugar que ocupa la variable 𝑋𝑖 la cual previamente debe estar ordenada de


menor a mayor

La hipótesis para saber si los datos siguen una distribución normal son:

𝐻𝑜 : 𝜖~𝑁, 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙


𝜖
𝐻𝑜 : , 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
~𝑁

El proceso ordenado para obtener el estadístico es:

1. Contabilizar los valores que se probarán


2. Ordenar los valores de menor a mayor y Asignarles un lugar por medio de j

38
𝑗
3. Encontrar 𝑆 = que sería el número de comparaciones que se realizaran
2

posteriormente, Saber si el número de datos es: Par: se continua con el


proceso o Impar: se elimina el valor central, es decir la mediana o el dato
𝑋𝑠+1 Si éste es el caso, j y S cambian
4. Calcular las sumas de cuadrados de las desviaciones, es decir, entre el dato
y su promedio (𝑋𝑖 − 𝑋̅)
5. Encontrar el coeficiente según n y j
6. Multiplicar el coeficiente por las comparaciones y totalizar
7. Hallar el estadístico de prueba 𝑆𝑊𝑐
8. Comparar con el teórico o de tablas 𝑆𝑊𝑐 :
9. Concluir si 𝑆𝑊𝑐 < 𝑆𝑊𝑡 rechaza la hipótesis nula, es decir, la variable que se
está probando no sigue una distribución normal

Prueba de Kolmogorov-Lilliefors

Permite medir que tanto se parecen o coinciden una distribución teórica específica
y una variable Esta prueba fue realizada por Andrey Nikolaevich Kolmogorov y por
Nikolay Vasilyevich Smirnov, finalmente Hubert Lilliefors realizo una adaptación al
usar valores estandarizados para la prueba; esta variante fue dada porque la prueba
Kolmogorov-Smirnov requiere de la formación de clases a través de la probabilidad
de la normal

La ecuación es:
𝐾𝑆𝐿𝑐 = |𝐷𝑚á𝑥 | = |𝐹𝑡𝑒𝑜 − 𝐹𝑜𝑏𝑠 |
Donde:
𝐾𝑆𝐿𝑐 : es el estadístico de prueba Kolmogorov-Smirnov-Lilliefors
|𝐷𝑚á𝑥 |: es el valor absoluto de la diferencia entre la probabilidad acumulada teórica
y la observada
𝐹𝑡𝑒𝑜 : es la probabilidad acumulada teórica

39
𝐹𝑜𝑏𝑠 : es la probabilidad acumulada real u observada

Las hipótesis para saber si los datos siguen una distribución normal son:

𝐻𝑜 : 𝜖~𝑁, 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙


𝜖
𝐻𝑜 : , 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
~𝑁
Pasos:

1. Ordenar los datos de la variable de menor a mayor


𝑋−𝜇
2. Estandarizar la variable, es decir, obtener 𝑍 = Donde X es la variable
𝜎

para estandarizar, 𝜇 es el promedio de la variable y 𝜎 es la desviación


estándar de la misma
3. Calcular la probabilidad acumulada basándose en la variable
estandarizada; a dicha probabilidad se le denomina 𝐹𝑜𝑏𝑠
4. Buscar la probabilidad teórica, la cual es llamada 𝐹𝑡𝑒𝑜 y la probabilidad
teórica acumulada rezagada o retrasada en un valor
5. Encontrar todas las distancias entre las probabilidades acumuladas teóricas
y observadas, que serian 𝐷𝑚𝑎𝑥
6. Determinar el estadístico de prueba 𝐾𝑆𝑐 el cual es la diferencia más grande
7. Encontrar el estadístico teórico 𝐾𝑆𝑡
8. Comparar si 𝐾𝑆𝑐 > 𝐾𝑆𝑡 entonces se rechaza la hipótesis nula; es decir, la
variable que se está probando no sigue una distribución normal

Gráfica P-P y Q-Q

Denominadas P-P plot por los percentiles que se necesitan encontrar y Q-Q plot
porque se necesitan los cuantiles; estas gráficas sirven para verificar que los errores
siguen o no una distribución normal
Pasos para seguir para encontrar la P-P o Q-Q plot:

40
1. Encontrar errores
2. Ordenar los errores de menor a mayor
3. Poner en la columna j el lugar que ocupa el error, esto equivale a una
numeración
𝑗−05
4. Hallar la posibilidad de la normal con , el 05 equivale a la mitad de la
𝑛

normal y la n es el número de errores que se tienen análisis


5. Multiplicar la probabilidad por 100 para convertirla a percentil En esta parte
se puede encontrar la P-P plot, graficando en el eje X los percentiles o las
probabilidades y en el eje Y los errores ordenados, agregándole una línea
recta ajustada

Prueba de Bowman-Shelton

En 1975 K Bowman y L Shelton propusieron esta prueba de hipótesis que se utiliza


para corroborar si los datos siguen una distribución normal

La ecuación del estadístico cuando el número de datos es grande se aproxima a


una ji cuadrada

(𝑆𝑒𝑠𝑔𝑜)2 (𝐶𝑢𝑟𝑡𝑜𝑠𝑖𝑠 − 3)2


𝐵𝑆 = 𝑛 [ + ] = 𝑋𝑐1
6 24
Donde:

BS: es el estadístico de Bowman-Shelton que se aproxima a una ji cuadrada con


dos grados de libertad
n: es el número de datos
Sesgo: es el sesgo o parte del tercer momento e indica el grado de simetría en los
datos con respecto al valor central o promedio

41
El sesgo es el grado de simetría, si es negativo, la distribución será sesgada a la
izquierda, si es positivo será sesgada a la derecha y si es cero entonces la
distribución es simétrica

Ecuación para encontrar el sesgo:

𝑚3 ∑𝑛𝑖=1(𝑋 − 𝑋̅)3 ∑𝑛𝑖=1(𝜀 − 𝜀̅)3


𝑆𝑒𝑠𝑔𝑜 = 3 = 3 = 3
(𝑚2 )2 𝑛(𝑆 2 )2 𝑛(𝑆 2 )2

Donde:

n= es el número de datos (errores)


𝑚𝑖 : es el momento i
𝑆 2 : es la varianza, en este caso sería la varianza de los errores, la cual se
encuentra en la tabla anova

Interpretar y analizar los coeficientes de determinación, correlación,


determinación ajustado y error estándar

De acuerdo con lo descrito en el libro de (Garcia, Morales Serrano, & González


Cavazos, 2013) los coeficientes son los siguientes:

Coeficiente de determinación

Indica en términos porcentuales la variabilidad que tiene la variable dependiente y


la cantidad que fue captada o explicada en forma lineal por las variables
independientes sus fórmulas son:

𝑆𝑆𝐸 𝑆𝑆𝑅
𝑅2 = 1 − =
𝑆𝑆𝑇 𝑆𝑆𝑇
Donde:

42
SSR: es la varianza explicada
SST: es la variación total
SSE: es la variación no explicada

Un valor cercano a cero indica que no se captó casi nada de la variación total o del
comportamiento de Y; por el contrario, un valor cercano a 1 indica que casi el 100%
de la variabilidad fue captada o explicada por el modelo, es decir, por las variables
independientes

Coeficiente de determinación corregido

También denominado coeficiente de determinación ajustado; indica en términos


porcentuales cuanta variabilidad de la variable dependiente fue captada por la
ecuación, pero ajustada o corregida por los grados de libertad, su ecuación es:

𝑆𝑆𝐸
𝑛 − 1 𝑛−𝑝 𝑘 𝑛−1
2
𝑅𝐴𝑑𝑗 = ̅𝑅̅̅̅2 = 1 − [(1 − 𝑅 2 ) ]= 1− = [𝑅 2 − ][ ]
𝑛−𝑝 𝑆𝑆𝑇 𝑛−1 𝑛−𝑝
𝑛−1
Donde:
𝑅 2 : es el coeficiente de determinación
n: es el número de datos
p: es el número de parámetros en el análisis p=k+1, donde k es el número de
variables independientes más 1 = p72
k: es el número de variables independientes

Coeficiente de Correlación Múltiple

Se le denomina múltiple porque es una correlación multivariante, es decir, entre


muchas variables; en el análisis de correlación hay bivariadas, que es solo entre

43
dos variables, llamada de Pearson, La correlación múltiple en términos porcentuales
indica el poder de asociación o relación que tienen las variables independientes (las
X) con la dependiente (Y) La ecuación es:

𝑅𝑦𝑙𝑋1,𝑋2,…,𝑋𝑘 = √𝑅 2

Donde:

𝑅𝑦𝑙𝑋1,𝑋2,…,𝑋𝑘 : es la correlación o asociación de Y con las de X


𝑅 2 : es el coeficiente de determinación

Los valores del coeficiente de correlación oscilan entre:

0 ≤ 𝑅𝑦𝑙𝑋1,𝑋2,…,𝑋𝑘 ≤ 1

Un valor cercano a cero indica que las variables independientes X no están


asociadas o no tienen una relación con la dependiente, un valor cercano a 1 señala
que hay una fuerte asociación o relación entre las X y la Y, o que la relación es de
casi 100%

Error estándar del estimado

Este valor proporciona un indicio de que tan bien se ajusta la línea a los datos; es
decir, que tanta dispersión tienen los valores observados alrededor del modelo de
regresión en todos los datos La ecuación asociada es:

𝑆𝑆𝐸
𝑆𝜀 = 𝜎̂ = √𝑉𝑎𝑟(𝜖̂) = √𝜎̂ 2 = √ = √𝑀𝑆𝐸
𝑛−𝑝

44
Donde:
𝜎 2 : es la varianza de los errores
SSE: es la variación no explicada
n: es el número de datos
p: es el número de parámetros en el análisis y que p=k+1, donde k es el número de
variables independientes más 1=p
MSE: es la suma de cuadrados promediada; es decir, dividida entre sus grados de
libertad

Los valores del error estándar del estimado deben ser:

𝑆𝜖 ≥ 0

El cercano a cero indica que existe casi nada de dispersión a través de la línea de
regresión y que el ajuste es casi perfecto, lo que significa que la mayoría de los
datos reales se encuentran sobre la línea de regresión Si el dato fuera mayor
indicaría que los valores están muy dispersos o alejados de la línea de regresión

Varianza de los errores

Para poder calcular u obtener la varianza de los errores es necesario que el estudio
se realice con la población y como esto es imposible, Por ende, se calculará la
varianza de los residuales, es decir, de la muestra y así se estimará la población

𝑆𝑆𝐸
𝜎𝜖2 = = 𝑀𝑆𝐸 = (𝑆𝜖 )^2
𝑛−𝑝
Donde:
𝑆𝜖 : es el error estándar del estimado
SSE: es la variación no explicada
n: es el número de datos

45
p: es el número de parámetros en el análisis y p=k+1, donde k es el número de
variables independientes más 1=p
MSE: es la suma de cuadrados promediada; es decir; dividida entre sus grados de
libertad

4.1.4. Pronósticos

Los pronósticos de ventas son fundamentales en cualquier organización y es por


esto por lo que firman que: (Spyros & Steven C, 1997) el pronóstico de ventas se
necesita para planear la manufactura de un artículo La programación, la compra
de materias primas, la planeación de inventarios, la contratación y capacitación
del personal, y el estimado de los gastos generales crean la necesidad de
estimaciones acerca de la calendarización y magnitud de las ventas de la
compañía (p34)

4.1.5. Paquete Estadístico para las Ciencias Sociales SPSS por sus siglas
en ingles (Statistical Package for the Social Sciences)

Según lo descrito en el libro de (Pérez López, 2005), el paquete estadístico SPPS


es un sistema global para el análisis de datos, tiene una capacidad de
procesamiento de ficheros datos de más de 30000 variables la única limitación
es por la capacidad de almacenamiento del disco del ordenador donde se esté
trabajando

4.1.5.1. Nivel de medición de la variable

El nivel de medición de las variables se puede especificar como Escala (datos


numéricos de una escala de intervalo o de razón), Ordinal o Nominal Los datos
tanto nominales como ordinales pueden ser de cadena alfanumérica o numérica

46
• Nominal: Cuando sus valores representan categorías que no obedecen
a una clasificación intrínseca, Por ejemplo, el departamento de la
compañía en el que trabaja un empleado Algunos ejemplos de variables
nominales es: región, código postal o confesión religiosa

• Ordinal: Cuando sus valores representan categorías con alguna


clasificación intrínseca, Por ejemplo, los niveles de satisfacción de un
servicio, que abarquen desde muy insatisfecho hasta muy satisfecho

• Escalas: Cuando sus valores representan categorías ordenadas con una


métrica con significado, por lo que son adecuadas las comparaciones de
distancia entre valores Ejemplo: la edad en años y los ingresos en dólares

A continuación, se muestran las reglas para determinar el nivel de medición:

Condición Nivel de Medición


Faltan todos los valores de una variable Nominal
El formato es dólar o una divisa personalizada Continuo
El formato es la fecha u hora (excluyendo mes y día de la
Continuo
semana)
La variable contiene al menos un valor no entero Continuo
La variable contiene al menos un valor negativo Continuo
La variable contiene valores no validos inferiores a 10000 Continuo
Tabla 2: Reglas para determinar el nivel de medición

47
4.1.5.2. Tipos de Variable

El tipo de variable especifica los tipos de datos de cada una de las variables de
forma predeterminada el sistema asume que todas las variables nuevas son
numéricas
Los tipos de variables son:

✓ Numérico Una variable cuyos valores son números Los valores se muestran
en formato numérico estándar El editor de datos acepta valores numéricos
de forma estándar o en notación científica
✓ Coma Una variable numérica cuyos valores se muestran como comas que
delimitan cada tres posiciones y con el punto como delimitador decimal
✓ Punto Una variable numérica cuyos valores se muestran como puntos que
delimitan cada tres posiciones y con la coma como delimitador decimal
✓ Notación Científica Una variable numérica cuyos valores se muestran
como una E intercalada y un exponente con signo que representa una
potencia de base 10
✓ Fecha Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos fecha-calendario u hora-reloj-

4.2. MARCO INSTITUCIONAL

4.2.1. Descripción General

Boleco SA es una empresa que se dedica al diseño, producción y fabricación de


bolsas ecológicas en diferentes tamaños y presentaciones Se basa en la filosofía
de contribuir a la reducción de la contaminación ambiental que se vivencia
actualmente, producto de la producción descontrolada de bienes y del uso de bolsas
plásticas

48
Como organización se ve beneficiada de la política establecida por el estado, la cual
implanta el cobro de cada unidad de bolsa plástica, a fin de disminuir el uso de estas
Al igual se lucra notoriamente debido a que es un medio de publicidad utilizado con
más concurrencia por los centros de comercialización de productos y/o servicios

Boleco, es escogida como la empresa enfoque del presente proyecto, ya que cuenta
con gran acogida entre sus clientes y se ha visto un incremento significativo en sus
ventas (bolsas ecológicas), por tal motivo se va a implementar un modelo de
regresión lineal múltiple para el pronóstico de ventas de bolsas ecológicas para la
empresa Boleco SA, en la ciudad de Bogotá DC y ofertar un producto con altos
estándares de calidad A su vez, se da importancia a la labor organizativa de Boleco,
que se enfoca en contribuir a mejorar las condiciones medioambientales en las
cuales se habita actualmente

4.2.2. Datos Generales

Razón Social Boleco SA


Fecha de Creación 15 de noviembre de 2007
Identificación Tributaria (NIT) 28054685-9
Tipo de Contribuyente Persona Natural
Representante Legal Olga Johana Lozano Quirós
Cedula de Ciudadanía 28054685
Dirección de la empresa Carrera 72 A # 54 A – 07 sur, barrio Olarte
Localidad Numero 7- Bosa
Correo Electrónico olgajohanalozano@gmailcom
Teléfono 7779494
Celular 311239990
Tabla 3: Datos Generales de Boleco SA

49
4.2.3. Misión

Boleco SA es una empresa dedicada a la producción de bolsas ecológicas de la


más alta calidad y elaborada con materiales reutilizables, buscando disminuir los
índices de contaminación Porque con Boleco, creamos conciencia ambiental

4.2.4. Visión

Para el año 2020, buscamos convertirnos en una empresa líder en venta de bolsas
ecológicas e innovación ambiental a nivel nacional, ubicando un nuevo taller de
confección en la localidad de Kennedy

4.2.5. Organigrama

GERENTE

Departamento Departamento Departamento


Administrativo Comercial Operativo

Supervisor
Recursos
Contabilidad Compras Ventas de Operarios
Humanos
Operación

Ilustración 2 Organigrama Boleco S.A.

50
4.2.6. Mapa de Procesos

Mejoramiento Continuo
P P
A Procesos Direccionamiento A
R Gestión del R
T Planeación T
SGI Talento
Gerencial
E Humano E
S S
IN Procesos Misionales IN
T T
E Producción Empaque Distribución E
R R
E E
S Procesos de Apoyo S
A A
Servicios
D Compras Contabilidad D
Generales
A A
S S
Mejoramiento Continuo

Ilustración 3: Mapa de procesos BOLECO

4.3. MARCO JURÍDICO

A continuación, se hace referencia a la normatividad legal vigente en Colombia


aplicable para el presente estudio de investigación

• Decreto No 2198 del 26 de diciembre de 2017: “Por el cual se modifica el


epígrafe de la Parte 5 del Libro 1 y se adiciona el Título 6 a la Parte 5 del
Libro 1 del Decreto 1625 de 2016 Único Reglamentario en Materia Tributaria,
para reglamentar el parágrafo 1 del artículo 512-15 y los numerales 3 y 4 del
artículo 512-16 del Estatuto Tributario"

51
• Resolución No 1481 del 03 de agosto de 2018: “Por la cual se establece la
forma y requisitos para presentar ante la Autoridad Nacional de Licencias
Ambientales – ANLA, las solicitudes de certificación para efectos de los
dispuesto en el parágrafo 1 del artículo 512-15 y los numerales 3 y 4 del
artículo 512-16 del Estatuto Tributario, relacionados con el Impuesto
Nacional al Consumo de Bolsas Plásticas”

52
5. METODOLOGÍA

5.1. TIPO DE ESTUDIO

El tipo de estudio que se realizó para el desarrollo del presente trabajo es de tipo
cuantitativo y cualitativo pues se requiere tener claridad sobre los tipos de clientes
que maneja actualmente la empresa y así mismo realizar un análisis cuantitativo de
las ventas

5.2. MUESTRA

Se tomo como muestra la base de datos de Boleco SA del año 2018 donde se
indican las ventas realizadas de las bolsas ecológicas (ver anexo 1), cabe resaltar
que la muestra corresponde a la bolsa tipo cambrel en dos tamaños de 12.5 kg y de
15 Kg para tres tipos de clientes diferentes

5.3. TÉCNICAS PARA LA RECOLECCIÓN Y ANÁLISIS DE LA


INFORMACIÓN

Boleco SA suministra la información correspondiente a las ventas de las bolsas


ecológicas y posteriormente se hace el análisis de está utilizando el programa SPSS

5.4. FUENTES

5.4.1. Primarias

La información necesaria para la realización del presente trabajo es suministrada


directamente por la representante legal de la empresa quien da a conocer las ventas
de las bolsas ecológicas

53
6. CARACTERIZACIÓN DE LAS VARIABLES

La caracterización de las variables se realizó de manera subjetiva teniendo en


cuenta la información suministrada directamente por Boleco S.A., lo que se busca
es incluir las variables más relevantes dentro del modelo de Regresión Lineal
Múltiple.

A continuación, se realiza la descripción de cada una de las variables.

1. Ventas: Corresponde a las ventas del año 2018 suministradas por Boleco
S.A.

2. Capacidad de la Bolsa: Hace referencia a el peso y tamaño de las bolsas


reutilizables que maneja Boleco S.A.
✓ Peso: 0-15 kg o 0-12.5 kg
✓ Tamaño: 55x55 cm o 50x50 cm

3. Clientes: Esta variable corresponde a los diferentes tipos de clientes que


maneja la empresa y los cuales son: Supermercados, Tiendas de Barrio y
Corporativos.

4. Cantidad: Se refiere a la cantidad de bolsas vendidas por un periodo


determinado

5. Costo de Ventas: Esta variable corresponde al costo por producir las bolsas
reutilizables.

VARIABLE DESCRIPCIÓN TIPO DE VARIABLE


Y Ventas Numérica - punto
X1 Capacidad bolsa Numérica - Coma
X2 Clientes Cadena
X3 Cantidad Numérica - punto

54
X4 Costo de ventas Numérica - punto
Tabla 4 Resumen Variables Modelo

7. FORMULACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE

Para realizar la formulación del modelo de regresión lineal múltiple primero se debe
seleccionar la variable dependiente (Y) y las variables independientes (X), a
continuación, se muestra la selección de las variables y la ecuación.

La variable dependiente corresponde a las ventas de las bolsas ecológicas del año
2018 y las variables independientes son: Capacidad de la Bolsa, Clientes, Cantidad
y Costo de Ventas.

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4

Donde:

Y: Ventas
𝑋1: Capacidad de la Bolsa
𝑋2: Clientes
𝑋3: Cantidad
𝑋4: Costo de Ventas

Después de realizar la identificación de las variables se procedió a realizar un


análisis de causa – efecto entre la variable dependiente e independiente con el fin
de determinar el grado de relación entre las variables.

55
Ilustración 4: Correlación variables

Como se puede observar en la gráfica número dos el supuesto de linealidad solo se


cumple en algunas variables mientras que en otras no hay linealidad o correlación
alguna entre las variables como es el caso de Capacidad_Bolsa con Ventas o
Cantidad con Capacidad de Bolsa.

Por otro lado, algunas variables presentan una relación positiva, es decir, que existe
relación entre las variables como lo es entre Ventas y Cantidad, Ventas y Costo de
Ventas.

7.1. INTRODUCCIÓN DE LAS VARIABLES

Teniendo en cuenta la caracterización de las variables y la formulación del modelo


de regresión lineal múltiple se procedió a realizar la introducción de la información
en el Software SPSS.

56
7.2. SELECCIÓN DEL MÉTODO

Se realizo el análisis del modelo de regresión lineal múltiple con los siguientes
métodos:

• Introducir: La selección de variables se introduce en un solo paso.

Tabla 5 ANOVA

ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig
1 Regresión 21076924443017,230 3 7025641481005,743 784,399 ,000b
Residuo 2624318214272,339 293 8956717454,854

Total 23701242657289,570 296

a Variable dependiente: Ventas


b Predictores: (Constante), Capacidad_Bolsa, Cantidad, Costo_Ventas

La tabla 4 es una prueba de análisis de varianza la cual muestra si la varianza


explicada por la regresión es significativamente distinta a la varianza no explicada.

El valor del estadístico de prueba F= 784.339 tiene un P_ valor igual a 0 < 0.05, por
lo que se rechaza la hipótesis nula y se concluye que la dependencia lineal es
estadísticamente significativa por lo que el modelo es adecuado.

Tabla 6 Coeficientes
Coeficientes
Coeficientes
Coeficientes no 95,0% intervalo de Estadísticas de
estandariza Correlaciones
estandarizados confianza para B colinealidad
dos
Modelo t Sig
Orde
Desv Límite Límite Parci Part Toleran
B Beta n VIF
Error inferior superior al e cia
cero
1 (Constan - - - -
74933,9 ,00
te) 342239,0 4,56 489716,1 194761,9
94 0
24 7 28 21
Cantidad 12,5 ,00 ,24 12,1
1524,719 121,246 ,851 1286,095 1763,343 ,932 ,592 ,083
75 0 4 15

57
Costo 1,00 ,31 ,01 13,2
,106 ,105 ,071 -,102 ,313 ,910 ,058 ,076
Ventas 2 7 9 15
Capacida
29286,48 5512,31 5,31 ,00 18437,73 40135,23 ,10 1,56
d ,129 ,246 ,296 ,637
2 5 3 0 1 2 3 9
Bolsa
a Variable dependiente: Ventas

Teniendo en cuenta los resultados de la tabla 12 se deduce que la ecuación de


regresión es:

𝑌̂ = −342239.024 + 1524,719𝑋1 + 0.106𝑋2 + 29286,482𝑋3

Donde:
Y: Ventas
𝑋1: Cantidad
𝑋2: Costo Ventas
𝑋3: Capacidad_Bolsa

Como se muestra en la ecuación de regresión se podría inferir que la variable 𝑋2


Costo de Ventas es la que tiene menos importancia en comparación con las otras
variables pues su significancia es menor.

La ecuación de regresión en estandarizadas nos muestra las variables en la misma


dimensión de la siguiente manera:
𝑍̂ = 0.851𝑍1 + 0.071𝑍2 + 0.129𝑍3

Con esta ecuación se puede determinar que la variable cantidad tiene un peso
significativo sobre las variables restantes. Si se tiene en cuenta el valor de t el cual
nos indica la significancia estadística de los distintos coeficientes se puede observar
un valor máximo para la Cantidad (t = 12.575), seguido de Capacidad_Bolsa (t =
5.313) y por último el Costo_Ventas (t = 1.002).

58
Tabla 7 Diagnostico de Colinealidad

Diagnósticos de colinealidada
Índice de Proporciones de varianza
Modelo Dimensión Autovalor
condición (Constante) Cantidad Costo_Ventas Capacidad_Bolsa
1 1 3,534 1,000 ,00 ,00 ,00 ,00
2 ,437 2,843 ,00 ,02 ,02 ,00
3 ,026 11,581 ,01 ,60 ,55 ,01
4 ,003 37,498 ,99 ,38 ,43 ,99

En la tabla 13 se puede observar el Diagnostico de colinealidad en donde se indica


que la variable Capacidad_Bolsa con un índice de condición de 37.948 presenta
problemas de multicolinealidad por lo tanto la variable puede ser eliminada del
modelo.

• Hacia delante

Correlaciones
Ventas Cantidad Costo_Ventas Capacidad_Bolsa

Correlación de Pearson Ventas 1,000 ,932 ,910 ,246


Cantidad ,932 1,000 ,940 ,112
Costo_Ventas ,910 ,940 1,000 ,308
Capacidad_Bolsa ,246 ,112 ,308 1,000
Sig (unilateral) Ventas ,000 ,000 ,000
Cantidad ,000 ,000 ,027
Costo_Ventas ,000 ,000 ,000
Capacidad_Bolsa ,000 ,027 ,000
N Ventas 297 297 297 297
Cantidad 297 297 297 297
Costo_Ventas 297 297 297 297
Capacidad_Bolsa 297 297 297 297

Tabla 8 Correlaciones método hacia adelante

59
Variables entradas/eliminadasa
Variables Variables
Modelo entradas eliminadas Método
1 Cantidad Avanzar (Criterio: Probabilidad-de-F-para-entrar <= ,050)
2 Capacidad_Bolsa Avanzar (Criterio: Probabilidad-de-F-para-entrar <= ,050)
a Variable dependiente: Ventas
Tabla 9 variables de entrada metodo hacia adelante

La tabla número 9 muestra tanto las variables de entrada como las variables
eliminadas, sin embargo, para el Método hacia adelante ninguna de las variables es
eliminada.

ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig
1 Regresión 20583220467148,770 1 20583220467148,770 1947,404 ,000b
Residuo 3118022190140,799 295 10569566746,240

Total 23701242657289,570 296

2 Regresión 21067928792360,242 2 10533964396180,121 1176,079 ,000c


Residuo 2633313864929,329 294 8956849880,712

Total 23701242657289,570 296

a Variable dependiente: Ventas


b Predictores: (Constante), Cantidad
c Predictores: (Constante), Cantidad, Capacidad_Bolsa

Variables excluidasa
Estadísticas de colinealidad
Correlación
Modelo En beta t Sig Tolerancia
parcial Tolerancia VIF
mínima
1 Costo_Ventas ,294b 4,961 ,000 ,278 ,117 8,529 ,117
b
Capacidad_Bolsa ,144 7,356 ,000 ,394 ,987 1,013 ,987
2 Costo_Ventas ,071c 1,002 ,317 ,058 ,076 13,215 ,076
a Variable dependiente: Ventas
b Predictores en el modelo: (Constante), Cantidad
c Predictores en el modelo: (Constante), Cantidad, Capacidad_Bolsa

60
Diagnósticos de colinealidada
Índice de Proporciones de varianza
Modelo Dimensión Autovalor
condición (Constante) Cantidad Capacidad_Bolsa
1 1 1,779 1,000 ,11 ,11

2 ,221 2,838 ,89 ,89

2 1 2,709 1,000 ,00 ,04 ,00


2 ,287 3,074 ,00 ,95 ,00
3 ,004 25,633 ,99 ,00 ,99
a Variable dependiente: Ventas

En el metodo numero dos exiLas variables uno y dos correspondientes respectivamente a

• Hacia atrás

Correlaciones
Ventas Cantidad Costo_Ventas Capacidad_Bolsa

Correlación de Pearson Ventas 1,000 ,932 ,910 ,246


Cantidad ,932 1,000 ,940 ,112
Costo_Ventas ,910 ,940 1,000 ,308
Capacidad_Bolsa ,246 ,112 ,308 1,000
Sig (unilateral) Ventas ,000 ,000 ,000
Cantidad ,000 ,000 ,027
Costo_Ventas ,000 ,000 ,000
Capacidad_Bolsa ,000 ,027 ,000
N Ventas 297 297 297 297
Cantidad 297 297 297 297
Costo_Ventas 297 297 297 297
Capacidad_Bolsa 297 297 297 297

Variables entradas/eliminadasa
Modelo Variables entradas Variables eliminadas Método
Capacidad_Bolsa, Cantidad,
1 Introducir
Costo_ventasb
Retroceder (criterio:
2 Costo_Ventas Probabilidad de F-para-
eliminar >= ,100)

61
a Variable dependiente: Ventas
b Todas las variables solicitadas introducidas

Para este modelo la variable eliminada corresponde al Costo de Ventas puesto


que el criterio de probabilidad resulta ser mayor a 0,100

Resumen del modeloc


Error Estadísticos de cambio
R
R estándar Cambio en Sig
Modelo R cuadrado Cambio
cuadrado de la R gl1 gl2 Cambio en
ajustado en F
estimación cuadrado F
1 ,943a ,889 ,888 94639,936 ,889 784,399 3 293 ,000
2 ,943b ,889 ,888 94640,635 ,000 1,004 1 293 ,317
a Predictores: (Constante), Capacidad_Bolsa, Cantidad, Costo_Ventas
b Predictores: (Constante), Capacidad_Bolsa, Cantidad
c Variable dependiente: Ventas

Como se observa en la tabla anterior el modelo que sirve en el método hacia atrás
es el modelo número uno que comprende las variables Capacidad Bolsa y Cantidad,
con este modelo se explica un 88.9% y una vez corregido por el efecto de la muestra
y la variable independiente resulta ser un 88.8%.

Diagnósticos de colinealidada
Índice de Proporciones de varianza
Modelo Dimensión Autovalor
condición (Constante) Cantidad Costo_Ventas Capacidad_Bolsa
1 1 3,534 1,000 ,00 ,00 ,00 ,00
2 ,437 2,843 ,00 ,02 ,02 ,00
3 ,026 11,581 ,01 ,60 ,55 ,01
4 ,003 37,498 ,99 ,38 ,43 ,99
2 1 2,709 1,000 ,00 ,04 ,00

2 ,287 3,074 ,00 ,95 ,00

3 ,004 25,633 ,99 ,00 ,99

a Variable dependiente: Ventas

62
Para el primer modelo la variable número cuatro correspondiente a la
Capacidad_Bolsa tiene un índice de condición superior a 30 lo que indica que
existen problemas colinealidad y por ende se debe eliminar o excluir dicha variable.

Variables excluidas
Estadísticas de colinealidad
Correlación
Modelo En beta t Sig Tolerancia
parcial Tolerancia VIF
mínima
2 Costo_Ventas ,071b 1,002 ,317 ,058 ,076 13,215 ,076
a Variable dependiente: Ventas
b Predictores en el modelo: (Constante), Capacidad_Bolsa, Cantidad

• Paso a paso: En este método se introduce la variable independiente y se


eliminan las que no tengan una relación fuerte con la variable independiente.

Correlaciones
Ventas Cantidad Costo_Ventas Capacidad_Bolsa

Correlación de Pearson Ventas 1,000 ,932 ,910 ,246


Cantidad ,932 1,000 ,940 ,112
Costo_Ventas ,910 ,940 1,000 ,308
Capacidad_Bolsa ,246 ,112 ,308 1,000
Sig (unilateral) Ventas ,000 ,000 ,000
Cantidad ,000 ,000 ,027
Costo_Ventas ,000 ,000 ,000
Capacidad_Bolsa ,000 ,027 ,000
N Ventas 297 297 297 297
Cantidad 297 297 297 297
Costo_Ventas 297 297 297 297
Capacidad_Bolsa 297 297 297 297

Variables entradas/eliminadasa
Variables Variables
Modelo Método
entradas eliminadas
Por pasos (Criterios: Probabilidad-de-F-para-entrar <= ,050,
1 Cantidad
Probabilidad-de-F-para-eliminar >= ,100)

63
Capacidad Por pasos (Criterios: Probabilidad-de-F-para-entrar <= ,050,
2
Bolsa Probabilidad-de-F-para-eliminar >= ,100)
a Variable dependiente: Ventas

Resumen del modeloc


Error Estadísticos de cambio
R
R estándar de Cambio en Sig
Modelo R cuadrado Cambio
cuadrado la R gl1 gl2 Cambio en
ajustado en F
estimación cuadrado F
1 ,932a ,868 ,868 102808,398 ,868 1947,404 1 295 ,000
2 ,943b ,889 ,888 94640,635 ,020 54,116 1 294 ,000
a Predictores: (Constante), Cantidad
b Predictores: (Constante), Cantidad, Capacidad_Bolsa
c Variable dependiente: Ventas

El modelo uno explica en un 86.8%, una vez corregido por el efecto de la muestra
y de la variable independiente resulta ser en un 86.8% es decir el modelo no
presenta ninguna variación.

El modelo dos explica en un 88.9%, una vez corregido por el efecto de la muestra
y de la variable independiente (ventas) resulta ser de un 88.8%.

En ambos casos el porcentaje obtenido explica el modelo.

ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig
1 Regresión 20583220467148,770 1 20583220467148,770 1947,404 ,000b

Residuo 3118022190140,799 295 10569566746,240

Total 23701242657289,570 296

2 Regresión 21067928792360,242 2 10533964396180,121 1176,079 ,000c

Residuo 2633313864929,329 294 8956849880,712

Total 23701242657289,570 296

a Variable dependiente: Ventas

64
b Predictores: (Constante), Cantidad
c Predictores: (Constante), Cantidad, Capacidad_Bolsa

Para el modelo uno el valor del estadístico de prueba F= 1947.404 y para el modelo
2 el valor estadístico de prueba F = 1176.079 los cuales tienen una P_ valor igual a
0 < 0.05, por lo que se rechaza la hipótesis nula y se concluye que la dependencia
lineal es estadísticamente significativa por lo que el modelo es adecuado.

Variables excluidasa
Estadísticas de colinealidad
Correlación
Modelo En beta t Sig Tolerancia
parcial Tolerancia VIF
mínima
1 Costo_Ventas ,294b 4,961 ,000 ,278 ,117 8,529 ,117
Capacidad_Bolsa ,144b 7,356 ,000 ,394 ,987 1,013 ,987
2 Costo_Ventas ,071c 1,002 ,317 ,058 ,076 13,215 ,076
a Variable dependiente: Ventas
b Predictores en el modelo: (Constante), Cantidad
c Predictores en el modelo: (Constante), Cantidad, Capacidad_Bolsa

En el primer modelo la variable que tenía un nivel de significancia estadística alto


era Cantidad (t = 12.575), para este modelo la variable que tienen significancia
estadística alta es Capacidad_Bolsa (t = 7.356) y para ambos modelos la variable
que no tiene significancia alta es Costo_Ventas (t = 1.002) por lo tanto puede ser
eliminada del modelo.

Diagnósticos de colinealidada
Índice de Proporciones de varianza
Modelo Dimensión Autovalor
condición (Constante) Cantidad Capacidad_Bolsa
1 1 1,779 1,000 ,11 ,11

2 ,221 2,838 ,89 ,89

2 1 2,709 1,000 ,00 ,04 ,00


2 ,287 3,074 ,00 ,95 ,00
3 ,004 25,633 ,99 ,00 ,99

65
a Variable dependiente: Ventas

8. VALIDACIÓN DEL MODELO

La validación del modelo se realiza por medio del análisis e interpretación de los
coeficientes de correlación.

Resumen del modelob


Error Estadísticos de cambio
R
R estándar Cambio en Sig
Modelo R cuadrado Cambio
cuadrado de la R gl1 gl2 Cambio en
ajustado en F
estimación cuadrado F
1 ,943a ,889 ,888 94639,936 ,889 784,399 3 293 ,000
a Predictores: (Constante), Capacidad_Bolsa, Cantidad, Costo_Ventas
b Variable dependiente: Ventas

El modelo explica en un 88.9%, una vez corregido por el efecto de la muestra y de


la variable independiente resulta un 88.8%.

8.1. SUPUESTOS DE ANÁLISIS

INDEPENDENCIA DE LOS ERRORES

Para comprobar el supuesto de la independencia de los errores en la medición de


las variables explicativas sean independientes entres si, se verifica mediante el
estadístico de Durban – Watson

Resumen del modelob


R cuadrado Error estándar de
Modelo R R cuadrado ajustado la estimación Durbin-Watson
1 ,919a ,845 ,845 132.195,657 ,000
a. Predictores: (Constante), Costo_Ventas, Capacidad_Bolsa, Cantidad
b. Variable dependiente: Ventas

66
Teniendo en cuenta que el estadístico da 0 se rechaza H0 esto quiere decir que
existe una autocorrelación positiva.

HOMOCEDASTICIDAD

Gráfica 2 Dispersión

De acuerdo con la gráfica 6 se puede observar que la mayoría de los residuos son
aleatorios por lo que se podría inferir que se cumple en supuesto de
homocedasticidad u homogeneidad de varianzas.

NORMALIDAD

Para comprobar el supuesto de normalidad se realizo la prueba Q-Q y P-P a


continuación, se muestran los resultados.

67
Gráfica 3 P-P

Gráfica 4: Q-Q

Las gráficas P-P plot que hace referencia a los percentiles y Q-Q plot que hace
referencias a los cuantiles se puede observar que los errores, aunque no todos se
encuentran sobre la línea de tendencia estos tienen a seguir una distribución
normal.

68
CONCLUSIONES

Se identificaron y caracterizaron las variables más relevantes que intervienen en el


proceso de venta de bolsas ecológicas de la empresa Boleco S.A., las cuales
fueron: capacidad de la bolsa, clientes, cantidad, ventas y Costo de ventas.

Se realizó la formulación del modelo de regresión lineal múltiple teniendo en cuenta


las variables más relevantes y a partir de este se procedió a ingresar los datos en
el software SPSS.

Se concluye por medio de la validación del moldeo que para Boleco S.A. las
variables que más se relacionan entre sí son ventas, cantidad y capacidad de la
bolsa, estas variables permiten predecir un modelo con una relación significativa de
un 88.9%.

Los modelos de pronósticos son importantes para cualquier tipo de organización


independientemente de su actividad económica ya que estos ayudan a mejorar la
productividad, minimizar costos, disminuir fallas en los procesos entre otras.

El modelo de regresión lineal múltiple por medio del Software SPSS permite
identificar la relación que existe entre las diferentes variables objeto de estudio y
como estas afectan el resultado de otra variable, es decir, permite identificar cual es
la variable que más causa – efecto tiene respecto a la variable independiente.

69
RECOMENDACIÓN

Se recomienda a Boleco S.A. implementar y acoger el modelo de regresión lineal


múltiple desarrollado en este trabajo con el fin de mejorar la predicción de las ventas
de las bolsas ecológicas y que la empresa tenga presente que las variables que
explican significativamente las ventas corresponden a la cantidad de bolsas
ecológicas y a la capacidad de estas.

70
ANEXOS

Anexo 1 Base de datos Boleco.


Anexo 2 Datos SPSS.
Anexo 3 Regresión Intro.
Anexo 4 Regresión Paso a Paso.
Anexo 5 Regresión Hacia Adelante.
Anexo 6 Regresión Hacia Atrás.
Anexo 7 Gráfica P-P.
Anexo 8 Gráfica Q-Q.

71
BIBLIOGRAFÍA

Astorga Gómez, J. M. (2014). Aplicación de modelos de regresión lineal para determinar las
armónicas de tensión y corriente. Redalyc.

Barahona Urbina, P., Veres Ferrer, E., & Aliaga Prieto, V. (2016). Deserción académica de la
Universidad de Atacama, chile. SciELO.

Bowerman, B., O'Connell, R., & Koehler, A. (2007). Pronósticos, Series de Tiempo y Regresión.
México,D.F.: Cengage Learning.

Brenes González, H. A. (2017). Aplicación del análisis de regresión lineal simple para la estimación
de los precios de las acciones de Facebook, Inc. Revista Electrónica de Investigación en
Ciencias Económicas, 1-23.

Campos Aranda, D. F. (2016). Una aplicación hidrológica de la regresión lineal múltiple ponderada.
Tecnología y Ciencias del Agua, 161-173.

Carrasquilla Batista, A., Chacón Rodríguez, A., Núñez Montero, K., Gomez Espinoza, O., Valverde,
J., & Guerrero Barrantes, M. (2016). Regresión lineal simple y múltiple: aplicación en la
predicción de variables naturales relacionadas con el crecimiento microalgal. Dialnet, 35-
45.

Castro Valderrama, M. P., Wilches Chiriví, K., & Gómez Delgado, G. L. (2018). Pontificia Universidad
Javeriana Bogotá. Obtenido de Diseño de Bolsa Reutilizable para Empaque y Transporte
de Frutas y Verduras:
https://repository.javeriana.edu.co/bitstream/handle/10554/36531/CastroValderramaMa
riaPaula2018.pdf?sequence=1&isAllowed=y

Colectivo de Autores. (2009). Econometria I. Félix Varela.

Damodar N., G., & Dawn C., P. (2010). Econometría (Quinta ed.). México, D.F.: Mc Graw Hi.

García, G., Brogioni, M., Venturini, V., Rodríguez, L., Fontanelli, G., Walker, E., . . . Macelloni, G.
(2016). Determinación de la humedad de suelo mediante regresión lineal múltiple con
datos TerraSAR-X. Revista de Teledetección, 73-81.

Garcia, J., Morales Serrano, B., & González Cavazos, B. (2013). Analisis Estadistico Multivariante.
Mc Graw Hill.

Montero Granados, R. (2016). Modelos de regresión lineal múltiple. Obtenido de


http://www.ugr.es/~montero/matematicas/regresion_lineal.pdf

72
Morantes Quintana, G. R., Rincón Polo, G., & Pérez Santodomingo, N. A. (2019). Modelo de
regresión lineal multiple para estimar concentración de PM1. Revista Internacional de
Contaminación Ambiental.

Ortiz, R., Arias, F., Da Silva, C., & Cardozo, O. (2015). Análisis Espacial del Precio del Suelo con
Modelos de Regresión Lineal Múltiple (MRLM)y Sistemas de Información Geográfica (SIG).
Revista Geográfica del Valparaíso, 1-18.

Pardo, A., & Ruiz, M. Á. (2005). Análisis de datos con SPSS 13 Base. España: ProQuest Ebook
Central.

Pat Fernandez, L. A., Martínez Menchaca, A. H., Pat Fernández, J. M., & Martínez Luis, D. (2013 ).
Introducción a los Modelos de Regresión. Ciudad del Carmen: Plaza y Valdes. Obtenido de
https://ebookcentral.proquest.com

Pérez López, C. (2005). Métodos Avanzados con SPSS. España: Thomson Editores Spain.

Perez Obregón, J. M., & Romero Díaz, T. (2018). Análisis del rendimiento académico mediante
regresión logistica y múltiple. Revista Electrónica de Conocimientos, Saberes y prácticas,
33-42.

Plascencia Villaliz, A. C. (11 de 2015). Análisis de Regresión Múltiple del Fenómeno de la Trata de
Personas en México. Obtenido de
http://148.204.210.201/tesis/1457542786408TesisAdrianaP.pdf

Revilla Huarcaya, H. J. (2016). Estudio de Factibilidad para la Instalación de una Planta de


Producción y Comercialización de Bolsas a Base de Papel Reciclado en la Ciudad de
Arequipa. Arequipa, Perú.

Rodríguez Mañay, L. O., Saltos Chacán, M. Y., & Muñoz Moreta, E. R. (2016). Cálculo de un cost
driver para determinar el costo de una actividad empleando un modelo de Regresión
Lineal o un modelo de Regresión Multiple. Dialnet, 239-255.

Sabogal Cardona, O. A., Hincapié Zea, J. D., Santa Chávez, J. J., & Willmer Escobar, J. (2015).
Modelos de Regresión Lineal para Estimación de Tiempos de Viaje en Sistemas de
Transporte Masivo. Ciencia e Ingeniería Neogranadina, 77-89.

Samaniego Pinho, A., & Buenahora Bernal, M. (2016). Variables relacionadas con ansiedad social
en adolescentes: un modelo de regresión Lineal múltiple. Interacciones, 109-122.

Spyros, M., & Steven C., W. (1997). Manual de Técnicas de Pronósticos. México, D.F.: Limusa, S.A
de C.V.

73
Thea, J., & Torrillas, N. J. (2019). RIA Repositorio Institucional Abierto. Obtenido de Producción de
bolsas Plásticas Biodegradables :
http://ria.utn.edu.ar/bitstream/handle/20.500.12272/3505/Producci%c3%b3n%20de%20
bolsas%20pl%c3%a1sticas%20biodegradables.pdf?sequence=1&isAllowed=y

Vilá Baños, R., Torrado Fonseca, M., & Reguant Álvarez, M. (2019). Análisis de regresión lineal
múltiple con SPSS: un ejemplo práctico. Barcelona, Barcelona.

Ximénez, M. C., & San Martín, R. (2013). Fundamentos de las Técnicas Multivariantes. ProQuest
Ebook.

74

También podría gustarte