2020 Modelo Regresión Multiple

MODELO DE REGRESIÓN LINEAL MÚLTIPLE PARA EL PRONÓSTICO DE
VENTAS DE BOLSAS ECOLÓGICAS PARA LA EMPRESA BOLECO SA, EN

LA CIUDAD DE BOGOTÁ DC
GERALDINE FORERO GÓMEZ

JONATHAN ALEXANDER MARTÍNEZ LOZANO
UNIVERSIDAD COOPERATIVA DE COLOMBIA

FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ DC
2020
MODELO DE REGRESIÓN LINEAL MÚLTIPLE PARA EL PRONÓSTICO DE
VENTAS DE BOLSAS ECOLÓGICAS PARA LA EMPRESA BOLECO SA, EN
LA CIUDAD DE BOGOTÁ DC
GERALDINE FORERO GÓMEZ

JONATHAN ALEXANDER MARTÍNEZ LOZANO
ANÁLISIS SISTEMÁTICO DE LITERATURA

MONOGRAFÍA
TRABAJO PARCIAL PARA OPTAR AL TITULO DE INGENIERO INDUSTRIAL
DIRECTOR
GUSTAVO SILVA RODRÍGUEZ
UNIVERSIDAD COOPERATIVA DE COLOMBIA

FACULTAD DE INGENIERÍA
INGENIERÍA INDUSTRIAL
BOGOTÁ DC
2020
2
NOTA DE ACEPTACIÓN
____________________________________
____________________________________
____________________________________
____________________________________
____________________________________
_______________________
PRIMER JURADO
_______________________
SEGUNDO JURADO
Bogotá, enero 2020
3
Tabla de contenido
RESUMEN ............................................................................................................. 10
INTRODUCCIÓN ................................................................................................... 11
1. DESCRIPCIÓN DEL PROBLEMA............................................................... 13
1.1. PLANTEAMIENTO DEL PROBLEMA ......................................................... 13
1.2. JUSTIFICACIÓN DEL PROBLEMA ............................................................ 15

1.2.1. Justificación practica ............................................................................................................ 15
1.2.2. Justificación teórica .............................................................................................................. 17
1.2.3. Justificación metodológica .................................................................................................. 17
1.3. DELIMITACIÓN DEL PROBLEMA ............................................................................................ 17
1.3.1. Delimitación temática ........................................................................................................... 17
1.3.2. Delimitación espaciotemporal ............................................................................................ 17
2. OBJETIVOS................................................................................................. 18
2.1. Objetivo General................................................................................................................... 18
2.2. Objetivos Específicos .......................................................................................................... 18
3. ESTADO DEL ARTE ................................................................................... 19
4. MARCOS DE REFERENCIA ....................................................................... 28

4.1. MARCO TEÓRICO ....................................................................................................................... 28
4.1.1. Origen Histórico de la Regresión ....................................................................................... 28
4.1.2. Definición de regresión ........................................................................................................ 28
4.1.3. Etapas del análisis de regresión múltiple ......................................................................... 29
4.1.4. Pronósticos ............................................................................................................................ 46
4.1.5. Paquete Estadístico para las Ciencias Sociales SPSS por sus siglas en ingles
(Statistical Package for the Social Sciences) .................................................................................... 46
4.2. MARCO INSTITUCIONAL ........................................................................................................... 48
4.2.1. Descripción General ............................................................................................................ 48
4.2.2. Datos Generales................................................................................................................... 49
4.2.3. Misión ..................................................................................................................................... 50
4.2.4. Visión...................................................................................................................................... 50
4.2.5. Organigrama ......................................................................................................................... 50
4.2.6. Mapa de Procesos ............................................................................................................... 51
4.3. MARCO JURÍDICO ...................................................................................................................... 51
5. METODOLOGÍA .......................................................................................... 53
5.1. TIPO DE ESTUDIO ...................................................................................................................... 53
5.2. MUESTRA ..................................................................................................................................... 53
4
5.3. TÉCNICAS PARA LA RECOLECCIÓN Y ANÁLISIS DE LA INFORMACIÓN .................. 53
5.4. FUENTES....................................................................................................................................... 53
5.4.1. Primarias .................................................................................................................................... 53
6. CARACTERIZACIÓN DE LAS VARIABLES............................................... 54
7. FORMULACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE .... 55

7.1. INTRODUCCIÓN DE LAS VARIABLES .................................................................................. 56
7.2. SELECCIÓN DEL MÉTODO ...................................................................................................... 57
8. VALIDACIÓN DEL MODELO ...................................................................... 66
CONCLUSIONES .................................................................................................. 69
RECOMENDACIÓN .............................................................................................. 70
ANEXOS ................................................................................................................ 71
BIBLIOGRAFÍA ..................................................................................................... 72
5
LISTA DE TABLAS
Tabla 1: Distribución de las ventas de las diferentes líneas de bolsa ecológica en

la empresa BOLECO SA por monto anual y peso porcentual año 2018................ 13
Tabla 2: Reglas para determinar el nivel de medición ........................................... 47
Tabla 3: Datos Generales de Boleco SA ............................................................... 49
Tabla 4 Resumen Variables Modelo ...................................................................... 55
Tabla 5 ANOVA ..................................................................................................... 57
Tabla 6 Coeficientes .............................................................................................. 57
Tabla 7 Diagnostico de Colinealidad ...................................................................... 59
Tabla 8 Correlaciones método hacia adelante ....................................................... 59
Tabla 9 variables de entrada metodo hacia adelante ............................................ 60
6
LISTA DE GRAFICAS
Gráfica 1: Cantidad de pedidos VS entregados, suministrado por Boleco SA, año

2018 ....................................................................................................................... 15
Gráfica 2 Dispersión .............................................................................................. 67
Gráfica 3 P-P ......................................................................................................... 68
Gráfica 4: Q-Q........................................................................................................ 68
7
LISTA DE ILUSTRACIONES
Ilustración 1: Diferentes pruebas de normalidad .................................................. 35

Ilustración 2 Organigrama Boleco S.A. ................................................................ 50
Ilustración 3: Mapa de procesos BOLECO .......................................................... 51
Ilustración 4: Correlación variables ...................................................................... 56
8
LISTA DE ANEXOS
Anexo 1 Base de datos Boleco .............................................................................. 71

Anexo 2 Datos SPSS ............................................................................................. 71
Anexo 3 Regresión Intro ........................................................................................ 71
Anexo 4 Regresión Paso a Paso ........................................................................... 71
Anexo 5 Regresión Hacia Adelante ....................................................................... 71
Anexo 6 Regresión Hacia Atrás ............................................................................. 71
Anexo 7 Gráfica P-P .............................................................................................. 71
Anexo 8 Gráfica Q-Q ............................................................................................. 71
9
RESUMEN
El presente trabajo consistió en el pronóstico de ventas de bolsas ecológicas de la

empresa Boleco S.A. a través de la aplicación de un modelo de regresión lineal
múltiple; para ello se realizó una caracterización subjetiva teniendo en cuenta la
información suministrada por la empresa de las principales variables que intervienen
en el proceso productivo las cuales son: Capacidad de la Bolsa, Clientes, Ventas y
Costo de ventas, posteriormente se realizó la formulación del modelo de regresión
lineal múltiple en el programa SPSS y finalmente se procedió a realizar la validación
del modelo utilizando diferentes métodos los cuales son: Introducir, Paso a Paso,
Hacia Adelante y Hacia atrás con cada uno de estos se realizó un análisis para
identificar la correlación que existe entre cada una de las variables y cual método
da un mejor ajuste. El tipo de metodología que se empleo fue de tipo cuantitativa y
cualitativa y la técnica realizada para la recolección de la información fue de tipo
primaria pues esta fue dada por la representante legal de la empresa. Como
resultado y análisis del presente trabajo se puedo concluir que el modelo es viable
pues las variables tienden a relacionarse entre sí, lo que da un grado de significancia
alto.
Palabras clave: Pronósticos, Regresión, Proceso, Productividad, Variables y

Significancia.
10
INTRODUCCIÓN
Actualmente las organizaciones han venido implementando métodos que les

permiten conocer cómo se comportan las ventas durante un periodo determinado,
esto con el fin de minimizar costos por tiempos muertos, exceso de materia prima o
producto en stock, entre otros; los pronósticos de ventas son un punto clave tanto
en el desarrollo del proceso financiero como productivo de cualquier organización
pues permite la toma de decisiones y el mejoramiento continuo de la misma.
Un modelo de regresión lineal múltiple permite conocer cómo se comportan las

variables, es decir, determinar la relación causa-efecto que existe entre una variable
dependiente y las variables independientes. De acuerdo con lo enunciado por
algunos autores este tipo de modelo permite identificar el grado de significancia y
de correlación que existe entre las variables objeto de estudio.
Teniendo en cuenta lo anterior el presente trabajo consiste en desarrollar un

pronóstico de ventas por medio de un modelo de regresión lineal múltiple para las
bolsas ecológicas de la empresa Boleco S.A., el cual se desarrollará por medio de
una caracterización de variables, planteamiento del modelo y la validación de este.
En la primera parte del trabajo se encontrará la descripción del problema que

presenta la empresa correspondiente a la falta de un método para planificar las
ventas de las bolsas ecológicas, de allí se desprenden las respectivas justificaciones
y objetivos a desarrollar.
En la segunda parte se desarrolló un análisis sistémico de literatura en donde se

enuncian algunos documentos de interés relacionados con el método de Regresión
Lineal Múltiple y también se hace una revisión teórica sobre el tema y
posteriormente se encuentra información institucional sobre Boleco S.A.
11
Finalmente, la última parte del trabajo consta en la descripción de la metodología,
la caracterización de las diferentes variables que intervienen en el proceso
productivo, el planteamiento del modelo de regresión lineal múltiple en el programa
SPSS y la validación de este.
12
1. DESCRIPCIÓN DEL PROBLEMA
1.1. PLANTEAMIENTO DEL PROBLEMA
BOLECO SA es una microempresa dedicada al diseño, producción y

comercialización de bolsas ecológicas en diferentes tamaños, colores y
presentaciones, considerando una capacidad de producción anual de 60.000
unidades, llegando a obtener unos ingresos anuales promedio de $ 113.020.900
según lo suministrado por Boleco SA; en la tabla 1 se muestra la participación que
tiene cada tipo de bolsa.
Tabla 1: Distribución de las ventas de las diferentes líneas de bolsa ecológica en

la empresa BOLECO SA por monto anual y peso porcentual año 2018
Número Porcentaje
Ingresos
Tipo de Bolsa de de
Venta Anual
unidades Participación
Bolsas reutilizables Tela cambrel, politex,
quirúrgica 30.050 $ 63.59.5400 56%
Tipo 1 (0-12,5 kg)
Bolsa plana tela cambrel, politex, quirúrgica
28.150 $ 49.425.500 44%
Tipo 2 (0-15kg)
TOTAL 58.200 $113.020.900 100%
Fuente/ Área Contable empresa BOLECO SA AÑO 2018
Para realizar el proceso de estimación de las ventas adelanta actualmente un

pronóstico de ventas anual teniendo en cuenta el tipo de bolsa y el precio de venta
de acuerdo con las unidades solicitadas por los clientes, posterior a ello se procede
a calcular el porcentaje de participación de cada uno de los productos, esto se
13
realiza dividiendo el total de las ventas acumuladas sobre las ventas individuales de
cada una de las bolsas.
Teniendo en cuenta lo anterior y como se visualiza en la tabla 1 las bolsas

reutilizables son las que tienen mayor participación con un 56% vs la bolsa plana
que tiene un porcentaje del 44% según la información suministrada por Boleco SA,
esto quiere decir que el producto número uno es el que genera mayores ingresos a
la empresa.
Sin embargo, a pesar de los esfuerzos anteriores la empresa presenta una baja
capacidad para planificar de forma confiable las ventas de las líneas de productos
mencionadas en la tabla 1 del presente estudio. Lo anterior se evidencia en los
siguientes datos estadísticos suministrados por Boleco SA.
Como se puede evidenciar en la gráfica 1, tan solo en los meses de febrero, mayo
y septiembre del año 2018, se logró entregar la cantidad de bolsas solicitadas por
los clientes en el resto de los meses hubo deficiencia en la entrega total del pedido
solicitado debido a que actualmente el pronóstico que se tiene para satisfacer la
demanda de las bolsas es deficiente según el comportamiento de venta durante los
diferentes meses.
La información descrita corresponde al año 2018
Cantidad de pedidios vs entregados

7000
6000
5000
Suma de Bolsas Pedidas
4000
3000
Suma de Cantidad Bolsas
2000
Entregadas
1000
0
ene feb mar abr may jun jul ago sep oct nov dic
14
Gráfica 1: Cantidad de pedidos VS entregados, suministrado por Boleco SA, año
2018
De acuerdo con el análisis realizado a la Base de datos suministrada por Boleco SA
(ver anexo 1) donde se evidencia el comportamiento de las ventas de las bolsas
ecológicas durante el año 2018 y teniendo en cuenta que el pronóstico que realizan
actualmente no está asociado a ningún modelo estadístico sino es una proyección
de las ventas podría traer consigo los siguientes efectos no deseables en el
desarrollo de la empresa:
Costos innecesarios en la manutención del inventario, es decir, se tendría

más material y se producirían más unidades de las que se requieren
Se presentarían problemas asociados con la liquidez de la empresa pues al
presupuestar más unidades de ventas de las necesarias para cubrir costos
operativos y otros
Incumplimiento en tiempos de entrega acordados con el cliente
Exceso o falta de personal para cumplir con la demanda requerida según las
solicitudes de los clientes
Por consiguiente, para dar solución al problema anteriormente planteado es

necesario que la empresa realice un modelo de pronósticos, basado en el modelo
de regresión lineal múltiple para la línea de bolsas ecológicas, que le permita
extrapolar las ventas que va a realizar en un periodo determinado, así como a
quienes van dirigidas y en qué tiempo
1.2. JUSTIFICACIÓN DEL PROBLEMA
1.2.1. Justificación practica
La información que busca Boleco SA respecto a la venta de bolsas ecológicas es a

que segmento de mercado se venderá y en que patrones de tiempo es necesaria la
planeación de todas las áreas pertenecientes al proceso productivo de la empresa;
15
en los pronósticos de ventas se deben clasificar estas necesidades a corto y a largo
plazo
Al crear un modelo mediante el método de regresión lineal múltiple para un

pronóstico de ventas de bolsas ecológicas permite conocer de forma más exacta y
precisa las características con las cuales se debe interactuar, y de esta forma definir
las variables necesarias que intervienen directamente en el proceso de venta para
lograr el objetivo deseado
De igual manera, el modelamiento de regresión lineal múltiple permitirá identificar

las variables que interactúan dentro del proceso, así como la predicción de valores
que determinará el comportamiento de estas
Las ventas se deben pronosticar teniendo en cuenta los términos adecuados los
cuales son:
• La capacidad del mercado, es decir, es la cantidad de bolsas ecológicas en

términos de unidades que tienen un mercado específico en un tiempo
determinado
• El potencial del mercado el cual se basa en las ventas de bolsas ecológicas
y la cantidad de dinero que Boleco SA espera vender; para esto debe seguir
estrategias de mercadotecnia al transformar una capacidad en un potencial
• El potencial de la compañía se refiere a la venta máxima que podría tener la
empresa a un precio determinado independientemente de las instalaciones
para la producción y mercadotecnia
• El pronóstico de la compañía es la estimación de las ventas de las bolsas
ecológicas y el dinero, este reflejará las limitaciones de la empresa
• Los objetivos de ventas de la empresa son mayores que el pronóstico con el
fin de generar motivación en el equipo de trabajo y una cuota de ventas hace
parte de un plan motivacional que va de la mano con planes de
compensación en ventas
16
1.2.2. Justificación teórica
El presente estudio busca, mediante la aplicación de la teoría y los conceptos

básicos de regresión lineal múltiple y pronósticos, encontrar una solución óptima
para mejorar el pronóstico de ventas que maneja actualmente Boleco SA
1.2.3. Justificación metodológica
En el presente estudio se hará uso de herramientas estadística como la predicción

de la demanda a través del uso de pronósticos basada en la aplicación del software
SPSS (por sus siglas en inglés) Paquete Estadístico para las Ciencias Sociales, el
cual permitirá por medio de una regresión lineal múltiple un pronóstico de ventas
para la empresa Boleco SA
1.3. DELIMITACIÓN DEL PROBLEMA
1.3.1. Delimitación temática
La realización del presente estudio servirá para determinar el pronóstico de

ventas de las bolsas ecológicas de la empresa Boleco SA por medio del modelo
de regresión lineal múltiple
1.3.2. Delimitación espaciotemporal
El presente trabajo se desarrollará en el barrio Olarte de la ciudad de Bogotá, la

información suministrada será dada por la empresa Boleco SA, los datos que
serán considerados para la realización del trabajo investigativo serán
enmarcados dentro del periodo del año 2018 considerando las ventas de la
empresa objeto de estudio.
17
2. OBJETIVOS
2.1. Objetivo General
Pronosticar las ventas de bolsas ecológicas para la empresa BOLECO SA, basado
en la aplicación del modelo de regresión lineal múltiple, que garantice una mejora
en el proceso productivo de la empresa ubicada en la ciudad de Bogotá DC
2.2. Objetivos Específicos
• Caracterizar variables que intervienen en las ventas de las bolsas ecológicas

• Formular modelo para el pronóstico de las ventas de las bolsas ecológicas
por medio de la regresión lineal múltiple
• Validar modelo de regresión lineal múltiple para el pronóstico de las ventas
de las bolsas ecológicas en la empresa Boleco SA
18
3. ESTADO DEL ARTE
Se realizó una búsqueda sistemática de información relativa al objeto de estudio del

presente trabajo, donde se pretende cotejar las investigaciones más relevantes de
los últimos cinco años que permitan realizar un paralelo del trabajo que se está
realizando y lo que está en la literatura.
(Vilá Baños, Torrado Fonseca, & Reguant Álvarez, 2019), Análisis de regresión
lineal múltiple con SPSS: un ejemplo práctico. Barcelona, Barcelona.
Método: La aplicación de la técnica implica cinco pasos: 1. Seleccionar la variable

dependiente; 2. Seleccionar las variables explicativas; 3. Verificar los supuestos
necesarios para poder aplicar adecuadamente la técnica; 4. Interpretar el modelo
resultante identificando las variables predictoras propuestas y su importancia
explicativa y 5. Establecer la bondad de ajuste del modelo y su capacidad predictiva.
Variables: Dependiente: Puntuación en la escala de ciberagresión en VG2.0. E

independientes: Perfil de uso tecnológico, Experiencia en ciberbullyng (escala
Likert-3) y Escala concepto de violencia de género.
Resultados: En el ejemplo de estudio propuesto sobre violencias de género entre

adolescentes en los entornos virtuales, la aplicación de esta técnica ha permitido
identificar factores asociados con el comportamiento ciber agresor vinculados a una
serie de variables de tipo tecnológico y personal.
(Morantes Quintana, Rincón Polo, & Pérez Santodomingo, 2019), Modelo de

regresión lineal múltiple para estimar concentración de PM1
Método: Muestreo, Información Secundaria, Sección de Variables, Construcción de

modelo Multivariable, Validación del Modelo.
19
Variables: Dependiente: Concentración de material particulado e independientes:
Incendios forestales, Ocurrencia de Lluvia
Conclusión: El modelo de RLM diseñado explica el 75.9 % de la varianza, es

estadísticamente significativo para p < 0.000, cumple con los requisitos de validez
de una RLM y presenta un indicador de MBE igual a –1.5 µg/m3, por lo que se
establece que el modelo subestima la concentración de PM1
(Perez Obregón & Romero Díaz, 2018), Análisis del rendimiento académico
mediante regresión logística y múltiple
Método: Aplicación del modelo de Regresión Lineal Múltiple
Variables: Dependiente: Calificaciones de matemática e Independientes: Lengua

Extranjera y Lengua y literatura.
Conclusiones: Se logró establecer un modelo matemático regresión múltiple que

permite predecir resultados del rendimiento académico para el período lectivo actual
del estudiante relacionando calificaciones de matemática respecto a lengua
extranjera - lengua y literatura. Además de un modelo probabilístico regresión
logística que complementa los resultados del modelo anterior determinando el
intervalo de promedio en el cual se encuentra el estudiante respecto de la
calificación de matemática. Se evidencian las aproximaciones del modelo y que si
hay relación entre las asignaturas de lengua extranjera - lengua y literatura con la
asignatura de matemática, pudiendo verificar que se puede deducir esta calificación
a partir de las ecuaciones obtenidas de los modelos analizados en el estudio
(Castro Valderrama, Wilches Chiriví, & Gómez Delgado, 2018), Diseño de Bolsa
Reutilizable para Empaque y Transporte de Frutas y Verduras
Método: Regresión Lineal Múltiple – Software estadístico SPSS
Variables: Crecimiento poblacional, inflación e IPC
20
Conclusiones: Como conclusiones del trabajo citado se obtiene que el 90% de los
compradores de frutas y verduras de estrados 4 y 5 estarían dispuestos a comprar
la bolsa reutilizable mediana de nylon, también se recomienda diseñar diferentes
soluciones para los segmentos de personas que tengan otros hábitos de compra
diferentes a los expuestos en dicho trabajo.
(Brenes González, 2017), Aplicación del análisis de regresión lineal simple para la
estimación de los precios de las acciones de Facebook, Inc.
Método: Modelo de regresión lineal
Variables: Precios mensuales de las acciones y Tiempo
Conclusión: Los modelos de regresión lineal simple, establecen una relación de

dependencia entre dos variables, donde la variable dependiente se encuentra en
función de la variable independiente, con el objetivo de calcular los coeficientes de
los parámetros de la constante o intercepto y de la pendiente, para determinar la
ecuación de regresión lineal. La ecuación encontrada, sirve para estimar los valores
de la variable dependiente ante posibles cambios en la variable independiente, en
otras palabras, la ecuación sirve para realizar pronósticos o proyecciones.
(Rodríguez Mañay, Saltos Chacán, & Muñoz Moreta, 2016), Cálculo de un Cost
driver para determinar el costo de una actividad empleado un modelo de Regresión
Lineal o un modelo de Regresión Múltiple.
Método: Para descubrir el generado de costo que permitía conocer el costo de una
actividad, fue la regresión lineal simple. Método de mínimos cuadrados.
Variables: Valor en dólares de la mercancía comprada, número de órdenes de

compra, número de proveedores y costos del departamento de compras.
Conclusiones: Al realizar la aplicación de la Regresión lineal simple se determina

que la variable órdenes de compra pasó la prueba T del coeficiente de correlación
al indicar que las órdenes de compra explican el costo del departamento de
21
compras. Cuando se realiza la prueba F también indicó que existe relación entre las
dos variables órdenes de compra y el costo del departamento de compras. Al aplicar
la prueba de la pendiente se concluye que las órdenes de compra sirvieron para
pronosticar el costo del departamento de compras y al realizar la prueba de los
residuos estandarizados, el 100% de estos estuvieron dentro de +-2. Las otras dos
variables (valor de la compra de mercadería y número de proveedores no pasaron
estas evaluaciones).
Al realizar la aplicación de la Regresión Múltiple se mejora en el coeficiente de

correlación múltiple con respecto a la Regresión Lineal Simple, pero al revisar la
prueba F y los coeficientes individuales ninguno de estos ayuda a predecir el
comportamiento de los costos del departamento de compras. Bajo esta
circunstancia se escogería la variable órdenes de compra como generador de costo
(Carrasquilla Batista, y otros, 2016), Regresión lineal simple y múltiple: aplicación

en la predicción de variables naturales relacionadas con el crecimiento microalgal
Método: Regresión Lineal Múltiple
Variables: Temperatura, pH, oxígeno disuelto, dióxido de carbono, intensidad de luz

y variable de interés (y) celular por mililitro (cel/ml).
Conclusiones: Los modelos de regresión simple y múltiple presentan las

características ideales para el tratamiento de variables cuantitativas que responden
según las variables predictoras o regresaras dentro del fenómeno estudiado.
(Samaniego Pinho & Buenahora Bernal, 2016), Variables relacionadas con

ansiedad social en adolescentes: un modelo de regresión lineal múltiple.
Interacciones.
Método: El enfoque fue cuantitativo, de diseño no experimental, alcance

correlacional y transversal.
22
Variables: Escala de ansiedad social para adolescentes, Escala de miedo a la
evaluación negativa, Intervalo de ansiedad y sensibilidad a la ansiedad
Conclusiones: Esta investigación tuvo el objetivo de construir un modelo de

regresión múltiple que explique la relación entre ansiedad social, sensibilidad a la
ansiedad, rasgo de ansiedad y miedo a la evaluación negativa. Además, se
pretendió establecer la diferencia entre sensibilidad a la ansiedad y el rasgo de
ansiedad como constructos diferentes, e investigar la diferencia entre adolescentes
del género masculino y las del género femenino en ansiedad social y sus variables
relacionadas.
(García, y otros, 2016), Determinación de la humedad de suelo mediante regresión

lineal múltiple con datos TerraSAR-X
Método: Método estadístico de Regresión Lineal Múltiple.
Variables: Índice de vegetación normalizado, temperatura, precipitación, humedad

relativa del aire.
Conclusiones: En este trabajo se presentaron resultados preliminares de la

aplicación del método de regresión lineal múltiple utilizando como variables de
entrada imágenes TerraSAR-X y datos meteorológicos registrados en una región
llana, donde los movimientos predominantes del agua son verticales.
Se enfatiza que el método selecciona las variables que representan la entrada y

salida de agua al sistema. La entrada de agua queda incorporada por PP y la
pérdida de agua por HR, que está directamente relacionada a ET, mientras que la
retrodispersión de la onda X aporta el efecto de la rugosidad del suelo.
(Barahona Urbina, Veres Ferrer, & Aliaga Prieto, 2016), Deserción académica de la
Universidad de Atacama, chile
Método: Paso a paso - modelo de regresión lineal múltiple
23
Variables: Rendimiento académico, tipo de establecimiento, conformidad de la
carrera y asistencia.
Conclusión: Los resultados del primer análisis econométrico mostraron que las
variables asociadas al rendimiento académico tienen que ver con el promedio
ponderado, la asistencia a clases y el tipo de Establecimiento. Es decir, una mejor
formación en las asignaturas básicas de ingreso a la universidad (Promedio
Ponderado), mejora el rendimiento académico. Una asistencia sistemática a clases
de parte del alumno es clave para mejorar el desempeño. Por otra parte, los
resultados mostraron que el establecimiento de procedencia es una variable que a
la larga que segrega, en el sentido de que los alumnos provenientes de colegios
privados obtienen un mejor rendimiento respecto de aquellos alumnos cuyos
colegios están más cerca de la gratuidad. Luego, los peores rendimientos son de
aquellos alumnos de colegios municipales.
(Campos Aranda, 2016), Una aplicación hidrológica de la regresión lineal múltiple

ponderada.
Método: Mínimos cuadrados ponderados y Mínimos cuadros ordinarios
Variables: Indicadores de desempeño y Estación hidrométrica
Conclusión: Con base en la aplicación hidrológica descrita, se pudo verificar que

siempre alguno o varios de los indicadores de desempeño (ID) mostraron un mejor
ajuste, es decir, se redujeron, al aplicar la técnica de MCP, en comparación con los
ID obtenidos por MCO. Para el caso mostrado, en general los errores residuales se
reducen más (se obtienen valores menores de los ID) con la segunda función de
ponderado, la cual se obtiene con base en los datos cercanos
(Sabogal Cardona, Hincapié Zea, Santa Chávez, & Willmer Escobar, 2015),
Modelos de Regresión Lineal para Estimación de Tiempos de Viaje en Sistemas de
Transporte Masivo
24
Método: Se formularon dos modelos de regresión lineal. El primer modelo usa
solamente las mediciones de tiempo de viaje para cada vehículo cuando pasa por
cada sensor y toma la ubicación de cada sensor desde el punto de inicio. El segundo
modelo considera los tiempos de viaje y las medidas de velocidad para tratar de
explicar el tiempo de llegada a un sensor.
Variables: Tiempo de viaje, distancia y velocidad
Conclusiones: Para los corredores analizados y los subcorredores se ha

determinado que no es factible usar modelos de regresión lineal clásica para estimar
los tiempos de viajes. Las violaciones a los supuestos de normalidad, independencia
y homocedasticidad son inevitables. Sin embargo, el único corredor en el cual fue
posible usar una regresión lineal válida no tenía estaciones de paradas ni
intersecciones señalizadas, por lo que se puede pensar que estos dos factores
afectan la adecuación de un modelo en escenarios reales
Los datos para los modelos de regresión lineal propuestos tienen muchos puntos
influenciables que llevan al rechazo de los supuestos. Modelos de regresión robusta
y múltiple deben ser analizados como trabajos futuros
(Plascencia Villaliz, 2015), Análisis de Regresión Múltiple del Fenómeno de la Trata

de Personas en México.
Método: Aplicación del modelo de Regresión Lineal Múltiple
Variables: Ingreso Nacional Neto Ajustado per cápita, Población entre 15 y 64 años,
Población activa, Población rural, Tasa de población activa, Relación entre empleo
y población, Desempleo mujeres jóvenes, Fuerza laboral, Índice de Gini, Tasa de
incidencia de la pobreza, Tasa de alfabetización mujeres adultas, Tasa de
alfabetización mujeres jóvenes, Densidad de población y Control de Corrupción
Conclusión: El presente documento representa un primer acercamiento al fenómeno

de la trata de personas, mediante un estudio estadístico, utilizando información
25
cuantitativa. Se identifican los determinantes de la trata en México, a través de un
análisis de regresión multivariable. Como resultado, se obtuvo un modelo que nos
permite identificar las variables críticas del fenómeno.
(Ortiz, Arias, Da Silva, & Cardozo, 2015), Análisis Espacial del Precio del Suelo con
Modelos de Regresión Lineal Múltiple (MRLM)y Sistemas de Información
Geográfica (SIG)
Método: Paso a paso SPSS – Modelo de Regresión Lineal Múltiple
Variables: Dependiente: PRECIO_SUE, Independientes: DENSIDAD_QALT,

DIST_AV, INSEGURIDAD, DIST_PAV, DIST_TP, POB_NB, VIV_PLANIF,
DIST_E_V
Conclusión: El modelo obtenido presenta un ajuste (R2=0,67) y significación

conjunta (F=93,436 y p<000) aceptables. Por su parte, las variables introducidas
muestran coeficientes con signos correctos, valores de coeficientes ≠ 0 y
estadísticamente significativos al 0,05. Esto nos permite afirmar que la densidad de
estratos socioeconómicos altos, y las distancias a espacios verdes y el centro
comercial de Resistencia, influyen efectivamente en la estructura del precio fiscal
del suelo; de esta forma podemos aceptar la hipótesis de trabajo (H1) formulada
oportunamente. Sin embargo, dado la complejidad de la temática, la
implementación de un modelo que incluye solamente tres variables para explicar el
precio del suelo, puede parecer demasiado sencillo, aunque en conjunto las
variables explican el 66,9% la variabilidad y el modelo es estadísticamente robusto.
(Astorga Gómez, 2014), Aplicación de modelos de regresión lineal para determinar

las armónicas de tensión y corriente.
Método: En este artículo se manejó el modelo de regresión lineal simple, Regresión

Polinomial de orden 2 y de orden 3 y Regresión Lineal Múltiple.
26
Variables: Distorsión armónica de tensión de orden 7 (Vh7) y Distorsión armónica
de corriente de orden 7 (lh7)
Conclusión: Los pronósticos realizados con el modelo de regresión lineal múltiple,

permiten estimar la distorsión armónica individual de tensión y corriente del sistema
eléctrico y direccionar medidas correctivas para el control del contenido armónico
del proceso. Cuando se analizan las armónicas de un sistema eléctrico con carga
homogénea, el modelo de regresión lineal múltiple describe adecuadamente la
distorsión armónica individual de tensión como función de la distorsión armónica
individual de corriente
Se concluye que, si bien se emplea el modelo de regresión lineal múltiple en

diferentes áreas de aplicación, el trabajo que se propone desarrollar es novedoso
pues esta enfocado en analizar el comportamiento de las ventas de las bolsas
ecológicas en relación con las otras variables que intervienen en el proceso
productivo.
27
4. MARCOS DE REFERENCIA
4.1. MARCO TEÓRICO
4.1.1. Origen Histórico de la Regresión
Según (Damodar N. & Dawn C., 2010), el origen del término regresión se dio de la
siguiente manera:
Francis Galton fue la primera persona que acuño el termino de regresión mediante
un ensayo en el que se planteaba que, sin importar la altura de los padres, es decir
altos o bajos la tendencia de los hijos tenida a desplazarse o regresar a la altura
promedio de la población total
La ley de regresión universal de Galton fue confirmada por su amigo Karl Pearson,
quien reunió más de mil registros de estaturas de miembros de grupos familiares
Pearson descubrió que la estatura promedio de los hijos de un grupo de padres de
estatura alta era menor que la estatura de sus padres, y que la estatura promedio
de los hijos de un grupo de padres de estatura baja era mayor que la estatura de
sus padres; es decir, se trata de un fenómeno mediante el cual los hijos altos e hijos
bajos “regresan” por igual a la estatura promedio de todos los demás En palabras
de Galton, se trata de una “regresión a la mediocridad”
4.1.2. Definición de regresión
Según (Pat Fernandez, Martínez Menchaca, Pat Fernández, & Martínez Luis, 2013
) el termino de regresión es uno de los pilares estadísticos más modernos el cual
hace referencia al análisis simultaneo de dos o más variables relacionadas entre sí.
28
Una de las variables se le conoce como variable dependiente (y) y la otra como
variable independiente (x).
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ 𝛽𝑘 𝑋𝑘
Donde:
Y: es la variable dependiente, la cual también es denominada variable respuesta
𝑋𝑖 : es la variable independiente i, la cual también se llama exploratoria
𝛽𝑖 : es el coeficiente del modelo para la variable 𝑋𝑖
Tanto la variable independiente como las independientes deben ser métricas,

aunque las independientes también pueden tener valores cualitativos
4.1.3. Etapas del análisis de regresión múltiple
Basado en el libro de (Garcia, Morales Serrano, & González Cavazos, 2013) las
etapas son las siguientes:
1. Identificar problema o área de oportunidad

2. Seleccionar las variables dependientes e independientes
3. Recolectar variables
4. Realizar análisis descriptivo del tipo de relación entre variables
5. Seleccionar método
6. Calcular coeficientes del modelo de regresión lineal múltiple para construir la
función
7. Identificar problemas de colinealidad o multicolinealidad
8. Realizar prueba global de la ecuación
9. Efectuar pruebas individuales de los coeficientes
10. Probar cumplimiento de los supuestos del análisis
29
11. Interpretar coeficientes de determinación, correlación, determinación
ajustado y error estándar
12. Analizar los coeficientes de la ecuación de regresión
13. Elaborar pronósticos puntuales y por intervalo
A continuación, se desarrollarán cada una de las etapas.
Formular Problema
De acuerdo con lo enunciado en el libro (Garcia, Morales Serrano, & González

Cavazos, 2013) la formulación del problema es importante pues al definirlo se
podría encontrar una solución óptima.
Selección de Variables
Según lo enunciado en el libro de (Pat Fernandez, Martínez Menchaca, Pat

Fernández, & Martínez Luis, 2013 ) la selección de las variables se clasifica en
completamente especificados, completamente inespecificados y mixtos. En el
primer tipo todas las variables deben formar parte de él, en el segundo, se duda
de la inclusión del modelo de todas las variables explicatorias y los mixtos son
una combinación entre los dos anteriores.
✓ Selección hacia delante: En este caso se considera como variable

explicativa aquella que tiene más correlación con la variable explicada.
✓ Eliminación hacia atrás: Se empieza con el modelo completo y en cada
paso se va eliminando una variable.
✓ Selección paso a paso: En este método se unen los procedimientos
anteriormente mencionados y lo que se hace es que en cada paso a paso
se corteja si algunas de las variables que ya están incluidas en el modelo
pueden ser eliminadas.
30
Realizar análisis descriptivo del tipo de relación entre variables
Según lo enunciado en el libro de (Garcia, Morales Serrano, & González

Cavazos, 2013), es importante realizar un análisis descriptivo entre las variables
pues la relación debe ser lineal para ello se debe graficar cada variable
independiente con la dependiente.
Seleccionar método
Según lo expuesto en el libro (Colectivo de Autores, 2009) el método de

mínimos cuadrados ordinarios ofrece algunas propiedades estadísticas muy
atractivas por lo cual se ha constituido como uno de los métodos más
efectivos y populares.
Calcular coeficientes del modelo de regresión lineal múltiple para

construir la función
Los coeficientes que se deben calcular para construir el modelo de regresión

lineal múltiple son:
✓ Coeficiente de Correlación múltiple

✓ Coeficiente de Correlación múltiple corregido
✓ Coeficiente de determinación
Identificar problemas de colinealidad o multicolinealidad
Basado en el libro de (Pardo & Ruiz, 2005) la colinealidad tiende hacer un

problema pues si una de las variables independientes se relaciona de forma
perfecta con una o más variables independientes de la ecuación se dice que hay
colinealidad perfecta y en este caso no sería posible estimar los coeficientes de
la ecuación de regresión.
31
En el caso de que la colinealidad fuese parcial, aumenta el tamaño de los
residuos tipificados y esto produce coeficientes de regresión muy inestables.
la colinealidad de las variables independientes es perfectamente lineal con el

resto
Basado en el libro (Garcia, Morales Serrano, & González Cavazos, 2013) la

colinealidad surge cuando dos variables independientes están correlacionadas;
se llama multicolinealidad cuando dos o más de dos variables independientes
(Xs) están correlacionadas; es decir, no son independientes entre sí
✓ Correlación entre variables independientes
La correlación entre las X s se denota por:
𝑅𝑖𝑗 = 𝑅𝑖𝑗
Donde 𝑅𝑖𝑗 muestra la correlación que existe entre las dos variables, es decir,
entre la variable 𝑋𝑖 y la variable 𝑋𝑗 Entonces 𝑅𝑖𝑗 mide la dependencia lineal
entre variables, en este caso se usa exclusivamente para las independientes
En los modelos de regresión múltiple se desea que no exista este tipo de
problemas, por lo que el coeficiente de correlación puede ser usado para
medir la multicolinealidad
La correlación oscila entre:
−1 ≤ 𝑅𝑖𝑗 ≤ 1
En términos absolutos seria:
0 ≤ |𝑅𝑖𝑗 | ≤ 1
Donde |𝑅𝑖𝑗 | denota el valor absoluto de cada correlación, si esta la medimos

en términos absolutos, ciertos criterios establecidos indican que existen
32
problemas de multicolinealidad, si la correlación entre dos o más variables es
mayor o igual a 70% es decir:
|𝑅𝑖𝑗 | ≥ 0.7
Por lo que la correlación entre dos variables independientes no debe ser

mayor a 0.7 en términos absolutos
Realizar prueba global de la ecuación
De acuerdo con lo descrito en el libro de (Garcia, Morales Serrano, & González

Cavazos, 2013) la prueba global es aquella en la que se comprueban todas las
variables juntas.
Al pronosticar la variable dependiente se busca captar el comportamiento de

esta por medio de una ecuación, la cual debe seguir una distribución normal con
variabilidad o variación total o SST.
Ecuaciones:
𝒏 𝒏 𝒏
𝟐
∑(𝒀𝒊 − 𝒀 ̅ )𝟐 = ∑(𝒀̂𝒊 − 𝒀 ̅ )𝟐
̅ ) + ∑(𝒀̂𝒊 − 𝒀
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
Ecuación 1 Descomposición de la varianza total
𝒏 𝒏 𝒏 𝒏
̅̅̅𝟐̅ = ∑ 𝒀𝟐 − (∑𝒊=𝟏 𝒀𝒊 )^𝟐
̅ )𝟐 = ∑( 𝒀𝒊 )^𝟐 − 𝒏𝒀
𝑺𝑺𝑻 = ∑(𝒀𝒊 − 𝒀 𝒊
𝒏
𝒊=𝟏 𝒊=𝟏 𝒊=𝟏
Ecuación 2 Variación total
𝒏
̅ )𝟐
𝑺𝑺𝑹 = ∑(𝒀𝒊 − 𝒀
𝒊=𝟏
Ecuación 3 Variación explicada
33
𝒏
̂ )𝟐
𝑺𝑺𝑬 = ∑(𝒀𝒊 − 𝒀
𝒊=𝟏
Ecuación 4 Variación no explicada
Efectuar pruebas individuales de los coeficientes
Basado en el libro de (Garcia, Morales Serrano, & González Cavazos, 2013),

para realizar las pruebas individuales de los coeficientes es necesario realizar la
prueba para cada 𝛽.
La ecuación para realizar la prueba de hipótesis es:
𝐻0 : 𝐵𝑖 = 0 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3, … 𝑘, 0
𝐻0 : 𝐵𝑖 ≠ 0 𝑑𝑜𝑛𝑑𝑒 𝑖 = 1,2,3, … 𝑘, 0
Probar cumplimiento de los supuestos del análisis
De acuerdo con el libro de (Ximénez & San Martín, 2013), es necesario

comprobar si el modelo es correcto para eso se deben comprobar los siguientes
supuestos:
✓ Linealidad de la relación: La relación que existe entre cada una de las

variables independientes y la variable dependiente debe ser lineal. En el
modelo de regresión lineal múltiple los diagramas de dispersión de los
residuos ayudan a verificar el cumplimiento de dicho supuesto.
✓ Independencia: Los residuos se comportan como una variable aleatoria

por lo cual son independientes entre sí de las variables independientes y
de los pronósticos. Si no se cumpliese este supuesto se produce el
problema de la autocorrelación.
34
La prueba de Durbin-Watson permite conocer el grado de independencia
entre los residuos:
𝑛 𝑛
𝐷𝑊 = ∑(𝑒𝑖 − 𝑒𝑖−1 )^2 𝑙 ∑ 𝑒𝑖2 𝐷𝑜𝑛𝑑𝑒: 0 ≤ 𝐷𝑊 ≤ 4

𝑖=2 𝑖=1
Cuando los residuos son independientes DW = 2 se puede asumir

independencia de los residuos.
✓ Homocedasticidad: Para este supuesto la variación de los residuos debe

ser uniforme a lo largo de los valores pronosticados. Esto implica que el
tamaño de los residuos es independiente del de los valores que han sido
pronosticados. Para comprobar esto se realiza el diagrama de dispersión.
✓ Normalidad
Según lo expuesto en el libro de (Garcia, Morales Serrano, & González

Cavazos, 2013), el supuesto de normalidad se puede comprobar de las
siguientes formas:
Histograma
Regla empirica
Prueba de bondad de ajuste por la ji
cuadrada
Distribución Prueba de Shapiro-Wilk
normal Prueba de Kolmogorov-Smirnof-
Lilliefors
Gráfica P-P y gráfica Q-Q
Prueba Bowman-Shelton
Ilustración 1: Diferentes pruebas de normalidad

fuente: (Garcia, Morales Serrano, & González Cavazos, 2013)
35
Continuando con lo basado en el libro de (Garcia, Morales Serrano, & González
Cavazos, 2013), a continuación, se explica cada supuesto de normalidad:
Histograma
Para la creación de un histograma es necesario formar una distribución de

frecuencia con los errores y después graficar, para ello es necesario elaborar el
histograma de los residuos tipificados para observar el grado de alejamiento con
respecto a la distribución normal.
Regla empírica
Se deben calcular los porcentajes para saber si se cumple o no con la normalidad,

sin embargo, ningún procedimiento arroja estos resultados
La extensión del teorema de Chebyshev para una distribución que es simétrica y en

forma de campana, indica lo siguiente:
68.27% de los valores caería dentro de 1 desviación estándar con respecto a la

medida, esto es:
𝜖̅ ± 1𝜎
media, esto es:
𝜖̅ ± 2𝜎
media, esto es:
𝜖̅ ± 3𝜎
La ecuación para llevar a cabo la estandarización de los residuales es:
𝜖𝑖 − 𝜖̅
𝑍𝜖𝑖 =
𝑆𝜖
36
Donde:
𝑍𝜖𝑖 : es el puntaje estándar del error i
𝜖𝑖 : es el error i
𝜖̅: es el promedio de los errores
𝑆𝜖 : es el error estándar de lo estimado
Prueba de bondad de ajuste por la ji cuadrada
Es una prueba de hipótesis para corroborar que los errores siguen una distribución
normal, los pasos a seguir son:
• Establecer las hipótesis Los enunciados serian:

𝐻𝑜 : 𝜖~𝑁, 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
𝜖
𝐻𝑜 : , 𝐿𝑜𝑠 𝑒𝑟𝑟𝑜𝑟𝑒𝑠 𝑛𝑜 𝑠𝑖𝑔𝑢𝑒𝑛 𝑢𝑛𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑐𝑖ó𝑛 𝑛𝑜𝑟𝑚𝑎𝑙
~𝑁
• Se debe construir una distribución de frecuencias con los errores
La amplitud de cada clase se calcula con el rango, el cual es el dato mayor
(DM) mejor el dato menor (dm)
𝐷𝑀 − 𝑑𝑚
𝑎=
𝐶
• Marca de clase
𝐿𝑙1 + 𝐿𝑠1
𝑀𝐶 = 𝑃𝑀 =
2
Donde:
𝐿𝑙1 : es el límite inferior de la clase i
𝐿𝑠1 : es el límite superior de la clase i
𝑀𝐶 = 𝑃𝑀: es la marca de clase o punto medio de la clase i
Prueba de Shapiro Wilk
37
La prueba de hipótesis data de los años 60, es utilizada para muestras pequeñas,
es decir, entre 3 y 50 datos u observaciones
El proceso para la obtención del estadístico de prueba requiere un coeficiente, el
cual varía según el número de datos y son valores fijos
Ecuación:
2
[∑𝑆𝑖=1(𝑎𝑖 [𝑋𝑛−𝑖+1 − 𝑋𝑖 )]]
𝑆𝑊𝑐 =
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2
Donde:
𝑆𝑊𝑐 : es el estadístico de prueba de Shapiro-Wilk
a: es el coeficiente Shapiro Wilk
n: es el número de datos
𝑋𝑖 : es la variable para probar en la observación i
𝑋̅: es el promedio de la variable
𝑗
S: es el número de diferencias que deberán realizarse y sale de 𝑆 = 2
J: es el lugar que ocupa la variable 𝑋𝑖 la cual previamente debe estar ordenada de

menor a mayor
La hipótesis para saber si los datos siguen una distribución normal son:

𝜖
~𝑁
El proceso ordenado para obtener el estadístico es:
1. Contabilizar los valores que se probarán

2. Ordenar los valores de menor a mayor y Asignarles un lugar por medio de j
38
𝑗
3. Encontrar 𝑆 = que sería el número de comparaciones que se realizaran
2
posteriormente, Saber si el número de datos es: Par: se continua con el

proceso o Impar: se elimina el valor central, es decir la mediana o el dato
𝑋𝑠+1 Si éste es el caso, j y S cambian
4. Calcular las sumas de cuadrados de las desviaciones, es decir, entre el dato
y su promedio (𝑋𝑖 − 𝑋̅)
5. Encontrar el coeficiente según n y j
6. Multiplicar el coeficiente por las comparaciones y totalizar
7. Hallar el estadístico de prueba 𝑆𝑊𝑐
8. Comparar con el teórico o de tablas 𝑆𝑊𝑐 :
9. Concluir si 𝑆𝑊𝑐 < 𝑆𝑊𝑡 rechaza la hipótesis nula, es decir, la variable que se
está probando no sigue una distribución normal
Prueba de Kolmogorov-Lilliefors
Permite medir que tanto se parecen o coinciden una distribución teórica específica
y una variable Esta prueba fue realizada por Andrey Nikolaevich Kolmogorov y por
Nikolay Vasilyevich Smirnov, finalmente Hubert Lilliefors realizo una adaptación al
usar valores estandarizados para la prueba; esta variante fue dada porque la prueba
Kolmogorov-Smirnov requiere de la formación de clases a través de la probabilidad
de la normal
La ecuación es:
𝐾𝑆𝐿𝑐 = |𝐷𝑚á𝑥 | = |𝐹𝑡𝑒𝑜 − 𝐹𝑜𝑏𝑠 |
Donde:
𝐾𝑆𝐿𝑐 : es el estadístico de prueba Kolmogorov-Smirnov-Lilliefors
|𝐷𝑚á𝑥 |: es el valor absoluto de la diferencia entre la probabilidad acumulada teórica
y la observada
𝐹𝑡𝑒𝑜 : es la probabilidad acumulada teórica
39
𝐹𝑜𝑏𝑠 : es la probabilidad acumulada real u observada
Las hipótesis para saber si los datos siguen una distribución normal son:

𝜖
~𝑁
Pasos:
1. Ordenar los datos de la variable de menor a mayor

𝑋−𝜇
2. Estandarizar la variable, es decir, obtener 𝑍 = Donde X es la variable
𝜎
para estandarizar, 𝜇 es el promedio de la variable y 𝜎 es la desviación

estándar de la misma
3. Calcular la probabilidad acumulada basándose en la variable
estandarizada; a dicha probabilidad se le denomina 𝐹𝑜𝑏𝑠
4. Buscar la probabilidad teórica, la cual es llamada 𝐹𝑡𝑒𝑜 y la probabilidad
teórica acumulada rezagada o retrasada en un valor
5. Encontrar todas las distancias entre las probabilidades acumuladas teóricas
y observadas, que serian 𝐷𝑚𝑎𝑥
6. Determinar el estadístico de prueba 𝐾𝑆𝑐 el cual es la diferencia más grande
7. Encontrar el estadístico teórico 𝐾𝑆𝑡
8. Comparar si 𝐾𝑆𝑐 > 𝐾𝑆𝑡 entonces se rechaza la hipótesis nula; es decir, la
variable que se está probando no sigue una distribución normal
Gráfica P-P y Q-Q
Denominadas P-P plot por los percentiles que se necesitan encontrar y Q-Q plot
porque se necesitan los cuantiles; estas gráficas sirven para verificar que los errores
siguen o no una distribución normal
Pasos para seguir para encontrar la P-P o Q-Q plot:
40
1. Encontrar errores
2. Ordenar los errores de menor a mayor
3. Poner en la columna j el lugar que ocupa el error, esto equivale a una
numeración
𝑗−05
4. Hallar la posibilidad de la normal con , el 05 equivale a la mitad de la
𝑛
normal y la n es el número de errores que se tienen análisis

5. Multiplicar la probabilidad por 100 para convertirla a percentil En esta parte
se puede encontrar la P-P plot, graficando en el eje X los percentiles o las
probabilidades y en el eje Y los errores ordenados, agregándole una línea
recta ajustada
Prueba de Bowman-Shelton
En 1975 K Bowman y L Shelton propusieron esta prueba de hipótesis que se utiliza

para corroborar si los datos siguen una distribución normal
La ecuación del estadístico cuando el número de datos es grande se aproxima a

una ji cuadrada
(𝑆𝑒𝑠𝑔𝑜)2 (𝐶𝑢𝑟𝑡𝑜𝑠𝑖𝑠 − 3)2

𝐵𝑆 = 𝑛 [ + ] = 𝑋𝑐1
6 24
Donde:
BS: es el estadístico de Bowman-Shelton que se aproxima a una ji cuadrada con

dos grados de libertad
Sesgo: es el sesgo o parte del tercer momento e indica el grado de simetría en los
datos con respecto al valor central o promedio
41
El sesgo es el grado de simetría, si es negativo, la distribución será sesgada a la
izquierda, si es positivo será sesgada a la derecha y si es cero entonces la
distribución es simétrica
Ecuación para encontrar el sesgo:
𝑚3 ∑𝑛𝑖=1(𝑋 − 𝑋̅)3 ∑𝑛𝑖=1(𝜀 − 𝜀̅)3

𝑆𝑒𝑠𝑔𝑜 = 3 = 3 = 3
(𝑚2 )2 𝑛(𝑆 2 )2 𝑛(𝑆 2 )2
Donde:
n= es el número de datos (errores)

𝑚𝑖 : es el momento i
𝑆 2 : es la varianza, en este caso sería la varianza de los errores, la cual se
encuentra en la tabla anova
Interpretar y analizar los coeficientes de determinación, correlación,

determinación ajustado y error estándar
De acuerdo con lo descrito en el libro de (Garcia, Morales Serrano, & González

Cavazos, 2013) los coeficientes son los siguientes:
Coeficiente de determinación
Indica en términos porcentuales la variabilidad que tiene la variable dependiente y

la cantidad que fue captada o explicada en forma lineal por las variables
independientes sus fórmulas son:
𝑆𝑆𝐸 𝑆𝑆𝑅
𝑅2 = 1 − =
𝑆𝑆𝑇 𝑆𝑆𝑇
Donde:
42
SSR: es la varianza explicada
SST: es la variación total
SSE: es la variación no explicada
Un valor cercano a cero indica que no se captó casi nada de la variación total o del
comportamiento de Y; por el contrario, un valor cercano a 1 indica que casi el 100%
de la variabilidad fue captada o explicada por el modelo, es decir, por las variables
independientes
Coeficiente de determinación corregido
También denominado coeficiente de determinación ajustado; indica en términos

porcentuales cuanta variabilidad de la variable dependiente fue captada por la
ecuación, pero ajustada o corregida por los grados de libertad, su ecuación es:
𝑆𝑆𝐸
𝑛 − 1 𝑛−𝑝 𝑘 𝑛−1
2
𝑅𝐴𝑑𝑗 = ̅𝑅̅̅̅2 = 1 − [(1 − 𝑅 2 ) ]= 1− = [𝑅 2 − ][ ]
𝑛−𝑝 𝑆𝑆𝑇 𝑛−1 𝑛−𝑝
𝑛−1
Donde:
𝑅 2 : es el coeficiente de determinación
p: es el número de parámetros en el análisis p=k+1, donde k es el número de
variables independientes más 1 = p72
k: es el número de variables independientes
Coeficiente de Correlación Múltiple
Se le denomina múltiple porque es una correlación multivariante, es decir, entre

muchas variables; en el análisis de correlación hay bivariadas, que es solo entre
43
dos variables, llamada de Pearson, La correlación múltiple en términos porcentuales
indica el poder de asociación o relación que tienen las variables independientes (las
X) con la dependiente (Y) La ecuación es:
𝑅𝑦𝑙𝑋1,𝑋2,…,𝑋𝑘 = √𝑅 2
Donde:
𝑅𝑦𝑙𝑋1,𝑋2,…,𝑋𝑘 : es la correlación o asociación de Y con las de X

𝑅 2 : es el coeficiente de determinación
Los valores del coeficiente de correlación oscilan entre:
0 ≤ 𝑅𝑦𝑙𝑋1,𝑋2,…,𝑋𝑘 ≤ 1
Un valor cercano a cero indica que las variables independientes X no están

asociadas o no tienen una relación con la dependiente, un valor cercano a 1 señala
que hay una fuerte asociación o relación entre las X y la Y, o que la relación es de
casi 100%
Error estándar del estimado
Este valor proporciona un indicio de que tan bien se ajusta la línea a los datos; es
decir, que tanta dispersión tienen los valores observados alrededor del modelo de
regresión en todos los datos La ecuación asociada es:
𝑆𝑆𝐸
𝑆𝜀 = 𝜎̂ = √𝑉𝑎𝑟(𝜖̂) = √𝜎̂ 2 = √ = √𝑀𝑆𝐸
𝑛−𝑝
44
Donde:
𝜎 2 : es la varianza de los errores
p: es el número de parámetros en el análisis y que p=k+1, donde k es el número de
variables independientes más 1=p
MSE: es la suma de cuadrados promediada; es decir, dividida entre sus grados de
libertad
Los valores del error estándar del estimado deben ser:
𝑆𝜖 ≥ 0
El cercano a cero indica que existe casi nada de dispersión a través de la línea de
regresión y que el ajuste es casi perfecto, lo que significa que la mayoría de los
datos reales se encuentran sobre la línea de regresión Si el dato fuera mayor
indicaría que los valores están muy dispersos o alejados de la línea de regresión
Varianza de los errores
Para poder calcular u obtener la varianza de los errores es necesario que el estudio
se realice con la población y como esto es imposible, Por ende, se calculará la
varianza de los residuales, es decir, de la muestra y así se estimará la población
𝑆𝑆𝐸
𝜎𝜖2 = = 𝑀𝑆𝐸 = (𝑆𝜖 )^2
𝑛−𝑝
Donde:
𝑆𝜖 : es el error estándar del estimado
45
p: es el número de parámetros en el análisis y p=k+1, donde k es el número de
variables independientes más 1=p
MSE: es la suma de cuadrados promediada; es decir; dividida entre sus grados de
libertad
4.1.4. Pronósticos
Los pronósticos de ventas son fundamentales en cualquier organización y es por

esto por lo que firman que: (Spyros & Steven C, 1997) el pronóstico de ventas se
necesita para planear la manufactura de un artículo La programación, la compra
de materias primas, la planeación de inventarios, la contratación y capacitación
del personal, y el estimado de los gastos generales crean la necesidad de
estimaciones acerca de la calendarización y magnitud de las ventas de la
compañía (p34)
4.1.5. Paquete Estadístico para las Ciencias Sociales SPSS por sus siglas
en ingles (Statistical Package for the Social Sciences)
Según lo descrito en el libro de (Pérez López, 2005), el paquete estadístico SPPS

es un sistema global para el análisis de datos, tiene una capacidad de
procesamiento de ficheros datos de más de 30000 variables la única limitación
es por la capacidad de almacenamiento del disco del ordenador donde se esté
trabajando
4.1.5.1. Nivel de medición de la variable
El nivel de medición de las variables se puede especificar como Escala (datos

numéricos de una escala de intervalo o de razón), Ordinal o Nominal Los datos
tanto nominales como ordinales pueden ser de cadena alfanumérica o numérica
46
• Nominal: Cuando sus valores representan categorías que no obedecen
a una clasificación intrínseca, Por ejemplo, el departamento de la
compañía en el que trabaja un empleado Algunos ejemplos de variables
nominales es: región, código postal o confesión religiosa
• Ordinal: Cuando sus valores representan categorías con alguna

clasificación intrínseca, Por ejemplo, los niveles de satisfacción de un
servicio, que abarquen desde muy insatisfecho hasta muy satisfecho
• Escalas: Cuando sus valores representan categorías ordenadas con una

métrica con significado, por lo que son adecuadas las comparaciones de
distancia entre valores Ejemplo: la edad en años y los ingresos en dólares
A continuación, se muestran las reglas para determinar el nivel de medición:
Condición Nivel de Medición

Faltan todos los valores de una variable Nominal
El formato es dólar o una divisa personalizada Continuo
El formato es la fecha u hora (excluyendo mes y día de la
Continuo
semana)
La variable contiene al menos un valor no entero Continuo
La variable contiene al menos un valor negativo Continuo
La variable contiene valores no validos inferiores a 10000 Continuo
Tabla 2: Reglas para determinar el nivel de medición
47
4.1.5.2. Tipos de Variable
El tipo de variable especifica los tipos de datos de cada una de las variables de
forma predeterminada el sistema asume que todas las variables nuevas son
numéricas
Los tipos de variables son:
✓ Numérico Una variable cuyos valores son números Los valores se muestran
en formato numérico estándar El editor de datos acepta valores numéricos
de forma estándar o en notación científica
✓ Coma Una variable numérica cuyos valores se muestran como comas que
delimitan cada tres posiciones y con el punto como delimitador decimal
✓ Punto Una variable numérica cuyos valores se muestran como puntos que
delimitan cada tres posiciones y con la coma como delimitador decimal
✓ Notación Científica Una variable numérica cuyos valores se muestran
como una E intercalada y un exponente con signo que representa una
potencia de base 10
✓ Fecha Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos fecha-calendario u hora-reloj-
4.2. MARCO INSTITUCIONAL
4.2.1. Descripción General
Boleco SA es una empresa que se dedica al diseño, producción y fabricación de

bolsas ecológicas en diferentes tamaños y presentaciones Se basa en la filosofía
de contribuir a la reducción de la contaminación ambiental que se vivencia
actualmente, producto de la producción descontrolada de bienes y del uso de bolsas
plásticas
48
Como organización se ve beneficiada de la política establecida por el estado, la cual
implanta el cobro de cada unidad de bolsa plástica, a fin de disminuir el uso de estas
Al igual se lucra notoriamente debido a que es un medio de publicidad utilizado con
más concurrencia por los centros de comercialización de productos y/o servicios
Boleco, es escogida como la empresa enfoque del presente proyecto, ya que cuenta
con gran acogida entre sus clientes y se ha visto un incremento significativo en sus
ventas (bolsas ecológicas), por tal motivo se va a implementar un modelo de
regresión lineal múltiple para el pronóstico de ventas de bolsas ecológicas para la
empresa Boleco SA, en la ciudad de Bogotá DC y ofertar un producto con altos
estándares de calidad A su vez, se da importancia a la labor organizativa de Boleco,
que se enfoca en contribuir a mejorar las condiciones medioambientales en las
cuales se habita actualmente
4.2.2. Datos Generales
Razón Social Boleco SA

Fecha de Creación 15 de noviembre de 2007
Identificación Tributaria (NIT) 28054685-9
Tipo de Contribuyente Persona Natural
Representante Legal Olga Johana Lozano Quirós
Cedula de Ciudadanía 28054685
Dirección de la empresa Carrera 72 A # 54 A – 07 sur, barrio Olarte
Localidad Numero 7- Bosa
Correo Electrónico olgajohanalozano@gmailcom
Teléfono 7779494
Celular 311239990
Tabla 3: Datos Generales de Boleco SA
49
4.2.3. Misión
Boleco SA es una empresa dedicada a la producción de bolsas ecológicas de la

más alta calidad y elaborada con materiales reutilizables, buscando disminuir los
índices de contaminación Porque con Boleco, creamos conciencia ambiental
4.2.4. Visión
Para el año 2020, buscamos convertirnos en una empresa líder en venta de bolsas
ecológicas e innovación ambiental a nivel nacional, ubicando un nuevo taller de
confección en la localidad de Kennedy
4.2.5. Organigrama
GERENTE
Departamento Departamento Departamento

Administrativo Comercial Operativo
Supervisor
Recursos
Contabilidad Compras Ventas de Operarios
Humanos
Operación
Ilustración 2 Organigrama Boleco S.A.
50
4.2.6. Mapa de Procesos
Mejoramiento Continuo
P P
A Procesos Direccionamiento A
R Gestión del R
T Planeación T
SGI Talento
Gerencial
E Humano E
S S
IN Procesos Misionales IN
T T
E Producción Empaque Distribución E
R R
E E
S Procesos de Apoyo S
A A
Servicios
D Compras Contabilidad D
Generales
A A
S S
Mejoramiento Continuo
Ilustración 3: Mapa de procesos BOLECO
4.3. MARCO JURÍDICO
A continuación, se hace referencia a la normatividad legal vigente en Colombia

aplicable para el presente estudio de investigación
• Decreto No 2198 del 26 de diciembre de 2017: “Por el cual se modifica el

epígrafe de la Parte 5 del Libro 1 y se adiciona el Título 6 a la Parte 5 del
Libro 1 del Decreto 1625 de 2016 Único Reglamentario en Materia Tributaria,
para reglamentar el parágrafo 1 del artículo 512-15 y los numerales 3 y 4 del
artículo 512-16 del Estatuto Tributario"
51
• Resolución No 1481 del 03 de agosto de 2018: “Por la cual se establece la
forma y requisitos para presentar ante la Autoridad Nacional de Licencias
Ambientales – ANLA, las solicitudes de certificación para efectos de los
dispuesto en el parágrafo 1 del artículo 512-15 y los numerales 3 y 4 del
artículo 512-16 del Estatuto Tributario, relacionados con el Impuesto
Nacional al Consumo de Bolsas Plásticas”
52
5. METODOLOGÍA
5.1. TIPO DE ESTUDIO
El tipo de estudio que se realizó para el desarrollo del presente trabajo es de tipo
cuantitativo y cualitativo pues se requiere tener claridad sobre los tipos de clientes
que maneja actualmente la empresa y así mismo realizar un análisis cuantitativo de
las ventas
5.2. MUESTRA
Se tomo como muestra la base de datos de Boleco SA del año 2018 donde se
indican las ventas realizadas de las bolsas ecológicas (ver anexo 1), cabe resaltar
que la muestra corresponde a la bolsa tipo cambrel en dos tamaños de 12.5 kg y de
15 Kg para tres tipos de clientes diferentes
5.3. TÉCNICAS PARA LA RECOLECCIÓN Y ANÁLISIS DE LA

INFORMACIÓN
Boleco SA suministra la información correspondiente a las ventas de las bolsas

ecológicas y posteriormente se hace el análisis de está utilizando el programa SPSS
5.4. FUENTES
5.4.1. Primarias
La información necesaria para la realización del presente trabajo es suministrada

directamente por la representante legal de la empresa quien da a conocer las ventas
de las bolsas ecológicas
53
6. CARACTERIZACIÓN DE LAS VARIABLES
La caracterización de las variables se realizó de manera subjetiva teniendo en

cuenta la información suministrada directamente por Boleco S.A., lo que se busca
es incluir las variables más relevantes dentro del modelo de Regresión Lineal
Múltiple.
A continuación, se realiza la descripción de cada una de las variables.
1. Ventas: Corresponde a las ventas del año 2018 suministradas por Boleco
S.A.
2. Capacidad de la Bolsa: Hace referencia a el peso y tamaño de las bolsas

reutilizables que maneja Boleco S.A.
✓ Peso: 0-15 kg o 0-12.5 kg
✓ Tamaño: 55x55 cm o 50x50 cm
3. Clientes: Esta variable corresponde a los diferentes tipos de clientes que

maneja la empresa y los cuales son: Supermercados, Tiendas de Barrio y
Corporativos.
4. Cantidad: Se refiere a la cantidad de bolsas vendidas por un periodo

determinado
5. Costo de Ventas: Esta variable corresponde al costo por producir las bolsas
reutilizables.
VARIABLE DESCRIPCIÓN TIPO DE VARIABLE

Y Ventas Numérica - punto
X1 Capacidad bolsa Numérica - Coma
X2 Clientes Cadena
X3 Cantidad Numérica - punto
54
X4 Costo de ventas Numérica - punto
Tabla 4 Resumen Variables Modelo
7. FORMULACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE
Para realizar la formulación del modelo de regresión lineal múltiple primero se debe
seleccionar la variable dependiente (Y) y las variables independientes (X), a
continuación, se muestra la selección de las variables y la ecuación.
La variable dependiente corresponde a las ventas de las bolsas ecológicas del año
2018 y las variables independientes son: Capacidad de la Bolsa, Clientes, Cantidad
y Costo de Ventas.
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝛽3 𝑋3 + 𝛽4 𝑋4
Donde:
Y: Ventas
𝑋1: Capacidad de la Bolsa
𝑋2: Clientes
𝑋3: Cantidad
𝑋4: Costo de Ventas
Después de realizar la identificación de las variables se procedió a realizar un

análisis de causa – efecto entre la variable dependiente e independiente con el fin
de determinar el grado de relación entre las variables.
55
Ilustración 4: Correlación variables
Como se puede observar en la gráfica número dos el supuesto de linealidad solo se

cumple en algunas variables mientras que en otras no hay linealidad o correlación
alguna entre las variables como es el caso de Capacidad_Bolsa con Ventas o
Cantidad con Capacidad de Bolsa.
Por otro lado, algunas variables presentan una relación positiva, es decir, que existe
relación entre las variables como lo es entre Ventas y Cantidad, Ventas y Costo de
Ventas.
7.1. INTRODUCCIÓN DE LAS VARIABLES
Teniendo en cuenta la caracterización de las variables y la formulación del modelo

de regresión lineal múltiple se procedió a realizar la introducción de la información
en el Software SPSS.
56
7.2. SELECCIÓN DEL MÉTODO
Se realizo el análisis del modelo de regresión lineal múltiple con los siguientes
métodos:
• Introducir: La selección de variables se introduce en un solo paso.
Tabla 5 ANOVA
ANOVAa
Modelo Suma de cuadrados gl Media cuadrática F Sig
1 Regresión 21076924443017,230 3 7025641481005,743 784,399 ,000b
Residuo 2624318214272,339 293 8956717454,854
Total 23701242657289,570 296
a Variable dependiente: Ventas

b Predictores: (Constante), Capacidad_Bolsa, Cantidad, Costo_Ventas
La tabla 4 es una prueba de análisis de varianza la cual muestra si la varianza

explicada por la regresión es significativamente distinta a la varianza no explicada.
El valor del estadístico de prueba F= 784.339 tiene un P_ valor igual a 0 < 0.05, por
lo que se rechaza la hipótesis nula y se concluye que la dependencia lineal es
estadísticamente significativa por lo que el modelo es adecuado.
Tabla 6 Coeficientes
Coeficientes
Coeficientes
Coeficientes no 95,0% intervalo de Estadísticas de
estandariza Correlaciones
estandarizados confianza para B colinealidad
dos
Modelo t Sig
Orde
Desv Límite Límite Parci Part Toleran
B Beta n VIF
Error inferior superior al e cia
cero
1 (Constan - - - -
74933,9 ,00
te) 342239,0 4,56 489716,1 194761,9
94 0
24 7 28 21
Cantidad 12,5 ,00 ,24 12,1
1524,719 121,246 ,851 1286,095 1763,343 ,932 ,592 ,083
75 0 4 15
57
Costo 1,00 ,31 ,01 13,2
,106 ,105 ,071 -,102 ,313 ,910 ,058 ,076
Ventas 2 7 9 15
Capacida
29286,48 5512,31 5,31 ,00 18437,73 40135,23 ,10 1,56
d ,129 ,246 ,296 ,637
2 5 3 0 1 2 3 9
Bolsa
Teniendo en cuenta los resultados de la tabla 12 se deduce que la ecuación de

regresión es:
𝑌̂ = −342239.024 + 1524,719𝑋1 + 0.106𝑋2 + 29286,482𝑋3
Donde:
Y: Ventas
𝑋1: Cantidad
𝑋2: Costo Ventas
𝑋3: Capacidad_Bolsa
Como se muestra en la ecuación de regresión se podría inferir que la variable 𝑋2

Costo de Ventas es la que tiene menos importancia en comparación con las otras
variables pues su significancia es menor.
La ecuación de regresión en estandarizadas nos muestra las variables en la misma

dimensión de la siguiente manera:
𝑍̂ = 0.851𝑍1 + 0.071𝑍2 + 0.129𝑍3
Con esta ecuación se puede determinar que la variable cantidad tiene un peso
significativo sobre las variables restantes. Si se tiene en cuenta el valor de t el cual
nos indica la significancia estadística de los distintos coeficientes se puede observar
un valor máximo para la Cantidad (t = 12.575), seguido de Capacidad_Bolsa (t =
5.313) y por último el Costo_Ventas (t = 1.002).
58
Tabla 7 Diagnostico de Colinealidad
Diagnósticos de colinealidada
Índice de Proporciones de varianza
Modelo Dimensión Autovalor
condición (Constante) Cantidad Costo_Ventas Capacidad_Bolsa
1 1 3,534 1,000 ,00 ,00 ,00 ,00
2 ,437 2,843 ,00 ,02 ,02 ,00
3 ,026 11,581 ,01 ,60 ,55 ,01
4 ,003 37,498 ,99 ,38 ,43 ,99
En la tabla 13 se puede observar el Diagnostico de colinealidad en donde se indica

que la variable Capacidad_Bolsa con un índice de condición de 37.948 presenta
problemas de multicolinealidad por lo tanto la variable puede ser eliminada del
modelo.
• Hacia delante
Correlaciones
Ventas Cantidad Costo_Ventas Capacidad_Bolsa
Correlación de Pearson Ventas 1,000 ,932 ,910 ,246

Cantidad ,932 1,000 ,940 ,112
Costo_Ventas ,910 ,940 1,000 ,308
Capacidad_Bolsa ,246 ,112 ,308 1,000
Sig (unilateral) Ventas ,000 ,000 ,000
Cantidad ,000 ,000 ,027
Costo_Ventas ,000 ,000 ,000
Capacidad_Bolsa ,000 ,027 ,000
N Ventas 297 297 297 297
Cantidad 297 297 297 297
Costo_Ventas 297 297 297 297
Capacidad_Bolsa 297 297 297 297
Tabla 8 Correlaciones método hacia adelante
59
Variables entradas/eliminadasa
Variables Variables
Modelo entradas eliminadas Método
1 Cantidad Avanzar (Criterio: Probabilidad-de-F-para-entrar <= ,050)
2 Capacidad_Bolsa Avanzar (Criterio: Probabilidad-de-F-para-entrar <= ,050)
Tabla 9 variables de entrada metodo hacia adelante
La tabla número 9 muestra tanto las variables de entrada como las variables
eliminadas, sin embargo, para el Método hacia adelante ninguna de las variables es
eliminada.
ANOVAa
1 Regresión 20583220467148,770 1 20583220467148,770 1947,404 ,000b
Residuo 3118022190140,799 295 10569566746,240
Total 23701242657289,570 296
2 Regresión 21067928792360,242 2 10533964396180,121 1176,079 ,000c

Residuo 2633313864929,329 294 8956849880,712
Total 23701242657289,570 296

b Predictores: (Constante), Cantidad
c Predictores: (Constante), Cantidad, Capacidad_Bolsa
Variables excluidasa
Estadísticas de colinealidad
Correlación
Modelo En beta t Sig Tolerancia
parcial Tolerancia VIF
mínima
1 Costo_Ventas ,294b 4,961 ,000 ,278 ,117 8,529 ,117
b
Capacidad_Bolsa ,144 7,356 ,000 ,394 ,987 1,013 ,987
2 Costo_Ventas ,071c 1,002 ,317 ,058 ,076 13,215 ,076
b Predictores en el modelo: (Constante), Cantidad
c Predictores en el modelo: (Constante), Cantidad, Capacidad_Bolsa
60
condición (Constante) Cantidad Capacidad_Bolsa
1 1 1,779 1,000 ,11 ,11
2 ,221 2,838 ,89 ,89
2 1 2,709 1,000 ,00 ,04 ,00

2 ,287 3,074 ,00 ,95 ,00
3 ,004 25,633 ,99 ,00 ,99
En el metodo numero dos exiLas variables uno y dos correspondientes respectivamente a
• Hacia atrás
Correlaciones

Cantidad ,932 1,000 ,940 ,112
Costo_Ventas ,910 ,940 1,000 ,308
Capacidad_Bolsa ,246 ,112 ,308 1,000
Cantidad ,000 ,000 ,027
N Ventas 297 297 297 297
Cantidad 297 297 297 297
Costo_Ventas 297 297 297 297
Modelo Variables entradas Variables eliminadas Método
Capacidad_Bolsa, Cantidad,
1 Introducir
Costo_ventasb
Retroceder (criterio:
2 Costo_Ventas Probabilidad de F-para-
eliminar >= ,100)
61
b Todas las variables solicitadas introducidas
Para este modelo la variable eliminada corresponde al Costo de Ventas puesto

que el criterio de probabilidad resulta ser mayor a 0,100
Resumen del modeloc

Error Estadísticos de cambio
R
R estándar Cambio en Sig
Modelo R cuadrado Cambio
cuadrado de la R gl1 gl2 Cambio en
ajustado en F
estimación cuadrado F
1 ,943a ,889 ,888 94639,936 ,889 784,399 3 293 ,000
2 ,943b ,889 ,888 94640,635 ,000 1,004 1 293 ,317
a Predictores: (Constante), Capacidad_Bolsa, Cantidad, Costo_Ventas
b Predictores: (Constante), Capacidad_Bolsa, Cantidad
c Variable dependiente: Ventas
Como se observa en la tabla anterior el modelo que sirve en el método hacia atrás
es el modelo número uno que comprende las variables Capacidad Bolsa y Cantidad,
con este modelo se explica un 88.9% y una vez corregido por el efecto de la muestra
y la variable independiente resulta ser un 88.8%.
condición (Constante) Cantidad Costo_Ventas Capacidad_Bolsa
1 1 3,534 1,000 ,00 ,00 ,00 ,00
2 ,437 2,843 ,00 ,02 ,02 ,00
3 ,026 11,581 ,01 ,60 ,55 ,01
4 ,003 37,498 ,99 ,38 ,43 ,99
2 1 2,709 1,000 ,00 ,04 ,00
2 ,287 3,074 ,00 ,95 ,00
3 ,004 25,633 ,99 ,00 ,99
62
Para el primer modelo la variable número cuatro correspondiente a la
Capacidad_Bolsa tiene un índice de condición superior a 30 lo que indica que
existen problemas colinealidad y por ende se debe eliminar o excluir dicha variable.
Variables excluidas
Correlación
mínima
2 Costo_Ventas ,071b 1,002 ,317 ,058 ,076 13,215 ,076
b Predictores en el modelo: (Constante), Capacidad_Bolsa, Cantidad
• Paso a paso: En este método se introduce la variable independiente y se

eliminan las que no tengan una relación fuerte con la variable independiente.
Correlaciones

Cantidad ,932 1,000 ,940 ,112
Costo_Ventas ,910 ,940 1,000 ,308
Capacidad_Bolsa ,246 ,112 ,308 1,000
Cantidad ,000 ,000 ,027
N Ventas 297 297 297 297
Cantidad 297 297 297 297
Costo_Ventas 297 297 297 297
Variables Variables
Modelo Método
entradas eliminadas
Por pasos (Criterios: Probabilidad-de-F-para-entrar <= ,050,
1 Cantidad
Probabilidad-de-F-para-eliminar >= ,100)
63
Capacidad Por pasos (Criterios: Probabilidad-de-F-para-entrar <= ,050,
2
Bolsa Probabilidad-de-F-para-eliminar >= ,100)
Resumen del modeloc

R
R estándar de Cambio en Sig
cuadrado la R gl1 gl2 Cambio en
ajustado en F
1 ,932a ,868 ,868 102808,398 ,868 1947,404 1 295 ,000
2 ,943b ,889 ,888 94640,635 ,020 54,116 1 294 ,000
a Predictores: (Constante), Cantidad
b Predictores: (Constante), Cantidad, Capacidad_Bolsa
c Variable dependiente: Ventas
El modelo uno explica en un 86.8%, una vez corregido por el efecto de la muestra
y de la variable independiente resulta ser en un 86.8% es decir el modelo no
presenta ninguna variación.
El modelo dos explica en un 88.9%, una vez corregido por el efecto de la muestra
y de la variable independiente (ventas) resulta ser de un 88.8%.
En ambos casos el porcentaje obtenido explica el modelo.
ANOVAa
1 Regresión 20583220467148,770 1 20583220467148,770 1947,404 ,000b
Residuo 3118022190140,799 295 10569566746,240
Total 23701242657289,570 296
2 Regresión 21067928792360,242 2 10533964396180,121 1176,079 ,000c
Residuo 2633313864929,329 294 8956849880,712
Total 23701242657289,570 296
64
b Predictores: (Constante), Cantidad
c Predictores: (Constante), Cantidad, Capacidad_Bolsa
Para el modelo uno el valor del estadístico de prueba F= 1947.404 y para el modelo
2 el valor estadístico de prueba F = 1176.079 los cuales tienen una P_ valor igual a
0 < 0.05, por lo que se rechaza la hipótesis nula y se concluye que la dependencia
lineal es estadísticamente significativa por lo que el modelo es adecuado.
Variables excluidasa
Correlación
mínima
1 Costo_Ventas ,294b 4,961 ,000 ,278 ,117 8,529 ,117
Capacidad_Bolsa ,144b 7,356 ,000 ,394 ,987 1,013 ,987
2 Costo_Ventas ,071c 1,002 ,317 ,058 ,076 13,215 ,076
b Predictores en el modelo: (Constante), Cantidad
c Predictores en el modelo: (Constante), Cantidad, Capacidad_Bolsa
En el primer modelo la variable que tenía un nivel de significancia estadística alto

era Cantidad (t = 12.575), para este modelo la variable que tienen significancia
estadística alta es Capacidad_Bolsa (t = 7.356) y para ambos modelos la variable
que no tiene significancia alta es Costo_Ventas (t = 1.002) por lo tanto puede ser
eliminada del modelo.
condición (Constante) Cantidad Capacidad_Bolsa
1 1 1,779 1,000 ,11 ,11
2 ,221 2,838 ,89 ,89
2 1 2,709 1,000 ,00 ,04 ,00

2 ,287 3,074 ,00 ,95 ,00
3 ,004 25,633 ,99 ,00 ,99
65
8. VALIDACIÓN DEL MODELO
La validación del modelo se realiza por medio del análisis e interpretación de los
coeficientes de correlación.
Resumen del modelob

R
R estándar Cambio en Sig
cuadrado de la R gl1 gl2 Cambio en
ajustado en F
1 ,943a ,889 ,888 94639,936 ,889 784,399 3 293 ,000
a Predictores: (Constante), Capacidad_Bolsa, Cantidad, Costo_Ventas
b Variable dependiente: Ventas
El modelo explica en un 88.9%, una vez corregido por el efecto de la muestra y de

la variable independiente resulta un 88.8%.
8.1. SUPUESTOS DE ANÁLISIS
INDEPENDENCIA DE LOS ERRORES
Para comprobar el supuesto de la independencia de los errores en la medición de

las variables explicativas sean independientes entres si, se verifica mediante el
estadístico de Durban – Watson
Resumen del modelob

R cuadrado Error estándar de
Modelo R R cuadrado ajustado la estimación Durbin-Watson
1 ,919a ,845 ,845 132.195,657 ,000
a. Predictores: (Constante), Costo_Ventas, Capacidad_Bolsa, Cantidad
b. Variable dependiente: Ventas
66
Teniendo en cuenta que el estadístico da 0 se rechaza H0 esto quiere decir que
existe una autocorrelación positiva.
HOMOCEDASTICIDAD
Gráfica 2 Dispersión
De acuerdo con la gráfica 6 se puede observar que la mayoría de los residuos son
aleatorios por lo que se podría inferir que se cumple en supuesto de
homocedasticidad u homogeneidad de varianzas.
NORMALIDAD
Para comprobar el supuesto de normalidad se realizo la prueba Q-Q y P-P a

continuación, se muestran los resultados.
67
Gráfica 3 P-P
Gráfica 4: Q-Q
Las gráficas P-P plot que hace referencia a los percentiles y Q-Q plot que hace
referencias a los cuantiles se puede observar que los errores, aunque no todos se
encuentran sobre la línea de tendencia estos tienen a seguir una distribución
normal.
68
CONCLUSIONES
Se identificaron y caracterizaron las variables más relevantes que intervienen en el

proceso de venta de bolsas ecológicas de la empresa Boleco S.A., las cuales
fueron: capacidad de la bolsa, clientes, cantidad, ventas y Costo de ventas.
Se realizó la formulación del modelo de regresión lineal múltiple teniendo en cuenta

las variables más relevantes y a partir de este se procedió a ingresar los datos en
el software SPSS.
Se concluye por medio de la validación del moldeo que para Boleco S.A. las
variables que más se relacionan entre sí son ventas, cantidad y capacidad de la
bolsa, estas variables permiten predecir un modelo con una relación significativa de
un 88.9%.
Los modelos de pronósticos son importantes para cualquier tipo de organización

independientemente de su actividad económica ya que estos ayudan a mejorar la
productividad, minimizar costos, disminuir fallas en los procesos entre otras.
El modelo de regresión lineal múltiple por medio del Software SPSS permite
identificar la relación que existe entre las diferentes variables objeto de estudio y
como estas afectan el resultado de otra variable, es decir, permite identificar cual es
la variable que más causa – efecto tiene respecto a la variable independiente.
69
RECOMENDACIÓN
Se recomienda a Boleco S.A. implementar y acoger el modelo de regresión lineal

múltiple desarrollado en este trabajo con el fin de mejorar la predicción de las ventas
de las bolsas ecológicas y que la empresa tenga presente que las variables que
explican significativamente las ventas corresponden a la cantidad de bolsas
ecológicas y a la capacidad de estas.
70
ANEXOS
Anexo 1 Base de datos Boleco.

Anexo 2 Datos SPSS.
Anexo 3 Regresión Intro.
Anexo 4 Regresión Paso a Paso.
Anexo 5 Regresión Hacia Adelante.
Anexo 6 Regresión Hacia Atrás.
Anexo 7 Gráfica P-P.
Anexo 8 Gráfica Q-Q.
71
BIBLIOGRAFÍA
Astorga Gómez, J. M. (2014). Aplicación de modelos de regresión lineal para determinar las
armónicas de tensión y corriente. Redalyc.
Barahona Urbina, P., Veres Ferrer, E., & Aliaga Prieto, V. (2016). Deserción académica de la
Universidad de Atacama, chile. SciELO.
Bowerman, B., O'Connell, R., & Koehler, A. (2007). Pronósticos, Series de Tiempo y Regresión.
México,D.F.: Cengage Learning.
Brenes González, H. A. (2017). Aplicación del análisis de regresión lineal simple para la estimación
de los precios de las acciones de Facebook, Inc. Revista Electrónica de Investigación en
Ciencias Económicas, 1-23.
Campos Aranda, D. F. (2016). Una aplicación hidrológica de la regresión lineal múltiple ponderada.
Tecnología y Ciencias del Agua, 161-173.
Carrasquilla Batista, A., Chacón Rodríguez, A., Núñez Montero, K., Gomez Espinoza, O., Valverde,
J., & Guerrero Barrantes, M. (2016). Regresión lineal simple y múltiple: aplicación en la
predicción de variables naturales relacionadas con el crecimiento microalgal. Dialnet, 35-
45.
Castro Valderrama, M. P., Wilches Chiriví, K., & Gómez Delgado, G. L. (2018). Pontificia Universidad
Javeriana Bogotá. Obtenido de Diseño de Bolsa Reutilizable para Empaque y Transporte
de Frutas y Verduras:
https://repository.javeriana.edu.co/bitstream/handle/10554/36531/CastroValderramaMa
riaPaula2018.pdf?sequence=1&isAllowed=y
Colectivo de Autores. (2009). Econometria I. Félix Varela.
Damodar N., G., & Dawn C., P. (2010). Econometría (Quinta ed.). México, D.F.: Mc Graw Hi.
García, G., Brogioni, M., Venturini, V., Rodríguez, L., Fontanelli, G., Walker, E., . . . Macelloni, G.
(2016). Determinación de la humedad de suelo mediante regresión lineal múltiple con
datos TerraSAR-X. Revista de Teledetección, 73-81.
Garcia, J., Morales Serrano, B., & González Cavazos, B. (2013). Analisis Estadistico Multivariante.
Mc Graw Hill.
Montero Granados, R. (2016). Modelos de regresión lineal múltiple. Obtenido de

http://www.ugr.es/~montero/matematicas/regresion_lineal.pdf
72
Morantes Quintana, G. R., Rincón Polo, G., & Pérez Santodomingo, N. A. (2019). Modelo de
regresión lineal multiple para estimar concentración de PM1. Revista Internacional de
Contaminación Ambiental.
Ortiz, R., Arias, F., Da Silva, C., & Cardozo, O. (2015). Análisis Espacial del Precio del Suelo con
Modelos de Regresión Lineal Múltiple (MRLM)y Sistemas de Información Geográfica (SIG).
Revista Geográfica del Valparaíso, 1-18.
Pardo, A., & Ruiz, M. Á. (2005). Análisis de datos con SPSS 13 Base. España: ProQuest Ebook
Central.
Pat Fernandez, L. A., Martínez Menchaca, A. H., Pat Fernández, J. M., & Martínez Luis, D. (2013 ).
Introducción a los Modelos de Regresión. Ciudad del Carmen: Plaza y Valdes. Obtenido de
https://ebookcentral.proquest.com
Pérez López, C. (2005). Métodos Avanzados con SPSS. España: Thomson Editores Spain.
Perez Obregón, J. M., & Romero Díaz, T. (2018). Análisis del rendimiento académico mediante
regresión logistica y múltiple. Revista Electrónica de Conocimientos, Saberes y prácticas,
33-42.
Plascencia Villaliz, A. C. (11 de 2015). Análisis de Regresión Múltiple del Fenómeno de la Trata de
Personas en México. Obtenido de
http://148.204.210.201/tesis/1457542786408TesisAdrianaP.pdf
Revilla Huarcaya, H. J. (2016). Estudio de Factibilidad para la Instalación de una Planta de

Producción y Comercialización de Bolsas a Base de Papel Reciclado en la Ciudad de
Arequipa. Arequipa, Perú.
Rodríguez Mañay, L. O., Saltos Chacán, M. Y., & Muñoz Moreta, E. R. (2016). Cálculo de un cost
driver para determinar el costo de una actividad empleando un modelo de Regresión
Lineal o un modelo de Regresión Multiple. Dialnet, 239-255.
Sabogal Cardona, O. A., Hincapié Zea, J. D., Santa Chávez, J. J., & Willmer Escobar, J. (2015).
Modelos de Regresión Lineal para Estimación de Tiempos de Viaje en Sistemas de
Transporte Masivo. Ciencia e Ingeniería Neogranadina, 77-89.
Samaniego Pinho, A., & Buenahora Bernal, M. (2016). Variables relacionadas con ansiedad social
en adolescentes: un modelo de regresión Lineal múltiple. Interacciones, 109-122.
Spyros, M., & Steven C., W. (1997). Manual de Técnicas de Pronósticos. México, D.F.: Limusa, S.A
de C.V.
73
Thea, J., & Torrillas, N. J. (2019). RIA Repositorio Institucional Abierto. Obtenido de Producción de
bolsas Plásticas Biodegradables :
http://ria.utn.edu.ar/bitstream/handle/20.500.12272/3505/Producci%c3%b3n%20de%20
bolsas%20pl%c3%a1sticas%20biodegradables.pdf?sequence=1&isAllowed=y
Vilá Baños, R., Torrado Fonseca, M., & Reguant Álvarez, M. (2019). Análisis de regresión lineal
múltiple con SPSS: un ejemplo práctico. Barcelona, Barcelona.
Ximénez, M. C., & San Martín, R. (2013). Fundamentos de las Técnicas Multivariantes. ProQuest
Ebook.
74

2020 Modelo Regresión Multiple

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

2020 Modelo Regresión Multiple

Cargado por

Copyright:

Formatos disponibles

MODELO DE REGRESIÓN LINEAL MÚLTIPLE PARA EL PRONÓSTICO DE

VENTAS DE BOLSAS ECOLÓGICAS PARA LA EMPRESA BOLECO SA, EN

GERALDINE FORERO GÓMEZ

UNIVERSIDAD COOPERATIVA DE COLOMBIA

GERALDINE FORERO GÓMEZ

ANÁLISIS SISTEMÁTICO DE LITERATURA

TRABAJO PARCIAL PARA OPTAR AL TITULO DE INGENIERO INDUSTRIAL

UNIVERSIDAD COOPERATIVA DE COLOMBIA

Bogotá, enero 2020

1. DESCRIPCIÓN DEL PROBLEMA............................................................... 13

1.1. PLANTEAMIENTO DEL PROBLEMA ......................................................... 13

1.2. JUSTIFICACIÓN DEL PROBLEMA ............................................................ 15

3. ESTADO DEL ARTE ................................................................................... 19

4. MARCOS DE REFERENCIA ....................................................................... 28

5.2. MUESTRA ..................................................................................................................................... 53

5.4.1. Primarias .................................................................................................................................... 53

6. CARACTERIZACIÓN DE LAS VARIABLES............................................... 54

7. FORMULACIÓN DEL MODELO DE REGRESIÓN LINEAL MÚLTIPLE .... 55

7.2. SELECCIÓN DEL MÉTODO ...................................................................................................... 57

8. VALIDACIÓN DEL MODELO ...................................................................... 66

Tabla 1: Distribución de las ventas de las diferentes líneas de bolsa ecológica en

Gráfica 1: Cantidad de pedidos VS entregados, suministrado por Boleco SA, año

Ilustración 1: Diferentes pruebas de normalidad .................................................. 35

Anexo 1 Base de datos Boleco .............................................................................. 71

El presente trabajo consistió en el pronóstico de ventas de bolsas ecológicas de la

Palabras clave: Pronósticos, Regresión, Proceso, Productividad, Variables y

Actualmente las organizaciones han venido implementando métodos que les

Un modelo de regresión lineal múltiple permite conocer cómo se comportan las

Teniendo en cuenta lo anterior el presente trabajo consiste en desarrollar un

En la primera parte del trabajo se encontrará la descripción del problema que

En la segunda parte se desarrolló un análisis sistémico de literatura en donde se

1.1. PLANTEAMIENTO DEL PROBLEMA

BOLECO SA es una microempresa dedicada al diseño, producción y

Tabla 1: Distribución de las ventas de las diferentes líneas de bolsa ecológica en

Para realizar el proceso de estimación de las ventas adelanta actualmente un

Teniendo en cuenta lo anterior y como se visualiza en la tabla 1 las bolsas

La información descrita corresponde al año 2018

Cantidad de pedidios vs entregados

Costos innecesarios en la manutención del inventario, es decir, se tendría

Por consiguiente, para dar solución al problema anteriormente planteado es

1.2. JUSTIFICACIÓN DEL PROBLEMA

1.2.1. Justificación practica

La información que busca Boleco SA respecto a la venta de bolsas ecológicas es a

Al crear un modelo mediante el método de regresión lineal múltiple para un

De igual manera, el modelamiento de regresión lineal múltiple permitirá identificar

• La capacidad del mercado, es decir, es la cantidad de bolsas ecológicas en

El presente estudio busca, mediante la aplicación de la teoría y los conceptos

1.2.3. Justificación metodológica

En el presente estudio se hará uso de herramientas estadística como la predicción

1.3. DELIMITACIÓN DEL PROBLEMA

1.3.1. Delimitación temática

La realización del presente estudio servirá para determinar el pronóstico de

1.3.2. Delimitación espaciotemporal

El presente trabajo se desarrollará en el barrio Olarte de la ciudad de Bogotá, la

2.1. Objetivo General

2.2. Objetivos Específicos

• Caracterizar variables que intervienen en las ventas de las bolsas ecológicas

Se realizó una búsqueda sistemática de información relativa al objeto de estudio del

Método: La aplicación de la técnica implica cinco pasos: 1. Seleccionar la variable

Variables: Dependiente: Puntuación en la escala de ciberagresión en VG2.0. E

Resultados: En el ejemplo de estudio propuesto sobre violencias de género entre

(Morantes Quintana, Rincón Polo, & Pérez Santodomingo, 2019), Modelo de

Método: Muestreo, Información Secundaria, Sección de Variables, Construcción de