El término regresión fue utilizado por primera vez como un concepto estadístico en el año
1877 por sir Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los
niños nacidos de padres altos tendía a equipararse con la de los que tenían estatura baja, es
decir tendía a “retroceder o regresar” a la estatura media de la población, a equiparar o
equilibrar. Como si fuese una especie de fuerza de compensación.
La regresión lineal es un tema básico y muy importante para los investigadores de mercado.
Es necesaria en los estudios de satisfacción, elasticidad de precios, imagen de marca, de
candidatos políticos, planeación, pronósticos de operación, ventas, inversión, etcétera.
Desde tiempos inmemoriales el ser humano ha estado interesado predecir lo que le espera
en el futuro, lo que le ocurrirá o dejará de ocurrir si realiza tal o cual acción, y siempre observó
la sucesión de hechos motivados por otros como por ejemplo: asocia empíricamente algunos
sucesos con la ocurrencia de otros, como por ejemplo; si cantan las chicharras pronto
comenzará a llover, si hay mucho calor (sensación térmica) hay peligro de temblor.
Observaciones que muchas veces sin fundamento científico teórico han pretendido predecir
lo que ocurrirá en una variable en función de la presencia de otra variable.
Esto nos conduce a la siguiente pregunta:
Y de existir una relación entre dichas variables de interés, cuál será el modelo matemático
que mejor describe dicha asociación, surgiendo así la Teoría de Regresión y Correlación la
cual establece los fundamentos científicos teóricos para establecer un modelo que permite al
investigador predecir lo ocurrirá a una variable si se interviene sobre la otra, con un nivel de
incertidumbre acordado, significación o nivel de confianza. Se debe tener en claro que el
resultado predicho por un modelo de regresión se convertirá en una esperanza o valor
esperado, siempre y cuando el resto de las condiciones continúen iguales.
En todos los ejemplos mencionados anteriormente, deberás analizar los datos valiéndote de
la correlación y la regresión lineales para obtener información acerca de los problemas
planteados. Este análisis lo realizarás apoyándote en diagramas de dispersión, el cálculo del
coeficiente de correlación de Pearson y la ecuación de mejor ajuste.
Cabe destacar un punto esencial en el análisis, las variables involucradas no necesariamente
tienen una relación causa-efecto por lo que deberá tomarse la información obtenida
mediante esta herramienta con una óptica estrictamente estadística.
Todas estas actividades te permitirán resolver problemas donde aplicarás la correlación y
regresión lineales como instrumentos preliminares en la inferencia estadística.
A partir de ahora será mi intención explicarte la regresión de manera sencilla y mostrarte
luego una forma de graficarla para que puedas lucirte ante tus colegas y clientes.
tener que haber registrado los datos de varios de los repartidores de delibery . Has 3
registrado los datos de las últimas 10 entregas y cuentas con la siguiente tabla de abajo:
**Llama un cliente y te pide que le digas cuánto tiempo vas a tardar en llevarle la comida si
el mismo se encuentra a 14 kilómetros de distancia ¿Qué tiempo le dirías?
Como sos precavido justo ese dato lo tienes en la tabla de un dato registrado en uno de los
repartidores y le dices: “aproximadamente 15 minutos.
** De repente y para variar entonces entra uno de tus repartidores y te dice que acaba de
tardar 17 minutos en hacer una distancia de 14 km. ¿qué le vas a decir al próximo cliente
cuando te pregunte cuánto tiempo vas a tardar en entregarle si sabes que está exactamente
a 14 kilómetros de distancia? ¿Le dirás 15 o 17 minutos?
En ese caso sin darte cuenta estarás aplicando el concepto de promedio aritmético y
seguramente dirás que en “promedio” puede llegar a demorar 16 minutos.
Esta situación fue bastante simple pero qué tal si ahora la cosa se complica un poco más
cuánto tiempo vas a tardar en llevarle la comida a un cliente nuevo que está a 10 kilómetros
de distancia.
** Sí, ya sé estás buscando en la tabla de arriba y??... Lo encontraste? Te das cuenta que no
has hecho ninguna entrega a esa distancia por lo tanto no sabes cuánto tiempo te va a llevar
entregarla. Entonces empezamos a pensar que debe haber una especie de “fuerza
unificadora” que represente a todas las entregas….esa fuerza es un una línea que atraviesa a
todos los puntos de tus entregas anteriores!!!.
La mayoría de las veces los problemas a los que te enfrentas no son tan claros ni tan sencillos;
en este caso, cualquiera puede entender que la distancia afecta el tiempo en que se entrega
las comidas; además los datos son pocos y es fácil manipularlos e incluso hacer una gráfica
donde puedes ver que a mayor distancia también se incrementa el tiempo.
La regresión lineal en particular y la estadística en general te ayudan a analizar problemas
más complejos donde se tienen que manejar grandes números o relaciones no tan claras. Por
ejemplo, en los estudios de satisfacción del cliente es difícil conocer cuáles variables son las
que afectan la satisfacción en general y sobre todo el saber cuánto…
Ese “cuánto” se llama coeficiente de regresión y es la cantidad que varía la variable
dependiente en función de la independiente. En otras palabras, qué tanto aumenta o
disminuye la satisfacción general cuando los niveles de las variables independientes que
pueden ser precio, calidad, atención, amabilidad, puntualidad, servicio o cualesquier otro
aspecto de tu producto o servicio disminuyen o aumentan.
A los aspectos que determinan la satisfacción en general los mercadólogos les
llaman “drivers”
Los “drivers” son claves para proporcionar una experiencia más satisfactoria al cliente; lo
que en términos prácticos significa retenerlo y que siga consumiendo tus servicios o
productos.
Ese coeficiente de regresión también se llama BETA de regresión porque se representa con la
letra griega beta. Ese beta es una de las variables que vas a determinar de manera
cuantitativa.
5
En el gráfico que estás viendo, cada uno de
los círculos representa un “driver” que
afecta la satisfacción en general del cliente
con la línea área; el número que hay dentro
de cada círculo es el coeficiente de
regresión o beta de ese “driver”. Si sumas
estos coeficientes, se obtiene un 100%.
En los ejemplos mostrados en los puntos 1 y 2, pudiste ver que se trataba de tablas con doble
entrada. Una para x y otra para y. O lo que ya conoces como una variable independiente “x”
y una variable dependiente “y”. El problema es que en la realidad las variables x e y se deben
identificar.
se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el sentido de
que pesos (Y) grandes vienen explicados por valores grandes de altura (X),(en general).
De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X
VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE
DEPENDIENTE o EXPLICADA.
En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber
qué variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le
supondremos menor altura y a una persona de poca altura le supondremos un peso más
bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y
por igual.
Un ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde
se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su nota de examen.
En este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y una nota
buena nos indicará que tal vez el alumno ha estudiado mucho. Sin embargo, a la 6
hora de determinar qué variable explica a la otra, está claro que el “tiempo de estudio” explica
la “nota de examen” y no al contrario, pues el alumno primero estudia un tiempo que puede
decidir libremente, y luego obtiene una nota que ya no decide arbitrariamente. Por tanto,
El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que
existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos
variables es la relación LINEAL, es decir que
Una vez identificadas las variables, se deberá sondear el tipo y grado de la correlación
existente entre ellas. Pero ojo se deben diferenciar algunas cosas:
.Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la
asignatura Estadística I y las de Matemáticas I. Para ello debemos disponer de los datos y
comenzar por intentar graficarlos en lo que se conoce como: gráfico de dispersión.
Comenzaríamos entonces por observar la nube de puntos e imaginarnos qué tipo de función
es.
A pesar de la ilustración visual que ofrecen la gráfica anterior solo podemos percibir la
tendencia, mas no el grado o fortaleza de la relación, entre la variable estatura y la variable
peso. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos
variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de
Pearson “r”.
• -1 ≤ rx,y ≤ 1
• Si rx,y está cerca de 1 la correlación lineal entre x y y es positiva, es decir están
correlacionadas positivamente
• Si rx,y está cerca de -1 la correlación lineal entre x y y es negativa, es decir están
correlacionadas negativamente
• Si rx,y está cerca de 0 la correlación lineal entre x e y no existe, es decir que x e y no
están correlacionadas. No hay correlación lineal entre las variables
10
Ec. 1 11
Esta es la ecuación de la recta. En ella:
La 1 es la inclinación de la recta.
La 0 es la secante o la altura en la que la recta corta al eje y. Ordenada al origen.
La X es nuestra variable independiente.
La Y es nuestra variable dependiente, nuestro pronóstico calculado para un periodo.
Yi = 0 + 1 Xi + ei
Ec. 4
12
Figura 6. Ajuste de
puntos mediante
una recta por
Regresión Lineal.
y se llega a encontrar la ecuación de la línea recta que mejor ajuste a los datos. Esto se
conoce como el método de los mínimos cuadrados, y da valores para a y b (estimadores
de α y β).
13
Un ejemplo de regresión lineal para pronosticar la
demanda:
Las ventas de la empresa “EVENTOS MUSICALES
MERCEDINOS” en millones de pesos durante los últimos 10
trimestres son las siguientes:
En nuestro caso, este conjunto está dado por las ventas
trimestrales (variable dependiente). La variable
independiente es el tiempo.
Ec. 5
Siendo
La y “minúscula” es el valor y de cada punto de datos.
La x “minúscula” es el valor y de cada punto de datos.
La n es el número de punto de datos. La y “minúscula” es el valor y de cada punto
de datos
𝑦̅ Es el promedio de los valores de y
𝑥̅ Es el promedio de los valores de x
∑𝑛𝑖=1 𝑥. 𝑦 es hacer el produto de cada valor x por cada valor y de la tabla, y luego
sumar todos los valores de la coluna.
∑𝑛𝑖=1 𝑥 2 es elevar los valores experimentales de x al cuadrado y luego hacer la
suma de los valores de la columna
n 𝑥̅ 2 es al promedio de x elevado al cuadrado multiplicarlo por n
̅ − 𝒃. 𝒙
𝒂=𝒚 ̅ Ec. 6
Conocidas las ecuaciones y el papel de las variables, vamos a calcular el pronóstico con
regresión lineal:
En la siguiente se encuentran los cálculos realizados para los 12 trimestres según lo
requerido por las ecuaciones:
14
Con los valores de la última fila de la tabla, podemos calcular a y b, con los cuales logramos
calcular los valores de la última columna (Y) que es la recta que más se ajusta a la
Demanda y.
Veamos entonces:
O sea que nos quedaría una expresión para la recta de la siguiente forma:
Y = a + bX para cualquier y Yi = 72.929 + 63.657 Xi
Podríamos ahora hacer una estimación para el trimestre 13 y luego hacerlo extensivo al
trimestre 14 y para el trimestre 15.
Y=63,657(14)+72,894=964.09
Y=63,657(15)+72,894=1027.75
Eso tiene el siguiente aspecto:
15
Como imaginamos, en los casos reales, las predicciones perfectas son prácticamente
imposibles y lo que necesitamos es una medida que describa cómo o cuán precisa es la
predicción de Y en función de X o, inversamente, qué inexacta puede ser la estimación.
Con INFOSTAT:
1) Cargar la tabla con: archivo=> Nueva tabla=> Edición=> Pegar con nombre de
columna
2) Estadísticas=>Regresión lineal => Variable dependiente : Ventas=> Variable
regresora: Trimestres
3)
Análisis de regresión lineal
(R²) es 0,95, que su versión ajustada (R² Aj) también da un valor de 0,95, que el 16
error cuadrático medio de predicción (ECMP) es 4313.93 y que los criterios AIC y BIC
producen valores de 133.95 y 135.41
Más adelante volveremos sobre este encabezamiento. La segunda tabla contiene la
estimación del modelo. La ordenada al origen es (const 0 ), significaría que Ventas
equivaldría 72.89 a un tiempo inicial cero. Muchas veces la interpretación física de la
ordenada al origen puede no tener sentido, pero la presencia de la ordenada en el modelo es
necesaria para el modelo a pesar de lo paradójica que resulte su interpretación.
El parámetro de mayor interés en este ejemplo es la pendiente de la recta ajustada. La
pendiente estimada aparece en la línea correspondiente a la variable regresora (Trimestres).
Su valor es 63.66. Es un punto importante del análisis de regresión establecer si la pendiente
verdadera es distinta o no de cero.
La hipótesis nula es H0:
Si fuera cero entonces diríamos que no importa cuál sea el trimestre del perfil analizado
pues el contenido de Ventas sería siempre constante. En la columna de valores p, el valor p
correspondiente a la pendiente es <0,0001. Esto se interpreta diciendo que la probabilidad
de obtener una estimación 63.66 unidades o más en cualquier sentido es, para los datos
examinados, menor que 1 en 10000 si el verdadero valor de la pendiente fuera cero. Esto
implica, bajo los criterios clásicos de la inferencia estadística, que la pendiente de 63.66 es
estadísticamente distinta de cero y por lo tanto a medida que los trimestres avanzan las
Ventas aumentan.
Otro valor importante es el que figura como R2 La tercera parte de la salida del análisis de
regresión corresponde a una tabla de análisis de la varianza para el modelo de regresión,
donde figuran las sumas de los cuadrados que luego se usan para calcular el coeficiente de
determinación y el coeficiente de determinación ajustado. En este ejemplo R2=0,95, diremos
que el aumento de las ventas se explica por el 95% de la variabilidad observada cuando
avanzan los trimestres.
QUEDA CLARO QUE AL NIVEL DE SIGNIFICACIÓN DEL 1% (0.01) EL p valor es < 0.01 con
lo cual se rechaza la hipótesis nula que dice que la recta tiene pendiente igual a cero .
Con EXCEL:
EJECUCIÓN:
1) Cambiar los mínimos en "opciones de eje" haciendo doble clic sobre las
graduaciones de ejes horizontales y verticales.
2) Haciendo clic sobre los puntos con el lado derecho del mouse, hacemos clic
y optamos por "agrega línea de tendencia"
3) Le decimos que agregue ecuación y que nos dé el valor de R2.
Otro ejemplo:
Para la economía argentina, disponemos de los datos anuales redondeados sobre consumo
final de los hogares a precios corrientes (Y) y renta nacional disponible neta (X), tomados de
la Contabilidad Nacional de Argentina, para el período 1995-2002, ambos expresados en miles
de millones de pesos.
Considerando que el consumo se puede expresar como función lineal de la renta (Yt=a+b·Xt),
18
La interpretación será que por cada año más de edad, la TAS aumentará en 0,7
mmHg por término medio, independientemente de cuál sea el sexo y el IMC. Por cada kg/m2
más de IMC subirá la TAS en 0,6 mmHg por término medio (en ambos sexos y sea cual sea
la edad). La diferencia entre hombres y mujeres será de 4,9 mmHg menos en las mujeres, a
igualdad de edad y de IMC. Quizás esto último es más difícil de entender, se aclarará si
construimos dos ecuaciones, una para hombres y otra para mujeres, sustituyendo la variable
"SEXO" por sus respectivos valores. La variable sexo se codificó así:
Hombres: SEXO= 0
Mujeres: SEXO= 1
En los hombres, la ecuación será: TAS 85 (0,7 EDAD) (0,6 IMC)
En las mujeres, la ecuación será: TAS 85 (0,7 EDAD) (0,6 IMC) - 4,9
Por lo tanto, las mujeres, a igualdad de edad e IMC, tendrán una TAS 4,9 mmHg
inferior. Es posible introducir variables categóricas (sexo en el ejemplo) en el modelo.
Estime un modelo de regresión lineal predictivo. Diga cuánto gastaría una familia de 3
niños que ganara 85000 pesos.
20
Ingresos(x1) Gastos (y) Tamaño(X2)
43 21 3
31 11 4
32 9 5
46 16 3
125 62 5
44 23 3
52 18 4
29 10 5
129 89 4
35 24 2
35 12 4
78 47 3
43 35 2
47 29 3
38 14 4
52 48 5
RESULTADOS DE INFOSTAT:
𝑦 = 𝛽0 + 𝛽1 . 𝑥1 + 𝛽2 𝛽𝑥2 + 𝛽3 𝑥3 + 𝛽4 𝑥4 … + 𝑒
21
Significa que un 68% de los ingresos se destinan a gastos y hay una razón inversa con el
número de miembros
Tarea a desarrollar: Graficar la relación entre gastos y número de integrantes de la familia
Un valor muy utilizado cuando trabajamos con un análisis de regresión, es el cálculo del
coeficiente de correlación.
El coeficiente de correlación dará una medida de asociación entre las variables X y Y.
El resultado de este ejercicio es r=0,975. Esto indica que la correlación es muy fuerte y positiva
porque está cercana a 1.
Sin embargo, no todas las relaciones son tan ideales, en el común de los casos –1< r <1.
Recordamos que Empíricamente se afirma que:
22
1− R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de
regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos. Por
ejemplo.
El primer objetivo de la regresión era poner de manifiesto una relación existente entre dos
variables estadísticas. Una vez se constata, por ejemplo, que hay una relación lineal entre dos
variables y se calcula la recta de regresión apropiada, ésta se puede usar para obtener valores
de la variable explicada, a partir de valores de la variable explicativa.
Por ejemplo, si se comprueba una buena correlación lineal entre las variables X = 24
“horas de estudio semanal” e Y = “nota del examen”, con una recta de regresión (de Y sobre
X) igual a
y = 0.9 + 0.6 x
¿Qué nota puede obtener (según los datos) un alumno que estudia 10 horas semanales?