Está en la página 1de 24

UNIVERSIDAD NACIONAL DE VILLA MERCEDES

ESTADISTICA 1 –TECNICATURA EN LOGISTICA

UNIDAD VI - REGRESION LINEAL 1


0. Algunos comentarios generales sobre Regresión Lineal.
1. Regresión lineal aplicada a estudio de mercado.
2. Tablas de doble entrada. Correlación.
2.1 Definición del Coeficiente De Correlación De Pearson
2.2 Propiedades del coeficiente de correlación lineal
3. Ajuste rectilíneo (método de los mínimos cuadrados)
3.1 Supuestos
3.2 El Modelo de Regresión Lineal Simple
3.3 El Modelo de Rgresión Múltiple
3.4 Error estándar de la medición
3.5 Regresión Lineal Múltiple

0. ALGUNOS COMENTARIOS GENERALES SOBRE REGRESIÓN LINEAL

El término regresión fue utilizado por primera vez como un concepto estadístico en el año
1877 por sir Francis Galton, quien llevó a cabo un estudio que mostró que la estatura de los
niños nacidos de padres altos tendía a equipararse con la de los que tenían estatura baja, es
decir tendía a “retroceder o regresar” a la estatura media de la población, a equiparar o
equilibrar. Como si fuese una especie de fuerza de compensación.
La regresión lineal es un tema básico y muy importante para los investigadores de mercado.
Es necesaria en los estudios de satisfacción, elasticidad de precios, imagen de marca, de
candidatos políticos, planeación, pronósticos de operación, ventas, inversión, etcétera.
Desde tiempos inmemoriales el ser humano ha estado interesado predecir lo que le espera
en el futuro, lo que le ocurrirá o dejará de ocurrir si realiza tal o cual acción, y siempre observó
la sucesión de hechos motivados por otros como por ejemplo: asocia empíricamente algunos
sucesos con la ocurrencia de otros, como por ejemplo; si cantan las chicharras pronto
comenzará a llover, si hay mucho calor (sensación térmica) hay peligro de temblor.
Observaciones que muchas veces sin fundamento científico teórico han pretendido predecir
lo que ocurrirá en una variable en función de la presencia de otra variable.
Esto nos conduce a la siguiente pregunta:

¿Puede determinarse el comportamiento de un fenómeno conociendo la dirección


que sigue otro fenómeno relacionado? Y más aún ¿puede preverse lo que pasará
con una variable si se es capaz de manipular simultáneamente y de forma
interesada otra variable interviniente?

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

Llevado esto a un ámbito de estudio en Investigación de Mercados o 2


marketing, con frecuencia existe interés en estudiar situaciones como las siguientes:
 ¿Qué tan fuerte es la relación entre las ventas y los gastos en publicidad?
 ¿Hay una asociación entre la participación de mercado y el tamaño de la fuerza de ventas?
 ¿La percepción de calidad de los consumidores está relacionada con su percepción de los
precios?
 ¿Qué se espera que ocurra con el consumo de un producto o servicio determinado si se
interviene sobre los precios de adquisición o sobre la frecuencia de publicidad, o se aumenta
la cantidad de puntos de ventas por ejemplo?

Y de existir una relación entre dichas variables de interés, cuál será el modelo matemático
que mejor describe dicha asociación, surgiendo así la Teoría de Regresión y Correlación la
cual establece los fundamentos científicos teóricos para establecer un modelo que permite al
investigador predecir lo ocurrirá a una variable si se interviene sobre la otra, con un nivel de
incertidumbre acordado, significación o nivel de confianza. Se debe tener en claro que el
resultado predicho por un modelo de regresión se convertirá en una esperanza o valor
esperado, siempre y cuando el resto de las condiciones continúen iguales.
En todos los ejemplos mencionados anteriormente, deberás analizar los datos valiéndote de
la correlación y la regresión lineales para obtener información acerca de los problemas
planteados. Este análisis lo realizarás apoyándote en diagramas de dispersión, el cálculo del
coeficiente de correlación de Pearson y la ecuación de mejor ajuste.
Cabe destacar un punto esencial en el análisis, las variables involucradas no necesariamente
tienen una relación causa-efecto por lo que deberá tomarse la información obtenida
mediante esta herramienta con una óptica estrictamente estadística.
Todas estas actividades te permitirán resolver problemas donde aplicarás la correlación y
regresión lineales como instrumentos preliminares en la inferencia estadística.
A partir de ahora será mi intención explicarte la regresión de manera sencilla y mostrarte
luego una forma de graficarla para que puedas lucirte ante tus colegas y clientes.

1. REGRESIÓN LINEAL APLICADA A ESTUDIO DE MERCADO.


Para estudiar este punto comenzaremos con un ejemplo sencillo:
Intentaremos con la regresión lineal determinar que factor o variable está provocando la
variación en la variable dependiente (se llama dependiente porque dependiendo de los
valores de la independiente es el valor que va a asumir) ¿Complicado? Sigue leyendo.
Comúnmente los clientes nos estarán siempre induciendo a realizar análisis de regresión
lineal, empezaremos por la regresión lineal simple, pero te aviso que también existe la
regresión lineal múltiple.
***Suponte que eres dueño de Mercedes Fast Food y que los clientes siempre te preguntan
cuánto tiempo va a tardar en llegar su comida; para darles una respuesta aproximada vas a

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

tener que haber registrado los datos de varios de los repartidores de delibery . Has 3
registrado los datos de las últimas 10 entregas y cuentas con la siguiente tabla de abajo:

Figura 1. Entregas de repartidores. Distancia y tiempos empleados.

**Llama un cliente y te pide que le digas cuánto tiempo vas a tardar en llevarle la comida si
el mismo se encuentra a 14 kilómetros de distancia ¿Qué tiempo le dirías?
Como sos precavido justo ese dato lo tienes en la tabla de un dato registrado en uno de los
repartidores y le dices: “aproximadamente 15 minutos.
** De repente y para variar entonces entra uno de tus repartidores y te dice que acaba de
tardar 17 minutos en hacer una distancia de 14 km. ¿qué le vas a decir al próximo cliente
cuando te pregunte cuánto tiempo vas a tardar en entregarle si sabes que está exactamente
a 14 kilómetros de distancia? ¿Le dirás 15 o 17 minutos?
En ese caso sin darte cuenta estarás aplicando el concepto de promedio aritmético y
seguramente dirás que en “promedio” puede llegar a demorar 16 minutos.
Esta situación fue bastante simple pero qué tal si ahora la cosa se complica un poco más
cuánto tiempo vas a tardar en llevarle la comida a un cliente nuevo que está a 10 kilómetros
de distancia.
** Sí, ya sé estás buscando en la tabla de arriba y??... Lo encontraste? Te das cuenta que no
has hecho ninguna entrega a esa distancia por lo tanto no sabes cuánto tiempo te va a llevar
entregarla. Entonces empezamos a pensar que debe haber una especie de “fuerza
unificadora” que represente a todas las entregas….esa fuerza es un una línea que atraviesa a
todos los puntos de tus entregas anteriores!!!.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

ESA LINEA… representa el promedio (media en estadística) de los puntos 4


combinados “X” (distancia) y Y (tiempo) y das con la solución pues estimas que el tiempo de
entrega está entre el cruce de la
distancia a la que vas (10 km) en
el eje X y el tiempo de entrega
(11.5 minutos) en el que se cruza
con el eje Y.
**Por las razones anteriores a
este método estadístico se le
llama regresión lineal y simple
porque ocupa una sola variable
independiente y no
precisamente porque sea fácil.
Figura 2. Promedios de distancia y
tiempos empleados

La mayoría de las veces los problemas a los que te enfrentas no son tan claros ni tan sencillos;
en este caso, cualquiera puede entender que la distancia afecta el tiempo en que se entrega
las comidas; además los datos son pocos y es fácil manipularlos e incluso hacer una gráfica
donde puedes ver que a mayor distancia también se incrementa el tiempo.
La regresión lineal en particular y la estadística en general te ayudan a analizar problemas
más complejos donde se tienen que manejar grandes números o relaciones no tan claras. Por
ejemplo, en los estudios de satisfacción del cliente es difícil conocer cuáles variables son las
que afectan la satisfacción en general y sobre todo el saber cuánto…
Ese “cuánto” se llama coeficiente de regresión y es la cantidad que varía la variable
dependiente en función de la independiente. En otras palabras, qué tanto aumenta o
disminuye la satisfacción general cuando los niveles de las variables independientes que
pueden ser precio, calidad, atención, amabilidad, puntualidad, servicio o cualesquier otro
aspecto de tu producto o servicio disminuyen o aumentan.
A los aspectos que determinan la satisfacción en general los mercadólogos les
llaman “drivers”
Los “drivers” son claves para proporcionar una experiencia más satisfactoria al cliente; lo
que en términos prácticos significa retenerlo y que siga consumiendo tus servicios o
productos.
Ese coeficiente de regresión también se llama BETA de regresión porque se representa con la
letra griega beta. Ese beta es una de las variables que vas a determinar de manera
cuantitativa.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

5
En el gráfico que estás viendo, cada uno de
los círculos representa un “driver” que
afecta la satisfacción en general del cliente
con la línea área; el número que hay dentro
de cada círculo es el coeficiente de
regresión o beta de ese “driver”. Si sumas
estos coeficientes, se obtiene un 100%.

Figura 3. Drivers de satisfacción general

2. TABLAS DE DOBLE ENTRADA. CORRELACIÓN LINEAL

En los ejemplos mostrados en los puntos 1 y 2, pudiste ver que se trataba de tablas con doble
entrada. Una para x y otra para y. O lo que ya conoces como una variable independiente “x”
y una variable dependiente “y”. El problema es que en la realidad las variables x e y se deben
identificar.

Por ejemplo, en una tabla de pesos y alturas de 10 personas


Peso 80 82 57 63 78 65 66 67 62 58
Altura 175 180 162 157 180 173 171 168 165 165
Tabla 1: Altura versus peos

se puede suponer que la variable “Altura” influye sobre la variable “Peso” en el sentido de
que pesos (Y) grandes vienen explicados por valores grandes de altura (X),(en general).
De las dos variables a estudiar, que vamos a denotar con X e Y, vamos a llamar a la X
VARIABLE INDEPENDIENTE o EXPLICATIVA, y a la otra, Y, le llamaremos VARIABLE
DEPENDIENTE o EXPLICADA.
En la mayoría de los casos la relación entre las variables es mutua, y es difícil saber
qué variable influye sobre la otra. En el ejemplo anterior, a una persona que mide menos le
supondremos menor altura y a una persona de poca altura le supondremos un peso más
bajo. Es decir, se puede admitir que cada variable influye sobre la otra de forma natural y
por igual.
Un ejemplo más claro donde distinguir entre variable explicativa y explicada es aquel donde
se anota, de cada alumno de una clase, su tiempo de estudio (en horas) y su nota de examen.
En este caso un pequeño tiempo de estudio tenderá a obtener una nota más baja, y una nota

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

buena nos indicará que tal vez el alumno ha estudiado mucho. Sin embargo, a la 6
hora de determinar qué variable explica a la otra, está claro que el “tiempo de estudio” explica
la “nota de examen” y no al contrario, pues el alumno primero estudia un tiempo que puede
decidir libremente, y luego obtiene una nota que ya no decide arbitrariamente. Por tanto,

X = Tiempo de estudio (variable explicativa o independiente)


Y = Nota de examen (variable explicada o dependiente)

El problema de encontrar una relación funcional entre dos variables es muy complejo, ya que
existen infinidad de funciones de formas distintas. El caso más sencillo de relación entre dos
variables es la relación LINEAL, es decir que

Una vez identificadas las variables, se deberá sondear el tipo y grado de la correlación
existente entre ellas. Pero ojo se deben diferenciar algunas cosas:

Los problemas de regresión y de correlación


lineales se parecen pero difieren

.Así, por ejemplo, podemos preguntarnos si hay alguna relación entre las notas de la
asignatura Estadística I y las de Matemáticas I. Para ello debemos disponer de los datos y
comenzar por intentar graficarlos en lo que se conoce como: gráfico de dispersión.
Comenzaríamos entonces por observar la nube de puntos e imaginarnos qué tipo de función
es.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

Figura 4. Gráficos de dispersión de pesos en función de la estatura.

A pesar de la ilustración visual que ofrecen la gráfica anterior solo podemos percibir la
tendencia, mas no el grado o fortaleza de la relación, entre la variable estatura y la variable
peso. En particular, nos interesa cuantificar la intensidad de la relación lineal entre dos
variables. El parámetro que nos da tal cuantificación es el coeficiente de correlación lineal de
Pearson “r”.

2.1 DEFINICION DEL COEFICIENTE DE CORRELACION DE PEARSON


cov( x, y )
rx , y  con D( x) y D( y ) desviaciones estandar
D( x) D( y )
de x e y respectivamente y cov(x, y) es la Ec. 1
n
xi  x  yi  y 
covarianza entre x e y que se define como :

cov( x, y )  i 1
n
con : x e y las medias de x e y respectivamente Ec. 2
Otra forma de expresar el coeficiente de correlación lineal:
 X Y
 XY 
  
 n 
rx , y 
  X 2  Y 2   Y 2 
  X 2  
 n 
 n 
   Ec. 3
Con Excel :
COEF.DE.CORREL(matriz1;matriz2)

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

2.2 PROPIEDADES DEL COEFICIENTE DE CORRELACION LINEAL 8

• -1 ≤ rx,y ≤ 1
• Si rx,y está cerca de 1 la correlación lineal entre x y y es positiva, es decir están
correlacionadas positivamente
• Si rx,y está cerca de -1 la correlación lineal entre x y y es negativa, es decir están
correlacionadas negativamente
• Si rx,y está cerca de 0 la correlación lineal entre x e y no existe, es decir que x e y no
están correlacionadas. No hay correlación lineal entre las variables

Figura 5. Gráficos ilustrativos con distintos valores de correlación de r.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

Algunas consideraciones sobre el coeficiente de correlación de Pearson:

3. AJUSTE RECTILÍNEO (MÉTODO DE LOS MÍNIMOS CUADRADOS)


3.1 Supuestos: ¡Precaución! la regresión lineal simple o múltiple asume algunos supuestos
que debes revisar que se cumplan como la distribución normal de los errores, su
independencia, entre otros.

 Es importante indicar que “CORRELACIÓN NO IMPLICA CAUSACIÓN”. El que dos


variables estén altamente correlaciones no implica que X causa Y ni que Y causa X.
(Esa es una de las razones empleadas por las tabaqueras en el tema de la correlación
entre cáncer de pulmón y el hecho de fumar.)
 Pueden aparecer terceras variables que ejerzan influencias.
 Un coeficiente de correlación de Pearson igual a cero indica que no hay ningún tipo
de relación lineal entre las variables pero quizás podría haber relación no lineal.

3.2 EL MODELO DE REGRESIÓN LINEAL SIMPLE

 La variable X o independiente o predictora (está bajo el control del investigador),


la variable Y es la variable dependiente o predicha.
 En la población, la relación entre las variables X e Y debe ser aproximadamente
lineal, i.e.: y = α + βx + ε, siendo ε los residuos o sea (diferencias entre el valor
estimado por el modelo y el verdadero valor de Y ).
 Los residuos son independientes unos de otros.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

10

 Los valores de X son fijos (seleccionados previamente por el investigador).


 Para cada X, existe un conjunto de valores de Y, que deben seguir una distribución
normal (es decir, los valores de Y deben ser normales), para aplicar con validez los
procedimientos de inferencia y/o estimación.
 Los residuos se distribuyen según una Normal de media 0, i.e., ε ≈ N(0,σ 2 )
 Todas las varianzas de las subpoblaciones de Y son iguales. Los residuos tienen
varianza σ 2 constante.
Como se ha expuesto en el tema anterior, cuando se estudian dos características
simultáneamente sobre una muestra, se puede considerar que una de ellas influye sobre la
otra de alguna manera. El objetivo principal de la regresión es descubrir el modo en que se
relacionan. Teniendo ya conocimiento de la intensidad de la correlación entre las variables,
manifestada a través del diagrama de dispersión, y el coeficiente de correlación, podemos
ensayar el ajuste de un modelo estadístico que se adapte mejor a las n observaciones; lo que
lleva por nombre regresión. Uno de los procedimientos muy comunes en el ajuste regresivo
es el método de los mínimos cuadrados, que produce estimaciones con menor error
cuadrático promedio. Así, puede establecerse el modelo lineal de regresión lineal que
establece que una variable puede ser proyectada de acuerdo a una línea recta.
Dentro de los modelos causales o asociativos encontramos el análisis de regresión o
regresión lineal, que es un método con enfoque cuantitativo que nos permite pronosticar la
demanda. Agrupa una variable dependiente (la demanda) con una o más variables
independientes a través de una ecuación lineal.
Nos centraremos solamente en el Modelo de Regresión Lineal Simple, esto quiere decir que
se relaciona una variable dependiente o Variable Predictiva a otra variable independiente o
Variable Predictora. La variable independiente puede ser manipulada o fijada libremente
por el investigador mientras que la dependiente es quien reaccionará o tomará valores de
cuerdo al manejo que se haga de la variable independiente.

Así se establece el modelo de regresión lineal con la ecuación de la línea recta:

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

Ec. 1 11
Esta es la ecuación de la recta. En ella:
 La 1 es la inclinación de la recta.
 La 0 es la secante o la altura en la que la recta corta al eje y. Ordenada al origen.
 La X es nuestra variable independiente.
 La Y es nuestra variable dependiente, nuestro pronóstico calculado para un periodo.

Yi = 0 + 1 Xi + ei
Ec. 4

O puede aparecer de esta forma:


Donde 0 y 1 son denominados parámetros de regresión lineal poblacionales y e
es el término del error.
Lo primero es estimar los parámetros. Lo podemos lograr con el método de mínimos
cuadrados, que nos permite encontrar la recta que mejor se ajusta a un conjunto de datos
dados. Como se puede ver en ambos diagramas, ninguna recta es capaz de pasar por todos
los puntos, y seguir siendo recta. De todas las rectas posibles, la RECTA DE REGRESIÓN DE
Y SOBRE X es aquella que minimiza un cierto error, considerando a X como variable
explicativa o independiente y a Y como la explicada o dependiente.
Tenemos n pares (xi, yi) para las cuales es razonable suponer que la regresión de y sobre x es
lineal y queremos determinar la línea (la ecuación de la línea) que en algún sentido
proporcione el mejor ajuste. Hay varias maneras en que podemos interpretar la palabra
“mejor” y el sentido que le daremos aquí lo explicaremos como sigue. Si predecimos y por
medio de la ecuación: donde 0 y 1 son constantes.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

12

Figura 6. Ajuste de
puntos mediante
una recta por
Regresión Lineal.

ei = error al predecir el valor de y correspondiente a la x dada es:


ei  yi  yˆ
La idea entonces es determinar a y b de manera que estos errores sean tan pequeños
como sea posible.
Aplicando derivada de y con respecto a b se minimizan los errores
n n n

 ei2   ( yi  yˆi ) 2   ( yi  (a  bxi ))2


i 1 i 1 i 1

y se llega a encontrar la ecuación de la línea recta que mejor ajuste a los datos. Esto se
conoce como el método de los mínimos cuadrados, y da valores para a y b (estimadores
de α y β).

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

13
Un ejemplo de regresión lineal para pronosticar la
demanda:
Las ventas de la empresa “EVENTOS MUSICALES
MERCEDINOS” en millones de pesos durante los últimos 10
trimestres son las siguientes:
En nuestro caso, este conjunto está dado por las ventas
trimestrales (variable dependiente). La variable
independiente es el tiempo.

Vamos entonces a la siguiente fórmula para determinar a y b:

Ec. 5
Siendo
 La y “minúscula” es el valor y de cada punto de datos.
 La x “minúscula” es el valor y de cada punto de datos.
 La n es el número de punto de datos. La y “minúscula” es el valor y de cada punto
de datos
 𝑦̅ Es el promedio de los valores de y
 𝑥̅ Es el promedio de los valores de x
 ∑𝑛𝑖=1 𝑥. 𝑦 es hacer el produto de cada valor x por cada valor y de la tabla, y luego
sumar todos los valores de la coluna.
 ∑𝑛𝑖=1 𝑥 2 es elevar los valores experimentales de x al cuadrado y luego hacer la
suma de los valores de la columna
 n 𝑥̅ 2 es al promedio de x elevado al cuadrado multiplicarlo por n

̅ − 𝒃. 𝒙
𝒂=𝒚 ̅ Ec. 6
Conocidas las ecuaciones y el papel de las variables, vamos a calcular el pronóstico con
regresión lineal:
En la siguiente se encuentran los cálculos realizados para los 12 trimestres según lo
requerido por las ecuaciones:

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

14

Con los valores de la última fila de la tabla, podemos calcular a y b, con los cuales logramos
calcular los valores de la última columna (Y) que es la recta que más se ajusta a la
Demanda y.
Veamos entonces:

O sea que nos quedaría una expresión para la recta de la siguiente forma:
Y = a + bX para cualquier y  Yi = 72.929 + 63.657 Xi
Podríamos ahora hacer una estimación para el trimestre 13 y luego hacerlo extensivo al
trimestre 14 y para el trimestre 15.
Y=63,657(14)+72,894=964.09
Y=63,657(15)+72,894=1027.75
Eso tiene el siguiente aspecto:

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

15

Como imaginamos, en los casos reales, las predicciones perfectas son prácticamente
imposibles y lo que necesitamos es una medida que describa cómo o cuán precisa es la
predicción de Y en función de X o, inversamente, qué inexacta puede ser la estimación.
Con INFOSTAT:
1) Cargar la tabla con: archivo=> Nueva tabla=> Edición=> Pegar con nombre de
columna
2) Estadísticas=>Regresión lineal => Variable dependiente : Ventas=> Variable
regresora: Trimestres
3)
Análisis de regresión lineal

Variable N R² R² Aj ECMP AIC BIC


Ventas 12 0.95 0.95 4313.93 133.95 135.41

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows
VIF
const 72.89 33.72 -2.24 148.03 2.16 0.0560
Trimestres 63.66 4.58 53.45 73.87 13.89 <0.0001 193.02
1.00

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo. 579472.79 1 579472.79 193.02 <0.0001
Trimestres 579472.79 1 579472.79 193.02 <0.0001
Error 30021.88 10 3002.19
Total 609494.67 11

Cuadro 1: Resultados de la regresión lineal aplicados al problema de “Músicos Mercedinos”


El Cuadro 1 tiene 3 tablas. El encabezamiento indica que la variable dependiente es Ventas
(mm), que el número de pares de datos utilizados es 12, que el coeficiente de determinación

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

(R²) es 0,95, que su versión ajustada (R² Aj) también da un valor de 0,95, que el 16
error cuadrático medio de predicción (ECMP) es 4313.93 y que los criterios AIC y BIC
producen valores de 133.95 y 135.41
Más adelante volveremos sobre este encabezamiento. La segunda tabla contiene la
estimación del modelo. La ordenada al origen es (const 0 ), significaría que Ventas
equivaldría 72.89 a un tiempo inicial cero. Muchas veces la interpretación física de la
ordenada al origen puede no tener sentido, pero la presencia de la ordenada en el modelo es
necesaria para el modelo a pesar de lo paradójica que resulte su interpretación.
El parámetro de mayor interés en este ejemplo es la pendiente de la recta ajustada. La
pendiente estimada aparece en la línea correspondiente a la variable regresora (Trimestres).
Su valor es 63.66. Es un punto importante del análisis de regresión establecer si la pendiente
verdadera es distinta o no de cero.
La hipótesis nula es H0: 
Si  fuera cero entonces diríamos que no importa cuál sea el trimestre del perfil analizado
pues el contenido de Ventas sería siempre constante. En la columna de valores p, el valor p
correspondiente a la pendiente es <0,0001. Esto se interpreta diciendo que la probabilidad
de obtener una estimación 63.66 unidades o más en cualquier sentido es, para los datos
examinados, menor que 1 en 10000 si el verdadero valor de la pendiente fuera cero. Esto
implica, bajo los criterios clásicos de la inferencia estadística, que la pendiente de 63.66 es
estadísticamente distinta de cero y por lo tanto a medida que los trimestres avanzan las
Ventas aumentan.
Otro valor importante es el que figura como R2 La tercera parte de la salida del análisis de
regresión corresponde a una tabla de análisis de la varianza para el modelo de regresión,
donde figuran las sumas de los cuadrados que luego se usan para calcular el coeficiente de
determinación y el coeficiente de determinación ajustado. En este ejemplo R2=0,95, diremos
que el aumento de las ventas se explica por el 95% de la variabilidad observada cuando
avanzan los trimestres.

QUEDA CLARO QUE AL NIVEL DE SIGNIFICACIÓN DEL 1% (0.01) EL p valor es < 0.01 con
lo cual se rechaza la hipótesis nula que dice que la recta tiene pendiente igual a cero .

Con los datos encontrados se construye el modelo de la siguiente manera:

Y= 0 + 1. X Y= Ventas ; X= Trimestres

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

Ventas=  +  X 17

Con EXCEL:
EJECUCIÓN:
1) Cambiar los mínimos en "opciones de eje" haciendo doble clic sobre las
graduaciones de ejes horizontales y verticales.
2) Haciendo clic sobre los puntos con el lado derecho del mouse, hacemos clic
y optamos por "agrega línea de tendencia"
3) Le decimos que agregue ecuación y que nos dé el valor de R2.

And THAT IS ALL!!!


OTRA FORMA:
= COEF.DE.CORREL(X,Y)
Pendiente de la recta
=PENDIENTE(x,y)
Ordenada al origen
=INTERSECCION.EJE(X,Y)
PRONOSTICO Por ejemplo para rentas futuras
= PRONOSTICO(Número deseado;X, Y) Por ejemplo:
PRONOSTICO(14;C12:J12;C11:J11)

Otro ejemplo:
Para la economía argentina, disponemos de los datos anuales redondeados sobre consumo
final de los hogares a precios corrientes (Y) y renta nacional disponible neta (X), tomados de
la Contabilidad Nacional de Argentina, para el período 1995-2002, ambos expresados en miles
de millones de pesos.

Año 1995 1996 1997 1998 1999 2000 2001 2002


Yt 258.6 273.6 289.7 308.9 331 355 377.1 400.4
Xt 381.7 402.2 426.5 454.3 486.5 520.2 553.3 590

Considerando que el consumo se puede expresar como función lineal de la renta (Yt=a+b·Xt),

**¿Cuál es la variable dependiente y cuál la independiente?

**Grafique y obtenga el coeficiente de correlación y explique si hay correlación lineal o no.

**Determinar la recta de regresión e interpretar sus parámetros. ¿Cuál es el poder explicativo


del modelo (bondad de ajuste)?

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

18

3.3 REGRESIÓN LINEAL MÚLTIPLE


La ventaja de utilizar modelos de regresión múltiple consiste en la posibilidad de estudiar
el efecto de varias regresoras simultáneamente.
El modelo de regresión múltiple no es más que una generalización a varias variables de un
modelo de regresión simple. La ecuación de la regresión lineal simple es:
y  a  bx

Donde “y“ es la variable dependiente y “x“ es la variable independiente. Pero esta


ecuación se puede generalizar para el caso en que haya más de una variable independiente.
Supongamos que haya 3 variables independientes: x1, x2, x3. Podemos construir la ecuación:
Cada variable independiente xi tiene un coeficiente de regresión o pendiente propia
𝛽𝑖 .
𝑦 = 𝛽0 + 𝛽1 . 𝑥1 + 𝛽2 𝛽𝑥2 + 𝛽3 𝑥3 + 𝛽4 𝑥4 … + 𝑒

Donde y es la variable de interés que vamos a predecir, también llamada variable


respuesta o variable dependiente
x1, x2, …, xn son variables independientes, explicativas o de predicción
β1, β2, …, βk son los parámetros desconocidos que vamos a estimar
ε es el error aleatorio, residuo o perturbación, que representa el efecto de todas las
variables que pueden afectar a la variable dependiente y no están incluidas en el modelo de
regresión.
𝛽1 : 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥1
𝛽2 : 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥2
𝛽3 : 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛 𝑝𝑎𝑟𝑎 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑥3

Este coeficiente se interpretará como el cambio en la variable dependiente (“y”), por


unidad de cambio en cada variable independiente (x1, x2 ó x3) a igualdad de nivel de las otras
variables independientes. Es imposible interpretar una regresión si no se conocen las

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

unidades de medida de cada variable. Esto se aplica tanto a la regresión simple 19


como a la múltiple.
Supongamos que la Tensión Arterial Sistólica (TAS, mmHg) de una muestra de
adultos con alto riesgo cardiovascular se utiliza como variable dependiente “y” intentando
predecirla a partir de tres variables independientes, x1, x2 y x3 que corresponden
respectivamente a la edad en años (EDAD: x1), el índice de masa corporal en kg/m2 (IMC: x2)
y el sexo (SEXO: x2, codificado como sexo=0 para hombres y sexo=1 para mujeres). Resulta la
siguiente ecuación:
y  85  0,7x1  0,6x 2  4,9x 3

Y sustituyendo xi por sus nombres, tendremos:


TAS  85  (0,7  EDAD)  (0,6  IMC)  (- 4,9  SEXO)

La interpretación será que por cada año más de edad, la TAS aumentará en 0,7
mmHg por término medio, independientemente de cuál sea el sexo y el IMC. Por cada kg/m2
más de IMC subirá la TAS en 0,6 mmHg por término medio (en ambos sexos y sea cual sea
la edad). La diferencia entre hombres y mujeres será de 4,9 mmHg menos en las mujeres, a
igualdad de edad y de IMC. Quizás esto último es más difícil de entender, se aclarará si
construimos dos ecuaciones, una para hombres y otra para mujeres, sustituyendo la variable
"SEXO" por sus respectivos valores. La variable sexo se codificó así:
Hombres: SEXO= 0
Mujeres: SEXO= 1
En los hombres, la ecuación será: TAS  85  (0,7  EDAD)  (0,6  IMC)
En las mujeres, la ecuación será: TAS  85  (0,7 EDAD)  (0,6 IMC) - 4,9
Por lo tanto, las mujeres, a igualdad de edad e IMC, tendrán una TAS 4,9 mmHg
inferior. Es posible introducir variables categóricas (sexo en el ejemplo) en el modelo.

Un ejemplo con INFOSTAT:


Una empresa desea estimar los gastos de una familia tipo del cono urbano de Buenos
Aires, en base a la información que proporcionan las variables regresoras X1 =“ingresos
mensuales” y X2 =“número de miembros de la familia”. Para ello se recoge una muestra
aleatoria simple de 16 familias cuyos resultados son los de la tabla adjunta; Y= “Gastos
mensuales en comida”. (El gasto e ingreso, están dados en cientos de miles de pesos)

Estime un modelo de regresión lineal predictivo. Diga cuánto gastaría una familia de 3
niños que ganara 85000 pesos.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

20
Ingresos(x1) Gastos (y) Tamaño(X2)
43 21 3
31 11 4
32 9 5
46 16 3
125 62 5
44 23 3
52 18 4
29 10 5
129 89 4
35 24 2
35 12 4
78 47 3
43 35 2
47 29 3
38 14 4
52 48 5

RESULTADOS DE INFOSTAT:

Variable N R² R² Aj ECMP AIC BIC


Gastos (y) 16 0.85 0.83 159.17 121.13 124.22

Coeficientes de regresión y estadísticos asociados

Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows


VIF
const 2.81 9.28 -17.25 22.86 0.30 0.7671

Ingresos(X1) 0.68 0.08 0.51 0.85 8.61 <0.0001 75.16 1.04


Tamaño(X2) -2.67 2.39 -7.84 2.49 -1.12 0.2841 2.25 1.04

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo. 6320.27 2 3160.14 37.25 <0.0001
Ingresos(x1) 6291.02 1 6291.02 74.16 <0.0001
Tamaño(X2) 105.91 1 105.91 1.25 0.2841
Error 1102.73 13 84.83
Total 7423.00 15

𝑦 = 𝛽0 + 𝛽1 . 𝑥1 + 𝛽2 𝛽𝑥2 + 𝛽3 𝑥3 + 𝛽4 𝑥4 … + 𝑒

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

21

𝑌(𝐺𝑎𝑠𝑡𝑜𝑠 ) = 2.81 + 0.68. 𝑋1 − 2.67𝑋2

Significa que un 68% de los ingresos se destinan a gastos y hay una razón inversa con el
número de miembros
Tarea a desarrollar: Graficar la relación entre gastos y número de integrantes de la familia

3.4 ERROR ESTANDAR DE LA MEDICIÓN

Un valor muy utilizado cuando trabajamos con un análisis de regresión, es el cálculo del
coeficiente de correlación.
El coeficiente de correlación dará una medida de asociación entre las variables X y Y.

Dicho de otra forma, el coeficiente correlación en la división entre la covarianza y el producto


de las desviaciones estándar de ambas variables.
Así pues, si queremos ver la correlación entre la demanda y lo pronosticado en periodos
anteriores (desde el periodo 1 hasta el 12), usamos la función COEF.DE.CORREL de excel.
La función requiere dos datos de entrada:

 Matriz 1: Señalamos las demandas por trimestre (para el ejemplo mencionado)


 Matriz 2: Señalamos los pronósticos por mes.

El resultado de este ejercicio es r=0,975. Esto indica que la correlación es muy fuerte y positiva
porque está cercana a 1.
Sin embargo, no todas las relaciones son tan ideales, en el común de los casos –1< r <1.
Recordamos que Empíricamente se afirma que:

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

22

Existen desde luego, pruebas estadísticas que miden la bondad de un coeficiente de


correlación con un determinado nivel de confiafilidad, que será un tema a tratar
próximamente.
En otras palabras, en el ejemplo citado, nos conviene seguir usando este método de
pronóstico para futuros períodos.
3.5 CALIDAD DEL AJUSTE. COEFICIENTE DE DETERMINACION
Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el
estudio de la regresión lineal entre las variables. Normalmente, la variable explicativa no
explica (valga la redundancia) al 100% los resultados que se observan en la variable
explicada.
El único caso en el que una variable explica al 100% a la otra variable es aquel donde
los puntos de la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto
de Y. Pero ese no es el caso general. Vamos a cuantificar la calidad de la explicación de Y por
X mediante el COEFICIENTE DE DETERMINACIÓN.
Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la
varianza de la X (independiente), pero sí por la de Y, por estar influenciada por la otra
variable. La varianza de Y está generada, de una parte, por los datos de X (es decir, por la
varianza), y de otra parte por causas desconocidas (a no ser que los datos formen una línea
recta).
El coeficiente de determinación va a ser el % de varianza de Y que se puede explicar por X, y
se le suele llamar CALIDAD DEL AJUSTE, porque valora lo cerca que está la nube de puntos
de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de puntos a la
recta de regresión). A mayor porcentaje mejor es el modelo usado para predecir el
comportamiento de la variable Y.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

También se puede entender este coeficiente de determinación como el porcentaje 23


de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y siempre
es igual al cuadrado del coeficiente de correlación (r).

El cuadrado del valor r multiplicado por 100 se denomina coeficiente de


determinación y se interpreta como el porcentaje de variabilidad que explica el
modelo.

R2 = r 2 Es una medida de la proximidad o de ajuste de la recta de regresión a la


nube de puntos. También se le denomina bondad del ajuste.

1− R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de
regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos. Por
ejemplo.

Si R2 = 1 indicará que el modelo explicará toda la variabilidad en Y . Si R2 = 0 indicará que el


modelo de relación lineal entre X e Y no es apropiado. Y un valor intermedio, por ejemplo R2
= 0,64 se interpretaría como que el modelo de las variable(s) independiente(s) X escogidas
explica un 64 % de la variación en la variable dependiente Y y el 36 % restante se explicaría
por otros mecanismos (otras variables, variación inherente etc.)
Un ejemplo: si R2 = 86% para unas variables X e Y, podemos decir que la calidad del
ajuste es bastante alta, aunque no sabemos si la recta de regresión es creciente o decreciente.
Otro ejemplo: si conocemos el coeficiente de correlación lineal, r = - 0.77, entre dos variables
X e Y, ya sabemos que la recta de regresión es decreciente (por el signo negativo de r), y
calculando R2 = r2 · 100 = 59.29% tenemos una calidad de ajuste media (no es muy pobre,
pero tampoco se puede calificar de buena).

4.4. Predicciones. Usos y abusos

El primer objetivo de la regresión era poner de manifiesto una relación existente entre dos
variables estadísticas. Una vez se constata, por ejemplo, que hay una relación lineal entre dos
variables y se calcula la recta de regresión apropiada, ésta se puede usar para obtener valores
de la variable explicada, a partir de valores de la variable explicativa.

Autora: Mg. Ing. Viviana Myriam Mercado


UNIVERSIDAD NACIONAL DE VILLA MERCEDES
ESTADISTICA 1 –TECNICATURA EN LOGISTICA

Por ejemplo, si se comprueba una buena correlación lineal entre las variables X = 24
“horas de estudio semanal” e Y = “nota del examen”, con una recta de regresión (de Y sobre
X) igual a

y = 0.9 + 0.6 x

se puede plantear la siguiente pregunta:

¿Qué nota puede obtener (según los datos) un alumno que estudia 10 horas semanales?

Y la respuesta es tan sencilla como calcular y, sustituyendo en la ecuación de la recta


x = 10, resultando y = 6.9. El coeficiente de correlación (o el de determinación) lineal es el
dato que, si es grande (próximo a 1 ó –1 si es la r, o próximo a 100% si es R2), nos indicará
que la predicción obtenida es FIABLE, lo cual es lógico pues R2 indicaba la calidad del ajuste
de la nube de puntos a la recta. Así pues, la FIABILIDAD de una predicción obtenida
mediante la recta de regresión se puede medir con el coeficiente de determinación R2.
PERO CUIDADO!!!
En el momento de hacer predicciones hay que tener ciertas precauciones, pues es
posible que se obtengan resultados absurdos. Según la recta de regresión anterior, un
alumno que estudie 20 horas por semana (x = 20) tendría un resultado de 12.9 puntos en su
examen, lo cual no tiene sentido si se evalúa sobre 10. La limitación de la predicción estriba
en que sólo se puede realizar para valores de X que estén situados entre los valores de X de
la tabla de datos inicial.

Autora: Mg. Ing. Viviana Myriam Mercado

También podría gustarte