Está en la página 1de 9

Estadística y

pronósticos
para la toma
de decisiones

Regresión lineal simple y


regresión lineal múltiple

Tema 9. Estimadores de
coeficientes por el método
de mínimos cuadrados y
análisis de correlación
Introducción
En muchas empresas (especialmente en las más pequeñas), el proceso es subjetivo, pues involucra métodos
empíricos, intuición y años de experiencia. También hay muchos modelos de pronóstico cuantitativos tales como
los de regresión. El conjunto de técnicas que se utilizarán para construir y evaluar modelos que describen la
relación entre variables y para formular inferencias basadas en los modelos obtenidos se conocen colectiva-
mente como técnicas de regresión, y al análisis estadístico que resulta de aplicarlas se le denomina análisis
de regresión. En general, el análisis de regresión permite estudiar la influencia de una o más variables que se
denominan independientes sobre otra que se llaman dependiente. Si se incluyen dos o más variables inde-
pendientes se tiene un modelo de regresión múltiple.

Por ejemplo, una compañía de bienes raíces puede desarrollar un modelo para elaborar una lista de precios de
casas con base en el tamaño de estas y su antigüedad. Se selecciona una muestra de las viviendas que se han
vendido recientemente en la zona y se registra el precio de venta, el área de construcción y su antigüedad. Cu-
ando todas estas variables son consideradas en conjunto en un modelo de regresión múltiple, se puede mejorar
la capacidad para estimar el valor del mercado en comparación a un modelo que utiliza solo una variable inde-
pendiente. Ahora, supóngase que se tiene una ecuación de predicción multivariable que obtiene predicciones
precisas de los valores de Y para valores dados de las X; con esta ecuación serías capaz de predecir valores
de la variable dependiente con diferentes valores de X.

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
02
Explicación
En este tema, verás cómo analizar la relación entre variables cuantitativas.

A continuación, investigaremos la naturaleza de la relación entre las variables y construir modelos que la de-
scriban.

El conjunto de técnicas que se utilizarán para construir y evaluar modelos que describen la relación entre
variables que permitan formular inferencias basadas en los modelos obtenidos se conocen como técnicas de
regresión, mientras que al análisis estadístico que resulta de aplicarlas se le denomina análisis de regresión.

Mediante el modelo de regresión lineal simple se pretende describir la relación entre dos variables, una llamada
variable independiente o predictora y otra llamada variable dependiente, además de realizar inferencias sobre
el comportamiento de la variable dependiente. En lo sucesivo se denotará por X a la variable independiente y
por Y a la dependiente.

Modelos

El trabajo para desarrollar una ecuación matemática puede ser bastante difícil, debido a que se necesita tener
una idea de la relación entre cada una de las variables independientes y la variable dependiente. Algunos mod-
elos ya anteriormente vistos en otros cursos son:
• F = ma, donde F = Fuerza, m = Masa y a = aceleración
• S = at2/2, donde S = distancia, t = tiempo y a = aceleración de la gravedad
• En otros cursos, pueden haberse visto las siguientes ecuaciones:
• Costo total = Costos Fijos + (Costos variables x Número de unidades que se producen)

Estos son todos ejemplos de modelos determinísticos, así llamados debido a que tales ecuaciones permiten de-
terminar el valor de la variable dependiente (lado izquierdo de la ecuación) por medio del valor de las variables
independientes.

Sin embargo, en muchas situaciones prácticas de interés, los modelos determinísticos son inadecuados. Por
ejemplo, ¿es razonable creer que puede determinarse el precio de venta de una casa con base en su tamaño?
Sin lugar a duda, el tamaño de una casa afecta su precio, pero muchas otras variables (algunas de las cuales
pueden no ser medibles) también tienen influencia en el precio. Lo que debe incluirse en muchos modelos prác-
ticos es un método que represente lo que se denomina aleatoriedad, lo cual es un proceso de la vida real. Tal
modelo es un modelo estadístico.

Para crear un modelo estadístico, se inicia con un modelo determinístico que aproxime la relación que se quiere
modelar, luego se agrega un término aleatorio que mide el error del componente determinístico. Supóngase
que, en el ejemplo anterior, el agente de bienes raíces sabe que el costo de construcción es de $2,000 por metro
cuadrado y que la mayoría de los lotes se venden en $250,000.

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
03
El precio aproximado sería:
Y = 250,000 + 2,000X
Donde

Y = precio de venta
X = tamaño de la casa en metros cuadrados

El precio de una casa de 150 metros cuadrados se estimaría en:


Y = 250,000 + 2,000 (150) = 550,000

Sin embargo, el precio de venta no sería exactamente de $550,000. Los precios podrían variar de $400,000 a
$700,000. En otras palabras, el precio no sería adecuado. Para representar esta situación correctamente, se
debería utilizar el modelo estadístico:
Y = 250,000 + 2,000X + ε

Donde ε (la letra griega épsilon) representa el término aleatorio (también denominado la variable del error), esto
es, la diferencia entre el precio real de venta y el precio estimado basado en el tamaño de la casa.

De este modo, el término aleatorio toma en cuenta todas las variables medibles y no medibles, que no son parte
del modelo. El valor de ε variará de una venta a otra, aunque X permanezca constante. Esto es, las casas de
exactamente el mismo tamaño se venderán en diferentes precios debido a las diferencias en localidad y número
de recámaras, como otras variables.

En este módulo y en el siguiente, se utilizarán solamente modelos estadísticos. Por lo pronto se restringirá el
número de variables independientes a uno. El modelo que se utilizará será el modelo lineal de primer orden,
algunas veces denominado modelo de regresión lineal simple.

Modelo de regresión lineal simple:

Y = β0 + β1 X + ε
Donde:
Y = variable dependiente
X = variable independiente
β0 = intersección con el eje de las Y
β1 = pendiente de la línea de regresión
ε = variable del error

El objetivo de este modelo es analizar la relación entre dos variables, X y Y, ambas de carácter cuantitativo. Para
definir las relaciones entre las variables X y Y se necesita conocer el valor de los coeficientes β0 y β1 del modelo
lineal; sin embargo, estos coeficientes son parámetros poblacionales, los cuales son casi siempre desconoci-
dos. Para estimarlos, se extrae una muestra aleatoria de la población de interés y se calculan las estadísticas
muestrales que se necesitan.

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
04
Debido a que β0 y β1, representan los coeficientes de una línea recta, sus estimadores se basan en una línea
recta dibujada a través de los datos muestrales. El primer paso para determinar si existe una relación entre dos
variables, es examinar la gráfica de los datos observados en un diagrama de dispersión, en donde visualmente
se pueden identificar patrones que indiquen si las variables están relacionadas. Si esto sucede, puede verse
qué tipo de ecuación de estimación describe esta relación. Se utiliza el método de mínimos cuadrados para
dibujar la línea que minimiza la suma de los cuadrados de los residuos entre los puntos y la línea. Las ecuacio-
nes, que se obtienen por medio de cálculo, se presentan enseguida:

( ∑ X )( ∑ Y )
∑ XY − n ∑ XY − nXY
b1 = =
( ∑ X2 ) ∑ X − n ( X)
2
2

∑X 2

n
b0 = Y − b1 X

Se puede demostrar que b0 y b1 son estimadores sin sesgar de β0 y β1 respectivamente. Se utilizará el método
de mínimos cuadrados para producir la línea de regresión:

 = β + β X
Y 0 1

= b0 + b1X
Suposiciones en el modelo de regresión lineal simple

1. Y es una variable aleatoria cuya distribución probabilística depende del valor de X.


2. La ecuación de regresión es una línea recta.
3. Independencia.
4. Homogeneidad de varianzas.
5. Normalidad.

Coeficiente de correlación

El coeficiente de correlación muestral, denotado por “r”, mide la intensidad o grado de la asociación entre X y Y,
se obtiene mediante la expresión:
Sx
r = b1
Sy

En donde Sx es la desviación estándar de X y Sy es la desviación estándar de Y.

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
05
El coeficiente de correlación “r” siempre estará entre -1 y +1.
La pendiente b1 tiene el mismo signo que el coeficiente de correlación r.
• Si b1 = 0 entonces r = 0, se dice que no existe asociación lineal.
• Si b1 > 0 entonces r > 0, se dice que existe una asociación lineal positiva.
• Si b1 < 0 entonces r < 0 y se dice que existe una asociación lineal negativa.

Comparaciones entre b1 y r
La correlación no tiene unidades La pendiente b1 sí tiene

La correlación está entre -1 y +1 La pendiente b1 puede tomar cualquier valor

Supóngase que se una empresa está interesada en la relación que existe entre la antigüedad de un camión y
los gastos anuales de reparación que debe esperar. Con el fin de determinar esta relación, se ha reunido infor-
mación de cuatro camiones de la empresa; la información se presenta enseguida.

Antigüedad del camión Gastos de reparación durante


en años (X) el último año miles (Y)
5 7
3 7
3 6
1 4

El primer paso para calcular la recta de regresión de este problema es organizar los datos como se presentan
a continuación, lo cual permitirá sustituirlos directamente en las ecuaciones para encontrar la pendiente b1 y la
ordenada al origen b0.

Antigüedad del Gastos de reparación durante el


XY X2 Y2
camión en años (X) último año en miles (Y)
5 7 35 25 49
3 7 21 9 49
3 6 18 9 36
1 4 4 1 16
∑ x = 12 ∑ Y = 24 ∑XY =78 ∑X2 = 44 ∑Y2 = 150
X=3 Y=6

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
06
La pendiente es:
b1 =
∑ XY − nXY
∑ X − n ( X)
2
2

78 − 4 ( 3 )( 6 )
=
44 − ( 4 )( 3 )
2

78 − 72
=
44 − 36
6
=
8
= 0.75
Pendiente de la línea
La ordenada al origen es:
b0 = Y − b1 X
= 6. ( 0.75 )( 3 )
= 6 − 2.25
= 3.75

Ordenada al origen
Para obtener la ecuación de estimación que describe la relación entre la antigüedad de un camión y sus gas-
tos anuales de reparación, se sustituyen los valores de b0 y b1 en la ecuación general de la línea recta:

y = β 0 + β 1X
= b0 + b1X
= 3.75 + 0.75X
La pendiente de b1 es 0.75, lo cual significa que por cada unidad adicional en antigüedad (años), el gasto se
incrementa (en miles) en 0.75 ($750), en promedio.

b0 muchas veces no tiene interpretación práctica. En este caso tiene un valor de 3.75.
Técnicamente, la b0 es el punto en el cual la línea de regresión y el eje y se interceptan. Esto significaría que
cuando X=0 (es decir, cuando no existe antigüedad) el precio de mantenimiento es de 3,750 (puesto que los
datos originales son en miles de $).

Habría la tentación de interpretar esto como el precio de reparación cuando no tienen antigüedad los camio-
nes. Sin embargo, en este caso, la interpretación quizá no tenga sentido, debido simplemente a que no se
incluyen camiones con una antigüedad de cero años. Como regla general, no se debe determinar el valor de
Y para un valor de X que está fuera del rango de exploración de X. En este ejemplo, el menor y el mayor valor
de X son 1 y 5, respectivamente, y, debido a que X=0 no está en el intervalo, no se puede interpretar el valor
de Y cuando X=0.

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
07
El coeficiente de correlación muestral se obtiene con la siguiente expresión:

Sx
r = b1
Sy

Como puede verificarse del ejemplo anterior: b1 = 0.75

∑ x = 12 ∑ y = 24 ∑ XY = 78 ∑X 2
= 44 ∑Y 2
= 150
X=3 Y=6

( )
2

Sx =
∑X 2
−n X
=
44 − 4 ( 3 )
2

=
8
= 1.6330
n −1 3 3

∑Y − n(Y) 150 − 4 ( 6 )
2 2 2
6
Sy = = = = 1.4142
n −1 3 3

Por lo que:
1.6330
r = 0.75 = 0.8660
1.4142

Coeficiente de determinación

El coeficiente de determinación R2, se utiliza a veces para juzgar la adecuación o ajuste del modelo. R2 es
simplemente el cuadrado del coeficiente de correlación entre X y Y.

En el presente caso, el coeficiente de determinación es R2 = (r)2 = (0.8660)2 = 0.7500, o como es más común
expresarlo, en porcentaje, 75%, lo cual se interpreta como la variabilidad de Y (gasto en mantenimiento) que se
explica por la X (los años de antigüedad).

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
08
Checkpoint
Antes de dar por concluido el tema, asegúrate de comprender:
• La interpretación y cálculo de los coeficientes de regresión.

• El cálculo e interpretación del coeficiente de determinación.

Referencias bibliográficas
Hanke, J. E., y Wichern, D. W. (2010). Pronósticos en los negocios (9ª ed.). México: Pearson.

Levin, R., y Rubin, D. (2010). Estadística para administración y economía (7ª ed.). México. Pearson
educación.

Rodríguez, J., Pierdant, E., y Rodríguez, C. (2016). Estadística para administración (2ª ed.). México:
Editorial Patria.

Tema 9. Estimadores de coeficientes por el método de mínimos cuadrados y análisis de correlación


Derechos de Autor Reservados. ENSEÑANZA E INVESTIGACIÓN SUPERIOR A.C. (UNIVERSIDAD TECMILENIO )
®
09

También podría gustarte