Documentos de Académico
Documentos de Profesional
Documentos de Cultura
pronósticos
para la toma
de decisiones
Tema 9. Estimadores de
coeficientes por el método
de mínimos cuadrados y
análisis de correlación
Introducción
En muchas empresas (especialmente en las más pequeñas), el proceso es subjetivo, pues involucra métodos
empíricos, intuición y años de experiencia. También hay muchos modelos de pronóstico cuantitativos tales como
los de regresión. El conjunto de técnicas que se utilizarán para construir y evaluar modelos que describen la
relación entre variables y para formular inferencias basadas en los modelos obtenidos se conocen colectiva-
mente como técnicas de regresión, y al análisis estadístico que resulta de aplicarlas se le denomina análisis
de regresión. En general, el análisis de regresión permite estudiar la influencia de una o más variables que se
denominan independientes sobre otra que se llaman dependiente. Si se incluyen dos o más variables inde-
pendientes se tiene un modelo de regresión múltiple.
Por ejemplo, una compañía de bienes raíces puede desarrollar un modelo para elaborar una lista de precios de
casas con base en el tamaño de estas y su antigüedad. Se selecciona una muestra de las viviendas que se han
vendido recientemente en la zona y se registra el precio de venta, el área de construcción y su antigüedad. Cu-
ando todas estas variables son consideradas en conjunto en un modelo de regresión múltiple, se puede mejorar
la capacidad para estimar el valor del mercado en comparación a un modelo que utiliza solo una variable inde-
pendiente. Ahora, supóngase que se tiene una ecuación de predicción multivariable que obtiene predicciones
precisas de los valores de Y para valores dados de las X; con esta ecuación serías capaz de predecir valores
de la variable dependiente con diferentes valores de X.
A continuación, investigaremos la naturaleza de la relación entre las variables y construir modelos que la de-
scriban.
El conjunto de técnicas que se utilizarán para construir y evaluar modelos que describen la relación entre
variables que permitan formular inferencias basadas en los modelos obtenidos se conocen como técnicas de
regresión, mientras que al análisis estadístico que resulta de aplicarlas se le denomina análisis de regresión.
Mediante el modelo de regresión lineal simple se pretende describir la relación entre dos variables, una llamada
variable independiente o predictora y otra llamada variable dependiente, además de realizar inferencias sobre
el comportamiento de la variable dependiente. En lo sucesivo se denotará por X a la variable independiente y
por Y a la dependiente.
Modelos
El trabajo para desarrollar una ecuación matemática puede ser bastante difícil, debido a que se necesita tener
una idea de la relación entre cada una de las variables independientes y la variable dependiente. Algunos mod-
elos ya anteriormente vistos en otros cursos son:
• F = ma, donde F = Fuerza, m = Masa y a = aceleración
• S = at2/2, donde S = distancia, t = tiempo y a = aceleración de la gravedad
• En otros cursos, pueden haberse visto las siguientes ecuaciones:
• Costo total = Costos Fijos + (Costos variables x Número de unidades que se producen)
Estos son todos ejemplos de modelos determinísticos, así llamados debido a que tales ecuaciones permiten de-
terminar el valor de la variable dependiente (lado izquierdo de la ecuación) por medio del valor de las variables
independientes.
Sin embargo, en muchas situaciones prácticas de interés, los modelos determinísticos son inadecuados. Por
ejemplo, ¿es razonable creer que puede determinarse el precio de venta de una casa con base en su tamaño?
Sin lugar a duda, el tamaño de una casa afecta su precio, pero muchas otras variables (algunas de las cuales
pueden no ser medibles) también tienen influencia en el precio. Lo que debe incluirse en muchos modelos prác-
ticos es un método que represente lo que se denomina aleatoriedad, lo cual es un proceso de la vida real. Tal
modelo es un modelo estadístico.
Para crear un modelo estadístico, se inicia con un modelo determinístico que aproxime la relación que se quiere
modelar, luego se agrega un término aleatorio que mide el error del componente determinístico. Supóngase
que, en el ejemplo anterior, el agente de bienes raíces sabe que el costo de construcción es de $2,000 por metro
cuadrado y que la mayoría de los lotes se venden en $250,000.
Y = precio de venta
X = tamaño de la casa en metros cuadrados
Sin embargo, el precio de venta no sería exactamente de $550,000. Los precios podrían variar de $400,000 a
$700,000. En otras palabras, el precio no sería adecuado. Para representar esta situación correctamente, se
debería utilizar el modelo estadístico:
Y = 250,000 + 2,000X + ε
Donde ε (la letra griega épsilon) representa el término aleatorio (también denominado la variable del error), esto
es, la diferencia entre el precio real de venta y el precio estimado basado en el tamaño de la casa.
De este modo, el término aleatorio toma en cuenta todas las variables medibles y no medibles, que no son parte
del modelo. El valor de ε variará de una venta a otra, aunque X permanezca constante. Esto es, las casas de
exactamente el mismo tamaño se venderán en diferentes precios debido a las diferencias en localidad y número
de recámaras, como otras variables.
En este módulo y en el siguiente, se utilizarán solamente modelos estadísticos. Por lo pronto se restringirá el
número de variables independientes a uno. El modelo que se utilizará será el modelo lineal de primer orden,
algunas veces denominado modelo de regresión lineal simple.
Y = β0 + β1 X + ε
Donde:
Y = variable dependiente
X = variable independiente
β0 = intersección con el eje de las Y
β1 = pendiente de la línea de regresión
ε = variable del error
El objetivo de este modelo es analizar la relación entre dos variables, X y Y, ambas de carácter cuantitativo. Para
definir las relaciones entre las variables X y Y se necesita conocer el valor de los coeficientes β0 y β1 del modelo
lineal; sin embargo, estos coeficientes son parámetros poblacionales, los cuales son casi siempre desconoci-
dos. Para estimarlos, se extrae una muestra aleatoria de la población de interés y se calculan las estadísticas
muestrales que se necesitan.
( ∑ X )( ∑ Y )
∑ XY − n ∑ XY − nXY
b1 = =
( ∑ X2 ) ∑ X − n ( X)
2
2
∑X 2
−
n
b0 = Y − b1 X
Se puede demostrar que b0 y b1 son estimadores sin sesgar de β0 y β1 respectivamente. Se utilizará el método
de mínimos cuadrados para producir la línea de regresión:
= β + β X
Y 0 1
= b0 + b1X
Suposiciones en el modelo de regresión lineal simple
Coeficiente de correlación
El coeficiente de correlación muestral, denotado por “r”, mide la intensidad o grado de la asociación entre X y Y,
se obtiene mediante la expresión:
Sx
r = b1
Sy
Comparaciones entre b1 y r
La correlación no tiene unidades La pendiente b1 sí tiene
Supóngase que se una empresa está interesada en la relación que existe entre la antigüedad de un camión y
los gastos anuales de reparación que debe esperar. Con el fin de determinar esta relación, se ha reunido infor-
mación de cuatro camiones de la empresa; la información se presenta enseguida.
El primer paso para calcular la recta de regresión de este problema es organizar los datos como se presentan
a continuación, lo cual permitirá sustituirlos directamente en las ecuaciones para encontrar la pendiente b1 y la
ordenada al origen b0.
78 − 4 ( 3 )( 6 )
=
44 − ( 4 )( 3 )
2
78 − 72
=
44 − 36
6
=
8
= 0.75
Pendiente de la línea
La ordenada al origen es:
b0 = Y − b1 X
= 6. ( 0.75 )( 3 )
= 6 − 2.25
= 3.75
Ordenada al origen
Para obtener la ecuación de estimación que describe la relación entre la antigüedad de un camión y sus gas-
tos anuales de reparación, se sustituyen los valores de b0 y b1 en la ecuación general de la línea recta:
y = β 0 + β 1X
= b0 + b1X
= 3.75 + 0.75X
La pendiente de b1 es 0.75, lo cual significa que por cada unidad adicional en antigüedad (años), el gasto se
incrementa (en miles) en 0.75 ($750), en promedio.
b0 muchas veces no tiene interpretación práctica. En este caso tiene un valor de 3.75.
Técnicamente, la b0 es el punto en el cual la línea de regresión y el eje y se interceptan. Esto significaría que
cuando X=0 (es decir, cuando no existe antigüedad) el precio de mantenimiento es de 3,750 (puesto que los
datos originales son en miles de $).
Habría la tentación de interpretar esto como el precio de reparación cuando no tienen antigüedad los camio-
nes. Sin embargo, en este caso, la interpretación quizá no tenga sentido, debido simplemente a que no se
incluyen camiones con una antigüedad de cero años. Como regla general, no se debe determinar el valor de
Y para un valor de X que está fuera del rango de exploración de X. En este ejemplo, el menor y el mayor valor
de X son 1 y 5, respectivamente, y, debido a que X=0 no está en el intervalo, no se puede interpretar el valor
de Y cuando X=0.
Sx
r = b1
Sy
∑ x = 12 ∑ y = 24 ∑ XY = 78 ∑X 2
= 44 ∑Y 2
= 150
X=3 Y=6
( )
2
Sx =
∑X 2
−n X
=
44 − 4 ( 3 )
2
=
8
= 1.6330
n −1 3 3
∑Y − n(Y) 150 − 4 ( 6 )
2 2 2
6
Sy = = = = 1.4142
n −1 3 3
Por lo que:
1.6330
r = 0.75 = 0.8660
1.4142
Coeficiente de determinación
El coeficiente de determinación R2, se utiliza a veces para juzgar la adecuación o ajuste del modelo. R2 es
simplemente el cuadrado del coeficiente de correlación entre X y Y.
En el presente caso, el coeficiente de determinación es R2 = (r)2 = (0.8660)2 = 0.7500, o como es más común
expresarlo, en porcentaje, 75%, lo cual se interpreta como la variabilidad de Y (gasto en mantenimiento) que se
explica por la X (los años de antigüedad).
Referencias bibliográficas
Hanke, J. E., y Wichern, D. W. (2010). Pronósticos en los negocios (9ª ed.). México: Pearson.
Levin, R., y Rubin, D. (2010). Estadística para administración y economía (7ª ed.). México. Pearson
educación.
Rodríguez, J., Pierdant, E., y Rodríguez, C. (2016). Estadística para administración (2ª ed.). México:
Editorial Patria.