Regresión y Correlación Lineal

Guía de Estadística 2
Regresión y Correlación
Muchos estudios empíricos dependen en máximo grado del análisis de regresión y correlación,
adquiriendo estas herramientas estadísticas un valor muy grande en el momento de tomar un gran
número de decisiones empresariales y económicas. Si los responsables de la toma de decisiones
pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar
considerablemente al proceso de toma de decisiones
El primero en desarrollar el análisis de regresión fue el científico inglés Sir Francis Galton (1822-
1911), comenzando sus experimentos de regresión en el intento de analizar las tendencias
hereditarias de los guisantes y las estaturas entre padres e hijos. Para el análisis de regresión es
crucial determinar cuál es la variable dependiente y cuál la independiente, esta determinación
depende de la lógica común y de lo que el estadístico trate de investigar; por ejemplo,
supongamos que las ventas de una empresa dependen (al menos en parte) de la cantidad de
publicidad que ésta hace, las ventas se consideran la variable dependiente y es función de la
variable independiente, que es la publicidad.
La variable dependiente Y se denomina también regresando o variable explicada, mientras que la
variable independiente X se llama regresor o variable explicativa.
La regresión y la correlación son en realidad conceptos diferentes, pero que guardan una íntima
relación
Análisis de regresión
La regresión es una expresión cuantitativa que describe la naturaleza básica de la relación entre
las variables dependiente e independiente(s), su objetivo es estimar el valor de una variable
(dependiente) dado que el valor de una variable asociada (independiente) es conocido. El modelo
determinará:
1. Si las variables tienden a desplazarse en la misma dirección.
2. Si las variables tienden a desplazarse en sentidos opuestos.
3. La cantidad en que Y (variable dependiente) cambiará cuando la(s) variable(s)
independiente(s) varíe en una unidad.
El análisis de regresión se clasifica generalmente en dos tipos, simple y múltiple:
- La simple establece que la variable dependiente Y es función de una sola variable independiente
(a veces se le denomina análisis bivariante porque sólo hay implicadas dos variables).
- La múltiple abarca dos o más variables independientes, por lo que la ecuación de regresión que
describe de la mejor manera posible la relación entre las variables resulta curvilínea.
(Nota: en los estudios de regresión y correlación que se llevarán a cabo, sólo se considerarán
relaciones lineales entre dos variables.)
Pasos para el ajuste de curvas:

1) Para hallar una ecuación que relacione las variables, el primer paso es recoger datos que
muestren los valores correspondientes de las variables bajo consideración.
2) Realizar un diagrama de dispersión, que es la representación gráfica de las observaciones

pareadas de X e Y (lo habitual es colocar la variable dependiente en el eje vertical y la
independiente en el horizontal), pudiéndose presentar cualquiera de las siguientes situaciones:
a) Relación lineal directa:
b) Relación lineal inversa:
c) Relación curvilínea directa:
d) Relación curvilínea inversa:
e) No se manifiesta ninguna relación entre las dos variables:
3) Realizar el ajuste según la orientación que proporcione el diagrama.

Recta de regresión:
Las relaciones entre variables pueden ser determinísticas o estocásticas (aleatorias), pero en el
mundo de las empresas hay muy pocas relaciones que sean exactas (sólo determinísticas); por
ejemplo, si suponemos una relación lineal con la publicidad para determinar las ventas, casi
siempre hay alguna variación en la relación. Cuando la publicidad valga una cantidad
determinada xi, las ventas tomarán un determinado valor yi, pero la siguiente vez que la
publicidad sea igual al mismo valor anterior x i, las ventas podrían tomar otro valor diferente al y i
obtenido antes. La variable dependiente (ventas) presenta un cierto grado de aleatoriedad.
Un modelo que refleja esta variación es:

(componente aleatorio)
dos de las causas que se proponen para la presencia de ε son:

- El error de medición (por ejemplo, imprecisiones de presupuesto).
- El error estocástico (esto se origina porque los fenómenos biológicos y sociales son
irrepetibles). Aunque no hubiese error de medición, la continua repetición de un experimento en
donde se empleara por ejemplo, exactamente la misma cantidad de alimento para pollos, no se
obtendría el mismo peso para todos los pollos; esas diferencias son impredecibles.
(El error estocástico se debe tomar como la influencia que muchas variables omitidas tienen
sobre Y; cada una de estas influencias tiene un efecto individualmente muy pequeño.)
El modelo anterior representa la relación poblacional según la cual Y es regresiva en función de

X, α0 y α1 son los parámetros y ε es un término aleatorio de error ideado para recoger la variación
por encima y por debajo de la recta de regresión debida a todos los demás factores no incluidos
en el modelo. Siguiendo con el ejemplo de la publicidad y las ventas, es probable que las ventas
estén influidas también por el grado de competencia, los precios relativos, etc.
El componente aleatorio ε puede ser negativo o positivo en función de si el valor de Y para un
valor de X dado, se encuentra por debajo o por encima de la recta de regresión. Al componente
aleatorio también se le llama término de distorsión, porque “distorsiona” la relación determinista
entre X e Y.
Dado que la recta verdadera de regresión de la población seguirá siendo desconocida (al igual que
la mayoría de los parámetros), lo mejor que se puede hacer es estimarla mediante el modelo:
Y = a0 + a1X + e
Los valores a0 y a1 son estimaciones de los parámetros poblacionales α0 y α1; se denominan,
respectivamente, constante de regresión y coeficiente de regresión. El término e, es el
componente del error, el cual es necesario porque no todas las observaciones de Y y X están en
línea recta.
Como algunas de las observaciones caen por encima de la recta y otras por debajo de ella, e es
una variable aleatoria; sin embargo, se supone que el término de error tendrá un valor medio de
cero y una varianza σ2 (desconocida) por lo que el modelo para estimar la relación entre Y y X
mediante la recta de regresión será:
Ŷ = a0 + a1X
En donde a1 es la pendiente de la recta y representa qué tanto cada cambio de unidad de la
variable independiente X, cambia la variable dependiente Y.
Recta de ajuste óptimo (método de los mínimos cuadrados)

La recta de regresión deberá reflejar con la mayor exactitud posible la relación entre las variables
dependiente e independiente y además deberá ajustarse a los puntos, mejor que ninguna otra recta
que se pudiera trazar. Es decir, se deberá buscar la recta de ajuste óptimo.
Una forma de “medir el error” es sumando todas las diferencias o errores individuales entre los
puntos estimados y los puntos observados, sin embargo, este proceso no es una forma confiable
de juzgar la bondad de ajuste de una línea de estimación. El problema de añadir los errores
individuales es el efecto de cancelación de los valores positivos y negativos, de esto, se podría
deducir que el criterio adecuado para juzgar la bondad de ajuste sería la minimización de la suma
de los valores absolutos de los errores, sin embargo, la suma de los valores absolutos no pone
énfasis en la magnitud del error (parece un razonamiento lógico suponer que mientras más lejos
esté un punto de la línea de estimación, más serio es el error). Es por estos motivos que a través
del método de los mínimos cuadrados podemos hallar la recta de ajuste óptimo.
Se llama método de los mínimos cuadrados porque da lugar a una recta que hace mínimos los
cuadrados de las distancias verticales desde cada punto de una observación a la recta.
Para entender el significado del método debemos recordar que Yi es un valor observado real de la
variable Y, mientras que Ŷ es un valor de la recta predicho por la ecuación.
Σ (Yi - )2 = min.
min. es el número más pequeño que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los puntos
y la recta.
La diferencia Yi - se llama residuo o error.
Los coeficientes a1 y a0 se obtienen mediante las expresiones:
o resolviendo el sistema:
A pesar de que una de las aplicaciones del modelo de regresión es predecir, prever o proyectar el
valor de la variable dependiente, es una falsa interpretación suponer a priori que exista una
relación de causa-efecto entre las dos variables. Por esta razón es importante que se consideren
las relaciones encontradas por la regresión, como relaciones de asociación pero no
necesariamente de causa y efecto.
Hipótesis utilizadas en el método de mínimos cuadrados:

1. El término error es una variable aleatoria que sigue una distribución normal.
2. Dos errores cualesquiera son independientes entre sí (a menos que se manejen datos de
series temporales, porque muchas series temporales varían de forma cíclica.)
3. Todos los errores tienen la misma varianza (a menos que se usen datos transversales.)
4. Las medias de los valores de Y están todas en una recta.
Si se quiere estimar el valor de X a partir de un valor dado de Y, debemos hacer un intercambio
de las variables en el diagrama de dispersión de modo que X sea la variable dependiente y Y la
independiente, quedando:
(curva de regresión de X sobre Y)
En general, la recta o curva de regresión de Y sobre X no es la misma que la de X sobre Y. Para
hallar los coeficientes b0 y b1 se intercambian las x con las y en las ecuaciones de a 0 y a1
respectivamente, quedando:
Error típico de estimación generalizado (Se)

El error típico de la estimación es una medida de la cantidad media en que las observaciones
reales de Y varían en torno a los predichos por el modelo ; es decir, mide la variabilidad o
dispersión de los valores observados alrededor de la línea de regresión.
Y = valores de la variable dependiente.
= valores obtenidos mediante la ecuación de

estimación que corresponde a cada valor de Y.
n = número de puntos de datos utilizados para

ajustar la línea de regresión (número de
observaciones).
k = número de variables independientes
Si se trabaja con una recta, se puede calcular el error mediante:
Mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos
alrededor de la línea de regresión.
Utilización de Se para formar límites alrededor de la línea de regresión

Se puede usar Se como una herramienta de la misma forma que se puede usar la desviación
estándar; esto es, suponiendo que los puntos observados están normalmente distribuidos
alrededor de la línea de regresión, podemos esperar encontrar 68,3% de los puntos dentro de
±1Se, 95,5% de los puntos dentro de ±2Se y 99,7% de los puntos dentro de ±3Se.
Gráficamente:
Suposiciones que se hacen al usar Se:

1. Los valores observados para Y están normalmente distribuidos alrededor de cada valor
estimado de
2. La varianza de las distribuciones alrededor de cada valor posible de es la misma.
Intervalos de predicción aproximados

Una forma de ver el error estándar de la estimación es concebirla como la herramienta estadística
que podemos usar para hacer un enunciado de probabilidad sobre el intervalo alrededor del valor
estimado de , dentro del cual cae el valor real de Y. Estos intervalos alrededor de la son
llamados intervalos de predicción aproximados.
Se debe recordar que los estadísticos aplican los intervalos de predicción basados en la
distribución normal sólo a grandes muestras, cuando las muestras son pequeñas la distribución
apropiada es la t (n < 30 y σ desconocida, grados de libertad = n - 2). Si se trabaja con una
muestra pequeña se cumplen estas dos condiciones ya que Se es una estimación y no la
desviación estándar de la población conocida. Los intervalos vienen dados por la expresión: ±
t (Se).
Debemos poner énfasis en que estos intervalos de predicción son sólo aproximados, de hecho, los
estadísticos pueden calcular el error estándar exacto para la predicción Sp, usando la fórmula:
Entre las interpretaciones para estos intervalos de predicción aproximados tenemos (suponiendo
95%):
1) Si colocamos X igual a una cantidad sólo una vez, obtendríamos un único valor resultante de
Y. Podemos estar seguros al 95% de que dicho valor de Y cae dentro del intervalo especificado.
2) Si se tomasen muchas muestras y se utilizase cada una para construir un intervalo de confianza
predictivo, el 95% de esos intervalos contendría el verdadero valor de Y.
Análisis de Correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir el grado
de interconexión o de relación entre las variables. Con frecuencia, el análisis de correlación se
utiliza junto con el análisis de regresión para medir qué tan bien la línea de regresión explica los
cambios de la variable dependiente Y.
Suposiciones
1. Son variables aleatorias.
2. Varianzas iguales.
3. Los valores observados de cada variable son independientes de los demás valores
observados de esa variable.
4. Datos distribuidos normalmente.
Desviación total o variación total de Y

Es la cantidad en que los valores individuales de Y varían a partir de su media , es decir,
Σ (Yi - ) 2
La desviación o variación total puede descomponerse en dos tipos:

1. Desviación explicada o variación explicada: es aquella parte de la desviación total que
queda explicada por nuestro modelo, se obtiene mediante la diferencia entre aquello que
nuestro modelo predice y el valor medio de Y, es decir: - . De esta forma, la
desviación explicada mide la cantidad de la diferencia total entre Y i e que queda
explicada por el modelo de regresión.
Var. Explicada = Σ ( - )2
2. Desviación no explicada o variación no explicada: es la parte de la desviación total de Y i

respecto de no explicada por nuestro modelo ( ya que esas desviaciones se comportan
de modo caótico, impredictible). Para hallarla, hay que calcular la diferencia entre lo que
Y era en realidad (Yi) y lo que predijo nuestro modelo ( ).
Var. No Explicada = Σ (Y- )2
Coeficiente de determinación (r2)

Es un coeficiente que mide el poder explicativo del modelo de regresión, es decir, la parte de la
variación de Y explicada por la variación de X.
El valor de r2 ha de estar entre 0 y 1, puesto que es imposible explicar más del 100% de la
variación de Y. Por ejemplo, si r 2 = 0,70 significa que el 70% de la variación de Y está explicada
por las variaciones de X. Es evidente que cuanto mayor sea r 2, mayor poder explicativo tendrá
nuestro modelo.
Si la variación explicada es cero, toda la variación es inexplicada y el cociente da cero. Si la
variación inexplicada es cero, toda la variación es explicada y el cociente es 1.
Si se trabaja con rectas, una fórmula para resumir los pasos es la siguiente:
Coeficiente de correlación
Es la raíz cuadrada del coeficiente de determinación y mide qué tan bien se ajusta una curva de
regresión a los datos muestrales.
Coeficiente de correlación lineal

Para el coeficiente de correlación lineal, el valor absoluto de r indica la fuerza de la relación entre
Y y X, mientras que el signo (el signo corresponde al de a 1, coeficiente de regresión) nos dice si
están relacionadas en forma directa o inversa.
Para relaciones lineales:
r = 1 correlación positiva perfecta.

r = -1 correlación negativa perfecta.
r = 0 no hay relación lineal entre Y y X.
Gráficamente:
Es de hacer notar que un coeficiente de correlación alto no indica necesariamente una

dependencia directa de las variables (correlación espúrea).
Limitaciones del análisis de regresión y correlación

Aunque el análisis de regresión y correlación demuestra ser muy útil en numerosas ocasiones
para tomar decisiones relativas a una gran variedad de asuntos empresariales y económicos,
existen determinadas limitaciones a su aplicación e interpretación.
1. Las relaciones encontradas por la regresión deben ser consideradas como relaciones de
asociación, pero no necesariamente de causa y efecto. A menos que se tengan razones
específicas para creer que los valores de la variable dependiente son ocasionados por los
valores de las variables independientes, no se debe inferir causalidad en las relaciones que
se encuentren mediante la regresión.
2. Hay que tener cuidado al utilizar el modelo de regresión para predecir Y a partir de
valores de X exteriores al recorrido del conjunto de datos original porque fuera de él no se
puede asegurar que sea válida la misma relación.
3. Otro fallo del análisis de regresión y correlación es el que se manifiesta cuando dos
variables que no tienen nada que ver entre sí parecen presentar alguna relación y en estos
casos estaríamos en presencia de una correlación espúrea, que es la correlación que ocurre
por puro azar, por ejemplo, puede haber una alta correlación entre el número de libros
publicados cada año y el número de tormentas en ese mismo año.
Ejercicios
1) La tabla siguiente muestra las estaturas redondeadas en pulgadas y los pesos en libras de una
muestra de 12 estudiantes tomada al azar entre los estudiantes de 1er año en la escuela de
administración:
Estatura (pulg.) 70 63 72 60 66 70 74 65 62 67 65 68
Pesos (lb.) 155 150 180 135 156 168 178 160 132 145 139 152
X = estatura. Y = peso.
(a) Obtener un diagrama de dispersión para esos datos.
(b) Ajustar una recta de mínimos cuadrados a los datos, usando:
 X como variable independiente.
 X como variable dependiente.
(c) Estimar el peso de un estudiante que mide 63 pulg.
(d) Estimar la estatura de un estudiante que pesa 168 lb.
Respuestas: (b) = -59,3513 + 3,1948 X ; = 31,3396 + 0,2302 Y
(c) 141,9211 lb.
(d) 70,0132 pulg.
2) Ajustar una recta de mínimos cuadrados a los datos de la tabla siguiente:

X 3 5 6 8 9 11
Y 2 3 4 6 5 8
Usando X como:
(a) Variable independiente.
(b) Variable dependiente.
(c) Hallar cuando X = 5, X = 6 ; hallar X cuando Y = 7
Respuestas: (a) = -0,3333 + 0,7143 X
(b) = 1 + 1,2857 Y
(c) X = 5, = 3,2382 ; X = 12, = 8,2383 ; Y = 7, = 10
3) La tabla siguiente presenta las notas en álgebra y física de 10 estudiantes elegidos al azar entre
un grupo muy numeroso:
Álgebra (X) 75 80 93 65 87 71 98 68 84 77
Física (Y) 82 78 86 72 91 80 95 72 89 74
(a) Representar los datos.
(b) Hallar una recta de mínimos cuadrados usando X como variable independiente y luego como
dependiente.
(c) Si un estudiante tiene 75 puntos en álgebra. ¿Cuál es su nota esperada en física?
(d) Si un estudiante tiene 95 puntos en física. ¿Cuál es su nota esperada en álgebra?
Respuestas: (b) = 29,1290 + 0,6613 X ; = -14,3939 + 1,1501 Y
(c) = 78,7265 puntos.
(d) = 94,8656 puntos.
4) Suponga que usted tiene a su cargo el dinero de la región de Piedmont, se le dan los siguientes
datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en
millones de dólares):
Suministro de dinero (X) Producto Nacional Bruto (Y)
2,0 5,0
2,5 5,5
3,2 6,0
3,6 7,0
3,3 7,2
4,0 7,7
4,2 8,4
4,6 9,0
4,8 9,7
5,0 10,0
(a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero.
(b) ¿Cómo interpreta la pendiente de la línea de regresión?.
(c) Calcule e interprete el error estándar de la estimación.
Respuestas: (a) = 1,1681 + 1,7156 X
(c) Sey.x = 0,3737
5) Un estudio hecho por el departamento de transporte de Atlanta, Georgia, acerca del efecto de
los precios de los boletos de los autobuses sobre el número de pasajeros produjo los siguientes
resultados:
Precio del boleto (centavos) 25 30 35 40 45 50 55 60
Pasajeros por 100 millas 800 780 780 660 640 600 620 620
(a) Represente gráficamente los datos.
(b) Desarrolle la ecuación de estimación que mejor describa estos datos.
(c) Pronostique el número de pasajeros por 100 millas si el precio del boleto fuera de 50
centavos.
(d) Calcule el error típico de estimación.
Respuestas: (b) Pasajeros estimados = 952,6190 – 6,2381 precio del boleto.
(c) = 640,714 pasajeros.
(d) Sey.x = 38,0610 pasajeros.
6) La señorita Erika Pérez, estudiante del primer semestre de administración, elabora un estudio
de compañías que se están dando a conocer. Tiene curiosidad por ver si existe o no relación
significativa entre el tamaño de la oferta (en millones de dólares) y el precio por acción.
(a) Dados los siguientes datos, desarrolle la ecuación lineal que mejor ajuste los datos:
Tamaño de la oferta (millones de $) Precio (precio por acción)

(X) (Y)
108,00 12,00
4,40 4,00
3,50 5,00
3,60 6,00
39,00 13,00
68,40 19,00
7,50 8,50
5,50 5,00
375,00 15,00
12,00 6,00
51,00 12,00
66,00 12,00
10,40 6,50
4,00 3,00
(b) Calcule el coeficiente de determinación de la muestra.
(c) ¿Debería Erika usar esta ecuación de regresión con propósitos descriptivos, o buscar en otra
parte variables explicativas adicionales?
Respuestas: (a) Precio estimado = 7,5294 + 0,0285 tamaño oferta.
(b) r2 = 0,3418
BIBLIOGRAFIA
Anderson, D., Sweeney, D., Williams, T. (1999) Estadística para Administración y

Economía. Internacional Thomson Editores. Séptima edición.
Berenson, M., Levine, D., Krehbiel, T. (2001) Estadística para Administración. Edit. Edit.
Prentice-Hall. Segunda edición.
Kazmier, Leonard (1998) Estadística aplicada a la Administración y a la Economía. Edit. Mc

Graw-Hill. Tercera edición.
Levin, R. Y Rubin, D. (1996) Estadística para Administradores. Edit. Prentice-Hall

Hispanoamericana. Sexta edición.
Mendenhall, W. y Reinmuth, J. (1999) Estadística para Administración y Economía. Edit.

Iberoamérica.
Mason, R., Lind, D., Marchal, W. (2001) Estadística para Administración y Economía. Edit.
Alfaomega. Décima edición.
Spiegel, Murrai (1991) Estadística. Edit. Mc Graw-Hill. Segunda edición.
Webster, Allen (1996) Estadística aplicada a la Empres y a la Economía. Edit. Mc Graw-Hill.

Segunda edición.

Regresión y Correlación Lineal

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión y Correlación Lineal

Cargado por

Copyright:

Formatos disponibles

Guía de Estadística 2

Pasos para el ajuste de curvas:

2) Realizar un diagrama de dispersión, que es la representación gráfica de las observaciones

a) Relación lineal directa:

b) Relación lineal inversa:

c) Relación curvilínea directa:

d) Relación curvilínea inversa:

e) No se manifiesta ninguna relación entre las dos variables:

3) Realizar el ajuste según la orientación que proporcione el diagrama.

Un modelo que refleja esta variación es:

dos de las causas que se proponen para la presencia de ε son:

El modelo anterior representa la relación poblacional según la cual Y es regresiva en función de

Recta de ajuste óptimo (método de los mínimos cuadrados)

Los coeficientes a1 y a0 se obtienen mediante las expresiones:

Hipótesis utilizadas en el método de mínimos cuadrados:

Error típico de estimación generalizado (Se)

= valores obtenidos mediante la ecuación de

n = número de puntos de datos utilizados para

k = número de variables independientes

Si se trabaja con una recta, se puede calcular el error mediante:

Utilización de Se para formar límites alrededor de la línea de regresión

Suposiciones que se hacen al usar Se:

Intervalos de predicción aproximados

Desviación total o variación total de Y

La desviación o variación total puede descomponerse en dos tipos:

2. Desviación no explicada o variación no explicada: es la parte de la desviación total de Y i

Coeficiente de determinación (r2)

Coeficiente de correlación lineal

Para relaciones lineales:

r = 1 correlación positiva perfecta.

Es de hacer notar que un coeficiente de correlación alto no indica necesariamente una

Limitaciones del análisis de regresión y correlación

2) Ajustar una recta de mínimos cuadrados a los datos de la tabla siguiente:

Tamaño de la oferta (millones de $) Precio (precio por acción)

Anderson, D., Sweeney, D., Williams, T. (1999) Estadística para Administración y

Kazmier, Leonard (1998) Estadística aplicada a la Administración y a la Economía. Edit. Mc

Levin, R. Y Rubin, D. (1996) Estadística para Administradores. Edit. Prentice-Hall

Mendenhall, W. y Reinmuth, J. (1999) Estadística para Administración y Economía. Edit.

Spiegel, Murrai (1991) Estadística. Edit. Mc Graw-Hill. Segunda edición.

Webster, Allen (1996) Estadística aplicada a la Empres y a la Economía. Edit. Mc Graw-Hill.

También podría gustarte