Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión y Correlación
Muchos estudios empíricos dependen en máximo grado del análisis de regresión y correlación,
adquiriendo estas herramientas estadísticas un valor muy grande en el momento de tomar un gran
número de decisiones empresariales y económicas. Si los responsables de la toma de decisiones
pueden determinar cómo lo conocido se relaciona con el evento futuro, pueden ayudar
considerablemente al proceso de toma de decisiones
El primero en desarrollar el análisis de regresión fue el científico inglés Sir Francis Galton (1822-
1911), comenzando sus experimentos de regresión en el intento de analizar las tendencias
hereditarias de los guisantes y las estaturas entre padres e hijos. Para el análisis de regresión es
crucial determinar cuál es la variable dependiente y cuál la independiente, esta determinación
depende de la lógica común y de lo que el estadístico trate de investigar; por ejemplo,
supongamos que las ventas de una empresa dependen (al menos en parte) de la cantidad de
publicidad que ésta hace, las ventas se consideran la variable dependiente y es función de la
variable independiente, que es la publicidad.
La variable dependiente Y se denomina también regresando o variable explicada, mientras que la
variable independiente X se llama regresor o variable explicativa.
La regresión y la correlación son en realidad conceptos diferentes, pero que guardan una íntima
relación
Análisis de regresión
La regresión es una expresión cuantitativa que describe la naturaleza básica de la relación entre
las variables dependiente e independiente(s), su objetivo es estimar el valor de una variable
(dependiente) dado que el valor de una variable asociada (independiente) es conocido. El modelo
determinará:
1. Si las variables tienden a desplazarse en la misma dirección.
2. Si las variables tienden a desplazarse en sentidos opuestos.
3. La cantidad en que Y (variable dependiente) cambiará cuando la(s) variable(s)
independiente(s) varíe en una unidad.
El análisis de regresión se clasifica generalmente en dos tipos, simple y múltiple:
- La simple establece que la variable dependiente Y es función de una sola variable independiente
(a veces se le denomina análisis bivariante porque sólo hay implicadas dos variables).
- La múltiple abarca dos o más variables independientes, por lo que la ecuación de regresión que
describe de la mejor manera posible la relación entre las variables resulta curvilínea.
(Nota: en los estudios de regresión y correlación que se llevarán a cabo, sólo se considerarán
relaciones lineales entre dos variables.)
Recta de regresión:
Las relaciones entre variables pueden ser determinísticas o estocásticas (aleatorias), pero en el
mundo de las empresas hay muy pocas relaciones que sean exactas (sólo determinísticas); por
ejemplo, si suponemos una relación lineal con la publicidad para determinar las ventas, casi
siempre hay alguna variación en la relación. Cuando la publicidad valga una cantidad
determinada xi, las ventas tomarán un determinado valor yi, pero la siguiente vez que la
publicidad sea igual al mismo valor anterior x i, las ventas podrían tomar otro valor diferente al y i
obtenido antes. La variable dependiente (ventas) presenta un cierto grado de aleatoriedad.
Dado que la recta verdadera de regresión de la población seguirá siendo desconocida (al igual que
la mayoría de los parámetros), lo mejor que se puede hacer es estimarla mediante el modelo:
Y = a0 + a1X + e
Los valores a0 y a1 son estimaciones de los parámetros poblacionales α0 y α1; se denominan,
respectivamente, constante de regresión y coeficiente de regresión. El término e, es el
componente del error, el cual es necesario porque no todas las observaciones de Y y X están en
línea recta.
Como algunas de las observaciones caen por encima de la recta y otras por debajo de ella, e es
una variable aleatoria; sin embargo, se supone que el término de error tendrá un valor medio de
cero y una varianza σ2 (desconocida) por lo que el modelo para estimar la relación entre Y y X
mediante la recta de regresión será:
Ŷ = a0 + a1X
En donde a1 es la pendiente de la recta y representa qué tanto cada cambio de unidad de la
variable independiente X, cambia la variable dependiente Y.
Guía de Estadística 2
Se llama método de los mínimos cuadrados porque da lugar a una recta que hace mínimos los
cuadrados de las distancias verticales desde cada punto de una observación a la recta.
Para entender el significado del método debemos recordar que Yi es un valor observado real de la
variable Y, mientras que Ŷ es un valor de la recta predicho por la ecuación.
Σ (Yi - )2 = min.
min. es el número más pequeño que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los puntos
y la recta.
La diferencia Yi - se llama residuo o error.
o resolviendo el sistema:
A pesar de que una de las aplicaciones del modelo de regresión es predecir, prever o proyectar el
valor de la variable dependiente, es una falsa interpretación suponer a priori que exista una
relación de causa-efecto entre las dos variables. Por esta razón es importante que se consideren
las relaciones encontradas por la regresión, como relaciones de asociación pero no
necesariamente de causa y efecto.
Guía de Estadística 2
Mientras más grande sea el error estándar de la estimación, mayor será la dispersión de los puntos
alrededor de la línea de regresión.
Guía de Estadística 2
Debemos poner énfasis en que estos intervalos de predicción son sólo aproximados, de hecho, los
estadísticos pueden calcular el error estándar exacto para la predicción Sp, usando la fórmula:
Guía de Estadística 2
Entre las interpretaciones para estos intervalos de predicción aproximados tenemos (suponiendo
95%):
1) Si colocamos X igual a una cantidad sólo una vez, obtendríamos un único valor resultante de
Y. Podemos estar seguros al 95% de que dicho valor de Y cae dentro del intervalo especificado.
2) Si se tomasen muchas muestras y se utilizase cada una para construir un intervalo de confianza
predictivo, el 95% de esos intervalos contendría el verdadero valor de Y.
Guía de Estadística 2
Análisis de Correlación
El análisis de correlación es la herramienta estadística que podemos usar para describir el grado
de interconexión o de relación entre las variables. Con frecuencia, el análisis de correlación se
utiliza junto con el análisis de regresión para medir qué tan bien la línea de regresión explica los
cambios de la variable dependiente Y.
Suposiciones
1. Son variables aleatorias.
2. Varianzas iguales.
3. Los valores observados de cada variable son independientes de los demás valores
observados de esa variable.
4. Datos distribuidos normalmente.
El valor de r2 ha de estar entre 0 y 1, puesto que es imposible explicar más del 100% de la
variación de Y. Por ejemplo, si r 2 = 0,70 significa que el 70% de la variación de Y está explicada
por las variaciones de X. Es evidente que cuanto mayor sea r 2, mayor poder explicativo tendrá
nuestro modelo.
Si la variación explicada es cero, toda la variación es inexplicada y el cociente da cero. Si la
variación inexplicada es cero, toda la variación es explicada y el cociente es 1.
Si se trabaja con rectas, una fórmula para resumir los pasos es la siguiente:
Guía de Estadística 2
Coeficiente de correlación
Es la raíz cuadrada del coeficiente de determinación y mide qué tan bien se ajusta una curva de
regresión a los datos muestrales.
3. Otro fallo del análisis de regresión y correlación es el que se manifiesta cuando dos
variables que no tienen nada que ver entre sí parecen presentar alguna relación y en estos
casos estaríamos en presencia de una correlación espúrea, que es la correlación que ocurre
por puro azar, por ejemplo, puede haber una alta correlación entre el número de libros
publicados cada año y el número de tormentas en ese mismo año.
Guía de Estadística 2
Ejercicios
1) La tabla siguiente muestra las estaturas redondeadas en pulgadas y los pesos en libras de una
muestra de 12 estudiantes tomada al azar entre los estudiantes de 1er año en la escuela de
administración:
Estatura (pulg.) 70 63 72 60 66 70 74 65 62 67 65 68
Pesos (lb.) 155 150 180 135 156 168 178 160 132 145 139 152
X = estatura. Y = peso.
(a) Obtener un diagrama de dispersión para esos datos.
(b) Ajustar una recta de mínimos cuadrados a los datos, usando:
X como variable independiente.
X como variable dependiente.
(c) Estimar el peso de un estudiante que mide 63 pulg.
(d) Estimar la estatura de un estudiante que pesa 168 lb.
Respuestas: (b) = -59,3513 + 3,1948 X ; = 31,3396 + 0,2302 Y
(c) 141,9211 lb.
(d) 70,0132 pulg.
3) La tabla siguiente presenta las notas en álgebra y física de 10 estudiantes elegidos al azar entre
un grupo muy numeroso:
Álgebra (X) 75 80 93 65 87 71 98 68 84 77
Física (Y) 82 78 86 72 91 80 95 72 89 74
(a) Representar los datos.
(b) Hallar una recta de mínimos cuadrados usando X como variable independiente y luego como
dependiente.
(c) Si un estudiante tiene 75 puntos en álgebra. ¿Cuál es su nota esperada en física?
(d) Si un estudiante tiene 95 puntos en física. ¿Cuál es su nota esperada en álgebra?
Respuestas: (b) = 29,1290 + 0,6613 X ; = -14,3939 + 1,1501 Y
(c) = 78,7265 puntos.
(d) = 94,8656 puntos.
Guía de Estadística 2
4) Suponga que usted tiene a su cargo el dinero de la región de Piedmont, se le dan los siguientes
datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en
millones de dólares):
Suministro de dinero (X) Producto Nacional Bruto (Y)
2,0 5,0
2,5 5,5
3,2 6,0
3,6 7,0
3,3 7,2
4,0 7,7
4,2 8,4
4,6 9,0
4,8 9,7
5,0 10,0
(a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero.
(b) ¿Cómo interpreta la pendiente de la línea de regresión?.
(c) Calcule e interprete el error estándar de la estimación.
Respuestas: (a) = 1,1681 + 1,7156 X
(c) Sey.x = 0,3737
5) Un estudio hecho por el departamento de transporte de Atlanta, Georgia, acerca del efecto de
los precios de los boletos de los autobuses sobre el número de pasajeros produjo los siguientes
resultados:
Precio del boleto (centavos) 25 30 35 40 45 50 55 60
Pasajeros por 100 millas 800 780 780 660 640 600 620 620
(a) Represente gráficamente los datos.
(b) Desarrolle la ecuación de estimación que mejor describa estos datos.
(c) Pronostique el número de pasajeros por 100 millas si el precio del boleto fuera de 50
centavos.
(d) Calcule el error típico de estimación.
Respuestas: (b) Pasajeros estimados = 952,6190 – 6,2381 precio del boleto.
(c) = 640,714 pasajeros.
(d) Sey.x = 38,0610 pasajeros.
6) La señorita Erika Pérez, estudiante del primer semestre de administración, elabora un estudio
de compañías que se están dando a conocer. Tiene curiosidad por ver si existe o no relación
significativa entre el tamaño de la oferta (en millones de dólares) y el precio por acción.
(a) Dados los siguientes datos, desarrolle la ecuación lineal que mejor ajuste los datos:
Guía de Estadística 2
BIBLIOGRAFIA
Berenson, M., Levine, D., Krehbiel, T. (2001) Estadística para Administración. Edit. Edit.
Prentice-Hall. Segunda edición.
Mason, R., Lind, D., Marchal, W. (2001) Estadística para Administración y Economía. Edit.
Alfaomega. Décima edición.