Explora Libros electrónicos
Categorías
Explora Audiolibros
Categorías
Explora Revistas
Categorías
Explora Documentos
Categorías
ESTADÍSTICA INDUCTIVA
Módulo III
Unidad 6
Regresión y correlación de variables
Módulo
III
Unidad 5 Unidad 6
El titular anterior nos está indicando que hay una correlación de algún tipo entre:
- Este examen hay que comenzar a prepararlo por lo menos tres semanas
antes
- Tengo que estudiar, como mínimo, cuatro horas por día
- Hay que hacer casi todos los ejercicios del práctico para pasar el escrito
Y como ejemplo final, pensemos en las relaciones establecidas con las que
contamos a diario para administrar nuestras finanzas hogareñas, como por
ejemplo la relación entre los viajes que realizo y el gasto mensual en
combustibles.
Importante:
7
6
5
4 Existe correlación no lineal
3
2
𝑟=0
1
0
0 1 2 3 4 5 6 7
7
6
5
4 Existe correlación lineal negativa
3
𝑟 ≅ −1
2
1
0
0 1 2 3 4 5 6 7
7
6
5
4 No existe correlación entre los
datos
3
2 𝑟=0
1
0
0 1 2 3 4 5 6 7
Cuando la relación entre las dos variables queda representada por una línea
recta, se establece la denominada recta de regresión, que es aquella que se
ajustan de la mejor manera a los puntos del diagrama de dispersión. Para
nuestro caso, la recta de regresión quedaría graficada de la siguiente manera:
20
18
16
14
(4.21,13.2)
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7
Centro de gravedad: (x
̅ , y̅)
Nota: La recta de regresión siempre pasa por el centro de gravedad (𝑥̅ , 𝑦̅).
¿Cuál es, entonces, una manera apropiada de encontrar los puntos de la recta?
Bueno, una posible solución consiste en elevar al cuadrado los desvíos de las
ordenadas de los puntos a considerar en nuestra recta con respecto a los puntos
de las mediciones. De esta manera lograremos dos objetivos:
𝑦 = 𝑎 + 𝑏𝑥
∑𝑛1 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̅ 𝑦̅
𝑏=
∑𝑛1 𝑥𝑖2 − 𝑛𝑥̅ 2
𝑎 = 𝑦̅ − 𝑏𝑥̅
𝑥̅ ≅ 4.21
𝑦̅ = 13.2
𝑦 = 𝑎 + 𝑏𝑥 = −0.05 + 3.144 𝑥
Nota:
La diferencia entre los valores mostrados en esta página y los que surgen
de los mismos cálculos obtenidos con una calculadora se debe a que se
han tomado muchos más decimales que los dos mostrados en este texto
20
18
y = 3,14x - 0.05
16
14
(4.21,13.2)
12
10
8
6
4
2
0
0 1 2 3 4 5 6 7
∑𝑛1(𝑦̂𝑖 −𝑦𝑖 )2
𝑆𝑒 = √
𝑛−2
Ahora bien, el uso de la anterior fórmula implica agregar nuevas columnas con
los valores obtenidos a través de la fórmula de la recta de estimación, para luego
realizar los cálculos. Existe también la posibilidad de utilizar un método
abreviado que simplifique nuestros cálculos, a saber:
Calculemos para nuestro ejemplo de las circunferencias, ampliando una vez más
la tabla para incorporar el cálculo de y 2 :
0.0438
=√ = √ 0.0876 = 0.093
5
Insistimos una vez más en utilizar una buena cantidad de decimales para estos
cálculos.
Para el estudiante:
Se propone, antes de seguir, que vuelque los datos del ejercicio en una hoja de
cálculo, y arme las columnas necesarias para calcular el error mediante la otra
fórmula y comprobar que se obtiene idéntico resultado
Pero además, si consideramos que los puntos tienen una distribución normal
respecto de la recta, el análisis de la distribución nos permite encontrar los
valores extremos de la recta para los cuales un amplio porcentaje de los mismos
quedan encerrados entre dichos valores. Por ejemplo:
Como en nuestro caso el error es muy bajo, una pequeña variación en la altura
de la recta incluye un alto porcentaje de los puntos del diagrama.
A la diferencia entre cada valor ŷi estimado mediante nuestra recta de regresión
y la media y̅ se lo denomina variación explicada de la variable de respuesta.
variación total de yi = yi − y̅
Una duda que se desprende del análisis de regresión realizado es en qué medida
la variable independiente “explica” a la variable dependiente mediante la recta
de regresión.
O sea,
∑𝑛1(𝑦𝑖 − 𝑦̂𝑖 )2
𝑟2 = 1 −
∑𝑛1(𝑦𝑖 − 𝑦̅)2
Nro de
Diámetro Longitud
observación
en cm (x) en cm (y)
̂
𝒚 ̂ 𝒊 )𝟐
(𝒚𝒊 − 𝒚 ̅ )𝟐
(𝒚𝒊 − 𝒚
(n)
1 2.10 6.50 6.55 0.00262 44.89
2 5.50 17.10 17.24 0.02050 15.21
3 4.00 12.50 12.52 0.00068 0.49
4 3.80 12.00 11.89 0.01056 1.44
5 6.00 18.90 18.81 0.00713 32.49
6 3.50 11.00 10.95 0.00213 4.84
7 4.60 14.40 14.41 0.00016 1.44
Totales 29.50 92.40 92.40 0.04381 100.8
∑𝑛1(𝑦̂𝑖 − 𝑦̅)2
𝑟2 =
∑𝑛1(𝑦𝑖 − 𝑦̅)2
𝑟 = √𝑟 2
Los conceptos vistos en los puntos anteriores pueden ampliarse al caso en el que
los resultados obtenidos para la variable de respuesta dependa de más de una
variable independiente. En estos casos, al análisis lo denominamos de Regresión
Múltiple.
𝑦 = 𝑎 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 + ⋯ + 𝑏𝑛 𝑥𝑛
Es, por lo tanto, de sumo interés para las organizaciones el contar con
herramientas predictivas de gran calidad, y para ello echaremos mano una vez
más a los recursos que nos brinda esta materia.
Definición:
1. Componente de tendencia
Ejemplo 1:
Se aprecia una tendencia lineal creciente
2. Componente cíclica
4. Componente irregular
1 10.500
2 8.500
3 9.600
4 4.000
5 8.800
6 8.500
7 7.500
8 5.200
9 7.100
…y así sucesivamente. Volcaremos estos datos en una tabla, junto con otros que
explicaremos a continuación.
Semana Total ($) Pronóstico del Error del Error cuadrático del
promedio móvil pronóstico pronóstico
1 10.500
2 8.500