Está en la página 1de 19

CONCEPTOS DE REGRESIÓN LINEAL Y CORRELACIÓN

Un diagrama de dispersión es una representación gráfica de la relación entre dos variables


cuantitativas.

Se acostumbra expresar esta relación como pares ordenados (x, y) sobre un plano cartesiano
que está formado por dos rectas llamadas ejes de coordenadas, el eje horizontal recibe el nombre
de eje x o de abscisas, mientras que el eje vertical recibe el nombre de eje y o de ordenadas,
en donde “x” representa la variable independiente o de entrada y “y” representa la variable
dependiente o de salida.

La variable de entrada “x” se mide o controla para pronosticar la variable de salida “y”. Suponga
que se está probando un nuevo medicamento al suministrar diferentes dosis se puede observar
el tiempo de recuperación de los pacientes.

En la práctica es común encontrar una relación entre dos o más variables. Por ejemplo el peso
de una persona depende en cierto grado de su estatura, la circunferencia de los círculos depende
de su radio.

Ejemplo 1

La siguiente tabla contiene las estaturas redondeadas en pulgadas y los pesos redondeados en
libras de una muestra de 12 estudiantes hombres obtenida al azar de los estudiantes de primer
año de una universidad estatal.

Estatura
(x) 70 63 72 60 66 70 74 65 62 67 65 68
pulgadas
Peso
155 150 180 135 156 168 178 160 132 145 139 152
(y) libras

Se pide construir el diagrama de dispersión.

Solución

El diagrama de dispersión se obtiene al graficar los pares ordenados compuestos por estatura y
peso (x, y) sobre un plano cartesiano.
Ejemplo 2

La siguiente tabla contiene las estaturas redondeadas en pulgadas y los pesos redondeados en
libras de una muestra de 12 estudiantes hombres obtenida al azar de los estudiantes de primer
año de una universidad estatal.

(x) Peso libras 155 150 180 135 156 168 178 160 132 145 139 152
(y) Estatura
70 63 72 60 66 70 74 65 62 67 65 68
pulgadas

Se pide construir el diagrama de dispersión.

Solución

El diagrama de dispersión se obtiene al graficar los pares ordenados compuestos por peso y
estatura (x, y) sobre un plano cartesiano.
Como podemos observar en los ejemplos anteriores relacionados con el peso y la estatura,
cualquiera de ellas podría utilizarse como variable de entrada y la otra como variable de salida,
dependiendo de la pregunta que se formule o de la indicación de cual debemos tomar como
variable de entrada o salida.

La regresión lineal es un modelo matemático cuyo objetivo es desarrollar una ecuación que
permite describir la relación entre dos variables, la variable dependiente “y” que se desea predecir
basado en la variable independiente “x”.

En la regresión lineal simple solo utilizamos una variable independiente, para predecir la variable
dependiente, y la relación la establecemos por medio de una línea recta.

El modelo más sencillo de regresión lineal o regresión simple, sólo involucra dos variables o es
bivariado. Aunque hay otros modelos que pueden hacer análisis de más de una variable
independiente a los que se les conoce como modelos de regresión múltiple.

Un análisis de regresión lineal permite identificar la relación que hay entre una variable
dependiente y una variable independiente la cual se aproxima por medio de una línea recta que
establece una regla de correspondencia, que además permite cuantificar los cambios que sufre la
variable dependiente, cuando se incrementa o disminuye la variable independiente.

El método de mínimos cuadrados nos permite encontrar la recta de mejor ajuste entre la variable
independiente “x” y la variable dependiente “y” eliminando el juicio subjetivo al trazar una recta
que permita ajustar las variables independiente y dependiente.

La ecuación de la recta de mínimos cuadrados es de la forma donde:


Representa el valor pronosticado de “y” que corresponde a un valor particular de “x”, y requiere
que encontremos las constantes que representa la ordenada al origen y que representa la
pendiente.

La recta de mínimos cuadrados: Determina una ecuación de regresión lineal al minimizar


la suma de los cuadrados de las distancias verticales entre los valores reales de “y” y los
valores pronosticados de “y”.

La expresión para obtener la pendiente de la recta de regresión lineal es:

En forma alternativa mediante la expresión

Suma de cuadrados de “xy”


Suma de cuadrados de “x”

La expresión para obtener la ordenada al origen de la recta de regresión lineal es:


En forma alternativa con la expresión

Por lo general el primer paso en el análisis de regresión lineal es construir un diagrama o gráfica
de dispersión, lo que nos proporciona información preliminar acerca de la forma y dispersión de
los datos, además sirve para saber qué tan bien ajusta la recta a los datos.

El siguiente diagrama o gráfica de dispersión muestra la relación directa entre dos variables una
independiente “x” llamadas de venta y la otra variable dependiente “y” ventas realizadas.

Sobre esta gráfica o diagrama de dispersión podríamos trazar rectas que probablemente
ajustarían los puntos, sin embargo, estas rectas trazadas con una regla tienen una desventaja su
posición se basa en el criterio de quien las traza.

Las rectas trazadas en la siguiente gráfica o diagrama de dispersión presentan los criterios de
cuatro personas que parecen razonables sin embargo, cada una de ellas presenta un estimado
de unidades vendidas para un número particular de llamadas.
Al hacer uso del análisis de regresión lineal podemos encontrar la ecuación de la recta que
describe de mejor manera la relación entre las dos variables, ya que se encontraron estos datos
se traza la recta de regresión lineal sobre el diagrama de dispersión, como se muestra en la
siguiente gráfica.

Ejemplo
La siguiente tabla contiene las estaturas redondeadas en pulgadas y los pesos redondeados en
libras de una muestra de 12 estudiantes hombres obtenida al azar de los estudiantes de primer
año de una universidad.
Estatura pulgadas(x) 70 63 72 60 66 70 74 65 62 67 65 68
Peso libras(y) 155 150 180 135 156 168 178 160 132 145 139 152

Se pide determinar la ecuación de regresión lineal

Solución
Antes de comenzar a buscar la ecuación para la recta de mejor ajuste, es útil trazar el diagrama
de dispersión lo cual nos da una idea visual de la relación entre las dos variables. El diagrama de
dispersión se obtiene al graficar los pares ordenados compuestos por estatura y peso (x, y) sobre
un plano cartesiano.

El diagrama de dispersión para los datos de estaturas y pesos de los doce hombres estudiantes
del primer año de una universidad estatal nos indica que el modelo lineal es apropiado.

Para encontrar la recta de mejor ajuste, primero necesitamos completar los cálculos preliminares,
como se ve en la siguiente tabla

(X)
Estatura (y) Peso
pulgadas Libras
70 155 4900 10850
63 150 3969 9450
72 180 5184 12960
60 135 3600 8100
66 156 4356 10296
70 168 4900 11760
74 178 5476 13172
65 160 4225 10400
62 132 3844 8184
67 145 4489 9715
65 139 4225 9035
68 152 4624 10336
∑x=802 ∑y=1850 ∑x =53792
2 ∑xy=124258

En segundo término, necesitamos hallar la pendiente y la ordenada al origen

La ecuación de la recta de mejor ajuste es

Para trazar la recta de mejor ajuste sobre el diagrama de dispersión necesitamos localizar dos
puntos. Sustituya dos valores de “x” por ejemplo 60 y 73 en la ecuación de la recta de mejor ajuste
y obtenga .

Graficando estos dos puntos sobre el diagrama de dispersión podemos trazar la recta de regresión
lineal como se muestra a continuación.
Un grupo de seis tiendas desea establecer la relación que hay entre el número de anuncios y las
ventas por día, en la siguiente tabla se muestra el número de anuncios que realizaron y las ventas
que se efectuaron cada una de las seis tiendas en un día. Así mismo desean saber qué pasaría
si se hicieran 15 anuncios.

Publicidad
Ventas
Tie nda comerciales
(Y)
por día (X)
1 5 31
2 11 40
3 4 30
4 5 34
5 3 25
6 2 20
Solución:
Lo que nos piden es encontrar la relación que hay entre el número de anuncios y las ventas,
además de estimar cuantas ventas se harían cuando se hagan 15 anuncios. Gráficamente lo
podemos ver por medio de un diagrama de dispersión
La forma que tenemos para establecer esta relación es una ecuación de regresión lineal simple
que podemos obtener mediante las expresiones:

Suma de cuadrados de “xy”


Suma de cuadrados de “x”

La expresión para obtener la ordenada al origen de la recta de regresión lineal es:

Una forma de hacerlo es por medio de una tabla resumen como la que se presenta a continuación
donde se resumen los cálculos, para sustituirlos en nuestras ecuaciones y facilitar los cálculos.

Publicidad
Ventas
Tienda comerciales XY
(Y)
por día (X)
1 5 31 155 25 961
2 11 40 440 121 1600
3 4 30 120 16 900
4 5 34 170 25 1156
5 3 25 75 9 625
6 2 20 40 4 400
30 180 1000 200 5642
Por lo tanto la recta de regresión lineal queda determinada por con lo que podemos
estimar cuantas ventas se pueden hacer cuando se hacen 15 anuncios
por lo tanto cuando se hacen 15 anuncios se espera que se hagan 50 ventas.

La recta de regresión lineal queda representada como se muestra en la siguiente gráfica

Ejemplo 3:
La siguiente tabla muestra el número de nacimientos de 1990 a 1996. Se pide determinar la
ecuación de regresión lineal.
Año (x) 1990 1991 1992 1993 1994 1995 1996
Nacimientos (y) 16600 16300 15900 15500 15200 14800 14500

Solución:
Antes de comenzar a buscar la ecuación para la recta de mejor ajuste, es útil trazar el diagrama
de dispersión lo cual nos da una idea visual de la relación entre las dos variables. El diagrama de
dispersión se obtiene al graficar los pares ordenados compuestos por año y nacimientos (x, y)
sobre un plano cartesiano.
El diagrama de dispersión para los datos de estaturas y pesos de los doce hombres estudiantes
del primer año de una universidad estatal nos indica que el modelo lineal es apropiado.

Para encontrar la recta de mejor ajuste, primero necesitamos completar los cálculos
preliminares, como se ve en la siguiente tabla

Año Nacimientos
(x) (y)
1990 16600 3960100 275560000 33034000
1991 16300 3964081 265690000 32453300
1992 15900 3968064 252810000 31672800
1993 15500 3972049 240250000 30891500
1994 15200 3976036 231040000 30308800
1995 14800 3980025 219040000 29526000
1996 14500 3984016 210250000 28942000
13,951 108,800 27,804,371 1,694,640,000 216,828,400

(∑ 𝑋𝑋)2 (13951)2
𝑆𝑆𝑆𝑆𝑋𝑋 = ∑ 𝑥𝑥 2 − 𝑛𝑛
= 27804371 − 7
= 28

En segundo término, necesitamos hallar la pendiente y la ordenada al origen

La ecuación de la recta de mejor ajuste es


Para trazar la recta de mejor ajuste sobre el diagrama de dispersión necesitamos localizar dos
puntos. Sustituya dos valores de “x” por ejemplo 1990 y 1997 en la ecuación de la recta de mejor
ajuste y obtenga 𝑦𝑦�.

𝑦𝑦� = −357.14𝑥𝑥 + 727328.45


= (−357.14)(1990) + 727328.45

Graficando estos dos puntos sobre el diagrama de dispersión podemos trazar la recta de
regresión lineal como se muestra a continuación.

En la recta de regresión lineal, la pendiente de la recta puede presentar cualquiera de estos tres
casos:

Regresión lineal con pendiente positiva Regresión lineal con pendiente negativa:
Recordemos, un diagrama de dispersión es una representación gráfica de la relación entre dos
variables cuantitativas y se acostumbra presentar está relación como pares ordenados (x, y)
sobre un plano cartesiano.

La regresión lineal es un proceso con el que se determina una ecuación de regresión o modelo
matemático que se puede utilizar para pronosticar el valor de la variable dependiente “y” basada
en el valor de la variable independiente “x”.

La regresión lineal simple sólo examina una relación directa entre dos variables, y esta relación
entre las variables se aproxima mediante una línea recta.

El coeficiente de correlación permite determinar qué tan cercanos se encuentran los pares
ordenados de una línea recta, si fueran representados en una gráfica que contenga el diagrama
de dispersión y la recta de regresión lineal para el conjunto de datos.

El coeficiente de correlación lineal puede tomar valores que se encuentran en el intervalo de


un coeficiente cercano a -1 o 1 indica que los pares ordenados de datos están cercanos
a una línea recta, y por lo tanto existe una buena relación entre las variables, un coeficiente
cercano a 0 (cero) indica que no existe una buena relación entre las variables, y cuando el
coeficiente de correlación adopta los valores -1 o 1 decimos que existe una correlación perfecta
y por lo tanto los datos se encuentran sobre la recta de regresión lineal, si por el contrario el
coeficiente de correlación adopta un valor de 0 (cero) no existe correlación lineal.
No existe correlación

El coeficiente de correlación se puede determinar mediante la expresión:

Suma de cuadrados de “xy”

Suma de cuadrados de “x”

Suma de cuadrados de y

Número de observaciones

Ejemplo 1
La siguiente tabla contiene las estaturas redondeadas en pulgadas y los pesos redondeados en
libras de una muestra de 12 estudiantes hombres obtenida al azar de los estudiantes de primer
año de una universidad.

Estatura pulgadas(x) 70 63 72 60 66 70 74 65 62 67 65 68
Peso libras(y) 155 150 180 135 156 168 178 160 132 145 139 152

Se pide determinar el coeficiente de correlación lineal


Solución
Para encontrar el coeficiente de correlación lineal, primero necesitamos completar los cálculos
preliminares, como se ve en la siguiente tabla

(X)
Estatura (y)
pulgadas Peso
Libras
70 155 4900 24025 10850
63 150 3969 22500 9450
72 180 5184 32400 12960
60 135 3600 18225 8100
66 156 4356 24336 10296
70 168 4900 28224 11760
74 178 5476 31684 13172
65 160 4225 25600 10400
62 132 3844 17424 8184
67 145 4489 21025 9715
65 139 4225 19321 9035
68 152 4624 23104 10336
802 1850 53792 287868 124258

Al substituir estos valores en la siguiente expresión obtenemos el coeficiente de


correlación:
Podemos observar que la relación entre la variable estatura “x” y peso “y” es de 0.86 positiva lo
que quiere decir que los valores tienen una muy fuerte relación como lo podemos ver en la gráfica
siguiente donde se muestra la gráfica de la dispersión y la recta de regresión lineal

Ejemplo 2:
Un grupo de seis tiendas desea establecer la relación que hay entre el número de anuncios y las
ventas por día, en la siguiente tabla se muestra el número de anuncios que realizaron y las ventas
que se efectuaron cada una de las seis tiendas en un día. Se pide determinar el coeficiente de
correlación lineal.

Publicidad
Ventas
Tie nda comerciales
(Y)
por día (X)
1 5 31
2 11 40
3 4 30
4 5 34
5 3 25
6 2 20

Solución:
Para encontrar el coeficiente de correlación lineal, una forma de hacerlo es por medio de una
tabla resumen como la que se presenta a continuación donde se resumen los cálculos, para
sustituirlos en nuestras ecuaciones y facilitar los cálculos.

Publicidad
Ventas
Tienda comerciales XY
(Y)
por día (X)
1 5 31 155 25 961
2 11 40 440 121 1600
3 4 30 120 16 900
4 5 34 170 25 1156
5 3 25 75 9 625
6 2 20 40 4 400
30 180 1000 200 5642

Al substituir estos valores en la siguiente expresión obtenemos el coeficiente de


correlación:

Por lo tanto, el coeficiente de correlación es de 0.91 positiva lo que quiere decir que los valores
tienen una muy fuerte relación como lo podemos ver en la gráfica siguiente donde se muestra la
gráfica de la dispersión y la recta de regresión lineal.
Ejemplo 3:
La siguiente tabla muestra el número de nacimientos de 1990 a 1996. Se pide determinar la
ecuación de regresión lineal.

Año (x) 1990 1991 1992 1993 1994 1995 1996


Nacimientos (y) 16600 16300 15900 15500 15200 14800 14500

Solución:
Para encontrar el coeficiente de correlación lineal, una forma de hacerlo es por medio de una
tabla resumen como la que se presenta a continuación donde se resumen los cálculos, para
sustituirlos en nuestras ecuaciones y facilitar los cálculos.

Año Nacimientos
(x) (y)
1990 16600 3960100 275560000 33034000
1991 16300 3964081 265690000 32453300
1992 15900 3968064 252810000 31672800
1993 15500 3972049 240250000 30891500
1994 15200 3976036 231040000 30308800
1995 14800 3980025 219040000 29526000
1996 14500 3984016 210250000 28942000
13,951 108,800 27,804,371 1,694,640,000 216,828,400

Al substituir estos valores en la siguiente expresión obtenemos el coeficiente de correlación:

r
El coeficiente de determinación es el cuadrado del coeficiente de correlación y se representa por
y la expresión que lo determina es la siguiente:

Y representa el porcentaje de reducción en la variación total en el experimento al utilizar la


ecuación de regresión lineal en lugar de ignorar “x” y usar la media muestral para predecir la
variable de respuesta “y”

Para el ejemplo 1 el coeficiente de determinación es 𝑟𝑟 2 = 0.862 = 0.74


Para el ejemplo 2 el coeficiente de determinación es 𝑟𝑟 2 = 0.912 = 0.83
Para el ejercicio 3 el coeficiente de determinación es 𝑟𝑟 2 = −12 = 1
Error estándar de estimación

El error estándar de la estimación es un estadístico que mide la variabilidad de los valores reales
de Y con respecto a los valores estimados de Y que se presenta alrededor de la línea de
predicción.

También podría gustarte