Está en la página 1de 10

Elaborado por Jairo Alonso Moreno Montagut

UNIDAD 2: REGRESIONES Y CORRELACIONES

1. Concepto de correlación y regresión

En este apartado trataremos la relación que existe entre dos variables (x, y). Por ejemplo,
resolveremos cuestiones como: ¿Existe relación entre los promedios de calificación en bachillerato
y en universidad? ¿Existe relación entre lo que una empresa gasta en publicidad y el importe de
sus ventas? ¿Existe relación entre años de experiencia en el trabajo y la productividad? ¿cuál es la
ecuación que mejor representa una serie de datos?

Para resolver estas cuestiones examinaremos en primera instancia el concepto de correlación, más
concretamente abordaremos el significado de análisis de correlación, luego, se estudiará el
diagrama que genera los distintos (x, y) dados para ser analizados a través de su relación:
diagrama de dispersión; se calculará o determinará a través de fórmulas estadísticas el grado de
relación que existe entre las dos variables involucradas: coeficiente de correlación y el de
determinación. Finalmente, se hallará a través del método de mínimos cuadrados la ecuación
estadística que mejor representa la serie de datos que se nos den para su estudio: Análisis de
regresión.

Análisis de correlación

El análisis de correlación describe la fuerza con que se presenta una relación, en este caso, entre
dos variables (x, y), para ello se utiliza medidas conocidas como coeficiente de correlación de
Pearson y de determinación.

Coeficiente de correlación de Pearson: es una de las técnicas estadísticas empleadas para medir la
intensidad de la relación (correlación) entre las dos variables. Su importancia radica en que nos
permite medir a través de un número (coeficiente) la intensidad de la relación entre las variables.
Este número, llamado coeficiente de Pearson, que denotaremos como r, está comprendido entre
-1 y +1 pasando por cero.

La interpretación de este coeficiente se hace emitiendo un juicio subjetivo de acuerdo a su valor.


Así: (mapa conceptual)
Por ejemplo, si se calcula un r obteniéndose un valor de +0.08 indica que la relación es muy débil e
igual sucede si el valor r=-0.08. Por el contrario, si se obtiene un valor de +0.91 se dice que la
relación es intensa o fuerte y directa y si r= -0.91 la relación es intensa o fuerte pero indirecta.

Gráficamente se tiene lo siguiente:

la gráfica a, corresponde a una


correlación positiva perfecta, es
decir r=1, por todos los puntos
(x,y) dados pasa una recta con
pendiente positiva.

La gráfica b, corresponde a una


correlación negativa perfecta, es
decir r=-1, por todos los puntos
(x, y) dados pasa una recta con
pendiente negativa, y la gráfica c, corresponde a una situación en la que no existe relación alguna
entre las dos variables (x, y), r=0.

Una de las fórmulas para hallar el valor del coeficiente de correlación de Pearson es la siguiente:
𝑛 ∑ 𝑥𝑦−∑ 𝑥 ∑ 𝑦
1) 𝑟 = dónde: n es el número de pares de observaciones.
√[𝑛 ∑ 𝑥 2−(∑ 𝑥 2)[𝑛 ∑ 𝑦 2 −(∑ 𝑦)2]

∑ 𝑥, es la suma de valores de la variable x.

∑ 𝑦, es la suma de valores de la variable y.

∑ 𝑥 2 , es la suma de valores de x elevados al cuadrado.

(∑ 𝑥)2 , es el cuadrado de la suma de valores de x.

∑ 𝑦 2 , es la suma de valores de y elevados al cuadrado.

(∑ 𝑦)2 , es el cuadrado de la suma de valores de y.


Ejemplo 1. Se desea establecer la relación que existe entre la puntuación de prueba (x) y las ventas
semanales (y) de 5 vendedores listados en la siguiente tabla:

Puntuación de prueba Ventas semanales


x (miles de dólares)
Vendedor y
A 4 5
B 7 12
C 3 4
D 6 8
E 10 11
Solución:

La fuerza o intensidad de la relación se determina hallando el valore de r. Para ello basta con
añadir las columnas necesarias y gestionarlas para leer luego los totales que alimentarán la
fórmula.

Puntuación de Ventas
prueba semanales
(miles de
Vendedor dólares)
x y x2 xy y2
A 4 5 16 20 25
B 7 12 49 84 144
C 3 4 9 12 16
D 6 8 36 48 64
E 10 11 100 110 121
Total 30 40 210 274 370

Tomamos la fórmula de r y reemplazamos los valores totales obtenidos de la tabla gestionada:


𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦 5(274) − (30)(40)
𝑟= =
√[𝑛 ∑ 𝑥 2 − (∑ 𝑥 2 )[𝑛 ∑ 𝑦 2 − (∑ 𝑦)2 ] √[5(210) − (30)2 ][5(370) − (40)2

170
= = 0.88, este valor indica que la relación entre las dos variables (x,y) es muy intensa
√[150][250]
positiva y directa, es decir hay una relación muy intensa entre las puntuaciones de prueba y las
ventas semanales. Para el director de ventas de esta empresa es una buena herramienta para
determinar las ventas semanales.

En ejemplos posteriores se verá como determinar el coeficiente de Pearson usando otras


fórmulas; sea cualquiera de las fórmulas usadas el coeficiente siempre dará el mismo valor.

Coeficiente de determinación: en ocasiones es conveniente calcular el coeficiente de


determinación para evitar el juicio subjetivo que se obtiene calculando Pearson.
El coeficiente de determinación, que denominaremos como R2 se interpreta en porcentaje de
relación entre las variables. Estadísticamente el coeficiente de Pearson y el de determinación
están racionados con la siguiente ecuación: 2) 𝑅2 = 𝑟 2 .

En el ejemplo anterior se obtuvo una r=0.88 si se pide el coeficiente de determinación vasta


reemplazar en la ecuación anterior para obtenerlo, así: 𝑅2 = 𝑟 2 = 0.882 = 0.7744, lo que
significa que la relación entre las puntuaciones de prueba y las ventas semanales es de 77.44%.

2. Diagrama de dispersión: es una gráfica que presenta la relación entre las dos variables de
interés.

Cuando se nos da una tabla que registra los valores de las variables (x,y), estas parejas de datos se
ubican en un plano cartesiano que puede ser útil para una estadístico con experiencia para
determinar qué tipo de relación pueda existir entre estas y así determinar qué modelo
matemático mejor los representa.

Continuando con el ejemplo que se ha venido desarrollando se presenta el gráfico de punto o


diagrama de puntos:

Diagrama 1.

Puntuación de prueba-ventas semanales


ventas semanales (miles de dólares)

14
12
10
8
6
4
2
0
0 2 4 6 8 10 12
puntuación de prueba

Este punto corresponde a la pareja de valores del vendedor C (3, 4). Recuerde que el primer
valor corresponde a x (puntuación de prueba) que es 3, y el segundo a y (ventas semanales) que es
4. Así se procede con todos los valores de parejas de los 5 vendedores.
3. Regresión lineal: ecuación de la recta y pendiente, método de mínimos cuadrados, método de
covarianza.

Análisis de regresión

Una vez hecho el análisis de correlación, se procede hallar la mejor ecuación que representa los
datos que se nos dan. La técnica empleada para hallar esta ecuación y proporcionar las
estimaciones se conoce como análisis de regresión.

La ecuación que mejor representa los datos se conoce como ecuación de regresión lineal puede
ser una ecuación lineal con ajuste a una línea recta, una ecuación cuadrática o juste parabólico y
una ecuación exponencial o ajuste exponencial, entre las más importantes.

Para visualizar la forma de regresión se debe trazar el diagrama de puntos y según la dispersión de
los puntos y la experiencia se determina la mejor ecuación que representa estos datos (parejas de
puntos)

Ajuste de línea recta: en el caso que se determine realizar un ajuste de línea recta, la mejor de
ellas será la que se determina usando la técnica del método de mínimos cuadrados.

Principio de los mínimos cuadrados: este principio determina la ecuación de regresión al


minimizar la suma de los cuadrados de las distancias verticales entre los valores reales de “y” y los
valores pronosticados de y’. Este concepto esta implícitamente involucrado cuando se usa
cualquier método para hallar el ajuste de línea recta. El lector debe investigar más sobre este
concepto y tenerlo siempre presente cuando halle la regresión lineal de ajuste a una línea recta.

Forma general de la ecuación de regresión de línea recta: para hallar la regresión de línea recta
existe varios métodos. En este apartado la hallaremos a través del método de la covarianza y a
través de la ecuación de la línea recta que tendrá la forma de 3) 𝑦 ′ = 𝑎 + 𝑏𝑥.

Método de la covarianza: este método hace uso de algunos conceptos que involucran medidas de
dispersión y de posición estudiadas en el curso de estadística descriptiva y en el que aquí se
recordará, brevemente, en el momento de hallar sus valores a través de un ejemplo planteado.

La covarianza es una medida de dispersión que puede dar valores positivos o negativos, diferente
a la varianza que siempre son valores positivos.
La ecuación matemática a la que se debe llegar usando este método es:
𝑐𝑜𝑣
4) 𝑦 ′ − 𝑦𝑚 = 𝑠2 (𝑥 − 𝑥𝑚 ) , donde:
𝑥

∑𝑦
𝑦𝑚 es la media de la variable dependiente y’, se calcula como: 5) 𝑦𝑚 = 𝑛
con n igual al número
de datos que tenga el ejercicio dado a resolver.
∑𝑥
𝑥𝑚 es la media de la variable dependiente x, se calcula como: 6) 𝑥𝑚 = con n igual al número
𝑛
de datos que tenga el ejercicio dado a resolver.
∑ 𝑥 2−𝑛(𝑥𝑚)2
𝑠𝑥2 es la varianza en x, se calcula como: 7) 𝑠𝑥2 = 𝑛
, donde ∑ 𝑥 2 es la suma de los valores
de la variable x elevados al cuadrado.
∑(𝑥−𝑥𝑚)(𝑦−𝑦𝑚 )
Cov, es la covarianza que se calcula como: 8) 𝑐𝑜𝑣 = 𝑛
.

Con todos los valores hallados se reemplaza en la fórmula 4 y se despeja y’ que será la recta de
regresión por el método de la covarianza.

El segundo método que se usará para hallar la ecuación de regresión es el de línea recta de la
forma: 3) 𝑦 ′ = 𝑎 + 𝑏𝑥, donde:

𝑦 ′ es el valor de la estimación de la variable y, para un valor x seleccionado.

a es la intersección de la recta con el eje y’ cuando x=0. Es decir, es el valor de y cuando la recta de
regresión y’ cruza el eje y (lo corta).

b es la pendiente de la recta de regresión y’.

x es cualquier valor de la variable independiente que se seleccione.

Para llegar a la forma de la ecuación 3, se debe hallar los valores de a y b como sigue:

a) a través de generar un sistema de ecuaciones de 2X2

10) ∑ 𝑦 = 𝑏 ∑ 𝑥 + 𝑛𝑎

11) ∑ 𝑥𝑦 = 𝑏 ∑ 𝑥 2 + 𝑎 ∑ 𝑥

El sistema de ecuaciones se resuelve usando cualquiera de los métodos algebraicos conocidos


para ello o a través de determinantes, método de Cramer.

b) a través de fórmulas para hallar a y b como sigue:


𝑛 ∑ 𝑥𝑦 − ∑ 𝑥 ∑ 𝑦
12. 𝑏 = 2
𝑛 ∑ 𝑥 − (∑ 𝑥)2
∑𝑦 − 𝑏∑𝑥
13. 𝑎 =
𝑛
Donde:

X es el valor de la variable independiente.

Y es el valor de la variable dependiente.

n es el número de elementos de la muestra o el número de datos dados (x,y).

La importancia de hallar una función de regresión es hacer pronósticos con ella que pueda servir
para la toma de decisiones. Por ejemplo, en el caso de la puntuación de prueba (variable
independiente x) y las ventas semanales (variable dependiente y) el director de ventas puede usar
la función de regresión para estimar las ventas semanales con el puntaje obtenido de un
vendedor; vasta reemplazar el valor del puntaje de prueba en la recta de regresión hallada.

A continuación, se continuará con el desarrollo del ejemplo 1, en el que se aplicará los conceptos
teóricos expuestos. Hallaremos el diagrama de dispersión, el coeficiente de Pearson y su
interpretación, el coeficiente de determinación y su interpretación, luego, hallaremos la regresión
lineal usando los diferentes métodos expuestos y finalizaremos con el hallazgo de un pronóstico.

Con la tabla gestionada:

Puntuación de Ventas
prueba semanales
(miles de
dólares)
Vendedor x y x2 xy y2
A 4 5 16 20 25
B 7 12 49 84 144
C 3 4 9 12 16
D 6 8 36 48 64
E 10 11 100 110 121
Total 30 40 210 274 370

4. Calculo del coeficiente de Pearson: usando el método de la covarianza se puede hallar el


𝑐𝑜𝑣
coeficiente de Pearson con la siguiente ecuación: 9) 𝑟 = 𝑠 𝑠 donde:
𝑥 𝑦

Cov es la covarianza.

𝑠𝑥 es la desviación estándar en x, que resulta de sacar la raíz cuadrada de la varianza en x.

𝑠𝑦 es la desviación estándar en y, que resulta de sacar la raíz cuadrada de la varianza en y.


Cualquiera sea la ecuación usada para hallar r (la 1 o la 9) el valor debe ser igual o
aproximadamente igual.

Ya se calculó el coeficiente de Pearson con la ecuación 1. Se obtuvo el valor r=0.88 con este valor
se calculó el coeficiente de determinación R2, usando la ecuación 2. R2=0.7744 que expresado en
porcentaje es 77.44%. El diagrama de puntos puede verse en el Diagrama 1.

Como primera conclusión se puede inferir que la relación entre las dos variables es buena por lo
que se procederá seguidamente a determinar la función de regresión de línea recta para con ella
hallar un pronóstico.

Método de la covarianza: la fila de totales es la que se usará para hallar todos los valores
requeridos para hallar la regresión de línea recta.
𝑐𝑜𝑣
4. 𝑦 ′ − 𝑦𝑚 = (𝑥 − 𝑥𝑚 )
𝑠𝑥2
𝑐𝑜𝑣
Despejamos y’ resultando 4. 𝑦 ′ = 𝑠𝑥2
(𝑥 − 𝑥𝑚 ) + 𝑦𝑚

Se comienza hallando los promedios:


∑ 𝑦 40
5. 𝑦𝑚 = = =8
𝑛 5
∑𝑥 30
6. 𝑥𝑚 = = =6
𝑛 5
Con los promedios se halla la varianza en x, usando la ecuación 7:
∑ 𝑥 2−𝑛(𝑥𝑚) 2 210−5(6)2 30
7. 𝑠𝑥2 = = = =6
𝑛 5 5

∑(𝑥−𝑥𝑚)(𝑦−𝑦𝑚 )
Seguidamente se halla la covarianza: 9. 𝑐𝑜𝑣 =
𝑛

para esto se debe agregar las siguientes columnas x-xm, y-ym y (x-xm)(y-ym) y se calculan sus totales:
Puntuación Ventas
de prueba semanales
(miles de
dólares)
Vendedor x y x2 xy y2 x-xm y-ym (x-xm)( y-ym)
A 4 5 16 20 25 4-6=-2 5-8=-3 (-2)(-3)=6
B 7 12 49 84 144 1 4 4
C 3 4 9 12 16 -3 -4 12
D 6 8 36 48 64 0 0 0
E 10 11 100 110 121 4 3 12
Total 30 40 210 274 370 0 0 34
∑(𝑥 − 𝑥𝑚 )(𝑦 − 𝑦𝑚 ) 34
9. 𝑐𝑜𝑣 = = = 6.8
𝑛 5
Con la ecuación 4, se procede hallar el modelo o ecuación de regresión de línea recta simplemente
reemplazado los valores hasta ahora obtenidos:
𝑐𝑜𝑣 6.8
4. 𝑦 ′ = 𝑠𝑥2
(𝑥 − 𝑥𝑚 ) + 𝑦𝑚 =
6
(𝑥 − 6) + 8, se destruye el paréntesis y se realizan las sumas
restas necesarias para llegar a la regresión pedida: 𝑦 ′ = 1.133(𝑥 − 6) + 8 = 1.133𝑥 − 6.798 + 8

𝑦 ′ = 1.133𝑥 + 1.202 ahora bien, con esta ecuación se podrá pronosticar las ventas para
un candidato a un puesto en ventas, que calificó con 6 en la
prueba. Para ello vasta con reemplazar la variable x por el valor de
6 en el modelo de regresión hallado:
𝑦 ′ = 1.133𝑥 + 1.202 = 1.133(6) + 1.202 = 8. Es decir, se espera que las ventas sean de 8000
dólares semanales.

Finalmente, se calcula el coeficiente de Pearson usando la ecuación número 9, que debe dar el
𝑐𝑜𝑣
mismo valor de 0.88 hallado con la ecuación 1. Veamos: 9. 𝑟 = , para hallar el valor de Pearson
𝑠𝑥 𝑠𝑦
se necesita hacer los cálculos de las desviaciones estándar tanto de x como de y.

Recordando que las desviaciones estándar son las raíces cuadradas de las varianzas.
∑ 𝑥 2−𝑛(𝑥𝑚)2 210−5(6)2 30
𝑠𝑥2 = = = = 6, 𝑠𝑥 = √𝑠𝑥 2 = √6 = 2.45
𝑛 5 5

∑ 𝑦 2 −𝑛(𝑦𝑚) 2 370−5(8)2
La varianza en x se calcula con la siguiente ecuación: 𝑠𝑦2 = = = 10, la
𝑛 5

desviación estándar en y es: 𝑠𝑦 = √𝑠𝑦 2 = √10 = 3.16

𝑐𝑜𝑣 6.8
𝑟= = (2.45)(3.16) = 0.88.
𝑠𝑥𝑠𝑦

Seguidamente se procederá a resolver el mismo ejercicio por el segundo método, inciso a), que
consiste en plantear un sistema de ecuaciones 2X2 y resolverlo

10. ∑ 𝑦 = 𝑏 ∑ 𝑥 + 𝑛𝑎, 𝑟𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒: 40 = 30𝑏 + 5𝑎

11. ∑ 𝑥𝑦 = 𝑏 ∑ 𝑥 2 + 𝑎 ∑ 𝑥 , 𝑟𝑒𝑒𝑚𝑝𝑙𝑎𝑧𝑎𝑛𝑑𝑜 𝑠𝑒 𝑡𝑖𝑒𝑛𝑒: 274 = 210𝑏 + 30𝑎

Se usará para resolver el sistema el método de Cramer que hace uso de determinantes:

Primero hallamos el determinante del sistema:


30 5 | ( )( ) ( )(
∆𝑠 = | = 30 30 − 5 210) = −150, la primera columna 30 y 210 corresponden a
210 30
los coeficientes que acompañan a la variable b y la columna 5 y 30 son los coeficientes que
acompañan a la variable a. 30 por 30 es la diagonal principal que se le resta la diagonal secundaria
que es la multiplicación de 5 por 210.

Seguidamente hallamos el determinante de x=b y de y=a:


40 5 | ( )( ) ( )(
Determinante de la x: ∆𝑥 = ∆𝑏 = | = 40 30 − 5 274) = −170. la primera
274 30
columna 40 y 274 corresponden a los términos independientes de cada ecuación y la columna 5 y
30 son los coeficientes que acompañan a la variable x=b. 40 por 30 es la diagonal principal a la que
se le resta la diagonal secundaria, que es la multiplicación de 5 por 274.
30 40
Determinante de la y: ∆𝑦 = ∆𝑎 = | | = (30)(274) − (40)(210) = −180. La primera
210 274
columna 30 y 210 corresponden a los términos de la variable b de cada ecuación y la columna 40 y
274 son los términos independientes de cada ecuación. 30 por 274 es la diagonal principal a la que
se le resta la diagonal secundaria, que es la multiplicación de 40 por 210.

Seguidamente se calculan las variables a y b:


∆𝑥 −170
𝑏= = = 1.133
∆𝑠 −150
∆𝑦 180
𝑎= =− = 1.2. Finalmente, se calcula la regresión lineal reemplazando los valores de a y
∆𝑠 −170
b en la ecuación 3. 𝑦 ′ = 𝑎 + 𝑏𝑥. Entonces, 𝑦 ′ = 1.2 + 1.133𝑥 que la misma ecuación obtenida
con el método de la covarianza, la diferencia en el valor de a es debido a las aproximaciones
decimales entre un método y otro.

El sistema de ecuaciones se puede resolver también a través de las técnicas algebraicas de


sustitución, eliminación o igualación llegándose al mismo resultado.

Bibliografía
Ciro, M. (2012). Estadística y muestreo. Bogotá: Eco Ediciones.

Mason, R., & Lind, D. (1990). Estadística para Administración y Economía. México: Alfaomega.

También podría gustarte