Está en la página 1de 9

2.

11 Correlación Simple
Se define el concepto de correlación como la fuerza y sentido de asociación entre
dos variables aleatorias. Para calcular el coeficiente de correlación necesitamos,
pues, un parámetro que nos permita cuantificar esta relación. Para ello podemos
disponer de la covarianza, que indica el grado de variación conjunta de dos
variables aleatorias.

El problema de la covarianza es que su valor depende de las escalas de medición


de las variables, lo que nos impide realizar comparaciones directas entre distintos
pares de variables. Para evitar este problema, recurrimos a una solución que ya
nos es conocida y que no es otra que la estandarización. El producto de la
estandarización de la covarianza serán los coeficientes de correlación.

Todos estos coeficientes tienen algo en común: su valor oscila desde -1 a 1.


Cuánto más se aleje el valor de 0, mayor será la fuerza de la relación, que será
prácticamente perfecta cuando alcance -1 o 1. En el 0, que es el valor nulo, en
principio no existirá correlación entre las dos variables.

El signo del valor del coeficiente de correlación nos indicará la otra cualidad de la
relación entre las dos variables: el sentido. Cuando el signo sea positivo significará
que la correlación es directa: cuando una aumenta o disminuye, la otra lo hace
también en el mismo sentido. Si el signo es negativo, la correlación será inversa:
al cambiar una variable, la otra lo hará en el sentido opuesto (si una aumenta, la
otra disminuye, y viceversa).

Hemos visto hasta aquí dos de las características de la correlación entre dos
variables: la fuerza y el sentido. Existe una tercera, la forma, que depende del tipo
de línea que defina el mejor modelo de ajuste. En esta entrada nos vamos a
quedar con la forma más sencilla, que no es otra que la correlación lineal, en la
que la línea de ajuste es una recta, pero que sepáis que hay otros ajustes no
lineales.

Diagrama de dispersión correlación débil y fuerte:


Fuente: Ángel Prieto Benito, Matemáticas Acceso a CFGS diagrama de dispersión
(Prieto 2015)

Existen dos medidas para describir la correlación entre dos variables: el


coeficiente de determinación y el coeficiente de correlación.

2.12 Coeficiente muestral de determinación


es la proporción de la varianza total de la variable explicada por la regresión. Es
también denominado R cuadrado y sirve para reflejar la bondad del ajuste de un
modelo a la variable que se pretende explicar.

El coeficiente de determinación puede adquirir resultados que oscilan entre 0 y 1.


Así, cuando adquiere resultados más cercanos a 1, mayor resultará el ajuste del
modelo a la variable que se pretende aplicar para el caso en concreto. Por el
contrario, cuando adquiere resultados que se acercan al valor 0, menor será el
ajuste del modelo a la variable que se pretende aplicar y, justo por eso, resultará
dicho modelo menos fiable.

La fórmula del coeficiente de determinación es la siguiente:


2.13 Coeficiente Muestral de Correlación
El coeficiente de correlación es la medida específica que cuantifica la intensidad
de la relación lineal entre dos variables en un análisis de correlación. En los
informes de correlación, este coeficiente se simboliza con la r.

La raíz cuadrada del coeficiente de determinación muestral, es un índice


alternativo común del grado de asociación entre dos variables cuantitativas. Esta
mediad se llama coeficiente de correlación muestral (r) y es un estimador puntual
del coeficiente de correlación poblacional (ρ).

El coeficiente de correlación muestral es la segunda medida con que puede


describirse la eficacia con que una variable es explicada por otra, así pues, el
signo de r indica la dirección de la relación entre las dos variables X y Y.

El siguiente esquema representa adecuadamente la intensidad y la dirección del


coeficiente de correlación.

Fuente: Federico Albero Sosa, Enciclopedia Financiera correlación positiva y


correlación negativa (Albero 2015

El cálculo del coeficiente de correlación muestral se lleva a cavo con la siguiente


formula:
2.14 Intervalo de confianza
En estadística, se llama intervalo de confianza a un par o varios pares de números
entre los cuales se estima que estará cierto valor desconocido respecto de
un parámetro poblacional con un determinado nivel de confianza. Formalmente,
estos números determinan un intervalo, que se calcula a partir de datos de
una muestra, y el valor desconocido es un parámetro poblacional.

Como se ha visto, cuando se utilice el método de mínimos cuadrados, los


coeficientes de regresión, a y b son estimadores insesgados, eficientes y
consistentes de α y β, también aquí es muchas ocasiones es deseable establecer
intervalos de confianza.

Los intervalos de confianza se calculan con la siguiente fórmula:

2.15 Intervalo de predicción


un intervalo de predicción es una estimación de un intervalo de valores en el que
se producirá una observación futura con determinada probabilidad, dado lo que ya
se ha observado. Los intervalos de predicción se utilizan a menudo en análisis de
la regresión.

El intervalo de predicción se calcula con la siguiente fórmula:

2.16 Procedimientos para realizar un análisis de correlación lineal simple


1. Obtención y tabulación de los datos muestrales.
2. La información se gráfica en un diagrama de dispersión.
3. Calcular la pendiente y ordenada al origen.
4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
5. Se traza la línea estimada en el diagrama de dispersión.
6. Calcular el error estándar de estimación.
7. Calcular el coeficiente de determinación.
8. Determinar el coeficiente de correlación.
9. Determinar el intervalo de confianza.
10. Determinar el intervalo de predicción.

Por ejemplo:

Un gerente de ventas reunió los datos siguientes relacionados con las ventas
anuales en miles de quetzales y los años de experiencia de 7 vendedores. Estime
las ventas anuales para un vendedor con 5 años de experiencia.

Solución

a) Obtención y tabulación de los datos muéstrales.

X: Años de experiencia

Y: Ventas anuales en miles de quetzales

Tabulación de Datos

Vendedor X X Y
1 2 Q 60,000.00
2 2 Q 70,000.00
3 4 Q 80,000.00
4 4 Q 95,000.00
5 5 Q 90,000.00
6 6 Q 75,000.00
7 7 Q 100,000.00
∑ 30 Q 570,000.00
Fuente: Tabulación de datos muestrales de las ventas anuales en miles de
quetzales. Elaboración Propia.
b) Diagrama de dispersión

Diagrama de Dispercion
Q120,000.00

Q100,000.00

Q80,000.00

Q60,000.00

Q40,000.00

Q20,000.00

Q-
1 2 3 4 5 6 7 8

Fuente: Diagrama de dispersión de las ventas anuales en miles de quetzales.


Elaboración Propia.

c) Realizar los cálculos correspondientes y determinar la pendiente y


ordenada al origen.

Vendedor X X Y XY X˄2 Y˄2


1 2 Q 60.00 Q 120.00 4 Q 3,600.00
2 2 Q 70.00 Q 140.00 4 Q 4,900.00
3 4 Q 80.00 Q 320.00 16 Q 6,400.00
4 4 Q 95.00 Q 380.00 16 Q 9,025.00
5 5 Q 90.00 Q 450.00 25 Q 8,100.00
6 6 Q 75.00 Q 450.00 36 Q 5,625.00
7 7 Q 100.00 Q 700.00 49 Q 10,000.00
∑ 30 Q 570.00 Q 2,560.00 150 Q 47,650.00
Fuente: Tabulación de datos muestrales de las ventas anuales en miles de
quetzales. Elaboración Propia.

Ӯ = 570 / 7 = 81

 =30 /7 = 4

2560−7 ( 4 ) ( 81 )
b= =8
150−7 ( 4 ) ˄ 2
A= 81- 8(4) = 49

d) Ecuación que mejor se ajusta


Ӯ = 49+ 8(X)
Para un vendedor con 5 años de experiencia, sus ventas estimadas serian;
ӯ= 49+ 8(4) = 81 ventas anuales.

e) Trazo de línea estimada en el diagrama de dispersión

Diagrama de Dispercion
Q120.00

Q100.00

Q80.00

Q60.00

Q40.00

Q20.00

Q-
1 2 3 4 5 6 7 8

Fuente: Diagrama de dispersión de las ventas anuales en miles de quetzales.


Elaboración Propia.

f) Calcular el error estándar de estimación

Se= x=
√ ( 47650❑ ( 49∗570 )−( 8∗2560 ) ) = 7.68
7−2

g) Calcular el coeficiente de determinación

( 49∗570 ) + ( 8∗2560 )− (7∗81 ˄2 )


r 2=
47550−( 7∗81 ˄2 )

r2 =90.10 %
El 90% de las ventas anuales se debe a la experiencia de los vendedores y el
10% restante se debe a otros factores.

h) Calcular el coeficiente de correlación

r =√ 0.9010 = 0.9492

Este numero nos indica que las variantes X Y tienen una correlación positiva
intensa

i) Determine el intervalo de confianza al 95%

Yc=( 81 ±2.209 )
( 7.68
√7 )
=

78.7910 ≤Yc ≤83.2090

Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 5 años de experiencia están entre 78.7910 y 83.2090.

j) Determinar el intervalo de predicción para un vendedor con 9 de


experiencia se tiene:
7

Yp=(81± 2,209∗7.68) 1+ +¿ ¿ ¿
7
Yp=¿
64.0349 ≤Yp ≤ 97.9651
Se puede asegurar con un nivel de confianza que las ventas pronosticadas
de un vendedor de 9 años de experiencia están entre 64.03 y 967.96 miles
de quetzales anuales.

Egrafía

https://www.cienciasinseso.com/correlacion-simple/

https://www.sdelsol.com/glosario/coeficiente-de-determinacion/

https://es.wikipedia.org/wiki/Intervalo_de_confianza
https://sites.google.com/site/estadisticadescriptivaenedu/home/unidad-1/6---
regre

Conclusión

Entre las ventajas por la que sobresale el coeficiente de correlación respecto a


otras formas de medición de correlación, es la covarianza, los resultados
del coeficiente de correlación son entre -1 y +1; y siendo su simpleza para
comparar diferentes correlaciones de forma más directa y simple.

Recomendación

Se recomienda utilizar el coeficiente de correlación porque no presenta


complicaciones a los cambios en las unidades además podemos tomar decisiones
abiertas y seguras, y así minimizar los riesgos de costos y logrando los objetivos.

También podría gustarte