Está en la página 1de 6

Obtención e interpretación de información estadística con datos bivariados

ANEXO 1 – Proyecto de docencia

Ejercicio de Correlación Lineal


Tomado de los apuntes de Estadística descriptiva y probabilidad impreso por CCH UNAM

Jaime García está encargado de la capacitación del personal de un banco y debe


resolver esta cuestión:

¿Cuál es el grado de asociación que hay entre las variables conocimientos sobre
inversión bancaria y antigüedad de los empleados?

Con el fin de determinar el nivel de conocimiento de los empleados acerca de la


inversión bancaria, Jaime toma una muestra de tamaño 10 y les aplica una prueba
con escala de 0 a 100 puntos.

Después tabula los resultados de la prueba y la antigüedad respectiva de cada


empleado (tabla 1)
Antigüedad Calificación
Aquí se puede observar
(años) puntos inmediatamente que entre mayor es el número de años
Xi
de antigüedad, Yi
mayor es la calificación obtenida por los empleados. Se dice que
2.2 44
una relación entre dos variables es positiva cuando al aumentar el valor de una
2.7 56
también
3.0aumenta el
58 valor de la otra.
3.2 64
3.5 73 La representación gráfica de la tabla 1 tiene la
4.1 71
apariencia de una nube de puntos y se le conoce
4.4 75
4.7 78 como diagrama o gráfica de dispersión. (gráfica 1).
5.3 Tabla 1 74
5.5 89 En general cuando los puntos provengan de dos
variables continuas, se podrán trazar varias rectas
que puedan ajustarse a la nube. La tarea es
encontrar la “recta de mejor ajuste”.

La recta de mejor ajuste es un modelo determinístico de utilidad para:

CCH Sur Estadística I Prof. Victor Hugo Salinas


Obtención e interpretación de información estadística con datos bivariados

1. Describir la relación entre las dos variables


2. Predecir, con cierto grado de aproximación el valor de una variable, dado un
valor de la otra.

Gráfica 1

Regresión Lineal

Para precisar cómo es la asociación entre las variables y determinar la recta de


mejor ajuste, se utiliza una técnica estadística conocida como regresión lineal
para la cual se utiliza la ecuación de una línea recta: y=mx+b

La recta de mejor ajuste se le conoce como recta de regresión y es tal que, en


promedio, los errores de predicción (por debajo del valor que predice la recta o por
arriba).

Utilizando el método de mínimos cuadrados permite calcular la pendiente “m” de la


recta de regresión y su ordenada al origen “b” mediante las siguientes fórmulas:

(∑ )(∑ )
n n n
n ∑ x i y i− xi yi
i=1 i=1 i=1
m=

(∑ )
n n 2

n∑ xi −
2
xi
i=1 i =1

b= y−m x

CCH Sur Estadística I Prof. Victor Hugo Salinas


Obtención e interpretación de información estadística con datos bivariados

Aplicando estas fórmulas se construye la tabla 2:

Tabla 2

Antigüedad Calificación
(años) puntos
Xi Yi Xi 2 XiYi
1 2.2 44 4.84 96.8
2 2.7 56 7.29 151.2
3 3.0 58 9.00 174.0
4 3.2 64 10.24 204.8
5 3.5 73 12.25 255.5
6 4.1 71 16.81 291.1
7 4.4 75 19.36 330.0
8 4.7 78 22.09 366.6
9 5.3 74 28.09 392.2
10 5.5 89 30.25 489.5
Suma 38.6 682 160.22 2751.7 m= 10.6183
Xm 3.86 b= 27.2133
Ym 68.2

Con los datos de la tabla se obtienen los valores de “m” así como de “b” :

( )( )
n n n
n ∑ x i y i− ∑ xi ∑ yi
i=1 i=1 i=1
m= b= y−m x

(∑ )
n n 2

n∑ xi − 2
xi
i=1 i =1

10 ( 2751.7 )−(38.6)(682)
m= =10.618 b=68.2−10.618 ( 3.86 ) =27.213
10 ( 160.22 )−( 38.6)2

Por lo tanto, la recta de regresión es: y=mx+b y=10.618 x +27.213

Con la anterior ecuación se puede predecir la calificación de un empleado dentro


del rango de 2.2 a 5.5 años de antigüedad. Fuera de este intervalo no es válido
hacer predicciones.

Error estándar de predicción

CCH Sur Estadística I Prof. Victor Hugo Salinas


Obtención e interpretación de información estadística con datos bivariados

√∑
n
Se calcula mediante la fórmula: e= ¿¿¿¿
i=1

Este valor permite trazar dos rectas paralelas a la recta de regresión, una abajo y
otra arriba y representa el grado de alejamiento de las calificaciones con respecto
a la recta de regresión lineal

Apoyándose en la tabla 3:

Tabla 3 Real Teórica

Xi Yi Yi Yi-Yi (Yi-Yi) 2
2.2 44 50.5735923 -6.6 43.2121
2.7 56 55.8827512 0.1 0.0137
3.0 58 59.0682466 -1.1 1.1412
3.2 64 61.1919102 2.8 7.8854
3.5 73 64.3774056 8.6 74.3491
4.1 71 70.7483963 0.3 0.0633
4.4 75 73.9338917 1.1 1.1366
4.7 78 77.119387 0.9 0.7755
5.3 74 83.4903778 -9.5 90.0673
5.5 89 85.6140 3.4 11.4647
Suma = 230.1089

Coeficiente de correlación

Mide la fuerza de la relación lineal entre dos variables, también se conoce como
coeficiente r de Pearson y utiliza las siguientes fórmulas: (los valores mostrados se
pueden apreciar en la tabla 4)

Desviación estándar “s” de cada variable

√∑
n
Sy= ¿¿¿¿
i=1

√∑
n
Sx= ¿ ¿ ¿¿
i=1

La covarianza entre las dos variables

CCH Sur Estadística I Prof. Victor Hugo Salinas


Obtención e interpretación de información estadística con datos bivariados

n
119.18
Sxy=∑ ( xi−x)¿ ¿ ¿= =11.918
i=1 10

Y finalmente el coeficiente de correlación “r”:

Sxy 11.918
r= = =0.9199
SxSy (1.0594)(12.2294)

Tabla 4

Yi Xi Yi-Ym Xi-Xm (Xi -Xm)(Yi -Ym) (Yi -Ym) 2 (Xi -Xm)2


44 2.2 -24.2 -1.7 40.1720 585.64 2.7556
56 2.7 -12.2 -1.2 14.1520 148.84 1.3456
58 3.0 -10.2 -0.9 8.7720 104.04 0.7396
64 3.2 -4.2 -0.7 2.7720 17.64 0.4356

73 3.5 4.8 -0.4 -1.7280 23.04 0.1296


71 4.1 2.8 0.2 0.6720 7.84 0.0576
75 4.4 6.8 0.5 3.6720 46.24 0.2916
78 4.7 9.8 0.8 8.2320 96.04 0.7056
74 5.3 5.8 1.4 8.3520 33.64 2.0736
10 89 5.5 20.8 1.6 34.1120 432.64 2.6896
Xm 3.86 Suma = 119.1800 1495.6000 11.2240
Ym 68.2

Valor de r Calificación
1 ó -1 Perfecta (todos los puntos
quedan alineados)
0.7 a 1 buena
-0.7 a -1
0.3 a 0.6 moderada
-0.3 a -0.6
0 a 0.3 mala
0 a -0.3

CCH Sur Estadística I Prof. Victor Hugo Salinas


Obtención e interpretación de información estadística con datos bivariados

De nuestro ejercicio podemos concluir que tenemos una buena correlación al ser
r= 0.9199, por lo tanto, es una asociación fuerte entre las dos variables,
conocimiento sobre inversión bancaria y antigüedad del empleado.

CCH Sur Estadística I Prof. Victor Hugo Salinas

También podría gustarte