Está en la página 1de 2

Guión del Módulo 4 de Estadı́stica Descriptiva

1. I NTRODUCCI ÓN A LA ESTAD ÍSTICA BIDIMENSIONAL Y LA REGRESI ÓN LINEAL

Consideremos dos variables estadı́sticas X e Y definidas sobre una misma muestra, esto es, para cada individuo de la
muestra obtenemos dos datos, correspondientes a cada una de las variables estadı́sticas.
Ya sabemos como estudiar por separado cada una de las variables estadı́sticas, sin embargo, de lo que se trata ahora
es de ver que relación existe entre dichas variables estadı́sticas e incluso, si el valor de una de ellas permite realizar una
predicción de cuánto valdrı́a la otra.
Un primer paso para enteder la relación entre las dos variables estadı́stica serı́a reprentar gráficamente cada uno de los
puntos correspondientes a los datos de cada uno de los individuos. A dicha gráfica se le conoce como nube de puntos.

2. C OVARIANZA Y REGRESI ÓN LINEAL

Consideremos dos variables estadı́sticas X e Y definidas sobre una misma muestra, y cuyos datos son

(x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ),

donde podrı́an haber repeticiones. De forma aislada, ya sabemos obtener parámetros de centralización y dispersión para
cada una de las variables. De lo que se trata ahora es de obtener parámetro asociadas a la relación y dependencia que existe
entre estas dos variables.
En este apartado introduciremos la covarianza y el coeficiente de correlación, y para el cálculo de estas, utilizaremos
una tabla. Para empezar, calcularemos la media, varianza y desviaciones tı́picas de X e Y , a partir de las expresiones que
ya conocemos:

x2i
P P
xi 2
x̄ = , σX = − x̄2 ,
N N

yi2
P P
yi
ȳ = , σY2 = − ȳ 2 .
N N

Observa que no incluimos las frecuencias absolutas fi dado que añadimos cada dato tantas veces como aparece.
Ası́, las primeras columnas corresponderı́an a los datos xi e yi , la suma de cada columna no servirı́a para calcular x̄ e
ȳ. Después añadiremos dos nuevas columnas para x2i e yi2 , utilizaremos las sumas de estas para calcular las varianzas y
desviaciones tı́picas.
La covarianza es un valor que nos da información acerca de la relación entre X e Y , cuyo valor es:

P
xi · yi
σXY = − x̄ · ȳ.
N

Para el cálculo de esta, añadiremos una nueva columna a la tabla con los productos de datos correspondiente xi · yi ,
cuya suma sustituiremos en la expresión de la covarianza.
Mientras mayor es el valor absoluto de la covarianza (esto es, mayor sea la covarianza ignorando el signo), mayor es
la dependencia entre las variables, y si la covarianza es próxima a 0, las variables son prácticamente independientes, no
existe relación entre ellas. Por otra parte, valores positivos de la covarianza indica un comportamiento similar en cuanto a
que si una crece, la otra lo hace y recı́procamente, mientras que una covarianza negativa indicamente un comportamiento
inverso.
Uno de los mayores problemas de la covarianza es que le afectan los cambios de escala.
Como ya hemos dicho, uno de los objetivos principales de la estadı́stica bidimensional es generar a partir de algunos
datos, un método para predecir el valor de una variable, a partir de un valor de la otra. Lo ideal serı́a encontrar una
función, o más concretamente, una expresión que relacionara a ambas variables. Nosotros nos restringiremos a la regresión
lineal, esto es, buscar expresiones polinómicas de grado 1. Ası́, pensando en la representación gráfica, buscamos rectas que
“aproximen”la nube de datos.
En primer lugar, deberı́amos indicar con que criterio deseamos obtener esa aproximación. Lo haremos utilizando el
método de mı́nimos cuadrados, no entraremos en ello aquı́, simplemente presentaremos las expresiones resultantes.
Aı́, obtendremos dos rectas que reciben el nombre de rectas de regresión, con expresiones que depende de si queremos
obtener un estimación de y a partir de un valor de x, esta serı́a la recta de regresión de y sobre x, y tiene por expresión
σXY
y − ȳ = 2 (x − x̄)
σX
y aquella que permite obtener estimaciones de x a partir de valores de y, que serı́a la recta de regresión de x sobre y, y tiene
por expresión
σXY
x − x̄ = 2 (y − ȳ).
σY
Observa que ambas rectas pasan por el punto cuyas coordenadas son las medias de X e Y.
Finalmente, el último de los parámetros que introducimos es el coeficiente de correlación, cuya expresión es
σXY
r= .
σX · σY
Este valor nos da información acerca de la relación lineal entre X e Y , en cuanto a lo buenas que son las estimaciones que
se obtienen mediante las rectas de regresión. Ası́ se tiene que valores próximos a 0 indican independencia, y próximos a 1
o −1, relación fuerte. Al igual que la covarianza, valores positivos indican comportamiento similar en cuanto a crecimiento
o decrecimiento y valores negativo significan comportamiento inverso.
A diferencia de la covarianza, al coeficiente de correlación no le afectan los cambios de escala.

También podría gustarte