Regresión lineal y correlación: análisis de la relación entre edad y horas de conexión

REGRESIÓN LINEAL Y CORRELACIÓN
Regresión lineal
Conceptos básicos sobre el análisis de regresión lineal
• El modelo de regresión lineal es el más utilizado a la hora de predecir los valores de una
variable cuantitativa a partir de los valores de otra variable explicativa también cuantitativa
(modelo de regresión lineal simple).
• En concreto, según el modelo de regresión lineal simple, la distribución conjunta de dos

variables, una de ellas considerada como variable explicativa (X) y la otra como variable de
respuesta (Y), cuya relación sea más o menos lineal (ver diagrama de dispersión) puede
ser representada por la ecuación de una línea recta: Y= a+bX
Veamos un ejemplo concreto;
X, es la variable independiente e Y la variable dependiente de los valores que tome la

variable X.
Se analizan ene le ejemplo a 11 estudiantes y se quiere analizar si la edad determina en

alguna proporción la cantidad de horas que permanecen conectados a alguna tecnología.
Cant. 1 2 3 4 5 6 7 8 9 10 11
Est.
Edad 15 14 17 16 15 16 15 13 17 16 16
Horas 2 0 3 4 3 4 3 1 4 3 5
Conex.
Realizamos un diagrama de dispersión con dichos datos, En el eje x colocamos la edad

que es la variable independiente y en el eje y las horas de conexión
Horas Conex.
6
0
0 2 4 6 8 10 12 14 16 18
Si miramos la gráfica y podemos trazar un óvalo que englobe los puntos del
mismo, podemos deducir que las variables tienen alguna relación, si la
relación es positiva, el óvalo quedará como el de nuestro ejemplo, y si queda
hacia abajo la relación será negativa – pero en ambos casos habrá relación
entre ellas.
Si necesitamos hacer un círculo para englobar los datos, entonces no habría

relación entre ellas.
Ahora deduciremos la ecuación de una recta que pase entre los datos y que
podría quedar como la que graficamos a continuación.
Horas Conex.
6
0
0 2 4 6 8 10 12 14 16 18
La ecuación de una recta sería la que sigue:
Y= a+bX
Averiguemos ahora los valores de a y de b.
a=Y-bX, donde Y y X, son las medias de las variables x e y .
b= n. (x . y) - x. y
n. x 2 – ( x) 2
Donde a es el punto en que la recta corta al eje y cuando x vale cero y b es la

pendiente de dicha recta.
En nuestro ejemplo quedaría :
b= 11.(508)-(170).(32) = 0,91
11.(2642)-(170)2
Ahora determinemos el valor de a:
a=Y-bX, donde Y = 32/11=2,91 y X = 170/11= 15,45
Nos queda Y=(-11,15)+0,91.X
A continuación buscamos dos valores de x cualesquiera y calculamos con ellos

el valor de Y, utilizando la formula, por ejemplo:
Para x= 18
Y=(-11,15)+0,91.18=5,23
Para X= 12
Y=(-11,15)+0,91.13=0,68
Con esos dos puntos podemos dibujar la recta.
Esa misma ecuación nos permite estimar el valor de cualquier y en función de

x, por ejemplo podríamos estimar la cantidad de horas (y) que estaría
conectada una persona de 14 años y medio (x)
Ahora lo que queremos saber es el sentido de la recta si es ascendente o
descendente (+) o (-), y si la relación es fuerte o débil.
Para ello utilizaremos el análisis de la correlación.
Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es necesario
disponer de parámetros que permitan cuantificar dicha relación. Uno de estos
parámetros es la covarianza, que indica el grado de variación conjunta de dos
variables aleatorias.
Siendo la media de cada variable y xi e yi el valor de las variables para la

observación i.
La covarianza depende de las escalas en que se miden las variables estudiadas, por
lo tanto, no es comparable entre distintos pares de variables. Para poder hacer
comparaciones se estandariza la covarianza, generando lo que se conoce
como coeficientes de correlación. Todos ellos varían entre +1 y -1. Siendo +1 una
correlación positiva perfecta y -1 una correlación negativa perfecta.
• Se emplean como medida de fuerza de asociación (tamaño del efecto):
o 0: asociación nula.
o 0.1: asociación pequeña.
o 0.3: asociación mediana.
o 0.5: asociación moderada.
o 0.7: asociación alta.
o 0.9: asociación muy alta.
Coeficiente de Pearson
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su
ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson
muestral (r), o si se aplica la población Coeficiente de Pearson poblacional (ρ).
Condiciones
• La relación que se quiere estudiar entre ambas variables es lineal (de lo
contrario, el coeficiente de Pearson no la puede detectar).
• Las dos variables deben de ser cuantitativas.
• Normalidad: ambas variables se tienen que distribuir de forma
normal. Varios textos defienden su robustez cuando las variables se alejan
moderadamente de la normal.
Características
• Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta
y -1 una correlación lineal negativa perfecta.
• Es una medida independiente de las escalas en las que se midan las variables.
• No varía si se aplican transformaciones a las variables.
• No tiene en consideración que las variables sean dependientes o
independientes.
• El coeficiente de correlación de Pearson no equivale a la pendiente de la recta
de regresión.
• Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos,
excluirlos del análisis.

Regresión lineal y correlación: análisis de la relación entre edad y horas de conexión

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión lineal y correlación: análisis de la relación entre edad y horas de conexión

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL Y CORRELACIÓN

Conceptos básicos sobre el análisis de regresión lineal

• En concreto, según el modelo de regresión lineal simple, la distribución conjunta de dos

Veamos un ejemplo concreto;

X, es la variable independiente e Y la variable dependiente de los valores que tome la

Se analizan ene le ejemplo a 11 estudiantes y se quiere analizar si la edad determina en

Realizamos un diagrama de dispersión con dichos datos, En el eje x colocamos la edad

Si necesitamos hacer un círculo para englobar los datos, entonces no habría

Averiguemos ahora los valores de a y de b.

a=Y-bX, donde Y y X, son las medias de las variables x e y .

Donde a es el punto en que la recta corta al eje y cuando x vale cero y b es la

En nuestro ejemplo quedaría :

Ahora determinemos el valor de a:

a=Y-bX, donde Y = 32/11=2,91 y X = 170/11= 15,45

Nos queda Y=(-11,15)+0,91.X

A continuación buscamos dos valores de x cualesquiera y calculamos con ellos

Con esos dos puntos podemos dibujar la recta.

Esa misma ecuación nos permite estimar el valor de cualquier y en función de

Para ello utilizaremos el análisis de la correlación.

Siendo la media de cada variable y xi e yi el valor de las variables para la

También podría gustarte