Relación Entre Dos Variables Cuantitativas o Numéricas: Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset

Relación entre dos
variables cuantitativas o
numéricas
PID_00284122
Antoni Cosculluela Mas

Albert Fornieles Deu
Jaume Turbany Oset
Tiempo mínimo de dedicación recomendado: 3 horas

© FUOC • PID_00284122 Relación entre dos variables cuantitativas o numéricas
Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset
La revisión de este recurso de aprendizaje UOC ha sido coordinada

por la profesora: Mercè Boixadós Anglès
Segunda edición: septiembre 2021

© de esta edición, Fundació Universitat Oberta de Catalunya (FUOC)
Av. Tibidabo, 39-43, 08035 Barcelona
Autoría: Antoni Cosculluela Mas, Albert Fornieles Deu, Jaume Turbany Oset
Producción: FUOC
Todos los derechos reservados
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,
mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
del titular de los derechos.
© FUOC • PID_00284122 Relación entre dos variables cuantitativas o numéricas
Índice
Objetivos....................................................................................................... 5
1. La relación entre dos variables...................................................... 7

1.1. La representación conjunta de dos variables cuantitativas ......... 7
1.2. Relaciones lineales ....................................................................... 7
2. Relaciones entre variables: correlación....................................... 8

2.1. La medida de la asociación lineal ............................................... 8
2.2. Cálculo del coeficiente de correlación ........................................ 9
3. Matriz de correlaciones.................................................................... 12
4. La regresión lineal simple............................................................... 14

4.1. Bondad de ajuste: el coeficiente de determinación R .................
2
15
5. La inferencia dentro de la regresión............................................ 17

5.1. La población a partir de la cual se toma una muestra ................ 17
5.2. Estimación de la desviación estándar común ............................. 19
5.3. Error estándar de la pendiente ................................................... 20
5.4. Contraste de hipótesis sobre la pendiente .................................. 24
5.5. La varianza explicada .................................................................. 24
Actividades.................................................................................................. 27
Bibliografía................................................................................................. 31
© FUOC • PID_00284122 5 Relación entre dos variables cuantitativas o numéricas
Objetivos
En los materiales didácticos de este módulo presentamos los contenidos y las

herramientas imprescindibles para conseguir los objetivos siguientes:
1. Interpretar la representación gráfica (nube de puntos) de dos variables

cuantitativas representadas conjuntamente.
2. Interpretar los índices de covarianza y correlación lineal entre dos varia-

bles. Conocer sus propiedades.
3. Especificar la recta de regresión que permite estudiar la relación entre dos

variables cuantitativas.
4. Diferenciar entre el modelo de regresión y el de correlación.
5. Conocer las relaciones fundamentales entre el coeficiente de correlación

de Pearson y los diferentes elementos de las rectas de regresión.
6. Efectuar una prueba de independencia entre dos variables cuantitativas

basada en el coeficiente de correlación.
7. Saber hacer la representación gráfica de la relación con gráficas de disper-

sión (puntos).
8. Saber hacer la correlación entre variables medidas en escala ordinal (co-

rrelación de Spearman).
9. Realizar las pruebas de contraste de hipótesis de los parámetros del mo-

delo de regresión.
10. Valorar la bondad de ajuste de la recta a través del coeficiente de deter-

minación.
11. Interpretar los diferentes listados.
12. Hacer la organización y representación conjunta de dos variables: el coe-

ficiente de correlación de Pearson y las ecuaciones de regresión. Otros ín-
dices de correlación.
13. Interpretar los resultados de la aplicación de las funciones Excel para la

correlación y regresión.
14. Saber efectuar inferencias estadísticas y estudiar asociaciones entre varia-

bles, teniendo en cuenta el concepto de probabilidad que hay detrás de
estas decisiones.
15. Saber utilizar el razonamiento estadístico que permita enfrentarse de ma-

nera satisfactoria a los problemas derivados de la investigación que habrá
que abordar durante el futuro ejercicio profesional.
16. Saber identificar correctamente las variables implicadas en una situación

de investigación real.
17. Ser capaz de construir e interpretar un gráfico de dispersión para dos va-
riables cuantitativas.
18. Saber tomar decisiones correctas y relacionadas con la situación de inves-

tigación.
19. Saber plantear, desarrollar y tomar la decisión de una prueba de relación

entre dos variables cuantitativas.
20. Saber plantear un modelo de la regresión lineal. Saber utilizar el modelo

para poder hacer predicciones.
21. Saber expresar de forma clarificadora los resultados y poder plantear nue-
vas investigaciones.
1. La relación entre dos variables
1.1. La representación conjunta de dos variables cuantitativas
Cuando observamos dos variables cuantitativas sobre cada unidad muestral,

resulta esencial realizar la representación (x, y), o gráfico de dispersión, de los
datos. Primero se identifica una variable con el eje horizontal de abscisas y
la otra con el eje vertical o de ordenadas, a continuación se elige la escala
sobre cada uno de estos ejes, de manera que los valores observados de ambas
variables se adecuen convenientemente al diagrama.
Si hemos de representar dos variables, ¿cuál debería ser x y cuál y? La respuesta

dependerá de si se puede considerar que una de las variables depende de la
otra. Por ejemplo, si las dos variables son tiempo de ensayo y número de acier-
tos, entonces deberíamos elegir el número de aciertos como variable y, ya que
pensamos que éstos dependen del tiempo empleado en ensayar. A menudo
denominamos a la variable y variable dependiente y a la variable x, variable
independiente.
1.2. Relaciones lineales
Cuando representamos un gráfico de dos variables cuantitativas obtenemos lo

que denominamos nube de puntos. En esta representación esperamos descu-
brir alguna estructura en la relación que existe entre las dos variables. El tipo
de estructura más simple es aquélla en la que los valores y dibujan una línea
aproximadamente recta a medida que x cambia. Para resumir la relación, po-
demos encajar una recta en la nube de puntos y cuanto más se ajuste la nube
de puntos a una línea recta, mayor será la relación entre las dos variables.
2. Relaciones entre variables: correlación
Uno de los términos empleados con más frecuencia al hablar de la relación

entre variables es el de correlación. Decimos que dos variables están correlacio-
nadas cuando están conectadas o asociadas en algún sentido. Si dos variables
se correlacionan, saber el valor de una variable nos proporcionará una idea
del valor de la otra.
En este apartado explicaremos el concepto de correlación y una manera espe-

cífica de medir la fuerza de la relación entre dos variables: la utilización del
coeficiente de correlación.
2.1. La medida de la asociación lineal
La correlación es una medida de la fuerza de la asociación entre dos variables.

Nuestro interés por la asociación entre dos variables se limita a la asociación
lineal que tienen, es decir, a cuánto de próximos a una recta quedan los pun-
tos en un gráfico de dispersión. Sin embargo, no se trata del único tipo de
asociación que puede establecerse entre dos variables.
En la figura 1 mostramos distintos gráficos de dispersión y los valores corres-

pondientes de los coeficientes de correlación. Observad en el último gráfico
de dispersión que las dos variables muestran una relación curva muy fuerte,
pero la correlación es cero, lo que indica ausencia de relación (esto ilustra el
hecho de que la correlación sólo es útil para medir relaciones lineales).
Figura 1
2.2. Cálculo del coeficiente de correlación
Para calcular el coeficiente de correlación calcularemos previamente otro in-

dicador de relación entre las variables: la covarianza. La fórmula de cálculo de
la covarianza es:
El numerador de la covarianza se denomina también suma de productos cru-

zados (SPxy). La covarianza representa una medida de la dispersión conjunta
de dos variables. Observad que si las dos variables son la misma, la fórmula
correspondería a la expresión de cálculo de la varianza. Por tanto, podemos
decir que la varianza es un caso particular de covarianza de una variable con
sí misma.
Un valor cero de covarianza nos indica ausencia de relación entre las variables.
Por otro lado, un valor negativo nos indica relación negativa (a mayor valor de
una variable le corresponde un valor menor en la otra y viceversa). Un valor
positivo indica relación positiva entre las variables (a mayor valor de una le
corresponde mayor valor de la otra y a menor valor en una variable también
menor valor en la otra).
El problema que presenta la covarianza es que se encuentra afectada por la

unidad de medida, lo que significa que no sabemos a partir de qué valor posi-
tivo o negativo, podemos suponer una relación fuerte entre ambas variables.
Una manera de evitar este efecto es calcular un indicador estandarizado, como

lo es el coeficiente de correlación momento-producto de Pearson:
Como podéis ver en la expresión que acabamos de presentar, el coeficiente de

correlación es la covarianza entre las dos variables dividida por el producto de
sus desviaciones estándar.
El coeficiente de correlación siempre fluctuará entre −1 y +1 e indicará relacio-

nes fuertes conforme el valor se acerque a los extremos. A una nube de puntos
aproximadamente lineal con pendiente descendente le corresponderá un va-
lor próximo a −1, lo que indicará una relación inversa o negativa.
Figura 2
A una nube de puntos aproximadamente lineal con pendiente ascendente le

corresponderá un valor próximo a +1, lo que indicará una relación directa o
positiva.
Figura 3
Un valor cero indicará ausencia de relación lineal entre las variables.
Figura 4
3. Matriz de correlaciones
Cuando se dispone de un conjunto de variables cuantitativas observadas en las

mismas personas o unidades muestrales, los resultados de las correlaciones se
disponen en una matriz triangular, que denominamos matriz de correlaciones.
La matriz muestra las correlaciones entre todas las parejas de variables, inclui-
das las variables consigo mismas. Por tanto, vemos correlaciones de 1 sobre
la diagonal de esta matriz, que son correlaciones entre las variables consigo
mismas. Fuera de la diagonal vemos las correlaciones entre las parejas de va-
riables. La matriz se dispone de forma triangular debido a que la información
por encima y por debajo de esta diagonal es la misma.
Ejemplo
Utilizamos otra vez los 15 primeros sujetos de la matriz de datos general y nos centramos
en las variables numéricas edad, escala E, escala N, M.A.S. y B.D.I. (tabla 1).
Tabla 1
Sujeto Edad Escala E Escala N M.A.S. B.D.I.
1 28 13 1 8 7
2 27 15 2 2 9
3 30 5 3 12 3
4 32 7 0 4 0
5 41 6 0 2 1
6 34 13 1 5 10
7 21 15 6 21 8
8 33 2 3 14 6
9 29 20 2 8 3
10 18 11 8 24 2
11 40 14 1 6 7
12 34 11 1 3 5
13 42 6 0 0 9
14 18 18 2 0 18
15 30 6 0 1 4
Matriz de correlaciones:
Tabla 2
Edad Escala E Escala N M.A.S. B.D.I.
Edad 1
Escala�E −0,46270272 1
Escala�N −0,70735922 0,18924114 1
M.A.S. −0,50459145 0,00182936 0,91129139 1
B.D.I. −0,27871422 0,46026847 −0,02760508 −0,27254547 1

4. La regresión lineal simple
El concepto de regresión lineal simple está relacionado con la correlación li-

neal de Pearson.
En el modelo de la regresión se introduce el concepto de causalidad. En efecto,

cuando hablamos de la regresión de una variable sobre otra estamos diferen-
ciando el papel de las dos variables: la primera depende de la otra. Hablamos
de la variable dependiente, que se escribe a menudo y, y la variable indepen-
diente (o variable explicativa), que se escribe x. La regresión lineal describe
una relación lineal entre y y x, esto es, representa en el gráfico de dispersión
la recta que mejor se ajuste a la nube de puntos.
La recta de regresión resume la relación lineal entre y y x. La expresión de una

línea recta es: y = b + mx, donde m representa la pendiente de la recta, es decir,
el cambio que se produce en y a partir del cambio que se produzca en x, y
b se denomina intersección o intercepta, y es el valor que toma y cuando x es
igual a cero.
Para encontrar los coeficientes de la regresión, m y b, usamos un método de

estimación muy conocido en estadística: el método de mínimos cuadrados, el
cual minimiza la suma de los cuadrados de las diferencias (o residuos) entre
los valores yi y los valores estimados según la recta de regresión
A partir de los datos (xi, yi), i = 1, ..., n, estimamos los coeficientes m y b de la

recta de regresión. Así pues, tenemos:
Pendiente:
Intersección:
b=y−m∙x
Comparando las fórmulas de la pendiente m y del coeficiente de correlación

r, tenemos la relación siguiente:
Se debe distinguir el coeficiente de correlación de la pendiente de la regresión

lineal, ya que son conceptos muy relacionados, pero diferentes. La correlación
es una cantidad estandarizada, esto es, sin unidades y siempre tiene un valor
entre −1 y +1, mientras que la pendiente tiene unidades del cociente (y/x) de
las variables.
4.1. Bondad de ajuste: el coeficiente de determinación R2
Con el fin de encontrar estimaciones de m y de b del modelo de regresión

lineal, y = mx + b, ajustamos el modelo a los datos. Después, suele medirse la
bondad del ajuste utilizando el coeficiente de determinación, que se escribe
R2 y que se expresa a menudo como un porcentaje:
• 2
Si R es igual a 1 (100 %), la regresión «explica» perfectamente la relación
entre y y x, es decir, los puntos caen exactamente sobre una recta y cada
valor yi es igual a la estimación (los residuos son 0).
• Cuando los puntos no caen sobre una recta, R2 será menor que 1 y se puede
interpretar como una medida de la proximidad de los puntos a la recta.
2
En la regresión lineal simple, con una sola variable x independiente, R es
idéntico al cuadrado del coeficiente de correlación, que hemos visto que se
interpreta como una medida de la linealidad de la relación. Sin embargo, esta
equivalencia entre el coeficiente de determinación y el coeficiente de correla-
ción (al cuadrado) sólo es válida cuando existe una única variable explicativa,
no en general.
2
El coeficiente de determinación R se puede definir como el cuadrado de la
correlación entre los valores de yi y los valores estimados
2
Expresado como un porcentaje, R se describe también como el porcentaje de
la varianza (de y) explicado por la regresión.
Actividad
Ved también
Repasad los cálculos necesarios para estimar los coeficientes de una regresión lineal sim-
ple realizando la actividad siguiente. Véase la actividad 1 en el apar-
tado «Actividades» de este
módulo.
Los datos de la tabla 3 relacionan el tiempo de reacción en milisegundos y la puntuación
de una prueba de memoria, registrados en seis sujetos:
Tabla 3
Latencia�(mseg) 368 369 370 373 374 375

Memoria 53,8 54,1 55,3 58,1 59,3 59,9
1. Elaborad una gráfica de los datos poniendo la latencia en el eje vertical y la memoria
en el eje horizontal.
2. Calculad el coeficiente de correlación r entre las dos variables.
3. Estableced la recta de regresión lineal simple entre latencia y memoria, y mostrad la

relación que existe entre la correlación r y la estimación m de la pendiente.
5. La inferencia dentro de la regresión
Como en todos los análisis estadísticos, hay dos modos de pensar en los re-
sultados:
1) Considerar que los resultados son meramente un resumen descriptivo de

los datos. Por lo tanto, un diagrama de tallo y hojas es una descripción de la
distribución de una variable, una media es un valor de resumen para el centro
de la distribución y una recta es una descripción simple de la relación entre
observaciones sobre dos variables.
2) Pensar en los datos que tenemos como una muestra aleatoria de una pobla-
ción más amplia. En este caso, utilizamos las observaciones para extraer algu-
nas conclusiones sobre la población. Al estimar una media muestral obtene-
mos un intervalo de confianza en el cual cae la verdadera media poblacional,
o contrastamos una hipótesis específica sobre la media de la población.
En el análisis de regresión tenemos la misma situación. Si nuestras observacio-

nes emparejadas son una muestra aleatoria extraída de una población mayor,
entonces podemos utilizar los resultados para realizar ciertas inferencias de las
relaciones entre las dos variables en la población. Nuestro interés principal es
saber si la pendiente de regresión es significativa o no, lo cual es una prueba
de la significación de la relación lineal entre y y x.
Al final de este apartado sobre relaciones entre variables deberéis ser capaces
de:
• saber en qué población nos basamos al realizar un análisis de regresión.

• conocer qué es el error estándar de la pendiente.
• saber cómo se lleva a cabo un contraste de hipótesis sobre la pendiente.
5.1. La población a partir de la cual se toma una muestra
Hasta ahora, en nuestra inferencia estadística hemos considerado la media μ

de una distribución normal, por ejemplo, y hemos estudiado la distribución
de la media de una muestra obtenida a partir de esta distribución. En el análisis
de regresión tenemos una situación un poco más general. Para cada valor x
de la variable explicativa podemos pensar en una distribución de respuestas
posibles y, con una media que depende del valor de x.
Por ejemplo, si y es «ingresos» y x es «edad», podemos considerar las edades

una por una, pongamos por caso 30, y entonces observamos la distribución
de todos los ingresos de las personas de 30 años. Esta distribución tiene una
media que podríamos representar por μ30. Después, podríamos observar los
ingresos de todas las personas de 31 años, y la media poblacional sería μ31.

Si lo hiciéramos con todas las edades de nuestra población, tendríamos un
conjunto de distribuciones y un conjunto de medias.
Hemos intentado ilustrar esta idea en la figura 5. Consideramos una represen-

tación tridimensional donde las variables x e y toman valores sobre el plano, y
el eje vertical representa la densidad de probabilidad. Para cada valor de x hay
una distribución de los valores de y. En la figura hemos mostrado tres de estas
distribuciones –para las edades de 30, 40 y 50–, pero de hecho hay un conjunto
continuo de distribuciones como éstas que existen a lo largo del recorrido de x.
Figura 5
En el modelo de la regresión lineal las medias de las distribuciones, que co-

rresponden a cada valor de x, se sitúan sobre una recta, tal como muestra la
figura 5. Matemáticamente se expresa:
μx = β0 + β1 ∙ x
o también:
E (y | x) = β0 + β1 ∙ x
donde E (y | x) es la esperanza matemática de y (media poblacional) condicio-

nada por el valor de x. Como cada observación y es igual a su media más el
residual (o error, diferencia entre el valor real y el estimado por la recta), po-
demos expresar el modelo de la regresión lineal:
y = β0 + β1 ∙ x + ei
donde el residuo e también es una variable aleatoria como lo es y. Utilizamos

las letras griegas β0 y β1 para la intersección y la pendiente del modelo de la
población, respectivamente.
Este modelo β0 + β1 ∙ x para la media es la recta que nosotros intentamos esti-

mar al llevar a cabo una regresión. Necesitamos dos suposiciones más, simila-
res a las que necesitábamos para realizar inferencias estadísticas:
1) Debemos suponer que todas las distribuciones de y que tenemos para unos
valores dados de x (de modo equivalente, la distribución de e) tienen la misma
desviación estándar. Debemos llevar a cabo las mismas suposiciones cuando
contrastamos las diferencias entre dos grupos.
2) Hemos de suponer que nuestras observaciones de yi para cada xi dada son in-
dependientes –es una suposición necesaria que queda asegurada, ya que nues-
tra muestra es aleatoria. Es lo mismo que conjeturar que cada residuo ei es in-
dependiente.
Ahora, por lo tanto, la media depende del valor de la variable explicativa x.

Todos los cálculos que haremos en cuanto a la media serán respecto a esta
media que cambia en función de x.
5.2. Estimación de la desviación estándar común
Si cada distribución normal para un valor determinado de x tiene la misma

desviación típica σ, podemos estimar el valor de σ observando todas las des-
viaciones (residuales) de los puntos de la muestra, a partir de la recta de regre-
sión. La estimación de la recta que mejor se ajusta a nuestros datos es:
donde las estimaciones de los coeficientes de la recta corresponden a los valo-

res que en la descripción de la recta hemos denominado b y m.
Los residuales representan la diferencia entre los valores de y reales y los pre-
dichos a partir de la ecuación:
La media de los residuales es igual a cero. A partir de la suma de cuadrados

calcularemos la varianza y la desviación estándar de los residuales:
Atención: el motivo de dividir la suma de desviaciones al cuadrado por n − 2

se debe al hecho de que al haber de estimar dos parámetros desconocidos (los
coeficientes) se pierden un grado de libertad por cada uno.
5.3. Error estándar de la pendiente
En el análisis de la regresión lineal simple nos interesa validar o verificar el

modelo a partir de la constatación de que el valor de la pendiente de la recta es
significativamente diferente de cero. Observad que si la pendiente de la recta
fuese igual a cero, los valores que predeciríamos de y a partir de cualquier valor
de x siempre serían el valor de la media de y.
A partir del error estándar de la pendiente, y conocida la distribución muestral

(t de Student), podremos construir intervalos de confianza y contrastes de hi-
pótesis sobre el valor de la pendiente.
La fórmula para el cálculo del error estándar de la pendiente es:
Ilustraremos todo el proceso de estimación y validación del modelo a partir

de un ejemplo.
Utilizaremos los 16 primeros sujetos y las variables edad y escala N de los datos
del ejemplo general. Consideraremos la edad como variable predictora (inde-
pendiente) y la escala N como la variable efecto (dependiente).
En primer lugar, representaremos la nube de puntos o el gráfico de dispersión

(figura 6).
Tabla 4
Sujeto Edad Escala N
1 28 1
2 27 2
3 30 3
4 32 0
5 41 0
6 34 1
7 21 6
8 33 3
9 29 2
10 18 8
11 40 1
12 34 1
Sujeto Edad Escala N
13 42 0
14 18 2
15 30 0
16 20 8
Figura 6
Como se observa en el gráfico de dispersión, la recta que mejor ajustará a la

nube de puntos tendrá una pendiente negativa o descendiente. Igualmente,
el signo del coeficiente de correlación de Pearson será negativo.
Tabla 5
Edad Escala�N Edad-media Esc.�N-media
28 1,00 −1,81 −1,38 3,2761 1,9044 2,4978
27 2,00 −2,81 −0,38 7,8961 0,1444 1,0678
30 3,00 0,19 0,62 0,0361 0,3844 0,1178
32 0,00 2,19 −2,38 4,7961 5,6644 −5,2122
41 0,00 11,19 −2,38 125,22 5,6644 −26,632
34 1,00 4,19 −1,38 17,556 1,9044 −5,7822
21 6,00 −8,81 3,62 77,616 13,104 −31,892
33 3,00 3,19 0,62 10,176 0,3844 1,9778
29 2,00 −0,81 −0,38 0,6561 0,1444 0,3078
18 8,00 −11,81 5,62 139,48 31,584 −66,372
40 1,00 10,19 −1,38 103,84 1,9044 −14,062
34 1,00 4,19 −1,38 17,556 1,9044 −5,7822
42 0,00 12,19 −2,38 148,60 5,6644 −29,012
18 2,00 −11,81 −0,38 139,48 0,1444 4,4878
30 0,00 0,19 −2,38 0,0361 5,6644 −0,4522

Edad Escala�N Edad-media Esc.�N-media
20 8,00 −9,81 5,62 96,236 31,584 −55,132
477 38,00 892,44 107,75 −229,88
Media de la edad:
Media de la escala N:
Varianza y desviación típica edad:
Varianza y desviación típica escala N:
Covarianza entre edad y escala N:
Correlación entre edad y escala N:
Cálculo�de�los�coeficientes�de�la�regresión
Pendiente:
Intersección:
b = 2,375 + 0,26 ∙ 29,81 = 10,126
Ecuación de regresión estimada:

escala Ni = 10,126 − 0,26 ∙ edadi + ei
Cálculo de los residuales:
Tabla 6
Sujeto Edad Escala N Esc. N estim. Residual Residual

2
1 28 1,00 2,85 −1,85 3,41
2 27 2,00 3,11 −1,11 1,22
3 30 3,00 2,33 0,67 0,45
4 32 0,00 1,81 −1,81 3,26
5 41 0,00 −0,53 0,53 0,29
6 34 1,00 1,29 −0,29 0,08
7 21 6,00 4,67 1,33 1,78
8 33 3,00 1,55 1,45 2,11
9 29 2,00 2,59 −0,59 0,34
10 18 8,00 5,45 2,55 6,52
11 40 1,00 −0,27 1,27 1,62
12 34 1,00 1,29 −0,29 0,08
13 42 0,00 −0,79 0,79 0,63
14 18 2,00 5,45 −3,45 11,87
15 30 0,00 2,33 −2,33 5,41
16 20 8,00 4,93 3,07 9,45
0,00 48,54
Obtenemos la desviación estándar común:
Para verificar el modelo calcularemos el error estándar de la pendiente:
Intervalo de confianza para la pendiente: para calcular el intervalo de confian-

za utilizaremos la estimación de la pendiente, en nuestro caso −0,26, como un
punto medio y calcularemos el margen de error utilizando el error estándar de
la pendiente y el valor crítico de la distribución t, con n − 2 grados de libertad.
Si utilizamos un nivel de confianza del 95 %, obtenemos un valor de t(0,025;

14) = ±2,145.
Vemos que el intervalo de confianza no contiene el valor cero; por tanto, po-
demos concluir que el modelo de la regresión es válido.
5.4. Contraste de hipótesis sobre la pendiente
Como hemos dicho, si resulta que la pendiente del modelo es cero, y será
una constante y no habrá relación lineal entre las dos variables. Por tanto, las
hipótesis que deberemos contrastar serán:
• H0: β1 ≈ 0; en la población no existe relación entre las dos variables.

• H1: β1 ≠ 0; sí aparece relación entre las variables en la población origen
de la muestra.
Calculamos el estadístico de contraste dividiendo el valor de la pendiente es-

timada por el error estándar de la pendiente:
La distribución utilizada será la t de Student con n − 2 grados de libertad. En

nuestro ejemplo, utilizando un nivel de significación del 5 %, el valor crítico
es el valor de t que hemos utilizado para el intervalo de confianza (±2,145).
Vemos que el valor del estadístico de contraste (−4,193) supera por la izquierda
el intervalo marcado por los valores críticos (±2,145), por tanto, consideramos
que la pendiente es significativamente diferente de cero, por lo que la regre-
sión es significativa: los valores de la escala N están relacionados de manera
negativa con la edad de los sujetos.
5.5. La varianza explicada
También podemos verificar o validar el modelo a partir del coeficiente de de-

terminación R2. Recordemos que lo hemos definido anteriormente como una
medida de bondad de ajuste o medida de la proximidad de los puntos a la rec-
ta estimada. Representa la proporción de varianza de la variable dependiente
explicada por la recta de regresión y el valor siempre estará entre 0 y 1, aunque
también a menudo se expresa como un porcentaje.
2
El valor 1 − R cuantifica la proporción de varianza que no es explicada por
la regresión. A partir de estos dos valores podemos calcular un estadístico de
contraste:
Este estadístico de contraste F se distribuye siguiendo una distribución F de

Snedecor, con un grado de libertad en el numerador y n − 2 grados de libertad
en el denominador.
Las hipótesis que se deberán contrastar son H0: el modelo no es válido, no

existe relación; H1: sí existe relación, por tanto, el modelo sí que es válido.
Con los datos del ejemplo anterior, hemos visto que el valor de la correlación
entre la edad y la escala N es r = −0,74.
2
El coeficiente de determinación R = 0,5476 indica que un 54,76 % de la va-
rianza de los valores de la variable escala N vienen explicados por la regresión
entre esta variable y las diferentes edades de los sujetos.
Las hipótesis que se deberán contrastar serían:
• H0: en la población no existe relación entre las dos variables. El modelo

no es válido.
• H1: sí existe relación entre las variables en la población origen de la mues-

tra. El modelo es válido.
Calculamos el estadístico de contraste:
La distribución utilizada será la F de Snedecor con un grado de libertad en el

numerador y 14 grados de libertad en el denominador. En nuestro ejemplo,
utilizando un nivel de significación del 5 %, el valor crítico es el valor de
F(0,05; 1/14) = 4,6.
Como el estadístico de contraste (16,946) es mayor que el valor crítico (4,6),

vemos que la hipótesis nula resulta muy poco probable. Concluiremos que,
con un riesgo del 5 %, decidimos rechazar la hipótesis nula y, por tanto, su-
poner el modelo válido.
Actividades
1. Tenemos las notas obtenidas por un conjunto de estudiantes además de su puntuación en
la escala de C.I. (cociente intelectual). ¿Sería más natural pensar en las notas como variable
independiente o dependiente? ¿Cómo representaríais estos datos?
Tenemos datos sobre las habilidades verbales y cuantitativas de un grupo de 100 estudiantes
universitarios. Pensad qué variable depende de la otra. ¿Cómo representaríais estos datos?
2. Utilizaremos los 15 primeros sujetos del ejemplo general y nos centraremos en las variables
escala N y M.A.S.
Sujeto Escala N M.A.S.
1 1 8
2 2 2
3 3 12
4 0 4
5 0 2
6 1 5
7 6 21
8 3 14
9 2 8
10 8 24
11 1 6
12 1 3
13 0 0
14 2 0
15 0 1
En primer lugar, calculamos las medias de las dos variables:
• Media de escala N = 30/15 = 2

• Media de M.A.S. = 110/15 = 7,33
Con estos valores centraremos las dos variables y calcularemos las sumas de cuadrados de
cada variable y la suma de productos cruzados:
Sujeto Escala�N M.A.S.
1 1 8 −1 0,67 1 0,4489 −0,67
2 2 2 0 −5,33 0 28,4089 0
3 3 12 1 4,67 1 21,8089 4,67
4 0 4 −2 −3,33 4 11,0889 6,66
5 0 2 −2 −5,33 4 28,4089 10,66

Sujeto Escala�N M.A.S.
6 1 5 −1 −2,33 1 5,4289 2,33
7 6 21 4 13,67 16 186,8689 54,68
8 3 14 1 6,67 1 44,4889 6,67
9 2 8 0 0,67 0 0,4489 0
10 8 24 6 16,67 36 277,8889 100,02
11 1 6 −1 −1,33 1 1,7689 1,33
12 1 3 −1 −4,33 1 18,7489 4,33
13 0 0 −2 −7,33 4 53,7289 14,66
14 2 0 0 −7,33 0 53,7289 0
15 0 1 −2 −6,33 4 40,0689 12,66
Suma 30 110 74 773,3335 218
Varianza de escala N:
Varianza de M.A.S.:
Covarianza entre escala N y M.A.S.:
El signo de la covarianza (+) nos indica que la posible relación es directa o positiva. La cova-
rianza está afectada por las unidades de medida y, por tanto, no podemos saber si el valor
15,57 es alto o bajo.
La correlación, al estar acotada entre −1 y +1, nos indicará si parece ser que existe relación
conforme el valor se acerque a +1 o a cero.
Correlación entre escala N y M.A.S.:
El valor 0,911 está muy próximo a +1, por lo que indica que existe una fuerte relación entre
estas dos variables. El signo de la correlación nos indica que ésta es directa, a valores altos
de escala N le corresponden valores altos de M.A.S., y a la inversa, cuanto más pequeño es el
valor de la escala N también será pequeño el valor que se obtiene en la escala M.A.S.
3. Los datos siguientes relacionan el tiempo de reacción en milisegundos y la puntuación de

una prueba de memoria, registrados en seis sujetos:
Latencia�(mseg) 368 369 370 373 374 375

Memoria 53,8 54,1 55,3 58,1 59,3 59,9
a) Elaborad una gráfica de los datos, poniendo la latencia en el eje vertical y la memoria en
el eje horizontal.
b) Calculad el coeficiente de correlación, r, entre las dos variables.
Memoria Latencia x-medx y-medy SCx SCy SPxy
53,8 368 −2,95 −3,5 8,7025 12,25 10,325
54,1 369 −2,65 −2,5 7,0225 6,25 6,625
55,3 370 −1,45 −1,5 2,1025 2,25 2,175
58,1 373 1,35 1,5 1,8225 2,25 2,025
59,3 374 2,55 2,5 6,5025 6,25 6,375
59,9 375 3,15 3,5 9,9225 12,25 11,025
Suma 36,075 41,5 38,55
• Media de x = 56,75
• Media de y = 371,5
• Varianza de x = 36,075/5 = 7,215
• Sx = 2,686
• Varianza de y = 41,5/5 = 8,3
• Sy = 2,88
• Covarianza Sxy = 38,55/5 = 7,71
• Correlación Rxy = 7,71/2,686 ∙ 2,88 = 0,9963
c) Estableced la recta de regresión lineal simple entre latencia y memoria, y mostrad la rela-
ción que existe entre la correlación r y la estimación m de la pendiente.
• Pendiente m = 7,71/7,215 = 1,0686

• Intersección b = 371,5 − 1,0686 ∙ 56,75 = 310,86
• Recta de regresión; estimación de yi = 310,86 + 1,0686 ∙ xi
• Relación entre r y m: m = r ∙ sy/sx = 0,9963 ∙ 2,88/2,686 = 1,068
4. Utilizaremos los dieciséis primeros sujetos y las variables edad y escala N de los datos del
ejemplo general (ved tabla 4). Consideraremos la edad como la variable predictora (indepen-
diente) y la escala N como la variable efecto (dependiente). Utilizaremos el programa Excel
para los cálculos de la regresión simple entre estas dos variables.
Resumen
Estadísticas de la regresión
Coeficiente�de�correlación�múltiple 0,74130034
Coeficiente�de�determinación�R
2 0,54952619
2
R �ajustado 0,51734949
Error�típico 1,86199879
Observaciones 16
Coeficientes Error típico Estadístico t Probabilidad Inferior 95 % Superior 95 %
Intercepción 10,0541354 1,91560446 5,2485446 0,00012317 5,94556884 14,162702
Edad −0,25758106 0,06232905 −4,13260067 0,00101543 −0,39126369 −0,12389843
Análisis de los residuales
Observación Pronóstico�escala�N Residuos Residuos�estándares
1 2,841865677 −1,84186568 −1,023906196
2 3,09944674 −1,09944674 −0,611190242
3 2,326703551 0,67329645 0,374290273
4 1,811541424 −1,81154142 −1,007048729
5 −0,506688143 0,50668814 0,281671534
6 1,296379298 −0,2963793 −0,16475935
7 4,644933119 1,35506688 0,753291293
8 1,553960361 1,44603964 0,803863694
9 2,584284614 −0,58428461 −0,324807962
10 5,417676308 2,58232369 1,43553206
11 −0,24910708 1,24910708 0,694387487
12 1,296379298 −0,2963793 −0,164759354
13 −0,764269207 0,76426921 0,424862674
14 5,417676308 −3,41767631 −1,899910505
15 2,326703551 −2,32670355 −1,29343101
16 4,902514182 3,09748582 1,721914341

Bibliografía
Enlaces web
Relación entre variables cuantitativas: <http://www.fisterra.com/mbe/investi-

ga/var_cuantitativas/var_cuantitativas.asp>
Definición de regresión lineal: <http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal>
Regresión lineal simple: <http://www.fisterra.com/mbe/investiga/regre_lineal_simple/

regre_lineal_simple.asp>

Relación Entre Dos Variables Cuantitativas o Numéricas: Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Relación Entre Dos Variables Cuantitativas o Numéricas: Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset

Cargado por

Copyright:

Formatos disponibles

Relación entre dos

Antoni Cosculluela Mas

Tiempo mínimo de dedicación recomendado: 3 horas

Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset

La revisión de este recurso de aprendizaje UOC ha sido coordinada

Segunda edición: septiembre 2021

1. La relación entre dos variables...................................................... 7

2. Relaciones entre variables: correlación....................................... 8

4. La regresión lineal simple............................................................... 14

5. La inferencia dentro de la regresión............................................ 17

En los materiales didácticos de este módulo presentamos los contenidos y las

1. Interpretar la representación gráfica (nube de puntos) de dos variables

2. Interpretar los índices de covarianza y correlación lineal entre dos varia-

3. Especificar la recta de regresión que permite estudiar la relación entre dos

4. Diferenciar entre el modelo de regresión y el de correlación.

5. Conocer las relaciones fundamentales entre el coeficiente de correlación

6. Efectuar una prueba de independencia entre dos variables cuantitativas

7. Saber hacer la representación gráfica de la relación con gráficas de disper-

8. Saber hacer la correlación entre variables medidas en escala ordinal (co-

9. Realizar las pruebas de contraste de hipótesis de los parámetros del mo-

10. Valorar la bondad de ajuste de la recta a través del coeficiente de deter-

11. Interpretar los diferentes listados.

12. Hacer la organización y representación conjunta de dos variables: el coe-

13. Interpretar los resultados de la aplicación de las funciones Excel para la

14. Saber efectuar inferencias estadísticas y estudiar asociaciones entre varia-

15. Saber utilizar el razonamiento estadístico que permita enfrentarse de ma-

16. Saber identificar correctamente las variables implicadas en una situación

18. Saber tomar decisiones correctas y relacionadas con la situación de inves-

19. Saber plantear, desarrollar y tomar la decisión de una prueba de relación

20. Saber plantear un modelo de la regresión lineal. Saber utilizar el modelo

1. La relación entre dos variables

1.1. La representación conjunta de dos variables cuantitativas

Cuando observamos dos variables cuantitativas sobre cada unidad muestral,

Si hemos de representar dos variables, ¿cuál debería ser x y cuál y? La respuesta

1.2. Relaciones lineales

Cuando representamos un gráfico de dos variables cuantitativas obtenemos lo

2. Relaciones entre variables: correlación

Uno de los términos empleados con más frecuencia al hablar de la relación

En este apartado explicaremos el concepto de correlación y una manera espe-

2.1. La medida de la asociación lineal

La correlación es una medida de la fuerza de la asociación entre dos variables.

En la figura 1 mostramos distintos gráficos de dispersión y los valores corres-

2.2. Cálculo del coeficiente de correlación

Para calcular el coeficiente de correlación calcularemos previamente otro in-

El numerador de la covarianza se denomina también suma de productos cru-

El problema que presenta la covarianza es que se encuentra afectada por la

Una manera de evitar este efecto es calcular un indicador estandarizado, como

Como podéis ver en la expresión que acabamos de presentar, el coeficiente de

El coeficiente de correlación siempre fluctuará entre −1 y +1 e indicará relacio-

A una nube de puntos aproximadamente lineal con pendiente ascendente le

Un valor cero indicará ausencia de relación lineal entre las variables.

Cuando se dispone de un conjunto de variables cuantitativas observadas en las

Sujeto Edad Escala E Escala N M.A.S. B.D.I.

Edad Escala E Escala N M.A.S. B.D.I.

Escala�N −0,70735922 0,18924114 1

M.A.S. −0,50459145 0,00182936 0,91129139 1

B.D.I. −0,27871422 0,46026847 −0,02760508 −0,27254547 1

4. La regresión lineal simple

El concepto de regresión lineal simple está relacionado con la correlación li-

En el modelo de la regresión se introduce el concepto de causalidad. En efecto,

La recta de regresión resume la relación lineal entre y y x. La expresión de una

Para encontrar los coeficientes de la regresión, m y b, usamos un método de

A partir de los datos (xi, yi), i = 1, ..., n, estimamos los coeficientes m y b de la