Está en la página 1de 32

Relación entre dos

variables cuantitativas o
numéricas
PID_00284122

Antoni Cosculluela Mas


Albert Fornieles Deu
Jaume Turbany Oset

Tiempo mínimo de dedicación recomendado: 3 horas


© FUOC • PID_00284122 Relación entre dos variables cuantitativas o numéricas

Antoni Cosculluela Mas Albert Fornieles Deu Jaume Turbany Oset

La revisión de este recurso de aprendizaje UOC ha sido coordinada


por la profesora: Mercè Boixadós Anglès

Segunda edición: septiembre 2021


© de esta edición, Fundació Universitat Oberta de Catalunya (FUOC)
Av. Tibidabo, 39-43, 08035 Barcelona
Autoría: Antoni Cosculluela Mas, Albert Fornieles Deu, Jaume Turbany Oset
Producción: FUOC
Todos los derechos reservados

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,
mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
del titular de los derechos.
© FUOC • PID_00284122 Relación entre dos variables cuantitativas o numéricas

Índice

Objetivos....................................................................................................... 5

1. La relación entre dos variables...................................................... 7


1.1. La representación conjunta de dos variables cuantitativas ......... 7
1.2. Relaciones lineales ....................................................................... 7

2. Relaciones entre variables: correlación....................................... 8


2.1. La medida de la asociación lineal ............................................... 8
2.2. Cálculo del coeficiente de correlación ........................................ 9

3. Matriz de correlaciones.................................................................... 12

4. La regresión lineal simple............................................................... 14


4.1. Bondad de ajuste: el coeficiente de determinación R .................
2
15

5. La inferencia dentro de la regresión............................................ 17


5.1. La población a partir de la cual se toma una muestra ................ 17
5.2. Estimación de la desviación estándar común ............................. 19
5.3. Error estándar de la pendiente ................................................... 20
5.4. Contraste de hipótesis sobre la pendiente .................................. 24
5.5. La varianza explicada .................................................................. 24

Actividades.................................................................................................. 27

Bibliografía................................................................................................. 31
© FUOC • PID_00284122 5 Relación entre dos variables cuantitativas o numéricas

Objetivos

En los materiales didácticos de este módulo presentamos los contenidos y las


herramientas imprescindibles para conseguir los objetivos siguientes:

1. Interpretar la representación gráfica (nube de puntos) de dos variables


cuantitativas representadas conjuntamente.

2. Interpretar los índices de covarianza y correlación lineal entre dos varia-


bles. Conocer sus propiedades.

3. Especificar la recta de regresión que permite estudiar la relación entre dos


variables cuantitativas.

4. Diferenciar entre el modelo de regresión y el de correlación.

5. Conocer las relaciones fundamentales entre el coeficiente de correlación


de Pearson y los diferentes elementos de las rectas de regresión.

6. Efectuar una prueba de independencia entre dos variables cuantitativas


basada en el coeficiente de correlación.

7. Saber hacer la representación gráfica de la relación con gráficas de disper-


sión (puntos).

8. Saber hacer la correlación entre variables medidas en escala ordinal (co-


rrelación de Spearman).

9. Realizar las pruebas de contraste de hipótesis de los parámetros del mo-


delo de regresión.

10. Valorar la bondad de ajuste de la recta a través del coeficiente de deter-


minación.

11. Interpretar los diferentes listados.

12. Hacer la organización y representación conjunta de dos variables: el coe-


ficiente de correlación de Pearson y las ecuaciones de regresión. Otros ín-
dices de correlación.

13. Interpretar los resultados de la aplicación de las funciones Excel para la


correlación y regresión.
© FUOC • PID_00284122 6 Relación entre dos variables cuantitativas o numéricas

14. Saber efectuar inferencias estadísticas y estudiar asociaciones entre varia-


bles, teniendo en cuenta el concepto de probabilidad que hay detrás de
estas decisiones.

15. Saber utilizar el razonamiento estadístico que permita enfrentarse de ma-


nera satisfactoria a los problemas derivados de la investigación que habrá
que abordar durante el futuro ejercicio profesional.

16. Saber identificar correctamente las variables implicadas en una situación


de investigación real.

17. Ser capaz de construir e interpretar un gráfico de dispersión para dos va-
riables cuantitativas.

18. Saber tomar decisiones correctas y relacionadas con la situación de inves-


tigación.

19. Saber plantear, desarrollar y tomar la decisión de una prueba de relación


entre dos variables cuantitativas.

20. Saber plantear un modelo de la regresión lineal. Saber utilizar el modelo


para poder hacer predicciones.

21. Saber expresar de forma clarificadora los resultados y poder plantear nue-
vas investigaciones.
© FUOC • PID_00284122 7 Relación entre dos variables cuantitativas o numéricas

1. La relación entre dos variables

1.1. La representación conjunta de dos variables cuantitativas

Cuando observamos dos variables cuantitativas sobre cada unidad muestral,


resulta esencial realizar la representación (x, y), o gráfico de dispersión, de los
datos. Primero se identifica una variable con el eje horizontal de abscisas y
la otra con el eje vertical o de ordenadas, a continuación se elige la escala
sobre cada uno de estos ejes, de manera que los valores observados de ambas
variables se adecuen convenientemente al diagrama.

Si hemos de representar dos variables, ¿cuál debería ser x y cuál y? La respuesta


dependerá de si se puede considerar que una de las variables depende de la
otra. Por ejemplo, si las dos variables son tiempo de ensayo y número de acier-
tos, entonces deberíamos elegir el número de aciertos como variable y, ya que
pensamos que éstos dependen del tiempo empleado en ensayar. A menudo
denominamos a la variable y variable dependiente y a la variable x, variable
independiente.

1.2. Relaciones lineales

Cuando representamos un gráfico de dos variables cuantitativas obtenemos lo


que denominamos nube de puntos. En esta representación esperamos descu-
brir alguna estructura en la relación que existe entre las dos variables. El tipo
de estructura más simple es aquélla en la que los valores y dibujan una línea
aproximadamente recta a medida que x cambia. Para resumir la relación, po-
demos encajar una recta en la nube de puntos y cuanto más se ajuste la nube
de puntos a una línea recta, mayor será la relación entre las dos variables.
© FUOC • PID_00284122 8 Relación entre dos variables cuantitativas o numéricas

2. Relaciones entre variables: correlación

Uno de los términos empleados con más frecuencia al hablar de la relación


entre variables es el de correlación. Decimos que dos variables están correlacio-
nadas cuando están conectadas o asociadas en algún sentido. Si dos variables
se correlacionan, saber el valor de una variable nos proporcionará una idea
del valor de la otra.

En este apartado explicaremos el concepto de correlación y una manera espe-


cífica de medir la fuerza de la relación entre dos variables: la utilización del
coeficiente de correlación.

2.1. La medida de la asociación lineal

La correlación es una medida de la fuerza de la asociación entre dos variables.


Nuestro interés por la asociación entre dos variables se limita a la asociación
lineal que tienen, es decir, a cuánto de próximos a una recta quedan los pun-
tos en un gráfico de dispersión. Sin embargo, no se trata del único tipo de
asociación que puede establecerse entre dos variables.

En la figura 1 mostramos distintos gráficos de dispersión y los valores corres-


pondientes de los coeficientes de correlación. Observad en el último gráfico
de dispersión que las dos variables muestran una relación curva muy fuerte,
pero la correlación es cero, lo que indica ausencia de relación (esto ilustra el
hecho de que la correlación sólo es útil para medir relaciones lineales).
© FUOC • PID_00284122 9 Relación entre dos variables cuantitativas o numéricas

Figura 1

2.2. Cálculo del coeficiente de correlación

Para calcular el coeficiente de correlación calcularemos previamente otro in-


dicador de relación entre las variables: la covarianza. La fórmula de cálculo de
la covarianza es:

El numerador de la covarianza se denomina también suma de productos cru-


zados (SPxy). La covarianza representa una medida de la dispersión conjunta
de dos variables. Observad que si las dos variables son la misma, la fórmula
correspondería a la expresión de cálculo de la varianza. Por tanto, podemos
decir que la varianza es un caso particular de covarianza de una variable con
sí misma.

Un valor cero de covarianza nos indica ausencia de relación entre las variables.
Por otro lado, un valor negativo nos indica relación negativa (a mayor valor de
una variable le corresponde un valor menor en la otra y viceversa). Un valor
© FUOC • PID_00284122 10 Relación entre dos variables cuantitativas o numéricas

positivo indica relación positiva entre las variables (a mayor valor de una le
corresponde mayor valor de la otra y a menor valor en una variable también
menor valor en la otra).

El problema que presenta la covarianza es que se encuentra afectada por la


unidad de medida, lo que significa que no sabemos a partir de qué valor posi-
tivo o negativo, podemos suponer una relación fuerte entre ambas variables.

Una manera de evitar este efecto es calcular un indicador estandarizado, como


lo es el coeficiente de correlación momento-producto de Pearson:

Como podéis ver en la expresión que acabamos de presentar, el coeficiente de


correlación es la covarianza entre las dos variables dividida por el producto de
sus desviaciones estándar.

El coeficiente de correlación siempre fluctuará entre −1 y +1 e indicará relacio-


nes fuertes conforme el valor se acerque a los extremos. A una nube de puntos
aproximadamente lineal con pendiente descendente le corresponderá un va-
lor próximo a −1, lo que indicará una relación inversa o negativa.

Figura 2

A una nube de puntos aproximadamente lineal con pendiente ascendente le


corresponderá un valor próximo a +1, lo que indicará una relación directa o
positiva.
© FUOC • PID_00284122 11 Relación entre dos variables cuantitativas o numéricas

Figura 3

Un valor cero indicará ausencia de relación lineal entre las variables.

Figura 4
© FUOC • PID_00284122 12 Relación entre dos variables cuantitativas o numéricas

3. Matriz de correlaciones

Cuando se dispone de un conjunto de variables cuantitativas observadas en las


mismas personas o unidades muestrales, los resultados de las correlaciones se
disponen en una matriz triangular, que denominamos matriz de correlaciones.

La matriz muestra las correlaciones entre todas las parejas de variables, inclui-
das las variables consigo mismas. Por tanto, vemos correlaciones de 1 sobre
la diagonal de esta matriz, que son correlaciones entre las variables consigo
mismas. Fuera de la diagonal vemos las correlaciones entre las parejas de va-
riables. La matriz se dispone de forma triangular debido a que la información
por encima y por debajo de esta diagonal es la misma.

Ejemplo

Utilizamos otra vez los 15 primeros sujetos de la matriz de datos general y nos centramos
en las variables numéricas edad, escala E, escala N, M.A.S. y B.D.I. (tabla 1).

Tabla 1

Sujeto Edad Escala E Escala N M.A.S. B.D.I.

1 28 13 1 8 7

2 27 15 2 2 9

3 30 5 3 12 3

4 32 7 0 4 0

5 41 6 0 2 1

6 34 13 1 5 10

7 21 15 6 21 8

8 33 2 3 14 6

9 29 20 2 8 3

10 18 11 8 24 2

11 40 14 1 6 7

12 34 11 1 3 5

13 42 6 0 0 9

14 18 18 2 0 18

15 30 6 0 1 4

Matriz de correlaciones:
© FUOC • PID_00284122 13 Relación entre dos variables cuantitativas o numéricas

Tabla 2

Edad Escala E Escala N M.A.S. B.D.I.

Edad 1

Escala�E −0,46270272 1

Escala�N −0,70735922 0,18924114 1

M.A.S. −0,50459145 0,00182936 0,91129139 1

B.D.I. −0,27871422 0,46026847 −0,02760508 −0,27254547 1


© FUOC • PID_00284122 14 Relación entre dos variables cuantitativas o numéricas

4. La regresión lineal simple

El concepto de regresión lineal simple está relacionado con la correlación li-


neal de Pearson.

En el modelo de la regresión se introduce el concepto de causalidad. En efecto,


cuando hablamos de la regresión de una variable sobre otra estamos diferen-
ciando el papel de las dos variables: la primera depende de la otra. Hablamos
de la variable dependiente, que se escribe a menudo y, y la variable indepen-
diente (o variable explicativa), que se escribe x. La regresión lineal describe
una relación lineal entre y y x, esto es, representa en el gráfico de dispersión
la recta que mejor se ajuste a la nube de puntos.

La recta de regresión resume la relación lineal entre y y x. La expresión de una


línea recta es: y = b + mx, donde m representa la pendiente de la recta, es decir,
el cambio que se produce en y a partir del cambio que se produzca en x, y
b se denomina intersección o intercepta, y es el valor que toma y cuando x es
igual a cero.

Para encontrar los coeficientes de la regresión, m y b, usamos un método de


estimación muy conocido en estadística: el método de mínimos cuadrados, el
cual minimiza la suma de los cuadrados de las diferencias (o residuos) entre
los valores yi y los valores estimados según la recta de regresión

A partir de los datos (xi, yi), i = 1, ..., n, estimamos los coeficientes m y b de la


recta de regresión. Así pues, tenemos:

Pendiente:

Intersección:

b=y−m∙x

Comparando las fórmulas de la pendiente m y del coeficiente de correlación


r, tenemos la relación siguiente:
© FUOC • PID_00284122 15 Relación entre dos variables cuantitativas o numéricas

Se debe distinguir el coeficiente de correlación de la pendiente de la regresión


lineal, ya que son conceptos muy relacionados, pero diferentes. La correlación
es una cantidad estandarizada, esto es, sin unidades y siempre tiene un valor
entre −1 y +1, mientras que la pendiente tiene unidades del cociente (y/x) de
las variables.

4.1. Bondad de ajuste: el coeficiente de determinación R2

Con el fin de encontrar estimaciones de m y de b del modelo de regresión


lineal, y = mx + b, ajustamos el modelo a los datos. Después, suele medirse la
bondad del ajuste utilizando el coeficiente de determinación, que se escribe
R2 y que se expresa a menudo como un porcentaje:

• 2
Si R es igual a 1 (100 %), la regresión «explica» perfectamente la relación
entre y y x, es decir, los puntos caen exactamente sobre una recta y cada
valor yi es igual a la estimación (los residuos son 0).

• Cuando los puntos no caen sobre una recta, R2 será menor que 1 y se puede
interpretar como una medida de la proximidad de los puntos a la recta.

2
En la regresión lineal simple, con una sola variable x independiente, R es
idéntico al cuadrado del coeficiente de correlación, que hemos visto que se
interpreta como una medida de la linealidad de la relación. Sin embargo, esta
equivalencia entre el coeficiente de determinación y el coeficiente de correla-
ción (al cuadrado) sólo es válida cuando existe una única variable explicativa,
no en general.

2
El coeficiente de determinación R se puede definir como el cuadrado de la
correlación entre los valores de yi y los valores estimados

2
Expresado como un porcentaje, R se describe también como el porcentaje de
la varianza (de y) explicado por la regresión.

Actividad
Ved también
Repasad los cálculos necesarios para estimar los coeficientes de una regresión lineal sim-
ple realizando la actividad siguiente. Véase la actividad 1 en el apar-
tado «Actividades» de este
módulo.
Los datos de la tabla 3 relacionan el tiempo de reacción en milisegundos y la puntuación
de una prueba de memoria, registrados en seis sujetos:

Tabla 3

Latencia�(mseg) 368 369 370 373 374 375


© FUOC • PID_00284122 16 Relación entre dos variables cuantitativas o numéricas

Memoria 53,8 54,1 55,3 58,1 59,3 59,9

1. Elaborad una gráfica de los datos poniendo la latencia en el eje vertical y la memoria
en el eje horizontal.

2. Calculad el coeficiente de correlación r entre las dos variables.

3. Estableced la recta de regresión lineal simple entre latencia y memoria, y mostrad la


relación que existe entre la correlación r y la estimación m de la pendiente.
© FUOC • PID_00284122 17 Relación entre dos variables cuantitativas o numéricas

5. La inferencia dentro de la regresión

Como en todos los análisis estadísticos, hay dos modos de pensar en los re-
sultados:

1) Considerar que los resultados son meramente un resumen descriptivo de


los datos. Por lo tanto, un diagrama de tallo y hojas es una descripción de la
distribución de una variable, una media es un valor de resumen para el centro
de la distribución y una recta es una descripción simple de la relación entre
observaciones sobre dos variables.

2) Pensar en los datos que tenemos como una muestra aleatoria de una pobla-
ción más amplia. En este caso, utilizamos las observaciones para extraer algu-
nas conclusiones sobre la población. Al estimar una media muestral obtene-
mos un intervalo de confianza en el cual cae la verdadera media poblacional,
o contrastamos una hipótesis específica sobre la media de la población.

En el análisis de regresión tenemos la misma situación. Si nuestras observacio-


nes emparejadas son una muestra aleatoria extraída de una población mayor,
entonces podemos utilizar los resultados para realizar ciertas inferencias de las
relaciones entre las dos variables en la población. Nuestro interés principal es
saber si la pendiente de regresión es significativa o no, lo cual es una prueba
de la significación de la relación lineal entre y y x.

Al final de este apartado sobre relaciones entre variables deberéis ser capaces
de:

• saber en qué población nos basamos al realizar un análisis de regresión.


• conocer qué es el error estándar de la pendiente.
• saber cómo se lleva a cabo un contraste de hipótesis sobre la pendiente.

5.1. La población a partir de la cual se toma una muestra

Hasta ahora, en nuestra inferencia estadística hemos considerado la media μ


de una distribución normal, por ejemplo, y hemos estudiado la distribución
de la media de una muestra obtenida a partir de esta distribución. En el análisis
de regresión tenemos una situación un poco más general. Para cada valor x
de la variable explicativa podemos pensar en una distribución de respuestas
posibles y, con una media que depende del valor de x.

Por ejemplo, si y es «ingresos» y x es «edad», podemos considerar las edades


una por una, pongamos por caso 30, y entonces observamos la distribución
de todos los ingresos de las personas de 30 años. Esta distribución tiene una
media que podríamos representar por μ30. Después, podríamos observar los
© FUOC • PID_00284122 18 Relación entre dos variables cuantitativas o numéricas

ingresos de todas las personas de 31 años, y la media poblacional sería μ31.


Si lo hiciéramos con todas las edades de nuestra población, tendríamos un
conjunto de distribuciones y un conjunto de medias.

Hemos intentado ilustrar esta idea en la figura 5. Consideramos una represen-


tación tridimensional donde las variables x e y toman valores sobre el plano, y
el eje vertical representa la densidad de probabilidad. Para cada valor de x hay
una distribución de los valores de y. En la figura hemos mostrado tres de estas
distribuciones –para las edades de 30, 40 y 50–, pero de hecho hay un conjunto
continuo de distribuciones como éstas que existen a lo largo del recorrido de x.

Figura 5

En el modelo de la regresión lineal las medias de las distribuciones, que co-


rresponden a cada valor de x, se sitúan sobre una recta, tal como muestra la
figura 5. Matemáticamente se expresa:

μx = β0 + β1 ∙ x

o también:

E (y | x) = β0 + β1 ∙ x

donde E (y | x) es la esperanza matemática de y (media poblacional) condicio-


nada por el valor de x. Como cada observación y es igual a su media más el
residual (o error, diferencia entre el valor real y el estimado por la recta), po-
demos expresar el modelo de la regresión lineal:

y = β0 + β1 ∙ x + ei

donde el residuo e también es una variable aleatoria como lo es y. Utilizamos


las letras griegas β0 y β1 para la intersección y la pendiente del modelo de la
población, respectivamente.
© FUOC • PID_00284122 19 Relación entre dos variables cuantitativas o numéricas

Este modelo β0 + β1 ∙ x para la media es la recta que nosotros intentamos esti-


mar al llevar a cabo una regresión. Necesitamos dos suposiciones más, simila-
res a las que necesitábamos para realizar inferencias estadísticas:

1) Debemos suponer que todas las distribuciones de y que tenemos para unos
valores dados de x (de modo equivalente, la distribución de e) tienen la misma
desviación estándar. Debemos llevar a cabo las mismas suposiciones cuando
contrastamos las diferencias entre dos grupos.

2) Hemos de suponer que nuestras observaciones de yi para cada xi dada son in-
dependientes –es una suposición necesaria que queda asegurada, ya que nues-
tra muestra es aleatoria. Es lo mismo que conjeturar que cada residuo ei es in-
dependiente.

Ahora, por lo tanto, la media depende del valor de la variable explicativa x.


Todos los cálculos que haremos en cuanto a la media serán respecto a esta
media que cambia en función de x.

5.2. Estimación de la desviación estándar común

Si cada distribución normal para un valor determinado de x tiene la misma


desviación típica σ, podemos estimar el valor de σ observando todas las des-
viaciones (residuales) de los puntos de la muestra, a partir de la recta de regre-
sión. La estimación de la recta que mejor se ajusta a nuestros datos es:

donde las estimaciones de los coeficientes de la recta corresponden a los valo-


res que en la descripción de la recta hemos denominado b y m.

Los residuales representan la diferencia entre los valores de y reales y los pre-
dichos a partir de la ecuación:

La media de los residuales es igual a cero. A partir de la suma de cuadrados


calcularemos la varianza y la desviación estándar de los residuales:

Atención: el motivo de dividir la suma de desviaciones al cuadrado por n − 2


se debe al hecho de que al haber de estimar dos parámetros desconocidos (los
coeficientes) se pierden un grado de libertad por cada uno.
© FUOC • PID_00284122 20 Relación entre dos variables cuantitativas o numéricas

5.3. Error estándar de la pendiente

En el análisis de la regresión lineal simple nos interesa validar o verificar el


modelo a partir de la constatación de que el valor de la pendiente de la recta es
significativamente diferente de cero. Observad que si la pendiente de la recta
fuese igual a cero, los valores que predeciríamos de y a partir de cualquier valor
de x siempre serían el valor de la media de y.

A partir del error estándar de la pendiente, y conocida la distribución muestral


(t de Student), podremos construir intervalos de confianza y contrastes de hi-
pótesis sobre el valor de la pendiente.

La fórmula para el cálculo del error estándar de la pendiente es:

Ilustraremos todo el proceso de estimación y validación del modelo a partir


de un ejemplo.

Utilizaremos los 16 primeros sujetos y las variables edad y escala N de los datos
del ejemplo general. Consideraremos la edad como variable predictora (inde-
pendiente) y la escala N como la variable efecto (dependiente).

En primer lugar, representaremos la nube de puntos o el gráfico de dispersión


(figura 6).

Tabla 4

Sujeto Edad Escala N

1 28 1

2 27 2

3 30 3

4 32 0

5 41 0

6 34 1

7 21 6

8 33 3

9 29 2

10 18 8

11 40 1

12 34 1
© FUOC • PID_00284122 21 Relación entre dos variables cuantitativas o numéricas

Sujeto Edad Escala N

13 42 0

14 18 2

15 30 0

16 20 8

Figura 6

Como se observa en el gráfico de dispersión, la recta que mejor ajustará a la


nube de puntos tendrá una pendiente negativa o descendiente. Igualmente,
el signo del coeficiente de correlación de Pearson será negativo.

Tabla 5

Edad Escala�N Edad-media Esc.�N-media

28 1,00 −1,81 −1,38 3,2761 1,9044 2,4978

27 2,00 −2,81 −0,38 7,8961 0,1444 1,0678

30 3,00 0,19 0,62 0,0361 0,3844 0,1178

32 0,00 2,19 −2,38 4,7961 5,6644 −5,2122

41 0,00 11,19 −2,38 125,22 5,6644 −26,632

34 1,00 4,19 −1,38 17,556 1,9044 −5,7822

21 6,00 −8,81 3,62 77,616 13,104 −31,892

33 3,00 3,19 0,62 10,176 0,3844 1,9778

29 2,00 −0,81 −0,38 0,6561 0,1444 0,3078

18 8,00 −11,81 5,62 139,48 31,584 −66,372

40 1,00 10,19 −1,38 103,84 1,9044 −14,062

34 1,00 4,19 −1,38 17,556 1,9044 −5,7822

42 0,00 12,19 −2,38 148,60 5,6644 −29,012

18 2,00 −11,81 −0,38 139,48 0,1444 4,4878

30 0,00 0,19 −2,38 0,0361 5,6644 −0,4522


© FUOC • PID_00284122 22 Relación entre dos variables cuantitativas o numéricas

Edad Escala�N Edad-media Esc.�N-media

20 8,00 −9,81 5,62 96,236 31,584 −55,132

477 38,00 892,44 107,75 −229,88

Media de la edad:

Media de la escala N:

Varianza y desviación típica edad:

Varianza y desviación típica escala N:

Covarianza entre edad y escala N:

Correlación entre edad y escala N:

Cálculo�de�los�coeficientes�de�la�regresión

Pendiente:

Intersección:

b = 2,375 + 0,26 ∙ 29,81 = 10,126

Ecuación de regresión estimada:


© FUOC • PID_00284122 23 Relación entre dos variables cuantitativas o numéricas

escala Ni = 10,126 − 0,26 ∙ edadi + ei

Cálculo de los residuales:

Tabla 6

Sujeto Edad Escala N Esc. N estim. Residual Residual


2

1 28 1,00 2,85 −1,85 3,41

2 27 2,00 3,11 −1,11 1,22

3 30 3,00 2,33 0,67 0,45

4 32 0,00 1,81 −1,81 3,26

5 41 0,00 −0,53 0,53 0,29

6 34 1,00 1,29 −0,29 0,08

7 21 6,00 4,67 1,33 1,78

8 33 3,00 1,55 1,45 2,11

9 29 2,00 2,59 −0,59 0,34

10 18 8,00 5,45 2,55 6,52

11 40 1,00 −0,27 1,27 1,62

12 34 1,00 1,29 −0,29 0,08

13 42 0,00 −0,79 0,79 0,63

14 18 2,00 5,45 −3,45 11,87

15 30 0,00 2,33 −2,33 5,41

16 20 8,00 4,93 3,07 9,45

0,00 48,54

Obtenemos la desviación estándar común:

Para verificar el modelo calcularemos el error estándar de la pendiente:

Intervalo de confianza para la pendiente: para calcular el intervalo de confian-


za utilizaremos la estimación de la pendiente, en nuestro caso −0,26, como un
punto medio y calcularemos el margen de error utilizando el error estándar de
la pendiente y el valor crítico de la distribución t, con n − 2 grados de libertad.
© FUOC • PID_00284122 24 Relación entre dos variables cuantitativas o numéricas

Si utilizamos un nivel de confianza del 95 %, obtenemos un valor de t(0,025;


14) = ±2,145.

Vemos que el intervalo de confianza no contiene el valor cero; por tanto, po-
demos concluir que el modelo de la regresión es válido.

5.4. Contraste de hipótesis sobre la pendiente

Como hemos dicho, si resulta que la pendiente del modelo es cero, y será
una constante y no habrá relación lineal entre las dos variables. Por tanto, las
hipótesis que deberemos contrastar serán:

• H0: β1 ≈ 0; en la población no existe relación entre las dos variables.


• H1: β1 ≠ 0; sí aparece relación entre las variables en la población origen
de la muestra.

Calculamos el estadístico de contraste dividiendo el valor de la pendiente es-


timada por el error estándar de la pendiente:

La distribución utilizada será la t de Student con n − 2 grados de libertad. En


nuestro ejemplo, utilizando un nivel de significación del 5 %, el valor crítico
es el valor de t que hemos utilizado para el intervalo de confianza (±2,145).

Vemos que el valor del estadístico de contraste (−4,193) supera por la izquierda
el intervalo marcado por los valores críticos (±2,145), por tanto, consideramos
que la pendiente es significativamente diferente de cero, por lo que la regre-
sión es significativa: los valores de la escala N están relacionados de manera
negativa con la edad de los sujetos.

5.5. La varianza explicada

También podemos verificar o validar el modelo a partir del coeficiente de de-


terminación R2. Recordemos que lo hemos definido anteriormente como una
medida de bondad de ajuste o medida de la proximidad de los puntos a la rec-
ta estimada. Representa la proporción de varianza de la variable dependiente
explicada por la recta de regresión y el valor siempre estará entre 0 y 1, aunque
también a menudo se expresa como un porcentaje.
© FUOC • PID_00284122 25 Relación entre dos variables cuantitativas o numéricas

2
El valor 1 − R cuantifica la proporción de varianza que no es explicada por
la regresión. A partir de estos dos valores podemos calcular un estadístico de
contraste:

Este estadístico de contraste F se distribuye siguiendo una distribución F de


Snedecor, con un grado de libertad en el numerador y n − 2 grados de libertad
en el denominador.

Las hipótesis que se deberán contrastar son H0: el modelo no es válido, no


existe relación; H1: sí existe relación, por tanto, el modelo sí que es válido.

Con los datos del ejemplo anterior, hemos visto que el valor de la correlación
entre la edad y la escala N es r = −0,74.

2
El coeficiente de determinación R = 0,5476 indica que un 54,76 % de la va-
rianza de los valores de la variable escala N vienen explicados por la regresión
entre esta variable y las diferentes edades de los sujetos.

Las hipótesis que se deberán contrastar serían:

• H0: en la población no existe relación entre las dos variables. El modelo


no es válido.

• H1: sí existe relación entre las variables en la población origen de la mues-


tra. El modelo es válido.

Calculamos el estadístico de contraste:

La distribución utilizada será la F de Snedecor con un grado de libertad en el


numerador y 14 grados de libertad en el denominador. En nuestro ejemplo,
utilizando un nivel de significación del 5 %, el valor crítico es el valor de
F(0,05; 1/14) = 4,6.

Como el estadístico de contraste (16,946) es mayor que el valor crítico (4,6),


vemos que la hipótesis nula resulta muy poco probable. Concluiremos que,
con un riesgo del 5 %, decidimos rechazar la hipótesis nula y, por tanto, su-
poner el modelo válido.
© FUOC • PID_00284122 27 Relación entre dos variables cuantitativas o numéricas

Actividades
1. Tenemos las notas obtenidas por un conjunto de estudiantes además de su puntuación en
la escala de C.I. (cociente intelectual). ¿Sería más natural pensar en las notas como variable
independiente o dependiente? ¿Cómo representaríais estos datos?

Tenemos datos sobre las habilidades verbales y cuantitativas de un grupo de 100 estudiantes
universitarios. Pensad qué variable depende de la otra. ¿Cómo representaríais estos datos?

2. Utilizaremos los 15 primeros sujetos del ejemplo general y nos centraremos en las variables
escala N y M.A.S.

Sujeto Escala N M.A.S.

1 1 8

2 2 2

3 3 12

4 0 4

5 0 2

6 1 5

7 6 21

8 3 14

9 2 8

10 8 24

11 1 6

12 1 3

13 0 0

14 2 0

15 0 1

En primer lugar, calculamos las medias de las dos variables:

• Media de escala N = 30/15 = 2


• Media de M.A.S. = 110/15 = 7,33

Con estos valores centraremos las dos variables y calcularemos las sumas de cuadrados de
cada variable y la suma de productos cruzados:

Sujeto Escala�N M.A.S.

1 1 8 −1 0,67 1 0,4489 −0,67

2 2 2 0 −5,33 0 28,4089 0

3 3 12 1 4,67 1 21,8089 4,67

4 0 4 −2 −3,33 4 11,0889 6,66

5 0 2 −2 −5,33 4 28,4089 10,66


© FUOC • PID_00284122 28 Relación entre dos variables cuantitativas o numéricas

Sujeto Escala�N M.A.S.

6 1 5 −1 −2,33 1 5,4289 2,33

7 6 21 4 13,67 16 186,8689 54,68

8 3 14 1 6,67 1 44,4889 6,67

9 2 8 0 0,67 0 0,4489 0

10 8 24 6 16,67 36 277,8889 100,02

11 1 6 −1 −1,33 1 1,7689 1,33

12 1 3 −1 −4,33 1 18,7489 4,33

13 0 0 −2 −7,33 4 53,7289 14,66

14 2 0 0 −7,33 0 53,7289 0

15 0 1 −2 −6,33 4 40,0689 12,66

Suma 30 110 74 773,3335 218

Varianza de escala N:

Varianza de M.A.S.:

Covarianza entre escala N y M.A.S.:

El signo de la covarianza (+) nos indica que la posible relación es directa o positiva. La cova-
rianza está afectada por las unidades de medida y, por tanto, no podemos saber si el valor
15,57 es alto o bajo.

La correlación, al estar acotada entre −1 y +1, nos indicará si parece ser que existe relación
conforme el valor se acerque a +1 o a cero.

Correlación entre escala N y M.A.S.:

El valor 0,911 está muy próximo a +1, por lo que indica que existe una fuerte relación entre
estas dos variables. El signo de la correlación nos indica que ésta es directa, a valores altos
de escala N le corresponden valores altos de M.A.S., y a la inversa, cuanto más pequeño es el
valor de la escala N también será pequeño el valor que se obtiene en la escala M.A.S.

3. Los datos siguientes relacionan el tiempo de reacción en milisegundos y la puntuación de


una prueba de memoria, registrados en seis sujetos:

Latencia�(mseg) 368 369 370 373 374 375


© FUOC • PID_00284122 29 Relación entre dos variables cuantitativas o numéricas

Memoria 53,8 54,1 55,3 58,1 59,3 59,9

a) Elaborad una gráfica de los datos, poniendo la latencia en el eje vertical y la memoria en
el eje horizontal.

b) Calculad el coeficiente de correlación, r, entre las dos variables.

Memoria Latencia x-medx y-medy SCx SCy SPxy

53,8 368 −2,95 −3,5 8,7025 12,25 10,325

54,1 369 −2,65 −2,5 7,0225 6,25 6,625

55,3 370 −1,45 −1,5 2,1025 2,25 2,175

58,1 373 1,35 1,5 1,8225 2,25 2,025

59,3 374 2,55 2,5 6,5025 6,25 6,375

59,9 375 3,15 3,5 9,9225 12,25 11,025

Suma 36,075 41,5 38,55

• Media de x = 56,75
• Media de y = 371,5
• Varianza de x = 36,075/5 = 7,215
• Sx = 2,686
• Varianza de y = 41,5/5 = 8,3
• Sy = 2,88
• Covarianza Sxy = 38,55/5 = 7,71
• Correlación Rxy = 7,71/2,686 ∙ 2,88 = 0,9963

c) Estableced la recta de regresión lineal simple entre latencia y memoria, y mostrad la rela-
ción que existe entre la correlación r y la estimación m de la pendiente.

• Pendiente m = 7,71/7,215 = 1,0686


• Intersección b = 371,5 − 1,0686 ∙ 56,75 = 310,86
• Recta de regresión; estimación de yi = 310,86 + 1,0686 ∙ xi
• Relación entre r y m: m = r ∙ sy/sx = 0,9963 ∙ 2,88/2,686 = 1,068

4. Utilizaremos los dieciséis primeros sujetos y las variables edad y escala N de los datos del
ejemplo general (ved tabla 4). Consideraremos la edad como la variable predictora (indepen-
diente) y la escala N como la variable efecto (dependiente). Utilizaremos el programa Excel
para los cálculos de la regresión simple entre estas dos variables.
© FUOC • PID_00284122 30 Relación entre dos variables cuantitativas o numéricas

Resumen

Estadísticas de la regresión

Coeficiente�de�correlación�múltiple 0,74130034

Coeficiente�de�determinación�R
2 0,54952619

2
R �ajustado 0,51734949

Error�típico 1,86199879

Observaciones 16

Coeficientes Error típico Estadístico t Probabilidad Inferior 95 % Superior 95 %

Intercepción 10,0541354 1,91560446 5,2485446 0,00012317 5,94556884 14,162702

Edad −0,25758106 0,06232905 −4,13260067 0,00101543 −0,39126369 −0,12389843

Análisis de los residuales

Observación Pronóstico�escala�N Residuos Residuos�estándares

1 2,841865677 −1,84186568 −1,023906196

2 3,09944674 −1,09944674 −0,611190242

3 2,326703551 0,67329645 0,374290273

4 1,811541424 −1,81154142 −1,007048729

5 −0,506688143 0,50668814 0,281671534

6 1,296379298 −0,2963793 −0,16475935

7 4,644933119 1,35506688 0,753291293

8 1,553960361 1,44603964 0,803863694

9 2,584284614 −0,58428461 −0,324807962

10 5,417676308 2,58232369 1,43553206

11 −0,24910708 1,24910708 0,694387487

12 1,296379298 −0,2963793 −0,164759354

13 −0,764269207 0,76426921 0,424862674

14 5,417676308 −3,41767631 −1,899910505

15 2,326703551 −2,32670355 −1,29343101

16 4,902514182 3,09748582 1,721914341


© FUOC • PID_00284122 31 Relación entre dos variables cuantitativas o numéricas

Bibliografía
Enlaces web

Relación entre variables cuantitativas: <http://www.fisterra.com/mbe/investi-


ga/var_cuantitativas/var_cuantitativas.asp>

Definición de regresión lineal: <http://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal>

Regresión lineal simple: <http://www.fisterra.com/mbe/investiga/regre_lineal_simple/


regre_lineal_simple.asp>

También podría gustarte