Documentos de Académico
Documentos de Profesional
Documentos de Cultura
variables cuantitativas o
numéricas
PID_00284122
Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada,
reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea este eléctrico,
mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita
del titular de los derechos.
© FUOC • PID_00284122 Relación entre dos variables cuantitativas o numéricas
Índice
Objetivos....................................................................................................... 5
3. Matriz de correlaciones.................................................................... 12
Actividades.................................................................................................. 27
Bibliografía................................................................................................. 31
© FUOC • PID_00284122 5 Relación entre dos variables cuantitativas o numéricas
Objetivos
17. Ser capaz de construir e interpretar un gráfico de dispersión para dos va-
riables cuantitativas.
21. Saber expresar de forma clarificadora los resultados y poder plantear nue-
vas investigaciones.
© FUOC • PID_00284122 7 Relación entre dos variables cuantitativas o numéricas
Figura 1
Un valor cero de covarianza nos indica ausencia de relación entre las variables.
Por otro lado, un valor negativo nos indica relación negativa (a mayor valor de
una variable le corresponde un valor menor en la otra y viceversa). Un valor
© FUOC • PID_00284122 10 Relación entre dos variables cuantitativas o numéricas
positivo indica relación positiva entre las variables (a mayor valor de una le
corresponde mayor valor de la otra y a menor valor en una variable también
menor valor en la otra).
Figura 2
Figura 3
Figura 4
© FUOC • PID_00284122 12 Relación entre dos variables cuantitativas o numéricas
3. Matriz de correlaciones
La matriz muestra las correlaciones entre todas las parejas de variables, inclui-
das las variables consigo mismas. Por tanto, vemos correlaciones de 1 sobre
la diagonal de esta matriz, que son correlaciones entre las variables consigo
mismas. Fuera de la diagonal vemos las correlaciones entre las parejas de va-
riables. La matriz se dispone de forma triangular debido a que la información
por encima y por debajo de esta diagonal es la misma.
Ejemplo
Utilizamos otra vez los 15 primeros sujetos de la matriz de datos general y nos centramos
en las variables numéricas edad, escala E, escala N, M.A.S. y B.D.I. (tabla 1).
Tabla 1
1 28 13 1 8 7
2 27 15 2 2 9
3 30 5 3 12 3
4 32 7 0 4 0
5 41 6 0 2 1
6 34 13 1 5 10
7 21 15 6 21 8
8 33 2 3 14 6
9 29 20 2 8 3
10 18 11 8 24 2
11 40 14 1 6 7
12 34 11 1 3 5
13 42 6 0 0 9
14 18 18 2 0 18
15 30 6 0 1 4
Matriz de correlaciones:
© FUOC • PID_00284122 13 Relación entre dos variables cuantitativas o numéricas
Tabla 2
Edad 1
Escala�E −0,46270272 1
Pendiente:
Intersección:
b=y−m∙x
• 2
Si R es igual a 1 (100 %), la regresión «explica» perfectamente la relación
entre y y x, es decir, los puntos caen exactamente sobre una recta y cada
valor yi es igual a la estimación (los residuos son 0).
• Cuando los puntos no caen sobre una recta, R2 será menor que 1 y se puede
interpretar como una medida de la proximidad de los puntos a la recta.
2
En la regresión lineal simple, con una sola variable x independiente, R es
idéntico al cuadrado del coeficiente de correlación, que hemos visto que se
interpreta como una medida de la linealidad de la relación. Sin embargo, esta
equivalencia entre el coeficiente de determinación y el coeficiente de correla-
ción (al cuadrado) sólo es válida cuando existe una única variable explicativa,
no en general.
2
El coeficiente de determinación R se puede definir como el cuadrado de la
correlación entre los valores de yi y los valores estimados
2
Expresado como un porcentaje, R se describe también como el porcentaje de
la varianza (de y) explicado por la regresión.
Actividad
Ved también
Repasad los cálculos necesarios para estimar los coeficientes de una regresión lineal sim-
ple realizando la actividad siguiente. Véase la actividad 1 en el apar-
tado «Actividades» de este
módulo.
Los datos de la tabla 3 relacionan el tiempo de reacción en milisegundos y la puntuación
de una prueba de memoria, registrados en seis sujetos:
Tabla 3
1. Elaborad una gráfica de los datos poniendo la latencia en el eje vertical y la memoria
en el eje horizontal.
Como en todos los análisis estadísticos, hay dos modos de pensar en los re-
sultados:
2) Pensar en los datos que tenemos como una muestra aleatoria de una pobla-
ción más amplia. En este caso, utilizamos las observaciones para extraer algu-
nas conclusiones sobre la población. Al estimar una media muestral obtene-
mos un intervalo de confianza en el cual cae la verdadera media poblacional,
o contrastamos una hipótesis específica sobre la media de la población.
Al final de este apartado sobre relaciones entre variables deberéis ser capaces
de:
Figura 5
μx = β0 + β1 ∙ x
o también:
E (y | x) = β0 + β1 ∙ x
y = β0 + β1 ∙ x + ei
1) Debemos suponer que todas las distribuciones de y que tenemos para unos
valores dados de x (de modo equivalente, la distribución de e) tienen la misma
desviación estándar. Debemos llevar a cabo las mismas suposiciones cuando
contrastamos las diferencias entre dos grupos.
2) Hemos de suponer que nuestras observaciones de yi para cada xi dada son in-
dependientes –es una suposición necesaria que queda asegurada, ya que nues-
tra muestra es aleatoria. Es lo mismo que conjeturar que cada residuo ei es in-
dependiente.
Los residuales representan la diferencia entre los valores de y reales y los pre-
dichos a partir de la ecuación:
Utilizaremos los 16 primeros sujetos y las variables edad y escala N de los datos
del ejemplo general. Consideraremos la edad como variable predictora (inde-
pendiente) y la escala N como la variable efecto (dependiente).
Tabla 4
1 28 1
2 27 2
3 30 3
4 32 0
5 41 0
6 34 1
7 21 6
8 33 3
9 29 2
10 18 8
11 40 1
12 34 1
© FUOC • PID_00284122 21 Relación entre dos variables cuantitativas o numéricas
13 42 0
14 18 2
15 30 0
16 20 8
Figura 6
Tabla 5
Media de la edad:
Media de la escala N:
Cálculo�de�los�coeficientes�de�la�regresión
Pendiente:
Intersección:
Tabla 6
0,00 48,54
Vemos que el intervalo de confianza no contiene el valor cero; por tanto, po-
demos concluir que el modelo de la regresión es válido.
Como hemos dicho, si resulta que la pendiente del modelo es cero, y será
una constante y no habrá relación lineal entre las dos variables. Por tanto, las
hipótesis que deberemos contrastar serán:
Vemos que el valor del estadístico de contraste (−4,193) supera por la izquierda
el intervalo marcado por los valores críticos (±2,145), por tanto, consideramos
que la pendiente es significativamente diferente de cero, por lo que la regre-
sión es significativa: los valores de la escala N están relacionados de manera
negativa con la edad de los sujetos.
2
El valor 1 − R cuantifica la proporción de varianza que no es explicada por
la regresión. A partir de estos dos valores podemos calcular un estadístico de
contraste:
Con los datos del ejemplo anterior, hemos visto que el valor de la correlación
entre la edad y la escala N es r = −0,74.
2
El coeficiente de determinación R = 0,5476 indica que un 54,76 % de la va-
rianza de los valores de la variable escala N vienen explicados por la regresión
entre esta variable y las diferentes edades de los sujetos.
Actividades
1. Tenemos las notas obtenidas por un conjunto de estudiantes además de su puntuación en
la escala de C.I. (cociente intelectual). ¿Sería más natural pensar en las notas como variable
independiente o dependiente? ¿Cómo representaríais estos datos?
Tenemos datos sobre las habilidades verbales y cuantitativas de un grupo de 100 estudiantes
universitarios. Pensad qué variable depende de la otra. ¿Cómo representaríais estos datos?
2. Utilizaremos los 15 primeros sujetos del ejemplo general y nos centraremos en las variables
escala N y M.A.S.
1 1 8
2 2 2
3 3 12
4 0 4
5 0 2
6 1 5
7 6 21
8 3 14
9 2 8
10 8 24
11 1 6
12 1 3
13 0 0
14 2 0
15 0 1
Con estos valores centraremos las dos variables y calcularemos las sumas de cuadrados de
cada variable y la suma de productos cruzados:
2 2 2 0 −5,33 0 28,4089 0
9 2 8 0 0,67 0 0,4489 0
14 2 0 0 −7,33 0 53,7289 0
Varianza de escala N:
Varianza de M.A.S.:
El signo de la covarianza (+) nos indica que la posible relación es directa o positiva. La cova-
rianza está afectada por las unidades de medida y, por tanto, no podemos saber si el valor
15,57 es alto o bajo.
La correlación, al estar acotada entre −1 y +1, nos indicará si parece ser que existe relación
conforme el valor se acerque a +1 o a cero.
El valor 0,911 está muy próximo a +1, por lo que indica que existe una fuerte relación entre
estas dos variables. El signo de la correlación nos indica que ésta es directa, a valores altos
de escala N le corresponden valores altos de M.A.S., y a la inversa, cuanto más pequeño es el
valor de la escala N también será pequeño el valor que se obtiene en la escala M.A.S.
a) Elaborad una gráfica de los datos, poniendo la latencia en el eje vertical y la memoria en
el eje horizontal.
• Media de x = 56,75
• Media de y = 371,5
• Varianza de x = 36,075/5 = 7,215
• Sx = 2,686
• Varianza de y = 41,5/5 = 8,3
• Sy = 2,88
• Covarianza Sxy = 38,55/5 = 7,71
• Correlación Rxy = 7,71/2,686 ∙ 2,88 = 0,9963
c) Estableced la recta de regresión lineal simple entre latencia y memoria, y mostrad la rela-
ción que existe entre la correlación r y la estimación m de la pendiente.
4. Utilizaremos los dieciséis primeros sujetos y las variables edad y escala N de los datos del
ejemplo general (ved tabla 4). Consideraremos la edad como la variable predictora (indepen-
diente) y la escala N como la variable efecto (dependiente). Utilizaremos el programa Excel
para los cálculos de la regresión simple entre estas dos variables.
© FUOC • PID_00284122 30 Relación entre dos variables cuantitativas o numéricas
Resumen
Estadísticas de la regresión
Coeficiente�de�correlación�múltiple 0,74130034
Coeficiente�de�determinación�R
2 0,54952619
2
R �ajustado 0,51734949
Error�típico 1,86199879
Observaciones 16
Bibliografía
Enlaces web