Tema 3

Tema 3. Estadística con dos variables.
25
TEMA 3. ESTADÍSTICA CON DOS VARIABLES.
3.1. INTRODUCCIÓN
El análisis de correlación ayuda a establecer el grado de relación entre dos variables, X

e Y. La cuantía de la relación entre dos variables se puede establecer calculando un índice de
correlación, de forma que será alta o baja según el valor numérico del estadístico calculado. El
sentido de la relación lo indica el signo que acompaña al valor del estadístico, de forma que
una relación puede ser positiva si al aumentar una de las variables aumenta la otra y,
negativa, si al aumentar una de las variables disminuye la otra. El tipo de relación entre las
dos variables consideradas puede ser lineal o no lineal.
Si las dos variables X e Y son cuantitativas, se puede calcular la Covarianza, el

Coeficiente de Correlación de Pearson o la Razón de Correlación entre ambas. No obstante,
en este tema sólo nos ocuparemos de la Covarianza y el Coeficiente de Correlación de
Pearson.
3.2. DESCRIPCIÓN DE COVARIACIONES: Concepto y Cálculo de la Covarianza
La Covarianza indica el grado de variación conjunta de las variables, indica cuantía y

sentido de la covariación y tiene como unidad de medida el producto de las unidades de las
dos variables consideradas. Esto último unido al hecho de no estar el coeficiente acotado
superiormente hace difícil su interpretación.
COVARIANZA
3.3. CORRELACIÓN ENTRE DOS VARIABLES: Concepto y Cálculo del Coeficiente

de Correlación de Pearson
Al dividir la Covarianza por el producto de las dos desviaciones típicas, ( ) se
obtiene el Coeficiente de Correlación de Pearson, que indica cuantía y sentido de la relación,

detectando sólo relación de tipo lineal entre las variables. La ventaja de este coeficiente sobre
el anterior es que está acotado, oscila entre –1 y +1, y no posee unidades de medida, lo que
hace que su interpretación sea bastante fácil.
Fundamentos del Análisis de Datos en Psicología

Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
26
COEFICIENTE DE CORRELACIÓN DE PEARSON
El Coeficiente de Correlación de Pearson oscila entre –1 y +1.
-1 ≤ rxy ≤ +1
Los resultados obtenidos del Coeficiente los interpretaremos de la siguiente forma:
rxy = +1 Relación lineal positiva perfecta entre las dos variables.

rxy = -1 Relación lineal negativa perfecta entre las dos variables.
rxy = 0 No existe relación lineal entre las dos variables.
Relación positiva
+ 0,90 < rxy < +1 Relación positiva muy alta.

+0,70 < rxy ≤ +0,90 Relación positiva alta.
+0,40 < rxy ≤ +0,70 Relación positiva moderada o media.
+0,20 < rxy ≤ +0,40 Relación positiva baja.
0 < rxy ≤ +0,20 Relación positiva muy baja.
Relación negativa
- 1 < rxy < -0,90 Relación negativa muy alta.

-0,90 ≤ rxy < -0,70 Relación negativa alta.
-0,70 ≤ rxy < -0,40 Relación negativa moderada o media.
-0,40 ≤ rxy < -0,20 Relación negativa baja.
-0,20 ≤ rxy < 0 Relación negativa muy baja.
Existen algunos factores que pueden influir en el Coeficiente de Correlación de

Pearson y que pueden hacer que el resultado al que lleguemos sea erróneo, a saber:
- La dispersión o variabilidad de los valores. Si existe un solo dato que esté alejado del resto,
este valor hará que el coeficiente aumente mucho su valor. Cuando esto ocurre lo que se suele
hacer es eliminar las puntuaciones correspondientes a ese sujeto.
X 1 3 5 7
Y 2 4 6 800

27
- La fiabilidad de las medidas. Si se utilizan para recoger los datos unos instrumentos que no
son fiables, los resultados a partir de esos datos tampoco lo son.
- El influjo de una tercera variable. Por ejemplo, la relación entre peso y amplitud de
vocabulario en un grupo de niños de 5 a 8 años es muy alta pero es falsa, puesto que hay una
tercera variable (al menos) que es la edad que está influyendo.
3.4. EJEMPLO
Xi Yj Xi2 Yj2 XiYj

25 20 625 400 500
20 19 400 361 380
35 40 1225 1600 1400
40 35 1600 1225 1400
35 41 1225 1681 1435
30 37 900 1369 1110
25 20 625 400 500
40 50 1600 2500 2000
11 15 121 225 165
25 21 625 441 525
9 12 81 144 108
50 50 2500 2500 2500
80 74 6400 5476 5920
50 45 2500 2025 2250
20 22 400 484 440
495 501 20827 20831 20633
3.5. REGRESIÓN LINEAL

28
Intentamos determinar una función matemática (una ecuación) que nos permita
pronosticar la puntuación de una persona en una variable Y (denominada variable criterio),
conocida su puntuación en otra variable X (llamada variable predictora). De entre todas las
posibles funciones elegimos una muy sencilla: La función lineal, la ecuación de la línea recta.
3.5.1. Concepto de Regresión
Regresión equivale a predicción. La palabra regresión se debe a Galton. Estudiando

la relación entre las características de los padres y las de sus hijos observó que a padres altos
correspondían hijos altos, pero que, en general, se acercaban más a su media que los padres a
la suya. Igualmente, a padres bajos correspondían hijos bajos, pero que, en general, se
acercaban a su media más que los padres a la suya. Es decir, parecía darse cierta regresión
hacia la media. Según este modo de pensar, los hijos serían más iguales, más homogéneos
entre sí que lo eran sus padres. Pasamos por alto la discusión de esta interpretación y nos
limitamos a constatar que el termino regresión fue introducido con ocasión de estos estudios
de Galton sobre la herencia y que hoy para nosotros equivale a predicción, pronóstico,
estimación. Es decir, ecuación de regresión equivaldrá a ecuación de predicción, de
pronóstico, de estimación. Amón, Jesús (1980). Estadística para psicólogos. 1 Estadística
descriptiva. Pirámide. Madrid.
Intentamos determinar una función matemática (una ecuación) que nos permita
pronosticar la puntuación de cada persona en una variable Y (variable criterio), conocida su
puntuación en otra variable X (variable predictora). Entre todas las funciones elegimos una
muy sencilla: La función lineal, la ecuación de la línea recta. Y' = A + B*X
X Y
3 1
7 10
10 8
1 2
4 9
Deseamos construir una línea recta tal que haga mínimo el error cometido en los
pronósticos. Esta minimización del error, se entiende de la siguiente manera:

29
Suponemos un grupo de personas del que nos dan sus puntuaciones en X e Y. Por
ejemplo las 5 de la tabla anterior.
En el gráfico anterior llamamos a la ordenada del punto (sobre la recta r) cuya abscisa
es Xi. En otras palabras, es la puntuación pronosticada en Y mediante la recta r, a la
persona cuya puntuación en X es Xi. Es decir, Yi es la puntuación obtenida en Y e es la
pronosticada.
Está claro que con cada recta tendremos, en nuestro caso, cinco diferencias , o errores
entre la puntuación obtenida y la pronosticada (en la gráfica están las diferencias de los dos
primeros sujetos). Si elevamos al cuadrado estos errores y los sumamos, tendremos una suma
de errores cuadráticos. Pues bien, de todas las rectas posibles del plano, pretendemos elegir
aquella respecto de la cual sea mínima dicha suma. En esto consiste la construcción de las
rectas de regresión de Y sobre X, según el criterio de mínimos cuadrados.
En conclusión, la recta de regresión de Y sobre X es una recta tal que, en nuestro

ejemplo, haga mínima la suma:
En general, si tenemos n personas, intentamos construir una recta tal, que haga mínima
la expresión:
Donde i = 1, 2, 3,..., n
Para construir la recta de regresión necesitamos un grupo de personas cuyas

puntuaciones en X y en Y conozcamos. En cambio, la recta de regresión la aplicaremos a
otras personas, semejantes a las anteriores, de las que solo conoceremos sus puntuaciones en
X. Supongamos que X es un test de aptitud para la Estadística e Y el aprovechamiento en la
misma, medido por un examen. Queremos construir una ecuación que nos permita
pronosticar, del mejor modo posible, el aprovechamiento, conocido el resultado en el test.
Pues bien, para construir esa recta, necesitamos unas personas cuyas puntuaciones en el test y
en el examen conozcamos. Una vez construida, la aplicaremos a otras personas, semejantes a
las anteriores, de las que solo conoceremos sus puntuaciones en el test de aptitud.
Dada la semejanza entre los dos grupos de personas, es de esperar que la recta de regresión
que fue óptima para reducir los errores cuadráticos respecto al primer grupo, será, también,
razonablemente buena para reducir los errores cuadráticos respecto al segundo grupo.
3.5.2. Cálculo de la Regresión de Y a partir de X
Mediante estas ecuaciones intentamos pronosticar Y a partir de X.
Partimos de la fórmula de la ecuación de la línea recta:
Y' = A + (B*X)

30
Debemos calcular los valores de A y B para que sea mínima.
Para ello, utilizamos las siguientes fórmulas:
Propiedades de la ecuación de regresión:
. Son iguales la media de las puntuaciones directas pronosticadas y la media de las

puntuaciones directas obtenidas.
. La varianza de las puntuaciones directas pronosticadas, es igual o menor que la

varianza de las puntuaciones directas obtenidas, puesto que
3.5.3 EJEMPLO 1
Se está llevando a cabo un estudio en el cual se intenta relacionar el número de horas

de práctica en una tarea (X) con la puntuación en una prueba de rendimiento (Y) a fin de
poder predecir con posterioridad la puntuación con el simple conocimiento de las horas de
práctica. Para ello se selecciona una muestra de 10 sujetos a los que se les mide el
rendimiento en la prueba así como las horas de práctica. Encontrar la recta que más se ajuste a
los datos obtenidos.
Nº HORAS RENDIM
X Y
XY X2 Y2 Y’ (Y – Y’) (Y – Y’)2
5 25 125 25 625 32,6 -7,6 57,76
5 30 150 25 900 32,6 -2,6 6,76
6 30 180 36 900 36,1 -6,1 37,21
6 35 210 36 1225 36,1 -1,1 1,21
6 45 270 36 2025 36,1 8,9 79,21
7 40 280 49 1600 39,5 0,5 0,25
7 45 315 49 2025 39,5 5,5 30,25
11 55 605 121 3025 53,4 1,6 2,56
11 60 660 121 3600 53,4 6,6 43,56
16 65 1040 256 4225 70,7 -5,7 32,49
80 430 3835 754 20150 430 0,0 291,26
Ecuación de regresión en la muestra:

31
Cuando X = 0, Y’ = 15,28. Esto significa que si un sujeto no dedicara ninguna hora a la

práctica podría recibir u obtener un rendimiento de 15,28 puntos. Su rendimiento se
incrementará en 3,4649 puntos por cada hora extra de práctica.
rxy = 0,91  . El 83% de la variable Y está explicada por X (por la regresión), el

resto se debe al error de pronóstico.
El coeficiente de correlación de Pearson al cuadrado (coeficiente de determinación) es la

proporción de variabilidad explicada por la regresión.
Varianza de la regresión o varianza error:
3.5.4 EJEMPLO 2
T. Aptitud
R Lengua (Y) XY X2 Y2 Y' Y-Y' (Y-Y')2
Verbal (X)
2 2 4 4 4 3,3 -1,3 1,69
1 2 2 4 1 3,3 -2,3 5,29
1 1 1 1 1 2,56 -1,56 2,43
1 1 1 1 1 2,56 -1,56 2,43
5 3 15 9 25 4,05 0,95 0,90
4 4 16 16 16 4,79 -0,79 0,62
7 5 35 25 49 5,54 1,46 2,13
6 5 30 25 36 5,54 0,46 0,21
7 7 49 49 49 7,03 -0,03 0,00
8 6 48 36 64 6,28 1,72 2,96
3 4 12 16 9 4,79 -1,79 3,20
3 3 9 9 9 4,05 -1,05 1,10
6 6 36 36 36 6,28 -0,28 0,08
6 6 36 36 36 6,28 -0,28 0,08
10 8 80 64 100 7,77 2,23 4,97
9 9 81 81 81 8,52 0,48 0,23
6 10 60 100 36 9,26 -3,26 10,63
6 9 54 81 36 8,52 -2,52 6,35
9 4 36 16 81 4,79 4,21 17,72
10 4 40 16 100 4,79 5,21 27,14
110 99 645 625 770 110 90,16
Ecuación de regresión en la muestra:

32
rxy = 0,67  . El 45% de la variable Y está explicada por X (por la regresión), el resto se debe al error de
pronóstico.
Varianza de la regresión o varianza error:


Tema 3

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 3

Cargado por

Copyright:

Formatos disponibles

Tema 3. Estadística con dos variables.

TEMA 3. ESTADÍSTICA CON DOS VARIABLES.

El análisis de correlación ayuda a establecer el grado de relación entre dos variables, X

Si las dos variables X e Y son cuantitativas, se puede calcular la Covarianza, el

3.2. DESCRIPCIÓN DE COVARIACIONES: Concepto y Cálculo de la Covarianza

La Covarianza indica el grado de variación conjunta de las variables, indica cuantía y

3.3. CORRELACIÓN ENTRE DOS VARIABLES: Concepto y Cálculo del Coeficiente

Al dividir la Covarianza por el producto de las dos desviaciones típicas, ( ) se

obtiene el Coeficiente de Correlación de Pearson, que indica cuantía y sentido de la relación,

Fundamentos del Análisis de Datos en Psicología

COEFICIENTE DE CORRELACIÓN DE PEARSON

El Coeficiente de Correlación de Pearson oscila entre –1 y +1.

Los resultados obtenidos del Coeficiente los interpretaremos de la siguiente forma:

rxy = +1 Relación lineal positiva perfecta entre las dos variables.

+ 0,90 < rxy < +1 Relación positiva muy alta.

- 1 < rxy < -0,90 Relación negativa muy alta.

Existen algunos factores que pueden influir en el Coeficiente de Correlación de

Fundamentos del Análisis de Datos en Psicología

Xi Yj Xi2 Yj2 XiYj

3.5. REGRESIÓN LINEAL

Fundamentos del Análisis de Datos en Psicología

3.5.1. Concepto de Regresión

Regresión equivale a predicción. La palabra regresión se debe a Galton. Estudiando

Fundamentos del Análisis de Datos en Psicología

En conclusión, la recta de regresión de Y sobre X es una recta tal que, en nuestro

Para construir la recta de regresión necesitamos un grupo de personas cuyas

3.5.2. Cálculo de la Regresión de Y a partir de X

Mediante estas ecuaciones intentamos pronosticar Y a partir de X.

Partimos de la fórmula de la ecuación de la línea recta:

Fundamentos del Análisis de Datos en Psicología

Debemos calcular los valores de A y B para que sea mínima.

Para ello, utilizamos las siguientes fórmulas:

Propiedades de la ecuación de regresión:

. Son iguales la media de las puntuaciones directas pronosticadas y la media de las

. La varianza de las puntuaciones directas pronosticadas, es igual o menor que la

Se está llevando a cabo un estudio en el cual se intenta relacionar el número de horas

Ecuación de regresión en la muestra:

Fundamentos del Análisis de Datos en Psicología

Cuando X = 0, Y’ = 15,28. Esto significa que si un sujeto no dedicara ninguna hora a la

rxy = 0,91  . El 83% de la variable Y está explicada por X (por la regresión), el

El coeficiente de correlación de Pearson al cuadrado (coeficiente de determinación) es la

Varianza de la regresión o varianza error:

Ecuación de regresión en la muestra:

Fundamentos del Análisis de Datos en Psicología

Varianza de la regresión o varianza error:

Fundamentos del Análisis de Datos en Psicología

También podría gustarte