Está en la página 1de 8

Tema 3. Estadística con dos variables.

25

TEMA 3. ESTADÍSTICA CON DOS VARIABLES.

3.1. INTRODUCCIÓN

El análisis de correlación ayuda a establecer el grado de relación entre dos variables, X


e Y. La cuantía de la relación entre dos variables se puede establecer calculando un índice de
correlación, de forma que será alta o baja según el valor numérico del estadístico calculado. El
sentido de la relación lo indica el signo que acompaña al valor del estadístico, de forma que
una relación puede ser positiva si al aumentar una de las variables aumenta la otra y,
negativa, si al aumentar una de las variables disminuye la otra. El tipo de relación entre las
dos variables consideradas puede ser lineal o no lineal.

Si las dos variables X e Y son cuantitativas, se puede calcular la Covarianza, el


Coeficiente de Correlación de Pearson o la Razón de Correlación entre ambas. No obstante,
en este tema sólo nos ocuparemos de la Covarianza y el Coeficiente de Correlación de
Pearson.

3.2. DESCRIPCIÓN DE COVARIACIONES: Concepto y Cálculo de la Covarianza

La Covarianza indica el grado de variación conjunta de las variables, indica cuantía y


sentido de la covariación y tiene como unidad de medida el producto de las unidades de las
dos variables consideradas. Esto último unido al hecho de no estar el coeficiente acotado
superiormente hace difícil su interpretación.

COVARIANZA

3.3. CORRELACIÓN ENTRE DOS VARIABLES: Concepto y Cálculo del Coeficiente


de Correlación de Pearson

Al dividir la Covarianza por el producto de las dos desviaciones típicas, ( ) se

obtiene el Coeficiente de Correlación de Pearson, que indica cuantía y sentido de la relación,


detectando sólo relación de tipo lineal entre las variables. La ventaja de este coeficiente sobre
el anterior es que está acotado, oscila entre –1 y +1, y no posee unidades de medida, lo que
hace que su interpretación sea bastante fácil.

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
26

COEFICIENTE DE CORRELACIÓN DE PEARSON

El Coeficiente de Correlación de Pearson oscila entre –1 y +1.

-1 ≤ rxy ≤ +1

Los resultados obtenidos del Coeficiente los interpretaremos de la siguiente forma:

rxy = +1 Relación lineal positiva perfecta entre las dos variables.


rxy = -1 Relación lineal negativa perfecta entre las dos variables.
rxy = 0 No existe relación lineal entre las dos variables.

Relación positiva

+ 0,90 < rxy < +1 Relación positiva muy alta.


+0,70 < rxy ≤ +0,90 Relación positiva alta.
+0,40 < rxy ≤ +0,70 Relación positiva moderada o media.
+0,20 < rxy ≤ +0,40 Relación positiva baja.
0 < rxy ≤ +0,20 Relación positiva muy baja.

Relación negativa

- 1 < rxy < -0,90 Relación negativa muy alta.


-0,90 ≤ rxy < -0,70 Relación negativa alta.
-0,70 ≤ rxy < -0,40 Relación negativa moderada o media.
-0,40 ≤ rxy < -0,20 Relación negativa baja.
-0,20 ≤ rxy < 0 Relación negativa muy baja.

Existen algunos factores que pueden influir en el Coeficiente de Correlación de


Pearson y que pueden hacer que el resultado al que lleguemos sea erróneo, a saber:

- La dispersión o variabilidad de los valores. Si existe un solo dato que esté alejado del resto,
este valor hará que el coeficiente aumente mucho su valor. Cuando esto ocurre lo que se suele
hacer es eliminar las puntuaciones correspondientes a ese sujeto.

X 1 3 5 7
Y 2 4 6 800

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
27

- La fiabilidad de las medidas. Si se utilizan para recoger los datos unos instrumentos que no
son fiables, los resultados a partir de esos datos tampoco lo son.

- El influjo de una tercera variable. Por ejemplo, la relación entre peso y amplitud de
vocabulario en un grupo de niños de 5 a 8 años es muy alta pero es falsa, puesto que hay una
tercera variable (al menos) que es la edad que está influyendo.

3.4. EJEMPLO

Xi Yj Xi2 Yj2 XiYj


25 20 625 400 500
20 19 400 361 380
35 40 1225 1600 1400
40 35 1600 1225 1400
35 41 1225 1681 1435
30 37 900 1369 1110
25 20 625 400 500
40 50 1600 2500 2000
11 15 121 225 165
25 21 625 441 525
9 12 81 144 108
50 50 2500 2500 2500
80 74 6400 5476 5920
50 45 2500 2025 2250
20 22 400 484 440
495 501 20827 20831 20633

3.5. REGRESIÓN LINEAL

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
28

Intentamos determinar una función matemática (una ecuación) que nos permita
pronosticar la puntuación de una persona en una variable Y (denominada variable criterio),
conocida su puntuación en otra variable X (llamada variable predictora). De entre todas las
posibles funciones elegimos una muy sencilla: La función lineal, la ecuación de la línea recta.

3.5.1. Concepto de Regresión

Regresión equivale a predicción. La palabra regresión se debe a Galton. Estudiando


la relación entre las características de los padres y las de sus hijos observó que a padres altos
correspondían hijos altos, pero que, en general, se acercaban más a su media que los padres a
la suya. Igualmente, a padres bajos correspondían hijos bajos, pero que, en general, se
acercaban a su media más que los padres a la suya. Es decir, parecía darse cierta regresión
hacia la media. Según este modo de pensar, los hijos serían más iguales, más homogéneos
entre sí que lo eran sus padres. Pasamos por alto la discusión de esta interpretación y nos
limitamos a constatar que el termino regresión fue introducido con ocasión de estos estudios
de Galton sobre la herencia y que hoy para nosotros equivale a predicción, pronóstico,
estimación. Es decir, ecuación de regresión equivaldrá a ecuación de predicción, de
pronóstico, de estimación. Amón, Jesús (1980). Estadística para psicólogos. 1 Estadística
descriptiva. Pirámide. Madrid.

Intentamos determinar una función matemática (una ecuación) que nos permita
pronosticar la puntuación de cada persona en una variable Y (variable criterio), conocida su
puntuación en otra variable X (variable predictora). Entre todas las funciones elegimos una
muy sencilla: La función lineal, la ecuación de la línea recta. Y' = A + B*X

X Y
3 1
7 10
10 8
1 2
4 9

Deseamos construir una línea recta tal que haga mínimo el error cometido en los
pronósticos. Esta minimización del error, se entiende de la siguiente manera:

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
29

Suponemos un grupo de personas del que nos dan sus puntuaciones en X e Y. Por
ejemplo las 5 de la tabla anterior.

En el gráfico anterior llamamos a la ordenada del punto (sobre la recta r) cuya abscisa
es Xi. En otras palabras, es la puntuación pronosticada en Y mediante la recta r, a la
persona cuya puntuación en X es Xi. Es decir, Yi es la puntuación obtenida en Y e es la
pronosticada.
Está claro que con cada recta tendremos, en nuestro caso, cinco diferencias , o errores
entre la puntuación obtenida y la pronosticada (en la gráfica están las diferencias de los dos
primeros sujetos). Si elevamos al cuadrado estos errores y los sumamos, tendremos una suma
de errores cuadráticos. Pues bien, de todas las rectas posibles del plano, pretendemos elegir
aquella respecto de la cual sea mínima dicha suma. En esto consiste la construcción de las
rectas de regresión de Y sobre X, según el criterio de mínimos cuadrados.

En conclusión, la recta de regresión de Y sobre X es una recta tal que, en nuestro


ejemplo, haga mínima la suma:

En general, si tenemos n personas, intentamos construir una recta tal, que haga mínima
la expresión:

Donde i = 1, 2, 3,..., n

Para construir la recta de regresión necesitamos un grupo de personas cuyas


puntuaciones en X y en Y conozcamos. En cambio, la recta de regresión la aplicaremos a
otras personas, semejantes a las anteriores, de las que solo conoceremos sus puntuaciones en
X. Supongamos que X es un test de aptitud para la Estadística e Y el aprovechamiento en la
misma, medido por un examen. Queremos construir una ecuación que nos permita
pronosticar, del mejor modo posible, el aprovechamiento, conocido el resultado en el test.
Pues bien, para construir esa recta, necesitamos unas personas cuyas puntuaciones en el test y
en el examen conozcamos. Una vez construida, la aplicaremos a otras personas, semejantes a
las anteriores, de las que solo conoceremos sus puntuaciones en el test de aptitud.

Dada la semejanza entre los dos grupos de personas, es de esperar que la recta de regresión
que fue óptima para reducir los errores cuadráticos respecto al primer grupo, será, también,
razonablemente buena para reducir los errores cuadráticos respecto al segundo grupo.

3.5.2. Cálculo de la Regresión de Y a partir de X

Mediante estas ecuaciones intentamos pronosticar Y a partir de X.

Partimos de la fórmula de la ecuación de la línea recta:

Y' = A + (B*X)

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
30

Debemos calcular los valores de A y B para que sea mínima.

Para ello, utilizamos las siguientes fórmulas:

Propiedades de la ecuación de regresión:

. Son iguales la media de las puntuaciones directas pronosticadas y la media de las


puntuaciones directas obtenidas.

. La varianza de las puntuaciones directas pronosticadas, es igual o menor que la


varianza de las puntuaciones directas obtenidas, puesto que

3.5.3 EJEMPLO 1

Se está llevando a cabo un estudio en el cual se intenta relacionar el número de horas


de práctica en una tarea (X) con la puntuación en una prueba de rendimiento (Y) a fin de
poder predecir con posterioridad la puntuación con el simple conocimiento de las horas de
práctica. Para ello se selecciona una muestra de 10 sujetos a los que se les mide el
rendimiento en la prueba así como las horas de práctica. Encontrar la recta que más se ajuste a
los datos obtenidos.

Nº HORAS RENDIM
X Y
XY X2 Y2 Y’ (Y – Y’) (Y – Y’)2
5 25 125 25 625 32,6 -7,6 57,76
5 30 150 25 900 32,6 -2,6 6,76
6 30 180 36 900 36,1 -6,1 37,21
6 35 210 36 1225 36,1 -1,1 1,21
6 45 270 36 2025 36,1 8,9 79,21
7 40 280 49 1600 39,5 0,5 0,25
7 45 315 49 2025 39,5 5,5 30,25
11 55 605 121 3025 53,4 1,6 2,56
11 60 660 121 3600 53,4 6,6 43,56
16 65 1040 256 4225 70,7 -5,7 32,49
80 430 3835 754 20150 430 0,0 291,26

Ecuación de regresión en la muestra:

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
31

Cuando X = 0, Y’ = 15,28. Esto significa que si un sujeto no dedicara ninguna hora a la


práctica podría recibir u obtener un rendimiento de 15,28 puntos. Su rendimiento se
incrementará en 3,4649 puntos por cada hora extra de práctica.

rxy = 0,91  . El 83% de la variable Y está explicada por X (por la regresión), el


resto se debe al error de pronóstico.

El coeficiente de correlación de Pearson al cuadrado (coeficiente de determinación) es la


proporción de variabilidad explicada por la regresión.

Varianza de la regresión o varianza error:

3.5.4 EJEMPLO 2
T. Aptitud
R Lengua (Y) XY X2 Y2 Y' Y-Y' (Y-Y')2
Verbal (X)
2 2 4 4 4 3,3 -1,3 1,69
1 2 2 4 1 3,3 -2,3 5,29
1 1 1 1 1 2,56 -1,56 2,43
1 1 1 1 1 2,56 -1,56 2,43
5 3 15 9 25 4,05 0,95 0,90
4 4 16 16 16 4,79 -0,79 0,62
7 5 35 25 49 5,54 1,46 2,13
6 5 30 25 36 5,54 0,46 0,21
7 7 49 49 49 7,03 -0,03 0,00
8 6 48 36 64 6,28 1,72 2,96
3 4 12 16 9 4,79 -1,79 3,20
3 3 9 9 9 4,05 -1,05 1,10
6 6 36 36 36 6,28 -0,28 0,08
6 6 36 36 36 6,28 -0,28 0,08
10 8 80 64 100 7,77 2,23 4,97
9 9 81 81 81 8,52 0,48 0,23
6 10 60 100 36 9,26 -3,26 10,63
6 9 54 81 36 8,52 -2,52 6,35
9 4 36 16 81 4,79 4,21 17,72
10 4 40 16 100 4,79 5,21 27,14
110 99 645 625 770 110 90,16

Ecuación de regresión en la muestra:

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería
Tema 3. Estadística con dos variables.
32

rxy = 0,67  . El 45% de la variable Y está explicada por X (por la regresión), el resto se debe al error de
pronóstico.

Varianza de la regresión o varianza error:

Fundamentos del Análisis de Datos en Psicología


Área de Metodología de las Ciencias del Comportamiento
Universidad de Almería

También podría gustarte