Documentos de Académico
Documentos de Profesional
Documentos de Cultura
25
3.1. INTRODUCCIÓN
COVARIANZA
-1 ≤ rxy ≤ +1
Relación positiva
Relación negativa
- La dispersión o variabilidad de los valores. Si existe un solo dato que esté alejado del resto,
este valor hará que el coeficiente aumente mucho su valor. Cuando esto ocurre lo que se suele
hacer es eliminar las puntuaciones correspondientes a ese sujeto.
X 1 3 5 7
Y 2 4 6 800
- La fiabilidad de las medidas. Si se utilizan para recoger los datos unos instrumentos que no
son fiables, los resultados a partir de esos datos tampoco lo son.
- El influjo de una tercera variable. Por ejemplo, la relación entre peso y amplitud de
vocabulario en un grupo de niños de 5 a 8 años es muy alta pero es falsa, puesto que hay una
tercera variable (al menos) que es la edad que está influyendo.
3.4. EJEMPLO
Intentamos determinar una función matemática (una ecuación) que nos permita
pronosticar la puntuación de una persona en una variable Y (denominada variable criterio),
conocida su puntuación en otra variable X (llamada variable predictora). De entre todas las
posibles funciones elegimos una muy sencilla: La función lineal, la ecuación de la línea recta.
Intentamos determinar una función matemática (una ecuación) que nos permita
pronosticar la puntuación de cada persona en una variable Y (variable criterio), conocida su
puntuación en otra variable X (variable predictora). Entre todas las funciones elegimos una
muy sencilla: La función lineal, la ecuación de la línea recta. Y' = A + B*X
X Y
3 1
7 10
10 8
1 2
4 9
Deseamos construir una línea recta tal que haga mínimo el error cometido en los
pronósticos. Esta minimización del error, se entiende de la siguiente manera:
Suponemos un grupo de personas del que nos dan sus puntuaciones en X e Y. Por
ejemplo las 5 de la tabla anterior.
En el gráfico anterior llamamos a la ordenada del punto (sobre la recta r) cuya abscisa
es Xi. En otras palabras, es la puntuación pronosticada en Y mediante la recta r, a la
persona cuya puntuación en X es Xi. Es decir, Yi es la puntuación obtenida en Y e es la
pronosticada.
Está claro que con cada recta tendremos, en nuestro caso, cinco diferencias , o errores
entre la puntuación obtenida y la pronosticada (en la gráfica están las diferencias de los dos
primeros sujetos). Si elevamos al cuadrado estos errores y los sumamos, tendremos una suma
de errores cuadráticos. Pues bien, de todas las rectas posibles del plano, pretendemos elegir
aquella respecto de la cual sea mínima dicha suma. En esto consiste la construcción de las
rectas de regresión de Y sobre X, según el criterio de mínimos cuadrados.
En general, si tenemos n personas, intentamos construir una recta tal, que haga mínima
la expresión:
Donde i = 1, 2, 3,..., n
Dada la semejanza entre los dos grupos de personas, es de esperar que la recta de regresión
que fue óptima para reducir los errores cuadráticos respecto al primer grupo, será, también,
razonablemente buena para reducir los errores cuadráticos respecto al segundo grupo.
Y' = A + (B*X)
3.5.3 EJEMPLO 1
Nº HORAS RENDIM
X Y
XY X2 Y2 Y’ (Y – Y’) (Y – Y’)2
5 25 125 25 625 32,6 -7,6 57,76
5 30 150 25 900 32,6 -2,6 6,76
6 30 180 36 900 36,1 -6,1 37,21
6 35 210 36 1225 36,1 -1,1 1,21
6 45 270 36 2025 36,1 8,9 79,21
7 40 280 49 1600 39,5 0,5 0,25
7 45 315 49 2025 39,5 5,5 30,25
11 55 605 121 3025 53,4 1,6 2,56
11 60 660 121 3600 53,4 6,6 43,56
16 65 1040 256 4225 70,7 -5,7 32,49
80 430 3835 754 20150 430 0,0 291,26
3.5.4 EJEMPLO 2
T. Aptitud
R Lengua (Y) XY X2 Y2 Y' Y-Y' (Y-Y')2
Verbal (X)
2 2 4 4 4 3,3 -1,3 1,69
1 2 2 4 1 3,3 -2,3 5,29
1 1 1 1 1 2,56 -1,56 2,43
1 1 1 1 1 2,56 -1,56 2,43
5 3 15 9 25 4,05 0,95 0,90
4 4 16 16 16 4,79 -0,79 0,62
7 5 35 25 49 5,54 1,46 2,13
6 5 30 25 36 5,54 0,46 0,21
7 7 49 49 49 7,03 -0,03 0,00
8 6 48 36 64 6,28 1,72 2,96
3 4 12 16 9 4,79 -1,79 3,20
3 3 9 9 9 4,05 -1,05 1,10
6 6 36 36 36 6,28 -0,28 0,08
6 6 36 36 36 6,28 -0,28 0,08
10 8 80 64 100 7,77 2,23 4,97
9 9 81 81 81 8,52 0,48 0,23
6 10 60 100 36 9,26 -3,26 10,63
6 9 54 81 36 8,52 -2,52 6,35
9 4 36 16 81 4,79 4,21 17,72
10 4 40 16 100 4,79 5,21 27,14
110 99 645 625 770 110 90,16
rxy = 0,67 . El 45% de la variable Y está explicada por X (por la regresión), el resto se debe al error de
pronóstico.