Clase 4 3 Correlacion Regresion

TEMA 4:
REGRESIÓN
LINEAL.
Concepto
El establecimiento de una correlación entre dos

variables es importante, pero esto se considera un
primer paso para predecir una variable a partir de la
otra. (U otras, en el caso de la regresión múltiple.)
Claro está, si sabemos que la variable X está muy

relacionada con Y, ello quiere decir que podemos
predecir Y a partir de X. Estamos ya en el terreno de la
predicción. (Evidentemente si, X no está relacionada con
Y, X no sirve como predictor de Y.)
Nota: Emplearemos los términos “regresión” y “predicción” como casi sinónimos. (La
razón del uso del término “regresión” es antigua, y se ha mantenido como tal.)
Concepto (2)
El tema básico en regresión (con 2 variables) es

ajustar los puntos del diagrama de dispersión de las
variables X e Y. Para simplificar, nos centraremos
especialmente (por simplicidad) en el caso de que
la relación entre X e Y sea lineal.
rendimiento
Claro está, el tema ahora es cómo conseguir

cuál es la “mejor” línea que parece unir los
inteligencia puntos. Necesitamos para ello un criterio. Si
bien hay otros criterios, el más empleado
comúnmente, y el que veremos aquí, es el
criterio de mínimos cuadrados.
Criterio de mínimos cuadrados: Es aquel que minimiza las distancias cuadráticas de los
puntos con la línea.
Repaso de la ecuación de una recta
Y=A+BX
A es la ordenada en el origen (es donde la recta

corta el eje Y)
B es la pendiente (observad que en el caso de
rendimiento
las relaciones positivas, B será positivo; en el

caso de las relación negativas, B será negativo;
si no hay relación, B será aproximadamente 0)
inteligencia
Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de

relación lineal) la recta de regresión de Y sobre (a partir de) X.
Cálculo de la ecuación de regresión lineal (de Y sobre X)
El criterio de mínimos cuadrados nos

Y’ proporciona un valor de A y uno de B, tal que
n 2
 Y Y 
Rendimiento (Y)
'
i i sea mínimo
i 1
Inteligencia (X)
CI (X) Rendim (Y)

120 10
100 9
90 4
110 6
11
10
5
RENDIM
3
80 90 100 110 120 130
INTELIG
La recta por mínimos

cuadrados es:
Y’=-8’5+0’15X
n 2
 Y Y 
i 1
i i
'
es mínimo
Esa expresión vale 11.5 en

nuestro caso
Observa....
-Cada unidad de CI hace aumentar

0’15 la nota.
-Aunque en este caso, lo siguiente no
tiene sentido, una persona con CI de
0, sacaría un -8.5
Las fórmulas.... En puntuaciones directas
Ordenada origen
A  Y  BX
B
 XY  nXY
Pendiente
 X  nX 2 2
Nota: Tanto A como B se pueden obtener fácilmente en cualquier calculadora con

opción “LR” (Linear Regression)
X Y XY X2
suj1 120 10 1200 14400
suj2 100 9 900 10000
suj3 90 4 360 8100
suj4 110 6 660 12100
4 SUMA SUMA
3120 44600
PROMEDIO PROMEDIO
105 7.25
N
4
3120  4 105  7 '25

B  0 '15
44600  4 105 2
Luego
Y’=-8’5+0’15X
A  7 ' 25  0 '15 105  8'5
Las fórmulas en puntuaciones diferenciales
Ordenada origen a0 Fijaros que la media de X y la media de Y serán

0 en puntuación típicas
b
 xy IMPORTANTE: B=b
x
Pendiente 2 Es decir, la pendiente en puntuaciones
diferenciales es la MISMA que en
puntuaciones directas
Por tanto, la recta de regresión en puntuaciones diferenciales es en nuestro caso:

y’=0’15x
Las fórmulas en puntuaciones típicas
Ordenada origen a  0 Al igual que en las puntuaciones diferenciales
IMPORTANTE: Como veremos, la
 
pendiente en puntuaciones

z z
x y z x  zy típicas COINCIDE con el índice de
Pendiente b  
z 2
x n correlación de Pearson
Por tanto, la recta de regresión en puntuaciones típicas es en nuestro caso: z y’

=0’703zx
OUTPUT DEL ORDENADOR
Resumen del modelob
R cuadrado Error típ. de la

Modelo R R cuadrado corregida estimación
1 .703 a .495 .242 2.398
a. Variables predictoras: (Constante), INTELIG
b. Variable dependiente: RENDIM
Ord. y pendiente Ord. y pendiente

(punt.directas) Coeficientesa (punt.típicas)
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) -8.500 11.324 -.751 .531
INTELIG .150 .107 .703 1.399 .297
a. Variable dependiente: RENDIM
Observad que el índice de corr.Pearson coincide con la pendiente expresada en

puntuaciones típicas.
Sabemos que
Bb
 xy
x 2
Y por el tema anterior sxy 

 xy
y rxy 
sxy
n sx  s y
Y por el tema de
variabilidad sx2 
 x 2
 xy
Bb
 xy
 n  sxy  rxy  sx  s y  r  s y
Se deduce que
x x 2 2 xy
sx2 sx2 sx
n
En definitiva, sy
B  b  rxy 
sx

sy 1
b  rxy   rxy   rxy
sx 1
y
sy
A  Y  rxy  X
sx
Evidentemente, la ordenada en el origen de la recta de regresión de Y sobre

X será 0 para puntuaciones diferenciales y típicas (dado que las medias para
las respectivas puntuaciones tanto en X como en Y serán 0 en tales casos).
Los errores de predicción en la recta de regresión de Y sobre X
Puntuaciones observadas Yi
Puntuaciones predichas Yi 
Error de predicción
con la recta de Yi  Yi
regresión de Y sobre X
La cuestión ahora en cuánto se reduce la varianza al emplear la recta de

regresión de Y sobre X (es decir, teniendo X como predictor) en comparación
con el caso en que no tuviéramos la recta de regresión
s y2 
 (Y  Y ) 2
n
Si no tuviéramos el predictor X, ¿qué puntuación prediríamos para las

puntuaciones de Y?
En tal caso, dado el criterio de mínimos cuadrados, si tenemos datos en Y y

carecemos de datos en X, nuestra mejor estimación de Y será su media Y
Recordemos que la media minimiza el sumatorio de las diferencias
Cuadráticas
 (Y  Y ) 2
es mínimo
Si empleamos la media como predictor, la varianza de las predicciones será
s y2 
 (Y  Y ) 2
n
Pero si tenemos un predictor X, la varianza será
s y2. x 
 i i
(Y  Y 
) 2
Esta es la varianza de Y no explicada por X
Se puede demostrar que s y2. x  s y2 (1  rxy2 )
s y2. x
Que despejando sale rxy2  1 
s y2
¿Cuán buena es la predicción de la recta de regresión? El coeficiente de
determinación como índice de la bondad de ajuste de nuestro modelo (la
recta de regresión)
s y2. x
Acabamos de mostrar que
rxy2  1 
s y2
2
r xy
Es el llamado coeficiente de determinación y permite conocer cuán bueno
es el ajuste de la recta de regresión (o en general del modelo lineal). Está
acotado entre 0 y 1.
Si todos los puntos del diagrama de dispersión están sobre la recta (con pendiente
diferente de 0), s y2.será
entonces x 0, y el coeficiente de determinación será 1
Cuanto más se alejen los puntos de la recta de regresión, mayor será el valor de
s y2. x del coeficiente de determinación será menor y menor.
el valor
El coeficiente de determinación y la proporción de varianza
asociada/explicada/común (1)
Empecemos con una tautología
Yi  Yi  (Yi  Yi )
Esta expresión indica que la puntuación observada por el sujeto i-ésimo es igual a la
puntuación predicha para dicho sujeto más un error de predicción.
Se puede demostrar que las puntuaciones predichas y los errores de predicción son
independientes, con lo que podemos señalar
s y2  s 2y '  s y2. x
s y2 Varianza total de Y
s y2 ' Varianza de las puntuaciones de Y predichas por el predictor X
s y2. x Varianza de los errores de predicción (varianza no explicada por X)

El coeficiente de determinación y la proporción de varianza
asociada/explicada/común (2)
De la transparencia anterior, tenemos s y2  s y2 '  s y2. x
s y2. x
Y sabíamos que rxy2  1 
s y2
s y2  s y2. x s y2´
luego rxy2  2

s y s y2
En definitiva, el coeficiente de determinación mide la proporción de la varianza de

Y que está asociada/explicada por el predictor X
Introducción a la regresión lineal múltiple (1)
Hemos visto el caso de un predictor (X) y una variable predicha (Y), y obtenido la recta
de regresión de Y sobre X por el procedimiento de mínimos cuadrados.
Dada la naturaleza del comportamiento humano, en el que cada conducta observada

puede ser influida por diferentes variables, resulta más “ecológico” examinar no ya
cuán bueno es un predictor X para predecir Y, sino más bien tendremos varios
predictores X1, X2, ...., para predecir Y (o si se quiere, varios predictores, X 2, X3,...., para
predecir X1). Es el caso de la regresión múltiple.
Hasta ahora teníamos Y '  A  BX

“criterio”, variable a
Ahora tendremos k predictores: X1 predecir, variable
“dependiente”
X 1 '  A  B2 X 2  B3 X 3  ...  Bk X k
Variables
X 2 , X 3 ,... predictoras
Recta s
B  rxy  y
Introducción a la regresión lineal múltiple (2) regresión sx
Es importante que os deis cuenta que las ponderaciones B 2, B3, ..., son
análogas a las que vimos en el caso de la recta de regresión.
s1.3
X 1 '  A  B2 X 2  B3 X 3  ...  Bk X k Por ejemplo B2  r12.3
s2.3
Tales coeficientes representan cuán importante es la respectiva variable predictora

en la ecuación de regresión.
Al igual que ocurría en la recta de regresión (fijaros que el caso de 1 predictor es un

caso particular de la regresión múltiple), A representa el lugar donde el hiperplano de
regresión múltiple corta el eje de la variable predicha.
Por simplicidad, y dado que normalmente todo el proceso se hace mediante

ordenador, no veremos las fórmulas (ver el texto de Botella y otros, en el que
está todo bien explicado)...pero ahora veremos unas puntualizaciones.
En puntuaciones directas, la ecuación de regresión es la que sabemos
X 1 '  A  B2 X 2  B3 X 3  ...  Bk X k
En puntuaciones diferenciales, recordad que A valía 0 en la recta de regresión; lo

mismo se aplica en la ecuación de regresión.
x1 '  b2 x2  b3 x3  ...  bk xk
Y aplicando la misma lógica, el valor de los pesos es el mismo que el que
teníamos en puntuaciones directas
b2  B2 b3  B3 etcétera
Datos (N=5)
Rendim Ansied Neurot

9 3 5
3 12 15
6 8 8
2 9 7
7 7 6
Resumen del modelo
R1.23  0 '904
R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 .904 a .817 .634 1.744
a. Variables predictoras: (Constante), NEURO, ANSIE
Como en el caso de 1 predictor:

Coeficientesa sx2'
Coeficientes
2
R1.23  1
sx21
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 11.288 2.221 5.082 .037
ANSIED -1.139 .510 -1.293 -2.233 .155
NEUROT .365 .421 .502 .868 .477
a. Variable dependiente: RENDIM
El modelo lineal general
El modelo lineal general subyace a buena parte de las

pruebas estadísticas que se efectúan en psicología y en
otras ciencias sociales.
Por decir unas pocas

-Análisis de regresión (ya vistos)
-Análisis de Varianza (se verán 2º cuatrimestre)
-Pruebas t (se verán 2º cuatrimestre)
-Análisis de covarianza
-Análisis de conglomerados (cluster analysis)
-Análisis factorial
-Escalamiento multidimensional
-Correlación canónica
-Análisis discriminante
y más....
El modelo lineal general (2)
Claramente, los análisis de regresión que hemos visto

son un caso particular del modelo lineal general, en el
caso de 2 variables: una actúa como predictor y una
variable predicha.
Y '  A  BX
O si se quiere expresar así
Y  A  BX  (Y  Y ')
Y  A  BX  e
Observado = Predicho + Error estimación
en términos generales Y  B0  B1 X 1  e
El modelo lineal general (3)
La expresión general es
Y  B0  B1 X 1  ...  Bk X k  e
Y: Variable dependiente
X1, X2, ..., variables independientes (predictoras de Y)
e: error aleatorio
B1, B2, ..., son los pesos que determinan la contribución de cada variable
independiente.
El caso en el modelo lineal general es que en la parte izquierda de la ecuación podemos

tener no sólo una variable dependiente, sino varias.

Clase 4 3 Correlacion Regresion

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 4 3 Correlacion Regresion

Cargado por

Copyright:

Formatos disponibles

TEMA 4:

El establecimiento de una correlación entre dos

Claro está, si sabemos que la variable X está muy

El tema básico en regresión (con 2 variables) es

Claro está, el tema ahora es cómo conseguir

A es la ordenada en el origen (es donde la recta

las relaciones positivas, B será positivo; en el

Si queremos predecir Y a partir de X, necesitamos calcular (en el caso de

El criterio de mínimos cuadrados nos

CI (X) Rendim (Y)

La recta por mínimos

Esa expresión vale 11.5 en

-Cada unidad de CI hace aumentar

Las fórmulas.... En puntuaciones directas

Nota: Tanto A como B se pueden obtener fácilmente en cualquier calculadora con

3120  4 105  7 '25

Las fórmulas en puntuaciones diferenciales

Ordenada origen a0 Fijaros que la media de X y la media de Y serán

Por tanto, la recta de regresión en puntuaciones diferenciales es en nuestro caso:

Las fórmulas en puntuaciones típicas

Ordenada origen a  0 Al igual que en las puntuaciones diferenciales

IMPORTANTE: Como veremos, la

Por tanto, la recta de regresión en puntuaciones típicas es en nuestro caso: z y’

OUTPUT DEL ORDENADOR

Resumen del modelob

R cuadrado Error típ. de la

Ord. y pendiente Ord. y pendiente

Observad que el índice de corr.Pearson coincide con la pendiente expresada en

Y por el tema anterior sxy 

Evidentemente, la ordenada en el origen de la recta de regresión de Y sobre

La cuestión ahora en cuánto se reduce la varianza al emplear la recta de

Si no tuviéramos el predictor X, ¿qué puntuación prediríamos para las

En tal caso, dado el criterio de mínimos cuadrados, si tenemos datos en Y y

Si empleamos la media como predictor, la varianza de las predicciones será

Pero si tenemos un predictor X, la varianza será

Esta es la varianza de Y no explicada por X

Se puede demostrar que s y2. x  s y2 (1  rxy2 )

s y2 ' Varianza de las puntuaciones de Y predichas por el predictor X

s y2. x Varianza de los errores de predicción (varianza no explicada por X)

De la transparencia anterior, tenemos s y2  s y2 '  s y2. x

En definitiva, el coeficiente de determinación mide la proporción de la varianza de

Dada la naturaleza del comportamiento humano, en el que cada conducta observada

Hasta ahora teníamos Y '  A  BX

Tales coeficientes representan cuán importante es la respectiva variable predictora

Al igual que ocurría en la recta de regresión (fijaros que el caso de 1 predictor es un

Por simplicidad, y dado que normalmente todo el proceso se hace mediante

En puntuaciones directas, la ecuación de regresión es la que sabemos

En puntuaciones diferenciales, recordad que A valía 0 en la recta de regresión; lo

Rendim Ansied Neurot

Resumen del modelo

Como en el caso de 1 predictor:

El modelo lineal general subyace a buena parte de las

Por decir unas pocas

Claramente, los análisis de regresión que hemos visto

O si se quiere expresar así

Observado = Predicho + Error estimación

El caso en el modelo lineal general es que en la parte izquierda de la ecuación podemos

También podría gustarte