Está en la página 1de 7

Coeficiente de correlación semiparcial

_____________________________________________________________________________

1.- Introducción ............................................................................................................. 1


2.- Correlación semiparcial ........................................................................................................ 2
3.- Contribución específica de las distintas variables al modelo de Regresión Múltiple........... 3
4.- Correlación semiparcial de orden superior ........................................................................... 4
5.- Correlación semiparcial múltiple.......................................................................................... 5
6.- Significación estadística de los coeficiente de correlación semiparcial ............................... 6
_____________________________________________________________________________

1.- Introducción

Una de las cuestiones fundamentales en el análisis de la regresión consiste en determinar la


importancia relativa que tienen sobre la variable dependiente cada una de las variables
explicativas. Hasta ahora, el tema de la regresión múltiple se ha centrado fundamentalmente en
el cálculo de R2, su significación y los coeficientes b asociados, pero nada se ha dicho de la
contribución particular de cada una de las variables términos de proporción de variación
explicada. En este sentido, en las próxima páginas se ofrecen una herramienta conceptual
extraordinariamente útil -correlación semiparcial- que permite determinar el papel real
representado por cada una de las variables al margen de su protagonismo aparente.

Las correlaciones semiparciales tienen interés igualmente dentro de lo que se puede llamar
control estadístico de variables, por cuanto permite conocer las distintas fuentes de variación que
determinan la variable dependiente investigada, y por tanto, permite, de acuerdo con el modelo
concebido, asignar causalidad a ciertas variables explicativas. En este sentido, este tema puede
considerarse como un preludio de los modelos causales que serán estudiados más adelante.

1
2.- Correlación semiparcial

Como se ha indicado, en el cuadrado de la correlación múltiple queda reflejada la proporción de


variación explicada por el conjunto de regresores, pero nada se dice de la contribución específica
de cada uno de ellos. Por otro lado, las correlaciones simples (al cuadrado) de cada una de las
variables explicativas podrían ser , en principio, un indicador de dichas contribuciones, pero ,
como se verá, frecuentemente las distintas variables explicativas, están a su vez, correlacionadas
entre sí, compartiendo variabilidad, y por tanto, elementos comunes, no siendo siempre fácil
atribuir la fuente original de tales elementos compartidos.

Tengamos, en este sentido, las variables X1 , X2 e Y, cuyas correlaciones son las siguientes:

ry1 = 0.7 ry 2 = 0.6 R y.12 = 0.8

Una primera ojeada puede hacernos pensar que la variable X1 contribuye en la variabilidad de Y
en una proporción de 0.72=0.49 y que la variable X2 contribuye en una proporción de 0.62=0.36.
No obstante, se sabe por la correlación múltiple que la proporción de variación explicada es de
0.82=0.64. El total de ambas contribuciones no es igual a la suma, luego está claro que ambas
variables explicativas no son fuentes independientes de variabilidad, sino que comparten una
cierta cantidad de la misma. Existe, pues, redundancia entre ambas variables. El siguiente
diagrama de Venn ilustra lo que queremos decir:

Y
d

a c
b

X1 X2
El campo de variación de las distintas variables queda reflejada en los diferentes círculos (de
área total, la unidad), de tal manera que la contribución de X1 en Y es a+b, y la de X2, b+c . La
contribución total de X1 y X2 será a+b+c. Queda una parte -d- que es la variabilidad que no
logran explicar entre X1 y X2.

2
La proporción de variación explicada por la variable X1 será precisamente la intersección del
círculo correspondiente a X1 y del círculo indicado por Y. Así pues:

ry21 = a + b = 0.49

Y la proporción de variación explicada por X2:

ry22 = b + c = 0.36

Como entre ambas variables explican una proporción de 0.64, es evidente que la contribución
adicional de X1 sobre la que explica X2 será:

ry2(1.2) = R y2.12 − ry22 = 0.64 − 0.36 = 0.28 ⇒ a

Esto es, lo que añade X1 a X2 es una proporción de variación explicada de 0.28. La raíz cuadrada
de este valor se expresa como Ry(1.2) y se define como coeficiente de correlación semiparcial.
Así:
ry (1.2) = 0.28 = 0.529

Por otro lado, lo que añade X2 a X1 será:

ry2( 2.1) = R y2.12 − ry21 = 0.64 − 0.49 = 0.15 ⇒ c

Es decir, la inclusión de X2 supone un incremento sobre la proporción de variación explicada por


X1 de 0.15 puntos. Su coeficiente de correlación semiparcial será:

ry ( 2.1) = 0.15 = 0.387

3.- Contribución específica de las distintas variables al modelo de Regresión Múltiple

Las correlaciones semiparciales tienen especial interés para conocer el reparto de las
contribuciones de las variables X sobre la variable Y. Frecuentemente las variables explicativas
están solapadas y hay que utilizar algún criterio que permita asignar las zonas compartidas a
variables específicas. A este respecto, ha de establecerse una jerarquía entre tales variables de
forma que las de mayor orden jerárquico tienen prioridad respecto a su variabilidad compartida,
a las que se les adjudica. Así, cuando el orden es 1º X1 y 2º X2 las contribuciones observadas por
las distintas variables serán:

R y2.12 = ry21 + ry2( 2.1) = 0.49 + 0.15 = 0.64

3
Por el contrario, cuando el orden de entrada es 1º X2 y 2º X1 entonces:

R y2.12 = ry22 + ry2(1.2) = 0.36 + 0.28 = 0.64

Se observa la importancia del orden de entrada; de esta forma, cuando la variable X1 entra en
primer lugar explica una proporción de 0.49 y deja tan sólo un resto de 0.15 para X2. Cuando X2
es la variable de mayor rango en el modelo, explica una proporción de 0.36 y deja para X1 una
proporción explicada de 0.28. Es importante destacar que los mismos datos, según el acento que
se ponga en cada una de las variables llevará al investigador al conclusiones muy diferentes
respecto a su participación en el modelo.

La siguiente tabla ilustra lo que estamos comentando:

Var. Explicativa Orden Incremento Orden Incremento


X1 1 0.49 2 0.28
X2 2 0.15 1 0.36
R2 y.12 0.64 0.64

Así pues, la contribución específica de las distintas variables depende de su orden de entrada.
Cuanto más intercorrelacionadas estén y más tarde se introduzcan menos explicarán. En cierto
sentido, la importancia relativa concedida a cada una de las variables, cuando existe
redundancia, es subjetiva y depende en gran parte del juicio del investigador y del dominio que
tenga de la materia. No existen reglas que especifiquen claramente el orden de entrada. No
obstante, se suele utilizar el criterio de maximizar progresivamente la variación explicada de la
variable dependiente, por lo que se introducen las variables en orden de mayor a menor
proporción de variación explicada.

4.- Correlación semiparcial de orden superior

Las correlaciones expuestas del tipo ry(1.2) o ry(2.1) se denominan correlaciones semiparciales de
primer orden porque es una variable cuya influencia se elimina. No obstante, puede interesar
eliminar la influencia de más variables, por ejemplo, ry(1.23) expresa que la variable Y es
relacionada con la variable X1 eliminando de ésta la influencia de X2 y X3 . Se trata de una
correlación semiparcial de orden dos. Una correlación de orden tres sería ry(1.234) donde se
relaciona Y con X1 eliminado la influencia de X2 , X3 , y X4. En general una correlación
semiparcial del tipo ry(i.23..(i).......K) es una correlación semiparcial de orden k-1 que indica la
correlación entre Y y Xi eliminado de ésta la influencia de las restantes variables explicativas.

4
El procedimiento para calcular las correlaciones semiparciales de orden superior es equivalente
al ya expuesto para correlaciones de primer orden. A este efecto, resulta de nuevo ilustrativo
recurrir a los diagramas de Venn. Supongamos, ahora, que disponemos de cuatro variables: Y,
X1, X2 , y X3, y deseamos calcular r2y(3.12):

X3

X1 X2

Está claro que la contribución específica de X3 será:

ry2(3.12) = R y2.123 − R y2.12

Si deseamos recomponer la aportación de cada una de las variables suponiendo que el orden
de entrada sea X1 , X2 , y X3:

R y2.123 = ry21 + ry2( 2.1) + ry2(3.12)

Pero si el orden de entrada fuera X3 , X2 , y X1, entonces:

R y2.123 = ry23 + ry2( 2.3) + ry2(1.23)

5.- Correlación semiparcial múltiple

Todas las correlaciones estudiadas anteriormente han sido siempre entre dos variables, la
variable dependiente Y y una variable explicativa Xi, eliminando la influencia, bien de una
variable (correlación semiparcial simple de primer orden) o de un conjunto de k variables
(correlación semiparcial simple de orden k).

La correlación semiparcial múltiple hace referencia a la correlación entre una variable


dependiente y un conjunto de variables explicativas eliminado la influencia de una o varias
variables del conjunto de variables explicativas. Está claro que las correlaciones

5
semiparciales múltiples pueden ser a su vez, de primer orden o de orden superior. En términos
de proporción de variación, el cuadrado del coeficiente de correlación semiparcial múltiple
expresa la contribución que de la variación de la variable dependiente suponen una serie de
variables explicativas eliminado la influencia de otras. De esta forma, Ry(12.3) indica la
correlación semiparcial de Y con las variables X1 y X2 eliminando la influencia de X3. En
términos de proporción de variación se calculará de la siguiente manera:

Ry2(12.3) = Ry2.123 − Ry2.3

Si por ejemplo, deseamos calcular R2y(12.34) :

R y2(12.34 ) = R y2.1234 − R y2.34


Obsérvese que en el cálculo de las correlaciones semiparciales (al cuadrado), sea simple o
múltiple, de primer orden o de orden superior, siempre se calcula de la misma manera. Se
trata de una diferencia entre dos elementos, donde el primero de ellos hace referencia a la
correlación múltiple (al cuadrado) de la variable Y con todas las variables explicativas
consideradas, y donde el segundo elemento indica la correlación (al cuadrado) de la variable
Y con las variables explicativas a eliminar.

6.- Significación estadística de los coeficiente de correlación semiparcial

Las pruebas con estos coeficientes consiste básicamente en comprobar si la variación


explicada por la variable o variables introducidas supera la varianza aleatoria o residual. En
este sentido, la fórmula a aplicar es equivalente a las ya conocidas con la única diferencia que
el numerador está constituido por el incremento en términos de proporción de variación que
supone la adición de las variables estudiadas. Puesto que el numerador está formado por una
diferencia de R2 sus grados de libertad corresponde a tal diferencia. Supongamos que
deseamos conocer la significación estadística de R2y(12.34). Esta expresión se calcula como la
diferencia entre dos sumandos:

R y2(12.34 ) = R y2.1234 − R y2.34

El primer sumando R2y.1234 tiene k=4 grados de libertad, tantos como variables independientes
consideradas, mientras que el segundo sumando R2y.34, por la misma lógica, tiene k1=2 grados
de libertad. Así pues, la prueba F a realizar será (supongamos que operamos con 20 sujetos):

R y2(12.34) R y2(12.34)
k − k1 2
F= =
2
1 − R y .1234 1 − R y2.1234
N − k −1 15

Compararemos el cociente F obtenido con el de las tablas para 2 y 15 grados de libertad.

6
Problema 1.- Tengamos los siguientes datos:

R y2.12 = 0.35 r21 = 0.4 r y 3 = 0 .5 r31 = 0 r32 = 0

Determinar R2y.123.

SOL:

Tenemos que:

R y2.123 = ry2.1 + ry2( 2.1) + ry2(3.12)

Por otro lado, se sabe:

R y2.12 = ry2.1 + ry2( 2.1)

Como X3 no correlaciona ni con X2 ni con X1:

ry2(3.12) = ry23

Por tanto:
R y2.123 = R y2.12 + ry23 = 0.35 + 0.25 = 0.6

Lo que se ilustra mejor gráficamente:

X3

X1 X2

También podría gustarte