Está en la página 1de 22

3.4.

1 MEDIDAS DE CORRELACION
Para medir el grado de asociacin entre dos o ms variables se utilizan los
coeficientes de correlacin. Existen varios tipos de correlacin que pueden
calcularse y dependen de la escala de medicin en que se hallan medido cada
una de las variables, enfatizando que la escala ms fuerte es la de razn por lo
que la estructura general se obtiene bajo este enfoque y el coeficiente de
correlacin de Pearson es la forma general de obtener un coeficiente de
correlacin lineal, los otros tipos son casos especiales, que se describirn en las
secciones prximas. Sin embargo el coeficiente de correlacin de Pearson, es el
ms importante y en la mayora de los trabajos de investigacin, debiera
orientarse a obtener este tipo de informacin para cada uno de las variables, para
luego pasar a las otras escalas ms dbiles si el estudio lo requiere. A seguir se
presentan varios tipos de coeficientes de correlacin, iniciando por aquellas que se
aplican a las escalas de medicin ms fuerte y finalizando con aquellas que se
aplican a la escala de medicin ms dbiles.

3.4.1.1 CORRELACION DE PEARSON

Este coeficiente de correlacin es el ms conocido y usado, se denota por r y se


aplica cuando las variables en estudio han sido medidos en la escala de
medicin por intervalos o de razn, su expresin matemtica de la relacin
entre las dos variables aleatorias, esencialmente se define como la covarianza
estandarizada entre las variables X e Y, es decir : r= SXY / SX SY, pero la expresin
ms conocida es la razn entre la suma de producto de las variables entre la raz
cuadrada de la suma de cuadrados de ambas variables, es decir:

n
1
( X X ) ( Y Y )
n i=1
r=


n n
1 2 1 2

n i=1
( X X ) ( Y Y )
n i=1

El coeficiente de correlacin r se utiliza para:


(a) Comprobar que existe una relacin lineal entre dos variables aleatorias,
antes de proceder al anlisis de regresin;
(b) Resumir en un solo nmero ( r) la intensidad de la relacin lineal entre estas
dos variables.
El coeficiente de correlacin r no debe utilizarse para:
(a) Establecer relaciones causales entre dos variables;
(b) Suplantar el anlisis de regresin;
(c) Analizar la coherencia entre mediciones.
Y dentro de los requisitos para su uso se tiene que cumplir con:
Disponer de un mnimo de dos observaciones por individuo, medidas en
una escala numrica ( Por intervalos o de razn, es decir las variables
deben ser continuas); aunquetambin pueden estarlo en escala ordinal con
5 o ms puntos para codificar las categoras ordinales,
El conjunto de observaciones que constituyen la muestra, debe ser
representativo de la poblacin; pues la presencia degrupos heterogneos
en una muestra, por ejemplo el incluir individuos jvenes y ancianos en la
mismamuestra para estudiar la relacin entre la edad y la presin
sangunea, puede resultar inapropiada;
El conjunto de observaciones no debe contener datos extremos, ya que el
coeficiente de correlacin res muy sensible a su presencia;
Las observaciones no deben contener errores de medicin o ste ha de ser
relativamente nfimo ya quela baja fiabilidad de las observaciones atena el
valor de r ;
Las variables deben estar relacionadas linealmente, es decir el grfico de
dispersin sigue una lnea recta diagonal,
las relaciones curvilneas pueden producir rno significativos;
La forma de la distribucin de las variables debe ser igual. Si no tienen la
misma distribucin, aunque elajuste sea perfecto, se observar un r <1, y
cuanto menos se parezcan las distribuciones ms seatenuar r. Este efecto
es importante cuando se correlaciona una variable en escala de intervalo
conotra ordinal o dicotomizada,
Adems, la distribucin de los pares (X,Y) debe ser bivariada normal. Es
importante desde el puntode vista inferencial, cuando se trata de valorar la
intensidad y la significacin estadstica de lacorrelacin. Cuando la
distribucin no sea normal, el intervalo de r puede que no sea [1 , 1].
Sinembargo, el teorema central del lmite demuestra que para muestras
grandes los ndices implicados enlas pruebas de significacin se distribuyen
normalmente incluso cuando las propias variables no lo sean.De cualquier
forma, cuando se prefiera evitar este tipo de conflicto, puede recurrirse a
utilizar un clculono paramtrico como la de Spearman o un estadstico
no paramtrico como la de Kendall;
La varianza de las variables debe ser homognea (variables
homoscedsticas) y no restringida. Si lavarianza es truncada o restringida
en una o varias variables, por ejemplo por un muestreo deficiente,
elcoeficiente de correlacin puede verse afectado. Tambin por truncacin
del intervalo de la variable pordicotomizacin de datos continuos o
reduccin de la escala.
Para establecer la calificacin dela magnitud del coeficiente de correlacin
se usa la particin del intervalo (0,1) en varias partes iguales y luego
asignar sus calificaciones respectivas, para el lado negativo la calificacin
es simtrica. Por ejemplo si dividimos este intervalo en 05 partes, cada una
con la misma longitud, se tiene las siguientes calificaciones:
0.00 a 0.20 Muy Bajo
0.21 a 0.40 Bajo
0.41 a 0.60 Moderado
0.61 a 0.80 Alto
0.81 a 1.00 Muy Alto
Observe que en la calificacin moderada, puede decirse que un coeficiente
de 0.41 a 0.50 es moderadamente bajo, y de 0.51 a 0.60 es calificado como
moderadamente alto.
La significacin del coeficiente de correlacin de Pearson se realiza mediante la
siguiente prueba de hiptesis: H0 : =0 versus H1 : 0, el cual se implementa
con el estadstico de prueba t-student, el mismo que es dado por la expresin:

r
t Cal = H t Student ( n2 ) g . l

1r 2
0

n2

Sin embargo, cuando el tamao de la muestra esmayor a 25 (n25), entonces


mediante la transformacin de Fisher se encuentra la distribucin muestral;
1
z= ln
2
1+r
1r ( ) 1
Normal ln
2
1+
,
1 n3
1
{ ( ) }
Por lo que usando el estadstico de prueba de Z Cal , se implementara la siguiente
prueba de hiptesis: H0 : = 0 versus H1 : 0. Donde el estadstico de
prueba es dado por la ecuacin:

Z Cal =
1
ln
( (1+r ) ( 10 )
(1r ) ( 1+ 0 ) )
2 1
n3

Y para el caso de la hiptesis que comparara dos coeficientes de correlacin,


H0 :1 = 2 versus H1 : 12, se usara el estadstico de prueba;

Z Cal =
1
ln
( ( 1+ r 1 )( 1r 2 )
( 1r 1 ) ( 1+r 2 ) )
2 1 1
+
n 13 n 23
Ejemplo: La administracin bibliotecaria universitaria ha formulado un proyecto de
inversin en infraestructuras fsicasde la educacin superior, el cual considera la
construccin de mdulos personales, bipersonales y para estudios grupales fuera
de las aulas de clase, dichos mdulos han sido implementados durante el ltimo
semestre, y con el fin de evaluar la importancia de dichos modulo en el proceso de
enseanza y aprendizaje, se ha reportado los resultados de un examen aplicado.
La hiptesis formulada consiste en verificar la importancia o no importancia de los
mdulos educativos para estudios fuera del aula de clase en el rendimiento
acadmico del estudiante. Por su naturaleza de las dos variables usadas,
calificacin promedio de las evaluaciones (Y), y las horas de estudio en los
mdulos educativos fuera del aula de clase(X), se implementara una prueba
estadstica sobre el coeficiente de correlacin de Pearson para verificar la
implicancia entre las variables consideradas. En cuanto a la poblacin de los
posibles usuarios potenciales de dichos mdulos, se ha contabilizado en total a los
N=4000, desde el cual se ha decidido tomar una muestra como el 0.25% del
tamao poblacional, es decir se seleccionara aleatoriamente a n=10 estudiantes, a
quienes se les registro para el ltimo periodo lectivo, el nmero promedio de horas
diarias de estudio fuera del aula de clases en los mdulos educativos, y el
promedio de sus evaluaciones en el periodo lectivo correspondiente. Dichos
promedios son reportados en la siguiente tabla, en donde la columna X denota al
nmero promedio de horas de estudio fuera del aula de clases, la columna Y
denota a los promedios de todas sus evaluaciones en el periodo lectivo en
cuestin, a partir de estas dos columnas se obtienen las tres ltimas columnas,
con el objetivo de poder implementar el clculo del coeficiente de correlacin de
Pearson mediante su frmula conocida.

Estudiante
Horas Rendimiento X i X Y iY ( X i X )( Y i Y )
estudio X Promedio Y
1 7 13.4 2.7 1.31 3.537
2 6 12.9 1.7 0.81 1.377
3 6 12.8 1.7 0.71 1.207
4 5 13.1 0.7 1.01 0.707
5 5 12.2 0.7 0.11 0.077
6 4 11.5 -0.3 -0.59 0.177
7 3 11.1 -1.3 -0.99 1.287
8 3 11.3 -1.3 -0.79 1.027
9 2 11 -2.3 -1.09 2.507
10 2 11.6 -2.3 -0.49 1.127
Total 43 120.9 0 1.7E-15 13.03

10 10
1 43 1 120.9
X = X i= =4.3 ; Y = Y i = =12.9
10 i=1 10 10 i=1 10
10 10 10
2 2
( X i X ) =28.1 ; ( Y iY ) =7.289 ; ( X i X )(Y iY ) =13.03
i=1 I 01 i=1

Por tanto el coeficiente de correlacin de Pearson es calculado como:

10
1 1
( X X ) ( Y Y )
10 i=1 10
(13.03)
1.303
r= = = =0.9104
1.431156
1

1
10 10
1 2 1 2
( X X ) 10 ( Y Y ) 10 ( 28.1 ) 10 (7.289)
10 i=1 i=1

Existe una asociacin alta entre las horas diarias de estudio fuera del aula en los
mdulos educativos y el rendimiento acadmico promedio, para saber si esta
influencia es significativa se realizara la prueba de hiptesis, mediante el
estadstico t- student;

0.9104 0.9104
t Cal = = =6.2241
0.1462
10.9104 2
102

Donde la hiptesis estadstica es formulada como:

H0: El funcionamiento de los mdulos educativos no es importante en el


rendimiento de los alumnos
H1: El funcionamiento de los mdulos educativos es importante en el
rendimiento de los alumnos

El valor del estadstico de prueba, supera al valor tabular t-Student con 8 grados
de libertad, que es igual a 2.31, ubicndose en la zona de rechazo de la hiptesis
nula, por lo que se rechaza que no exista influencia entre las variables,
concluyndose que si existe relacin entre las horas de estudio en los mdulos
educativos fuera de las aulas y el rendimiento promedio.

3.4.1.2 CORRELACION PARA VARIABLES ORDINALES

Cuando las variables en estudio han sido medidas en la escala ordinal, una forma
tradicional de aplicar una encuesta con tems medidas a travs de la escala de
Likert de 05, 06, 07 puntos, para estos casos se tienen dos coeficientes de
correlacin, el de Spearman y el Kendall, cuyas definiciones se dan a seguir.

A) COEFICIENTE DE CORRELACION DE SPEARMAN(r S )

Este coeficiente de correlacin tiene un enfoque no paramtrico y se obtiene


mediante los rangos o puestos de cada variable, para ello, las observaciones
originales de las variables (X e Y) son reemplazadas por sus respectivos rangos,
dentro del conjunto de datos y partir de ellos encontrar observacin por
observacin las diferencias entre los rangos respectivos del valor de la variable X
y del valor de la variable Y, para luego calcular el estadstico de prueba para
comprobar si podemos rechazar la hiptesis nula de que no existe correlacin, o si
debemos mantener lo afirmado en la hiptesis de investigacin( Hiptesis
alternativa).

Para ilustrar el clculo de este coeficiente de correlacin entre los rangos de las
variables en estudio, se utiliza el siguiente ejemplo hipottico, en donde 2 y 4
constituyen los rangos de de cada variable, y en la columna 5 se reporta las
diferencias entre los rangos respectivos, dichos valores se expresan en el cuadro
siguiente:

Valores Rangos Valores Rangos Diferencia


Xi R(Xi) Yi R(Yi) di = R(Xi)- R(Yi)
3 2 4 2 0
5 3 7 3.5 -0.5
0 1 2 1 0
8 5 10 6 -1
6 4 7 3.5 1
9 6 8 5 1

Si hay empates se pone el rango promedio, por ejemplo en los rangos para Y, los
puestos 3 y 4 estn empatados, por lo que se asigna los puestos intermedios, es
decir; 3,5, a seguir se obtienen las diferencias entre los rangos que asume las
variables, sobre estas diferencias se obtendr el coeficiente de correlacin de
Spearman segn la siguiente ecuacin;;
n
2
6 di
i=1
r S =1 2
n( n 1)

Donde:
rS:es el coeficiente de correlacin por rangos de Spearman, y toma valores
entre -1<rS<1, Un valor cercano a 0 indica que las variables apenas estn
relacionadas.
di: es la diferencia entre el valor ordinal de la variable X, y el de la
variable Y, en el elemento i- simo
n :es el tamao de la muestra.

El coeficiente de correlacin de Spearman, puede ser contrastado mediante la


distribucin t-student con n-2 grados de libertad, cuando n10. Por tanto la prueba
de hiptesis: H0 :s =0 versus H1 : s0, es implementada por el estadstico de
prueba:

rs
t Cal =

1r 2s
n2

Tambin usando la distribucin muestral asinttica, la literatura estadstica,


sugiere, que la significacin estadstica del coeficiente de correlacin de
Spearman puede realizarse usando los resultados siguientes;


r S n Normal S ; { 1
n1 }
Por lo que la prueba de significacin puede llevarse a cabo tambin por el
estadstico Z, el cual es dado por:

rS
Z Cal =

1
n1

De manera que, un intervalo de confianza al nivel de significacin del 5%, para el


coeficiente de correlacin verdadero es dado por:
1 1
r S 1.96 < S <r S +1.96
n1 n1

Si hay un gran nmero de empates en las variables se recomienda realizar una


correccin, dichas correccin se obtienen a travs de las siguientes ecuaciones;
n
X 2 +Y 2 d 2i
i=1
rS =
2(X Y )
2 2

Donde:
k k
n3 3 n33
T Xi ; Y = T Yi
2 2
X =
12 i=1 12 i=1

t 3Xit Xi t 3Yi t Yi
T Xi= ; T Yi =
12 12

tXi : es el nmero de empates en el rango i de la variable X,


tYi : es el nmero de empates en el rango i de la variable Y.

Las caractersticas y la interpretacin del coeficiente de correlacin de Spearman


son similares a las del coeficiente de correlacin de Pearson.

Ejemplo : Para medir las implicancias del desempeo policial en la seguridad


ciudadana en la ciudad de Huacho, se ha considerado las siguientes dimensiones
e indicadores: El desempeo policial(X), es medido por las dimensiones de
patrullaje mvil(X1), Capacitacin de las Juntas vecinales(X2), y la capacidad de
respuesta de auxilio(x3); mientras que la seguridad ciudadana(Y), es medida
mediante sus 03 dimensiones: Reduccin de los Delitos(Y1), Reduccin de las
faltas(Y2), y el accionar policial(Y3), cada una de las dimensiones han sido
evaluadas mediante 05 indicadores en la Escala de Likert de 05 puntos, cuyas
denominaciones fueron 1= En total desacuerdo, 2= en desacuerdo, 3= ms o
menos, 4= de acuerdo, 5= totalmente de acuerdo, los puntajes promedios de
ambas variables son presentadas en el siguiente cuadro:

R(Yi
Xi Yi R(Xi) di d2
)
1 2.33 2.9 15 13 2.00 4.00
2 9.5 14.5 - 25.0
1.53 4 5.00 0
3 3 5.5 -
1 1.6 2.50 6.25
4 9.5 14.5 - 25.0
1.53 4 5.00 0
5 9.5 12 -
1.53 2 2.50 6.25
6 1 1.55 3 3 0.00 0.00
7 3 9 - 36.0
1 1.65 6.00 0
8 7 2 25.0
1.27 1.5 5.00 0
9 12.5 9 12.2
1.6 1.65 3.50 5
10 1.13 1.6 6 5.5 0.50 0.25
11 3 5.5 -
1 1.6 2.50 6.25
12 1 1.2 3 1 2.00 4.00
13 12.5 9 12.2
1.6 1.65 3.50 5
14 14 5.5 72.2
1.87 1.6 8.50 5
15 9.5 11 -
1.53 1.75 1.50 2.25
Total 20.9 30.2 237.
2 5 120 120 0.00 00

6 (237,0) 1422
r S =1 =1 =10.4232=0.57678
15(2251) 3360

Sin embargo como existe de varios empates se realizara la correccin respectiva,


Para la columna de las X s hay 03 empates: en el puesto 1 hay 05 empates,
luego tX1 =5 y el valor TX1 =(53 -5)/12=120/12; en el puesto 4 hay 04 empates,
luego tX4 =4 y el valor TX4 =(43 -4)/12=60/12, y en puesto 5 hay 02 empates
luegotX5 =2 y el valor TX5 =(23 -2)/12=6/12, En tanto para el caso delas Y s hay
tambin 03 empates; en el puesto 4 hay 04 empates , por lo que t Y4=4, y el valor
de TY4 = (43 -4)/12=60/12, en el puesto 5 existen 3 observaciones empatadas
luego tY5 =3 por lo que TY5 = (33 -3)/12=24/12 , en el puesto 9 hay 2
observaciones empatadas luego t Y9 =2, por lo que TY9 = (23 -2)/12=6/12, de este
modo se tienen que hacer la siguiente correccin:
k
n3 3 153 3 120+ 60+6 3186
T Xi =
2
X = =
12 i=1 12 12 12
3 k 3
n 3 15 3 60+24 +6 3282
T Yi =
2
Y = =
12 i=1 12 12 12

n
X 2 +Y 2 d 2i 3186 3282
+ 237,0
i=1 12 12 302.0
rS = = = =0.5603
538.6406
2 ( X Y 2)

2
3186 3282
2
12 12

El cual resulta ligeramente menor. El contraste es realizado mediante el


estadstico t-student, cuyo valor es dado por:

rs 0.5603
t Cal = = =2.43899


2 2
1r s 10.5603
n2 152

Mientras que el valor tabular de la distribucin de t con 13 grados de libertad es de


2.160, de esta manera se concluye que existe un impacto significativo entre el
desempeo policial y la seguridad ciudadana, es decir se puede mejorar la
seguridad ciudadana, mejorando el desempeo policial.

B) COEFICIENTE DE CORRELACION DE KENDALL

Otro de los coeficientes de correlacin que es aplicable cuando ambas variables


son ordinales, recae en el coeficiente de correlacin de Kendall, el cual se basa
en el clculo de las concordancias y las discordancias entre los rangos de
lavariable dependiente; es decir para el clculo se considera lo siguiente:
El nmero de concordancias y discordancias que aparecen al comparar las
puntuaciones asignadas a los mismos casos segn dos criterios (o jueces)
diferentes, por ejemplo, si X recoge las puntuaciones asignadas a los casos
segn el primer criterio, e Y segn el segundo criterio,para la obtencin de
concordancias y discordancias que aparecen entre los dos criterios, se procede de
la siguiente forma:
Se ordenan los pares de puntuaciones de acuerdo con el orden natural de
las puntuaciones asignadas segn el primer criterio, X.
Se compara cada valor deY, con cada uno de los que le siguen, y se
registra una concordancia (+1) cuando los dos valores siguen el orden
natural, una discordancia (-1) cuando el orden est invertido y un empate
(0) cuando coinciden ambas puntuaciones.
Se calculan el valor de P que representa el nmero total de las
concordancias, y el valor de Q el numero el total de las discordancias y E
el nmero total de empates.
El nmero total de comparaciones incluyendo empates es n(n-1)/2. Por ejemplo, si
el orden es ascendente, y se ordena los pares segn el primer criterio (rangos de
X) en su forma natural, se tendr que:

X X(1) =1 X(2) =2 X(i) =i .. X(n) =n


Y Y(1) = ? Y(2) = ? Y(i) = ? .. Y(n)= ?

Para cada rango de la variable X en su forma natural, se le asocia el rango de la


otra variable, por tanto para calcular el coeficiente de correlacin de Kendall, se

Procede del siguiente modo: Para h>i sea a h la cantidad de rangos Y(h) que
cumplen la propiedad Y(h)> Y(i) ; es decir el numero de concordancias en cuanto al
ranking, y de otro lado sea bh la cantidad de rangos Y(h) que cumplen la propiedad
Y(h)< Y(i) ; es decir el numero de discrepancias entre el ranking de ambas variables.
Por tanto cantidad efectiva de rangos escalculada por:
n 1 n 1
S= ah bh=PQ
h =1 h =1

Donde, ah bh es la diferencia entre concordancias y discordancias en los rangos


cuando se compara el h- simo rango de Y.

Luego el coeficiente de Kendall es definido por:

PQ
r =
n(n1)
2

P : nmero total de veces que se registra una concordancia,


Q: Numero de veces que se registra una discordancia
La prueba de hiptesis correspondiente es: H 0 : =0 Versus H1 : 0, el cual
puede ser implementado mediante el estadstico de prueba(cuando n8 :

r
Z Cal = Nornal { 0,1 }

2(2 n+5)
9 n(n1)
Tambin puede usarse el estadstico de prueba de la t-student, para implementar
la prueba de hiptesis, es decir;

r
t Cal =

1r 2
n2

En la literatura se encuentran varias modificaciones del coeficiente de correlacin


de Kendall, y se destacan las siguientes formas:

1. Coeficiente de Correlacin Gamma .- Este estadstico Gamma


excluye los casos que presentan la misma puntuacin en las dos variables
(empates), y se define como.

PQ
=
P+Q

2. Coeficiente de Correlacin Tau-b de Kendall. Este coeficiente incorpora


los empates contemplando por separado los que aparecen en la primera
variable EX y los que aparecen en la segunda variable E Y, para luego
corregir el calculo del coeficiente de correlacion mediante la ecuacion:

PQ
r b =

{ 12 n ( n1)E }{12 n ( n1)E }


X Y

Donde los empates son definidos por:


n n
1 1
EX=
2 i=1
t Xi ( t Xi 1 ) ; y EY = t Yi ( t Yi1 )
2 i=1

Y los tXi, tYi son los nmeros de empates en el rango i de cada variable
respectivamente.

3. Coeficiente de Correlacin Tau-c de Kendall. Este estadstico considera


el menor nmero de casos no empatados que presentan X o Y, y se define
del siguiente modo:
PQ
r C = 2
n (k 1)

Siendo k el menor nmero de casos no empatados que presentanX Y.

4. Coeficiente de correlacin d de Somers: A diferencia de los anteriores


este estadstico considera que las variables pueden ser simtricas o
dependientes. En el primer caso, el estadstico d de Somers coincide con
la Tau-b de Kendall. En el segundo supuesto, se diferencia del
estadstico Gamma en que incluye los empates de la variable que considera
dependiente. Si la variable dependiente es X, entonces d=(P-Q)/(P+Q+E X )

Todas estas medidas toman valores entre -1 y +1, y alcanza los valores extremos
cuando existe concordancia o discordancia perfecta. Valores prximos a 0 indican
ausencia de asociacin, y sus caractersticas e interpretacin son similares a las
del coeficiente de correlacin de Pearson.

EJEMPLO: Para investigar el impacto delacapacitacin educativa de la madres en


el desarrollo mental de sus hijos en una comunidad rural, se ha considerado una
muestra aleatoria de n=8 madres a las cuales se les ofreci una capacitacin
educativa, el cual fue medida por el grado de educacin o escolaridad alcanzada
por la madre, y el desarrollo mental de sus nios han sido medidos segn la
escala de Gesel, cuyos resultados se presentan en la siguiente tabla, en donde la
variable X ha sido ordenada de menor a mayor y sus rangos expresan su forma
natural de obsevacion.

Variables Originales Variables Ordenadas Rangos Ordenados


Escolaridad de Desarrollo X Y Rango Rangos
la madre(X) mental del de menor a mayor segn s de de: Y(i)
nio (Y) X :X(i)
1 Secundaria 90 Analfabeta 75 1 1
1 Primaria 87 1 Primaria 87 2 5
Profesional 89 3 primaria 84 3 3
6 Primaria 80 6 Primaria 80 4 2
3 Secundaria 85 1 Secundaria 90 5 7
3 Primaria 84 3 Secundaria 85 6 4
Analfabeta 75 Preparatoria 91 7 8
Preparatoria 91 Profesional 89 8 6

La hiptesis de investigacin es formulada como: Existe un impacto entre el grado


de escolaridad de las madres y el desarrollo mental de los nios. Para realizar el
clculo del coeficiente de correlacin de Kendall se encontrara la cantidad de
concordancia y discordancias, el mismo que se determina en el siguiente cuadro.
Rangos Ordenados Cantidad de Diferencias
Y(h) -Y(i)>0 Y(h) -Y(i)<0
Rangos Rangos CONCORDANCIA DISCORDANCIA
ah bh .
de :X(i) de: Y(i) S S
ah , h=1,2,,n-1 bh
1 1 7 0 7
2 5 3 3 0
3 3 4 1 3
4 2 4 0 4
5 7 1 2 -1
6 4 2 0 2
7 8 0 1 -1
8 6 - - -
Total 21 7 14

217 14
r = = =0.50
Luego el coeficiente de correlacin de Kendall es; 8(81) 28
2

Cuya significacin se implementa por el estadstico de prueba;

r 0.5
t Cal = = =1.4142

1r 2
n2 10.52
82

El cual al ser comparado con t tabular con 6 grados de libertad (2.45), resulta ser
menor, luego no existen evidencias estadsticas para afirmar que el grado de
escolaridad de las madres est relacionado con el desarrollo mental de los nios .

3.4.1.3 CORRELACION PARA VARIABLES: UNA DICOTOMICA


Y OTRA DE INTERVALO O DE RAZON

A) CORRELACION BISERIAL

Se utiliza para establecer el grado de correlacin entre dos variables, de las cuales
uno es dicotomizada, en este caso se trata de una modificacin del coeficiente de
correlacin de Pearson entre una variable continua X , y otra Y que se ha sido
dicotomizada. Este coeficiente al igual que las anteriores se desprende de la
estructura general del coeficiente de correlacin de Pearson, por lo que las
simplificaciones convergen en la definicin del coeficiente para un caso especial,
Para la correlacin biserialr b se tiene que su definicin tiene la siguiente
expresin:

X p X q pq X
X p
r b=
SX ( )
y
= p
SX y ()
donde:
X es la variable continua
Y es la variable dicotomizada
X p es la media de X cuando Y vale 0

X q es la media de X cuando Y vale 1

X es la media de la distribucin marginal de X


S X es la desviacin tpica de la marginal de X

p es la proporcin de elementos con asignacin 0 en la variable Y


q es la proporcin de elementos con asignacin 1 en la variable Y se
define como q=1-p
y es el valor de la ordenada correspondiente a un valor de x que divide el
rea de la distribucin normal tipificada en dos partes, una igual a p y
otra igual a q.

Se interpreta de forma anloga al coeficiente de correlacin de Pearson en lo


referente a la intensidad de la relacin, no a su sentido; adems, cuando la
correlacin es alta y el requisito de normalidad de Y no se cumple de forma
estricta, el coeficiente de correlacin biserial puede valer ms de 1 o menos de -1.

B) COEFICIENTE DE CORRELACIN BISERIAL PUNTUAL

Como una variante, aunque con idntica interpretacin y similar notacin y


expresin, se debe tener presente el coeficiente de correlacin biserial-puntual,
que se utiliza para medir la correlacin entre una variable continua y otra
dicotmica por naturaleza, esdefinido por:

X p X q X
r bp =
SX
X
pq= p
SX p
q

Es conviene precisar lo que entendemos por variable dicotmica por naturaleza, y


se refiere a aquellas variables en su concepcin original presenta nicamente dos
modalidades, tales como el sexo (varn-mujer), la calificacin de la respuesta a un
tem (acierto-error), etc. En general, suelen atribuirse a estas modalidades los
valores 0 y 1, aunque no habra inconveniente en asignar 1 y 2, cualquier otro
par de valores.

Propiedades

a) Se demuestra que el coeficiente r bp es resultado de aplicar el coeficiente de


correlacin de Pearson al caso en que una de las variables tiene carcter
dicotmico
b) El valor de rbp no puede ser mayor que 1 ni menor que -1 es decir, se
cumple -1 <rbp < 1. Cuanto mayor sea la distancia entre la media de los
sujetos que presentan la primera modalidad y la media del total de sujetos,
ms prximo a 1 -1 ser el coeficiente de correlacin que obtengamos
c) Un coeficiente de correlacin positivo indicar que a puntuaciones altas de
X corresponde pertenecer a la categora cuya proporcin es p, mientras que
a puntuaciones bajas de X corresponde pertenecer a la categora cuya
proporcin es q. Un coeficiente negativo deber ser interpretado en sentido
contrario, es decir, a puntuaciones altas de X correspondera la categora
cuya proporcin es q, y a puntuaciones bajas aqulla cuya proporcin es p.

Ejemplo:Para evaluar las implicancias de los Proyectos de Inversin Pblica en los


colegios del Distrito de Ventanilla se han seleccionado a 21 colegios de los cuales
en 09 de ellos se beneficiaron con los PIP, y los restantes 12 colegios no tuvieron
beneficios de contar con PIP, terminado la ejecucin de los proyectos de inversin
pblica se aplico una prueba sobre la formacin en comunicacin integral y lgico
matemtica, los resultados se muestran ene siguiente cuadro en donde (X)
representa a los promedios de la prueba de evaluacin, y la variable Y
representando a la condicin de contar con un PIP codificado con 1, y no contar
con un PIP codificado con 0,

Nota Condicin Nota Condicin


media PIP (Y) media PIP (Y)
18 0 10 0
12 0 15 1
14 1 16 1
16 1 13 0
14 0 12 0
9 0 19 1
20 1 20 1
16 1 15 0
17 1 16 0
14 0 14 0
12 0

Para determinar la implicancia de los PIP en infraestructura y el rendimiento


acadmico de los alumnos, se usara el coeficiente de correlacin, y trandose de
una variable continua(X) y una variable dictoma (Y), se aplicara el coeficiente de
correlacin biserial puntual., para el cual seguiremos el siguiente procedimiento:
en primer lugar, calcularemos el valor de las proporciones de colegios que
recibieron PIP (p), y de colegios que no recibieron PIP (q);

p = 9/21 = 0.4286, q =12/21 = 0.5714

A continuacin calculamos los valores de la media de la variable X, la media de la


variable X para los 9 colegios que recibieron PIP y la desviacin tpica de X.
Realizando los clculos oportunos, que dejamos al lector, resulta;
21
1
X = X i=14.8571
21 i=1


21
S X=
1
211 ( (
i=1
2
)
) =2.988
X i X

9
1
X P= X Pi=17.0
9 i =1

A partir de estos valores estamos en disposicin de calcular el coeficiente de


correlacin biserial puntual. Aplicando una de las expresiones de clculo de
rbp obtendremos

X p X
r bp =
SX p 17.0014.857 0.4286
q
=
2.988 0.5714=0.6211

Por tanto, el valor del coeficiente de correlacin entre ambas variables es 0.6211,
y al tratarse de un coeficiente de signo positivo, se interpreta que a mayores
puntuaciones de la variable X, le corresponde mayores valores de Y, es decir para
los colegios que revieron PIP los rendimientos acadmicos son mayores, la
significacin es realizada por el estadstico de prueba t-student;
r 0.6211
t Cal = = =3.4544


2
1r 10.6211 2
n2 212

El mismo que verifica la hiptesis de investigacin, es decir que los PIP en


infraestructura tiene una implicancia significativa sobre los rendimientos
acadmicos de los alumnos en los colegios del distrito de ventanilla..

3.4.1.4 CORRELACION PARA VARIABLES NOMINALES

Cuando las variables son presentadas en categoras, esta pueden ser


representadas en una tabla de contingencia, y para descubrir la relacin de
dependencia entre dos factores, se pueden usar el coeficiente 2 denominado
Chi-cuadrado, cuya determinacin responde al anlisis del valor que toman
cada una de sus celdas, por ejemplo si dos variables con h y k categoras,
estn pueden ser presentadas como la siguiente tabla de contingencia:

Variable Y

B1 B2 Bj .. Bk Total

A1 n11 n12 .. n1j . n1k n1.

A2 n21 n22 .. n2j . n2k n2.


Variable X

Ai ni1 ni2 .. nij . nik ni.

Ah nh1 nh2 .. nhj . nhk nh.

Total n.1 n.2 .. n.j . n.k n..

Observe que las notaciones puntuales son escritas como:


k h h k
ni . = nij ; n. j= nij ; n.. = nij
j=1 i=1 i=1 j=1

Usando las frecuencias observadas y esperadas de cada celda de la tabla de


contingencia se calcula el estadstico chi cuadrado para determinar si existe o
no existe dependencia entre las variables.

A) COEFICIENTE 2 CHI - CUADRADO

Este coeficiente se utiliza para medir el grado de asociacin entre dos variables
cualitativas con h y k categoras respectivamente. El estadstico de prueba
est basado en la comparacin de las frecuencias observadas con
lasesperadas bajo la hiptesis nula de que existe independencia, y su valor es
calculado por la expresin:

h k 2
( Oij eij )
=
2

i=1 j=1 eij

Donde:
Oij : son las frecuencias observadas en cada celda,
eij : Son las frecuencias tericas o esperadas y se calculan por; i = (e i.e.j )/n..

Cuando la tabla de contingencia es 2 X2 se aplica la correccin de Yates


resultado en un estadstico modificado el cual es dado por:

2
2
2 2
(|Oij e ij|0.5 )
=
i=1 j=1 e ij

El coeficiente siempre toma valores no negativos, pero al tratarse de una medida


no acotada, es de difcil interpretacin por s sola, si bien, cuanto ms
relacionadas estn las variables sometidas a estudio ms se alejar el
coeficiente del valor 0. Su valor depende del nmero de observaciones y de las
categoras en que stas se dividen, por tanto el coeficiente 2 y sus derivados no
son comparables con cualquier otro coeficiente obtenido con distinto nmero de
categoras. Y se utilizan una vez que la hiptesis nula es rechazada, para
contestar las interrogantes:Cul es la intensidad de la asociacin entre esas
variables? Cul es la direccin en que se produce la asociacin?. Son varios
los coeficientes de correlaciones usados para estos fines. Entre ellos se pueden
citar los coeficientes: Phi, V de Cramer, de contingencia, etc.
B) COEFICIENTE (Phi)

Una importante medida para determinar la dependencia entre dos variables est
basado en el estadstico 2 chi cuadrado, y se denomina coeficiente (Phi), que
a diferencia del estadstico chi cuadrado no depende del tamao de la muestra,
pues su obtencin es realizada dividindolo precisamente entre el tamao de la
muestra, es decir;


2
=
n

C) COEFICIENTE DE CONTINGENCIA C

Este coeficiente es usado para medir el grado de asociacin entre las variables X
e Y, cuando ellas estn representados en sus categoras respectivas, y se define
por la expresin:

C=
2
n+
2

Para cualquier valor de n el valor del coeficiente de contingencia mide la


magnitud de la asociacin sin indicar la direccin, es estrictamente menor que 1,
teniendo la desventaja de no alcanzar el valor de 1. Por lo que se define el valor
mximo de C por;

C Max =
u1
u
; donde u=Min(h , k )

El valor mximo que puede alcanzar el coeficiente de contingencia depende del


nmero de categoras de las variables estudiadas. En el caso de una tabla 2X2, el
mximo valor de C es 0.7071, en cambio para una tabla 3X3 es 0.8165. Esto
origina otra desventaja, dos coeficientes de contingencias no son comparables, a
menos que ellos sean calculados de tablas de contingencias del mismo tamao.

D) COEFICIENTE V DE CRAMER

Un coeficiente que supera la desventaja del coeficiente anterior, es el coeficiente


V de Cramer que es obtenido por la expresin:
V=
2 ; Donde m=Min(h , k )
n(m1)

Este coeficiente alcanza valores entre 0 y 1, toma valor 0 cuando todas las
frecuencias observadas son iguales a todas las frecuencias esperadas, indicando
que las variables son independientes, por lo que coeficiente de chi cuadrado es
igual a 0, y toma valor 1 cuando las dos variables tienen iguales marginales,
indicando que son dependientes. El coeficiente verifica que: 0 V 1, y se
interpreta igual que el coeficiente de contingencia, teniendo en cuenta que slo
proporciona informacin sobre la relacin entre las variables y no sobre el sentido
de la misma.

E) COEFICIENTE PARA TABLAS 2x2

Se trata de un coeficiente especialmente indicado para medir la asociacin entre


dos variables dicotmicas, cuya representacin se da en la siguiente tabla de
contingencia:

Variable Y
B1 B2
Total
Y=0 Y=1
Variable X

A1 (X=0) n11 n12 n1.

A2 (X=1) n21 n22 n2.

Total n.1 n.2 n..

Luego el coeficiente Phi es definido por:

n 11 n22n21 n12
=
n1. n2. n.1 n .2

Las frecuencias observadas y las marginales se describen en la tabla de


contingencia anterior.

En cuanto a su interpretacin, el coeficiente toma valores en el intervalo -1 1,


por lo que es similar al coeficiente de Pearson, la intensidad de la asociacin
entre las dos variables; salvo que alguna de las frecuencias nij sea nula, en cuyo
caso el coeficiente vale 1 -1.