Está en la página 1de 7

Qué es el análisis de correlación?

Es el estudio de la relación entre variantes. Para explicarlo mejor, supongamos que el


gerente de ventas de Copier Sales of America, que tiene una fuerza de ventas muy
numerosa en Estados Unidos y Canadá, quiere determinar si existe una relación entre el
número de llamadas de ventas que se realizan al mes y el número de copiadoras que se
venden durante ese mes. El gerente selecciona una muestra aleatoria de 10
representantes y determina el número de llamadas de ventas que cada uno hizo el mes
pasado y la cantidad de copiadoras vendidas. La información de la muestra se presenta
en la siguiente tabla.

Representante de Ventas Número de llamadas de Número de copiadoras


ventas vendidas
Tom Keller 20 30
Jeff Hall 40 60
Brian Virost 20 40
Greg Fish 30 60
Susan Welch 10 30
Carlos Raírez 10 40
Rich Niles 20 40
Mike Kiel 20 50
Mark Reynolds 20 30
Soni Jones 30 70

Al revisar los datos, observamos que sí parece existir una relación entre el número de llamadas de
ventas y el número de unidades vendidas. Es decir, los vendedores que hicieron mayor cantidad
de llamadas vendieron más unidades. Sin embargo. La relación no es “perfecta” o exacta. Por
ejemplo, Soni Jones hizo menos llamadas que Jeff Hall, pero vendió más unidades.
En lugar de hablar en términos generales, desarrollaremos algunas medidas estadísticas para
representar con mayor precisión la relación entre las dos variables, las llamadas de ventas y las
copiadoras vendidas. Este grupo de técnicas estadísticas se conoce como Análisis de
Correlación.

ANALISIS DE CORRELACION. Grupo de Técnicas para medir la asociación entre dos


variables.

La idea básica del análisis de correlación es reportar la asociación entre dos variables. Por lo
general, el primer paso consiste en incluir los datos en un Diagrama de Dispersión. Un ejemplo
nos ayudará a ilustrar cómo se usa un diagrama de dispersión.

Copier Sales of America vende copiadoras a negocios de cualquier tamaño en Estados Unidos y
Canadá. La señorita Marcy Bancer hace poco subió al puesto de gerente nacional de ventas. A la
próxima junta de ventas, van a asistir los representantes de todo el país. La señorita Bancer
quiere hacerles comprender la importancia de hacer llamadas de ventas adicionales cada día, por
lo que decide recopilar cierta información sobre la relación de entre el número de llamadas de
ventas y el número de copiadoras vendidas. Para ello, seleccionó una muestra aleatoria de 10
representantes de ventas y determinó el número de llamadas que hicieron el mes pasado y el
número de copiadoras que vendieron. La información de la muestra se detalla en la tala anterior.
Qué comentarios puede usted hacer acerca de la relación entre el número de llamadas de ventas
y el número de copiadoras vendidas? Elabore un diagrama de dispersión para presentar la
información.

Con base en la información de la anterior Tabla, la señorita Bancer sospecha que hay una relacion
entre el número de llamadas realizadas en un mes y el número de copiadoras vendidas. Soni
Jones vendió la mayor cantidad de copiadoras el mes pasado y fue una de los tres representantes
que hicieron 30 llamadas o más. Por otra parte, Susan Welch y Carlos Ramírez sólo hicieron 10
llamadas de ventas durante el mes pasado. La señorita Welch fue la que vendió menos
copiadoras entre los representantes de la muestra.
La conclusión es que el número de copiadoras vendidas tiene una relación con el número de
llamadas de ventas realizadas. Conforme aumenta el número de llamadas, al parecer, también se
incrementa el número de copiadoras vendidas. Nos referimos al número de llamadas de ventas
como la variante independiente y al número de copiadoras vendidas como la variable
dependiente.

VARIABLE DEPENDIENTE. La variable que se predice o calcula.

VARIANTE INDEPENDIENTE. Una variable que proporciona las bases para el cálculo. Es la
variable de predicción.

Es práctica común incluir la variable dependiente (copiadoras vendidas) sobre el eje vertical o Y, y
la variable independiente (número de llamadas de ventas) sobre el eje horizontal o X. Para
elaborar un diagrama de dispersión de la información de ventas de Copier Sales of America,
empezamos con el primer representante de ventas, Tom Keller. Tom hizo 20 llamadas de ventas el
mes pasado y vendió 30 copiadoras, de modo que X=20 y Y=30. Para trazar esta información,
desplacese a lo largo del eje horizontal hasta X=20, y luego en dirección vertical hasta Y=30 y
coloque un punto en la intersección. Este proceso continua hasta incluir todos los pares de datos,
como se muestra en la siguiente gráfica.

El diagrama de dispersión ilustra gráficamente que los representantes de ventas que hicieron
más llamadas vendieron más copiadoras. Es razonable que la señorita Bancer, gerente nacional
de ventas de Copier Sales of America, diga a sus vendedores que entre más llamadas de ventas
hagan, más copiadoras van a vender. Observe que aun cuando parece existir una relación
positiva entre ambas variables, no todos los puntos se encuentran en una linea. En la sección
siguiente vamos a medir la fuerza y la dirección de esta relación entre dos variables al determinar
el coeficiente de correlación.

El coeficiente de correlación.

Creado por Karl Pearson en 1900, el Coeficiente de Correlación describe la fuerza de la relación
entre dos grupos de variantes en escala de intervalo o de razón. El coeficiente de correlación se
representa con la letra “r” y a menudo se conoce como “r de Pearson y coeficiente de correlación
producto-momento de Pearson”. Puede asumir cualquier valor de -1.00 a+1.00, inclusive. Un
coeficiente de correlación de -1.00 a+1.00 indica una correlación perfecta. Por ejemplo, un
coeficiente de correlación para el ejemplo anterior, que se calcula en +1.00, indicaría que el
número de llamadas de ventas y el número de copiadoras vendidas tienen una relación perfecta
en un sentido lineal positivo. Un valor calculado de -1.00 revela que las llamadas de ventas y
copiadoras vendidas se relacionan en forma perfecta en un sentido lineal inverso.

Si no hay ninguna relación entre dos conjuntos de variables la “r de Pearson” es cero. Un


coeficiente de correlación “r” cercano a 0 (digamos de 0.08) indica que la relación lineal es muy
débil. Llegamos a la misma conclusión si r=-0.08. Los coeficientes de -0.91 y +0.91 tienen la
misma fuerza, ambos indican una correlación muy fuerte entre las dos variables. Por tanto, la
fuerza de la correlación no depende de la dirección (ya sea – o +).
en la gráfica siguiente se ilustran los diagramas de dispersión para r=0m una “r” débil (digamos,
-0.23) y una “r” fuerte, (digamos +0.87). observe que si la relación es débil, existe una dispersión
considerable alrededor de la línea que se traza desde el centro de los datos. Para el diagrama de
dispersión que representa una relación fuerte, hay muy poca dispersión alrededor de la línea. Esto
indica, en el ejemplo que se muestra en la gráfica, que las horas estudiadas constituyen un buen
factor de predicción de la calificación en el examen.

La gráfica siguiente resume la fuerza y la dirección del coeficiente de correlación.


Correlación Correlación
No hay
negativa positiva
correlación
perfecta perfecta
Correlación Correlación Correlación Correlación Correlación
Correlación
negativa negativa negativa positiva positiva
positiva débil
fuerte moderada débil moderada fuerte
-1 -0.5 0 0.5 1
correlación negativa Correlación Positiva

COEFICIENTE DE CORRELACION: Medida de la magnitud de la relación entre dos variables.

Cómo se determina el valor del coeficiente de correlación? Utilizaremos como ejemplo los datos
de Copier Sales of America, que se reportan en la siguiente tabla. Trace una línea vertical a través
de los valores de los datos como la media de los valores X y una línea horizontal en la media de

los valores Y. En la gráfica 13-4 agregamos una línea vertical en 22.0 llamadas ( =

∑X/n=220/10=22) y una línea horizontal en 45.0 copiadoras ( =∑y/N=450/10=45.0). Estas líneas


pasan a través del “centro” de los datos y dividen el diagrama de dispersión en cuatro cuadrantes.
Considere mover el origen de (0,0) a 22,45).
llamadas de Ventas y Copiadoras Vendidas para 10 vendedores

Representante de Ventas Número de llamadas de Número de copiadoras


ventas vendidas
(X) (Y)
Tom Keller 20 30
Jeff Hall 40 60
Brian Virost 20 40
Greg Fish 30 60
Susan Welch 10 30
Carlos Raírez 10 40
Rich Niles 20 40
Mike Kiel 20 50
Mark Reynolds 20 30
Soni Jones 30 70
Total 220 450

Dos variables tienen una relación positiva cuando el número de copiadoras vendidas está por
encima de la media y el número de llamadas de ventas también lo está. Estos puntos aparecen en
el cuadrante superior derecho de la gráfica 13-4. de modo similar, cuando el número de
copiadoras vendidas es inferior a la media, también lo es el número de llamadas de ventas. Estos
puntos se encuentran en la esquina inferior izquierda del cuadrante de la gráfica 13-4. por
ejemplo, la última persona en la lista de la tabla anterior, Soni Jones, hizo treinta llamadas de
ventas y vendió 70 copiadoras. Estos Valores se encuentran por encima de sus medias

respectivas, de modo que este punto se localiza en el cuadrante superior derecho. Hizo 8(X- =

30-22) más llamadas de ventas que la media y vendió 25 (Y- =70-45) más copiadoras que la
media. Tom Keller, el primer nombre en la lista hizo 20 llamadas y vendió 30 copiadoras. Ambos
valores son menores que la media respectiva, por tanto, este punto se encuentra en el cuadrante
inferior izquierdo. Tom hizo 2 llamadas menos y vendió 15 copiadoras menos que las medias
respectivas. Las desviaciones del número medio de llamadas de ventas y el número medio de
copiadoras vendidas se resumen en la tabla siguiente para los 10 representantes de ventas. La
suma de los productos de las desviaciones de las medias respectivas es 900. es decir, el término

∑(X- )(Y- )=900.

Representante de Ventas Llamadas Ventas Y X- Y- (X- )(Y- )


X
Tom Keller 20 30 -2 -15 30
Jeff Hall 40 60 18 15 270
Brian Virost 20 40 -2 -5 10
Greg Fish 30 60 8 15 120
Susan Welch 10 30 -12 -15 180
Carlos Raírez 10 40 -12 -5 60
Rich Niles 20 40 -2 -5 10
Mike Kiel 20 50 -2 5 -10
Mark Reynolds 20 30 -2 -15 30
Soni Jones 30 70 8 25 200
900

En los cuadrantes superior derecho e inferior izquierdo, el producto de (X- )(Y- ) es positivo
porque los dos factores tienen el mismo signo. En nuestro ejemplo, esto sucede para todos los
vendedores, excepto para Mike Kiel. Por tanto, podemos esperar que el coeficiente de correlación
tenga un valor positivo.

Si las dos variables tienen una relación inversa, una estará por encima de la media y la otra
debajo de la media. En este caso, la mayor parte de los puntos ocurren en los cuadrantes superior
izquierdo e inferior derecho. Ahora, (X- )(Y- ) tendrán signos opuestos, de modo que su producto
es negativo. El coeficiente de correlación es negativo.

Que sucede si no hay una relación lineal entre las dos variables? Los puntos en el diagrama de
dispersión van a aparecer en los cuatro cuadrantes. Los productos negativos de (X- )(Y- )
superan a los productos positivos, de modo que la suma es cercana a cero. Esto da lugar a un
coeficiente de correlación cercano a cero.

Pearson también quería que el coeficiente de correlación no se viera afectado por las unidades de
las dos variables. Por ejemplo, de haber utilizado cientos de copiadoras vendidas en lugar del
número vendido, el coeficiente de correlación sería el mismo. El coeficiente de correlación es
independiente de la escala utilizada si dividimos el término ∑(X- )(Y- ) entre las desviaciones
estándar de la muestra. También se vuelve independiente del tamaño de la muestra y se limita por
los valores +1.00 y -1.00 si dividimos (n-1).
Este razonamiento lleva a la fórmula siguiente:

∑(X- )(Y- )
_____________
(n-1) sx sy

Para calcular el coeficiente de correlación, utilizamos las desviaciones estándar de la


muestra de 10 llamadas de ventas y 10 copiadoras vendidas. Podríamos usar la formula
(3-12) para calcular las desviaciones estándar o podríamos utilizar un programa de
software.
Ahora insertamos estos valores en la fórmula (13-1) para determinar el coeficiente de correlacion:

∑(X- )(Y- ) 900


r= _____________ = ____________________ = 0.759

(n-1) sx sy (10 – 1) (9.189)(14.337)

Cómo interpretamos la correlación de 0.759? Primero, es positivo, si vemos que hay una relación
directa entre el número de llamadas de ventas y el número de copiadoras vendidas. Esto confirma
el razonamiento basado en el diagrama de dispersión. e. valor de 0.759 es cercano a 1.00, por lo
que podemos concluir que la asociación es fuerte. Dicho de otra manera, un incremento en las
llamadas significaría más ventas.

También podría gustarte