Está en la página 1de 5

Guía de estudio de Estadística Analítica: Correlación

Bibliografía recomendada:

• Unidad 5 – CORRELACIÓN LINEAL (Pearson) Y NO PARAMÉTRICA (Spearman), Guía de Trabajos


Prácticos de Estadística Analítica 2020.
• Guía de fórmulas y tablas
• Bioestadística, Daniel 4ta edición Capítulos 9 y 13
• Probabilidad y Estadística para ingeniería y ciencias, Jay L. Devore. Capítulo 5 y 12.

En esta guía de estudio veremos:


-Correlación lineal paramétrica (Pearson)
-Correlación no paramétrica (Spearman)
En regresión nuestro objetivo es hallar una función o modelo matemático para predecir o estimar el valor
medio de una variable a partir de otra, ahora en correlación, lo que queremos es determinar si dos variables
están o no asociadas, ya no buscamos una ecuación para ver una variable en función de la otra, sino que
queremos ver si estas dos variables están relacionadas.

El análisis de correlación resulta útil cuando en una


investigación se trata de determinar qué variables son
potencialmente importantes, es decir, el interés radica en
saber si existe o no esa relación entre variables.

Por ejemplo, si queremos estudiar la producción


espermática de los toros de raza Brangus, podríamos
analizar si el perímetro testicular, el peso de los testículos
y/o la morfología espermática, se relacionan con ella. Para
esto, lo que podemos hacer es un análisis de correlación, o varios, ya que tomamos las variables de a dos. Por
ejemplo: si la producción espermática y el peso de los testículos están asociadas, o si la producción espermática
y la circunferencia escrotal están asociadas, etc. Una vez que encontramos esa asociación, por ejemplo,
descubrimos que la circunferencia escrotal está estrechamente asociada a la producción espermática de los
toros raza Brangus, podríamos hacer un análisis de regresión para hallar un modelo matemático para predecir
o estimar el valor medio de una variable a partir de otra.

Cuando queremos determinar si dos variables están asociadas o no, lo adecuado es graficar un diagrama de
dispersión, el cual dará una idea del grado de asociación entre las variables. Dicha asociación puede o no ser
lineal. Si los puntos se encuentran cercanos a una configuración rectilínea, entonces diremos que existe
asociación lineal entre las variables.

• Si los puntos se agrupan en una estructura de puntos que es similar a una recta creciente, entonces
decimos que hay asociación lineal positiva entre las variables X e Y.
• Si los puntos se agrupan en una estructura de puntos que es similar a una recta decreciente, entonces
decimos que hay asociación lineal negativa entre las variables X e Y.
• Si los puntos no forman una estructura determinada, sino que se observa una nube de puntos informe
o similar a una circunferencia, entonces no se aprecia un comportamiento determinado de los valores
de la variable Y, y esto señala la no existencia de asociación entre las variables.

1. Según lo visto en el libro Probabilidad y Estadística para ingeniería y ciencias, Jay L. Devore. Capítulo
12., ítem 12.5 y lo explicado anteriormente señale si existe o no asociación y si esta es positiva o negativa.

1
Teniendo en cuenta lo que vimos en el punto 1, también puede existir que la nube de puntos se asemeje más
a una recta, en este caso hablamos de que x e y están fuertemente asociadas, ya sea positiva o negativamente.
Pero, puede suceder que esa asociación no sea tan fuerte, en este caso hablaremos de que x e y están
débilmente asociadas, esto puede ser de forma positiva o negativa.

Para cuantificar el grado de asociación entre los pares de valores de dos variables continuas, vimos en
Elementos, que podíamos utilizar la covarianza entre X e Y (cov x;y), que reúne las siguientes condiciones:

• Resulta positiva si la asociación es positiva.


• Resulta negativa si la asociación es negativa.
• Si es cero, las variables no están asociadas.

Es evidente que podemos decir algo sobre la relación entre X e Y a partir del signo algebraico de la covarianza.
Sin embargo, este parámetro no está delimitado. Puede asumir cualquier valor real. Por lo que dependerá de
las unidades utilizadas para expresar las variables. Para corregir este problema, dividimos la covarianza por los
desvíos de X e Y, para formar el coeficiente de correlación.

En caso de que nos interese estudiar si la relación existente es lineal, necesitamos que este valor crezca en
valor absoluto, a medida que la distribución de las observaciones se aproxima a una configuración rectilínea y
viceversa. La manera de hallarlo dependerá de las características del caso que estemos estudiando.

2
Para el caso paramétrico utilizaremos el coeficiente de correlación momento-producto de Pearson o
coeficiente de correlación poblacional de Pearson que se lo designa con la letra griega “𝝆” (rho). El coeficiente
de correlación de Pearson nos permitirá estudiar si existe asociación lineal entre dos variables aleatorias
cuantitativas cuya distribución conjunta es normal bivariada:

(𝑿𝒊 ; 𝒀𝒊 )~𝑵𝟐 (𝝁𝑿 ; 𝝁𝒀 ; 𝝈𝟐𝑿 ; 𝝈𝟐𝒀; 𝝆)

2. Según lo explicado en el capítulo 5 ítem 5.2: “correlación”, pág. 200, del libro Probabilidad y
Estadística para ingeniería y ciencias, Jay L. Devore la fórmula que define a 𝝆 es:

3. Siguiendo con el mismo ítem (ítem 5.2: “correlación”,) del libro mencionado en el punto 2, y
sumando la información del capítulo 9 ítem 9.7: “el coeficiente de correlación”, del libro Bioestadística, Daniels,
señale con una X, de la siguiente lista, cuáles son las características de 𝝆

Los valores que toma este coeficiente están comprendidos entre -1 y 1, inclusive
Si su signo es positivo, indica que la asociación lineal entre las variables es positiva
Si toma exactamente el valor 1 significa que los puntos están perfectamente alineados sobre una
recta de pendiente positiva
ρ Nos permitirá estudiar si existe cualquier tipo de asociación entre dos variables aleatorias
cuantitativas.
La cercanía de su valor absoluto a 1 indica la proximidad de los puntos a una función lineal.
Para que ρ no dependa de las unidades de las variables, a la covarianza de x;y se la divide por las
varianzas
Si toma exactamente el valor –1 indica que los puntos están perfectamente alineados sobre una
recta con pendiente negativa
ρ puede tomar cualquier valor dentro de los números reales
Si toma un valor cercano a cero, indica que ambas variables no presentan correlación lineal
ρ puede tomar cualquier valor dentro de los números reales positivos
Si el signo de ρ es negativo, indica que la asociación lineal entre las variables es negativa

Como ρ será desconocido generalmente, usaremos el coeficiente de correlación muestral, denominado


̂. Este
coeficiente de correlación muestral de Pearson que es su estimador y se lo designa con la letra “r” o 𝛒
puede tomar valores entre 1 y -1 como se muestra a continuación.

Bajo las condiciones propuestas el coeficiente de correlación de Pearson tiene distribución normal:
𝟏 − 𝝆𝟐
𝒓 ~𝑵 (𝝆, )
𝒏−𝟐
4. Según lo visto en la bibliografía sugerida y en la guía de fórmulas y tabla de Estadística Analítica, la
fórmula para encontrar r es:

3
En esta unidad nos interesará poner a prueba las hipótesis estadísticas:

𝐻 : 𝜌=0 𝐻 : 𝜌≥0 𝐻 : 𝜌≤0


𝑎) { 𝑜 𝑏) { 𝑜 𝑐) { 𝑜
𝐻1 : 𝜌 ≠ 0 𝐻1 : 𝜌 < 0 𝐻1 : 𝜌 > 0

5. Según lo que estuvimos viendo hasta ahora, indique cómo interpretaría dichas hipótesis

6. Como ya sabemos para toda prueba de hipótesis se necesita una variable pivotal en la que apoyarse.
Según la Guía de Trabajos Prácticos de Estadística Analítica 2020 (unidad 5) escriba la variable pivotal en
cuestión, y grafique la región crítica para cada juego de hipótesis (bien señalada)

Otra forma de resolver este test de hipótesis sería utilizando el p-valor, como bien se muestra en la tabla de la
página 35 “Coeficientes de correlación de Pearson: coeficientes\probabilidades”, de la Guía de Trabajos
Prácticos de Estadística Analítica 2020.

Como estuvimos hablando hasta ahora, la unidad 4 (Regresión) y esta unidad (Correlación) son muy similares,
por lo que hay que tener en cuenta, muy bien, el objetivo de cada una, para poder diferenciarlas. Entre las
cosas que podemos relacionar de ambas unidades están el coeficiente de determinación y el coeficiente de
correlación muestral de Pearson, por lo que vamos a investigar un poco más sobre esto.

R2 es una medida muestral utilizada en regresión para medir cuánto de la variabilidad total de la variable
respuesta (Y) es explicada por la o las variables regresoras (X) en el modelo estimado, mientras que r es una
estimación de 𝜌 e indica el grado de asociación entre dos variables. Si bien explican cosas distintas, a los fines
prácticos sus valores numéricos cuadrados coinciden, es decir:
R2 = r2

¿Qué sucede si la condición de normalidad bivariada no se cumple? Bueno, en este caso utilizaremos un test
de libre distribución o no paramétrico, por lo que nos basaremos en el coeficiente correlación de rangos o de
jerarquías de Spearman, que se lo designa de la siguiente forma: rs .
A diferencia del coeficiente de correlación de Pearson, el de Spearman sólo nos puede indicar si existe una
asociación positiva o negativa entre las variables, o si no están asociadas, pero la existencia de esa asociación
no implica que sea de tipo lineal.
Cabe aclarar que, aunque la condición de normalidad se cumpla se puede aplicar un análisis de Spearman,
aunque siempre se debe elegir hacer un análisis paramétrico porque es más potente.

7. Según lo explicado en el ítem 13.10 del libro Bioestadística, Daniel, (capitulo 13) y en la Guía de
Trabajos Prácticos de Estadística Analítica 2020, la/s condición/es para realizar un análisis de correlación de
rangos de Spearman es/son:

8. Teniendo en cuenta lo leído en el libro mencionado anteriormente y en la Guía de Fórmulas y Tablas


de Estadística Analítica, la fórmula para obtener rs es:

9. Según lo visto en el capítulo 13, ítem 13.10 del libro Bioestadística de Daniel, en la Prueba de
correlación de rangos de Spearman las hipótesis estadísticas a poner a prueba son:

La prueba consiste en asignar rangos numéricos a las categorías o valores de las variables y medir
correspondencia entre dichos rangos. Spearman plantea que si las variables están correlacionadas entonces
sus rangos también lo están, es decir, que se espera que, si hay correlación positiva, a rangos grandes de una
de las variables correspondan rangos grandes de la otra; y que, a rangos pequeños de una de las variables
correspondan rangos pequeños de la otra. Por otra parte, si la correlación existente es negativa se espera que
a rangos grandes de una de las variables correspondan rangos pequeños de la otra, y viceversa.

4
La variable pivotal para esta prueba es:
𝟔 ∑ 𝒅𝟐𝒊
𝒓𝒔 = 𝟏 − ~𝒓
(𝒏 − 𝟏). 𝒏. (𝒏 + 𝟏) 𝒔, 𝒏

Dónde: di = R(Xi) - R(Yi)


n = cantidad de diferencias computadas

Si el rankeo realizado es correcto debe suceder que ∑ 𝑑𝑖 = 0.

Algunas características de este coeficiente son:


• -1 ≤ rs ≤ 1
• La expresión de rs se obtiene por similitud al r de Pearson.
• Si 4 ≤ n ≤ 30 los valores de la región crítica se obtienen de la tabla propia del r de Spearman.
• La distribución de probabilidades de r de Spearman es simétrica con respecto al eje x=0 (cero)

La tabla de la Distribución r de Spearman (página 26 de la Guía de Fórmulas y Tablas) sólo da los valores críticos
superiores, pero debemos tener en cuenta que ésta es simétrica con respecto al eje x=0 (cero) y, por lo tanto,
podemos decir como ejemplo: rn, 0,10 = −rn, 0,90

Un dato importante a tener en cuenta es que si n > 30 acudimos al Teorema Central del Límite y realizamos
rs .√n−2
la prueba con la variable pivotal ≈ t n−2
√1−r2

Otra forma de resolver este test de hipótesis sería utilizando el p-valor, como bien se muestra en la tabla de la
página 37 “Coeficientes de correlación de Spearman: coeficientes\probabilidades”, de la Guía de Trabajos
Prácticos de Estadística Analítica 2020.

10. Según las Hipótesis planteadas más arriba, dibuje la región crítica que le corresponde a cada una.

Para finalizar esta guía, y como recomendación, lee los ejercicios resueltos de la unidad 5 de la Guía de Trabajos
prácticos 2020 antes de realizar los ejercicios propuestos y complementarios.

También podría gustarte