Está en la página 1de 29

Universidad Autónoma Del Carmen

Unidad Académica Campus I


Facultad de Química

Sergio Joaquín Reyes Ayuso

Ingeniería Química

Probabilidad y estadística

Análisis de regresión y correlación


INTRODUCCIÓN
El estudio de la relación entre dos variables y la posible predicción de una de ellas (variable respuesta o
dependiente) a partir de la otra (variable explicativa o independiente), es decir, de la correlación y regresión,
es fundamental en estadística y en la investigación empírica. Por un lado, este estudio se vincula a la toma de
decisiones y, por otro, extiende el concepto de dependencia funcional a situaciones aleatorias
La enseñanza del tema se basa en la comprensión de múltiples conceptos como los de variable estadística y
distribución bidimensional; dependencia estadística, funcional e independencia; covarianza y correlación;
regresión; variable dependiente e independiente; modelo y modelo lineal; bondad de ajuste y coeficiente de
determinación.
Estudiaremos dicho grado de relación entre dos variables en lo que llamaremos análisis de correlación. Para
representar esta relación utilizaremos una representación gráfica llamada diagrama de dispersión y,
finalmente, estudiaremos un modelo matemático para estimar el valor de una variable basándonos en el valor
de otra, en lo que llamaremos análisis de regresión.
REGRESIÓN Y CORRELACIÓN LINEAL

La regresión lineal es una técnica de modelado estadístico que se emplea para describir una variable de respuesta continua
como una función de una o varias variables predictoras. Puede ayudar a comprender y predecir el comportamiento de
sistemas complejos o a analizar datos experimentales, financieros y biológicos.
Las técnicas de regresión lineal permiten crear un modelo lineal. Este modelo describe la relación entre una variable
dependiente (también conocida como la respuesta) como una función de una o varias variables
independientes  (denominadas predictores). La ecuación general correspondiente a un modelo de regresión lineal es:
donde β representa las estimaciones de parámetros lineales que se deben calcular y ϵ representa los términos de error.

El coeficiente de correlación lineal es un tipo de medida de regresión que se emplea para


conocer el grado de variación entre dos variables determinadas. Por lo tanto, se trata de una
magnitud estadística que permite cuantificar la dependencia entre dos variables y, en este caso
en particular, establecer una correlación lineal entre ellas.
Específicamente evalúa la tendencia (creciente o decreciente) en los datos.
Características
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que
permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación
conjunta de dos variables aleatorias.
La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es comparable
entre distintos pares de variables. Para poder hacer comparaciones se estandariza la covarianza, generando lo
que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el
coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
Las principales diferencias entre estos tres coeficientes de asociación son:

• La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución
normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante
robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos
alternativas.

• La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando
no se satisface la condición de normalidad para variables continuas y los datos se pueden
transformar a rangos. Es un método no paramétrico.

• La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que


trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la
misma posición en el rango, es decir, cuando hay muchas ligaduras.
Aplicación
Los modelos de regresión lineal son relativamente sencillos y proporcionan una fórmula matemática
fácil de interpretar que puede generar predicciones. La regresión lineal puede aplicarse a varias áreas
de la empresa y de los estudios académicos.

Descubrirá que la regresión lineal se utiliza en todo, desde las ciencias biológicas, conductuales,
ambientales y sociales hasta en los negocios. Los modelos de regresión lineal se han convertido en
una forma comprobada de predecir el futuro de forma científica y confiable. Como la regresión
lineal es un procedimiento estadístico establecido hace mucho tiempo, las propiedades de sus
modelos de regresión lineal se conocen bien y pueden enseñarse muy rápido.
Fórmulas utilizadas
• Modelo de regresión lineal simple:
• Ecuación de regresión lineal simple:
• Ecuación estimada de regresión simple:
Interpretación
El coeficiente de correlación de Pearson oscila entre –1 y +1:
Un valor menor que 0 indica que existe una correlación negativa, es decir, que las dos variables
están asociadas en sentido inverso. Cuánto más se acerca a -1, mayor es la fuerza de esa relación
invertida (cuando el valor en una sea muy alto, el valor en la otra será muy bajo). Cuando es
exactamente -1, eso significa que tienen una correlación negativa perfecta.
Un valor mayor que 0 indica que existe una correlación positiva. En este caso las variables estarían
asociadas en sentido directo. Cuanto más cerca de +1, más alta es su asociación. Un valor exacto de
+1 indicaría una relación lineal positiva perfecta.
Finalmente, una correlación de 0, o próxima a 0, indica que no hay relación lineal entre las dos
variables.
Correlación de Pearson
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación difiere dependiendo
de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si se aplica la población Coeficiente
de Pearson poblacional (ρρ).

El coeficiente de correlación de Pearson es una prueba que mide la relación estadística entre dos
variables continuas. Si la asociación entre los elementos no es lineal, entonces el coeficiente no se
encuentra representado adecuadamente.
Para llevar a cabo la correlación de Pearson es necesario cumplir lo siguiente:
•La escala de medida debe ser una escala de intervaloo relación.
•Las variables deben estar distribuida de forma aproximada.
•La asociación debe ser lineal.
•No debe haber valores atípicos en los datos.
 Correlación negativa muy
fuerte
Características
•Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1
una correlación lineal negativa perfecta.
•Es una medida independiente de las escalas en las que se midan las variables.
•No varía si se aplican transformaciones a las variables.
•No tiene en consideración que las variables sean dependientes o independientes.
•El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de
regresión.
•Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos,
excluirlos del análisis.
Fórmula

𝑟 𝑥𝑦 =∑ 𝑧 𝑥 𝑧 𝑦 / 𝑁

Dónde:
“x” es igual a la variable número uno, “y” pertenece a la variable número dos, “zx” es la
desviación estándar de la variable uno, “zy” es la desviación estándar de la variable dos y “N”
es número de datos.
N = Número de valores o elementos
Σxy = la suma de los productos de las puntuaciones emparejadas
Σx = la suma de puntuaciones x 
Σy = la suma de puntuaciones  y

Σx2 = Suma de cuadrados Puntuación x


Σy2 = Suma de cuadrados Puntuación y
Interpretación
El coeficiente de correlación de Pearson oscila entre –1 y +1:
Un valor menor que 0 indica que existe una correlación negativa, es decir, que las dos variables
están asociadas en sentido inverso. Cuánto más se acerca a -1, mayor es la fuerza de esa relación
invertida (cuando el valor en una sea muy alto, el valor en la otra será muy bajo). Cuando es
exactamente -1, eso significa que tienen una correlación negativa perfecta.
Un valor mayor que 0 indica que existe una correlación positiva. En este caso las variables estarían
asociadas en sentido directo. Cuanto más cerca de +1, más alta es su asociación. Un valor exacto de
+1 indicaría una relación lineal positiva perfecta.
Finalmente, una correlación de 0, o próxima a 0, indica que no hay relación lineal entre las dos
variables.
Ejemplo correlación de Pearson
Al ser 0 podemos afirmar que no
existe una correlación lineal
Al ser -1 nos dice que tiene
una correlación negativa en
este caso perfecta
Correlación de Spearman
El coeficiente de correlación de Spearman es una medida no paramétrica de la
correlación de rango (dependencia estadística del ranking entre dos variables). Se
utiliza principalmente para el análisis de datos.
Mide la fuerza y la dirección de la asociación entre dos variables clasificadas. Pero
antes de hablar de la correlación de Spearman, es importante entender la
correlación de Pearson, la cual es una medida estadística de la fuerza de una
relación lineal entre datos emparejados.
Características de la correlación de
Spearman
Aplicación correlación de Spearman
El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el mismo
evento, como por ejemplo dos instrumentos que miden la saturación de oxígeno en sangre. El coeficiente de
correlación mide el grado de asociación entre dos cantidades, pero no mira el nivel de acuerdo o concordancia.
Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del otro, la correlación puede
ser 1 y su concordancia ser nula . El coeficiente de correlación de Spearman es recomendable utilizarlo cuando
los datos presentan valores extremos, ya que dichos valores afectan mucho el coeficiente de correlación de
Pearson, o ante distribuciones no normales. No está afectada por los cambios en las unidades de medida.

Para el cálculo y la prueba de significación de la variable de ranking, se requiere que la siguientes


suposiciones de datos sean ciertas:
•Nivel de intervalo o ratio
•Relación lineal
•Bivariante distribuido
Si tus datos no cumplen con las suposiciones anteriores, necesitarás el coeficiente de correlación de
Spearman. Para esto, es necesario saber qué función monótona es para entenderlo.
Una función monótona es aquella que nunca disminuye o nunca aumenta, ya que es un incremento variable
independiente. 
Ejemplo Correlación de Spearman
Ejercicio: La siguiente tabla
muestra el rango u orden obtenido en la primera evaluación
(X) y el rango o puesto obtenido en la segunda evaluación
(Y) de 8 estudiantes universitarios en la asignatura de
Estadística. Calcular el coeficiente de correlación
por rangos de Spearman.
Para finalizar esta unidad y a manera de conclusión se puede afirmar que las técnicas de correlación y
regresión cuantifican la relación estadística que se da entre dos o más variables. La regresión lineal
expresa la asociación entre una variable dependiente y una independiente, manifestándose en términos de
la pendiente y la intersección de la línea que mejor se ajuste a las variables. En cambio, la correlación
simple indica el grado o la cercanía de la relación entre las dos variables, expresado en términos de un
coeficiente de correlación que aporta una medida indirecta de la variabilidad de los puntos en torno de la
mejor línea de ajuste. Ninguna de las dos da pruebas respecto a las relaciones causa – efecto, no es su
función.
Referencias bibliográficas
• Cabrera, E. (2009) El coeficiente de correlación de los rangos de Spearman [versión electrónica] Revista Habanera
de Ciencias Médicas v.8 n.2. Recuperado el día 25 de mayo de 2022, de
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1729-519X2009000200017
• ------- (2022) ¿Qué es el coeficiente de correlación de Spearman? Question Pro. Recuperado el día 25 de mayo de
2022, de https://www.questionpro.com/blog/es/coeficiente-de-correlacion-de-spearman/
• Bermúdez, A. (2015) Presentación coeficientes de correlación de Pearson y Spearman. Slideshare. Recuperado el día
25 de mayo de 2022, de
https://es.slideshare.net/AidaBermdez/presentacion-coeficientes-de-correlacion-de-pearson-y-spearman?next_slidesh
ow=50399234
• Díaz, A., Ochoa, J. & Juárez, B. (2021, junio) Aplicación del coeficiente de correlación de Spearman en un estudio
de fisioterapia. Facultad de Ciencias Físico Matemáticas, Benemérita Universidad Autónoma de Puebla. Recuperado
el día 25 de mayo de 2020, de https://www.fcfm.buap.mx/SIEP/2021/Extensos%20Carteles/Extenso%20Juliana.pdf
• Guillen, A., M.H. Badii & M.S. Acuña Zepeda (2014, junio) Aplicación de Correlación en la Investigación.
Universidad Autónoma de Nuevo León. Recuperado el 26 de mayo de 2022, de
http://www.spentamexico.org/v9-n2/A3.9(2)18-23.pdf
• Márquez, C. (2020, abril) Lineal vs. Regresión múltiple: ¿cuál es la diferencia? Exo Negocios. Recuperado el día
23 de mayo de 2022, de https://exonegocios.com/lineal - vs - regresion multiple - cual - es - la -
diferencia/

También podría gustarte