Está en la página 1de 36

Probabilidad y estadística

FACULTAD DE INGENIERÍA MECÁNICA


LICENCIATURA EN INGENIERÍA DE ENERGÍA Y AMBIENTE
GRUPO: 1EM121

Ing. Gabriela C. De La Guardia G.


Código de Idoneidad. No. 2002 – 022 – 018
Regresión y
Correlación
This Photo by Unknown Author is licensed under CC BY-SA

Módulo V

This Photo by Unknown Author is licensed under CC BY-SA


Contenido

 A. Análisis de Correlación
 1. Coeficiente de Correlación
 2. Coeficiente de Determinación
 B. Análisis de Regresión
 1. Principio de los Mínimos Cuadrados.
 2. Trazo de la Recta de Regresión
 3. Error estándar de estimación
 4. Suposiciones de la Regresión Lineal
¿ Por qué es importante?
Analizar
relación de
variables para
Regresión y
predecir
correlación futuros

Análisis de Análisis de
regresión correlación

Desarrollo del Supuestos del Error estándar Pruebas Coef de


modelo MCO modelo de estimación inferenciales correlación

Pruebas de Coef de
hipótesis determinación

Prueba de
Intervalos de
hipótesis para
confianza
correlación
 La regresión y la correlación son las dos
herramientas estadísticas más poderosas y
versátiles que se pueden utilizar para
solucionar problemas comunes en los
negocios.
 Muchos estudios se basan en la creencia de
que se puede identificar y cuantificar alguna
Para empezar… relación funcional entre dos o más variables.
 Se dice que una variable depende de otra.
 Se puede decir que Y depende de X en
donde Y y X son dos variables cualquiera.
 Esto se puede escribir así
Y = f (X)
Debido a que Y depende de X, Y es la variable dependiente y X es
la variable independiente.

Es importante identificar cual es la variable dependiente y cual


es la variable independiente en el modelo de regresión.

VARIABLE DEPENDIENTE: es la que se desea explicar o predecir;


también se le denomina regresando o variable de respuesta
• La variable independiente X se utiliza para explicar Y

VARIABLE INDEPENDIENTE: también denominada variable


explicative o regresar
Análisis de
regresión
En un modelo de regresión
En la regresión simple, se múltiple, Y es una función
Se debe diferenciar entre la establece que Y es una de dos o más variables
regresión simple y la función de solo una variable independientes.
regresión multiple. independiente. También • Y = f (X1, X2, X3, …, Xk)
llamada regresión Bivariada

En el modelo de regresión La regresión curvilineal


También es necesario hacer lineal, la relación entre X y utiliza una curva para
una distinción entre la Y puede representarse por expresar la relación entre X
regresión lineal y la medio de una línea recta. A y Y. Sostiene que a medida
regresión curvilineal (no medida que X cambia, Y que X cambia, Y cambia en
lineal) cambia en una cantidad una cantidad diferente a la
constante. vez.
 Algunas de estas relaciones se
muestran en diagramas de
dispersión.
Es importante saber

Pero antes…
Variables que intervienen en un estudio
Variable explicativa Variable de respuesta
(Causa) (Efecto)

Variable Variable
independiente dependiente

Se representa en el Se representa en el
eje x eje y
Posibles relaciones entre variables

 Estatura vs edad
 Consumo de energía vs costo
 Gastos vs ingresos
 Consumo de combustible vs gasto de combustible
Diagrama de dispersión  Un diagrama de dispersión o gráfica de
dispersión o gráfico de dispersión es un tipo de
diagrama matemático que utiliza las
coordenadas cartesianas para mostrar los
valores de dos variables para un conjunto de
datos.
 Se emplea cuando una o varias variables están
bajo el control del experimentador.
 Si existe un parámetro que se incrementa o
disminuye de forma sistemática, se le
denomina parámetro de control o variable
independiente y habitualmente se representa a
lo largo del eje horizontal (eje de las
abscisas). La variable medida o dependiente
usualmente se representa a lo largo del eje
vertical (eje de las ordenadas). Si no existe
una variable dependiente, cualquier variable
se puede representar en cada eje y el
diagrama de dispersión mostrará el grado de
correlación (no causalidad) entre las dos
variables.
Relación lineal entre variables

 Cuando se evalúa la relación entres dos variables, es importante determinar


cómo se relacionan las variables.
 Las relaciones lineales son muy comunes, pero las variables también pueden
tener una relación no lineal o monótona. También es posible que no haya
relación entre las variables. Se debe comenzar por crear una gráfica de
dispersión de las variables para evaluar la relación.
 Una relación lineal es una tendencia en los datos que se puede modelar
mediante una línea recta.
 Por ejemplo, supongamos que una aerolínea desea estimar el impacto de los
precios del combustible en los costos de los vuelos. Descubren que por cada dólar
de aumento en el precio de un galón de combustible para aviones, el costo de su
vuelo Los Ángeles - Nueva York aumenta en aproximadamente $3500. Esto describe
una relación lineal entre el costo del combustible para aviones y el costo del vuelo.
Relación lineal entre
variables
 Cuando ambas variables aumentan o disminuyen
simultáneamente a un ritmo constante, existe una
relación lineal positiva. Los puntos de la Gráfica
siguen la línea muy de cerca, lo que sugiere que la
relación entre las variables es fuerte. El coeficiente
de correlación de Pearson para esta relación es
+0.921.

 Cuando una variable aumenta mientras la otra


variable disminuye, existe una relación lineal
negativa. Los puntos de la Gráfica siguen la línea
muy de cerca, lo que sugiere que la relación entre
las variables es fuerte. El coeficiente de correlación
de Pearson para esta relación es −0.968.
Relación lineal entre
variables
 Los puntos de los datos de la Gráfica parecen estar distribuidos
de manera aleatoria. No se encuentran cerca de la línea, lo que
indica una relación muy débil, si existe alguna. El coeficiente de
correlación de Pearson para esta relación es −0.253.

 Si una relación entre dos variables no es lineal, la tasa de


aumento o descenso puede cambiar a medida que una variable
cambia, causando un "patrón de curva" en los datos. Esta
tendencia en forma de curva se podría modelar mejor mediante
una función no lineal, como una función cuadrática o cúbica, o se
podría transformar para convertirla en lineal. La Gráfica muestra
una relación fuerte entre dos variables. Sin embargo, puesto que
la relación es no lineal, el coeficiente de correlación de
Pearson es solo +0.244. Esta relación ilustra por qué es
importante graficar los datos para poder explorar las relaciones
que pudieran existir.
Relación lineal
entre variables
 En una relación monótona, las
variables tienden a moverse en la
misma dirección relativa, pero no
necesariamente a un ritmo constante.
 En una relación lineal, las variables se
mueven en la misma dirección a un
ritmo constante. La Gráfica revela que
ambas variables aumentan al mismo
tiempo, pero no al mismo ritmo. Esta
relación es monótona, pero no lineal.
El coeficiente de correlación de
Pearson para estos datos es 0.843,
pero la correlación de Spearman es
mayor, 0.948.

 Las relaciones lineales también son


monótonas. Por ejemplo, la relación
que se muestra en la primera Gráfica
es tanto monótona como lineal.
Determinación del modelo de
regresión simple
Sólo son necesarios dos puntos para dibujar la línea recta que representa
esta relación lineal
 Ecuación de la recta
𝑌 = 𝑏0 + 𝑏1 𝑋
 Donde b0 es el
intercepto y b1 es la
pendiente de la recta
 b1 = pendiente =
variación vertical /
variación horizontal
 Las relaciones entre las variables pueden ser determinísticas o estocásticas (aleatorias)
 Una relación determinística tiene una relación exacta porque no tiene error (salvo la
aproximación)
 En el modelo estocástico se reconoce la presencia de variaciones aleatorias
 Modelo lineal
 La formula es la relación poblaciónal (o verdadera) según la cual se hace regresión de Y sobre X
Análisis de
correlación
Análisis de correlación
 La finalidad de la correlación es examinar la dirección y
la fuerza de la asociación entre dos variables
cuantitativas. Así conoceremos la intensidad de la
relación entre ellas y si, al aumentar el valor de una
variable, aumenta o disminuye el valor de la otra
variable.
 Para valorar la asociación entre dos variables, la
primera aproximación suele hacerse mediante un
diagrama de dispersión.
 Con la nube de puntos podemos apreciar si existe o no
una tendencia entre las dos variables, pero si queremos
cuantificar esta asociación debemos calcular un En el diagrama parece existir una
coeficiente de correlación. relación lineal entre el peso y el índice
de masa corporal de los pacientes.
Además, si nos fijamos parece que
existe un dato atípico que se aleja de la
nube de puntos.
Hay dos coeficientes de correlación que se usan frecuentemente: el de
Pearson (paramétrico) y el de Spearman (no paramétrico, se utiliza en
aquellos casos donde las variables examinadas no cumplen criterios de
normalidad o cuando las variables son ordinales).

Coeficientes El coeficiente de correlación de Pearson evalúa específicamente la


adecuación a la recta lineal que defina la relación entre dos variables
cuantitativas.

de
correlación
El coeficiente no paramétrico de Spearman mide cualquier tipo de
asociación, no necesariamente lineal.

Si se desea medir o cuantificar el grado de asociación entre dos


variables cuantitativas se debe calcular un coeficiente de correlación
Dependencia
Análisis de
estadística

Distribuciones
bidimensional
correlación lineal
(valores agrupados
de 2 en 2) simple
Relación de
dependencia entre
variables

Definir la relación
matemática para el
par de variables
Análisis de correlación lineal simple

 Si entre dos variables cuantitativas existe una relación lineal, el análisis de correlación
lineal simple se usa para determinar la dirección y la magnitud de dicha relación.
 La dirección de la relación se refiere a si ésta es positiva o negativa.
 La magnitud de la relación o grado de relación entre las variables se refiere a la fuerza de
la relación que existe entre las variables. Se trata de expresar cuantitativamente el
grado de relación que existe entre las variables en estudio.
 Coeficiente de correlación: expresa de manera cuantitativa el grado y la dirección de la
relación entre dos variables.
 Coeficiente de correlación r de Pearson (rxy), se usa cuando los datos están medidos en
una escala de intervalo o de razón.
 Coeficiente de correlación rho de Spearman (rs), se utiliza cuando una o ambas
variables están medidas en la escala ordinal, en la escala de intervalo o la de razón.
Características del coeficiente de
correlación
 El signo del coeficiente indica si la relación entre las variables es
positiva o negativa: si el coeficiente es positivo, entonces la relación
es positiva. En caso contrario, la relación es negativa.
 El valor numérico del coeficiente de correlación varía entre -1 y +1
y éste describe la magnitud de la relación entre las variables.
 Si r = -1 entonces existe una relación lineal perfecta negativa entre las
variables.
 Si r = 0 entonces no existe relación entre las variables
 Si r = +1 entonces existe una relación lineal perfecta positiva entre las
variables
 Las relaciones imperfectas, positivas
o negativas, tienen coeficientes de
correlación que varían entre -1 y +1,
de la siguiente manera:
 Si r = 0  Nula

Características  Si r > 0 y r <  0,10  Casi Nula


Si r ≥  0,10 y r <  0,20  Muy Baja
del coeficiente 

 Si r ≥  0,20 y r <  0,40  Baja


de correlación  Si r ≥  0,40 y r <  0,60  Media
 Si r ≥  0,60 y r <  0,80  Alta
 Si r ≥  0,80 y r <  1,00  Muy alta
 Si r =  1  Perfecta
Consideraciones

 Al calcular el coeficiente de correlación deben tomarse en cuenta dos aspectos:


la forma de la relación y la escala de medición
 La forma de la relación: para interpretar correctamente el valor del coeficiente
de correlación de Pearson o de Spearman, es necesario que la relación entre las
variables sea lineal. Por ello, previo al cálculo de un coeficiente de correlación
lineal, es necesario elaborar un diagrama de dispersión para determinar si existe
o no una relación lineal entre las variables.
 La escala de medición: si las variables están medidas en la escala de intervalo o
razón se calcula de r de Pearson. Si una o ambas variables están medidas como
mínimo en la escala ordinal se puede calcular el coeficiente de correlación de
Spearman.
Coeficientes de correlación
Pearson & Spearman
Coeficiente de Correlación lineal de
Pearson
 El estimador muestral más utilizado para evaluar la asociación lineal entre dos variables X
e Y es el coeficiente de correlación de Pearson (r).
 Se trata de un índice que mide si los puntos tienen tendencia a disponerse en una línea
recta. Puede tomar valores entre -1 y +1.
 Es un método estadístico paramétrico, ya que utiliza la media, la varianza,…y por tanto,
requiere criterios de normalidad para las variables analizadas.
 Se define como la covarianza muestral entre X e Y dividida por el producto de las
desviaciones típicas de cada variable:

 La expresión matemática para el coeficiente de correlación de Pearson parece compleja, pero


esconde un planteamiento que en el fondo, es sencillo: “r” estará próximo a 1 (en valor
absoluto) cuando las dos variables X e Y estén intensamente relacionadas, es decir, al aumentar
una aumenta otra y viceversa. A este concepto de variación al unísono se le llama covarianza
Coeficiente de Correlación lineal de Pearson
 Covarianza
 El numerador del coeficiente de correlación es la covarianza muestral SXY entre X e Y, que nos
indica si la posible relación entre dos variables es directa o inversa. Es una medida que nos habla
de la variabilidad conjunta de dos variables cuantitativas.

 Así, si valores altos (o bajos) de X tienden a asociarse con valores altos (o bajos) de Y, el
producto de las desviaciones tenderá a ser positivo y la covarianza será positiva.
 Por el contrario, si valores altos de una variable se relacionan con valores bajos de la otra
variable, el producto de las desviaciones tenderá a ser negativo y la covarianza será negativa.
 De tal modo que:
 Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).
 Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos
decreciente).
 Si los puntos se reparten con igual densidad alrededor del centro de gravedad (x, y), SXY =0 (no
hay relación lineal).
Coeficiente de
Correlación lineal de
Pearson

 El signo de la covarianza nos dice


si el aspecto de la nube de puntos
es creciente o no, pero no nos dice
nada sobre el grado de relación
entre las variables.

 Resulta complicado determinar el


grado de asociación lineal entre
dos variables a partir de la
magnitud de la covarianza, ya que
ésta depende de las unidades de
medida de las variables.
Propiedades

 Volviendo al coeficiente de correlación lineal r, veamos


qué propiedades tiene:
 Carece de unidades de medida (adimensional).
 Sólo toma valores comprendidos entre [-1,1].
 Cuando |r| esté próximo a uno, r= +1 (recta lineal creciente de
izquierda a derecha) o r= -1 (recta lineal decreciente), se tiene
que existe una relación lineal muy fuerte entre las variables.
 Cuando r≈0, puede afirmarse que no existe relación lineal entre
ambas variables. Se dice en este caso que las variables son
incorreladas.
Interpretación o análisis de los
diagramas

En la figura se nota que r = ±1 es lo mismo que


decir que las observaciones de ambas variables
están perfectamente alineadas. El signo de r, es el
mismo que el de SXY, por tanto nos indica el
crecimiento o decrecimiento de la recta. La
relación lineal es tanto más perfecta cuanto r está
cercano a ±1.
En la correlación no se distingue la variable
dependiente de la independiente, la correlación
de X con respecto a Y es la misma que la
correlación de Y con respecto a X.
Aunque la interpretación de la magnitud del
coeficiente de correlación depende del contexto
particular de aplicación, en términos generales se
considera que una correlación es baja por debajo
de 0,30 en valor absoluto, que existe una
asociación moderada entre 0,30 y 0,70, y alta por
encima de 0,70.
Condiciones de aplicación de la
correlación
 Variables cuantitativas: Ambas variables examinadas han de ser
cuantitativas. Para variables ordinales se puede usar el coeficiente de
Spearman.
 Normalidad: La normalidad de ambas variables es un requisito en el caso del
coeficiente de correlación de Pearson, pero no en el de Spearman.
 Independencia: Las observaciones han de ser independientes, es decir, sólo
hay una observación de cada variable para cada individuo.
 No tendría sentido, aplicar la correlación en un estudio que relacionase la ingesta
diaria de sal y la tensión intraocular si se tomaran mediciones en ambos ojos de
cada individuo. En este caso hay dos observaciones por paciente que están
autocorrelacionadas, no son independientes; habría que considerar N como el
número de pacientes y no el de ojos.
Ejemplo
 En la Figura se presenta el diagrama de dispersión
entre el índice de masa corporal, medida de
obesidad que se obtiene de dividir el peso en
kilogramos por la altura en metros al cuadrado, y
el colesterol HDL en un estudio realizado a 533
individuos.

 A simple vista, se aprecia un cierto grado de


dependencia lineal negativa entre ambas variables;
esto es, el colesterol HDL tiende a decrecer
conforme aumenta el índice de masa corporal. Esta
apreciación visual se confirma mediante el cálculo
del coeficiente de correlación muestral de Pearson
que indica una asociación lineal negativa moderada
entre el índice de masa corporal y el colesterol
HDL.

También podría gustarte