Está en la página 1de 57

Universidad Católica Boliviana ‘San Pablo’

Probabilidad y Estadística 2

CORRELACIÓN Y
REGRESIÓN
1
Vivian Espinoza Romano
vespinoza@ucb.edu.bo

Ciencias Exactas - UCB - Vivian Espinoza R.


ANÁLISIS DE REGRESIÓN Y
CORRELACIÓN

Fuente: Elaboración propia


Ciencias Exactas - UCB - Vivian Espinoza R. 2
9

8
Nube de puntos (Datos)

0
0 1 2 3 4 5 6 7 8 9 10

Ciencias Exactas - UCB - Vivian Espinoza R. 3


Fuente: Elaboración propia
§ Lineal simple: y = a + bx
§ Lineal inversa: y = a + b/x
§ Lineal logarítmica: y = a + b ln(x)
§ Exponencial: y = a. bx ó ! = #$ %&
§ Potencial: y = a. xb
§ Lineal múltiple: y = a + b1x1 +b2x2 + …+bkxk
§ Lineal polinomial: y = a + b1x1 +b2x22+ …+bkxkk

Ciencias Exactas - UCB - Vivian Espinoza R. 4


16 12

14
10

12
8
10

8 6

6
4

2
2

0 0

y
y

0 2 4 6 8 10 12 0 2 4 6 8 10 12

x x

Dependencia Lineal Directamente proporcional Dependencia Lineal Inversamente proporcional

Ciencias Exactas - UCB - Vivian Espinoza R. 5


Fuente: Elaboración propia
12 10

10
8

8
6

2
2

0 0

y
y

0 2 4 6 8 10 12 0 2 4 6 8 10

x x

Dependencia parabólica No existe dependencia


Ciencias Exactas - UCB - Vivian Espinoza R. 6
Fuente: Elaboración propia
12 12

10 10

8 8

6 6

4 4

2 2

0 0

y
y

0 2 4 6 8 10 12 0 2 4 6 8 10 12

x x

Dependencia exponencial Dependencia logarítmica


Ciencias Exactas - UCB - Vivian Espinoza R. 7
Fuente: Elaboración propia
§ min $ = ∑*
'() +'
, = ∑* (. − . ),
'() ' 0
23 23 23
§ =0; =0; =0;…
24 26 27

§ ei: Error o residuo de la i-ésima observación (variables dependientes).

§ yi: Valores observados de la variable dependiente (datos).

§ ye: Valores estimados de la variable dependiente con la ecuación de regresión.


§ a: Constante o intercepto.

§ b, c, d,…: Coeficientes de regresión de las variables independientes.


§ à “Ecuaciones Normales”

Ciencias Exactas - UCB - Vivian Espinoza R. 8


§ Lineal: !" = $ + &'

∑) *) = +, + - ∑) .) (1)
∑) .) *) = , ∑) .) + - ∑) .) / (2)

§ Parabólico: !" = $ + &' + 0'1

∑) *) = +, + - ∑) .) + 2 ∑) .) / (1)
∑) .) *) = , ∑) .) + - ∑) .) / + 2 ∑) .) 3 (2)
∑) .) / *) = , ∑) .) / + - ∑) .) 3 + 2 ∑) .) 4 (3)

Ciencias Exactas - UCB - Vivian Espinoza R. 9


§ Exponencial: !" = $%&
Se aplica logaritmos: ln )* = ln + + - ln . y las ecuaciones normales son:

∑0 12)0 = 212+ + 12. ∑0 -0 (1)


∑0 -0 12)0 = 12+ ∑0 -0 + 12. ∑0 -0 3 (2)

§ Múltiple: !" = $ + %&4 + 5&6

∑0 )0 = 2+ + . ∑0 -70 + 8 ∑0 -30 (1)


∑0 -70 )0 = + ∑0 -70 + . ∑0 -70 3 + 8 ∑0 -70 -30 (2)
∑0 -30 )0 = + ∑0 -30 + . ∑0 -70 -30 + 8 ∑0 -30 3 (3)

Ciencias Exactas - UCB - Vivian Espinoza R. 10


Un coeficiente de correlación, mide el grado de relación o asociación existente generalmente
entre dos variables aleatorias. No es conveniente identificar correlación con dependencia
causal.

#&$% !=
#'$
Caso general ! = Caso lineal #' ∗#$
#&$

Ciencias Exactas - UCB - Vivian Espinoza R. 11


§ Este coeficiente mide la proporción (%), de variabilidad que ha sido
estadísticamente explicada, respecto a la variabilidad total; a través de la ecuación
de regresión.
#&$%
§ != ! = '&
#&$

Donde las varianzas se definen como sigue:


+
§ Varianza Total (VT) en y: ()* = ∑,. (0. − 0)
2 *
,
+
§ Varianza Explicada (VE) en y: ()*4 = ∑,. (05 − 0)
2 *
,
+
§ Varianza No Explicada (VNE) en y: ()*64 = ∑,. (0. − 05 )*
,
Notamos que se debe cumplir:
#&$ = #&$% + #&$8%

Ciencias Exactas - UCB - Vivian Espinoza R. 12


§ Mide la covariación conjunta de dos variables.
§ Si espositiva nos dará la información de que a valores altos de una
de las variables hay una mayor tendencia a encontrar valores altos
de la otra variable y a valores bajos de una de las variables,
correspondientemente valores bajos (relación directamente
proporcional).
§ Si lacovarianza es negativa, la covariación de ambas variables será
en sentido inverso: a valores altos le corresponderán bajos, y a
valores bajos, altos (relación inversamente proporcional).
§ Si lacovarianza es cero no hay una covariación clara en ninguno de
los dos sentidos. Esto significa, que si dos variables son
independientes su covarianza es cero.

Ciencias Exactas - UCB - Vivian Espinoza R. 13


§ Poblacional:
∑,
)*+ $) &) ,)
§ !"# $, & = s$& = − (µ0 )(µ2 )
-

§ Muestral:
+
§ !"# $, & = 3$& = ∑,)5+ $) &) ,) − (7)(
̅ 9),
8
,4+

§ Solo se calcula la covarianza para variables cuantitativas!

Ciencias Exactas - UCB - Vivian Espinoza R. 14


Ciencias Exactas - UCB - Vivian Espinoza R. 15
Ho : "i = 0 Los coeficientes son nulos (mal modelo)
H1 : "i ≠ 0 Al menos uno es distinto de 0.

La prueba de la hipótesis nula plantea de que los coeficientes del


modelo de regresión son nulos. Por tanto , las variables asociadas a
estos coeficientes; no son suficientemente significativas para formar
parte del modelo.
El rechazo de la hipótesis nula, implica que al menos uno de estos
coeficientes no es 0, lo que indica que esta ecuación de regresión es
eficaz para determinar la variable dependiente. (al menos las variables
asociadas a los coeficientes diferentes de 0.)
Se rechaza la hipótesis nula si p – valor < !, generalmente = 0,05
Ciencias Exactas - UCB - Vivian Espinoza R. 16
Se utiliza una prueba formal de hipótesis con el fin de
determinar si existe una correlación lineal significativa
entre dos variables.

Usualmente se utilizan dos métodos, veamos el siguientes diagrama para entenderlos:

Ciencias Exactas - UCB - Vivian Espinoza R. 17


Ciencias Exactas - UCB - Vivian Espinoza R. 18
La tabla A-3 es la tabla de probabilidad correspondiente a t de Student,
se puede usar aplicaciones para encontrar el valor crítico de t
Ciencias Exactas - UCB - Vivian Espinoza R. 19
§ 1º
#$ : & = 0 (No existe una correlació8 9:8;<9 =:>8:?:@<A:B<)
#D : & = 0 (Existe una correlació8 9:8;<9 =:>8:?:@<A:B<)

§ 2° Especificar α
§ 3° Calcular r = coef. de correlación muestral y k = n-2 grados de libertad

§ 4° Región de aceptación I= – AG´ ,JKL ; +ADK


´
G
,JKL
H H
P
§ 5° Calcular A =
QRSH
TRH

§ 6° Si A ∈ V entonces se acepta Ho.

Ciencias Exactas - UCB - Vivian Espinoza R. 20


La tabla A- 6 con valores críticos de r se encuentran en la siguiente página:

Ciencias Exactas - UCB - Vivian Espinoza R. 21


Se rechaza la hipótesis nula, si el
valor absoluto de r, es mayor que el
valor crítico de la tabla.

Ciencias Exactas - UCB - Vivian Espinoza R. 22


§ 1º
#$ : & = 0 (No existe una correlació8 9:8;<9 =:>8:?:@<A:B<)
#D : & = 0 (Existe una correlació8 9:8;<9 =:>8:?:@<A:B<)

§ 2° Especificar α
§ 3° Calcular los grados de libertad: k = n-2
§ 4° Comparar con los valores críticos de la tabla r (A-6)
§ 5° Calcular el coeficiente de correlación de la muestra.
IJK
H=
IJ ∗IK

§ 6° Si r ∈ G entonces se acepta Ho.

Ciencias Exactas - UCB - Vivian Espinoza R. 23


Utilice la muestra aleatoria simple de datos que
aparece al margen para calcular el valor del
coeficiente de correlación lineal r.

Los datos constituyen una muestra aleatoria simple.


El diagrama de dispersión generado por SPSS que
aparece abajo sugiere un patrón de puntos que se
acerca al patrón de una línea recta. No hay valores
extremos. Los requisitos se satisfacen y podemos
continuar con los cálculos del coeficiente de
correlación lineal r .
Ciencias Exactas - UCB - Vivian Espinoza R. 24
Existe una correlación
elevada (Inversamente
proporcional) entre las
variables x e y.

Es significativa esta correlación?

Ciencias Exactas - UCB - Vivian Espinoza R. 25


§ Se calcula el valor del estadístico de prueba t:

§ Con r = - 0.956 y n = 4, se obtiene un valor de t = 4,61


§ Que hay que comparar con el valor crítico de t con ! = 0.05 y con ! = 0.01 y 2 grados
de libertad (prueba bilateral de dos colas: !/2 = 0.025 y !/2 = 0.005 ) t’ = -4,30 y t’ =
9,92 respectivamente.
§ Como ∣ -4,61 ∣ > 4,30 entonces se Rechaza la hipótesis nula (Existe una correlación
lineal significativa) para ! = 0.05 .
§ Para ! = 0.01, ∣ -4,61 ∣ ≤ 9,92 entonces no podemos concluir que existe una
correlación lineal (Se Acepta la hipótesis nula)

Ciencias Exactas - UCB - Vivian Espinoza R. 26


§ Uso de la tabla A-6: Si el valor absoluto del valor calculado de r excede el valor de
la tabla a A-6, se concluye que existe una correlación lineal. De lo contrario, no
existe evidencia suficiente para sustentar la conclusión de una correlación
lineal.
§ La tabla de A-6 nos indica que con n = 4 pares de datos muestrales, los valores críticos
son 0.950 (para ! = 0.05) y 0.999 (para ! = 0.01).
§ Dado r = -0.956 calculado en el ejemplo anterior, si usamos un nivel de significancia
de 0.05, concluimos que existe una correlación lineal entre x y y (porque ∣-0.956 ∣
excede el valor crítico de 0.950).
§ Sin embargo, si usamos un nivel de significancia de 0.01, no concluimos que existe
una correlación lineal (porque ∣ -0.956 ∣ no excede el valor crítico de 0.999).

Ciencias Exactas - UCB - Vivian Espinoza R. 27


§ Uso de un programa de cómputo: Si el valor P calculado es menor o igual que el
nivel de significancia, se concluye que existe una correlación lineal. De lo
contrario, no existe evidencia suficiente para sustentar la conclusión de una
correlación lineal.

Como p- valor = 0,044 < 0,05 entonces se concluye que existe una correlación lineal significativa.
Ciencias Exactas - UCB - Vivian Espinoza R. 28
§ Cálculos para hallar los coeficientes del modelo de regresión:

Ciencias Exactas - UCB - Vivian Espinoza R. 29


Ciencias Exactas - UCB - Vivian Espinoza R. 30
§ 1°
!" : $i = 0 Los coeficientes son nulos (mal modelo)
!% : $i ≠ 0 Al menos uno es distinto de 0.
§ 2° Especificar α
§ 3° Calcular los coeficientes de la muestra bi.

§ 4° Región de aceptación I = – '(´ ,+,(./%) ; +'%,


´
(
,+,(./%)
, i : #coeficientes
) )

b i - $i
§ 5° Calcular ' = Sbi : Error estándar del i-ésimo coeficiente.
89.
§ 6° Si ' ∈ I entonces se acepta Ho.

Ciencias Exactas - UCB - Vivian Espinoza R. 31


Por lo general, este cálculo
es bastante complicado
manualmente, por lo que se
utiliza Software para
determinar estos valores.

Donde !e es el error
estándar de estimación.

Ciencias Exactas - UCB - Vivian Espinoza R. 32


Se verá también más adelante el error estándar de estimación:

Ciencias Exactas - UCB - Vivian Espinoza R. 33


§ En este caso, ambos p- valores son < 0,05; por tanto los coefientes (no son nulos)à
son significativos para determinar la variable de respuesta.

Ciencias Exactas - UCB - Vivian Espinoza R. 34


§ El géiser Old Faithful es la atracción más visitada del Parque Nacional
Yellowstone. Está ubicado cerca del hotel Old Faithful Inn. Los turistas disfrutan la
comida, las bebidas, el alojamiento y las tiendas del hotel, pero quieren
asegurarse de ver al menos una erupción del famoso géiser Old Faithful. Los
guarda-bosques del parque ayudan a los turistas publicando el momento predicho
de la siguiente erupción. ¿Cómo hacen esas predicciones?
§ Cuando el Old Faithful hace erupción, se registran las siguientes mediciones:
duración (en segundos) de la erupción, el intervalo de tiempo (en minutos) entre
la erupción anterior y la erupción actual, el intervalo de tiempo (en minutos) entre
la erupción actual y la siguiente, y la altura (en pies) de la erupción. En la tabla se
incluyen mediciones de ocho erupciones.

Ciencias Exactas - UCB - Vivian Espinoza R. 35


§ ¿De qué manera se pueden utilizar métodos estadísticos para determinar
objetivamente si hay una relación entre dos variables, como los intervalos de tiempo
posteriores a las erupciones y la duración de éstas?
§ Si existe una relación entre dos variables, ¿cómo podemos describirla? ¿Hay alguna
ecuación que se pueda usar para predecir el momento de la siguiente erupción del
géiser, dada la duración de la erupción actual?
§ Si podemos predecir el momento de la siguiente erupción del Old Faithful, ¿qué tan
exacta resultará esa predicción?

Ciencias Exactas - UCB - Vivian Espinoza R. 36


§ Pronosticar la demanda, si se tiene la
información de las ventas de la
empresa Agitec durante los últimos
12 trimestres se muestran en la tabla a
lado.
§¿ Cuál es la relación entre las ventas y
el tiempo? Es significativa?
§¿ El modelo lineal encontrado, se
ajusta bien a los datos?
§ ¿Cómo pronosticar la demanda de los
trimestres 13, 14 y 15 a través de
un análisis de regresión lineal?

Ciencias Exactas - UCB - Vivian Espinoza R. 37


§ Los datos de la producción de trigo en toneladas (X) y el precio del kilo de harina
en pesetas (Y ) en la década de los 80 en España fueron:

§ Ajusta los datos a una recta de regresión.


§ Interpreta el coeficiente de correlación.
§ Qué % de variabilidad se rescata con el modelo?

§ Cuánto costaría el kilo de harina si la producción de trigo fue de 20 Tn?

Ciencias Exactas - UCB - Vivian Espinoza R. 38


§ En la tabla, se muestran los datos sobre el porcentaje de suelas de zapato que son
producidas por una fábrica de calzados y que aún pueden utilizarse, después de
recorrer cierto número de kilómetros.
Recorrido Km (*100) Porcentaje útil
1 98,2
2 91,7
5 81,3
10 64,0
20 36,4
30 32,6
40 17,1
50 11,3

§ Ajuste los datos a una curva exponencial (Grafique).

§ Estime el porcentaje útil de las suelas de los zapatos; si recorrieron 2500 Km.

Fuente: Texto de estadística-departamento de ciencias exactas- UPB, Bolivia 2006


39
Ciencias Exactas - UCB - Vivian Espinoza R.
§ Indicamos que siempre debemos comenzar con un diagrama de dispersión y que
debemos verificar que el patrón de puntos se aproxime a una línea recta. También
es necesario tomar en cuenta los valores extremos.
§ La gráfica residual puede ser otra herramienta útil para analizar resultados de
correlación y regresión, así como para verificar los requisitos necesarios para
hacer inferencias sobre una correlación y una regresión.

Ciencias Exactas - UCB - Vivian Espinoza R. 40


§ Una gráfica residual es un diagrama de dispersión de los valores (x, y) una vez
que cada uno de los valores de la coordenada y han sido reemplazados por el
valor residual y - yˆ (donde yˆ denota el valor predicho de y). Es decir, una gráfica
residual es una gráfica de los puntos (x, y - yˆ).
§ Si una gráfica residual no revela ningún patrón, la ecuación de regresión es
una buena representación de la asociación entre las dos variables.
§ Si una gráfica residual revela algún patrón sistemático, la ecuación de
regresión no es una buena representación de la asociación entre las dos
variables.

Ciencias Exactas - UCB - Vivian Espinoza R. 41


§ La recta de regresión se ajusta bien a los datos. La gráfica residual no revela
ningún patrón.

Ciencias Exactas - UCB - Vivian Espinoza R. 42


El diagrama de dispersión muestra que la asociación no es lineal.
La gráfica residual revela un patrón diferente.

Ciencias Exactas - UCB - Vivian Espinoza R. 43


§ El diagrama de dispersión muestra la variación creciente de los puntos,
alejándose de la recta de regresión.
§ La gráfica residual revela este patrón: de izquierda a derecha los puntos están más
dispersos. (Esto va en contra del requisito de que, para diferentes valores de x, las
distribuciones de los valores de y deben tener la misma varianza).

Ciencias Exactas - UCB - Vivian Espinoza R. 44


§ El error estándar del estimado, denotado por Se, es una medida de las
diferencias (o distancias) entre los valores muestrales observados de y y los
valores predichos yˆ que se obtienen por medio de la ecuación de regresión. Está
dado por :

Ciencias Exactas - UCB - Vivian Espinoza R. 45


§ El cálculo del error estándar del estimado se se asemeja mucho al de la desviación
estándar ordinaria. Así como la desviación estándar es una medida de la
desviación de los valores a partir de su media, el error estándar del estimado Se
es una medida de la desviación de los puntos de los datos muestrales a partir de
su recta de regresión.
§ Solo que la división se hace entre n – 2, y es similar a la lógica que condujo a la
división entre n - 1 para la desviación estándar ordinaria.
§ Es importante señalar que valores relativamente pequeños de Se reflejan puntos
que están cercanos a la recta de regresión, y los valores relativamente grandes se
presentan cuando hay puntos que se alejan de la recta de regresión.

Ciencias Exactas - UCB - Vivian Espinoza R. 46


Ciencias Exactas - UCB - Vivian Espinoza R. 47
§ Una ecuación de regresión múltiple expresa una relación lineal entre una
variable de respuesta y y dos o más variables de predicción (x1, x2, …, xk). La
forma general de una ecuación de regresión múltiple es
§ yˆ=b0 +b1x1 +b2x2+…+bkxk.

§ Múltiple con 2 variables independientes: !" = $ + &'( + )'*

∑, -, = ./ + 0 ∑, 12, + 3 ∑, 14, (1)


∑, 12, -, = / ∑, 12, + 0 ∑, 12, 4 + 3 ∑, 12, 14, (2)
∑, 14, -, = / ∑, 14, + 0 ∑, 12, 14, + 3 ∑, 14, 4 (3)

Ciencias Exactas - UCB - Vivian Espinoza R. 48


Ciencias Exactas - UCB - Vivian Espinoza R. 49
§ R2 denota el coeficiente múltiple de determinación, que es una medida de lo
bien que se ajusta la ecuación de regresión múltiple a los datos muestrales.
§ R2 tiene una grave desventaja: a mayor número de variables incluidas, R2 se
incrementa.
§ A causa de esta desventaja, la comparación de diferentes ecuaciones de regresión
múltiple se logra mejor con el coeficiente ajustado de determinación, que es R2
ajustada para el número de variables y el tamaño de la muestra.

Ciencias Exactas - UCB - Vivian Espinoza R. 50


§ El coeficiente ajustado de determinación es el coeficiente múltiple de
determinación R2 modificado para justificar el número de variables y el tamaño de
la muestra. Se calcula por medio de la fórmula:

Ciencias Exactas - UCB - Vivian Espinoza R. 51


§ Para este ejemplo no utilizaremos la variable: Intervalo previo.
§ Y = Duración (s)
§ X1 = Intervalo posterior (m)

§ X2 = Altura (pies)

Ciencias Exactas - UCB - Vivian Espinoza R. 52


Ciencias Exactas - UCB - Vivian Espinoza R. 53
Ciencias Exactas - UCB - Vivian Espinoza R. 54
§ Si una ecuación de regresión múltiple se ajusta bien a los datos muestrales, se
puede emplear para hacer predicciones.
§ Si determinamos que la ecuación es adecuada para hacer predicciones, y tenemos
una erupción con una duración de 180 segundos y una altura de 130 pies,
podemos predecir el intervalo posterior a la erupción sustituyendo esos valores
en la ecuación de regresión, para obtener una duración predicha de 76.5 minutos.
§ Además, los coeficientes b1= 0.245 y b2=-0.098 pueden emplearse para
determinar el cambio marginal.
§ Por ejemplo, el coeficiente b1 = 0.245 indica que, cuando la altura de una
erupción permanece constante, el intervalo posterior a la erupción predicho
aumenta 0.245 minutos por cada incremento de un segundo en la duración de la
erupción.

Ciencias Exactas - UCB - Vivian Espinoza R. 55


§ El valor de R2 de 86.7% indica que el 86.7% de la variación de los intervalos
posteriores a las erupciones puede explicarse por la duración x1 y la altura x2, pero
cuando comparamos esta ecuación de regresión múltiple con otras, es mejor utilizar la
R2 ajustada de 81.3% (o 0.813).
§ El valor P de 0.007 de los resultados es pequeño, lo que indica que la ecuación de
regresión múltiple tiene una buena significancia general y es útil para hacer
predicciones. Tiene sentido predecir intervalos posteriores a las erupciones con base
en las duraciones y las alturas de las erupciones.
§ Al igual que R2 ajustado, este valor P es una buena medida de qué tan bien se ajusta la
ecuación a los datos muestrales.

Ciencias Exactas - UCB - Vivian Espinoza R. 56


57

Ciencias Exactas - UCB - Vivian Espinoza R.

También podría gustarte