Está en la página 1de 26

CORRELACIÓN Y REGRESIÓN

Profesor: Machicao Bejar Nilton


ESTADÍSTICA APLICADA
Coeficiente de correlación lineal
(Pearson)
Mide el grado de relación entre dos variables

r
 xy  nxy 1  r  1
  x  nx   y
2 2 2
 ny 2 
SCX   x 2  nx 2
SPXY SCY   y 2  ny 2
r
O

SCX SCY SPXY   xy  nyx

r = -1 Si –1< r < -0.8  Correlación negativa intensa


Correlación negativa perfecta Si –0.2 < r < 0  Correlación negativa débil
Si 0 < r < 0.2  Correlación positiva débil
r= 1
Correlación positiva perfecta Si 0.8 < r < 1  Correlación positiva intensa
Ejemplo 1:
Se desea saber si el ingreso y el gasto de las familias
de cierto distrito están relacionadas o no. Por lo que
se toma una muestra de 10 familias y se registra su
ingreso y gasto (en miles de soles). Los datos son:

Familia 1 2 3 4 5 6 7 8 9 10
Ingreso 3,4 1,9 6,4 5,56 2,5 3,59 1,5 4,57 4,3 2,9
Gasto 3 1,6 5,87 4,6 2 3,67 1,25 4,5 4 2,7
 Diagrama de dispersión: Gráfica que presenta la
relación entre dos variables de interés.

Gráfico de dispersión
entre el ingreso y el gasto
7

6
Gasto (miles de soles)

0
0 1 2 3 4 5 6 7
Ingreso (miles de soles)
REGRESIÓN
LINEAL SIMPLE
ESTADÍSTICA
Regresión Lineal Simple
Técnica estadística que nos lleva a encontrar una
ecuación que exprese la relación funcional (lineal-recta)
entre dos variables cuantitativas, donde una de ellas es la
variable respuesta (dependiente Y) y la otra es la variable
predictora (independiente X) con el objetivo de realizar
predicción.

El modelo poblacional el cual se pretende estimar es:

yi  0  1 xi  ei
Regresión Lineal Simple

yˆ b0 b1 x
La recta se estima como:

SPXY
b1  ;
SCX El coeficiente de regresión: es el

b0  y  b1 x cambio (aumento o disminución) en


promedio en Y cuando X varía en
Interpretar b0 una unidad.
Ejemplo 2: Usando los datos del ejemplo 1

b1 
 xy  nxy

0.9264
0.0736
 x  nx
2 2

bo  y  b1 x  0.9264
-0.0736

yˆ  b0  b1 x  0.0736  0.9264 x
Interpretación del coeficiente de regresión:

Si el ingreso de una familia aumenta en mil soles, en promedio el


gasto aumentará en 926.4 soles, ¿Qué significa b0?
Error estándar de la estimación

Se 
  b0  y  b1  xy
y 2

 CME
n2

Mide la variabilidad de los puntos alrededor de la línea de


regresión estimada.
Coeficiente de Determinación

 Mide el porcentaje de variación de la variable Y


(dependiente) explicado por X (variable independiente).

0 < R2 < 1

SC Re g
R 2

SCT
Prueba de Significancia del Modelo o
Validación del modelo
 ¿Es el modelo significativo?, ¿El modelo es válido? ¿X influye en Y?

1. Hipótesis: II. Estadístico de Prueba:

H o : 1  0 b1 Se
tc  ~ tn  2  Sb1 
H1 : 1  0 Sb1 SCX
III. Decisión:
No Rechazar Ho: El modelo no es válido.

 t tab  t c  t tab
No hay relación lineal entre X e Y.

Rechazar Ho: El modelo es válido.


t c  t tab ó t tab  t c
Hay relación lineal entre X e Y.
MINITAB
Prueba de hipótesis para la pendiente
Hipótesis:
H 0 : 1  k H 0 : 1  k H 0 : 1  k
H1 : 1  k H1 : 1  k H1 : 1  k
Estadístico de Prueba:
b1  k
tc  ~ tn  2 
Sb1
Decisión:
tc  t n  2, / 2 ó
tc  tn 2,1 tc  tn 2,1
tc  t n  2,1 / 2
se rechaza Ho se rechaza Ho
se rechaza Ho
Intervalo de confianza para la
Estimación Media de Y dado X=x0
El propósito del intervalo de confianza para el valor medio de predicción es
ubicar entre qué valores se encuentra el valor promedio poblacional de Y
respecto a un valor dado de X, considerando un nivel de confianza o
seguridad
1 (x 0  x ) 2
IC(μ y/x0 )  (b 0  b1x 0 )  t 0Se 
n  x2  n x2

Intervalo de Predicción para X=x0


Ejemplo 2:
Para un 95% de confianza, estime el gasto promedio
para un ingreso de 1500 soles.

1 (x 0  x ) 2
IC(μ y/x0 )  (b 0  b1x 0 )  t 0Se 
n x  n x
2 2

Para un 95% de confianza, estime el gasto para un


ingreso de 1500 soles.
Regresión Lineal Múltiple
Estadística
Regresión Lineal Múltiple

 El objetivo básico del Análisis de Regresión Lineal


Múltiple es el de construir un modelo que permita
predecir o estimar el valor de una variable Y, en base
a un conjunto de variables X1, X2,....,Xk

 A la variable Y se le llama variable dependiente, y es


la que se quiere estimar o predecir.

 Las variables X1, X2,....,Xk son las variables


independientes o variables predictoras.
Modelo Estadístico
El modelo poblacional de regresión lineal múltiple,
con k variables independientes, es el siguiente:

Yi  β 0  β1X1  β 2 X 2  ...  β k X k  ε i
Donde:
βi : Son Parámetros desconocidos, llamados
coeficientes de regresión. (i =0,1,2,3,...,k)

ε1 : Son los errores del modelo, y se suponen


independientes y normalmente distribuidos
con media 0 y varianza σ 2
Modelo Estimado

A partir de una muestra aleatoria de n


observaciones multivariadas (yi ,xi1, xi2 ,...,xik ),
podremos hallar el modelo de regresión estimado
que tendrá la siguiente forma:
Ŷi  b 0  b1X1  b 2 X 2  ...  b k X k
donde:
bi : Son los estimadores de los coeficientes de
regresión β , i = 0,1,2,3,...,k
i

Estos coeficientes son calculados a partir del


método de los mínimos cuadrados.
Prueba global del modelo

Esta prueba permite determinar si el modelo es


significativo o no, para esto realizamos una prueba
de Análisis de Varianza, y las hipótesis a plantear
son las siguientes:

H0: 1 = 2 = .... = k = 0
(El modelo no es significativo)
H1: Al menos un i es diferente de cero
(El modelo si es significativo)
Para decidir sobre estas hipótesis se construye la
siguiente tabla de análisis de varianza (Tabla ANOVA)

Suma de Grados Cuadrado


Fuente de Valor
Cuadrados de Libertad Medio
Variación F
(SC) (GL) (CM)

Debido a la
Regresión SCReg k CMReg FC

Debido al
Error SCE n-k-1 CME

Total SCT n-1

Regla de decisión
Rechace Ho al nivel de significancia α si Fc > F(α, k,n-k-1)
De otro modo no rechace Ho
Ejemplo:
Pruebas Individuales
Estas pruebas permiten determinar si cada una de las
variables Xi (i=1,2,...,k), son significativas para el
modelo, las hipótesis a probar son:

H0: i = 0 (La variable Xi no es significativa)


H1: i  0 (La variable Xi si es significativa)

Donde i = 1,2, ..., k, es decir se aplica esta prueba a


cada una de la k variables independientes Xi .
T: Estadístico de prueba para una distribución t con
n-k-1 grados de libertad.
Ejemplo
Salidas del MINITAB