Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresiony Correlacion
Regresiony Correlacion
Regresiony Correlacion
de correlacin
lineal ?
Ejemplos
450
400 Relacin Inversa
r = -0.812
350 fuerte
300
Costo
250
200
150
100
50
0
0 10 20 30 40 50 60 70
Temp
Aislante trmico vs. Costo.
450 r = -0.257
Relacin Inversa
400 dbil
350
300
Costo
250
200
150
100
50
0
0 2 4 6 8 10 12 14
Aislante
Antiguedad del calefactor vs. Costo
250
200
150
100
50
0
0 5 10 15 20
Antiguedad
Tamao sala vs. Costo Relacin directa
r = 0.991
fuerte
450
400
aunque se
350
aprecia una
300
tendencia no
lineal
Costo
250
200
150
100
50
0
0 5 10 15 20 25
Tamao
4. Calcular un coeficiente de correlacin lineal r a partir de la muestra,
como aproximacin de la verdadera relacin lineal (rho) entre las
n xy x y
variables.
r
n x 2
x 2
n y 2
y 2
1 r 1
Interpretacin:
1. El valor absoluto de r indica la fuerza de la relacin entre Y y X.
2. El signo la direccin de la relacin (directa o inversamente proporcional)
(tener cuidado con relaciones espreas)
r=1 correlacin positiva perfecta.
r = -1 correlacin negativa perfecta.
r=0 no hay relacin lineal entre Y y X.
Si hay presencia de varias variables independientes, entonces podemos
agrupar todas las correlaciones en la Matriz de Correlaciones.
Costo Temp Aislante Antigedad
Costo 1.00
Aislante.
La correlacin de 0,257 es baja, as que no existe relacin lineal entre las
variables.
Antigedad.
Una correlacin de 0,512; es moderada, directamente proporcional, a mayor
antigedad del calefactor, mayor costo y viceversa.
Tamao de la sala principal.
Una correlacin de 0,991; es alta y directamente proporcional: A mayor tamao
de la sala, mayor costo de la calefaccin
5. Prueba de Hiptesis para analizar si las correlaciones son
significativamente diferentes de cero.
H 0 : 0
H 1 : 0
Las correlaciones que son significativas aparecen reflejados en el
clculo de la matriz de correlaciones
Costo Conclusin Parcial:
.444 critical value Seleccionamos
.05 (two-tail) a
Costo 1.000 las variables Temperatura
.561 critical y Tamao
value .01 (two-tail)
Temp -.812 para continuar el anlisis acerca del
Esto quiere decir que la correlacin de -,812 entre
Aislante -.257 Costo.
Temperatura y Costo y la de ,991 entre Tamao y
Antigedad .537 Costo es significativa si consideramos un nivel de
confianza del 99% ( = 0,01) si bajamos el nivel de
Tamao .991
confianza a un 95% ( = 0,05), tambin es
significativa la relacin de ,537 entre Antigedad y
Costo.
Qu es el anlisis
de regresin lineal
?
Constante de
regresin Coeficiente de
regresin
Interpretacin de la pendiente:
Cunto cambia la variable dependiente Y, por cada unidad que vare la
variable independiente X.
Estimacin de los parmetros: Mtodo de los mnimos cuadrados.
La recta de regresin hace mnimos los cuadrados de las distancias verticales
desde cada punto de una observacin a la recta.
Yi es un valor observado real de la variable Y
a 0 y a1x
Aplicamos MegaStat para realizar el Anlisis de Regresin
Y marcamos en la nueva ventana las
MegaStat
opciones que aparecen en la pantalla
Correlation/Regresin siguiente que nos mostrarn todas las
salidas que son de nuestro inters para el
Regresin Anlisis anlisis de regresin
Salida
r 0.659
Adjusted r 0.640
r -0.812
Std. Error 63.553
20 observations
1 predictor variable
Costo is the dependent variable
Salida
ANOVA table
Source SS df MS F p-value
Regression 140,214.9411 1 140,214.9411 34.72 1.41E-05
Residual 72,700.8089 18 4,038.9338
Total 212,915.7500 19
Regression output confidence interval
variables coefficients std. error t (df=18) p-value 95% lower 95% upper
intercept 388.8020 34.2408 11.355 1.22E-09 316.8646 460.7393
Temp -4.9342 0.8374 -5.892 1.41E-05 -6.6936 -3.1748
Recta de regresin estimada
Y 388,8020 - 4,9342X
Esta es la ecuacin de la recta de regresin pintada en el diagrama
de dispersin, que fue mostrada anteriormente
Note que la pendiente -4.9342 tiene signo negativo, lo cual refleja que la
relacin es inversa, anlogo al signo del coeficiente de correlacin
(-.812).
Y Y
2
Se y sobre x
n - k -1
Si se trabaja con una recta, se puede calcular el error mediante
Se y sobre x
a 0 y a 1 xy
y 2
n2
En nuestro
Mientrasejemplo el error
ms grande seaestndar
el error de estimacin
estndar de la que se comete
estimacin, al usar
mayor serlala
recta para estimar
dispersin el puntos
de los costo esalrededor
de 63,553de$la lnea de regresin
c. Clculo del Coeficiente de Determinacin
Mide el poder explicativo del modelo de regresin, es decir, la
parte de la variacin de Y explicada por la variacin de X
El valor de r2 ha de estar entre 0 y 1, si r2 = 0,70 significa que el 70%
de la variacin de Y est explicada por las variaciones de X. Es
evidente que cuanto mayor sea r2, mayor poder explicativo tendr
nuestro modelo.
En nuestro ejemplo
Si analizamos el valor del coeficiente de determinacin r = 0.659,
apreciamos que aproximadamente el 66% de la variabilidad del
costo esta determinado por la variabilidad en la Temperatura
exterior.
d. Prueba de Hiptesis para analizar si la pendiente es significativa
H 0 : 1 0
H1 : 1 0
Para tomar una decisin podemos comparar el valor de un estadstico con
un percentil, o utilizar un criterio equivalente, usado en los paquetes de
Estadstica: Comparar el p-valor con el nivel de significacin
Regla de Decisin: Rechazar Ho si p <
En el ejemplo p = 1.41E-05 < 0.05, as que rechazamos H0 por lo que el
valor de la pendiente es significativamente diferente de cero.
x
2
n 2
nx
e.3) Clculo del Intervalo de Confianza para el Costo Promedio de todos
los apartamentos, para una temperatura dada.
Se desea calcular una estimacin por Intervalo, del costo promedio de la
calefaccin de todos los apartamentos considerados en los que la
temperatura es de 35 grados. Aqu calculamos un intervalo de confianza.
150,0
0,0
concluirse que los residuos
-50,0
tienen una distribucin
-100,0 aproximadamente normal.
-150,0
-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0
Normal Score
b. La variabilidad de los residuos y - no vara en dependencia del
valor estimado
Esto lo apreciamos en el grfico de los residuos. En este caso nuestro valor
estimado , es el costo estimado
Efectivamente se observa un
Residuals by Predicted Costo
comportamiento aleatorio de los
190,7 residuales
Residual (gridlines = std. error)
-63,6
-127,1
0 100 200 300 400
Predicted Costo
Un anlisis anlogo podemos realizar para analizar la relacin entre el Tamao
de la sala principal y el costo del calefactor, dado que la correlacin obtenida
es alta: 0,991. Sin embargo el anlisis seria muy similar, excepto algo muy
importante que es el anlisis de los residuales.
Veamos los grficos
a. Grafico de Probabilidades Normales
10,0
0,0
-10,0
-20,0
-3,0 -2,0 -1,0 0,0 1,0 2,0 3,0
Normal Score
b. Grfico de los valores estimados vs. Residuos.
Esto
En significa
este caso losque no ess
residuos
Residuals by Predicted Costo
valido el variacin
muestran modelo de en
regresin realizado
dependencia de los valores
44,4 previamente.
estimados Las vemos
del costo,
Residual (gridlines = std. error)
29,6
consecuencias
que de no
valores muy pequeos
orealizar este
muy altos anlisis es
tienen
14,8 que las estimaciones
variabilidad mayor que los de
0,0 los estn
que coeficientes
alrededor dede
la un
regresin
costo pueden
de 200, nono
es decir ser
-14,8
adecuados
hay y las
un comportamiento
-29,6 predicciones pueden ser
aleatorio.
0 100 200 300 400 incorrectas.
Predicted Costo