Está en la página 1de 15

Correlación, Covarianza y

Regresión lineal simple (R.L.S)


Covarianza
En una muestra de tamaño n con observaciones (x1, y1), (x2, y2), etc.,
la covarianza muestral se define como sigue:
Coeficiente de Correlación
muestral
Coeficiente de Correlación
muestral
Es una medida numérica de la fuerza de la relación lineal
entre dos variables. Este coeficiente se denota con r.
-1 ≤ r ≤ 1

La correlación no es causalidad

Correlación Cero (0) no implica independencia


Coeficiente de Correlación
El coeficiente de correlación permanece
constante en cada una de las siguientes
situaciones.
• Multiplicar cada valor de una variable por
una constante positiva
• Sumar una constante a cada valor de una
variable
• Intercambiar los valores x y y.
Modelo de Regresión Lineal
La recta de mínimos cuadrados

y = βo + β1X + ε

Y = variable dependiente
X = variable independiente
ε = componente del error aleatorio
βo= (Beta cero) ordenada al origen de la línea, es decir, el
punto en el que la línea intercepta o corta el eje y
β1= (Beta 1) pendiente de la línea, es decir magnitud del
incremento (o decremento) del componente
deterministico de y por cada unidad de incremento en x
Coeficientes del modelo
_ _
∑ (xi-x)(yi-y)
β1= -----------------
_
∑ (xi-x)2

∑ (xi * yi) – (∑xi * ∑y)/n


β1= --------------------------------
∑ xi2 - (∑xi)2 / n

_ _
βo= y - β1x
Coeficiente de Determinación
SSR
R2 = ---------
SST
^ _
SSR = ∑ (yi – y)2 Suma de cuadrados debido regresión
^
SSE = ∑ (yi – y)2 Suma de cuadrados debido al error

SST = SSR + SSE Suma de cuadrados totales


0 ≤ R2 ≤ 1
^ _
∑ (yi – y)2
Error estándar = -------------
n – (k + 1)
Supuestos respecto a ε
• Los errores εi son aleatorios e independientes.
• La media de la distribución de probabilidad de ε
es 0
• La varianza de la distribución de probabilidad de
ε es constante para todos los valores de la
variable independiente x (los incumplimientos
moderados de este supuesto no importa
demasiado, pero se deben corregir los graves)
• Los εi están distribuido normalmente (si n
grande este supuesto el menos importante)
Regla empírica sobre la relación
nyp
Como una guía empírica puede decirse que si existen aproximadamente 10
datos por cada parámetro que se desea estimar en el modelo el valor del
coeficiente de determinación que se calcule es confiable (creíble).

En general el coeficiente de determinación puede ajustarse de acuerdo con la


relación del número de datos al número de parámetros, para encontrar el valor
confiable del coeficiente de determinación, para un valor específico de n y p.
Aquí se da origen al llamado coeficiente de determinación ajustado (o
corregido), el cual se presenta a continuación:

Coeficiente de determinación Ajustado:

(n – 1)
R2A = 1 - --------- * (1 - R2) p: # de parámetros
(n – p)
Análisis de Varianza (ANOVA) para R.L.S
En el análisis de varianza se deducen varios resultados que determinarán
que tan bueno es el modelo de regresión encontrado con los datos.
Prueba de Hipótesis: Ho: β1 = 0 Ha: β1 ≠ 0
Promedio
Fuente de Grados de Suma de de los Valor P = Valor Variación
explicada por
Variación Libertad Cuadradros cuadrados F crítico de F
la regresión
2
Regresión 1 SSR SSR / 1 f = SSR / S P(F< f )
Variación No
Error (residuo) n-2 SSE SSE / (n-2) explicada por
la regresión
Total n-1 SST
Variación
Total
^ _
SSR = ∑ (yi – y)2 Suma de cuadrados debido regresión

^
SSE = ∑ (yi – y)2 Suma de cuadrados debido al error

SST = SSR + SSE Suma de cuadrados totales


Análisis de Varianza (ANOVA) para R.L.M
En el análisis de varianza se deducen varios resultados que determinarán
que tan bueno es el modelo de regresión encontrado con los datos.
Prueba de Hipótesis: Ho: βi = 0 Ha: βi ≠ 0

Valor P = Variación
Fuente de Grados de Suma de Promedio de los Valor
explicada por
Variación Libertad Cuadradros cuadrados F crítico de F
la regresión
Regresión k SSR MSR=SSR / k F = MSR / MSE P(F< f )

Error (residuo) n-(k+1) SSE MSE = SSE / (n-(k+1))


Variación No
Total n-1 SST explicada por
la regresión

Variación
Total
^ _
SSR = ∑ (yi – y)2 Suma de cuadrados debido regresión

^
SSE = ∑ (yi – y)2 Suma de cuadrados debido al error

SST = SSR + SSE Suma de cuadrados totales


Valor p ó nivel de significancia
observado o valor crítico
El valor p mide la factibilidad de Ho. Entre menor
sea el valor p, más fuerte será la evidencia en
contra de Ho. Si el P-valor o valor p es
suficientemente pequeño, se puede estar dispuesto
a abandonar la suposición de que Ho es verdadera
y creer, en su lugar, que Ha es verdadera. Lo
anterior se llama rechazar la hipótesis nula.
Qué tan pequeño debe ser el valor P con la
finalidad de rechazar la Ho? Algunas personas
usan la regla del 5%; ellas rechazan Ho si el valor
p ≤ 0.05. Sin embargo no hay ninguna justificación
científica para ésta o cualquier otra regla.
Bibliografía

• Anderson, Sweeney, Williams. Estadística


para administración y economía, Thomson
2008, décima edición, México
• Arroyo Alonso, Estadística con aplicaciones a
la Ingeniería y a la Administración
Aeronáutica, Escuela Militar de Aviación
Marco Fidel Suárez. Cali, Colombia 2007
• Navidi William. Estadística para Ingenieros y
Científicos. Mc Graw Hill, México 2006

También podría gustarte