Está en la página 1de 9

ANÁLISIS DE REGRESIÓN Y

CORRELACIÓN
Todos los días se toman decisiones personales y profesionales basadas en predicciones
de sucesos futuros. Para hacer estas predicciones, se basan en la relación (intuitiva o
calculada) entre lo que se sabe y lo que se debe estimar. Si se puede determinar como lo
conocido se relaciona con el evento futuro, puede ayudar considerablemente al proceso
de la toma de decisiones (relación entre variables)

Diagramas de Dispersión
Para determinar si existe relación entre dos variables se debe examinar la gráfica de los
datos observados. Esta gráfica o es quema se llama diagrama de dispersión.
Un diagrama de dispersión nos puede dar dos tipos de información. Visualmente
podemos buscar patrones que indiquen que las variables están relacionadas. Entonces, si
esto sucede, podemos ver que tipo de línea o ecuación de estimación, describe esta
relación.

Regresión
Es un método estadístico que investiga y define la relación funcional entre dos más
variables
Y = f (x)
La Regresión y los análisis de correlación se basan en la relación o asociación, entre dos
o más variables. La(s) variable(s) conocida(s) se llaman variables independientes. La
variable que trataremos de predecir es la variable independiente. Solo podemos tener
una variable dependiente en nuestra ecuación de estimación. Sin embargo, podemos
usar más de una variable independiente. A menudo cuando añadimos variables
independientes, mejoramos la exactitud de nuestra predicción

AJUSTE DE UNA FUNCIÓN DE REGRESIÓN.


Ajustar una función de regresión significa buscar o definir la función que exprese con
mayor precisión la relación entre variables. Gráficamente será aquella función que
mejor se adecue a la nube de puntos. En este sentido, es recomendable como primer
paso construir el diagrama o nube de puntos, luego analizar su forma y deducir el tipo
de función matemática para la línea de regresión.
Cada una de estas funciones tiene una forma particular para un conjunto determinado de

En el ajuste de funciones de regresión simple, se pueden utilizar diversas funciones


matemáticas conocidas, tales como:

a) Línea recta Y= a + bx
b) Parábola cuadrada Y= a + bx + cx2
c) Parábola cúbica Y= a + bx + cx2 + dx3
d) Curva potencial o geométrica Y= b xa
e) Curva potencial modificada Y= k + b xa
x
f) Curva exponencial Y= ab
g) Curva exponencial modificada Y = k + a bx
h) Hipérbola Y=
1
a  bx
i) Hipérbola equilátera Y=
a
x
j) Hipérbola modificada Y=
k
a  bx
1
a  bc x
k) Curva logística Y =

k
1  10a  bx
l) Curva logística modificada Nº 1 Y=

1
m) Curva logística modificada Nº 2 Y= x
k  ab
x
n) Curva Gompertz Y= c
ab

EL MÉTODO DE LOS MÍNIMOS CUADRADOS

Uno de los criterios para lograr esta minimización es el método de los mínimos
cuadrados, que establece “que la mejor curva posible es aquella que minimiza la suma
de los cuadrados de las desviaciones entre los puntos dados Y y los puntos
correspondientes a dicha curva Y*”
d1 = Y1 - Y*
d2 = Y2 - Y*
... ...
dk = Yk - Y*
mín. Σ d = mín. Σ (Yi - Y*)
La mejor curva de ajuste, de todas las curvas es aquella que tiene la propiedad de que:
2 2 2 2 Sea mínimo
d1  d2  d3  ...  dk
2
Mín. ∑ d = mín. ∑ (Yi - Y*)2
i
Y

Y*
d1
dk
LA RECTA

MÉTODOS DE LOS MÍNIMOS CUADRADOS

LÍNEA DE REGRESIÓN Y=A+BX

ECUACIONES NORMALES (1) Y =AN + B X


(2)  XY = A  X + B  X 2

Donde:

2
N XY   X Y  X  Y   X Y
A
 
= 2
  X
B 2
=
N X
2

2 N X   X

A= Y B  X
N N

MÉTODO ABREVIADO

Sea: y=Y- Y → Y=y+ Y x=X- X → X=x+ X


Reemplazando en las fórmulas de “A” y de “B” se obtienen:

B=
 xy y=Bx → Y - Y = B (X - X )
x
2

COEFICIENTE DE CORRELACIÓN
2
S * : Varianza explicada (parte de la
2 y
S * varianza total de Y explicada por la
R= y línea de regresión )
2 2
Sy Sy : Varianza total ( corresponde a
los valores observados de Y )

Varianza total = Varianza explicada + Varianza no explicada


2 2
S * 2
Sy =
y
+ Syx

 yy 2 = 
 y*y  2
+ 
 y  y* 
2

Remplazando:
2

 y * y 2 Syx
R2 n R2 = 1-
2
 
= 2 Desarrollando se obtiene
 y-y Sy
n

2
ay  bxy  n y
R2 = 2
 y2  n y

La fórmula producto –momento de Pearson (simetría entre X e Y)

R =
nxy  xy
n x 2  x  2 n y2  y  2
Si se utilizan x = X- X ^ y=Y- Y

xy
R=  x2  y
2

PROPIEDADES
1.- El rango de variación de r es de –1 a +1
-1≤ R ≤ 1
2.-Si R > 0, existe correlación directa o positiva
3.-Si R < 0, existe correlación inversa o negativa
4.-Si R2 = 0, los datos son incorrelacionables; es decir, que no hay afinidad entre
variables

(2) (3) (4)


5.-Si R2 = 1, los datos forman una línea recta (correlación rectilínea)
6.-Si R = + 1, la correlaciones perfecta positiva
7.-Si R = - 1, la correlación es perfecta negativa

(5) (6) (7)

8.-El signo de “R” es el mismo que el signo de “b” (coeficiente angular) de la ecuación
de regresión y = a + b x

NOTA:
En la interpretación clásica del coeficiente de correlación se sostiene que si:
▪ 0 ≤ R ≤ 0.20 , existe correlación no significativa
▪ 0.20 ≤ R ≤ 0.40 , existe una correlación baja
▪ 0.40 ≤ R ≤ 0.70 , existe una significativa correlación
▪ 0.70 ≤ R ≤ 1.00 , existe alto grado de correlación.
Sin embargo estos valores resultan arbitrarios, puesto que dependerá de la naturaleza del
problema que se investiga.

COEFICIENTE DE DETERMINACIÓN: R2, r2,

Es la proporción de la variación total en la variable dependiente que


la explica la variable independiente. Puede tomar cualquier valor
entre 0 y 1, inclusive. Un coeficiente de 0.82 indica que el 82 % de
la variación en y se debe a x.

ERROR ESTÁNDAR DE ESTIMACIÓN: SYX

Llamado también desviación estándar de regresión, es una medida de esparcimiento,


que mide la variabilidad o dispersión de los valores alrededor de una línea de regresión,
que sirve para medir la confiabilidad de la ecuación de estimación.
Para la recta de regresión Y* = a + b x el ERROR ESTÁNDAR DE ESTIMACIÓN
de Y sobre X será:

  y  y *
2
SYX =
n

Calcular el error estándar S a partir de la definición resulta muy laboriosa, puesto que se
requiere conocer los valores estimados Y*. Existe una fórmula alternativa a partir de la
definición, donde se sustituyen el valor Y* = a + b X
  y  a  bx 
2
SYX =
n

Desarrollando:
2
SYX =  y  a y  b xy (1)
n
2
S YX = se denomina varianza residual de Y sobre X
Algunos autores utilizan como denominador: n-1, n-2,…

El error estándar de estimación o de regresión cumple las mismas propiedades de la


desviación estándar, la diferencia está en que el error estándar de regresión mide la
dispersión de los valores alrededor de la línea de regresión y la desviación estándar
alrededor de la media aritmética. Ahora, suponiendo que Y se distribuye normalmente,
al construir las rectas paralelas a ambos lados de la línea de regresión a una distancia
proporcional a S se definen franjas o intervalos.
En los intervalos:
Y* ± SYX , se encuentra el 68.3 % de los valores reales Y
Y* ± 2 SYX, se encuentra el 95.5 % de los valores reales Y
Y* ± 3 SYX, se encuentra el 99.7 % de los valores reales Y
Para un intervalo de confianza del 95 % aproximadamente, se toma como
LÍMITES DE CONTROL (LC) a:
LC = Y* ± z SYX

Z≈ 2 LC = Y* ± 2 SYX

LIC: Límite Inferior de Control LIC = Y* - z SYX

LSC: Límite Superior de Control LSC = Y* + z SYX

MÉTODO ABREVIADO

Si en la fórmula (1) se remplaza:

x = X- X  X = x + X ^ y=Y- Y  Y =y + Y

se obtiene:

2
2
S yx =  y  b xy
n
LA FUNCIÓN POTENCIAL

La curva de regresión potencial se construye a partir de la función potencial, cuya


ecuación es:

Y = b Xa
Si utilizamos logaritmos, esta función se asemeja
a la función lineal
Log Y* = Log b + a Log x

Los parámetros serán: Log b y a


ECUACIONES NORMALES:

Σ Log Y = n Log b + a Σ Log X


Σ Log X Log Y = Log b Σ lóg. X + a Σ (Log X) 2

Despejando para calcular a y Log b

a= Log b =
n Logx.Logy   Logx. Logy  Log.y  a Log.x
n
 Log.xESTÁNDAR
nERROR    Log.x
2
  2
DE ESTIMACIÓN

2 =   Log.y Log.y *  2
Syx n

Resolviendo y aplicando propiedades: lóg. Y* = Log b + a Log x

2
Syx =

  Log.y  Log.b. Log.y  a Log.x.Log.y


2

n
Coeficiente de correlación: R

a Logx.Logy  Log.b. Log.y  n Logy 


2
R2 =
  Logy   n Logy 
2 2
FUNCIÓN EXPONENCIAL
La curva de regresión exponencial se determina a partir de la función exponencial de la
forma:
Y= abX
Con los parámetros a y b
Esta función se utiliza cuando se quiere calcular
tasas de crecimiento, considerando todos los
puntos observados durante un periodo,
aquí se supone que existe un crecimiento no lineal
de tipo geométrico
Observamos además que la ecuación

Y= abX
De la misma manera que la función potencial, aplicamos logaritmos para transformar la
función exponencial original en forma logarítmica:

Log Y* = Log a + X Log b parámetros: Log a y Log b

ECUACIONES NORMALES

Σ Log Y = n Log a + Log b ΣX


Σ X lóg. Y = Log a Σ X + Log b Σ X2

Log b = Log a =
n xLogy   x Logy  Logy  Logb x
n
 x de  x
2 2
n  2
Error Estándar Estimación: S yx

  Logy   Loga Logy  Logb xLogy


2
2
Syx =
n

Coeficiente de Correlación: r

R2 =
Logb xLogy  Loga  Logy  n Logy  2
  Logy   n Logy
2
 2

También podría gustarte