Está en la página 1de 7

Regresión Lineal y Correlación

1. Ecuación lineal simple

Si tenemos dos variables como X e Y, y estas están relacionadas tal


que Y = 3 + 1.5 X; esta relación nos permite calcular cualquier valor de
Y dado un valor de X. Además nos describe el efecto de un cambio en
la variable X en los valores que toma Y. Específicamente el coeficiente
de X indica el cambio en el valor de Y originado por el cambio en una
unidad de X.
En nuestra ecuación Y varía en 1.5 unidades cuando X varia en una
unidad.
En este caso Y aumente cuando X aumenta, por lo que se dice que
están relacionadas directamente.
Si tenemos una ecuación como Y = 100 - 25 X, el valor de Y disminuirá
en 2 unidades por cada unidad que aumente X; luego en este caso
diremos que X e Y están relacionadas inversamente.

El signo del coeficiente nos indica el tipo de relación que existe entre las
variables.

Y = 3 + 1.5X Primer Grado


Y = 3 + 2X + 4X2 Segundo Grado
3
Y = 3 + 7X + 5X Tercer Grado
Las ecuaciones anteriores tienen diferentes grados, los que dependen
del mayor exponente incluido en la ecuación, pero todas son
ecuaciones simples pues ellas solo expresan una relación entre dos
variables.
Si tuviéramos una ecuación tal como Y = 3X + 8Z, esta expresa una
relación entre más de dos variables (X, Y, Z ) y se llama una ecuación
múltiple.
Ecuaciones simples se representan por Diagramas de dispersión.
Una ecuación con la forma genérica Y = a + b X, que es una ecuación
simple de primer grado y su representación gráfica es una recta, se le
denomina ecuación lineal simple.

2. Regresión lineal simple

La finalidad del análisis de regresión simple es establecer una


relación cuantitativa (ecuación) entre dos variables relacionadas.
Una vez hecho esto podemos predecir valores de una variable en base
a los valores conocidos de otra.
La variable cuyo valor se predice se denomina variable dependiente y
se designa con la letra Y.
La variable conocida se llama variable independiente y se designa con
la letra X. Para establecer esta relación entre X e Y es necesario contar
con información muestral. Esta información es un conjunto de pares de
observaciones de X e Y; cada par pertenece a un elemento de la
muestra.
Una vez recopilados los datos necesarios, la relación entre variables
puede establecerse gráficamente o matemáticamente (mínimos
cuadrados).
Tenemos la siguiente información recolectada referida a la altura
que alcanza una muestra de plantas versus la edad de las mismas.

Altura cms. 9 5 7 14 10
Edad meses 3 1 2 5 4

3. Métodos de cálculo

a. Gráfico
Cada par de observaciones representa un punto en el diagrama.
La variable independiente X se gráfica en el eje horizontal y la dependiente
Y en el eje vertical.
A este diagrama se le conoce con el nombre de Diagrama de dispersión
o puntos. Una vez graficados todos los puntos, trazamos una recta que
trate de unirlos (relacionarlos) a todos; a esta recta se le conoce con el
nombre de recta estimada de regresión (Y'), Esta recta nos permitirá
predecir el valor de Y para cualquier valor de X. Este método es simple y
directo.
Su principal inconveniente es la naturaleza subjetiva del procedimiento,
existirán diferentes rectas dependiendo de las personas que la
confeccionen

b. Matemático o de los mínimos cuadrados


Sabemos que la ecuación genérica de una recta es:
Y = a + bX (Ecuación de regresión)
Este método nos permitirá hallar las constantes a y b que se
denominan coeficientes de regresión.
Para hallar estos coeficientes también nos Pasamos en los pares
observados con los cuales se llevan a cabo los siguientes cálculos
preliminares:

n Y X Y2 X2 XY
1 9 3 81 9 27
2 5 1 25 1 5
3 7 2 49 4 14
4 14 5 196 25 70
5 10 4 100 16 40
ΣY=45 ΣX=15 ΣY2=451 ΣX2=55 ΣXY=156

La siguiente etapa consiste en estas Σ en las llamadas ecuaciones


normales:

Donde n es el número de pares observados empleados en el


cálculo de la regresión, a y b son los coeficientes de regresión,
remplazando los datos podemos construir un sistema de
ecuaciones con dos incógnitas:
45 = 5a+15b (1) *(-3)
156= 15a + 55b (2)
Resolviendo el sistema (1) y (2)
b = 2.1
Remplazando en (1)
a = 2.7

Remplazando los coeficientes a y b en la ecuación de regresión


tenemos: Y=2.7 + 2.1X

El cálculo de los coeficientes se podrá efectuar de manera


abreviada, es decir sin tener que construir un sistema de
ecuaciones, empleando una variación de las ecuaciones normales,
las que se verán el la parte final de este capítulo.

Es conveniente efectuar una distinción entre el valor observado y


el valor estimado de Y.

El primero se refiere a la observación efectiva (hecho o dato real)


mientras que el segundo se refiere a un valor hallado o calculado
en base a los datos observados y a la ecuación de regresión (valor
estimado).

Estos dos valores pueden no ser iguales.


Para evitar confusiones se designa con la letra Y a los valores
observados y con Y’ a los valores estimados, quedando la ecuación
de la siguiente forma: Y’ = 2.7 + 2.1X

La diferencia la podemos apreciar en el siguiente gráfico.

4. Error estándar de estimación

Designado por Syx, mide la disparidad promedio entre los valores


efectivos y estimados de la variable Y.

Empleando los datos de nuestro ejemplo tenemos:

N Y X Y’ (Y-Y’) (Y-Y’)2
1 9 3 9.0 0.0 0.00
2 5 1 4.8 0.2 0.04
3 7 2 6.9 0.1 0.01
4 14 5 13.2 0.8 0.64
5 10 4 11.1 -1.1 1.21
Σ(Y-Y’)2=1.90
Reemplazando en la fórmula: SYX = 0.80 cms.

SYX podemos considerarlo como un indicador del grado de precisión


con que la ecuación de regresión describe la relación entre variables.
Si SYX, es pequeño es una buena descripción de la relación entre las
variables, si se acerca a CERO entonces Y = Y' luego la relación es
exacta.
Si SYX es grande, hay una gran disparidad entre Y e Y', luego la
ecuación describe deficientemente la relación entre las variables. SYX se
mide en las mismas unidades que Y.
Al SYX no se le considera como una buena medida del grado de
relación entre los valores de las variables, pues es afectada por las
unidades en que se expresa.
Para determinar un adecuado grado de relación emplearemos el
coeficiente de correlación.

5. Coeficiente de Correlación (r) y Determinación (r2)

De nuestro ejemplo, podemos calcular cuál es la altura promedio de las


observaciones ( ̅ )
̅ =9 cm.
La variación en las alturas se mide calculando la suma de las
diferencias cuadráticas (a semejanza de una varianza), es decir
( ̅ ) , a esta variación se le denomina variación total.

Esta variación total puede deberse a muchos factores, luego


separaremos a la variación total en variación explicada (altura - edad)
y en variación no explicada (otros factores). La variación explicada es
la suma de las diferencias cuadráticas entre los datos estimados (Y’) y
el promedio ( ̅ ) ( ̅) .

La variación no explicada es la suma de las diferencias cuadráticas


entre los datos observados (Y) y los estimados ( ) ( ) .
Gráficamente:
Efectuando los cálculos:
Y ̅ ( ̅) ( ̅) ( )
9 9 9 0 0.0 0.00
5 4.8 9 16 17.64 0.04
7 6.9 9 4 4.41 0.01
14 13.2 9 25 17.64 0.64
10 11.1 9 1 4.41 1.21
Σ=46 Σ=44.10 Σ=1.90

Variación total = Variación explicada + Variación no explicada

46 = 44.10 + 1.90

La razón o cociente de la variación explicada respecto a la total se


conoce con el nombre de coeficiente de determinación (r2).

( ̅)
( ̅)

En nuestro caso tendremos: r2 = 0.96.

Esto quiere decir que el 96% de la variación de la altura (Y) está


explicada por la variación de la edad de las plantas (X).

Si existiera una relación exacta entre las variables X e Y entonces la


variación no explicada sería CERO, es decir ( ̅) , luego la
variación explicada será igual a la variación total, lo cual nos da que r 2 =
1 , por tanto se puede decir que existe una correlación perfecta (r = 1),
por el contrario si las variables no se encontraran relacionadas entonces
la variación explicada seria CERO, es decir ( ̅) , luego r2 = 0.

El coeficiente de correlación es la raíz cuadrada del coeficiente de


determinación (r2). Los valores de r van de 0 a 1 , pero pueden ser
positivos o negativos, lo que indica si las variables se encuentran
relacionadas directamente o indirectamente, el coeficiente de
correlación tiene el mismo signo de b.

El coeficiente más significativo es r 2 , pues mide el porcentaje de la


variación de la variable dependiente Y que es explicada por la variación
de la variable independiente X.

6. Método abreviado de cálculo


Podemos hallar rápidamente los valores de a, b, Syx, y r siguiendo los
siguientes pasos
1. Hallar
N Y X Y2 X2 XY
1 9 3 81 9 27
2 5 1 25 1 5
3 7 2 49 4 14
4 14 5 196 25 70
5 10 4 100 16 40
ΣY=45 ΣX=15 ΣY2=451 ΣX2=55 ΣXY=156

2. Calcular ̅ e ̅

̅ ̅

3. Calcular Σy2, Σx2 y Σxy

∑ ∑ ( ̅) ∑ ∑ ( ̅) ∑ ∑ (̅̅̅̅)

4. Calcular b

5. Calcular a

̅ ̅

6. Calcular Sxy

7. Calcular r

También podría gustarte