Está en la página 1de 21

REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE

Es común que las personas tomen decisiones personales y profesionales basadas en predicciones
de sucesos futuros. Para hacer estos pronósticos, se basan en la relación intuitiva y calculada entre
lo que ya se sabe y lo que se debe estimar. Si los responsables de la toma de decisiones pueden
determinar cómo lo conocido se relaciona con un evento futuro, pueden ayudar
considerablemente al proceso de toma de decisiones.

Cualquier método estadístico que busque establecer una ecuación que permita estimar el valor
desconocido de una variable a partir del valor conocido de una o más variables, se denomina
análisis de regresión.

Los análisis de regresión y correlación mostrarán como determinar la naturaleza y la fuerza de una
relación entre dos variables.

El término regresión fue utilizado por primera vez por el genetista y estadístico inglés Francis
Galton (1822-1911) en 1877 Galton efectúo un estudio que demostró que la altura de los hijos de
padres altos tendía a retroceder, o “regresar”, hacia la talla media de la población. Regresión fue
el nombre que le dio al proceso general de predecir una variable, (la talla de los niños) a partir de
otra (la talla de los padres).

Hoy en día, esta tendencia de miembros de cualquier población que están en una posición
extrema (arriba o debajo de la media poblacional) en un momento, y luego en una posición menos
extrema en otro momento, (ya sea por sí o por medio de sus descendientes), se llama efecto de
regresión.

El análisis de regresión se desarrolla una ecuación de estimación, es decir, una fórmula


matemática que relaciona las variables conocidas con las desconocidas. Luego de obtener el
patrón de dicha relación, se aplica el análisis de correlación para determinar el grado de relación
que hay entre las variables.

REGRESIÓN LINEAL SIMPLE

“Una técnica estadística que establece una ecuación para estimar el valor desconocido de una
variable, a partir del valor conocido de otra variable, (en vez de valores de muchas otras variables)
se denomina análisis de regresión simple.”

Por lo tanto, el análisis de regresión lineal simple, es el proceso general de predecir una variable
(Y) a partir de otra (X).

Las relaciones entre las variables pueden ser directas o también inversas.

Relación directa: la pendiente de esta línea es positiva, porque la variable Y crece a medida que la
variable X también lo hace.
Relación inversa: La pendiente de esta línea es negativa, porque a medida que aumenta el valor
de la variable Y, el valor de la variable X disminuye.

VARIABLE INDEPENDIENTE (X)

En el análisis de regresión una variable cuyo valor se suponga conocido y que se utilice para
explicar o predecir el valor de otra variable de interés se llama variable independiente; se
simboliza con la letra X.

Otros nombres alternativos para la variable independiente (X), son variable explicatoria, variable
predictora y en ocasiones variable regresora.
VARIABLE DEPENDIENTE (Y)

En el análisis de regresión una variable cuyo valor se suponga desconocido y que se explique o
prediga con ayuda de otra se llama variable dependiente y se simboliza con la letra Y.

La variable dependiente, al igual que la variable independiente es llamada de diferentes maneras


algunas de ellas son: variable explicada o variable pronosticada.

DIAGRAMAS DE DISPERSIÓN

Un diagrama de dispersión es una ilustración gráfica que se usa en el análisis de regresión. Consta
de una dispersión de puntos tal que cada punto representa un valor de la variable independiente
(medido a lo largo del eje horizontal), y un valor asociado de la variable dependiente (medido a lo
largo del eje vertical).

El diagrama de dispersión, también llamado nube de puntos, brinda dos tipos de información,
visualmente se pueden determinar los patrones que indican como las variables están relacionadas
(lineal o mediante una curva) y por otro lado si existe una relación entre ellas visualizando la clase
de línea o ecuación de estimación que describe a dicha relación.

A continuación se ilustran algunas relaciones en los diagramas de dispersión:


METODO DE MINIMOS CUADRADOS

El método que por lo común se utiliza para ajustar una línea a los datos muestrales indicados en el
diagrama de dispersión, se llama método de mínimos cuadrados. La línea se deriva en forma tal
que la suma de los cuadrados de las desviaciones verticales entre la línea y los puntos individuales
de datos se reduce al mínimo.

El método de mínimos cuadrados sirve para determinar la recta que mejor se ajuste a los datos
muestrales, y los supuestos de este método son:

 El error es cero.

 Los datos obtenidos de las muestra son estadísticamente independientes.

La varianza del error es igual para todos los valores de X.

Una línea de regresión calculada a partir de los datos muestrales, por el método de mínimos
cuadrados se llama línea de regresión estimada o línea de regresión muestral.

Dicha línea recta es la que mejor se ajusta al conjunto de datos (X, Y) y es aquella en que la
distancia que hay entre los datos y la supuesta recta es la menor posible, y se calcula mediante la
siguiente formula:

 Para calcular el valor de b (pendiente), que representa el grado de inclinación que tiene la recta,
se emplea la siguiente formula:

Para calcular el valor de a (ordenada al origen), que representa el punto en que la recta corta al eje
de las Y, se emplea la siguiente formula:

Las variables a y b son constantes numéricas que son las que se calculan mediante el método de
mínimos cuadrados.

ERROR ESTANDAR DE ESTIMACIÓN

El siguiente proceso que se necesita en el análisis de la regresión lineal simple es cómo medir la
confiabilidad de la ecuación de estimación que hemos desarrollado.

El error estándar de estimación mide la variabilidad o dispersión de los valores observados


alrededor de la línea de regresión y se representa como Se. Su fórmula es la siguiente:
Cuanto mayor sea el error estándar de la estimación, más grande será la dispersión (o
esparcimiento) de puntos alrededor de la línea de regresión. Por el contrario, si Se= 0, se espera
que la ecuación de estimación sea un estimador “perfecto” de la variable dependiente, en este
caso todos los puntos caerían directamente sobre la línea de regresión y no habría puntos
dispersos, como se muestra en la siguiente figura:

El error estándar de estimación tiene la misma aplicación que de la desviación estándar que se vio
en los temas anteriores. Esto es, suponiendo que los puntos observados tienen una distribución
normal alrededor de la recta de regresión, podemos esperar que:

• 68% de los puntos están dentro de ± 1se

• 95.5% de los puntos están dentro de ± 2se

• 99.7% de los puntos están dentro de ± 3se

El error estándar de la estimación se mide a lo largo del eje “Y”, y no perpendicularmente desde la
recta de regresión.

Las suposiciones son:

1. Los valores observados para Y tienen distribución normal alrededor de cada valor estimado de
yˆ 2. La varianza de las distribuciones alrededor de cada valor posible de yˆ es la misma.

Si esta segunda suposición no fuera cierta, entonces el error estándar en un punto de la recta de
regresión podría diferir del error estándar en otro punto.

PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

1. Obtención de los datos muestrales.


2. Los datos obtenidos se tabulan. (tener cuidado en determinar correctamente quien es la
variable independiente y dependiente).

X Y

3. La información se gráfica en un diagrama de dispersión, estableciéndose la posible relación


entre las dos variables.

4. Se calcula la pendiente.

5. Se calcula la ordenada al origen.

6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.


7. Se traza la línea estimada en el diagrama de dispersión.

8. Se calcula el error estándar de estimación.

Ejemplo:

Una cadena de Pizzerías toma una muestra de diez de sus sucursales para tratar de encontrar un
modelo matemático que le permita predecir sus ventas y obtuvo los siguientes datos: la población
de personas en miles fue de 2, 6, 8, 8, 12, 16, 20, 20, 22, 26; y las ventas trimestrales en miles de
pesos fue de: 58, 105, 88, 118, 117, 137, 157, 169, 169, 149, 202.

Realice una regresión para estimar las ventas de dos sucursales que tienen 14,000 y 30,000
personas como potenciales clientes respectivamente.

Solución

Datos

n=10

X: Población de personas en miles

Y: Ventas trimestrales en miles de pesos

1. Tabular los datos obtenidos:

Sucursal X Y
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 168
9 22 149
10 26 202
2. Graficar los datos en un diagrama de dispersión y determinar la posible relación entre las
variables X Y.

Se puede observar una relación lineal directa.

Sucursal X Y XY X2 Y2
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
∑= 140 1,300 21,040 2,528 184,393

4. Cálculo de la pendiente.

140
Ⴟ= = 14 mil personas
10
1300
Ȳ= = 130 mil pesos
10

Por lo tanto la pendiente es

21,040 – 10(14)(130)
b=
2,528 – 10(14)2

21,040 – 18,200 2,840


b= = =5
2,528 – 1,960 568

b=5

5. Cálculo de la ordenada al origen.

a = 130 – 5(14)

a = 130 – 70 = 60

a = 60

6. Obtener la ecuación que mejor se ajuste.

Por lo tanto:

ŷ = 60 + 5(x)

7. Trazar la línea estimada.


8. Calcular el error estándar de estimación.

184,393 – (60*1300) – (5*21040)


Se √ 10 - 2

184,393 – 78,000 – 105,200


Se √ 8

184,393 – 183,200
Se √ 8

1,193
Se √ 8

Se =√149.125 = 12.21

Se = 12.21

Tiene un error de estimación de 12,210 pesos.

Para una N = 14,000

ŷ = 60 + 5(14)

ŷ = 60 + 70 = 130

჻ ŷ = 14,130

Para una N = 30,000

ŷ = 60 + 5(30)

ŷ = 60 + 150 = 210

჻ ŷ = 30,210

CORRELACIÓN SIMPLE

Mientras que el análisis de regresión simple establece una ecuación precisa que enlaza dos
variables, el análisis de correlación es la herramienta estadística que podemos usar para describir
el grado o fuerza en el que una variable esta linealmente relacionada con otra.
Dependiendo del tamaño de esta medida cuantitativa se puede decir, que tan cercanamente se
mueven dos variables, y, por lo tanto, con cuanta confiabilidad se puede estimar una variable con
ayuda de la otra.

Una técnica estadística que establece un índice que proporciona, en un solo número, una medida
de la fuerza de asociación entre dos variables de interés, se llama análisis de correlación simple.

El análisis de correlación es la herramienta estadística de que nos valemos para describir el grado
de relación que hay entre dos variables.

A menudo el análisis de correlación simple se utiliza junto con el análisis de regresión lineal simple
para medir la eficacia con que la línea de regresión explica la variación de la variable dependiente,
Y.

Diagramas de dispersión con correlación débil y fuerte.

Existen dos medidas para describir la correlación entre dos variables: el coeficiente de
determinación y el coeficiente de correlación.

COEFICIENTE MUESTRAL DE DETERMINACIÓN

La medida más importante de que también ajusta la línea de regresión estimada en los datos
muestrales en los que está basada, es el coeficiente de determinación muestral, este es igual a la
proporción de la variación total de los valores de la variable dependiente, “Y”, que puede
explicarse por medio de la asociación de Y con X medida por la línea de regresión estimada.

El coeficiente de determinación es la manera primaria de medir el grado, o fuerza, de la relación


que existe entre dos variables, X y Y.

El coeficiente de determinación muestral se representa como r 2, y mide exclusivamente la fuerza


de una relación lineal entre dos variables.

El Cálculo del coeficiente de determinación se lleva a cabo con la siguiente formula:


COEFICIENTE MUESTRAL DE CORRELACIÓN

La raíz cuadrada del coeficiente de determinación muestral, √r2, es un índice alternativo común del
grado de asociación entre dos variables cuantitativas. Esta mediad se llama coeficiente de
correlación muestral (r) y es un estimador puntual del coeficiente de correlación poblacional (ρ).

El coeficiente de correlación muestral es la segunda medida con que puede describirse la eficacia
con que una variable es explicada por otra, así pues, el signo de r indica la dirección de la relación
entre las dos variables X y Y.

El siguiente esquema representa adecuadamente la intensidad y la dirección del coeficiente de


correlación muestral.

El cálculo del coeficiente de correlación muestral se lleva a cabo con la siguiente formula:

INTERVALO DE CONFIANZA

Debido a que la recta estimada de regresión, no es del todo real, es necesario elaborar un
intervalo de confianza que le de seguridad a nuestros cálculos.

Como se ha visto, cuando se utilice el método de mínimos cuadrados, los coeficientes de


regresión, a y b son estimadores insesgados, eficientes y consistentes de α y β, también aquí es
muchas ocasiones es deseable establecer intervalos de confianza.

Los intervalos de confianza se calculan con la siguiente fórmula:

INTERVALO DE PREDICCIÓN

El intervalo de predicción, como su nombre lo indica, se utiliza para predecir un intervalo de


valores de Y, dado un valor de X.

El intervalo de predicción se calcula con la siguiente fórmula:


PROCEDIMIENTO PARA REALIZAR UN ANÁLISIS DE CORRELACIÓN LINEAL SIMPLE

1. Obtención y tabulación de los datos muestrales.

2. La información se gráfica en un diagrama de dispersión.

3. Calcular la pendiente y ordenada al origen.

4. Se obtiene la ecuación que mejor se ajusta a la información obtenida.

5. Se traza la línea estimada en el diagrama de dispersión.

6. Calcular el error estándar de estimación.

7. Calcular el coeficiente de determinación.

8. Determinar el coeficiente de correlación.

9. Determinar el intervalo de confianza.

10. Determinar el intervalo de predicción.

Ejemplo:

Un gerente de ventas reunió los datos siguientes relacionados con las ventas anuales en miles de
pesos y los años de experiencia de diez vendedores. Estime las ventas anuales para un vendedor
con 7 años de experiencia.

Solución

1. Obtención y tabulación de los datos muestrales.

X: Años de experiencia

Y: Ventas anuales en miles de pesos.

Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
∑= 70 1,080
2. Diagrama de dispersión.

3. Realizar los cálculos correspondientes y determinar la pendiente y ordenada al origen.

Vendedor X Y XY X2 Y2
1 1 80 80 1 6400
2 3 97 291 9 9404
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 88 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
∑= 70 1,080 8,128 632 119,082

1080
Ȳ= = 108
10

70
Ⴟ= =7
10

8,128 – 10(7)(108)
b=
632 – 10(7)2

8,128 – 7,560 568


b= = =4
632 – 490 142
b=4

a = 108 – 4(7)

a = 108 – 28 = 80

a = 80

4. Ecuación que mejor se ajusta.

ŷ = 80 + 4(x)

Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:

ŷ = 80 + 4(7)

ŷ = 60 + 28 = 108

჻ ŷ = 108 ventas anuales

5. Trazo de la línea estimada en el diagrama de dispersión

6. Calcular el error estándar de estimación.

119,082 - (80*1,080) – (4*8,128)


Se √ 10 - 2

119,082 - 86,400 – 32,512


Se √ 8
119,082 – 118,912
Se √ 8

170
Se √ 8

Se =√21.25 = 4.61

Se = 4.61

7. Calcular el Coeficiente de Determinación.

(80)(1080) + (4 x 8128) – (10 x 108 2)


r2 =
119,082 - (10 x 108 2)

86,400 + 32,512 – 116,640


2
r =
119,082 – 116,640

118,912 – 116,640
r2 =
2,442

2,272
r2 = = 0.9303849304
2,442

r2 = 0.9303849304 ≈ 93.03%

El 93% de las ventas anuales se deben a la experiencia de los vendedores y el 7% restante de debe
a otros factores.

8. Calcular el Coeficiente de Correlación

r = √0.9303849304 = 0.9645646326

r = 0.9645646326

Este número nos indica que las variables X Y tienen una correlación positiva intensa.

9. Determinar el intervalo de confianza al 95%.

Considerando
ŷ = 108 ventas anuales

4.61
yC = 108 + 2.306
√10

108 - 3.3617 < yC < 108 + 3.3617

104.6383 < yC < 111.3617

Se puede asegurar con un nivel de confianza del 95% que las ventas de los vendedores con 7 años
de experiencia están entre 104.6 y 111.4 miles pesos anuales.

10. Determinar el intervalo de predicción para un vendedor con 9 años de experiencia se tiene

Sustituyendo:

1 (9 – 7) 2
yp = 108 + 2.306 * 4.61 * √ 1 + +
10 632 – 10(7) 2

108 - 11.291 < yp < 108 + 11.291

96.709 < yC < 119.291

Se puede asegurar con un nivel de confianza del 95% que las ventas pronosticadas de un vendedor
con 9 años de experiencia están entre 96.71 y 119.3 miles pesos anuales.

CORRELACIÓN LINEAL

Correlación Expresa el grado de asociación o afinidad entre las variables consideradas, también
explica el grado de la bondad del ajuste de las líneas de regresión

Análisis de Correlación

Grupo de técnicas estadísticas empleado para medir la intensidad de la relación entre dos
variables. EI principal objetivo del análisis de correlación consiste en determinar qué tan intensa es
la relación entre dos variables.

Correlación Simple: Aquella que trata de analizar la relación entre dos variables

Correlación Rectilínea o Lineal: Cuando la función de regresión es una recta.

Coeficiente de Correlación Rectilínea


Es el estadígrafo que mide o expresa el grado de afinidad o asociación entre dos variables, cuando
ellas están relacionadas mediante una Línea recta.

Diagramas de dispersión que muestran correlación cero, negativa y positiva.

Correlación cero, r = 0 (X y Y no están relacionadas linealmente) Correlación Negativa (X y Y tienen relación lineal inversa)

Correlación Positiva (X y Y tienen relación lineal directa)

EI esquema que sigue representa adecuadamente la intensidad y la dirección del coeficiente de


correlación.

Propiedades de r

La propiedad fundamental del coeficiente de correlación “r” es:

1r1

a) Si r > 0 entonces existe correlación directa positiva

b) Si r < 0 se trata de una correlación inversa negativa

c) Si r = 1 los datos forman una Iínea recta, en el caso de la correlación rectilínea.


d) Si r = +1 hay una correlación perfecta positiva

e) Si r = -1 hay una correlación perfecta negativa

f) Si r = 0 los datos son incorrelacionados

EI signo de "r" es el mismo que el signo "b" coeficiente angular o pendiente de la recta de la
ecuación de regresión ŷ = a + bX

Interpretación Clásica

a) 0 < r < ± 0.20 existe correlación no significativa.

b) ± 0.20 < r < ± 0.40 existe una correlación baja.

c) ± 0.40 ≤ r < ± 0.70 existe una significativa correlación.

d) ± 0.70 ≤ r < ± 1.00 existe alto grado de asociación.

Coeficiente de Determinación (r2)

Proporción de la variación total en la variable dependiente Y que se explica por, o se debe a, la


variación en la variable independiente X. Se calcula al elevar al cuadrado el coeficiente de
correlación.

Coeficiente de No Determinación

Proporción de la variable total en Y que no es explicada por la variación en X. Se calcula por medio
de 1 – r2.

Los coeficientes de determinación y no determinación solo pueden ser positivos (porque al elevar
al cuadrado una r negativa da como resultado un número positivo). Los coeficientes pueden tomar
cualquier valor entre 0 y 1.0 inclusive.

EI coeficiente de determinación siempre es menor que el coeficiente de correlación. Algunos


estadígrafos preferirán utilizar el coeficiente de determinación como una medida más
conservadora considerando que el coeficiente de correlación puede exagerar la relación entre los
dos conjuntos de variables.

EJERCICIO 1

1.- Una gasolinera desea saber si existe relación entre la recaudación (miles de pesos) durante las
últimas 7 semanas, así como el número de clientes (en miles) que acudieron durante esos
periodos.
Recaudación 1.5 10 8 3 5 15 2
No. de clientes 3 6 5 3.5 4 8 3.2
a) Calcular el coeficiente de correlación rectilínea.

b) Calcular e interpretar el coeficiente de determinación.

c) Calcular e interpretar el coeficiente de no determinación.

a)

X Y XY (X)2 (Y)2
3 1.5 4.5 9 2.25
6 10 60 36 100
5 8 40 25 64
3.5 3 10.5 12.5 9
4 5 20 16 25
8 15 120 64 225
3.2 2 6.4 10.24 4
∑ = 32.7 ∑ = 44.5 ∑ = 261.4 ∑ = 172.49 ∑ = 429.25

Fórmula

7(261.4) – (32.7) (44.5)


r=
√ [7(172.49 – (32.7)2] [7(429.25) – (44.5)2

1,829.8 – 1,455.15
r=
√ [1,207.43 – 1,069.29] [3,004.75 – 1,980.25]

374.65
r=
√ [138.14] [1,024.5]

374.65
r=
√ 141,524.43
374.65
r= = 0.995886923
376.1973285

r = 0.995886923

b) Calcular e interpretar el coeficiente de determinación.


r2 = (0.99)2 = 0.9801

Interpretación: El 98% de la variación total de la recaudación semanal se explica por, o se debe a la


variación en el número de clientes.

c) Calcular e interpretar el coeficiente de no determinación.

1 - r2 = 1 - 0.98 = 0.02

Interpretación: El 2% de la variación total de la recaudación semanal no se debe a la variación en


el número de clientes.

También podría gustarte