Correlacion - Regresión Lineal Simple

También podría gustarte

Está en la página 1de 11

Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa

Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

II.- Correlación y Regresión Lineal Simple


2.1 Introducción
El término regresión fue introducido por un bió logo y estadístico inglés, SIR FRANCIS GALTON*, en
el añ o 1889. El empleó este concepto para indicar la relació n que existía entre la estatura de los
niñ os de una muestra y la estatura de su padre. Observó , que, si los padres son altos, los hijos
generalmente también lo son, y si los padres son bajos los hijos son también de menor estatura.

En muchas ocasiones, se desea conocer algo acerca de la relació n o dependencia entre dos
características cuantitativas, o má s de una, consideradas sobre la misma població n objeto de
estudio (por ejemplo, ingreso mensual de un jefe de familia y el gasto mensual que realiza). Hay
muchos casos en los que ya de antemano se "sospecha" que puede existir algú n tipo de relació n, y
por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos ú nicamente dos
variables:

 Si ambas variables está n realmente relacionadas entre sí, por el contrario, pueden
considerarse independientes.

 Si existe dependencia, es necesario conocer el "grado de relació n", así como el "tipo" de
relació n entre ambas.

 Si puede predecirse la variable que es considerada como dependiente a partir de los valores
de la otra, que es considerada independiente, y si es así, con qué precisió n.

2.2 ¿Cuándo existe regresión?


Para saber si el si dos variables aleatorias está n relacionadas o no (de ahora en adelante las
llamaremos X e Y, denotando con Y a la variable dependiente, y X a la variable independiente),
debemos primero seleccionar una muestra aleatoria. Para cada unidad de la muestra se analizan
las dos variables en estudio, de modo que para cada unidad tengamos un par de valores (xi, yi, i=
1,2,…….n).

Luego, representamos los valores en el sistema cartesianos, dando lugar al diagrama conocido
como diagrama de dispersió n o nube de puntos. Así, cada unidad vendrá representado por un
punto en el grá fico, de coordenadas, xi, yi.
De esa forma, podremos obtener una primera idea acerca de la forma y de la dispersió n de la nube
de puntos.

Por tanto, el diagrama de dispersió n nos permitirá determinar si existe algú n tipo de relació n ( o
no) entre las variables. A continuació n, se presenta en figura adjunta algunas de las formas de
relaciones entre ellas.

En figura adjunta se presenta algunas de las formas de relació n entre ellas.

Prof. Nelly D. Pillhuaman Caña Página 1


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

2.2 Relaciones estadísticas y relaciones determinísticas

Figura Nº 1

En primer lugar, deberemos distinguir entre dependencia funcional o determinista y


dependencia estocástica. En el primer caso la relació n es perfecta: Y=f(X) (ver figura1.d y 1.e); es
decir, los puntos del diagrama de dispersió n correspondiente, aparecen sobre la funció n Y=f(X). Por
ejemplo, el caso de la figura 1.d seríaY = β0 + β 1 X . Esto es propio en el á rea de la física clá sica.
Por ejemplo, las relaciones de la ley de gravedad de Newton, la cual establece que toda partícula en
el universo atrae a cualquier otra partícula con una fuerza directamente proporcional al producto
de su masa e inversamente proporcional al cuadrado de la distancia entre ellas. En término
matemá tico:
F=k ¿
Donde:
F: fuerza,
m1 y m2 :son las masas de las dos partículas
r: distancia
k: constante de proporcionalidad

Sin embargo, en la mayor parte de los casos se da una relació n menos rigurosa que se denomina
dependencia estocástica o aleatoria (figura 1.b y 1.c); entonces, la relació n entre X e Y,
podríamos escribirla (en el caso de la figura 1.b) de la forma Y = β0 + β 0 X +e , donde e es un error o
un residual, (en otras palabras indicaría las variables que no se incluyen en el modelo o
simplemente a que estamos especificando mal el modelo.
Por ejemplo, el rendimiento de un cultivo depende de la temperatura, lluvia, sol y fertilizantes y
dicha dependencia es de naturaleza estadística por que las variables explicativas si bien son
importantes, no permiten al agró nomo predecir en forma exacta el rendimiento del cultivo debido a

Prof. Nelly D. Pillhuaman Caña Página 2


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

Los errores propios de la medició n de estas variables y otra serie de factores que en conjunto
afectan al rendimiento, pero son difíciles de identificar.

Nota: En el curso de modelos no, nos interesan las relaciones deterministas.


El caso de la figura 1.a, corresponde con el de ausencia de relació n entre las variables, o son
independientes.

2.3 Regresión y causalidad


A pesar que el aná lisis de regresió n tiene que ver con la dependencia de una variable respecto de
otras variables, esto no implica causalidad necesariamente. “Kendall y Stuart” indican que una
relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una conexión causal:
nuestras ideas de causalidad deben de provenir en todo caso de una teoría o consideraciones apriori
Por ejemplo: la teoría econó mica afirma que el consumo depende del ingreso real
En la dependencia estocá stica, se distinguen dos tipos de técnicas:
 Aná lisis de Regresió n
 Aná lisis de Correlació n

El Aná lisis de correlació n, tiene como fin dar respuesta a las preguntas:
a) ¿Existe dependencia estocá stica entre las variables?
b) ¿Cuá l es el grado de dicha dependencia?

El Aná lisis de regresió n:


a.- ¿Cuá l es el tipo de dependencia entre las dos variables?
b.- ¿Pueden estimarse los valores de Y a partir de los de X?. ¿Con qué precisió n?

Terminología y notación
En publicaciones especializadas, los términos variables dependiente y variable independiente de se
definen de varias maneras, a continuació n, se presentan una lista.

Variable dependiente (Y) Variable independiente (X)


Variable explicada Variable explicativa
Predicha Predictora
Endó gena Exó gena
Respuesta Estimulo(Regresora)

Si se estudia la dependencia de una variable respecto de una ú nica variable explicativa, como el
consumo que depende del ingreso, dicho estudio se conoce como aná lisis de regresión simple, o
con dos variables. Sin embargo, si estudia la dependencia de una variable respecto de má s de una
variable explicativa, se trata de un aná lisis de regresión múltiple. En otras palabras, en una
regresió n de dos variables solo hay una variable explicativa, mientras que en la regresió n mú ltiple
hay k variables hay má s de una variable explicativa.
Prof. Nelly D. Pillhuaman Caña Página 3
Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

El término aleatorio es sinó nimo de estocá stico (es decir variables con distribuciones de
probabilidad).

Por convenció n se utiliza el subíndice de observació n i para los datos transversales (es decir,
informació n recopilada en un momento determinado del tiempo), y el subíndice t para datos de
series de tiempo (es decir, informació n reunida a lo largo de un periodo de tiempo)

A continuació n, trataremos el aná lisis de correlació n y luego el aná lisis de regresió n.

2.4 Análisis de correlación


Para analizar las relaciones existentes entre dos variables aleatorias cuantitativas, deberemos
primero responder a las preguntas, de si existe dependencia estocá stica entre ellas y de qué grado.
El aná lisis de correlació n nos dará respuesta a dichas preguntas.

Objetivo
Medir la asociació n entre dos variables de tipo cuantitativo.

Responde a la pregunta:
Si existe relació n entre dos variables cuantitativas” ¿Qué tan evidente es esta relació n?"

¿Cómo Medirla?:
A través del Coeficiente de Correlació n lineal de Pearson

Cov ( X , Y )
∑ X i Y i−n X́ . Ý
i=1
R= =
Sx.Sy n n

√ ∑ X 2i −n X́ 2
i=1
√∑
i=1
Y 2i −n Ý 2

Propiedad:
-1 < R < 1
¿Có mo saber visualmente si existe relació n entre dos variables?

• En el diagrama de dispersió n podemos observar el grado de (intensidad) y naturaleza


(forma) de la relació n entre las variables X e Y, si es que existe.

• Para graficar el diagrama de dispersió n considerar


En el eje de las abscisas se representa los valores de la variable independiente (X).
En el eje de la ordenada los valores de la variable dependiente (Y).

Prof. Nelly D. Pillhuaman Caña Página 4


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

Figura 2
En la figura: 2. a) se observa una posible relació n lineal directa entre las variables; mientras que, en
la figura 2.b) observamos una relació n lineal inversa. Las figuras 2.c) y 2.d) indican relaciones de
segundo orden entre las variables, exhibiendo un má ximo y un mínimo para la primera y segunda
de estas figuras, respectivamente. La figura 2.e) muestra una relació n de tipo cú bico entre las
variables. La figura 2.f) es un ejemplo en el cuá l no puede identificarse por inspecció n algú n tipo de
relació n entre las variables, pues aparentemente ella no existe.

Nota: Es importante fijarnos en que hemos denominado a dicho coeficiente: coeficiente de


correlació n lineal de Pearson. El "apellido lineal" es conveniente utilizarlo porque dicho coeficiente
solo tiene potencia para analizar si la relació n entre las dos variables es o no de tipo lineal. Si las
variables son independientes, es un hecho de que el coeficiente de correlació n lineal debe ser cero.
Sin embargo, si el coeficiente de correlació n lineal es 0, no implica que las variables sean
independientes, simplemente que la relació n no es lineal.

Prof. Nelly D. Pillhuaman Caña Página 5


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

Pruebas de Hipótesis
En la mayor parte de los casos que se presentan en la vida real, trabajamos con base a informació n
muestral, por lo tanto, si queremos probar si el coeficiente de correlació n estimado es significativo
debemos de realizar pruebas estadísticas basá ndonos en los estadísticos encontrados. A
continuació n, se presenta dos esquemas de pruebas de hipó tesis para el coeficiente de correlació n
lineal cuando el investigador desea evaluar si hay o no dependencia lineal entre un par de variables.

 Prueba de la importancia del coeficiente de correlación de Pearson:


(Caso general)
1.- - Formulación de la hipótesis:
H 0 : ρ≤ ρ0 H 0 : ρ=ρ0 H 0 : ρ≥ ρ0

H 1 : ρ> ρ0 H 1 : ρ ≠ ρ0 H 1 : ρ< ρ0

2.- Fijar el nivel de significación: Representa el nivel de error má ximo tolerable para realizar la
prueba. Este es establecido o definido por el investigador y se denota con la letra α.

3.- Prueba Estadística: Es una medida estadística calculada a partir de informació n para llevar a
cabo la prueba.

Zc ¿
√n−3 ln ¿
2

4.- Valor crítico:


Zt =Z 1−α Z t =Z1−α /2 o Z t =Z α /2 Z t =Z α

5.- Decisión:

ZC > Z 1−α ZC > Z 1−α / 2 o Z C < Z α /2 Z C <Z α

 Prueba de la importancia del coeficiente de correlación de Pearson:


Prof. Nelly D. Pillhuaman Caña Página 6
Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

Caso Particular

1.- Formulación de la hipótesis:


H 0 : ρ=0 H 1 : ρ≠ 0
(No existe relació n entre las variables) (Existe relació n entre las variables)

2.- Fijar el nivel de significación: α

R
t c=
3.- Prueba Estadística: 1−R2
√ n−2
4.- Valor crítico: t n−2 ,1−α / 2 ; t n−2 ,α /2

5.- Decisión:

Rechazar Ho si: t c > t n−2 ,1−α /2 o t c <t n−2 ,α /2

Ejemplo 1:
Se tiene informació n que corresponde a los gastos en promociones y las ventas en unidades de un
determinado producto, para un determinado canal de venta en las ú ltimas 10 semanas. Los datos
son los siguientes:
Gasto
Ventas (miles
Semana promocionales
de unidades)
(miles de $)
1 25 126
2 21 110
3 15 87
4 22 97
5 15 80
6 16 84
7 28 129
8 30 126
9 23 115
10 15 91

Se pide:
a) Trace el diagrama de dispersió n e interprete

Prof. Nelly D. Pillhuaman Caña Página 7


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

A mayor gasto en publicidad, mayores ventas (en unidades)


Variable dependiente: Ventas
Variable independiente: Gasto
b) Halle el coeficiente de correlació n de Pearson e intérprete.
R= 0.94,
El coeficiente de correlació n de Pearson nos indica que hay una relació n directa entre las
variables y esta relació n es del 94%
c) Pruebe con un nivel de significació n del 5%, si existe una correlació n lineal entre el gasto y
ventas.

d) Con un nivel de significació n del 5%, se puede afirmar que el gasto y las ventas está n
correlacionados en má s del 85%.

Solución a):

Prof. Nelly D. Pillhuaman Caña Página 8


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

En el diagrama de dispersió n se puede observar que a mayor gasto promocional, se tiene mayores
ventas.

Solución b)
gastos( ) ventas( )
25 126 3150 625 15876
21 110 2310 441 12100
15 87 1305 225 7569
22 97 2134 484 9409
15 80 1200 225 6400
16 84 1344 256 7056
28 129 3612 784 16641
30 126 3780 900 15876
23 115 2645 529 13225
15 91 1365 225 8281
Sumas 210 1045 22845 4694 112433

10

∑ x i ¿ y i−n x́∗ý=22845−10∗21∗104.5=900
i=1

10

∑ x 2i −n∗x́ 2=4694−10∗212=284
i=1

10

∑ y2i −n∗ý 2=112433−10∗104.52 =3230.5


i=1

900
R=¿ =0.9396
√ 284 √ 3230.5
Este resultado nos indica que las variables gasto y ventas está n relacionadas en un 93.96% . Esta
relació n es positiva y muy buena

Solución c):
1.- Formulación de la hipótesis
H 0 : ρ=0 H 1 : ρ≠ 0

(No existe relació n entre las variables) (Existe relació n entre las variables)

2.- Fijar el nivel de significación: α=0.05

Prof. Nelly D. Pillhuaman Caña Página 9


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

0.9396
t c= =7.7645
3.- Prueba Estadística: 1−0.9396 2

4.- Valor crítico:


√ n−2

t 8 ;0.975=2.3060

5. Decisión: Como: t c =7.7645>t t=2.306 , se rechaza Ho. Es decir, existe relació n lineal entre gasto
y ventas.

Solución (d):
1.- - Formulación de la hipótesis
H 0 : ρ≤ 0.85

H 0 : ρ>0.85

2.- Fijar el nivel de significación: α=0.05

3.- Prueba Estadística:


√ 10−3 ln ¿
2

4.- Valor crítico: Zt =Z 0.95=1.645

5.- Decisión:

Prof. Nelly D. Pillhuaman Caña Página 10


Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos

Como ZT =1.645< Zc= 1.2659 se rechazar Ho. Es decir, no hay evidencia que indique que la relació n
entre gastos y ventas sea mayor del 85%.

Ejemplo 2 (Hacerlo)
Una compañ ía de productos químicos desea analizar si existe relació n entre el tiempo de extracció n
y la eficiencia en una operació n de extracció n.

a. Pruebe con un nivel de significació n del 5%, si existe una correlació n lineal entre el tiempo
de extracció n y la eficiencia en una operació n de extracció n.

b. Con un nivel de significació n del 5%, se puede afirmar que el tiempo de extracció n y la
eficiencia está n correlacionados en má s del 85%.

Prof. Nelly D. Pillhuaman Caña Página 11

También podría gustarte