Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacion - Regresión Lineal Simple
Correlacion - Regresión Lineal Simple
Correlacion - Regresión Lineal Simple
En muchas ocasiones, se desea conocer algo acerca de la relació n o dependencia entre dos
características cuantitativas, o má s de una, consideradas sobre la misma població n objeto de
estudio (por ejemplo, ingreso mensual de un jefe de familia y el gasto mensual que realiza). Hay
muchos casos en los que ya de antemano se "sospecha" que puede existir algú n tipo de relació n, y
por consiguiente, se pretende saber por ejemplo, en el caso de que tengamos ú nicamente dos
variables:
Si ambas variables está n realmente relacionadas entre sí, por el contrario, pueden
considerarse independientes.
Si existe dependencia, es necesario conocer el "grado de relació n", así como el "tipo" de
relació n entre ambas.
Si puede predecirse la variable que es considerada como dependiente a partir de los valores
de la otra, que es considerada independiente, y si es así, con qué precisió n.
Luego, representamos los valores en el sistema cartesianos, dando lugar al diagrama conocido
como diagrama de dispersió n o nube de puntos. Así, cada unidad vendrá representado por un
punto en el grá fico, de coordenadas, xi, yi.
De esa forma, podremos obtener una primera idea acerca de la forma y de la dispersió n de la nube
de puntos.
Por tanto, el diagrama de dispersió n nos permitirá determinar si existe algú n tipo de relació n ( o
no) entre las variables. A continuació n, se presenta en figura adjunta algunas de las formas de
relaciones entre ellas.
Figura Nº 1
Sin embargo, en la mayor parte de los casos se da una relació n menos rigurosa que se denomina
dependencia estocástica o aleatoria (figura 1.b y 1.c); entonces, la relació n entre X e Y,
podríamos escribirla (en el caso de la figura 1.b) de la forma Y = β0 + β 0 X +e , donde e es un error o
un residual, (en otras palabras indicaría las variables que no se incluyen en el modelo o
simplemente a que estamos especificando mal el modelo.
Por ejemplo, el rendimiento de un cultivo depende de la temperatura, lluvia, sol y fertilizantes y
dicha dependencia es de naturaleza estadística por que las variables explicativas si bien son
importantes, no permiten al agró nomo predecir en forma exacta el rendimiento del cultivo debido a
Los errores propios de la medició n de estas variables y otra serie de factores que en conjunto
afectan al rendimiento, pero son difíciles de identificar.
El Aná lisis de correlació n, tiene como fin dar respuesta a las preguntas:
a) ¿Existe dependencia estocá stica entre las variables?
b) ¿Cuá l es el grado de dicha dependencia?
Terminología y notación
En publicaciones especializadas, los términos variables dependiente y variable independiente de se
definen de varias maneras, a continuació n, se presentan una lista.
Si se estudia la dependencia de una variable respecto de una ú nica variable explicativa, como el
consumo que depende del ingreso, dicho estudio se conoce como aná lisis de regresión simple, o
con dos variables. Sin embargo, si estudia la dependencia de una variable respecto de má s de una
variable explicativa, se trata de un aná lisis de regresión múltiple. En otras palabras, en una
regresió n de dos variables solo hay una variable explicativa, mientras que en la regresió n mú ltiple
hay k variables hay má s de una variable explicativa.
Prof. Nelly D. Pillhuaman Caña Página 3
Universidad Nacional Mayor de San Marcos Escuela Investigación Operativa
Facultad de Ciencias Matemáticas Curso: Modelos Econométricos
El término aleatorio es sinó nimo de estocá stico (es decir variables con distribuciones de
probabilidad).
Por convenció n se utiliza el subíndice de observació n i para los datos transversales (es decir,
informació n recopilada en un momento determinado del tiempo), y el subíndice t para datos de
series de tiempo (es decir, informació n reunida a lo largo de un periodo de tiempo)
Objetivo
Medir la asociació n entre dos variables de tipo cuantitativo.
Responde a la pregunta:
Si existe relació n entre dos variables cuantitativas” ¿Qué tan evidente es esta relació n?"
¿Cómo Medirla?:
A través del Coeficiente de Correlació n lineal de Pearson
Cov ( X , Y )
∑ X i Y i−n X́ . Ý
i=1
R= =
Sx.Sy n n
√ ∑ X 2i −n X́ 2
i=1
√∑
i=1
Y 2i −n Ý 2
Propiedad:
-1 < R < 1
¿Có mo saber visualmente si existe relació n entre dos variables?
Figura 2
En la figura: 2. a) se observa una posible relació n lineal directa entre las variables; mientras que, en
la figura 2.b) observamos una relació n lineal inversa. Las figuras 2.c) y 2.d) indican relaciones de
segundo orden entre las variables, exhibiendo un má ximo y un mínimo para la primera y segunda
de estas figuras, respectivamente. La figura 2.e) muestra una relació n de tipo cú bico entre las
variables. La figura 2.f) es un ejemplo en el cuá l no puede identificarse por inspecció n algú n tipo de
relació n entre las variables, pues aparentemente ella no existe.
Pruebas de Hipótesis
En la mayor parte de los casos que se presentan en la vida real, trabajamos con base a informació n
muestral, por lo tanto, si queremos probar si el coeficiente de correlació n estimado es significativo
debemos de realizar pruebas estadísticas basá ndonos en los estadísticos encontrados. A
continuació n, se presenta dos esquemas de pruebas de hipó tesis para el coeficiente de correlació n
lineal cuando el investigador desea evaluar si hay o no dependencia lineal entre un par de variables.
H 1 : ρ> ρ0 H 1 : ρ ≠ ρ0 H 1 : ρ< ρ0
2.- Fijar el nivel de significación: Representa el nivel de error má ximo tolerable para realizar la
prueba. Este es establecido o definido por el investigador y se denota con la letra α.
3.- Prueba Estadística: Es una medida estadística calculada a partir de informació n para llevar a
cabo la prueba.
Zc ¿
√n−3 ln ¿
2
5.- Decisión:
Caso Particular
R
t c=
3.- Prueba Estadística: 1−R2
√ n−2
4.- Valor crítico: t n−2 ,1−α / 2 ; t n−2 ,α /2
5.- Decisión:
Ejemplo 1:
Se tiene informació n que corresponde a los gastos en promociones y las ventas en unidades de un
determinado producto, para un determinado canal de venta en las ú ltimas 10 semanas. Los datos
son los siguientes:
Gasto
Ventas (miles
Semana promocionales
de unidades)
(miles de $)
1 25 126
2 21 110
3 15 87
4 22 97
5 15 80
6 16 84
7 28 129
8 30 126
9 23 115
10 15 91
Se pide:
a) Trace el diagrama de dispersió n e interprete
d) Con un nivel de significació n del 5%, se puede afirmar que el gasto y las ventas está n
correlacionados en má s del 85%.
Solución a):
En el diagrama de dispersió n se puede observar que a mayor gasto promocional, se tiene mayores
ventas.
Solución b)
gastos( ) ventas( )
25 126 3150 625 15876
21 110 2310 441 12100
15 87 1305 225 7569
22 97 2134 484 9409
15 80 1200 225 6400
16 84 1344 256 7056
28 129 3612 784 16641
30 126 3780 900 15876
23 115 2645 529 13225
15 91 1365 225 8281
Sumas 210 1045 22845 4694 112433
10
∑ x i ¿ y i−n x́∗ý=22845−10∗21∗104.5=900
i=1
10
∑ x 2i −n∗x́ 2=4694−10∗212=284
i=1
10
900
R=¿ =0.9396
√ 284 √ 3230.5
Este resultado nos indica que las variables gasto y ventas está n relacionadas en un 93.96% . Esta
relació n es positiva y muy buena
Solución c):
1.- Formulación de la hipótesis
H 0 : ρ=0 H 1 : ρ≠ 0
(No existe relació n entre las variables) (Existe relació n entre las variables)
0.9396
t c= =7.7645
3.- Prueba Estadística: 1−0.9396 2
t 8 ;0.975=2.3060
5. Decisión: Como: t c =7.7645>t t=2.306 , se rechaza Ho. Es decir, existe relació n lineal entre gasto
y ventas.
Solución (d):
1.- - Formulación de la hipótesis
H 0 : ρ≤ 0.85
H 0 : ρ>0.85
5.- Decisión:
Como ZT =1.645< Zc= 1.2659 se rechazar Ho. Es decir, no hay evidencia que indique que la relació n
entre gastos y ventas sea mayor del 85%.
Ejemplo 2 (Hacerlo)
Una compañ ía de productos químicos desea analizar si existe relació n entre el tiempo de extracció n
y la eficiencia en una operació n de extracció n.
a. Pruebe con un nivel de significació n del 5%, si existe una correlació n lineal entre el tiempo
de extracció n y la eficiencia en una operació n de extracció n.
b. Con un nivel de significació n del 5%, se puede afirmar que el tiempo de extracció n y la
eficiencia está n correlacionados en má s del 85%.