Documentos de Académico
Documentos de Profesional
Documentos de Cultura
6.1 Introducción
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación o dependencia
entre variables. Frecuentemente resulta de interés conocer el efecto que una o varias variables
pueden causar sobre otra, e incluso predecir en mayor o menor grado valores en una variable a
partir de otra.
Consideremos los siguientes ejemplos:
2. Podríamos ser interesante saber si existe alguna relación entre las ventas de una empresa
y el gasto en publicidad de la misma. De haber relación, sería de utilidad poder predecir
las ventas de una empresa para un gasto en publicidad dado.
1
las variables:
Y = g(X1 ; X2 ; :::; Xn ; ")
Y = 0 + 1 X1 + 2 X2 + ::: + n Xn +"
Y = 0 + 1X +"
¿Es signi…cativo el efecto que una variable X causa sobre otra Y ? Es decir, ¿es signi…cativa
la dependencia lineal entre esas dos variables?.
De ser así, utilizaremos el modelo de regresión lineal simple para explicar y predecir la
variable dependiente (Y ) a partir de valores observados en la independiente (X):
Ejemplo 6.1. Una empresa de desea investigar el efecto de su publicidad a través de radio
en el número de ventas. Con tal …n, durante cinco semanas estudia el número de ventas (Y )
según el número de días a la semana (X) que se da publicidad a la empresa en la radio. Los
resultados se recogen en la siguiente tabla:
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
2
publicidad en radio (X) mediante una recta y, a partir de ella, predecir el no de ventas que se
daría para un determinado no de días de publicidad en la radio.
Una forma de determinar si puede existir o no dependencia entre variables y, en caso de
haberla, deducir de qué tipo puede ser, es grá…camente representando los pares de valores
observados. A dicho grá…co se le llama nube de puntos o diagrama de dispersión. A continuación
se dan ejemplos de algunos casos que podrían darse.
102 102
99 99
96 96
93 93
90 90
87 87
0 0,01 0,02 0,03 0,04 0,87 1,07 1,27 1,47 1,67
a) b)
(X 1000)
10 1
8 0,8
6 0,6
4 0,4
2 0,2
0 0
0 2 4 6 8 10 12 0 2 4 6 8 10
c) d)
Y = 0 + 1X +"
Como decíamos, en esta expresión estamos admitiendo que todos los factores o causas que
in‡uyen en la variable respuesta Y pueden dividirse en dos grupos: el primero contiene a una
variable explicativa X y el segundo incluye un conjunto amplio de factores no controlados que
3
englobamos bajo el nombre de perturbación o error aleatorio, "; que provoca que la dependencia
entre las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incer-
tidumbre. Por ejemplo, en el consumo de gasolina de un vehículo (Y ) in‡uyen la velocidad (X) y
una serie de factores como el efecto conductor, el tipo de carretera, las condiciones ambientales,
etc, que quedarían englobados en el error.
Lo que en primer lugar sería deseable de un modelo de regresión es que estos errores aleatorios
sean en media cero para cualquier valor x de X; es decir, E["=X = x] = E["] = 0; y por lo
tanto:
E[Y =X = x] = 0 + 1x + E["=X = x] = 0 + 1x
Además de la hípotesis establecida sobre los errores de que en media han de ser cero, se
establecen las siguientes hipótesis:
2
V ar("=X = x) =
iv) Los errores asociados a los valores de Y son independientes unos de otros.
2
En consecuencia, la distribución de Y para x …jo es normal, con varianza constante ; y me-
dia que varía linealmente con x; dada por 0+ 1 x: Además los valores de Y son independientes
entre sí.
4
6.3 Estimación de los parámetros del modelo
i=1 i=1
siendo:
n
X n
X
SSxy = (xi x)(yi y) = xi yi nx y;
i=1 i=1
Xn n
X 2
SSxx = (xi x)2 = x2i nx = n 2
x
i=1 i=1
^ ^ ^
A la recta resultante Y = 0+ 1X se le llama recta de regresión lineal de Y sobre X:
2
Un último parámetro a estimar en el modelo es la varianza de los errores ( ): A su estimador
se le denomina varianza residual y viene dada por:
Pn 2 ^
^ 2 SSE e SSyy 1 SSxy
sR = = i=1 i =
n 2 n 2 n 2
5
Ejemplo 6.2. Para los datos del Ejemplo 6.1. referentes al no de ventas (Y ) según el no
de días de publicidad (X), vamos a determinar la recta de regresión.
SSxy = 7; SSxx = 10
luego
^ SSxy
1 = = 0:7
SSxx
^ ^
0 = y 1x = 0:1
^
y= 0:1 + 0:7x
6
Decíamos que de especial interés es el contraste:
H0 : 1 =0
H1 : 1 6= 0
Ejemplo 6.3 Para los datos Ejemplo 6.1 vamos a contrastar si el no de días de publicidad
en radio tiene efecto signi…cativo sobre el no de ventas ( = 0:05)
^
1 = 0:7
^
^ 2 SSyy 1 SSxy
sR = = 0:367
n 2
SSxx = 10
0
t = p 1 = 3:7
2
s =SSxx
t0:975;3 = 3:18
Como jtj > t0:975;3 podemos rechazar H0 al 5% de signi…cación, por lo tanto el efecto de la
publicidad sobre las ventas es signi…cativo (en términos generales, a mayor publicidad mayor
ventas, según lo obtenido).
7
y su estimación a partir de datos de una muestra viene dada por:
p
^ SSxy SSxx ^
r= p =p 1
SSxx SSyy SSyy
Un valor cercano o igual a 0 indica respectivamente poca o ninguna relación lineal entre
las variables.
Cuanto más se acerque en valor absoluto a 1 mayor será el grado de asociación lineal
entre las variables. Un coe…ciente igual a 1 en valor absoluto indica una dependencia
lineal exacta entre las variables.
Según hemos visto, el coe…ciente de correlación lineal puede interpretarse como una medida
de la bondad del ajuste del modelo lineal, concretamente, un valor del coe…ciente igual a 1
o -1 indica dependencia lineal exacta, en cuyo caso el ajuste es perfecto. No obstante, para
cuanti…car la bondad del ajuste de un modelo, lineal o no, se utiliza una medida que se denomina
coe…ciente de determinación lineal R2 ; que es la proporción de variabilidad de la variable Y
que queda explicada por el modelo de entre toda la presente, y cuya expresión es:
P
n ^
(y i y)2
2 i=1 SSE
R = Pn =1 ;
SSyy
(y i y)2
i=1
que en modelo de regresión lineal coincide con el cuadrado del coe…ciente de correlación lineal:
R2 = r 2
8
El coe…ciente de determinación toma valores entre 0 y 1, y cuanto más se aproxime a 1
mejor será el ajuste del modelo lineal, y por lo tanto mayor la …abilidad de las predicciones que
con él realicemos.
Nótese que si el coe…ciente de correlación lineal r es igual a 1 o -1 entonces R2 = 1 y por lo
tanto el ajuste lineal es perfecto.
Ejemplo 6.4 En el Ejemplo 6.1 r = 0:90 y R2 = 0:82: Esto indica que el grado de asociación
lineal entre las variables es alto, y concretamente el 82% de la variación total de los valores del
no de ventas pueden ser explicados mediante la recta de regresión ajustada.
^ ^ ^
y= 0 + 1x
^
luego y puede interpretarse de dos formas:
2. Como estimación del valor medio en Y para el valor X = x; es decir, E[Y =X = x]:
Ambas cantidades están sujetas a incertidumbre, que será tanto mayor cuanto peor sea el
ajuste realizado mediante la recta de regresión. Para concluir el tema, establecemos un intervalo
de con…anza para estas cantidades.
Proposición. Podemos decir que con un (1 )x100% de con…anza que cuando X = x; el
valor predicho en Y o el valor medio estimado en Y; E[Y =X = x]; se encuentran en el intervalo:
2 s 3
2
4y^ t1 =2;n 2 ; sR 1 + (x x) 5
n SSxx
9
Semana No de días de publicidad (x) No de ventas (y)
1 1 1
2 2 1
3 3 2
4 4 2
5 5 4
^
y= 0:1 + 0:7x;
^
y= 0:1 + 0:7 6 = 4:1
b) ¿En qué medida son …ables las predicciones realizadas con la recta de regresión ajustada?
Como el coe…ciente de determinación es igual a 0.81, las predicciones realizadas con la recta
serán …ables en un 81%.
c) Determinar un Intervalo al 95% de con…anza para el no medio de ventas si se hace 6 días
publicidad en radio.
El intervalo de con…anza resulta:
2 s 3 " r #
2 1 (6 3)2
4y^ t1 =2;n 2 sR 1 + (x x) 5 = 4:1 3:18 0:6 + = [2:1; 6:1]
n SSxx 5 10
10