Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Leandro Galo
Regresión Lineal
Indice
Regresión Lineal
Coeficiente de Correlación
Indice
Regresión Lineal
Coeficiente de Correlación
Regresión Lineal
Coeficiente de Correlación
Pruebas de Hipótesis
Indice
Regresión Lineal
Coeficiente de Correlación
Pruebas de Hipótesis
Intervalos de Predicción
Regresión Lineal
Y ≈ β0 + β1 X .
Usualmente para ver si hay una relación lineal entre las variables X
e Y tomamos una muestra de tamaño n de la forma
Y = β0 + β1 x + u (1)
Pn Pn Pn Pn
n i=1 xi yi − i=1 xi i=1 yi i=1 (x − x̄)(y − ȳ )
β1 = = Pn
n i=1 xi − ( i=1 xi )2 2
Pn Pn
i=1 (x − x̄)
2
β0 = ȳ − β1 x̄
(2)
Ejemplo 1
Keynes postula que la propensión marginal a consumir (PMC), es
decir, la tasa de cambio del consumo generado por una unidad
(digamos, un dólar) de cambio en el ingreso, es mayor que cero
pero menor que uno.
Keynes no da el modelo, pero un economista matemático puede
proponer un modelo lineal de la forma
Y = β0 + β1 x, 0 < β1 < 1
Ŷ = −297.4989 + 0.7214x
Donde −1 ≤ r ≤ 1.
Obs: El coeficiente de Correlación de Pearson esta entre −1 y 1.
¿Qué nos indica el calculo del coeficiente de correlación de Pearson?
▶ Si 0.5 < r < 1 la relación entre las variables es positiva
(directa).
▶ Si r = 1 la relación entre las variables es positiva perfecta.
▶ Si −1 < r < −0.5 la relación entre las variables es negativa
(inversa).
▶ Si r = −1 la relación de las variables es negativa perfecta.
▶ Si −0.5 ≤ r ≤ 0.5 decimos que no hay relación lineal entre las
variables.
Ejercicio 1
La tabla 2.6 proporciona datos sobre el nivel de estudios (medido
en años de escolaridad), el salario promedio por hora devengado
por las personas por nivel de escolaridad y el número de personas
en un nivel de estudios. Ernst Berndt obtuvo originalmente los
datos de la tabla de la encuesta de población de mayo de 1985.
¿Se podrı́a decir que existe una relación lineal entre la variable
escolaridad y la variable salarios?
¿Cuál serı́a el modelo de regresión lineal?
¿Cómo interpreta la pendiente del modelo?
¿Qué nivel de escolaridad debe tener alguien con un salario de
11.45?
¿Como se interpreta el tipo de correlación?
Intervalos de Confianza para los Parámetros de la
Regresión
¿Cómo saber si los estimadores de los parámetros de la regresión
lineal son los adecuados?
Una manera de determinar buenos estimadores es construyendo in-
tervalos de confianza para cada uno de ellos. Por ejemplo para la
pendiente de la recta de regresión tendremos:
Un intervalo de confianza del (1 − α) × 100 % para la verdadera
pendiente β1 de regresión será
s s
b1 − tα/2 √ < β1 < b1 + tα/2 √
Sxx Sxx
donde
▶ b1 es la pendiente de la recta de regresión calculada a partir
de la P
muestra.
(yi − ŷi )2
▶ s2 = es el error cuadrático medio.
n−2
▶ Sxx = (xi − x̄)2 , Sxy = (x − x̄)(y − ȳ ).
P P
Un intervalo de confianza del (1 − α) × 100 % para el verdadero
intercepto β0 de la regresión será
s s
qX qX
b0 − tα/2 √ xi2 < β0 < b0 + tα/2 √ xi2
nSxx nSxx
donde
▶ b0 es el intercepto de la recta de regresión calculada a partir
de la P
muestra.
(yi − ŷi )2
▶ s2 = es el error cuadrático medio.
n−2
▶ Sxx = (xi − x̄)2 , Sxy = (x − x̄)(y − ȳ ).
P P
Pruebas de Hipótesis
b1 − β10
tp := √
s/ Sxx
▶ La estadı́stica de prueba para el intercepto será
b0 − β00
tp := qP
s xi2 /(nSxx )
Ejercicio 2: Con los datos de la tabla 2.6, (a) construya intervalos
de confianza para los verdaderos parámetros de los datos.
(b) ¿Son significativos los parámetros en el modelo? (c) ¿Propondrı́a
otro modelo?
La tabla 3.3 presenta datos sobre el número de suscriptores de teléfo-
nos celulares y el número de computadoras personales (PC), ambos
por cada 100 personas, y el ingreso per cápita ajustado por el poder
adquisitivo en dólares para una muestra de 34 paı́ses. Por tanto, se
trata de datos transversales. Estos datos corresponden a 2003 y se
obtuvieron del Statistical Abstract of the United States, 2006. Aun-
que los teléfonos celulares y las computadoras personales son muy
comunes en Estados Unidos, no ocurre lo mismo en muchos paı́ses.
Para ver si el ingreso per cápita es un factor que influye en el uso
de teléfonos celulares y PC, se regresó cada uno de estos medios
de comunicación sobre el ingreso per cápita con la muestra de 34
paı́ses.
a) Determine si el número de suscriptores de teléfono depende
linealmente del ingreso percapital.
b) ¿Qué tipo de correlación existe entre las variables?
c) ¿Cómo interpreta la pendiente del modelo?
d) Construya un intervalo de confianza del 98 % para la
verdadera pendiente del modelo.
e) ¿Son significativos los parámetros del modelo o propondrı́a
otro? Explique.
f) Realice lo mismo que en los incisos anteriores para el número
de PCs.
Intervalos de Predicción
I .C .(1−α)×100 % = (L, U)
donde tenemos que:
s
1 (x0 − x̄)2
L := yˆ0 − tα/2 s 1+ +
n Sxx
y
s
1 (x0 − x̄)2
U := yˆ0 + tα/2 s 1+ +
n Sxx