Regresión Lineal

Diplomado en Estadı́stica: Modulo III
Regresión Lineal en SPSS y Excel
Leandro Galo
Universidad Nacional Autónoma de Honduras

Maestrı́a en Matemática
11 de noviembre del 2023

Indice
Regresión Lineal
Indice
Regresión Lineal
Coeficiente de Correlación
Indice
Regresión Lineal
Intervalos de Confianza de los Parámetros de la Regresión

Indice
Regresión Lineal
Pruebas de Hipótesis
Indice
Regresión Lineal
Intervalos de Predicción
Regresión Lineal
La idea central de la regresión lineal es la siguiente.

Si tenemos dos variables aleatoria cuantitativas X e Y de las cuales
suponemos una relación lineal o una dependencia lineal de la variable
Y con respecto a la variable aleatoria X , queremos conocer dicha
relación, la cual sabemos que será de la forma
Y ≈ β0 + β1 X .
Usualmente para ver si hay una relación lineal entre las variables X
e Y tomamos una muestra de tamaño n de la forma
{(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}
y graficamos su diagrama de dispersión observando si existe alguna

correlación.
Una vez observado el diagrama de dispersión podemos proponer un
modelo que se ajuste a la realidad muestreada. El modelo que se
propone será de la forma
Y = β0 + β1 x + u (1)
donde β0 y β1 son parámetros por determinar y u es una variable

de error tal que E (u) = 0.
Cómo deseamos estimar nuestro modelo (1) utilizamos una muestra
aleatoria de n pares ordenados de la forma {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}
y esta nos dará a su vez una recta de aproximación de la forma
ŷ := b0 + b1 x, donde se espera que E (b0 ) = β0 y E (b1 ) = β1 .
Usualmente en estadı́stica para encontrar el mejor modelo de regre-
sión lineal utilizamos el conocido método de mı́nimos cuadrados, el
cual consiste en minimizar el error cuadrático dado por
n
X n
X
E (β0 , β1 ) = (yi − ŷi )2 = (yi − β0 − β1 xi )2
i=1 i=1
donde {(xi , yi )}ni=1 es la muestra seleccionada e Ŷ = β0 + β1 x es la

variable que estima a Y .
De todo lo anterior al aplicar el método de mı́nimos cuadrados para
deducir el mejor modelo de regresión lineal obtenemos que
Pn Pn Pn Pn
n i=1 xi yi − i=1 xi i=1 yi i=1 (x − x̄)(y − ȳ )
β1 = = Pn
n i=1 xi − ( i=1 xi )2 2
Pn Pn
i=1 (x − x̄)
2
β0 = ȳ − β1 x̄
(2)
Ejemplo 1
Keynes postula que la propensión marginal a consumir (PMC), es
decir, la tasa de cambio del consumo generado por una unidad
(digamos, un dólar) de cambio en el ingreso, es mayor que cero
pero menor que uno.
Keynes no da el modelo, pero un economista matemático puede
proponer un modelo lineal de la forma
Y = β0 + β1 x, 0 < β1 < 1
donde x podrı́a ser el PIB (Producto Interno Bruto) y Y es el Gasto

de Consumo Personal, β0 y β1 son los parámetros por determinar
en el modelo.
El coeficiente β1 es el que corresponde al PMC.
Observemos unas cifras relacionadas con la economı́a de Estados
Unidos de 1960 a 2005, que se presentan en la base de datos del
ejemplo 1. La variable Y en esta base es el gasto de consumo personal
(GCP) agregado (para la economı́a en su conjunto), y la variable X,
el producto interno bruto (PIB), una medida del ingreso agregado,
ambos medidos en miles de millones de dólares.
Si aplicamos el método de mı́nimos cuadrados en SPSS o Excel, se
tiene el siguiente modelo lineal
Ŷ = −297.4989 + 0.7214x
Donde Ŷ es la variable estimada.

¿Cómo sabemos si el modelo que utilizamos es el correcto? es de-

cir,¿Cómo sabemos si las variables están correlacionadas de manera
lineal?
La manera correcta es calculando el coeficiente correlación de Pear-
son r , el cuál mide la fuerza o el grado de asociación lineal entre las
dos variables.
Para calcularlo seguimos la siguiente formula:
P P P
n xi yi − xi yi
r = rh i h i
n xi2 − ( xi )2 n yi2 − ( yi )2
P P P P
Donde −1 ≤ r ≤ 1.
Obs: El coeficiente de Correlación de Pearson esta entre −1 y 1.
¿Qué nos indica el calculo del coeficiente de correlación de Pearson?
▶ Si 0.5 < r < 1 la relación entre las variables es positiva
(directa).
▶ Si r = 1 la relación entre las variables es positiva perfecta.
▶ Si −1 < r < −0.5 la relación entre las variables es negativa
(inversa).
▶ Si r = −1 la relación de las variables es negativa perfecta.
▶ Si −0.5 ≤ r ≤ 0.5 decimos que no hay relación lineal entre las
variables.
Ejercicio 1
La tabla 2.6 proporciona datos sobre el nivel de estudios (medido
en años de escolaridad), el salario promedio por hora devengado
por las personas por nivel de escolaridad y el número de personas
en un nivel de estudios. Ernst Berndt obtuvo originalmente los
datos de la tabla de la encuesta de población de mayo de 1985.
¿Se podrı́a decir que existe una relación lineal entre la variable
escolaridad y la variable salarios?
¿Cuál serı́a el modelo de regresión lineal?
¿Cómo interpreta la pendiente del modelo?
¿Qué nivel de escolaridad debe tener alguien con un salario de
11.45?
¿Como se interpreta el tipo de correlación?
Intervalos de Confianza para los Parámetros de la
Regresión
¿Cómo saber si los estimadores de los parámetros de la regresión
lineal son los adecuados?
Una manera de determinar buenos estimadores es construyendo in-
tervalos de confianza para cada uno de ellos. Por ejemplo para la
pendiente de la recta de regresión tendremos:
Un intervalo de confianza del (1 − α) × 100 % para la verdadera
pendiente β1 de regresión será
s s
b1 − tα/2 √ < β1 < b1 + tα/2 √
Sxx Sxx
donde
▶ b1 es la pendiente de la recta de regresión calculada a partir
de la P
muestra.
(yi − ŷi )2
▶ s2 = es el error cuadrático medio.
n−2
▶ Sxx = (xi − x̄)2 , Sxy = (x − x̄)(y − ȳ ).
P P
Un intervalo de confianza del (1 − α) × 100 % para el verdadero
intercepto β0 de la regresión será
s s
qX qX
b0 − tα/2 √ xi2 < β0 < b0 + tα/2 √ xi2
nSxx nSxx
donde
▶ b0 es el intercepto de la recta de regresión calculada a partir
de la P
muestra.
(yi − ŷi )2
▶ s2 = es el error cuadrático medio.
n−2
▶ Sxx = (xi − x̄)2 , Sxy = (x − x̄)(y − ȳ ).
P P
Para realizar pruebas de Hipótesis solo debemos tener en cuenta lo

siguiente:
▶ Denotamos por β10 el valor supuesto para la pendiente y por
β00 para el intercepto.
▶ La distribución que utilizamos es una t-student.
▶ La estadı́stica de prueba para la pendientes será
b1 − β10
tp := √
s/ Sxx
▶ La estadı́stica de prueba para el intercepto será
b0 − β00
tp := qP
s xi2 /(nSxx )
Ejercicio 2: Con los datos de la tabla 2.6, (a) construya intervalos
de confianza para los verdaderos parámetros de los datos.
(b) ¿Son significativos los parámetros en el modelo? (c) ¿Propondrı́a
otro modelo?
La tabla 3.3 presenta datos sobre el número de suscriptores de teléfo-
nos celulares y el número de computadoras personales (PC), ambos
por cada 100 personas, y el ingreso per cápita ajustado por el poder
adquisitivo en dólares para una muestra de 34 paı́ses. Por tanto, se
trata de datos transversales. Estos datos corresponden a 2003 y se
obtuvieron del Statistical Abstract of the United States, 2006. Aun-
que los teléfonos celulares y las computadoras personales son muy
comunes en Estados Unidos, no ocurre lo mismo en muchos paı́ses.
Para ver si el ingreso per cápita es un factor que influye en el uso
de teléfonos celulares y PC, se regresó cada uno de estos medios
de comunicación sobre el ingreso per cápita con la muestra de 34
paı́ses.
a) Determine si el número de suscriptores de teléfono depende
linealmente del ingreso percapital.
b) ¿Qué tipo de correlación existe entre las variables?
c) ¿Cómo interpreta la pendiente del modelo?
d) Construya un intervalo de confianza del 98 % para la
verdadera pendiente del modelo.
e) ¿Son significativos los parámetros del modelo o propondrı́a
otro? Explique.
f) Realice lo mismo que en los incisos anteriores para el número
de PCs.
Intervalos de Predicción
Para realizar un intervalo de predicción del (1 − α) × 100 % para una

respuesta y0 esta dada por:
I .C .(1−α)×100 % = (L, U)
donde tenemos que:
s
1 (x0 − x̄)2
L := yˆ0 − tα/2 s 1+ +
n Sxx
y
s
1 (x0 − x̄)2
U := yˆ0 + tα/2 s 1+ +
n Sxx

Regresión Lineal

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Lineal

Cargado por

Copyright:

Formatos disponibles

Diplomado en Estadı́stica: Modulo III

Regresión Lineal en SPSS y Excel

Universidad Nacional Autónoma de Honduras

11 de noviembre del 2023

Intervalos de Confianza de los Parámetros de la Regresión

Intervalos de Confianza de los Parámetros de la Regresión

Intervalos de Confianza de los Parámetros de la Regresión

La idea central de la regresión lineal es la siguiente.

{(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}

y graficamos su diagrama de dispersión observando si existe alguna

donde β0 y β1 son parámetros por determinar y u es una variable

donde {(xi , yi )}ni=1 es la muestra seleccionada e Ŷ = β0 + β1 x es la

donde x podrı́a ser el PIB (Producto Interno Bruto) y Y es el Gasto

Donde Ŷ es la variable estimada.

¿Cómo sabemos si el modelo que utilizamos es el correcto? es de-

Para realizar pruebas de Hipótesis solo debemos tener en cuenta lo

Para realizar un intervalo de predicción del (1 − α) × 100 % para una

También podría gustarte