Está en la página 1de 24

Diplomado en Estadı́stica: Modulo III

Regresión Lineal en SPSS y Excel

Leandro Galo

Universidad Nacional Autónoma de Honduras


Maestrı́a en Matemática

11 de noviembre del 2023


Indice

Regresión Lineal
Indice

Regresión Lineal

Coeficiente de Correlación
Indice

Regresión Lineal

Coeficiente de Correlación

Intervalos de Confianza de los Parámetros de la Regresión


Indice

Regresión Lineal

Coeficiente de Correlación

Intervalos de Confianza de los Parámetros de la Regresión

Pruebas de Hipótesis
Indice

Regresión Lineal

Coeficiente de Correlación

Intervalos de Confianza de los Parámetros de la Regresión

Pruebas de Hipótesis

Intervalos de Predicción
Regresión Lineal

La idea central de la regresión lineal es la siguiente.


Si tenemos dos variables aleatoria cuantitativas X e Y de las cuales
suponemos una relación lineal o una dependencia lineal de la variable
Y con respecto a la variable aleatoria X , queremos conocer dicha
relación, la cual sabemos que será de la forma

Y ≈ β0 + β1 X .
Usualmente para ver si hay una relación lineal entre las variables X
e Y tomamos una muestra de tamaño n de la forma

{(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}

y graficamos su diagrama de dispersión observando si existe alguna


correlación.
Una vez observado el diagrama de dispersión podemos proponer un
modelo que se ajuste a la realidad muestreada. El modelo que se
propone será de la forma

Y = β0 + β1 x + u (1)

donde β0 y β1 son parámetros por determinar y u es una variable


de error tal que E (u) = 0.
Cómo deseamos estimar nuestro modelo (1) utilizamos una muestra
aleatoria de n pares ordenados de la forma {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )}
y esta nos dará a su vez una recta de aproximación de la forma
ŷ := b0 + b1 x, donde se espera que E (b0 ) = β0 y E (b1 ) = β1 .
Usualmente en estadı́stica para encontrar el mejor modelo de regre-
sión lineal utilizamos el conocido método de mı́nimos cuadrados, el
cual consiste en minimizar el error cuadrático dado por
n
X n
X
E (β0 , β1 ) = (yi − ŷi )2 = (yi − β0 − β1 xi )2
i=1 i=1

donde {(xi , yi )}ni=1 es la muestra seleccionada e Ŷ = β0 + β1 x es la


variable que estima a Y .
De todo lo anterior al aplicar el método de mı́nimos cuadrados para
deducir el mejor modelo de regresión lineal obtenemos que

Pn Pn Pn Pn
n i=1 xi yi − i=1 xi i=1 yi i=1 (x − x̄)(y − ȳ )
β1 = = Pn
n i=1 xi − ( i=1 xi )2 2
Pn Pn
i=1 (x − x̄)
2

β0 = ȳ − β1 x̄
(2)
Ejemplo 1
Keynes postula que la propensión marginal a consumir (PMC), es
decir, la tasa de cambio del consumo generado por una unidad
(digamos, un dólar) de cambio en el ingreso, es mayor que cero
pero menor que uno.
Keynes no da el modelo, pero un economista matemático puede
proponer un modelo lineal de la forma

Y = β0 + β1 x, 0 < β1 < 1

donde x podrı́a ser el PIB (Producto Interno Bruto) y Y es el Gasto


de Consumo Personal, β0 y β1 son los parámetros por determinar
en el modelo.
El coeficiente β1 es el que corresponde al PMC.
Observemos unas cifras relacionadas con la economı́a de Estados
Unidos de 1960 a 2005, que se presentan en la base de datos del
ejemplo 1. La variable Y en esta base es el gasto de consumo personal
(GCP) agregado (para la economı́a en su conjunto), y la variable X,
el producto interno bruto (PIB), una medida del ingreso agregado,
ambos medidos en miles de millones de dólares.
Si aplicamos el método de mı́nimos cuadrados en SPSS o Excel, se
tiene el siguiente modelo lineal

Ŷ = −297.4989 + 0.7214x

Donde Ŷ es la variable estimada.


Coeficiente de Correlación

¿Cómo sabemos si el modelo que utilizamos es el correcto? es de-


cir,¿Cómo sabemos si las variables están correlacionadas de manera
lineal?
La manera correcta es calculando el coeficiente correlación de Pear-
son r , el cuál mide la fuerza o el grado de asociación lineal entre las
dos variables.
Para calcularlo seguimos la siguiente formula:
P P P
n xi yi − xi yi
r = rh i h i
n xi2 − ( xi )2 n yi2 − ( yi )2
P P P P

Donde −1 ≤ r ≤ 1.
Obs: El coeficiente de Correlación de Pearson esta entre −1 y 1.
¿Qué nos indica el calculo del coeficiente de correlación de Pearson?
▶ Si 0.5 < r < 1 la relación entre las variables es positiva
(directa).
▶ Si r = 1 la relación entre las variables es positiva perfecta.
▶ Si −1 < r < −0.5 la relación entre las variables es negativa
(inversa).
▶ Si r = −1 la relación de las variables es negativa perfecta.
▶ Si −0.5 ≤ r ≤ 0.5 decimos que no hay relación lineal entre las
variables.
Ejercicio 1
La tabla 2.6 proporciona datos sobre el nivel de estudios (medido
en años de escolaridad), el salario promedio por hora devengado
por las personas por nivel de escolaridad y el número de personas
en un nivel de estudios. Ernst Berndt obtuvo originalmente los
datos de la tabla de la encuesta de población de mayo de 1985.
¿Se podrı́a decir que existe una relación lineal entre la variable
escolaridad y la variable salarios?
¿Cuál serı́a el modelo de regresión lineal?
¿Cómo interpreta la pendiente del modelo?
¿Qué nivel de escolaridad debe tener alguien con un salario de
11.45?
¿Como se interpreta el tipo de correlación?
Intervalos de Confianza para los Parámetros de la
Regresión
¿Cómo saber si los estimadores de los parámetros de la regresión
lineal son los adecuados?
Una manera de determinar buenos estimadores es construyendo in-
tervalos de confianza para cada uno de ellos. Por ejemplo para la
pendiente de la recta de regresión tendremos:
Un intervalo de confianza del (1 − α) × 100 % para la verdadera
pendiente β1 de regresión será
s s
b1 − tα/2 √ < β1 < b1 + tα/2 √
Sxx Sxx
donde
▶ b1 es la pendiente de la recta de regresión calculada a partir
de la P
muestra.
(yi − ŷi )2
▶ s2 = es el error cuadrático medio.
n−2
▶ Sxx = (xi − x̄)2 , Sxy = (x − x̄)(y − ȳ ).
P P
Un intervalo de confianza del (1 − α) × 100 % para el verdadero
intercepto β0 de la regresión será
s s
qX qX
b0 − tα/2 √ xi2 < β0 < b0 + tα/2 √ xi2
nSxx nSxx
donde
▶ b0 es el intercepto de la recta de regresión calculada a partir
de la P
muestra.
(yi − ŷi )2
▶ s2 = es el error cuadrático medio.
n−2
▶ Sxx = (xi − x̄)2 , Sxy = (x − x̄)(y − ȳ ).
P P
Pruebas de Hipótesis

Para realizar pruebas de Hipótesis solo debemos tener en cuenta lo


siguiente:
▶ Denotamos por β10 el valor supuesto para la pendiente y por
β00 para el intercepto.
▶ La distribución que utilizamos es una t-student.
▶ La estadı́stica de prueba para la pendientes será

b1 − β10
tp := √
s/ Sxx
▶ La estadı́stica de prueba para el intercepto será

b0 − β00
tp := qP
s xi2 /(nSxx )
Ejercicio 2: Con los datos de la tabla 2.6, (a) construya intervalos
de confianza para los verdaderos parámetros de los datos.
(b) ¿Son significativos los parámetros en el modelo? (c) ¿Propondrı́a
otro modelo?
La tabla 3.3 presenta datos sobre el número de suscriptores de teléfo-
nos celulares y el número de computadoras personales (PC), ambos
por cada 100 personas, y el ingreso per cápita ajustado por el poder
adquisitivo en dólares para una muestra de 34 paı́ses. Por tanto, se
trata de datos transversales. Estos datos corresponden a 2003 y se
obtuvieron del Statistical Abstract of the United States, 2006. Aun-
que los teléfonos celulares y las computadoras personales son muy
comunes en Estados Unidos, no ocurre lo mismo en muchos paı́ses.
Para ver si el ingreso per cápita es un factor que influye en el uso
de teléfonos celulares y PC, se regresó cada uno de estos medios
de comunicación sobre el ingreso per cápita con la muestra de 34
paı́ses.
a) Determine si el número de suscriptores de teléfono depende
linealmente del ingreso percapital.
b) ¿Qué tipo de correlación existe entre las variables?
c) ¿Cómo interpreta la pendiente del modelo?
d) Construya un intervalo de confianza del 98 % para la
verdadera pendiente del modelo.
e) ¿Son significativos los parámetros del modelo o propondrı́a
otro? Explique.
f) Realice lo mismo que en los incisos anteriores para el número
de PCs.
Intervalos de Predicción

Para realizar un intervalo de predicción del (1 − α) × 100 % para una


respuesta y0 esta dada por:

I .C .(1−α)×100 % = (L, U)
donde tenemos que:
s
1 (x0 − x̄)2
L := yˆ0 − tα/2 s 1+ +
n Sxx
y
s
1 (x0 − x̄)2
U := yˆ0 + tα/2 s 1+ +
n Sxx

También podría gustarte