Está en la página 1de 32

1

PRÁCTICA 1:
ANÁLISIS DE REGRESIÓN LINEAL
MÚLTIPLE Y DIAGNÓSTICO.
ÍNDICE

1. Objetivos......................................................................................................................3
2. Estudio de los antecedentes..........................................................................................3
3. Variables de estudio.....................................................................................................3
4. Modelo estadístico para utilizar...................................................................................3
5. Estudio piloto...............................................................................................................4
6. Tamaño y forma de la muestra.....................................................................................4
7. Análisis de datos..........................................................................................................4
7.1. Estadística descriptiva........................................................................................4
7.1.1. Tablas de frecuencias...............................................................................4
7.1.2. Gráficos....................................................................................................4
7.1.3. Estadísticos...............................................................................................4
7.2. Modelización y Estimación de los Coeficientes de Regresión. Modelo Estimado
5
7.2.1. Modelo de regresión lineal múltiple.........................................................5
7.2.1.1. Matriz de correlaciones......................................................................5
7.2.1.2. ANOVA del modelo de regresión lineal múltiple..............................6
7.2.1.3. Bondad de ajuste del modelo de regresión lineal múltiple.................6
7.2.2. Estimación de los coeficientes de regresión. Intervalos de confianza y test de
hipótesis.....................................................................................................7
7.2.3. Métodos paso a paso.................................................................................9
7.2.3.1. Selección hacia delante......................................................................9
7.2.3.2. Selección hacia atrás.........................................................................13
7.3. Diagnóstico de las hipótesis asociadas al modelo.............................................18
7.3.1. Normalidad..............................................................................................18
7.3.1.1. Histograma........................................................................................19
7.3.1.2. Gráfico de probabilidad normal.........................................................19
7.3.1.3. Test de Kolmogov-Smivov...............................................................20
7.3.1.4. Teorema central del límite................................................................20
7.3.2. Linealidad y homocedasticidad…...........................................................21
7.3.3. Independencia de errores….....................................................................21
7.3.4. Multicolinealidad.....................................................................................22
7.3.5. Variables continuas..................................................................................22
7.4. Diagnóstico de Observaciones Anómalas.........................................................22
7.5. Explotación del Modelo y Conclusiones...........................................................24
8. Acciones de mejora. Anexo..........................................................................................25
9. Trabajos futuros............................................................................................................27
10. Currículum...................................................................................................................28
11. Presupuesto..................................................................................................................28
1. OBJETIVOS.
La presente práctica consta de tres objetivos:
 El primer objetivo es predecir la calidad del agua -o concentración de nitrógeno- en
20 ríos de New York en función del porcentaje de terrenos agrícola, forestal,
residencial e industrial que los rodean.
 El segundo objetivo consiste en ver si esas variables influyen realmente en la
calidad el agua.
 El tercer objetivo es estudiar cuáles son las mejores variables para predecir.

2. ESTUDIO DE ANTECEDENTES.
Supone un costo elevado medir la calidad del agua -o concentración de nitrógeno- en 20
ríos de New York. No obstante, medir el porcentaje de terrenos agrícola, forestal, residencial e
industrial que rodean estos ríos permite un ahorro económico significativo. Esto nos lleva a
buscar un modelo de regresión lineal múltiple que permita predecir la concentración de
nitrógeno a través del porcentaje de terrenos agrícola, forestal, residencial e industrial.
Los datos son reales y proporcionados por Ali S. Hadi profesor e investigador de la
Universidad de Cornell en New York. El antecedente de este trabajo es para una tesis doctoral y
para la docencia.

3. VARIABLES DE ESTUDIO.
 Variable dependiente concentración de nitrógeno -o CONCENTR-, cuantitativa
continua. Se mide en mg/L.
 Variables independientes:
x1: AGRÍCOLA (haciendo referencia al terreno agrícola).
x2: FORESTAL (haciendo referencia al terreno forestal).
x3: RESIDENCIAL (haciendo referencia al terreno residencial).
x4: COMIND (haciendo referencia al terreno industrial).
También son cuantitativas continuas y de miden en porcentajes.

4. MODELO ESTADÍSTICO PARA UTILIZAR.


En general, un modelo de regresión lineal múltiple se expresa mediante una fórmula
como la siguiente:
Y = β0 + β1 · X1 + β2 · X2 + ⋯ + βk−1 · Xk−1 + ε
Que matricialmente podemos expresar como:
𝑦1
𝑦2 𝑥1,0 𝑥1,3 𝑥1,2 ⋯ 𝑥1,𝑘−1 𝛽0 𝜀1
⋮ ⋱ ⋮ 𝛽1 𝜀2
(… ) = ( 𝑥 𝑥 𝑥 ⋯ 𝑥𝑛,𝑘−1 ) · (𝛽… ) + ( …)
𝑦 𝑛,0 𝑛,1 𝑛,2 𝜀
𝑛 𝑘−1 𝑛
Donde

𝑌 𝜖 𝑀𝑛𝑥1 es el vector de la variable a explicar. Respuesta del modelo teórico. Variable


dependiente.
𝑋 𝜖 𝑀𝑛𝑥𝑘 es la matriz de las variables explicativas, regresores o independientes.
𝛽 𝜖 𝑀𝑘𝑥1 es el vector de los estimadores de los coeficientes de regresión.
𝜀 𝜖 𝑀𝑛𝑥1 es el vector de los errores experimentales.
Las hipótesis asociadas a un modelo de regresión lineal múltiple son:
i. E [𝜀] = 0.
ii. La varianza del error es siempre constante y no depende de X (homocedasticidad).
iii. Los errores son independientes entre sí, es decir,
𝐶𝑜𝑣(𝑒𝑖, 𝑒𝑗) = 𝛿𝑖𝑗 𝜎2

(independencia de los errores).


iv. El error posee una distribución normal (normalidad).

v. Todas las observaciones poseen igual importancia en la estimación de los resultados


mínimo.
vi. Todas las variables deben ser continuas.
Con esto, podemos plantear inicialmente el siguiente modelo:

CONCENTR = β0 + β1 · AGRÍCOLA + β2 · FORESTAL +


+β3 · RESIDENCIAL + β4 · COMIND + ε

5. ESTUDIO PILOTO.
No procede.

6. TAMAÑOS Y FORMA DE LA MUESTRA.


No procede.

7. ANÁLISIS DE DATOS.
7.1. ESTADÍSTICA DESCRIPTIVA.
7.1.1. TABLAS DE FRECUENCIAS.
7.1.2. GRÁFICOS.
7.1.3. ESTADÍSTICOS.
No procede.
7.2.MODELIZACIÓN Y ESTIMACIÓN DE COEFICIENTES DE
REGRESIÓN. MODELO ESTIMADO.
7.2.1. MODELO DE REGRESIÓN LINEAL MÚLTIPLE.
Anteriormente habíamos planteado el siguiente modelo de regresión lineal múltiple:

CONCENTR = β0 + β1 · AGRÍCOLA + β2 · FORESTAL +


+β3 · RESIDENCIAL + β4 · COMIND + ε
Nos interesa calcular los estimadores de los coeficientes de regresión (β0, 𝛽1, 𝛽2, 𝛽3 y β4)
para conocer el modelo predicho. Así tendríamos el primer objetivo.
Luego, veríamos que variables influyen en este modelo y cuáles son las mejores variables.
Con ello logramos el segundo y tercer objetivo

7.2.1.1. MATRIZ DE CORRELACIONES.


Dado que tratamos de predecir una variable a partir de otras, parece lógico estudiar cuán
correladas están las variables entre sí. Adjuntamos la matriz de correlaciones:

Correlacion
es
CONCENTR AGRICOL FORESTA RESIDENCIA COMIN
A L L D
Correlación de Pearson CONCENTR 1,000 ,401 -,773 ,566 ,532
AGRICOLA ,401 1,000 -,683 -,242 -,346
FORESTAL -,773 -,683 1,000 -,503 -,309
RESIDENCIAL ,566 -,242 -,503 1,000 ,859
COMIND ,532 -,346 -,309 ,859 1,000
Sig. (unilateral) CONCENTR . ,040 ,000 ,005 ,008
AGRICOLA ,040 . ,000 ,152 ,068
FORESTAL ,000 ,000 . ,012 ,093
RESIDENCIAL ,005 ,152 ,012 . ,000
COMIND ,008 ,068 ,093 ,000 .
N CONCENTR 20 20 20 20 20
AGRICOLA 20 20 20 20 20
FORESTAL 20 20 20 20 20
RESIDENCIAL 20 20 20 20 20
COMIND 20 20 20 20 20

Esta primera tabla contiene la matriz de correlaciones que nos permite ver cuán
correladas están las variables una a una. Decimos que la correlación entre variables es alta si la
correlación de Pearson es próxima a -1 o 1 y decimos que es baja si es próxima a 0.
Nos interesa que la correlación entre la variable dependiente -que es la concentración de
nitrógeno- este altamente correlada con cada una de las variables independientes -que son el
resto de las variables-. Podemos observar que, en general, existe poca correlación. Sin
embargo, esto
no debe preocuparnos, pues esta correlación es univariante y el modelo planteado es
multivariante.

7.2.1.2. ANOVA DEL MODELO DE REGRESION LINEAL MULTIPLE.


La tabla siguiente muestra el ANOVA de la regresión lineal múltiple y con ella veremos
si el modelo tiene sentido o no.

ANOV
Aa
Suma Medi
Mode de g a F S
lo l ig
cuadrad cuadráti .
os ca
1 Regresión 2,570 4 ,642 9,1 ,
54 00
1b
Residuo 1,053 15 ,070
Total 3,623 19
a. Variable dependiente: CONCENTR
b. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL, AGRICOLA

Para ver si el modelo tiene sentido plantemos el siguiente test de hipótesis que contrasta
que el modelo no tenga sentido frente a que si lo tenga:
H0: β1 = β2 = β3 = β4 = 0
}⟹
H1: Caso contrario
⟹ p − valor = 0.00059 ≈ 0.001 < α = 0.01 ∧ p − valor ≈ 0.001 < α = 0.05 ⟹
⟹ rechazamos H0 ⇒ ∃i = 1,2,3,4⁄βi ≠ 0
Luego, el modelo tiene sentido, porque al menos una variable predictora influye en el
modelo.

7.2.1.3. BONDAD DE AJUSTE DEL MODELO DE REGRESIÓN LINEAL


MÚLTIPLE.
A continuación, se muestra la tabla de coeficiente de correlación al cuadrado y
coeficiente de correlación al cuadrado ajustado:

Resumen del modelo


R Error
Modelo R R cuadra estándar de
cuadrado
do la estimación
ajustad
o
1 , ,709 ,632 ,
84 2649
2a 2
a. Variables predictoras: (Constante), COMIND, FORESTAL,
RESIDENCIAL, AGRICOLA

Esta tabla nos permite estudiar la bondad de ajuste del modelo de regresión lineal
múltiple, es decir, nos permite conocer que tan bueno es el modelo.
Observamos que el modelo nos está explicando un 70.9% de la varianza de la
concentración de nitrógeno. Dicho porcentaje puede ser bueno dependiendo del entorno.

7.2.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN.


INTERVALOS DE CONFIANZA Y TEST DE HIPÓTESIS.
Adjuntamos la tabla de los coeficientes:

Coeficient
esa

Coeficien 95,0%
tes Coeficiente intervalo de Estadísticas
no s confianza Correlaciones de
estandarizad estandarizad para B colinealida
os
os t Si d
Des g. Lími Límit Ord
Modelo B v. Beta te e en Parci Par Toleranc VIF
Erro inferi superi cer al te ia
r or or o
1 (Constante) 1,7 1,23 1,3 , -,9 4,3
22 4 96 18 08 53
3
AGRICOL , , ,196 , , -,0 , , ,099 , ,075 13,2
A 00 015 38 70 26 038 40 05 77
6 6 5 1 4
FORESTAL -,0 , -,530 -,9 , -,0 , -,77 -,23 - ,060 16,7
13 014 31 36 43 017 3 4 , 27
7 13
0
RESIDENCI -,0 , -,106 -,2 , -,0 , , -,05 - ,079 12,6
AL 07 034 14 83 79 065 56 5 , 82
4 6 03
0
COMIND , , ,528 1,8 , -,0 , , ,433 , ,241 4,14
30 164 62 08 44 654 53 25 5
5 2 2 9
a. Variable dependiente: CONCENTR

Esta tabla presenta los coeficientes de regresión estimados. A partir de ella veremos
cómo cumplimos los tres objetivos. Como podemos ver, IBM SPSS Statistics 25 nos muestra un
modelo con término independiente y otro sin el:
MODELO 1

CON̂CENTR
= 1.722 + 0.006 · AGRÍCOLA − 0.13 · FORESTAL −
−0.007 · RESIDENCIAL + 0.305 · COMIND + ε′
MODELO 2

CON̂CENTR
= 0 + 0.196 · AGRÍCOLA − 0.530 · FORESTAL −
−0.106 · RESIDENCIAL + 0.528 · COMIND + ε
Por tanto, para elegir el modelo realizamos el siguiente test de hipótesis:

H0: β0 = 0
H1: β0 ≠ 0 } ⟹
⟹ p − valor = 0.183 > α = 0.01 ∧ p − valor = 0.183 > α = 0.05 ⟹
⟹ El test es NO SIGNIFICATIVO, aceptamos H 0.
Luego, el modelo predicho es el MODELO 2, cuyos coeficientes de regresión son los
correspondientes a la columna denominada Beta de la tabla de coeficientes anterior. Con esto,
ya tenemos el objetivo 1.
Con esta misma tabla abordaremos el objetivo 2. Veamos que variables influyen en el
modelo.
Planteamos el siguiente test de hipótesis:

H0: β1 = 0
H1: β1 ≠ 0 } ⟹
⟹ p − valor = 0.705 > α = 0.01 ∧ p − valor = 0.705 > α = 0.05 ⟹
⟹ El test es NO SIGNIFICATIVO, aceptamos H 0.
En este test contrastamos que el porcentaje de terreno agrícola no influye en la
concentración de nitrógeno (hipótesis nula) frente a que si influye. Entonces, tenemos que la
variable AGRICOLA (recordemos que β1 es el coeficiente de regresión asociado a la variable
AGRICOLA) no influye linealmente en la concentración de nitrógeno.
Análogamente, realizando el mismo test de hipótesis para cada una de las variables
independientes podemos ver que ninguna de estas variables influye linealmente en la
concentración de nitrógeno. Es decir, ninguna influye en el modelo predicho. Esto contradice el
ANOVA de regresión en el que habíamos visto que el modelo planteado tenía sentido, pues al
menos una de las variables independientes influía.
Por otra parte, la tabla anterior también nos muestra la tolerancia.
La tolerancia de la variable AGRÍCOLA, por ejemplo, se define matemáticamente como:
Tolerancia⁄ = 1 − R2AGRICOLA, otras
AGRICOLA
Este es el caso de la variable AGRICOLA dónde

𝑅2 = 𝑐𝑜𝑟𝑟(𝐴𝐺𝑅𝐼𝐶𝑂𝐿𝐴, 𝑜𝑡𝑟𝑎𝑠)
𝐴𝐺𝑅𝐼𝐶𝑂𝐿𝐴,𝑜𝑡𝑟𝑎𝑠
es la correlación entre variable AGRICOLA y el resto de las variables.
La tolerancia nos indica cuán correladas están las variables independientes y nos
permite diagnosticar la multicolinealidad, esta se produce cuando las variables independientes
están muy correladas.
De la expresión matemática anterior deducimos que, a medida que la tolerancia se
aproxima a 0, la correlación de cualquiera de las variables con el resto se próxima a 1. Esto
mismo observamos en la tabla, por tanto, las variables están muy correladas y tenemos un error
que tiende a infinito.
7.2.3. METODOS PASO A PASO.
La solución -del problema que se nos presenta- se basa en construir el mejor modelo de
regresión lineal múltiple. Para ello, vamos a iterar distintos algoritmos paso a paso con el fin
de descartar variables no necesarias en el estudio.
En estos métodos se basan en añadir o eliminar variables hasta alcanzar un modelo
satisfactorio.
Hay 3 algoritmos básicos para la regresión paso a paso:
 “Selección hacia delante” (forward Selection, F-S), donde los predictores se
van añadiendo en cada paso.
 “Selección hacia detrás” (Backward Elimination, BE), donde los predictores
se van eliminando.
 “Modo paso a paso” (Stepwise Selection, SW), donde los predictores se
añaden, se eliminan o se intercambian (una que está dentro por otra que está
fuera).
A continuación, seleccionaremos el mejor submodelo de regresión con las dos primeras
técnicas paso a paso.

7.2.3.1. SELECCIÓN HACIA DELANTE (FORWARD SELECTION, F-S).


Vamos a implementar el algoritmo correspondiente a este método:
PASO 0
Partimos de un modelo vacío, es decir, de una expresión que no depende de las
variables independientes,

CON̂CENTR = β0 + ε
PASO 1
En este paso entra la variable de menor p-valor, ósea la más significativa.
En nuestro caso la primera sería la variable FORESTAL. Si realizamos el test de
hipótesis correspondiente, obtenemos un p-valor de 0,000 para esta variable. Por tanto, es
significativa y la añadimos al modelo,

CON̂CENTR = β0 + β2 · FORESTAL + ε
Al ser significativa seguimos iterando el algoritmo.
PASO 2
La segunda variable para considerar es COMIND. De manera análoga, realizamos el
test de hipótesis correspondiente y obtenemos que un p-valor de 0.016, por tanto, rechazamos
H0 y es significativa. Añadimos la variable COMIND al modelo,

CON̂CENTR = β0 + β2 · FORESTAL + β4 · COMIND + ε


PASO 3
La tercera variable sería AGRICOLA, al realizar el test de hipótesis asociado tenemos
un p-valor de 0.3, luego el test es no significativo. Y esta es la regla de parada de la selección
hacía delante.
Por tanto, el nuevo modelo que obtenemos mediante este método es

CON̂CENTR = β0 + β2 · FORESTAL + β4 · COMIND + ε


En el IBM SPSS Statistics 25, se resume este proceso con la siguiente tabla:

Variables entradas/eliminadasa
Variab Variabl
Model les es Método
o entrad eliminad
as as
1 FORESTAL . Avanzar
(Criterio:
Probabilid
ad- de-F-
para-
entrar <= ,
050)
2 COMIND . Avanzar
(Criterio:
Probabilid
ad- de-F-
para-
entrar <= ,
050)
a. Variable dependiente: CONCENTR

La siguiente tabla muestra el ANOVA del modelo con las variables independientes
FORESTAL y COMIND.

ANOV
Aa
Suma Medi
Mod de g a F Sig.
elo cuadrad l cuadráti
os ca
1 Regresión 2,167 1 2,167 26,799 ,000b
Residuo 1,456 18 ,081
Total 3,623 19
2 Regresión 2,512 2 1,256 19,236 ,000c
Residuo 1,110 17 ,065
Total 3,623 19
a. Variable dependiente: CONCENTR
b. Predictores: (Constante), FORESTAL
c. Predictores: (Constante), FORESTAL, COMIND
En dicha tabla se realiza el siguiente test de hipótesis:
H0: β2 = β4 = 0
}⟹
H1: Caso contrario
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
Por tanto, el modelo tiene sentido.
Luego, el nuevo modelo tiene sentido y el resumen del modelo sería:

Resumen del
modeloc
Estadísticos de cambio

R R Error estándar Durbi


cuadra cuadra de la n-
do do estimación Wats
ajustad on
o Sig.
Cambio en Cam Cambio
Mode R R bio g g en F
lo cuadrado en l l
1 2
F
1 , ,598 ,576 ,28437 ,598 26,799 1 1 ,000
77 8
3a
2 , ,694 ,657 ,25555 ,095 5,288 1 1 ,034 1,5
83 7 21
3b
a. Predictores: (Constante), FORESTAL
b. Predictores: (Constante), FORESTAL, COMIND
c. Variable dependiente: CONCENTR

Esta tabla nos indica que el nuevo modelo con las variables independientes FORESTAL
y COMIND explica el 69,4% de la variabilidad de la concentración de nitrógeno.
La siguiente tabla nos muestra los nuevos coeficientes de regresión del modelo:

Coeficient
esa
Coef
ici 95,0%
Coeficientes entes intervalo de Estadísticas
no estan confianza Correlaciones de
estandarizad da para B colinealida
os rizad d
os
t Si Lím Lími
g.
De ite te Ord
Modelo B sv. Beta infe supe en Parci Part Toleranc VIF
Err rio rio cer al e ia
or r r o
1 (Constan 2,3 ,238 9,844 , 1,84 2,848
te 47 00 6
) 0
FORE -,0 ,004 -,7 -5,177 , -,027 -,011 -,7 -,7 -,77 1,000 1,0
ST AL 19 73 00 73 73 3 00
0

2 (Constan 2,0 ,240 8,718 , 1,58 2,604


te 96 00 9
) 0
FORE -,01 ,003 -,673 -4,769 , -,024 -,009 -,77 -,756 -,64 ,905 1,105
ST AL 6 00 3 0
0

COMIN ,188 ,082 ,325 2,300 , ,015 ,360 ,532 ,487 ,309 ,905 1,105
D 03
4
a. Variable dependiente: CONCENTR

Nuevamente estamos frente a dos posibles modelos predichos, aquel que tiene como
coeficientes los valores de la columna B y aquel que tiene como coeficientes los valores de la
columna Beta. Es decir, tenemos los dos modelos:
MODELO 1

CON̂CENTR = 2.096 − 0.016 · FORESTAL + 0.188 · COMIND + ε


MODELO 2

CON̂CENTR = 0 − 0.673 · FORESTAL + 0.325 · COMIND + ε


Debemos realizar el siguiente test de hipótesis con el fin de elegir uno de ellos:

H0: β0 = 0
H1: 𝛽0 ≠ 0} ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
Luego, elegimos el modelo con término independiente, es decir, el MODELO 1:

CON̂CENTR = 2.096 − 0.016 · FORESTAL + 0.188 · COMIND + ε


Veamos ahora si estas dos variables influyen linealmente. Para ello, planteamos los test
de hipótesis:

H0: β2 = 0
H1: β2 ≠ 0 } ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
La variable FORESTAL influye en el modelo.

H0: β4 = 0
H1: 𝛽4 ≠ 0} ⟹
⟹ p − valor = 0.034 < α = 0.05
Aceptamos que la variable COMIND influye con una significación del 95% de
confianza.
Ambas variables tienen una tolerancia de 0.905, próxima a 1, por tanto, la correlación es
baja y hemos resuelto el problema de multicolinealidad .
7.2.3.2. SELECCIÓN HACIA DETRÁS (BACKWARD ELIMINATION, BE).
Vamos a implementar el algoritmo correspondiente a este método:
PASO 0
Partimos de un modelo lineal completo, es decir, del modelo inicial que depende de
todas las variables independientes,

CON̂CENTR = β0 + β1 · AGRÍCOLA + β2 · FORESTAL +


+β3 · RESIDENCIAL + β4 · COMIND + ε
PASO 1
En este paso eliminamos la variable de mayor p-valor, ósea la menos significativa.
En nuestro caso la primera sería la variable RESIDENCIAL. Por tanto,

CON̂CENTR = β0 + β1 · AGRÍCOLA + β2 · FORESTAL + β4 · COMIND + ε


Al ser significativa seguimos iterando el algoritmo.
PASO 2
La segunda variable en ser eliminada es AGRÍCOLA. Por tanto,

CONCENTR = β0 + β2 · FORESTAL + β4 · COMIND + ε


PASO 3
La tercera variable sería COMIND, pero al realizar el test de hipótesis correspondiente
vemos que es no significativa.
Por tanto, el nuevo modelo que obtenemos mediante este método es

CON̂CENTR = β0 + β2 · FORESTAL + β4 · COMIND + ε


Este modelo depende únicamente de las variables independientes FORESTAL y
COMIND al igual que el modelo obtenido a partir el método hacia delante (F-S).
En el IBM SPSS Statistics 25, se resume este proceso con la siguiente tabla:

Variables entradas/eliminadasa
Variab Variabl
Model les es Método
o entrad eliminad
as as
1 COMIND, . Introducir
FORESTAL
,
RESIDENC
IA L,
AGRICOLAb
2 . AGRICOLA Retrocede
r (criterio:
Probabilid
ad de F-
para-
eliminar
>=
,100).
3 . RESIDENCI Retroceder
A
L (criterio:
Probabilidad
de F-para-
eliminar >=
,100).
a. Variable dependiente: CONCENTR
b. Todas las variables solicitadas introducidas.

La siguiente tabla muestra el ANOVA del modelo con las variables independientes
FORESTAL y COMIND.

ANOV
Aa
Suma Medi
Mod de g a F Sig.
elo cuadrad l cuadráti
os ca
1 Regresión 2,570 4 ,642 9,154 ,001b
Residuo 1,053 15 ,070
Total 3,623 19
2 Regresión 2,559 3 ,853 12,838 ,000c
Residuo 1,063 16 ,066
Total 3,623 19
3 Regresión 2,512 2 1,256 19,236 ,000d
Residuo 1,110 17 ,065
Total 3,623 19
a. Variable dependiente: CONCENTR
b. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL, AGRICOLA
c. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL
d. Predictores: (Constante), COMIND, FORESTAL

En dicha tabla se realiza el siguiente test de hipótesis:


H0: β2 = β4 = 0
}⟹
H1: Caso contrario
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
Luego, el modelo tiene sentido.
La tabla siguiente muestra un resumen del nuevo modelo:

Resumen del
modelod
Error Estadísticos de cambio
R estánd
R cuadr ar de la Durb
cuadr ad o estima in
ad o ajusta ció -
do n Wats
on
Camb
io en Si
Mo R Ca g g g.
del R cuadr mbi l l Ca
o ad o en mbi
o F 1 2 o en
F
1 , ,709 ,632 ,26492 ,709 9,154 4 1 ,001
84 5
2
a

2 , ,707 ,651 ,25778 -,003 ,149 1 1 ,705


84 5
1
b

3 , ,694 ,657 ,25555 -,013 ,707 1 1 ,413 1,5


83 6 21
3
c

a. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL, AGRICOLA


b. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL
c. Predictores: (Constante), COMIND, FORESTAL
d. Variable dependiente: CONCENTR

Observamos en esta tabla que el nuevo modelo con las variables independientes
FORESTAL y COMIND explica el 69,4% de la variabilidad de la concentración de nitrógeno.
La siguiente tabla nos muestra los nuevos coeficientes de regresión del modelo:
Coeficient
esa

Coeficientes Coeficient 95,0% intervalo Estadísticas de


no es de confianza Correlaciones colinealidad
estandarizad estandarizad para B
os os

t Si
g.
De Lími Lími Ord
Modelo B sv. B te te en Parci Part Toleranc VI
et al e ia F
Err a infer super ce
or ior ior ro
1 (Constante) 1,7 1,234 1,3 , -,908 4,353
22 96 1
8
3
AGRICOLA , ,015 ,196 , , -,026 ,038 ,401 ,099 ,054 ,075 13,27
006 3 7 7
8 0
6 5
RESIDENCI -,00 ,034 -,106 -,21 , -,079 ,065 ,566 -,055 -,030 ,079 12,68
AL 7 4 8 2
3
4
FORESTAL -,01 ,014 -,530 -,93 , -,043 ,017 -,77 -,234 -,130 ,060 16,72
3 1 3 3 7
6
7
COMIND , ,164 ,528 1,8 , -,044 ,654 ,532 ,433 ,259 ,241 4,145
305 62 0
8
2
2 (Constante) 2,1 ,266 8,2 , 1,624 2,750
87 34 0
0
0
RESIDENCI -,01 ,021 -,255 -,84 , -,061 ,026 ,566 -,206 -,114 ,200 5,008
AL 7 1 4
1
3
FORESTAL -,01 ,004 -,740 - , -,027 -,010 -,77 -,750 -,615 ,689 1,450
8 0 3
0
4,5 0
37
COMIND , ,159 ,523 1,8 , -,035 ,640 ,532 ,429 ,257 ,242 4,137
302 98 0
7
6
3 (Constante) 2,0 ,240 8,7 , 1,589 2,604
96 18 0
0
0
FORESTAL -,01 ,003 -,673 - , -,024 -,009 -,77 -,756 -,640 ,905 1,105
6 0 3
0
4,7 0
69
COMIND , ,082 ,325 2,3 , ,015 ,360 ,532 ,487 ,309 ,905 1,105
188 00 0
3
4
a. Variable dependiente: CONCENTR
Como ocurría con el método anterior, tenemos dos modelos predichos:
MODELO 1

CON̂CENTR = 2.096 − 0.016 · FORESTAL + 0.188 · COMIND + ε


MODELO 2

CON̂CENTR = 0 − 0.673 · FORESTAL + 0.325 · COMIND + ε


Son exactamente los mismos modelos que habíamos obtenido con el proceso anterior.
De manera totalmente análoga, debemos realizar el siguiente test de hipótesis con el fin de
elegir uno de ellos:

H0: β0 = 0
H1: 𝛽0 ≠ 0} ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0 < α = 0.05 ⟹
⟹ rechazamos H0
Luego, elegimos el modelo con término independiente, es decir, el MODELO 1:

CON̂CENTR = 2.096 − 0.016 · FORESTAL + 0.188 · COMIND + ε


Veamos nuevamente si estas dos variables influyen linealmente. Para ello, planteamos
los test de hipótesis:

H0: β2 = 0
H1: 𝛽2 ≠ 0} ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
La variable FORESTAL influye en el modelo.

H0: β0 = 0
H1: 𝛽0 ≠ 0} ⟹
⟹ p − valor = 0.034 < α = 0.05
Aceptamos que la variable COMIND influye con una significación del 95% de
confianza.
Ambas variables tienen una tolerancia de 0.905, próxima a 1, por tanto, la correlación es
baja y hemos resuelto el problema de multicolinealidad.
Finalmente, podemos concluir que el mejor modelo es:

CON̂CENTR = 2.096 − 0.016 · FORESTAL + 0.188 · COMIND + ε


En el caso de que no ocurriera esto, es decir, no coincidan los modelos con los distintos
métodos implementados, buscamos otros métodos de selección de variables como:
 Modo paso a paso (Stepwise Selection, SW). Lo hemos mencionado
anteriormente.
 Criterio de información Akaike (AIC).
 Criterio de información Bayesiano (BIC).
 Método del costo promedio (CP).
Con el fin de solventar nuestro problema y lograr el mejor modelo de regresión lineal
múltiple.

7.3. DIAGNÓSTICO DE LAS HIPÓTESIS ASOCIADAS AL MODELO.


Para llevar a cabo una buena interpretación de un modelo de regresión debemos
acompañar siempre nuestro estudio de la diagnosis y validación del modelo.
El diagnóstico de las hipótesis relativas a los errores se realizará sobre los residuales
dado que los errores son desconocidos. Dichos residuales los obtenemos mediante IBM SPSS
Statistics 25 y son:

Añadimos a nuestros datos esta nueva columna llamada ZRE_1, esta columna son los
residuales.

7.3.1. NORMALIDAD.
Necesitamos garantizar la normalidad de la variable dependiente (CONCENTR) para
poder realizar inferencia estadística.
El diagnóstico de la normalidad lo llevaremos a cabo mediante cuatro herramientas.
7.3.1.1. HISTOGRAMA.
El histograma correspondiente es:

El histograma es una herramienta para diagnosticar la normalidad. Podemos ver a nivel


descriptivo si nuestra variable sigue una distribución normal o no. A simple vista diríamos que
no tenemos normalidad, pues este histograma no se asemeja a la campana de Gauss.
Comentaremos exhaustivamente este histograma en la sección de anomalías.

7.3.1.2. GRÁFICO DE PROBABILIDAD NORMAL.


Adjuntamos ahora el gráfico de probabilidad normal o, lo que es lo mismo, gráfico P-P:
Este gráfico es otra herramienta para diagnosticar la normalidad. Podemos ver a nivel
descriptivo si nuestra variable sigue una distribución normal o no. Indica que una variable sigue
una distribución normal si los puntos que siguen fielmente la línea recta. Por tanto, visualmente,
diríamos que no tenemos normalidad.
Aunque estas dos primeras herramientas indiquen que no tenemos normalidad, no es
suficiente, pues solo se trata de un mero tanteo visual.

7.3.1.3. TEST KOLMOGOV-SMIMOV.


El test Kolmogov-Smimov nos permite diagnosticar si la variable dependiente
CONCENTR sigue o no una distribución normal.
Si realizamos este test mediante el IBM SPSS Statistic 25, obtenemos la siguiente tabla:

Prueba de Kolmogorov-Smirnov para una


muestra
Standardized
Residual
N 20

Parámetros normalesa,b Media ,0000000


Desv. Desviación ,88852332

Máximas Absoluto ,142


diferencias Positivo ,142
extremas
Negativo -,109
Estadístico de prueba ,142
Sig. asintótica(bilateral) ,200c,d
a. La distribución de prueba es normal.
b. Se calcula a partir de datos.
c. Corrección de significación de Lilliefors.
d. Esto es un límite inferior de la significación verdadera.

El test de Kolmogov-Smimov correspondiente es:


H0: 𝐶𝑂𝑁̂𝐶𝐸𝑁𝑇𝑅 ≅ Normal
H1: 𝐶𝑂𝑁̂𝐶𝐸𝑁𝑇𝑅 ≇ No normal } ⟹
⟹ p − valor = 0.2 > α = 0.01 ∧ p − valor = 0.2 > α = 0.05 ⟹
⟹ NO SIGNIFICATIVO
Luego, ya tenemos la normalidad de la variable dependiente CONCENTR. En el caso
de que esto no fuese así, habría que abandonar el modelo de regresión lineal múltiple e ir a la
estadística no paramétrica. O bien, utilizar otros recursos como BOOTSTRAP
(PERMANOVA).

7.3.1.4. TEOREMA CENTRAL DEL LÍMITE.


No podemos aplicar el Teorema Central del Límite porque nuestra variable no es
promedio.
7.3.2. LINEALIDAD Y HOMOCESDASTIDAD.
El modelo de regresión lineal múltiple debe ser no heterocedastico, es decir,
homocedastico. Un modelo es homocedástico si la varianza es constante. Es decir,
var(CONCENTR) = σ2 · Id
La homocedasticidad también es necesaria para la inferencia estadística.
Para diagnosticar la homocedasticidad, adjuntamos:

La homocedasticidad se diagnostica con este gráfico de residuales frente a predichos.


Se da la homocedasticidad si podemos contener encerrar los puntos en una banda rígida de
ancho constante.
En este caso, observamos que existen dos puntos que no me permiten encerrar los veinte
puntos en una banda rígida de ancho constante. Por tanto, no se cumple la homocedasticidad.
Para resolver este problema debemos probar diversas transformaciones de la1variable
dependiente, como: 𝑍 = √𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅 , Z = log(𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅) 𝑜 𝑍 = .
𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅

También podemos realizar transformaciones de Box & Cox, pero vamos a considerar
que se cumple la homocedásticidad por el carácter pedagógico de la asignatura.

7.3.3. INDEPENDENCIA DE ERRORES.


Para poder inferir sobre la población, no puede haber autocorrelación de la variable
dependiente CONCENTR. Si la hubiese los errores tenderían a infinito. De aquí la importancia
de esta hipótesis.
La autocorrelación se diagnostica con el test de Durbin Watson, que contrasta errores
(residuales) dependientes frente a independientes y garantiza la correlación para resultados
contenidos en el intervalo [1.5, 2.5].
El IBM SPSS Statistics 25 nos proporciona la siguiente tabla:

Resumen del
modelob
Error
R estándar de Durbi
Modelo R R cuadrado la n-
cuadrado ajustado estimación Wats
on
1 , ,709 ,632 , 1,5
84 2649 07
2a 2
a. Predictores: (Constante), COMIND, FORESTAL,
RESIDENCIAL, AGRICOLA
b. Variable dependiente: CONCENTR

El valor que obtenemos es el del estadístico, que en este caso es 1.507 𝜖 [1.5, 2.5] . Por
tanto, la autocorrelación no es un problema. De no ser así, abandonamos el modelo de
regresión lineal múltiple y recurrimos a series temporales.

7.3.4. MULTICOLINEALIDAD.
Esta hipótesis ya ha sido tratada en los Métodos Paso a Paso.
Podemos comentar brevemente la importancia de esta hipótesis, pues el modelo de
regresión lineal múltiple no debe presentar multicolinealidad porque los estimadores
tendrían un error tendiendo a infinito.

7.3.5. VARIABLES CONTINUAS.


Cuando definimos las variables vimos que todas las variables son cuantitativas
continuas. En caso de no serlo tenemos que ir a otro modelo.

7.4. DIAGNÓSTICO DE OBSERVACIONES ANÓMALAS.


Mediante el IBM SPSS Stadistics 25 obtenemos las columnas adicionales:

En las dos primeras columnas tenemos residuales que nos permiten detectar los outliers.
Con MAH_1, medida de Mahalanobis, diagnosticamos altos potenciales. Y con COO_1,
distancia de D.Cook, diagnosticamos influyentes.
Tomando los datos correspondientes de esta última tabla, obtenemos esta otra:

OBSERVACION RESIDUALES MAHALANOBIS D.COOK CONCLUSIONE


ES S
Río 4 - 16.08888 13.21955 Alto potencial
influyente
Río 5 - 17.51956 65.42632 Alto potencial
influyente
Río 7 2.66 - - -

Luego, existen dos ríos de New York, el 4 y 5 que son altamente influyentes. Estos ríos
pasan por el centro de la ciudad y presentan una alta contaminación. Si los eliminásemos el
análisis cambiaría drásticamente.
Por otra parte, cuando estudiamos la hipótesis de normalidad ya intuíamos la existencia
de estos dos ríos,
Este es el histograma que habíamos adjuntado con anterioridad. Si nos fijamos en los
intervalos rodeados de rojo podemos intuir que hay dos ríos cuyos porcentajes se alejan del
resto de ríos. Estos dos ríos son los ríos 4 y 5 altamente influyentes que acabamos de ver.
Además, cuándo vimos que no se daba la hipótesis de homocedasticidad los habíamos
justificado diciendo que existen dos puntos que no me permiten encerrar los veinte puntos en
una banda rígida de ancho constante.
La existencia de esta anomalía perjudica el análisis, por tanto, para solucionarlo
planteamos las siguientes medidas:
 Rectificar errores en los datos.
 Eliminar observaciones.
 Usar estimadores alternativos.
 Modificar el modelo.
 Recoger más datos. Datos pertenecientes a la franja del río 4 y 5.
 Procedimientos robustos. Existe una estadística robusta que es insensible
a situaciones extremas.

8. ACCIONES DE MEJORA. ANEXO. (ver pdf)

9. TRABAJOS FUTUROS.
el mejor modelo de regresión lineal múltiple, debemos realizar nuevamente el informe con
este modelo.
-En nuestro estudio no se da la homocedasticidad por lo que tenemos que utilizar
transformaciones de la variable CONCENTR del tipo:
1
𝑍 = √𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅 , Z = log(𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅) 𝑜 𝑍
𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅
=

También podemos realizar transformaciones de Box & Cox.


-Dado que tenemos observaciones anómalas tenemos que solucionarlas, para ello
podemos:
 Rectificar errores en los datos.
 Eliminar observaciones.
 Usar estimadores alternativos.
 Modificar el modelo.
 Recoger más datos. Datos pertenecientes a la franja del río 4 y 5.
 Procedimientos robustos. Existe una estadística robusta que es insensible
a situaciones extremas

También podría gustarte