Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PRÁCTICA 1:
ANÁLISIS DE REGRESIÓN LINEAL
MÚLTIPLE Y DIAGNÓSTICO.
ÍNDICE
1. Objetivos......................................................................................................................3
2. Estudio de los antecedentes..........................................................................................3
3. Variables de estudio.....................................................................................................3
4. Modelo estadístico para utilizar...................................................................................3
5. Estudio piloto...............................................................................................................4
6. Tamaño y forma de la muestra.....................................................................................4
7. Análisis de datos..........................................................................................................4
7.1. Estadística descriptiva........................................................................................4
7.1.1. Tablas de frecuencias...............................................................................4
7.1.2. Gráficos....................................................................................................4
7.1.3. Estadísticos...............................................................................................4
7.2. Modelización y Estimación de los Coeficientes de Regresión. Modelo Estimado
5
7.2.1. Modelo de regresión lineal múltiple.........................................................5
7.2.1.1. Matriz de correlaciones......................................................................5
7.2.1.2. ANOVA del modelo de regresión lineal múltiple..............................6
7.2.1.3. Bondad de ajuste del modelo de regresión lineal múltiple.................6
7.2.2. Estimación de los coeficientes de regresión. Intervalos de confianza y test de
hipótesis.....................................................................................................7
7.2.3. Métodos paso a paso.................................................................................9
7.2.3.1. Selección hacia delante......................................................................9
7.2.3.2. Selección hacia atrás.........................................................................13
7.3. Diagnóstico de las hipótesis asociadas al modelo.............................................18
7.3.1. Normalidad..............................................................................................18
7.3.1.1. Histograma........................................................................................19
7.3.1.2. Gráfico de probabilidad normal.........................................................19
7.3.1.3. Test de Kolmogov-Smivov...............................................................20
7.3.1.4. Teorema central del límite................................................................20
7.3.2. Linealidad y homocedasticidad…...........................................................21
7.3.3. Independencia de errores….....................................................................21
7.3.4. Multicolinealidad.....................................................................................22
7.3.5. Variables continuas..................................................................................22
7.4. Diagnóstico de Observaciones Anómalas.........................................................22
7.5. Explotación del Modelo y Conclusiones...........................................................24
8. Acciones de mejora. Anexo..........................................................................................25
9. Trabajos futuros............................................................................................................27
10. Currículum...................................................................................................................28
11. Presupuesto..................................................................................................................28
1. OBJETIVOS.
La presente práctica consta de tres objetivos:
El primer objetivo es predecir la calidad del agua -o concentración de nitrógeno- en
20 ríos de New York en función del porcentaje de terrenos agrícola, forestal,
residencial e industrial que los rodean.
El segundo objetivo consiste en ver si esas variables influyen realmente en la
calidad el agua.
El tercer objetivo es estudiar cuáles son las mejores variables para predecir.
2. ESTUDIO DE ANTECEDENTES.
Supone un costo elevado medir la calidad del agua -o concentración de nitrógeno- en 20
ríos de New York. No obstante, medir el porcentaje de terrenos agrícola, forestal, residencial e
industrial que rodean estos ríos permite un ahorro económico significativo. Esto nos lleva a
buscar un modelo de regresión lineal múltiple que permita predecir la concentración de
nitrógeno a través del porcentaje de terrenos agrícola, forestal, residencial e industrial.
Los datos son reales y proporcionados por Ali S. Hadi profesor e investigador de la
Universidad de Cornell en New York. El antecedente de este trabajo es para una tesis doctoral y
para la docencia.
3. VARIABLES DE ESTUDIO.
Variable dependiente concentración de nitrógeno -o CONCENTR-, cuantitativa
continua. Se mide en mg/L.
Variables independientes:
x1: AGRÍCOLA (haciendo referencia al terreno agrícola).
x2: FORESTAL (haciendo referencia al terreno forestal).
x3: RESIDENCIAL (haciendo referencia al terreno residencial).
x4: COMIND (haciendo referencia al terreno industrial).
También son cuantitativas continuas y de miden en porcentajes.
5. ESTUDIO PILOTO.
No procede.
7. ANÁLISIS DE DATOS.
7.1. ESTADÍSTICA DESCRIPTIVA.
7.1.1. TABLAS DE FRECUENCIAS.
7.1.2. GRÁFICOS.
7.1.3. ESTADÍSTICOS.
No procede.
7.2.MODELIZACIÓN Y ESTIMACIÓN DE COEFICIENTES DE
REGRESIÓN. MODELO ESTIMADO.
7.2.1. MODELO DE REGRESIÓN LINEAL MÚLTIPLE.
Anteriormente habíamos planteado el siguiente modelo de regresión lineal múltiple:
Correlacion
es
CONCENTR AGRICOL FORESTA RESIDENCIA COMIN
A L L D
Correlación de Pearson CONCENTR 1,000 ,401 -,773 ,566 ,532
AGRICOLA ,401 1,000 -,683 -,242 -,346
FORESTAL -,773 -,683 1,000 -,503 -,309
RESIDENCIAL ,566 -,242 -,503 1,000 ,859
COMIND ,532 -,346 -,309 ,859 1,000
Sig. (unilateral) CONCENTR . ,040 ,000 ,005 ,008
AGRICOLA ,040 . ,000 ,152 ,068
FORESTAL ,000 ,000 . ,012 ,093
RESIDENCIAL ,005 ,152 ,012 . ,000
COMIND ,008 ,068 ,093 ,000 .
N CONCENTR 20 20 20 20 20
AGRICOLA 20 20 20 20 20
FORESTAL 20 20 20 20 20
RESIDENCIAL 20 20 20 20 20
COMIND 20 20 20 20 20
Esta primera tabla contiene la matriz de correlaciones que nos permite ver cuán
correladas están las variables una a una. Decimos que la correlación entre variables es alta si la
correlación de Pearson es próxima a -1 o 1 y decimos que es baja si es próxima a 0.
Nos interesa que la correlación entre la variable dependiente -que es la concentración de
nitrógeno- este altamente correlada con cada una de las variables independientes -que son el
resto de las variables-. Podemos observar que, en general, existe poca correlación. Sin
embargo, esto
no debe preocuparnos, pues esta correlación es univariante y el modelo planteado es
multivariante.
ANOV
Aa
Suma Medi
Mode de g a F S
lo l ig
cuadrad cuadráti .
os ca
1 Regresión 2,570 4 ,642 9,1 ,
54 00
1b
Residuo 1,053 15 ,070
Total 3,623 19
a. Variable dependiente: CONCENTR
b. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL, AGRICOLA
Para ver si el modelo tiene sentido plantemos el siguiente test de hipótesis que contrasta
que el modelo no tenga sentido frente a que si lo tenga:
H0: β1 = β2 = β3 = β4 = 0
}⟹
H1: Caso contrario
⟹ p − valor = 0.00059 ≈ 0.001 < α = 0.01 ∧ p − valor ≈ 0.001 < α = 0.05 ⟹
⟹ rechazamos H0 ⇒ ∃i = 1,2,3,4⁄βi ≠ 0
Luego, el modelo tiene sentido, porque al menos una variable predictora influye en el
modelo.
Esta tabla nos permite estudiar la bondad de ajuste del modelo de regresión lineal
múltiple, es decir, nos permite conocer que tan bueno es el modelo.
Observamos que el modelo nos está explicando un 70.9% de la varianza de la
concentración de nitrógeno. Dicho porcentaje puede ser bueno dependiendo del entorno.
Coeficient
esa
Coeficien 95,0%
tes Coeficiente intervalo de Estadísticas
no s confianza Correlaciones de
estandarizad estandarizad para B colinealida
os
os t Si d
Des g. Lími Límit Ord
Modelo B v. Beta te e en Parci Par Toleranc VIF
Erro inferi superi cer al te ia
r or or o
1 (Constante) 1,7 1,23 1,3 , -,9 4,3
22 4 96 18 08 53
3
AGRICOL , , ,196 , , -,0 , , ,099 , ,075 13,2
A 00 015 38 70 26 038 40 05 77
6 6 5 1 4
FORESTAL -,0 , -,530 -,9 , -,0 , -,77 -,23 - ,060 16,7
13 014 31 36 43 017 3 4 , 27
7 13
0
RESIDENCI -,0 , -,106 -,2 , -,0 , , -,05 - ,079 12,6
AL 07 034 14 83 79 065 56 5 , 82
4 6 03
0
COMIND , , ,528 1,8 , -,0 , , ,433 , ,241 4,14
30 164 62 08 44 654 53 25 5
5 2 2 9
a. Variable dependiente: CONCENTR
Esta tabla presenta los coeficientes de regresión estimados. A partir de ella veremos
cómo cumplimos los tres objetivos. Como podemos ver, IBM SPSS Statistics 25 nos muestra un
modelo con término independiente y otro sin el:
MODELO 1
CON̂CENTR
= 1.722 + 0.006 · AGRÍCOLA − 0.13 · FORESTAL −
−0.007 · RESIDENCIAL + 0.305 · COMIND + ε′
MODELO 2
CON̂CENTR
= 0 + 0.196 · AGRÍCOLA − 0.530 · FORESTAL −
−0.106 · RESIDENCIAL + 0.528 · COMIND + ε
Por tanto, para elegir el modelo realizamos el siguiente test de hipótesis:
H0: β0 = 0
H1: β0 ≠ 0 } ⟹
⟹ p − valor = 0.183 > α = 0.01 ∧ p − valor = 0.183 > α = 0.05 ⟹
⟹ El test es NO SIGNIFICATIVO, aceptamos H 0.
Luego, el modelo predicho es el MODELO 2, cuyos coeficientes de regresión son los
correspondientes a la columna denominada Beta de la tabla de coeficientes anterior. Con esto,
ya tenemos el objetivo 1.
Con esta misma tabla abordaremos el objetivo 2. Veamos que variables influyen en el
modelo.
Planteamos el siguiente test de hipótesis:
H0: β1 = 0
H1: β1 ≠ 0 } ⟹
⟹ p − valor = 0.705 > α = 0.01 ∧ p − valor = 0.705 > α = 0.05 ⟹
⟹ El test es NO SIGNIFICATIVO, aceptamos H 0.
En este test contrastamos que el porcentaje de terreno agrícola no influye en la
concentración de nitrógeno (hipótesis nula) frente a que si influye. Entonces, tenemos que la
variable AGRICOLA (recordemos que β1 es el coeficiente de regresión asociado a la variable
AGRICOLA) no influye linealmente en la concentración de nitrógeno.
Análogamente, realizando el mismo test de hipótesis para cada una de las variables
independientes podemos ver que ninguna de estas variables influye linealmente en la
concentración de nitrógeno. Es decir, ninguna influye en el modelo predicho. Esto contradice el
ANOVA de regresión en el que habíamos visto que el modelo planteado tenía sentido, pues al
menos una de las variables independientes influía.
Por otra parte, la tabla anterior también nos muestra la tolerancia.
La tolerancia de la variable AGRÍCOLA, por ejemplo, se define matemáticamente como:
Tolerancia⁄ = 1 − R2AGRICOLA, otras
AGRICOLA
Este es el caso de la variable AGRICOLA dónde
𝑅2 = 𝑐𝑜𝑟𝑟(𝐴𝐺𝑅𝐼𝐶𝑂𝐿𝐴, 𝑜𝑡𝑟𝑎𝑠)
𝐴𝐺𝑅𝐼𝐶𝑂𝐿𝐴,𝑜𝑡𝑟𝑎𝑠
es la correlación entre variable AGRICOLA y el resto de las variables.
La tolerancia nos indica cuán correladas están las variables independientes y nos
permite diagnosticar la multicolinealidad, esta se produce cuando las variables independientes
están muy correladas.
De la expresión matemática anterior deducimos que, a medida que la tolerancia se
aproxima a 0, la correlación de cualquiera de las variables con el resto se próxima a 1. Esto
mismo observamos en la tabla, por tanto, las variables están muy correladas y tenemos un error
que tiende a infinito.
7.2.3. METODOS PASO A PASO.
La solución -del problema que se nos presenta- se basa en construir el mejor modelo de
regresión lineal múltiple. Para ello, vamos a iterar distintos algoritmos paso a paso con el fin
de descartar variables no necesarias en el estudio.
En estos métodos se basan en añadir o eliminar variables hasta alcanzar un modelo
satisfactorio.
Hay 3 algoritmos básicos para la regresión paso a paso:
“Selección hacia delante” (forward Selection, F-S), donde los predictores se
van añadiendo en cada paso.
“Selección hacia detrás” (Backward Elimination, BE), donde los predictores
se van eliminando.
“Modo paso a paso” (Stepwise Selection, SW), donde los predictores se
añaden, se eliminan o se intercambian (una que está dentro por otra que está
fuera).
A continuación, seleccionaremos el mejor submodelo de regresión con las dos primeras
técnicas paso a paso.
CON̂CENTR = β0 + ε
PASO 1
En este paso entra la variable de menor p-valor, ósea la más significativa.
En nuestro caso la primera sería la variable FORESTAL. Si realizamos el test de
hipótesis correspondiente, obtenemos un p-valor de 0,000 para esta variable. Por tanto, es
significativa y la añadimos al modelo,
CON̂CENTR = β0 + β2 · FORESTAL + ε
Al ser significativa seguimos iterando el algoritmo.
PASO 2
La segunda variable para considerar es COMIND. De manera análoga, realizamos el
test de hipótesis correspondiente y obtenemos que un p-valor de 0.016, por tanto, rechazamos
H0 y es significativa. Añadimos la variable COMIND al modelo,
Variables entradas/eliminadasa
Variab Variabl
Model les es Método
o entrad eliminad
as as
1 FORESTAL . Avanzar
(Criterio:
Probabilid
ad- de-F-
para-
entrar <= ,
050)
2 COMIND . Avanzar
(Criterio:
Probabilid
ad- de-F-
para-
entrar <= ,
050)
a. Variable dependiente: CONCENTR
La siguiente tabla muestra el ANOVA del modelo con las variables independientes
FORESTAL y COMIND.
ANOV
Aa
Suma Medi
Mod de g a F Sig.
elo cuadrad l cuadráti
os ca
1 Regresión 2,167 1 2,167 26,799 ,000b
Residuo 1,456 18 ,081
Total 3,623 19
2 Regresión 2,512 2 1,256 19,236 ,000c
Residuo 1,110 17 ,065
Total 3,623 19
a. Variable dependiente: CONCENTR
b. Predictores: (Constante), FORESTAL
c. Predictores: (Constante), FORESTAL, COMIND
En dicha tabla se realiza el siguiente test de hipótesis:
H0: β2 = β4 = 0
}⟹
H1: Caso contrario
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
Por tanto, el modelo tiene sentido.
Luego, el nuevo modelo tiene sentido y el resumen del modelo sería:
Resumen del
modeloc
Estadísticos de cambio
Esta tabla nos indica que el nuevo modelo con las variables independientes FORESTAL
y COMIND explica el 69,4% de la variabilidad de la concentración de nitrógeno.
La siguiente tabla nos muestra los nuevos coeficientes de regresión del modelo:
Coeficient
esa
Coef
ici 95,0%
Coeficientes entes intervalo de Estadísticas
no estan confianza Correlaciones de
estandarizad da para B colinealida
os rizad d
os
t Si Lím Lími
g.
De ite te Ord
Modelo B sv. Beta infe supe en Parci Part Toleranc VIF
Err rio rio cer al e ia
or r r o
1 (Constan 2,3 ,238 9,844 , 1,84 2,848
te 47 00 6
) 0
FORE -,0 ,004 -,7 -5,177 , -,027 -,011 -,7 -,7 -,77 1,000 1,0
ST AL 19 73 00 73 73 3 00
0
COMIN ,188 ,082 ,325 2,300 , ,015 ,360 ,532 ,487 ,309 ,905 1,105
D 03
4
a. Variable dependiente: CONCENTR
Nuevamente estamos frente a dos posibles modelos predichos, aquel que tiene como
coeficientes los valores de la columna B y aquel que tiene como coeficientes los valores de la
columna Beta. Es decir, tenemos los dos modelos:
MODELO 1
H0: β0 = 0
H1: 𝛽0 ≠ 0} ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
Luego, elegimos el modelo con término independiente, es decir, el MODELO 1:
H0: β2 = 0
H1: β2 ≠ 0 } ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
La variable FORESTAL influye en el modelo.
H0: β4 = 0
H1: 𝛽4 ≠ 0} ⟹
⟹ p − valor = 0.034 < α = 0.05
Aceptamos que la variable COMIND influye con una significación del 95% de
confianza.
Ambas variables tienen una tolerancia de 0.905, próxima a 1, por tanto, la correlación es
baja y hemos resuelto el problema de multicolinealidad .
7.2.3.2. SELECCIÓN HACIA DETRÁS (BACKWARD ELIMINATION, BE).
Vamos a implementar el algoritmo correspondiente a este método:
PASO 0
Partimos de un modelo lineal completo, es decir, del modelo inicial que depende de
todas las variables independientes,
Variables entradas/eliminadasa
Variab Variabl
Model les es Método
o entrad eliminad
as as
1 COMIND, . Introducir
FORESTAL
,
RESIDENC
IA L,
AGRICOLAb
2 . AGRICOLA Retrocede
r (criterio:
Probabilid
ad de F-
para-
eliminar
>=
,100).
3 . RESIDENCI Retroceder
A
L (criterio:
Probabilidad
de F-para-
eliminar >=
,100).
a. Variable dependiente: CONCENTR
b. Todas las variables solicitadas introducidas.
La siguiente tabla muestra el ANOVA del modelo con las variables independientes
FORESTAL y COMIND.
ANOV
Aa
Suma Medi
Mod de g a F Sig.
elo cuadrad l cuadráti
os ca
1 Regresión 2,570 4 ,642 9,154 ,001b
Residuo 1,053 15 ,070
Total 3,623 19
2 Regresión 2,559 3 ,853 12,838 ,000c
Residuo 1,063 16 ,066
Total 3,623 19
3 Regresión 2,512 2 1,256 19,236 ,000d
Residuo 1,110 17 ,065
Total 3,623 19
a. Variable dependiente: CONCENTR
b. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL, AGRICOLA
c. Predictores: (Constante), COMIND, FORESTAL, RESIDENCIAL
d. Predictores: (Constante), COMIND, FORESTAL
Resumen del
modelod
Error Estadísticos de cambio
R estánd
R cuadr ar de la Durb
cuadr ad o estima in
ad o ajusta ció -
do n Wats
on
Camb
io en Si
Mo R Ca g g g.
del R cuadr mbi l l Ca
o ad o en mbi
o F 1 2 o en
F
1 , ,709 ,632 ,26492 ,709 9,154 4 1 ,001
84 5
2
a
Observamos en esta tabla que el nuevo modelo con las variables independientes
FORESTAL y COMIND explica el 69,4% de la variabilidad de la concentración de nitrógeno.
La siguiente tabla nos muestra los nuevos coeficientes de regresión del modelo:
Coeficient
esa
t Si
g.
De Lími Lími Ord
Modelo B sv. B te te en Parci Part Toleranc VI
et al e ia F
Err a infer super ce
or ior ior ro
1 (Constante) 1,7 1,234 1,3 , -,908 4,353
22 96 1
8
3
AGRICOLA , ,015 ,196 , , -,026 ,038 ,401 ,099 ,054 ,075 13,27
006 3 7 7
8 0
6 5
RESIDENCI -,00 ,034 -,106 -,21 , -,079 ,065 ,566 -,055 -,030 ,079 12,68
AL 7 4 8 2
3
4
FORESTAL -,01 ,014 -,530 -,93 , -,043 ,017 -,77 -,234 -,130 ,060 16,72
3 1 3 3 7
6
7
COMIND , ,164 ,528 1,8 , -,044 ,654 ,532 ,433 ,259 ,241 4,145
305 62 0
8
2
2 (Constante) 2,1 ,266 8,2 , 1,624 2,750
87 34 0
0
0
RESIDENCI -,01 ,021 -,255 -,84 , -,061 ,026 ,566 -,206 -,114 ,200 5,008
AL 7 1 4
1
3
FORESTAL -,01 ,004 -,740 - , -,027 -,010 -,77 -,750 -,615 ,689 1,450
8 0 3
0
4,5 0
37
COMIND , ,159 ,523 1,8 , -,035 ,640 ,532 ,429 ,257 ,242 4,137
302 98 0
7
6
3 (Constante) 2,0 ,240 8,7 , 1,589 2,604
96 18 0
0
0
FORESTAL -,01 ,003 -,673 - , -,024 -,009 -,77 -,756 -,640 ,905 1,105
6 0 3
0
4,7 0
69
COMIND , ,082 ,325 2,3 , ,015 ,360 ,532 ,487 ,309 ,905 1,105
188 00 0
3
4
a. Variable dependiente: CONCENTR
Como ocurría con el método anterior, tenemos dos modelos predichos:
MODELO 1
H0: β0 = 0
H1: 𝛽0 ≠ 0} ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0 < α = 0.05 ⟹
⟹ rechazamos H0
Luego, elegimos el modelo con término independiente, es decir, el MODELO 1:
H0: β2 = 0
H1: 𝛽2 ≠ 0} ⟹
⟹ p − valor = 0.000 < α = 0.01 ∧ p − valor = 0.000 < α = 0.05 ⟹
⟹ rechazamos H0
La variable FORESTAL influye en el modelo.
H0: β0 = 0
H1: 𝛽0 ≠ 0} ⟹
⟹ p − valor = 0.034 < α = 0.05
Aceptamos que la variable COMIND influye con una significación del 95% de
confianza.
Ambas variables tienen una tolerancia de 0.905, próxima a 1, por tanto, la correlación es
baja y hemos resuelto el problema de multicolinealidad.
Finalmente, podemos concluir que el mejor modelo es:
Añadimos a nuestros datos esta nueva columna llamada ZRE_1, esta columna son los
residuales.
7.3.1. NORMALIDAD.
Necesitamos garantizar la normalidad de la variable dependiente (CONCENTR) para
poder realizar inferencia estadística.
El diagnóstico de la normalidad lo llevaremos a cabo mediante cuatro herramientas.
7.3.1.1. HISTOGRAMA.
El histograma correspondiente es:
También podemos realizar transformaciones de Box & Cox, pero vamos a considerar
que se cumple la homocedásticidad por el carácter pedagógico de la asignatura.
Resumen del
modelob
Error
R estándar de Durbi
Modelo R R cuadrado la n-
cuadrado ajustado estimación Wats
on
1 , ,709 ,632 , 1,5
84 2649 07
2a 2
a. Predictores: (Constante), COMIND, FORESTAL,
RESIDENCIAL, AGRICOLA
b. Variable dependiente: CONCENTR
El valor que obtenemos es el del estadístico, que en este caso es 1.507 𝜖 [1.5, 2.5] . Por
tanto, la autocorrelación no es un problema. De no ser así, abandonamos el modelo de
regresión lineal múltiple y recurrimos a series temporales.
7.3.4. MULTICOLINEALIDAD.
Esta hipótesis ya ha sido tratada en los Métodos Paso a Paso.
Podemos comentar brevemente la importancia de esta hipótesis, pues el modelo de
regresión lineal múltiple no debe presentar multicolinealidad porque los estimadores
tendrían un error tendiendo a infinito.
En las dos primeras columnas tenemos residuales que nos permiten detectar los outliers.
Con MAH_1, medida de Mahalanobis, diagnosticamos altos potenciales. Y con COO_1,
distancia de D.Cook, diagnosticamos influyentes.
Tomando los datos correspondientes de esta última tabla, obtenemos esta otra:
Luego, existen dos ríos de New York, el 4 y 5 que son altamente influyentes. Estos ríos
pasan por el centro de la ciudad y presentan una alta contaminación. Si los eliminásemos el
análisis cambiaría drásticamente.
Por otra parte, cuando estudiamos la hipótesis de normalidad ya intuíamos la existencia
de estos dos ríos,
Este es el histograma que habíamos adjuntado con anterioridad. Si nos fijamos en los
intervalos rodeados de rojo podemos intuir que hay dos ríos cuyos porcentajes se alejan del
resto de ríos. Estos dos ríos son los ríos 4 y 5 altamente influyentes que acabamos de ver.
Además, cuándo vimos que no se daba la hipótesis de homocedasticidad los habíamos
justificado diciendo que existen dos puntos que no me permiten encerrar los veinte puntos en
una banda rígida de ancho constante.
La existencia de esta anomalía perjudica el análisis, por tanto, para solucionarlo
planteamos las siguientes medidas:
Rectificar errores en los datos.
Eliminar observaciones.
Usar estimadores alternativos.
Modificar el modelo.
Recoger más datos. Datos pertenecientes a la franja del río 4 y 5.
Procedimientos robustos. Existe una estadística robusta que es insensible
a situaciones extremas.
9. TRABAJOS FUTUROS.
el mejor modelo de regresión lineal múltiple, debemos realizar nuevamente el informe con
este modelo.
-En nuestro estudio no se da la homocedasticidad por lo que tenemos que utilizar
transformaciones de la variable CONCENTR del tipo:
1
𝑍 = √𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅 , Z = log(𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅) 𝑜 𝑍
𝐶𝑂𝑁𝐶𝐸𝑁𝑇𝑅
=