Está en la página 1de 16

TALLER FINAL DE REGRESIÓN.

Michel Dayana Barreto Páez 020150492017


Andrés Felipe Gallego Rojas 020100412018
Facultad de ingeniería forestal
Universidad del Tolima

1. Dividir los datos de tal manera que el 60% conformen el conjunto de datos
de calibración y el 40% el conjunto de datos de validación. Explicar la
metodología usada para la conformación de los dos grupos.
CALIBRACION modelo 1 VALIDACION
Altura M (x) Dap CM (y) Altura M (x) Dap CM (y)
19,5 23,3 8,0 7,8
18,9 20,9 7,9 6,4
24,2 26,4
15,7 15,1
16,9 17,5
10,8 8,4
17,7 13,4
17,5 14,8
10,7 8,2
16,2 15,0 11,2 7,0
14,6 10,4 12,4 10,7
7,5 6,7 15,7 15,1
7,5 6,7 7,5 6,2
22,2 20,0 13,4 10,0
13,1 8,5 8,5 7,8
9,3 6,5 7,2 9,3
14,0 11,9 14,0 11,9
8,4 7,9 15,2 10,0
9,1 6,1 12,6 13,0
20,8 21,7
12,6 13,0
11,6 9,9
9,2 7,5
13,1 10,5
14,8 11,7
12,5 6,4
14,4 15,4 14,0 13,9
16,5 12,7 19,7 23,0
17,1 18,7
5,6 6,4
METODOLÓGIA Los 2 grupos se conformaron
8,5 7,8 de forma aleatoria seleccionándolos de la tabla
9,8 9,6 inicial. Se dispusieron en 2 tablas la de
8,9 5,5 calibración y la de validación. La de la
6,6 7,4 calibración contiene el 60% de los datos y la de
18,9 14,7
7,6 7,7
validación el 40%.
2. Realizar una gráfica de dispersión e interpretar.

 En la gráfica de calibración se puede observar que los puntos muestran una


muy ligera dispersión, lo que se traduce como una tendencia lineal fuerte.
Además, cuenta con un coeficiente de correlación de 0,85 lo que indica que
hay una relación positiva muy fuerte entre los valores.
 Es una gráfica directamente proporcional. Esta nos dice que entre mayor
sea la altura, mayor es el incremento del DAP.

 En la gráfica de validación se puede observar que los puntos muestran una


notable dispersión, lo que se traduce como una tendencia débilmente lineal.
Además, cuenta con un coeficiente de correlación de 0,70 lo que indica que
no hay una buena relación lineal positiva entre los valores.
 Es una gráfica directamente proporcional. Esta nos dice que entre mayor
sea la altura, mayor es el incremento del DAP.
3. Calcular los coeficientes para cada uno de los siguientes modelos, las
medidas de bondad de ajuste, evaluar cada modelo y realizar la
verificación de supuestos.

 Modelo 1: 𝑦=𝛽0+𝛽1𝑥+𝜀 Dap= (-1.968) +(1.059(altura))


Resumen

Estadísticas de la regresión
Coeficiente de correlación múltiple
0,92529703
Coeficiente de determinación0,85617459
R^2
R^2 ajustado 0,85103797
Error típico 2,25020511
Observaciones 30

ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 843,973821 843,973821 166,680487 2,6032E-13
Residuos 28 141,775846 5,06342306
Total 29 985,749667

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95,0%Superior 95,0%
Intercepción -1,96774233 1,17926293 -1,66862053 0,10633864 -4,38335293 0,44786827 -4,38335293 0,44786827
Altura M (x) 1,05986451 0,08209335 12,9104797 2,6032E-13 0,89170391 1,22802511 0,89170391 1,228025114

Análisis de los residuales Resultados de datos de probabilidad

Observación Pronóstico Dap CM (y)


Residuos Percentil Dap CM (y)
1 18,6996157 4,60038433 1,66666667 5,5
2 18,063697 2,83630304 5 6,1
3 23,6809789 2,71902112 8,33333333 6,4
4 15,9439679 1,55603207 11,6666667 6,5
5 16,7918595 -3,39185955 15 6,7
6 9,37280796 -1,17280796 18,3333333 6,7
7 15,2020628 -0,20206278 21,6666667 7,4
8 13,5062796 -3,10627956 25 7,7
9 5,98124151 0,71875849 28,3333333 7,8
10 5,98124151 0,71875849 31,6666667 7,9
11 21,5612499 -1,56124985 35 8,2
12 11,9164828 -3,41648279 38,3333333 8,5
13 7,88899764 -1,38899764 41,6666667 9,6
14 12,8703608 -0,97036085 45 9,9
15 6,93511958 0,96488042 48,3333333 10,4
16 7,67702473 -1,57702473 51,6666667 10,5
17 20,0774395 1,62256047 55 11,7
18 10,326686 -0,42668602 58,3333333 11,9
19 11,9164828 -1,41648279 61,6666667 12,7
20 13,7182525 -2,01825246 65 13,4
21 13,2943067 2,10569335 68,3333333 14,7
22 15,4670289 -2,7670289 71,6666667 15
23 16,1559408 2,54405916 75 15,4
24 3,96749894 2,43250106 78,3333333 17,5
25 7,04110603 0,75889397 81,6666667 18,7
26 8,41892989 1,18107011 85 20
27 7,46505183 -1,96505183 88,3333333 20,9
28 5,02736345 2,37263655 91,6666667 21,7
29 18,063697 -3,36369696 95 23,3
30 6,08722797 1,61277203 98,3333333 26,4

CONCLUSION: para determinar la pendiente revisamos los intervalos de confianza de


𝛽1 del modelo 1. Allí podemos determinar que los intervalos no toman el valor de 0
por lo tanto la pendiente es diferente de 0.
HOMOGENEIDAD (MODELO 1)
Grafica

CONCLUSIÓN: Al obtener una gráfica de predichos vs residuos en infostat


observamos que los datos no tienen ningún patrón de distribución y con un nivel
de confianza del 95% afirmamos que se cumple el supuesto de homogeneidad de
varianza.

 NORMALIDAD (Prueba de shapiro)

CONCLUSION:
Al aplicar una prueba de Shapiro-Wilks en infostat se dice que con un nivel de
confianza del 95% y con un valor de P= (0.12) mayor al alfa (alfa = 0,05) se puede
afirmar que los errores no se comportan de manera normal. Por lo tanto, no se
cumple el supuesto de normalidad para los residuos.
 Modelo 2: 𝑦=𝛽0+𝛽1𝑥+𝛽2𝑥2+𝜀
Dap= (4.986) +(-0.0659(altura))+(0.039(Altura^2))
Resumen

Estadísticas de la regresión
Coeficiente de correlación
0,94074174
múltiple
Coeficiente de determinación
0,88499502 R^2
R^2 ajustado 0,87647614
Error típico 2,04908396
Observaciones 30

ANÁLISIS DE VARIANZA
Grados de libertadSuma de cuadrados Promedio de los cuadrados F Valor crítico de F
Regresión 2 872,3835493 436,1917746 103,886224 2,08773E-13
Residuos 27 113,3661174 4,198745089
Total 29 985,7496667

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95,0%Superior 95,0%
Intercepción 4,98637483 2,881039203 1,730755633 0,09491058 -0,925029325 10,897779 -0,92502933 10,897779
Altura M (x) -0,06595855 0,439217646 -0,150172808 0,88174452 -0,967158718 0,83524162 -0,96715872 0,83524162
Altura M (x^2) 0,0397629 0,015286365 2,601200237 0,01489209 0,008397866 0,07112793 0,00839787 0,07112793

Análisis de los residuales Resultados de datos de probabilidad

Observación
Pronóstico Dap CM (y) Residuos Percentil Dap CM (y)
1 18,8200247 4,479975298 1,66666667 5,5
2 17,9434627 2,956537314 5 6,1
3 26,6769209 -0,276920923 8,33333333 6,4
4 15,2283564 2,271643637 11,6666667 6,5
5 16,2762265 -2,876226511 15 6,7
6 8,83307244 -0,63307244 18,3333333 6,7
7 14,353221 0,646778975 21,6666667 7,4
8 12,4992391 -2,099239142 25 7,7
9 6,72834868 -0,028348676 28,3333333 7,8
10 6,72834868 -0,028348676 31,6666667 7,9
11 23,1188412 -3,118841186 35 8,2
12 10,9460286 -2,446028597 38,3333333 8,5
13 7,81205329 -1,312053293 41,6666667 9,6
14 11,856483 0,04351704 45 9,9
15 7,23799304 0,662006962 48,3333333 10,4
16 7,67891754 -1,578917542 51,6666667 10,5
17 20,8174568 0,882543241 55 11,7
18 9,57175109 0,328248912 58,3333333 11,9
19 10,9460286 -0,446028597 61,6666667 12,7
20 12,7198533 -1,019853266 65 13,4
21 12,281806 3,11819395 68,3333333 14,7
22 14,661296 -1,961296034 71,6666667 15
23 15,4855524 3,214447647 75 15,4
24 5,86397141 0,536028587 78,3333333 17,5
25 7,29859648 0,501403521 81,6666667 18,7
26 8,15880968 1,441190315 85 20
27 7,54896282 -2,048962823 88,3333333 20,9
28 6,28312021 1,116879793 91,6666667 21,7
29 17,9434627 -3,243462686 95 23,3
30 6,7817948 0,918205204 98,3333333 26,4
CONCLUSION: para determinar la pendiente revisamos los intervalos de confianza de
𝛽1 y 𝛽2 del modelo 2. Allí podemos determinar que para 𝛽1 los intervalos si toman el
valor de 0 por lo tanto la pendiente es igual de 0, por el contrario, 𝛽2 los intervalos no
toman el valor de 0 por lo tanto la pendiente en diferente de 0.
HOMOGENEIDAD (MODELO 2)

 Gráfica

CONCLUSIÓN: Al obtener una gráfica de predichos vs residuos en infostat


observamos que los datos no tienen ningún patrón de distribución y con un nivel
de confianza del 95% afirmamos que se cumple el supuesto de homogeneidad de
varianza.

 NORMALIDAD (Prueba de shapiro)

CONCLUSIÓN.Al aplicar una prueba de Shapiro-Wilks en infostat se dice que con


un nivel de confianza del 95% y con un valor de P= (0.45) mayor al alfa (alfa =
0,05) se puede afirmar que los errores no se comportan de manera normal. Por lo
tanto, no se cumple el supuesto de normalidad para los residuos.
 Modelo 3: 𝑦=𝛽0+𝛽1(1/𝑥) +𝜀 Dap= (23,63) +(-130,99(1/altura))

Resumen

Estadísticas de la regresión
Coeficiente de correlación
0,801976955
múltiple
Coeficiente de determinación
0,643167037
R^2
R^2 ajustado 0,630423002
Error típico 3,544351516
Observaciones 30

ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 634,001692 634,001692 50,4680869 9,93388E-08
Residuos 28 351,747975 12,5624277
Total 29 985,749667

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95,0%
Intercepción 23,63145194 1,72089184 13,732096 5,8109E-14 20,10636481 27,1565391 20,1063648
Altura(1/x) -130,9948325 18,4393557 -7,10408945 9,9339E-08 -168,7661404 -93,2235245 -168,76614

Análisis de los residuales Resultados de datos de probabilidad

ObservaciónPronóstico Dap CM (y)


Residuos Percentil Dap CM (y)
1 16,91376823 6,38623177 1,66666667 5,5
2 16,70050843 4,19949157 5 6,1
3 18,21844234 8,18155766 8,33333333 6,4
4 15,88027842 1,61972158 11,6666667 6,5
5 16,23061395 -2,83061395 15 6,7
6 11,38894424 -3,18894424 18,3333333 6,7
7 15,54535117 -0,54535117 21,6666667 7,4
8 14,65920314 -4,25920314 25 7,7
9 6,165474279 0,53452572 28,3333333 7,8
10 6,165474279 0,53452572 31,6666667 7,9
11 17,73078381 2,26921619 35 8,2
12 13,63184641 -5,13184641 38,3333333 8,5
13 9,545986085 -3,04598609 41,6666667 9,6
14 14,2746782 -2,3746782 45 9,9
15 8,036829029 -0,13682903 48,3333333 10,4
16 9,236415407 -3,13641541 51,6666667 10,5
17 17,33362346 4,36637654 55 11,7
18 12,33879397 -2,43879397 58,3333333 11,9
19 13,63184641 -3,13184641 61,6666667 12,7
20 14,78044975 -3,08044975 65 13,4
21 14,53458858 0,86541142 68,3333333 14,7
22 15,66824024 -2,96824024 71,6666667 15
23 15,97093542 2,72906458 75 15,4
24 0,239517571 6,16048243 78,3333333 17,5
25 8,220295181 -0,42029518 81,6666667 18,7
26 10,2646323 -0,6646323 85 20
27 8,91293144 -3,41293144 88,3333333 20,9
28 3,783750052 3,61624995 91,6666667 21,7
29 16,70050843 -2,00050843 95 23,3
30 6,395289775 1,30471023 98,3333333 26,4
CONCLUSION: para determinar la pendiente revisamos los intervalos de confianza de
𝛽1 del modelo 3. Allí podemos determinar que los intervalos no toman el valor de 0
por lo tanto la pendiente es diferente de 0.
HOMOGENEIDAD (MODELO 3)

 Grafica

CONCLUSION. Al obtener una gráfica de predichos vs residuos en infostat


observamos que los datos tienen un patrón de distribución y con un nivel de
confianza del 95% afirmamos que no se cumple el supuesto de homogeneidad de
varianza.

 NORMALIDAD (Prueba de shapiro)

CONCLUSIÓN.Al aplicar una prueba de Shapiro-Wilks en infostat se dice que con


un nivel de confianza del 95% y con un valor de P= (0.0503) mayor al alfa (alfa =
0,05) se puede afirmar muy debilmente que los errores no se comportan de
manera normal. Por lo tanto, no se cumple el supuesto de normalidad para los
residuos.
 Modelo 4: 𝑦=𝛽0+𝛽1𝑥𝛽2 log(Dap)= log(-0,098) +(1.042(log(altura)))
Resumen

Estadísticas de la regresión
Coeficiente de0,91519085
correlación múltiple
Coeficiente de determinación
0,8375743 R^2
R^2 ajustado 0,83177338
Error típico 0,08107555
Observaciones 30

ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 0,94908779 0,94908779 144,386509 1,4434E-12
Residuos 28 0,18405084 0,00657324
Total 29 1,13313862

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Inferior 95,0%
Superior 95,0%
Intercepción -0,09821672 0,09633657 -1,01951642 0,31668657 -0,29555325 0,09911981 -0,29555325 0,09911981
Log (x) 1,04258303 0,08676555 12,0160938 1,4434E-12 0,86485185 1,22031421 0,86485185 1,22031421

Análisis de los residuales

Observación
Pronóstico Log (y)Residuos
1 1,24675148 0,12060444
2 1,2326007 0,08754559
3 1,3445257 0,07707823
4 1,18195712 0,06108092
5 1,20289903 -0,07579423
6 0,97500134 -0,06118749
7 1,16280311 0,01328815
8 1,11571781 -0,09868447
9 0,81410731 0,0119675
10 0,81410731 0,0119675
11 1,30546805 -0,00443805
12 1,06663138 -0,13721245
13 0,91150717 -0,09859381
14 1,09671692 -0,02116996
15 0,86542118 0,03220591
16 0,90166356 -0,11633373
17 1,27597375 0,06048598
18 1,01156912 -0,01593392
19 1,06663138 -0,04544208
20 1,12187829 -0,05369243
21 1,10947236 0,07804836
22 1,16973721 -0,06593349
23 1,1872841 0,0845575
24 0,68183142 0,12434855
25 0,87077968 0,02131492
26 0,93521877 0,04705246
27 0,89160119 -0,1512385
28 0,75622588 0,11300584
29 1,2326007 -0,06528336
30 0,82010459 0,06638614
CONCLUSIÓN. Para determinar la pendiente revisamos los intervalos de confianza
de 𝛽1 del modelo 4. Allí podemos determinar que los intervalos no toman el valor de 0
por lo tanto la pendiente es diferente de 0.
HOMOGENEIDAD (MODELO 4)

 Grafica

CONCLUSIÓN: Al obtener una gráfica de predichos vs residuos en infostat


observamos que los datos no tienen ningún patrón de distribución y con un nivel
de confianza del 95% afirmamos que se cumple el supuesto de homogeneidad de
varianza.

 NORMALIDAD (Prueba de shapiro)

CONCLUSIÓN.Al aplicar una prueba de Shapiro-Wilks en infostat se dice que con


un nivel de confianza del 95% y con un valor de P= (0.1510) mayor al alfa (alfa =
0,05) se puede afirmar que los errores no se comportan de manera normal. Por lo
tanto, no se cumple el supuesto de normalidad para los residuos.
 Modelo 5: 𝑦=𝛽0𝑒𝛽1𝑥+𝜀 Ln(Dap)= (1.27) +(0.084(altura))

CONCLUSIÓN. Para determinar la pendiente revisamos los intervalos de confianza


de 𝛽1 del modelo 5. Allí podemos determinar que los intervalos no toman el valor de 0
por lo tanto la pendiente es diferente de 0.
HOMOGENEIDAD (MODELO 5)

 Grafica

CONCLUSIÓN: Al obtener una gráfica de predichos vs residuos en infostat


observamos que los datos no tienen ningún patrón de distribución y con un nivel
de confianza del 95% afirmamos que se cumple el supuesto de homogeneidad de
varianza.

 NORMALIDAD (Prueba de shapiro)

CONCLUSIÓN.Al aplicar una prueba de Shapiro-Wilks en infostat se dice que con


un nivel de confianza del 95% y con un valor de P= (0.1510) mayor al alfa (alfa =
0,05) se puede afirmar que los errores no se comportan de manera normal. Por lo
tanto, no se cumple el supuesto de normalidad para los residuos.
4. ¿Cuál de los cinco modelos relaciona mejor las dos variables?
Explique.

El mejor modelo fue el potencial ya que fue el modelo que mejor relaciono los
datos esto se puede afirmar ya que el coeficiente de correlación fue alto y su CME
fue bajo. Además de cumplir con el supuesto de homogeneidad de varianzas.

5. Para el mejor modelo seleccionado realice un pronóstico para un


árbol cuya altura es de 13 metros.

CONCLUSION. Para pronosticar el DAP de un árbol de 13 m utilizamos el modelo


que mejor relacionó los datos a la hora de la validación el cual fue el potencial
𝑦=𝛽0+𝛽1(x^𝛽2). Este nos arrojó un valor pronóstico de 11,57 cm.
6. Realizar un gráfico donde se grafique los cinco modelos.

NOTA: Las lineas de tendencia para los modelos no lineales presentan algunas
inconsistencias debido a que el programa excel no realiza la linealizacion para
modelos no lineales.

7. Punto extra: mostrar salidas y gráficos en R. (este punto es opcional,


da un punto adicional sobre este trabajo o cualquier otro trabajo)
NORMALIDAD
Grafico

CONCLUSION: En la gráfica obtenida en “R” para evaluar la normalidad de los


residuos observamos que estos datos están muy dispersos con respecto a la
línea de tendencia. Por lo tanto, con un nivel del 95 % podemos afirmar que no
se cumple el supuesto de normalidad.

CONCLUSIÓN.Al aplicar una prueba de Shapiro-Wilks en “R” se dice que con un


nivel de confianza del 95% y con un valor de P= (0.199) mayor al alfa (alfa = 0,05)
se puede afirmar que los errores no se comportan de manera normal. Por lo tanto,
no se cumple el supuesto de normalidad para los residuos.
 HOMOGENEIDAD (residuos vs predichos)

CONCLUSIÓN: Al obtener una gráfica de predichos vs residuos en “R”


observamos que los datos no tienen ningún patrón de distribución y con un nivel
de confianza del 95% afirmamos que se cumple el supuesto de homogeneidad de
varianza.

 Prueba de levene

Para análisis de las varianzas

CONCLUSION: al obtener el valor de p (0.013) menor que el alfa (alfa=0.05) en la


prueba de levene y al tener un nivel de confianza del 95%, se puede aceptar la
hipótesis alternativa que dice que las variaciones de los datos son diferentes.

También podría gustarte