Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En donde es la ordenada en el origen es decir, el valor que toma Y cuando X vale cero, es la pendiente de la
recta, e indica cómo cambia Y al incrementar X en una unidad, y una variable que incluye un conjunto grande
de factores, cada uno influye en la respuesta pero en una magnitud muy pequeña , llamada error. X y Y son
variables aleatorias, por lo que no se puede asumir una relación lineal exacta entre ellas.
Mediante las técnicas de regresión de la variable Y sobre la variable X, se busca una función que sea una buena
aproximación de una nube de puntos (xi, yi), mediante una curva del tipo:
Para hacer una estimación del modelo de regresión lineal simple, se busca una recta de la forma:
La suma de los cuadrados de las diferencias entre los valores reales observados (yi) y los valores estimados .
Mediante este método se obtienen las expresiones para a y b =
El coeficiente de regresión
El coeficiente de regresión da información sobre el comportamiento de la variable Y frente a la variable X:
Si b y/x =0, para cualquier valor de X la variable Y es constante (es decir, no cambia).
Si b y/x es mayor a 0, indica que, al aumentar el valor de X, también aumenta el valor de Y.
Si b y/x es menor a 0, indica que, al aumentar el valor de x, el valor de y disminuye.
El coeficiente de correlación
Viene dado por la expresión
Mide la dependencia lineal que existe entre las dos variables en estudio, su cuadrado se denomina coeficiente de
determinación.
Propiedades
Estos atributos se relacionan de tal forma que se pueden estudiar los resultados de la producción final de cacao con las
diferentes variables que esta acompaña, con respecto a la localización de la siembra y la cosecha, el rendimiento para la
productividad, etc.
Para el estudio de la Cadena productiva del cacao, usaremos el modelo de regresión lineal para probar la relación que
existe entre algunas de las variables. Comparar la producción del cultivo entre 2017 y 2018, entre los principales
departamentos como un medio para conocer el desarrollo de la producción de cacao en el país, tomando en cuenta
variables como: área sembrada, rendimiento, área cosecha y producción.
Variables
> summary(cacao2017)
DEPARTAMENTO MUNICIPIO PERIODO A\u0081rea Sembrada
Length:510 Length:510 Min. :2017 Min. : 1.0
Class :character Class :character 1st Qu.:2017 1st Qu.: 45.0
Mode :character Mode :character Median :2017 Median : 137.5
Mean :2017 Mean : 433.8
3rd Qu.:2017 3rd Qu.: 401.5
Max. :2017 Max. :18600.0
A\u0081rea Cosechada Produccion Rendimiento
Min. : 0.0 Min. : 0.00 Min. :0.0000
1st Qu.: 28.0 1st Qu.: 14.25 1st Qu.:0.5000
Median : 87.5 Median : 48.00 Median :0.5000
Mean : 351.4 Mean : 177.80 Mean :0.5459
3rd Qu.: 303.5 3rd Qu.: 159.00 3rd Qu.:0.6000
Max. :14000.0 Max. :6540.00 Max. :1.3000
> names(cacao2017)
[1] "DEPARTAMENTO" "MUNICIPIO" "PERIODO"
[4] "A\u0081rea Sembrada" "A\u0081rea Cosechada" "Produccion"
[7] "Rendimiento"
> cor(`Area Sembrada`,Rendimiento)
[1] -0.06503224
> cor(`Area Sembrada`,Produccion)
[1] 0.9098104
> cor.test(`Area Sembrada`,Rendimiento,alternative = "greater",conf.level = 0.99)
2500
PERIODO
1500
15000
rea Sembrada
A
0 5000
10000
rea Cosechada
A
0 4000
5000
Produccion
2000
0
1.2
0.8
Rendimiento
0.4
0.0
1500 2500 0 4000 10000 0.0 0.4 0.8 1.2
Para el 2018
> names(cacao2018)
[1] "DEPARTAMENTO" "MUNICIPIO" "PERIODO"
[4] "Area Sembrada" "A\u0081rea Cosechada" "Produccion"
[7] "Rendimiento"
2018.0
2016.0 2017.0
PERIODO
15000
Area Sembrada
0 5000
15000
rea Cosechada
A
5000
0
5000
Produccion
2000
0
1.5
1.0
Rendimiento
0.5
0.0
summary(AnovaModel.2)
Df Sum Sq Mean Sq F value Pr(>F)
DEPARTAMENTO 25 0 0 0 1
Residuals 484 101553776 209822
Test de normalidad
data: errores
W = 0.46074, p-value < 2.2e-16
Test de levene
Df F value Pr(>F)
484
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de Durbin-Watson
Durbin-Watson test
Transformación box-cox
> summary(powerTransform(AnovaModel.2, family="bcnPower"))
R/ como podemos observar en las pruebas realizadas anteriormente, los errores de los datos para el caso
de la producción de cacao del año 2017 no cumplen con ninguno de los supuestos, por lo tanto es
necesario realizar una transformación box-cox
summary(AnovaModel.4)
Df Sum Sq Mean Sq F value Pr(>F)
Departamento 29 0 0 0 1
Residuals 1100 229442660 208584
510 observations deleted due to missingness
Test de normalidad
data: errores2
Test de levene
Df F value Pr(>F)
group 29 11.717 < 2.2e-16 ***
1100
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Test de Durbin-Watson
Durbin-Watson test
data: errores2 ~ Departamento
Transformación box-cox
R/ como podemos observar nuevamente en las pruebas realizadas anteriormente, los errores de los
datos para el caso de la producción de cacao del año 2018 no cumplen con ninguno de los supuestos, por
lo tanto es necesario realizar una transformación box-cox.
Para construir el cuadro necesario para el anova de dos factores se hizo la suma de la producción de todos
los municipios de un mismo departamento tanto para los datos de 2018 como p-ara los de 2017
Análisis de varianza de dos factores con una sola muestra por grupo
ANÁLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los cuadrados F Probabilidad Valor crítico para F
Filas 53856507 1 53856507 1.858694309 0.230953853 6.607890974
Columnas 1186361173 5 237272234.6 8.188732927 0.018803813 5.050329058
Error 144877258 5 28975451.6
Total 1385094938 11
Bibliografía
http://eio.usc.es/eipc1/BASE/BASEMASTER/FORMULARIOS-PHP-
DPTO/MATERIALES/Mat_50140116_Regr_%20simple_2011_12.pdf