Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Data science
starbucks<- read.csv("food_starbucks_menu.csv")
# Using popdata, plot response vs. explanatory
G1<- ggplot(starbucks, aes(x = Fat_g, y = Calories)) +
# Add a point layer
geom_point() +labs(title="Fat vs Calories
for Starbucks Food items")
600
400
Calories
200
0 10 20 30
Fat_g
600
400
Calories
200
0 10 20 30
Fat_g
600
500
Calories
400
300
200
100
10 20 30
Fat_g
set.seed(16)
#starbucks<- read.csv("food_starbucks_menu.csv")
sample1x<- sample_n(starbucks, 30)
600
500
400
Calories
300
200
100
10 20 30
Fat_g
set.seed(16)
starbucks<- read.csv("food_starbucks_menu.csv")
sample1x<- sample_n(starbucks, 30)
sample2x<- sample_n(starbucks, 30)
two_samples<- bind_rows(sample1x, sample2x,
.id = "replicate")
# Using popdata, plot response vs. explanatory
G3<- ggplot(two_samples, aes(x = Fat_g, y = Calories,
color = replicate)) +
# Add a point layer
geom_point() +labs(title="two sampled linear models") +
geom_smooth(method= "lm", se = F)
G3
set.seed(16)
starbucks<- read.csv("food_starbucks_menu.csv")
sample1x<- sample_n(starbucks, 30)
sample2x<- sample_n(starbucks, 30)
two_samples<- bind_rows(sample1x, sample2x,
.id = "replicate")
# Using popdata, plot response vs. explanatory
G3<- ggplot(two_samples, aes(x = Fat_g, y = Calories,
color = replicate)) +
# Add a point layer
geom_point() +labs(title="two sampled linear models") +
geom_smooth(method= "lm", se = F)
600
400
Calories
200
0 10 20 30
Fat_g
# A tibble: 2 x 5
term estimate std.error statistic p.value
<chr> <dbl> <dbl> <dbl> <dbl>
1 (Intercept) 258. 36.3 7.10 0.000000100
2 Protein_g 8.41 2.25 3.73 0.000856
La variabilidad de los términos del modelo lineal se observan en
(std.error)
std.error, representa cuánto varía la línea en unidades asociadas
statistic, es un estimación estandarizada. Mide el número de veces de
errores estandarizados que las estimaciones son mayores que cero.
P.value, entrega información acerca de si el intercepto o la pendiente
son ceros. Por default, la prueba es de dos colas (tener esto en cuenta)
Para el caso en cuestión, es fácil rechazar la hipótesis de que esta
muestra proviene de una población con un intercepto igual a cero
120
Biological
100
80
60 80 100 120
Foster
120 120
Biological
Biological
100 100
80 80
120 120
Biological
Biological
100 100
80 80
# A tibble: 500 x 2
replicate stat
<int> <dbl>
1 1 0.0215
2 2 -0.0297
3 3 0.420
4 4 0.192
5 5 0.0699
6 6 -0.120
7 7 0.0915
8 8 -0.215
9 9 0.0903
10 10 0.141
# ... with 490 more rows
geom_histogram()
75
count
50
25
100
count
50
Enrique −1.0
De La Hoz Domínguez −0.5 Inferencia en modelos de
0.0 Regresión Lineal 0.5 Data science 1.0 28 / 37
Bootstrapped Samples
110
120
100
Biological
Biological
100
90
80
80
70
100
75
75
count
count
50
50
25
25
0 0
y = β0 + β1 X1 + β2 X2 +
- Multiple linear regression model
Dos variables independientes, tambien llamadas predictoras o
regresores.
El término “lineal” es usado dado que la función de enlace es una
función lineal de los parametros desconocidos β0 , β1 , β2
Para este ejemplo, el modelo describe un plano en dos dimensiones
(X1 , X2 )
Algunas veces a los coeficientes se les llama Coeficientes parciales de
regresión, dado que β1 mide el cambio esperado en y por cada cambio
de una unidad en cuando X2 se mantiene constante. Similar para β2 .
y = β0 + β1 X1 + β2 X2 + ... + βk Xk +
- Los parametros βj son los coeficientes de regresión
El modelo describe un hiperplano de k-dimensiones de las variables
regresoras Xj .
Los βj representan el cambio esperado en la variable de respuesta y por
cada cambio de una unidad en Xj , cuando el resto de variables
permancen constante.
k
X
= β0 + βj Xij + i
j=1
n
X n
X k
X
L= 2i = (yi − β0 − βj Xij )2
i=1 i=1 j=1
n k
δL
= −2 (yi − βˆ0 −
X X
β̂j Xij )
δβj i=1 j=1
y = Xβ +
- Definición de los coeficientes
X 0 X β̂ = X 0 y
β̂ = (X ťX )−1 X 0 y
Predicciones
ŷ = X β̂