Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Untitled
Untitled
NIVELACIÓN EN R
TALLER 1
Para el desarrollo del taller, se procede a cargar la base de datos, para lo cual se siguen las siguientes
instrucciones:
library(readr); Wine <- read_table("Wine.txt"); names(Wine);
attach(Wine)
la librería readr permite efectuar la importación de los datos, mediante el comando read_table. El
comando name a su vez, posibilita leer la base de datos y finalmente utilizamos el comando attach
para poder acceder a cada una de las variables contenidas en la data.
Por medio del comando names se puede obtener el nombre de cada variable así:
names(Wine)
"claridade" "aroma" "corpo" "sabor" "aromac" "qualidade"
"regiao"
Seguidamente se renombró las columnas que integran la base de datos usando las denominaciones
de claridad, calidad, cuerpo, sabor, aromab y región, así:
claridad<- claridade
calidad<-qualidade
cuerpo<-corpo
sabor<-sabor
aromab<-aromac region<-regiao
Una vez renombradas las variables, se procedió a organizarlas en una nueva base de datos intitulada
Wine2:
Wine2<-data.frame(claridad, calidad, cuerpo, sabor, aroma, aromab,
región)
Posteriormente, haga inicialmente un análisis descriptivo bidimensional construyendo por ejemplo
boxplots o diagramas de dispersión de cada variable explicativa contra la variable respuesta calidad.
Luego, obtenga posibles conclusiones de los gráficos previamente mencionados. Además, construya
un histograma de la variable calidad.
En el caso de la relación existente entre la calidad y el aroma, es posible determinar que, si bien la
relación no es lineal, existe un vínculo positivo entre las variables. Es decir que a medida que crece
el aroma, crece la calidad. Así mismo el análisis del coeficiente de correlación lineal simple establece
que el grado de asociación entre las variables corresponde al 70%, lo que advierte que efectivamente
existe una relación moderadamente fuerte entre las variables.
Frente a la relación existente entre el aroma b y la calidad, es posible señalar que existe un
comportamiento dinámico entre las variables. Se intuye que la relación es potencialmente
cuadrática o cúbica, lo que implicaría, por ejemplo, que si el aroma crece de 3 a 4 unidades, la calidad
tiende a crecer. De otra parte, si la calidad pasa de 5 a 6 unidades, en este escenario la calidad se
reduce. Si se supone, un comportamiento cuadrático, el coeficiente de determinación es apenas del
4%, lo que implicaría que aproximadamente el 4% de los cambios experimentados por la calidad se
deben al aroma b y su forma cuadrática. No es posible establecer que esa relación a nivel cuadrático
sea fuerte por la cantidad de datos atípicos en la base.
La relación entre calidad y cuerpo es positiva, aunque no necesariamente lineal. Es decir, es posible
establecer que a medida que crece el cuerpo crece como respuesta la calidad. El coeficiente de
correlación lineal sugiere que la asociación entre las variables corresponde al 54.87%. El valor de la
pendiente sugiere que la respuesta de la calidad ante cambios unitarios en el cuerpo es más que
proporcional.
La relación existente entre calidad y sabor evidentemente es positiva, lo que implica que a medida
que crece el sabor la calidad aumenta. La relación no es necesariamente lineal. No obstante, el
coeficiente de correlación simple establece que aproximadamente el grado de asociación lineal
entre las variables corresponde al 79% que, considerando el valor de la pendiente lineal (1.57)
sugiere que el cuerpo y la calidad se encuentran estrechamente vinculadas.
Finalmente, la relación entre región (factor) y calidad permite determinar que la región 3 es aquella
en donde más altos estándares de calidad se producen, en contraste, la región 2 presenta menores
estándares de calidad en el vino.
Como ejercicio complementario al análisis de dispersión, se efectuaron gráficos de box-plot para las
relaciones de forma bidimensional. La primera observación descansa en el hecho de que, las cajas,
al igual que las curvas de regresión, constituyen herramientas que intentan capturar el
comportamiento de la mayor cantidad de datos posibles, sin embargo es evidente la existencia de
outliers o valores atípicos. Las relaciones descritas entre cada una de las variables se mantienen y
consolida de forma complementaria los análisis gráficos efectuados por las gráficas de dispersión.
De acuerdo con el histograma de calidad se puede asumir que la variable sigue una distribución
normal. Para verificar que eso es así se aplicó la prueba de Shapiro Wilk, cuya hipótesis nula plantea
que la variable calidad sigue una distribución normal. Para no rechazar la hipótesis nula el valor de
probabilidad propuesto por la estadística W de Shapiro Wilk debe superar el 5%.
library(nortest)
shapiro.test(calidad)
Como resultado se tuvo que:
Shapiro-Wilk normality test
data: calidad
W = 0.98414, p-value = 0.8559
Dado que el valor de probailidad es del 85.59%, se concluye que, tal y como lo sugiere el histograma,
la calidad sigue una distribución normal (Campana de Gauss).
Análisis multivariado
Para el análisis de más de dos variables se utilizó como factor, la información de región. En este caso,
el análisis de dispersión permite que sea posible establecer los vínculos entre las variables numéricas
discriminadas por factor. En primer término, la relación claridad y calidad (anteriormente establecida
como débilmente positiva), a la luz del tipo de región, advierte que tanto para la región 2 como para
la región 3, ahora existe un vínculo negativo entre las variables. En otras palabras, si el análisis se
hace para la región 2 y 3, se encuentra que existe una relación inversa entre claridad y calidad, lo
que contrasta con el vínculo positivo hallado para la región 1.
Así mismo, el análisis de la relación calidad y cuerpo, efectuado en la primera parte, donde se
señalaba un vínculo positivo entre las variables, es ahora consistente de igual forma, por tipo de
región. Como observación, vale la pena anotar que la pendiente entre calidad y cuerpo es más
definida para la región 2 que para las demás regiones.
Por último, la relación existente entre calidad y sabor que, en el examen global se había planteado
como positiva, estudiada mediante tipo de región es igualmente consistente. Se anota como
observación que la pendiente es más acentuada para las regiones 1 y 2 que, de hecho, son casi
paralelas. En términos simples, es notable una relación positiva para el vínculo calidad y sabor, entre
las diferentes regiones, especialmente en las dos primeras.
2. SOLUCIÓN Y ANÁLISIS DEL SEGUNDO PUNTO
La relación existente entre caída e intervención sugiere que el número de caídas se reduce
notablemente con la intervención, esto es, cuando se tiene educación y ejercicios físicos en el
tratamiento se reduce el número de caídas; en contraste, en ausencia de la intervención, las caídas
se incrementan de manera considerable. En cuanto a género no existe una diferencia notable frente
al número de caídas, lo que sugiere que las caídas se producen independientemente del género,
cabe anotar una muy leve diferencia a favor del género masculino, dado que, el número de caídas
por medida de centralidad es ligeramente más pequeño en hombres que en mujeres. Frente a la
relación existente entre fuerza y caída, es posible determinar una leve relación positiva, no lineal. Lo
anterior implica que, un incremento en la fuerza produce un muy leve incremento en las caídas de
los individuos que conforman la muestra. Finalmente, la relación existente entre caída y equilibrio
es levemente positiva, aunque no lineal, lo que sígnica que un crecimiento en el equilibrio afecta de
manera levemente positiva al crecimiento del número de caídas.
Histogramas de caídas, equilibrio y fuerza
De acuerdo con el análisis de los histogramas para caídas, equilibrio y fuerza, es posible determinar
que en el caso de las caídas no se sigue una distribución normal, lo cual se puede confirmar cuando
se evidencia en la prueba de Shapiro Wilk que el valor de probabilidad es inferior al 5%.
APÉNDICE
CÓDIGOS EN R
# Introduction
# conociendo la data
names(Wine); str(Wine); dim(Wine)
library(tidyverse)
library(ggplot2)
library(patchwork)
library(paletteer)
#1
# Dispersión entre Calidad y Claridad
g1<-ggplot(data = Wine2,
mapping = aes(x = claridad, y = calidad)) +
geom_point(color = "#64AAD2", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#8867A1")+
labs(title = "Relación entre calidad y cantidad",
x = "Claridad",
y = "Calidad")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
#2
# Dispersión entre Calidad y Aroma
g2<-ggplot(data = Wine2,
mapping = aes(x = aroma, y = calidad)) +
geom_point(color = "#9DC9E3", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#87CA79")+
labs(title = "Relación entre calidad y aroma",
x = "Aroma",
y = "Calidad")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
#3
# Dispersión entre Calidad y Aroma b
g3<-ggplot(data = Wine2,
mapping = aes(x = aromab, y = calidad)) +
geom_point(color = "#C02A79", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#FFC28C")+
labs(title = "Relación entre calidad y aroma b",
x = "Aroma b",
y = "Calidad")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
#4
# Dispersión entre Calidad y Cuerpo
g4<-ggplot(data = Wine2,
mapping = aes(x = cuerpo, y = calidad)) +
geom_point(color = "#EF9500", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col ="#35C1B0")+
labs(title = "Relación entre calidad y cuerpo",
x = "Cuerpo",
y = "Calidad")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
#5
# Dispersión entre Calidad y Sabor
g5<-ggplot(data = Wine2,
mapping = aes(x = sabor, y = calidad)) +
geom_point(color = "#3D1778", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#0093B0")+
labs(title = "Relación entre calidad y sabor",
x = "Sabor",
y = "Calidad")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
#6
# Dispersión entre Calidad y Región
g6<-ggplot(data = Wine2,
mapping = aes(x = region, y = calidad)) +
geom_point(color ="#7ECDBB", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#D94602")+
labs(title = "Relación entre calidad y región",
x = "region",
y = "Calidad",
caption = "Base de datos: Wine" )+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
# 1
# Box-plot entre Calidad y Claridad
f1<-ggplot(Wine2, aes(y=calidad, x=claridad, color=claridad,fill=
claridad)) +
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill="#ACB9DA", outlier.size=NA,lwd=1) +
guides(fill=FALSE) +
ylab("calidad") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre calidad y cantidad")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
# 2
# Box-plot entre Calidad y Aroma
f2<-ggplot(Wine2, aes(y=calidad, x=aroma, color=aroma,fill= aroma))
+
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill="#004164", outlier.size=NA,lwd=1) +
guides(fill=FALSE) +
ylab("calidad") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre calidad y aroma")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
# 3
# Box-plot entre Calidad y Cuerpo
f3<-ggplot(Wine2, aes(y=calidad, x=cuerpo, color=cuerpo,fill=
cuerpo)) +
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill="#B7DAFD", outlier.size=NA,lwd=1) +
guides(fill=FALSE) +
ylab("calidad") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre calidad y cuerpo")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
# 4
# Box-plot entre Calidad y Sabor
f4<-ggplot(Wine2, aes(y=calidad, x=sabor, color=sabor,fill= sabor))
+
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill="#2686A0", outlier.size=NA,lwd=1) +
guides(fill=FALSE) +
ylab("calidad") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre calidad y sabor")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
# 5
# Box-plot entre Calidad y Aromab
f5<-ggplot(Wine2, aes(y=calidad, x=aromab, color=aromab,fill=
aromab)) +
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill="#359DC7", outlier.size=NA,lwd=1) +
guides(fill=FALSE) +
ylab("calidad") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre calidad y aroma b")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
# 6
# Box-plot entre Calidad y Región
f6<-ggplot(Wine2, aes(y=calidad, x=region, color=region,fill=
region)) +
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill="#4D7CAB", outlier.size=NA,lwd=1) +
guides(fill=FALSE) +
ylab("calidad") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre calidad y región",
caption = "Base de datos: Wine")+
theme(axis.title = element_text(size = 9))+
theme(plot.title = element_text(hjust = 0.5, size=10))+
theme(axis.text = element_text(size=8))
ggp_all2
# histograma de calidad
library(paletteer)
library(ggplot2)
library(scales)
library(nortest)
shapiro.test(calidad)
# Segundo punto
# conociendo la data
library(readr)
names(geriatra); str(geriatra)
# los vectores son númericos
library(DescTools); Abstract(geriatra)
# renonbrando variables
caidas<-V1; intervencion<-factor(V2); genero<-factor(V3);
equilibrio<-V4; fuerza<-V5
# caídas e intervención
i1<-ggplot(geriatra, aes(y=caidas, x=intervencion,
color=intervencion,fill= intervencion)) +
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill=NA, outlier.size=NA,lwd=1) + guides(fill=FALSE)
+
ylab("caídas") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre caída e intervención")+
theme(plot.title = element_text(hjust = 0.5))
# caídas y género
i2<-ggplot(geriatra, aes(y=caidas, x=genero, color=genero,fill=
genero)) +
geom_point(position=position_jitter(width=0.15),
alpha=0.8,size=1.5) +
geom_boxplot(fill=NA, outlier.size=NA,lwd=1) + guides(fill=FALSE)
+
ylab("caídas") + geom_violin(alpha=0.3,trim=FALSE) +
theme_light()+
labs(title = "Relación entre caída y género")+
theme(plot.title = element_text(hjust = 0.5))+
theme_classic()
# caídas y fuerza
i3<-ggplot(data = geriatra,
mapping = aes(x = fuerza, y = caidas)) +
geom_point(color = "#249BC0", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#002F70")+
labs(title = "Relación entre caída y fuerza",
x = "Fuerza",
y = "Caída")+
theme(plot.title = element_text(hjust = 0.5))
# caídas y equilibrio
i4<-ggplot(data = geriatra,
mapping = aes(x = equilibrio, y = caidas)) +
geom_point(color = "#249BC0", alpha = 0.7, size = 3) +
geom_smooth(method = "loess", col = "#002F70")+
labs(title = "Relación entre caída y equilibrio",
caption = "Base de datos: Geriatra",
x = "Equilibrio",
y = "Caída")+
theme(plot.title = element_text(hjust = 0.5))+
theme_minimal()
library(nortest)
shapiro.test(equilibrio)
library(nortest)
shapiro.test(fuerza)
savehistory(file = "taller#1")