Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Las visualizaciones pude pueden ayudar a identificar diferentes comportamientos dentro de los datos
agrupados. Los siguientes ejemplos utilizan técnicas de visualización comunes para datos agrupados.
load patients
data = table(Age,Gender,Height,Weight,Smoker,SelfAssessedHealthStatus,Systolic,Diastolic);
clearvars -except data
Tenga en cuenta que se comvertira Gender e una variable tipo categorical sin orden implícito, mientras que
SelfAssessedHealthStatus en una variable ordinal categorical ordenada de "Poor" a "Excellent".
data.Gender = categorical(data.Gender);
data.SelfAssessedHealthStatus = categorical(data.SelfAssessedHealthStatus,{'Poor','Fair','Good'
groupsummary(data,'SelfAssessedHealthStatus','mean', {'Systolic','Diastolic'})
groupsummary(data,'Smoker','mean',{'Systolic','Diastolic'})
1 0 66 119.3939 79.3788
2 1 34 129.3529 89.9118
Es natural preguntarse cómo los fumadores califican su propia salud y, en particular, si un alto número de
fumadores que califican su salud favorablemente podría ser la razón del aumento presión arterial en esos
grupos. Ejecute el código a continuación para explorar estas preguntas.
• Se puede obtener una tabla de los recuentos crudos para fumadores vs no fumadores desglosados
por estado de salud utilizando la función de tabla cruzada (crosstab) como se muestra a continuación.
Tenga en cuenta que las filas y columnas se ordenan aumentando el número de categoría, que es Poor
Excellent para el estado de salud y Nonsmoker Smoker para el estado de fumador.
1
crosstab(data.SelfAssessedHealthStatus,data.Smoker)
ans = 4×2
8 3
10 5
24 16
24 10
Por último, la misma información de la tabulación cruzada se puede generar y transmitir visualmente utilizando
la función de mapa de calor heatmap. Antes de generar el mapa de calor, la variable 'Smoker' sera convertida
en categórica para mejorar el etiquetado visual.
data.Smoker = categorical(data.Smoker,[false,true],{'Nonsmoker','Smoker'});
heatmap(data,'Smoker','SelfAssessedHealthStatus');
Los mapas de calor son especialmente útiles para identificar grupos sobre y subrepresentados en sus datos
que pueden sesgar el análisis y producir resultados engañosos. De los resultados anteriores, está claro que el
grupo de estado de salud con el mayor porcentaje de fumadores es "Good", que, como era de esperar, es el
grupo con la presión arterial media más alta.
2
de dispersión, y en estos casos es útil agregar información de grupo al diagrama de dispersión. Ejecute el
siguiente código para trazar Diastolic vs Weight agrupados por género utilizando la función gscatter.
gscatter(data.Weight,data.Diastolic,data.Gender);
xlabel('Weight');
ylabel('Diastolic')
grp = data.Smoker;
gplotmatrix([data.Age,data.Weight,data.Height],[data.Systolic,data.Diastolic],grp,...
[],[],[],[],[],{'Age','Weight','Height'},{'Systolic','Diastolic'})
3
4