Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Problema 1: Agrupación
Planteamiento del problema: El conjunto de datos proporcionado trata sobre las
condiciones sanitarias y económicas en diferentes estados de un país. Los Estados del
Grupo se basan en la similitud de su situación, con el fin de proporcionar estos grupos al
gobierno para que se puedan tomar las medidas adecuadas para mejorar sus condiciones
sanitarias y económicas.
Diccionario de datos
1. Estados: nombres de los Estados
2. Índice_de_salud1: Un índice compuesto agrupa varias medidas relacionadas (indicadores) en una única
puntuación que ofrece un resumen del funcionamiento del sistema sanitario en el Estado.
3. Health_indeces2: Un índice compuesto agrupa varias medidas relacionadas (indicadores) en una única
puntuación que proporciona un resumen de cómo está funcionando el sistema sanitario en determinadas
áreas de los Estados.
4. Renta_per_capita-La renta per cápita (RPC) mide la renta media obtenida por persona en una zona
determinada (ciudad, región, país, etc.) en un año concreto. Se calcula dividiendo la renta total de la zona por
su población total.
5. PIB: El PIB proporciona una instantánea económica de un país/estado, utilizada para estimar el tamaño de
una economía y la tasa de crecimiento.
1.1. Leer los datos y realizar un análisis exploratorio de los mismos. Describa
brevemente los datos. (Compruebe los valores nulos, tipos de datos, forma,
EDA, etc.)
Leer el conjunto de datos- State_wise_Health_income-1 (1).csv
Hay dos variables "Unnamed: 0" y States que significan sólo el id en el conjunto de datos y no son necesarias en el
proceso de clustering. Por lo tanto, se pueden suprimir.
Después de eliminar estas variables...
Información del conjunto de datos
Análisis univariante.
Skewness
PIB 0.829665
Renta_per_capita 0.823113
Salud_indeces1 0.715371
Índices_sanitarios2 -0.173803
Análisis multivariante.
Pairplot-
Matriz de covarianza.
Matriz de correlación.
Mapa de calor-
De lo anterior se desprende que existe multicolinealidad en los datos.
La correlación más alta se da entre "Health_indeces1" y "GDP".
Tratamiento de valores atípicos: en lugar de imputar, lo que provoca la pérdida de datos, definiremos una función
personalizada: si el valor de una columna determinada es superior al valor máximo, se le asignará ese valor máximo.
La misma lógica para el valor mínimo también. Esto se conoce como sustitución min-max.
Ahora, no hay valores atípicos en el conjunto de datos.
Sí, el escalado es necesario, ya que los algoritmos de agrupación como K-means necesitan escalar las
características antes de introducirlas en el algoritmo. Dado que las técnicas de agrupación utilizan la distancia
euclidiana, será conveniente escalar los datos que constan de atributos con diferentes unidades de medida.
El conjunto de datos anterior consta de datos con diferentes unidades de medida también conocidas como
pesos, por lo que al escalarlos formarán un espacio común y los datos serán de rango relativo.
Aquí utilizaremos la escala z, en la que media=0 y desviación típica=1.
Antes de la ampliación
Después de escalar...
Ahora los datos pertenecen a un rango relativo entre -1,5 y 3.
P= 10
P= 25
Frecuencia de grupos
Perfiles de Cluster-
Vinculación de barrios
En este método, la función de vinculación que describe la distancia entre dos conglomerados se calcula como el
aumento de la "suma de cuadrados de error" (ESS) tras fusionar dos conglomerados en uno solo.
El método de Ward elige los pasos sucesivos para minimizar el aumento de ESS en cada paso.
P= 10
P= 25
Frecuencia de grupos
Perfiles de Cluster-
[0.5282573570427488,
0.5340151343712788,
0.5524561729411546,
0.5208181010553294,
0.5337141912655894,
0.5557534218887419,
0.5342932176693953,
0.5083265323516991,
0.5145381754982109]
Agrupaciones óptimas-
Ahora comprobaremos los resultados tanto para 3 clusters como para 4 clusters y elegiremos el óptimo.
3 Cluster Solution-
Frecuencia de grupos
Perfiles de Cluster-
4 Cluster Solution-
Frecuencia de grupos
Perfiles de Cluster-
1.5. Describir los perfiles de cluster para los clusters definidos. Recomendar
diferentes acciones prioritarias para los diferentes grupos en función de su
situación de vulnerabilidad y de sus condiciones económicas y sanitarias.
Nuestro principal objetivo era dividir los datos en un número óptimo de conglomerados.
Tanto del clustering jerárquico como del clustering Kmeans, obtenemos 3 como número óptimo de clusters.
Mantener el crecimiento de la productividad y el tamaño de la mano de obra mantendrá altas las condiciones
sanitarias y económicas.