Está en la página 1de 20

Informe empresarial: Proyecto de minería de datos

Por Shorya Goel

Problema 1: Agrupación
Planteamiento del problema: El conjunto de datos proporcionado trata sobre las
condiciones sanitarias y económicas en diferentes estados de un país. Los Estados del
Grupo se basan en la similitud de su situación, con el fin de proporcionar estos grupos al
gobierno para que se puedan tomar las medidas adecuadas para mejorar sus condiciones
sanitarias y económicas.

Diccionario de datos
1. Estados: nombres de los Estados
2. Índice_de_salud1: Un índice compuesto agrupa varias medidas relacionadas (indicadores) en una única
puntuación que ofrece un resumen del funcionamiento del sistema sanitario en el Estado.
3. Health_indeces2: Un índice compuesto agrupa varias medidas relacionadas (indicadores) en una única
puntuación que proporciona un resumen de cómo está funcionando el sistema sanitario en determinadas
áreas de los Estados.
4. Renta_per_capita-La renta per cápita (RPC) mide la renta media obtenida por persona en una zona
determinada (ciudad, región, país, etc.) en un año concreto. Se calcula dividiendo la renta total de la zona por
su población total.
5. PIB: El PIB proporciona una instantánea económica de un país/estado, utilizada para estimar el tamaño de
una economía y la tasa de crecimiento.

1.1. Leer los datos y realizar un análisis exploratorio de los mismos. Describa
brevemente los datos. (Compruebe los valores nulos, tipos de datos, forma,
EDA, etc.)
Leer el conjunto de datos- State_wise_Health_income-1 (1).csv

Hay dos variables "Unnamed: 0" y States que significan sólo el id en el conjunto de datos y no son necesarias en el
proceso de clustering. Por lo tanto, se pueden suprimir.
Después de eliminar estas variables...
Información del conjunto de datos

Hay 4 variables y 297 registros.


Según el análisis inicial, no falta ningún registro.
Todas las variables son de tipo entero.

Forma del conjunto de datos: (297, 4)


Esto muestra el número total de filas = 297 y el número total de columnas = 4.

Comprobación de valores perdidos

No hay valores perdidos en el conjunto de datos.

Resumen del conjunto de datos


Esto nos proporciona las estadísticas descriptivas de los datos, como la media, el recuento, la frecuencia y el
resumen de 5 puntos, etc.

Análisis univariante.

Skewness
PIB 0.829665
Renta_per_capita 0.823113
Salud_indeces1 0.715371
Índices_sanitarios2 -0.173803

De los gráficos anteriores se observa que -


 Todas las variables, salvo Health_indices2, están sesgadas a la derecha.
 Health_indices2 está sesgado negativamente.
 Hay valores atípicos presentes "Indecesos sanitarios1" y "Renta_per_capita".
 Los puntos de datos de todas las variables se distribuyen de forma similar.

Análisis multivariante.

Pairplot-
Matriz de covarianza.

Matriz de correlación.

Mapa de calor-
De lo anterior se desprende que existe multicolinealidad en los datos.
La correlación más alta se da entre "Health_indeces1" y "GDP".

Comprobación/tratamiento de valores atípicos

Uso de gráficos de caja

Nº de valores atípicos en Salud_indeces1: 2


Nº de valores atípicos en Renta_per_capita: 1

Tratamiento de valores atípicos: en lugar de imputar, lo que provoca la pérdida de datos, definiremos una función
personalizada: si el valor de una columna determinada es superior al valor máximo, se le asignará ese valor máximo.
La misma lógica para el valor mínimo también. Esto se conoce como sustitución min-max.
Ahora, no hay valores atípicos en el conjunto de datos.

1.2. ¿Cree que es necesario el escalado para la agrupación en este caso?


Justificar

Sí, el escalado es necesario, ya que los algoritmos de agrupación como K-means necesitan escalar las
características antes de introducirlas en el algoritmo. Dado que las técnicas de agrupación utilizan la distancia
euclidiana, será conveniente escalar los datos que constan de atributos con diferentes unidades de medida.
El conjunto de datos anterior consta de datos con diferentes unidades de medida también conocidas como
pesos, por lo que al escalarlos formarán un espacio común y los datos serán de rango relativo.
Aquí utilizaremos la escala z, en la que media=0 y desviación típica=1.

Antes de la ampliación
Después de escalar...
Ahora los datos pertenecen a un rango relativo entre -1,5 y 3.

1.3. Aplique la agrupación jerárquica a los datos escalados. Identifique el


número de conglomerados óptimos mediante el dendrograma y descríbalos
brevemente.
Existen diferentes métodos de agrupación, en este conjunto de datos utilizaremos los métodos de vinculación
"Average" y "Ward".
Enlace medio
En este método, la distancia entre cada par de observaciones de cada conglomerado se suma y se divide por el
número de pares para obtener una distancia media entre conglomerados.
La vinculación media y la vinculación completa son las dos métricas de distancia más populares en la agrupación
jerárquica.

Para hacerlo más claro, lo truncaremos.

P= 10

P= 25

Del dendrograma anterior se desprende claramente que deben formarse 3 clusters.


Utilizaremos el módulo fcluster para crear el cluster.
Después de crear 3 clusters como (1, 2 y 3), y almacenarlos en otra columna llamada "cluster-3" en el conjunto de
datos.

Frecuencia de grupos

Perfiles de Cluster-

Visualización de clústeres para la vinculación media

Vinculación de barrios
En este método, la función de vinculación que describe la distancia entre dos conglomerados se calcula como el
aumento de la "suma de cuadrados de error" (ESS) tras fusionar dos conglomerados en uno solo.
El método de Ward elige los pasos sucesivos para minimizar el aumento de ESS en cada paso.

Para hacerlo más claro, lo truncaremos.

P= 10

P= 25

Del dendrograma anterior se desprende claramente que deben formarse 3 clusters.


Utilizaremos el módulo fcluster para crear el cluster.
Después de crear 3 clusters como (1, 2 y 3), y almacenarlos en otra columna llamada "cluster-3" en el conjunto de
datos.

Frecuencia de grupos

Perfiles de Cluster-

Visualización de agrupaciones para la vinculación de barrios


Observaciones-
 Los valores medios de la vinculación media y de la vinculación de Ward son diferentes, con una gran
variación en la frecuencia de los conglomerados.
 Preferiremos la vinculación Ward en este conjunto de datos, ya que su rendimiento fue significativamente
bueno.
 Basándose en el dendrograma anterior, la solución de 3 clusters parece ser la más adecuada.
 Y la solución de conglomerados de tres grupos ofrece un patrón basado en zonas de PIB per cápita alto,
medio y bajo.

1.4. Aplique la agrupación K-Means a los datos escalados y determine las


agrupaciones óptimas. Aplica la curva del codo y encuentra la puntuación de
la silueta.
K-Mean Clustering- Se trata de un método iterativo de partición de los datos en K subgrupos distintos predefinidos
que no se solapan, también conocidos como clusters. En este caso, cada punto de datos pertenece a un único grupo.
En el intra-clúster los puntos de datos son tan similares como sea posible, mientras que la distancia entre los
diferentes clusters lo más lejos posible.
Pasos de trabajo del algoritmo k-means-
 Especifique el número de clustersK.
 Inicialice los centroides barajando primero el conjunto de datos y seleccionando después
aleatoriamenteKpuntos dedatospara los centroides sin reemplazo.
 Siga iterando hasta que no se produzcan cambios en los centroides, es decir, hasta que la asignación de
puntos de datos a los clusters no cambie.
 Calcula la suma de la distancia al cuadrado entre los puntos de datos y todos los centroides.
 Asigne cada punto de datos al clúster más cercano (centroide).
 Calcule los centroides de los conglomerados tomando la media de todos los puntos de datos que
pertenecen a cada conglomerado.

Realizando ahora el método del codo K-Means para K= (1 a 10)

La inercia para K= 1 a K=10.

Curva del codo.


Conclusiones: a partir del gráfico anterior, el número óptimo de conglomerados será 3 ó 4. Seguiremos adelante con
3 grupos.

Creación de 3 clusters utilizando Kmeans y añadiéndolos al conjunto de datos original.

Visualización de clusters para Kmeans -


Método de la silueta: se calculan los coeficientes de silueta de cada punto de datos. Es la medida de lo cerca que está
de su propio clúster y no de otros clústeres.
Puntuación Silhouette - 0.5340151343712788

Puntuaciones para los grupos K=2 a K=10:

[0.5282573570427488,
0.5340151343712788,
0.5524561729411546,
0.5208181010553294,
0.5337141912655894,
0.5557534218887419,
0.5342932176693953,
0.5083265323516991,
0.5145381754982109]

Gráfico con Silhouette Score-


Ahora, añadiendo la anchura de la silueta al conjunto de datos K-Mean-
La anchura de la silueta es una medida comprendida entre -1 y +1, en la que el valor 1 indica una agrupación muy buena.

Agrupaciones óptimas-
Ahora comprobaremos los resultados tanto para 3 clusters como para 4 clusters y elegiremos el óptimo.

3 Cluster Solution-

Frecuencia de grupos
Perfiles de Cluster-

4 Cluster Solution-

Frecuencia de grupos

Perfiles de Cluster-

Observaciones - Sobre la base de la solución de conglomerados anterior, la solución de 3 conglomerados parece


ser la que mejor se ajusta, ya que diferencia los 3 conglomerados como-.
 Zona de PIB per cápita elevado
 Mediana Superficie PIB per cápita
 Área de bajo PIB per cápita

1.5. Describir los perfiles de cluster para los clusters definidos. Recomendar
diferentes acciones prioritarias para los diferentes grupos en función de su
situación de vulnerabilidad y de sus condiciones económicas y sanitarias.

Nuestro principal objetivo era dividir los datos en un número óptimo de conglomerados.
Tanto del clustering jerárquico como del clustering Kmeans, obtenemos 3 como número óptimo de clusters.

Las conclusiones de todos estos métodos de agrupación...


Agrupación de 3 grupos mediante Kmeans-

Toma, Grupo 1 = PIB per cápita bajo


Grupo 2 = PIB per cápita medio
Grupo 3 = PIB per cápita elevado

3 agrupación por clustering jerárquico-.

Toma, Grupo 1 = PIB per cápita elevado


Grupo 2 = PIB per cápita bajo
Grupo 3 = PIB per cápita medio

Perfiles de grupos de clústeres-

Grupo 1: Zonas de alto PIB per cápita


- Son las zonas con mayor índice de crecimiento.
- Las condiciones sanitarias y económicas de estas zonas son excelentes.
- La renta per cápita en estas zonas es muy alta.
Grupo 2: Zonas de bajo PIB per cápita
- Son las zonas con una tasa de crecimiento muy baja.
- Las condiciones sanitarias y económicas no son buenas en estas zonas.
- La renta per cápita en estas zonas es muy baja.
Grupo 3: Zonas de PIB per cápita medio
- Son las zonas que tienen un índice de crecimiento medio.
- Las condiciones sanitarias y económicas de estas zonas son adecuadas.
- La renta per cápita de estas zonas es media.

Recomendaciones para cada perfil de agrupación.


Las principales características que afectan a las condiciones sanitarias y económicas son la mano de obra y la
productividad. Cuanto mayores sean estos atributos, mayor será el PIB per cápita y, por tanto, mayores serán las
condiciones sanitarias y económicas.
Grupo 1: Zonas con un PIB per cápita elevado

 Mantener el crecimiento de la productividad y el tamaño de la mano de obra mantendrá altas las condiciones
sanitarias y económicas.

Grupo 2: Zonas con bajo PIB per cápita

 En estas zonas hay que abrir industrias a gran escala.


 Deben crearse más oportunidades de empleo para aumentar el tamaño de la mano de obra e incrementar así
la productividad.
Esto contribuirá al crecimiento de las condiciones sanitarias y económicas de estas zonas.

Grupo 3: PIB per cápita medio Zonas

 En estas zonas, un mayor número de nuevas empresas contribuirá a su crecimiento y desarrollo.


 La reducción de los tipos impositivos también ayudará a estas zonas a crecer.

También podría gustarte