Está en la página 1de 10

Fundación Universitaria Los Libertadores

Análisis Multivariado
Jamer José Diaz Portilla
Aspirante a especialista en Estadística Aplicada
Actividad 2

La siguiente actividad tiene como objetivo aplicar la técnica de análisis de correspondencia a la


base de datos “Insurance_claims”, la cual tiene mil 1000 registros y 40 columnas asociadas a la
detección de fraude de seguros de autos.

Para la actividad por favor realizar:

1. Cargar la base de datos en Python.

2. Realice una exploración rápida del conjunto de datos e identifique las variables
cualitativas.

En los siguientes screen shots, se muestra el conjunto toal de variables que componen a la base de
datos, adicionalmente en la gráfica que se ve negra, se detallan los datos faltantes.
3. Realice un filtro para las variables cualitativas y realice un análisis estadístico descriptivo
bivariado de las variables cualitativas.

En el siguiente pantallazo se ve el código para filtrar las variables cuantitativas de las cualitativas, y
luego una impresión de la base de datos con solo variables cualitativas. Ahora con estas variables
procedemos a hacer un análisis, tomando como variable dependiente al fraude (fraud_reported).

En las siguientes gráficas se ve la relación entre los hobbies o actividades lúdicas de los implicados
en accidentes, y si se cometió fraude; el hobbie está en color azul y el fraude en naranja; se puede
decir que los practicantes de “Ajedrez”, y de “Crossfit”, son los que más muestran fraude en
accidentes de tránsito.

En la gráfica del medio, se muestra el fraude por tipo de accidente; si el accidente fue entre
vehículos, si fue con algún implicado estando parqueado, si fue un solo vehículo que colisionó, o si
fue un vehículo robado.

Y en la tercera gráfica se ve el fraude por nivel de educación, pero no hay diferencias en la cantidad
de fraudes entre niveles de educación.
4. Seleccione las variables más importantes para un posible estudio de análisis de
correspondencia.
En el pantallazo adjunto se
encuentran todas las variables
categóricas. En Colaboratory
(Colab), podemos ver si son de tipo
string, integer, booleans, object,
etc; en este caso solo dejamos las
“objects”, ya que son las variables
cualitativas de la base de datos, y
las que nos permiten desarrollar el
ANÁLISIS DE CORRESPONDENCIA.

5. Exporte la base de datos en archivo csv o Excel.

Con nuestras variables Cualitativas ya filtradas, se procede a descargar una nueva base de datos, con
solo variables Cualitativas, con el siguiente código:

df_cualitativas.to_csv('datos_cualitativos.csv', index = False)

Colab nos crea una nueva base de datos, la cual llamamos “datos_cualitativos.csv”, subrayado en el
pantallazo inferior, con la cual nos dirigimos a Restudio para hacer el Análisis de Correspondencia.
6. Cargue la base de datos en R

Utilizamos Restudio online, ya que es más versátil en su utilización.

En la siguiente imagen vemos el cargue de la base de datos que descargamos anteriormente en


Colab, la llamamos “cualitativas_DEFINITIVAS.csv”, y en la parte de abajo colocamos el comando
“str”, en R estudio, para mirar las características de la base nueva y sus variables; vemos que está
compuesta por 9 variables, todas cualitativas, y contando la dependiente “report fraud”. También
“str” nos permite ver que todas las variables tienen 1000 observaciones, además de permitirnos
ver las categorías de cada variable.

7. Realice el respectivo análisis de correspondencia y detecte los posibles cluster.

En el siguiente gráfico vemos como las dimensiones representan el porcentaje. Y la dimensión 1 y 2


solo representan cerca del 7%, lo cual es entendible. El gráfico explica como la dimensión 1 tiene el
4 %, y la dimensión 2 el 2.6 % del porcentaje de la varianza.
En el gráfico a continuación, se dibuja la dimensión 1 en el eje X, con un 4 %, mientras que en el eje
Y se dibuja la dimensión 2, con 2.6 %. Adicional el gráfico muestra tanto los individuos, como las
variables en el mismo plano, del cual se pueden hacer ciertas afirmaciones, aunque por la cantidad
de datos utilizados (1000 observaciones), es normal que este gráfico se vea sobre cargado; por lo
cual, se hace necesario realizar el análisis de las dimensiones, con los individuos y las variables de
forma más detallada.

Correlación entre variables y dimensiones principales

En esta gráfica se ve la correlación entre las variables y las dimensiones principales (1 y2 ). Así
mismo se puede decir que la severidad del accidente aporta bastante en ambas dimensiones; el
tipo de incidente (cerca al eje X, a la derecha), aporta bastante a la dimensión 1; el reporte de
fraude aporta bastante a la dimensión 2 (cerca al eje Y, en la parte de arriba); como también se ve
un grupo de variables cercanas al origen de ambas dimensiones, de las cuales podemos decir que
no aportan demasiado en el Análisis de Correspondencia, y se podría prescindir de ellas.
Coordenadas de categorías

En el siguiente gráfico se observan las categorías entre las dos dimensiones, ya se ve un poco más
despejado que el biplot, en donde se graficaban tanto las categorías como los individuos. En esta
gráfica, se ven las categorías, y como se asocian por ejemplo en la parte superior izquierda, los
practicantes de ajedrez, de cross-fit y los reportes de fraude cercanos a la dimensión 2. Y en el
extremo derecho cercano al eje horizontal (dimensión 1), están asociadas las variables de daños
triviales, automóvil parqueado y vehículo robado; de lo anterior podemos nuevamente sacar
conclusiones como las anteriores, además podemos ir haciendo asociaciones de categorías y
variables cercanas.

Matriz de correlación visual

La gráfica de la derecha nos


genera una matriz de correlación
visual del coseno al cuadrado. En
ella están consignadas las
variables que más aportan a la
dimensión 1 y a la 2. Como son
bastantes categorías, visualmente
se ven muy juntas e impide su
análisis, sin embargo, al hacer
zoom, las categorías carro
parqueado, vehículo robado,
daño trivial, ningún daño y
reporte de fraude son las que
más aportan en la dimensión 1; a
su vez a la dimensión 2 las
categorías daño mayor, pérdida
total y reporte de fraude, son las
que mayor aporte hicieron a la
dimensión 2.
Coseno de las variables de las categorías en las dimensiones 1 y 2

La siguiente gráfica está en concordancia con el gráfico anterior, matriz de correlación visual, en
donde las mismas variables que se mencionaron, son las mismas que muestran mayor aporte a las
dimensiones 1 y 2.

Contribución de las variables a las


dimensiones 1 y 2

Esta gráfica representa la contribución a las


dimensiones 1 y 2; lo que confirma un poco
las conclusiones que hemos hecho desde
las primeras gráficas, en donde se siguen
viendo las mismas variables como las que
más aportan a la explicación de las
dimensiones.
Contribución de los individuos al análisis de Correspondencia
kjiuguiyfuy

También podría gustarte