Está en la página 1de 47

Proyecto Regresión Lineal Multiple

Gaona Martinez Maria Fernanda


Najera Camacho Maria del Rosario
Ruiz Filio Kevin Eduardo
Villegas Zarate Esmeralda
19/6/2022
Problema: Una aseguradora quiere entender la dinámica de reclamaciones de sus asegurados. Proponga un modelo que le permita a la
aseguradora identificar cómo influyen las características de la cartera de asegurados en el valor de las reclamaciones.

Para empezar con el análisis de los datos, primero vamos a cargar nuestra base de datos:

datos <- read.csv("insurance_data.csv",header = TRUE, sep = ',')

Ya que observamos nuestra base de datos, vamos a conocer las características de esta misma y realizar diagramas de dispersión para darnos
una idea del tipo de relación que existe entre ellas. Después haremos uso del summary para obtener un resumen de las variables.

summary(datos)

## id customer_lifetime_value Cobertura Educacion

## Min. : 1 Min. : 1898 Length:8630 Length:8630

## 1st Qu.:2280 1st Qu.: 3858 Class :character Class :character

## Median :4548 Median : 5569 Mode :character Mode :character

## Mean :4561 Mean : 6725

## 3rd Qu.:6853 3rd Qu.: 8456

## Max. :9134 Max. :21235

## EstadoLaboral Genero Ingresos TipoDeUbicacion

## Length:8630 Length:8630 Min. : 0 Length:8630

## Class :character Class :character 1st Qu.: 0 Class :character

## Mode :character Mode :character Median :33817 Mode :character

## Mean :37586

## 3rd Qu.:62251

## Max. :99981

## EstadoMarital PrimaMensualAuto MesesDesdeUltimaReclamacion

## Length:8630 Min. : 61.00 Min. : 0.00

## Class :character 1st Qu.: 68.00 1st Qu.: 6.00

## Mode :character Median : 81.00 Median :14.00

## Mean : 91.68 Mean :15.08

## 3rd Qu.:108.00 3rd Qu.:23.00

## Max. :298.00 Max. :35.00

## MesesDesdeAperturaDePoliza NumeroDeReclamacionesAbiertas NumeroDePolizas

## Min. : 0 Min. :0.0000 Min. :1.000

## 1st Qu.:24 1st Qu.:0.0000 1st Qu.:1.000

## Median :48 Median :0.0000 Median :2.000

## Mean :48 Mean :0.3891 Mean :3.021

## 3rd Qu.:71 3rd Qu.:0.0000 3rd Qu.:4.000

## Max. :99 Max. :5.0000 Max. :9.000

## TipoDePoliza Poliza OfertaDeRenovacion CanalDeVenta

## Length:8630 Length:8630 Length:8630 Length:8630

## Class :character Class :character Class :character Class :character

## Mode :character Mode :character Mode :character Mode :character

##

##

##

## ValorTotalDeReclamacion ClaseDeVehiculo TamaÃ.oDeVehiculo

## Min. : 0.099 Length:8630 Length:8630

## 1st Qu.: 268.881 Class :character Class :character

## Median : 376.880 Mode :character Mode :character

## Mean : 427.132

## 3rd Qu.: 542.400

## Max. :2893.240

Es importante hacer un primer análisis de verificación para identificar los datos que pueden ser útiles o datos que pudieran ser errores. Después
de analizarlos vamos a explorar la relación entre las variables.

Para ello vamos hacer un data.frame solo con las variables de tipo númerico.

datos1 <- data.frame(datos$Ingresos,

datos$PrimaMensualAuto,

datos$MesesDesdeUltimaReclamacion,

datos$MesesDesdeAperturaDePoliza,

datos$NumeroDeReclamacionesAbiertas,

datos$NumeroDePolizas,

datos$ValorTotalDeReclamacion,

datos$customer_lifetime_value)

cor(datos1)
## datos.Ingresos datos.PrimaMensualAuto

## datos.Ingresos 1.000000000 -0.026218981

## datos.PrimaMensualAuto -0.026218981 1.000000000

## datos.MesesDesdeUltimaReclamacion -0.028664980 0.006544453

## datos.MesesDesdeAperturaDePoliza -0.001242395 0.011146727

## datos.NumeroDeReclamacionesAbiertas 0.002392766 -0.013691697

## datos.NumeroDePolizas -0.008422718 0.002589628

## datos.ValorTotalDeReclamacion -0.364856679 0.620604041

## datos.customer_lifetime_value 0.026669315 0.411616508

## datos.MesesDesdeUltimaReclamacion

## datos.Ingresos -0.028664980

## datos.PrimaMensualAuto 0.006544453

## datos.MesesDesdeUltimaReclamacion 1.000000000

## datos.MesesDesdeAperturaDePoliza -0.044980041

## datos.NumeroDeReclamacionesAbiertas 0.005015656

## datos.NumeroDePolizas 0.010207347

## datos.ValorTotalDeReclamacion 0.005581604

## datos.customer_lifetime_value 0.007968415

## datos.MesesDesdeAperturaDePoliza

## datos.Ingresos -0.001242395

## datos.PrimaMensualAuto 0.011146727

## datos.MesesDesdeUltimaReclamacion -0.044980041

## datos.MesesDesdeAperturaDePoliza 1.000000000

## datos.NumeroDeReclamacionesAbiertas -0.001762881

## datos.NumeroDePolizas -0.012212763

## datos.ValorTotalDeReclamacion -0.002980694

## datos.customer_lifetime_value -0.010444704

## datos.NumeroDeReclamacionesAbiertas

## datos.Ingresos 0.002392766

## datos.PrimaMensualAuto -0.013691697

## datos.MesesDesdeUltimaReclamacion 0.005015656

## datos.MesesDesdeAperturaDePoliza -0.001762881

## datos.NumeroDeReclamacionesAbiertas 1.000000000

## datos.NumeroDePolizas -0.001042869

## datos.ValorTotalDeReclamacion -0.012321275

## datos.customer_lifetime_value -0.039209233

## datos.NumeroDePolizas

## datos.Ingresos -0.008422718

## datos.PrimaMensualAuto 0.002589628

## datos.MesesDesdeUltimaReclamacion 0.010207347

## datos.MesesDesdeAperturaDePoliza -0.012212763

## datos.NumeroDeReclamacionesAbiertas -0.001042869

## datos.NumeroDePolizas 1.000000000

## datos.ValorTotalDeReclamacion 0.005798665

## datos.customer_lifetime_value 0.172308949

## datos.ValorTotalDeReclamacion

## datos.Ingresos -0.364856679

## datos.PrimaMensualAuto 0.620604041

## datos.MesesDesdeUltimaReclamacion 0.005581604

## datos.MesesDesdeAperturaDePoliza -0.002980694

## datos.NumeroDeReclamacionesAbiertas -0.012321275

## datos.NumeroDePolizas 0.005798665

## datos.ValorTotalDeReclamacion 1.000000000

## datos.customer_lifetime_value 0.229030001

## datos.customer_lifetime_value

## datos.Ingresos 0.026669315

## datos.PrimaMensualAuto 0.411616508

## datos.MesesDesdeUltimaReclamacion 0.007968415

## datos.MesesDesdeAperturaDePoliza -0.010444704

## datos.NumeroDeReclamacionesAbiertas -0.039209233

## datos.NumeroDePolizas 0.172308949

## datos.ValorTotalDeReclamacion 0.229030001

## datos.customer_lifetime_value 1.000000000

Hacemos la correlación únicamente de las variables númericas ya que no se puede sacar correlación ni diagramas de dispersión de variables
discretas (categóricas) y visualizamos como es que se relacionan estas mismas.

plot(datos1)
Los diagramas de dispersión y los coeficientes de relación muestran una posible relación lineal entre la prima mensual y el valor total de
reclamación así como el customer_lifetime_value y la prima mensual del auto.

Se esta buscando explicar a la Aseguradora como se comporta el valor de las reclamaciones, entonces vamos a aplicar un modelo de regresión
lineal donde la variable dependiente sea El valor total de las reclamaciones y el resto de las variables de la base sean las variables explicativas.

Pero antes haremos un análisis visual de las variables cualitativas con respecto a la variable dependiente que queremos analizar.

library(ggplot2)

## Warning: package 'ggplot2' was built under R version 4.1.3

ggplot(datos, aes(x=datos$Cobertura, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$Cobertura` is discouraged. Use `Cobertura` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.

ggplot(datos, aes(x=datos$Educacion, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$Educacion` is discouraged. Use `Educacion` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.
ggplot(datos, aes(x=datos$Genero, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$Genero` is discouraged. Use `Genero` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.

ggplot(datos, aes(x=datos$TipoDeUbicacion, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$TipoDeUbicacion` is discouraged. Use `TipoDeUbicacion`

## instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.
ggplot(datos, aes(x=datos$EstadoMarital, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$EstadoMarital` is discouraged. Use `EstadoMarital`

## instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.

ggplot(datos, aes(x=datos$TipoDePoliza, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$TipoDePoliza` is discouraged. Use `TipoDePoliza` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.
ggplot(datos, aes(x=datos$Poliza, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$Poliza` is discouraged. Use `Poliza` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.

ggplot(datos, aes(x=datos$CanalDeVenta, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$CanalDeVenta` is discouraged. Use `CanalDeVenta` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.
ggplot(datos, aes(x=datos$OfertaDeRenovacion, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$OfertaDeRenovacion` is discouraged. Use

## `OfertaDeRenovacion` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.

ggplot(datos, aes(x=datos$ClaseDeVehiculo, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$ClaseDeVehiculo` is discouraged. Use `ClaseDeVehiculo`

## instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.
ggplot(datos, aes(x=datos$TamaÃ.oDeVehiculo, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$TamaÃ.oDeVehiculo` is discouraged. Use

## `TamaÃ.oDeVehiculo` instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.

ggplot(datos, aes(x=datos$EstadoLaboral, y=datos$ValorTotalDeReclamacion)) + geom_boxplot(fill='green')

## Warning: Use of `datos$EstadoLaboral` is discouraged. Use `EstadoLaboral`

## instead.

## Warning: Use of `datos$ValorTotalDeReclamacion` is discouraged. Use

## `ValorTotalDeReclamacion` instead.
A continuación haremos la interpretación de estas gráficas:

Plot Cobertura

Al observas las coberturas nos encontramos con basic, extended y premium de las cuales tratamos de recategorizar respecto a el tamaño del
boxplot(rango interquartil) como de la mediana. Y por ser 3 es buena idea recategorizar las coberturas extended y premium respecto a la basic de
menor categoría de reclamaciones.

Plot Educacion

Nos encontramos con 5 categorías asi que para hacer un modelo mas significativo vamos a recategorizar respecto a el nivel High School or Below
por ser la mediana significativa entre las demas(Doctor,Master,College,Bachelor) y estas ya mencionadas por el tamaño del boxplot(rango
interquartil) como de la mediana.

Plot Genero

Por tener solo F y M, no es necesario hacer recategorización por que gana la mediana del genero M.

Plot TipoDeUbicacion

Representativamente nos encontramos con 3 medianas sumamente diferentes por lo que no consideramos recategorizar.

Plot EstadoMarital

Al tener la mediana mas grande por parte de Single, vamos a recategorizar married y divorced, respecto a esta pues las dos mencionadas
anterior tienen un tamaño del boxplot(rango interquartil) como medianas similares.

Plot TipoDePoliza

Obersevamos 3 medianas semejantes, es decir sin nada de diferencias significativas por lo que no es necesario hacer recategorizacion pues no
es significativo para fomentar el valor de reclamacion.

Plot Póliza

Los siguientes valores corresponden a los datos de póliza, los cuales se dividen en 3 grupos (Corporate, Personal, Special) y de estos hay otros 3
subgrupos de cada una.Podemos ver que en las pólizas Corporate L1, Corporate L3, Personal L1, Personal L2, Personal L3 y Special L1 existe
una asimetría hacia la derecha es decir, la mayoría de los datos se encuentran en la parte superior de la gráfica y por lo tanto muestran que no
están distribuidos normalmente.Por otro lado, Corporate L2, Special L2, Special L3, tienen una mejor simetría, por lo que puede ser que los datos
de estas variables están distribuidos normalmente.

Plot Canal de venta

En el siguiente gráfico se muestran los canales de venta existentes en nuestra base, podemos ver que los 4 canales tienen una distribución
parecida. Ya que, en todos existe una asimetría hacia la derecha, es decir, la mayoría de los datos se encuentran en la parte superior de la
gráfica, esto nos indica una posible falta de distribución normal de los datos.

Plot Oferta de renovación

En el siguiente gráfico se muestran las ofertas de renovación existentes en nuestra base, podemos ver que las 4 ofertas tienen una distribución
parecida. Ya que, en todos existe una asimetría hacia la derecha, es decir, la mayoría de los datos se encuentran en la parte superior de la
gráfica. Aunque realmente la diferencia es muy poca; esto nos puede indicar una posible falta de distribución normal de los datos

Plot Clase de vehículo

En este gráfico se muestran las clases de vehículos; observamos que los carros de dos y cuatro puertas tienen una mediana muy similar, además
de que en ambos existe una ligera asimetría hacia la derecha. Y probablemente se distribuyen igual. También los carros deportivos y SUV tienen
una distribución muy parecida, casi igual. De los carros de lujo y SUV de lujo ambos tienen una asimetría hacia la derecha muy marcada, sin
embargo su mediana difiere y por lo tanto su distribución es diferente.

Plot Tamaño de vehículo

En este gráfico tenemos la distribución de los tamaños de vehículos. Podemos ver que en los pequeños los cuartiles son simétricos, es decir se
distribuyen normalmente. Por otro lado, los vehículos medianos y largos, tienen una distribución asimétrica hacia la derecha, lo que quiere decir
que la mayoría de los datos se encuentran en la parte superior del gráfico.Son muy parecidos, tanto en la mediana como en sus cuartiles.

Plot Estado Laboral


En este gráfico se encuentra la distribución de los estados laborales. En primer lugar tenemos a las personas que no trabajan con una simetría en
ambos cuartiles, por otro lado tenemos a los empleados y retirados con una ligera asimetría hacia a la izquierda, es decir la mayoría de los datos
se encuentran en la parte inferior del gráfico. Por el contrario, la licencia médica y los desempleados tienen una asimetría hacia la derecha, es
decir, la mayoría de los datos se encuentran en la parte superior.

Es notable que algunas de las categorías de las variables son muy similares y por lo tanto podemos recategorizarlas. Ahora sí, hecho lo anterior
lo cual nos será útil mas adelante, empezaremos haciendo un modelo de regresión lineal múltiple en el que incluiremos todas las variables de la
base.

mr<-lm(datos$ValorTotalDeReclamacion ~. , datos)

summary(mr)

##

## Call:

## lm(formula = datos$ValorTotalDeReclamacion ~ ., data = datos)

##

## Residuals:

## Min 1Q Median 3Q Max

## -873.92 -69.44 -23.18 61.58 1617.90

##

## Coefficients: (2 not defined because of singularities)

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) -3.540e+02 2.033e+01 -17.414 < 2e-16 ***

## id 2.913e-04 5.580e-04 0.522 0.601703

## customer_lifetime_value -4.311e-04 4.196e-04 -1.028 0.304209

## CoberturaExtended -1.671e+01 5.683e+00 -2.941 0.003281 **

## CoberturaPremium -1.153e+01 1.202e+01 -0.959 0.337699

## EducacionCollege -5.238e+00 3.809e+00 -1.375 0.169122

## EducacionDoctor -1.351e+01 8.075e+00 -1.673 0.094425 .

## EducacionHigh School or Below 9.802e+00 3.868e+00 2.534 0.011279 *

## EducacionMaster -1.148e+01 5.858e+00 -1.960 0.050062 .

## EstadoLaboralEmployed -4.292e+00 7.918e+00 -0.542 0.587777

## EstadoLaboralMedical Leave 1.778e+01 9.739e+00 1.826 0.067960 .

## EstadoLaboralRetired -8.968e+00 1.102e+01 -0.814 0.415583

## EstadoLaboralUnemployed 6.894e+01 7.949e+00 8.673 < 2e-16 ***

## GeneroM 1.278e+01 2.959e+00 4.317 1.60e-05 ***

## Ingresos -2.951e-04 8.585e-05 -3.437 0.000591 ***

## TipoDeUbicacionSuburban 3.705e+02 4.273e+00 86.702 < 2e-16 ***

## TipoDeUbicacionUrban 2.174e+02 4.857e+00 44.764 < 2e-16 ***

## EstadoMaritalMarried -5.290e+00 4.346e+00 -1.217 0.223594

## EstadoMaritalSingle 6.272e+01 4.997e+00 12.550 < 2e-16 ***

## PrimaMensualAuto 5.251e+00 2.267e-01 23.160 < 2e-16 ***

## MesesDesdeUltimaReclamacion 2.538e-01 1.464e-01 1.734 0.083033 .

## MesesDesdeAperturaDePoliza 4.644e-03 5.308e-02 0.087 0.930294

## NumeroDeReclamacionesAbiertas -1.159e+00 1.599e+00 -0.725 0.468395

## NumeroDePolizas 8.497e-01 6.144e-01 1.383 0.166749

## TipoDePolizaPersonal Auto 7.142e-01 7.807e+00 0.091 0.927106

## TipoDePolizaSpecial Auto 3.221e+00 1.381e+01 0.233 0.815523

## PolizaCorporate L2 -5.234e+00 9.372e+00 -0.558 0.576562

## PolizaCorporate L3 -7.486e-01 8.633e+00 -0.087 0.930905

## PolizaPersonal L1 5.394e+00 4.636e+00 1.164 0.244639

## PolizaPersonal L2 -1.463e+00 3.881e+00 -0.377 0.706158

## PolizaPersonal L3 NA NA NA NA

## PolizaSpecial L1 4.133e+01 2.098e+01 1.970 0.048920 *

## PolizaSpecial L2 1.870e+00 1.602e+01 0.117 0.907081

## PolizaSpecial L3 NA NA NA NA

## OfertaDeRenovacionOffer2 1.703e+01 3.668e+00 4.644 3.47e-06 ***

## OfertaDeRenovacionOffer3 1.137e+01 4.438e+00 2.563 0.010398 *

## OfertaDeRenovacionOffer4 1.168e+01 5.170e+00 2.260 0.023869 *

## CanalDeVentaBranch 2.885e+00 3.668e+00 0.787 0.431549

## CanalDeVentaCall Center -1.970e+00 4.141e+00 -0.476 0.634339

## CanalDeVentaWeb 2.029e+00 4.570e+00 0.444 0.657076

## ClaseDeVehiculoLuxury Car 4.025e+01 3.212e+01 1.253 0.210107

## ClaseDeVehiculoLuxury SUV -5.868e+00 3.194e+01 -0.184 0.854253

## ClaseDeVehiculoSports Car -3.004e+01 1.210e+01 -2.482 0.013073 *

## ClaseDeVehiculoSUV -1.916e+01 1.059e+01 -1.809 0.070475 .

## ClaseDeVehiculoTwo-Door Car 6.021e-01 3.790e+00 0.159 0.873793

## TamaÃ.oDeVehiculoMedsize -4.442e+00 4.872e+00 -0.912 0.361897

## TamaÃ.oDeVehiculoSmall 8.357e+00 5.673e+00 1.473 0.140727

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136 on 8585 degrees of freedom

## Multiple R-squared: 0.7698, Adjusted R-squared: 0.7686

## F-statistic: 652.4 on 44 and 8585 DF, p-value: < 2.2e-16

Este primer modelo tiene un coeficiente de determinación del 76.86% lo cual es aceptable, ya que nos dice que solo el 76% de la variación de los
datos de reclamaciones esta siendo explicada por nuestro modelo.

Ademas, observamos que las pruebas de hipótesis para cada β i nos dicen que las varaiables id, customer_lifetime_value,
MesesDesdeAperturaDePoliza, NumeroDeReclamacionesAbiertas, NumeroDePolizas, TipoDePoliza, CanalDeVenta y TamañoDeVehiculo no son
significativas para el modelo, por lo tanto podemos descartarlas.
Ahora, vamos a emplear el método Backward con el criterio AIC para comparar las variables que nosotros consideramos que podemos desechar,
porque no son útiles y con respecto a nuestro criterio y a lo arrojado por el stepAIC podemos ir refinando el modelo para obtener el mejor modelo
posible.

library(MASS)

modelo_backward_AIC = stepAIC(mr,direction = "backward")


## Start: AIC=84837.66

## datos$ValorTotalDeReclamacion ~ id + customer_lifetime_value +

## Cobertura + Educacion + EstadoLaboral + Genero + Ingresos +

## TipoDeUbicacion + EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## MesesDesdeAperturaDePoliza + NumeroDeReclamacionesAbiertas +

## NumeroDePolizas + TipoDePoliza + Poliza + OfertaDeRenovacion +

## CanalDeVenta + ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

##

## Step: AIC=84837.66

## datos$ValorTotalDeReclamacion ~ id + customer_lifetime_value +

## Cobertura + Educacion + EstadoLaboral + Genero + Ingresos +

## TipoDeUbicacion + EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## MesesDesdeAperturaDePoliza + NumeroDeReclamacionesAbiertas +

## NumeroDePolizas + Poliza + OfertaDeRenovacion + CanalDeVenta +

## ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - Poliza 8 180343 158975095 84831

## - CanalDeVenta 3 27013 158821765 84833

## - MesesDesdeAperturaDePoliza 1 142 158794894 84836

## - id 1 5040 158799792 84836

## - NumeroDeReclamacionesAbiertas 1 9726 158804478 84836

## - customer_lifetime_value 1 19528 158814280 84837

## - NumeroDePolizas 1 35371 158830123 84838

## <none> 158794752 84838

## - MesesDesdeUltimaReclamacion 1 55587 158850339 84839

## - TamaÃ.oDeVehiculo 2 205795 159000547 84845

## - Cobertura 2 245947 159040699 84847

## - Ingresos 1 218509 159013261 84848

## - Educacion 4 438879 159233631 84853

## - OfertaDeRenovacion 3 415184 159209936 84854

## - Genero 1 344764 159139516 84854

## - ClaseDeVehiculo 5 922790 159717542 84878

## - EstadoLaboral 4 3451924 162246676 85015

## - EstadoMarital 2 6207234 165001986 85165

## - PrimaMensualAuto 1 9921682 168716434 85359

## - TipoDeUbicacion 2 139143817 297938569 90264

##

## Step: AIC=84831.46

## datos$ValorTotalDeReclamacion ~ id + customer_lifetime_value +

## Cobertura + Educacion + EstadoLaboral + Genero + Ingresos +

## TipoDeUbicacion + EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## MesesDesdeAperturaDePoliza + NumeroDeReclamacionesAbiertas +

## NumeroDePolizas + OfertaDeRenovacion + CanalDeVenta + ClaseDeVehiculo +

## TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - CanalDeVenta 3 28441 159003536 84827

## - MesesDesdeAperturaDePoliza 1 43 158975138 84829

## - id 1 2942 158978038 84830

## - NumeroDeReclamacionesAbiertas 1 9173 158984268 84830

## - customer_lifetime_value 1 17624 158992719 84830

## - NumeroDePolizas 1 33573 159008668 84831

## <none> 158975095 84831

## - MesesDesdeUltimaReclamacion 1 51052 159026147 84832

## - TamaÃ.oDeVehiculo 2 207246 159182341 84839

## - Cobertura 2 239417 159214512 84840

## - Ingresos 1 217713 159192808 84841

## - Educacion 4 434444 159409539 84847

## - Genero 1 339459 159314554 84848

## - OfertaDeRenovacion 3 422063 159397158 84848

## - ClaseDeVehiculo 5 926851 159901946 84872

## - EstadoLaboral 4 3437306 162412401 85008

## - EstadoMarital 2 6200628 165175724 85158

## - PrimaMensualAuto 1 9914539 168889634 85352

## - TipoDeUbicacion 2 139284577 298259672 90258

##

## Step: AIC=84827

## datos$ValorTotalDeReclamacion ~ id + customer_lifetime_value +

## Cobertura + Educacion + EstadoLaboral + Genero + Ingresos +

## TipoDeUbicacion + EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## MesesDesdeAperturaDePoliza + NumeroDeReclamacionesAbiertas +

## NumeroDePolizas + OfertaDeRenovacion + ClaseDeVehiculo +

## TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - MesesDesdeAperturaDePoliza 1 100 159003635 84825

## - id 1 2937 159006473 84825

## - NumeroDeReclamacionesAbiertas 1 9405 159012940 84826

## - customer_lifetime_value 1 18120 159021656 84826

## - NumeroDePolizas 1 33478 159037014 84827

## <none> 159003536 84827

## - MesesDesdeUltimaReclamacion 1 50798 159054334 84828

## - TamaÃ.oDeVehiculo 2 205704 159209239 84834

## - Cobertura 2 240743 159244279 84836

## - Ingresos 1 217959 159221495 84837

## - Educacion 4 429196 159432731 84842

## - Genero 1 339060 159342596 84843

## - OfertaDeRenovacion 3 429579 159433115 84844

## - ClaseDeVehiculo 5 927575 159931111 84867

## - EstadoLaboral 4 3438736 162442272 85004

## - EstadoMarital 2 6196924 165200459 85153

## - PrimaMensualAuto 1 9905441 168908977 85347

## - TipoDeUbicacion 2 139268655 298272191 90252

##

## Step: AIC=84825.01

## datos$ValorTotalDeReclamacion ~ id + customer_lifetime_value +

## Cobertura + Educacion + EstadoLaboral + Genero + Ingresos +

## TipoDeUbicacion + EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - id 1 2933 159006568 84823

## - NumeroDeReclamacionesAbiertas 1 9422 159013057 84824

## - customer_lifetime_value 1 18193 159021828 84824

## - NumeroDePolizas 1 33418 159037053 84825

## <none> 159003635 84825

## - MesesDesdeUltimaReclamacion 1 50699 159054335 84826

## - TamaÃ.oDeVehiculo 2 205872 159209507 84832

## - Cobertura 2 240871 159244507 84834

## - Ingresos 1 217859 159221495 84835

## - Educacion 4 429128 159432763 84840

## - Genero 1 339514 159343149 84841

## - OfertaDeRenovacion 3 432369 159436004 84842

## - ClaseDeVehiculo 5 928197 159931832 84865

## - EstadoLaboral 4 3443946 162447582 85002

## - EstadoMarital 2 6204889 165208524 85151

## - PrimaMensualAuto 1 9911120 168914755 85345

## - TipoDeUbicacion 2 139304795 298308430 90251

##

## Step: AIC=84823.17

## datos$ValorTotalDeReclamacion ~ customer_lifetime_value + Cobertura +

## Educacion + EstadoLaboral + Genero + Ingresos + TipoDeUbicacion +

## EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - NumeroDeReclamacionesAbiertas 1 9447 159016015 84822

## - customer_lifetime_value 1 18101 159024669 84822

## - NumeroDePolizas 1 33194 159039762 84823

## <none> 159006568 84823

## - MesesDesdeUltimaReclamacion 1 50589 159057157 84824

## - TamaÃ.oDeVehiculo 2 205927 159212496 84830

## - Cobertura 2 239728 159246296 84832

## - Ingresos 1 218502 159225071 84833

## - Educacion 4 429737 159436305 84838

## - Genero 1 340022 159346590 84840

## - OfertaDeRenovacion 3 433904 159440472 84841

## - ClaseDeVehiculo 5 929374 159935942 84863

## - EstadoLaboral 4 3442198 162448767 85000

## - EstadoMarital 2 6216680 165223248 85150

## - PrimaMensualAuto 1 9909561 168916129 85343

## - TipoDeUbicacion 2 139305446 298312015 90249

##

## Step: AIC=84821.68

## datos$ValorTotalDeReclamacion ~ customer_lifetime_value + Cobertura +

## Educacion + EstadoLaboral + Genero + Ingresos + TipoDeUbicacion +

## EstadoMarital + PrimaMensualAuto + MesesDesdeUltimaReclamacion +

## NumeroDePolizas + OfertaDeRenovacion + ClaseDeVehiculo +

## TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - customer_lifetime_value 1 17058 159033073 84821

## - NumeroDePolizas 1 33167 159049182 84821

## <none> 159016015 84822

## - MesesDesdeUltimaReclamacion 1 50374 159066389 84822

## - TamaÃ.oDeVehiculo 2 206234 159222249 84829

## - Cobertura 2 240646 159256661 84831

## - Ingresos 1 219242 159235257 84832

## - Educacion 4 432613 159448628 84837

## - Genero 1 339795 159355810 84838

## - OfertaDeRenovacion 3 444398 159460413 84840

## - ClaseDeVehiculo 5 927027 159943042 84862

## - EstadoLaboral 4 3439604 162455619 84998

## - EstadoMarital 2 6219605 165235620 85149

## - PrimaMensualAuto 1 9902685 168918700 85341

## - TipoDeUbicacion 2 139296019 298312034 90247

##

## Step: AIC=84820.61

## datos$ValorTotalDeReclamacion ~ Cobertura + Educacion + EstadoLaboral +

## Genero + Ingresos + TipoDeUbicacion + EstadoMarital + PrimaMensualAuto +

## MesesDesdeUltimaReclamacion + NumeroDePolizas + OfertaDeRenovacion +

## ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - NumeroDePolizas 1 25995 159059069 84820

## <none> 159033073 84821

## - MesesDesdeUltimaReclamacion 1 50043 159083116 84821

## - TamaÃ.oDeVehiculo 2 205528 159238602 84828

## - Cobertura 2 241608 159274681 84830

## - Ingresos 1 221190 159254263 84831

## - Educacion 4 430409 159463482 84836

## - Genero 1 341247 159374321 84837

## - OfertaDeRenovacion 3 461080 159494153 84840

## - ClaseDeVehiculo 5 934330 159967404 84861

## - EstadoLaboral 4 3439941 162473014 84997

## - EstadoMarital 2 6242013 165275086 85149

## - PrimaMensualAuto 1 9894310 168927383 85339

## - TipoDeUbicacion 2 139310178 298343252 90246

##

## Step: AIC=84820.02

## datos$ValorTotalDeReclamacion ~ Cobertura + Educacion + EstadoLaboral +

## Genero + Ingresos + TipoDeUbicacion + EstadoMarital + PrimaMensualAuto +

## MesesDesdeUltimaReclamacion + OfertaDeRenovacion + ClaseDeVehiculo +

## TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## <none> 159059069 84820

## - MesesDesdeUltimaReclamacion 1 50559 159109628 84821

## - TamaÃ.oDeVehiculo 2 206338 159265407 84827

## - Cobertura 2 242064 159301133 84829

## - Ingresos 1 222624 159281693 84830

## - Educacion 4 435752 159494820 84836

## - Genero 1 345916 159404985 84837

## - OfertaDeRenovacion 3 445187 159504255 84838

## - ClaseDeVehiculo 5 938989 159998058 84861

## - EstadoLaboral 4 3442991 162502059 84997

## - EstadoMarital 2 6229473 165288542 85148

## - PrimaMensualAuto 1 9920615 168979683 85340

## - TipoDeUbicacion 2 139292588 298351656 90244

Vamos a analizar el modelo, de acuerdo a lo arrojado en stepAIC().

summary(modelo_backward_AIC)
##

## Call:

## lm(formula = datos$ValorTotalDeReclamacion ~ Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + TipoDeUbicacion + EstadoMarital +

## PrimaMensualAuto + MesesDesdeUltimaReclamacion + OfertaDeRenovacion +

## ClaseDeVehiculo + TamaÃ.oDeVehiculo, data = datos)

##

## Residuals:

## Min 1Q Median 3Q Max

## -876.13 -68.60 -23.27 61.24 1614.81

##

## Coefficients:

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) -3.488e+02 1.824e+01 -19.126 < 2e-16 ***

## CoberturaExtended -1.664e+01 5.671e+00 -2.935 0.003348 **

## CoberturaPremium -1.174e+01 1.200e+01 -0.979 0.327719

## EducacionCollege -5.084e+00 3.802e+00 -1.337 0.181276

## EducacionDoctor -1.344e+01 8.066e+00 -1.666 0.095723 .

## EducacionHigh School or Below 9.875e+00 3.863e+00 2.557 0.010586 *

## EducacionMaster -1.122e+01 5.850e+00 -1.919 0.055072 .

## EstadoLaboralEmployed -5.197e+00 7.901e+00 -0.658 0.510689

## EstadoLaboralMedical Leave 1.689e+01 9.727e+00 1.737 0.082446 .

## EstadoLaboralRetired -9.862e+00 1.098e+01 -0.898 0.368968

## EstadoLaboralUnemployed 6.805e+01 7.932e+00 8.578 < 2e-16 ***

## GeneroM 1.278e+01 2.956e+00 4.325 1.54e-05 ***

## Ingresos -2.975e-04 8.576e-05 -3.470 0.000524 ***

## TipoDeUbicacionSuburban 3.705e+02 4.270e+00 86.756 < 2e-16 ***

## TipoDeUbicacionUrban 2.175e+02 4.855e+00 44.790 < 2e-16 ***

## EstadoMaritalMarried -5.070e+00 4.339e+00 -1.169 0.242590

## EstadoMaritalSingle 6.286e+01 4.988e+00 12.603 < 2e-16 ***

## PrimaMensualAuto 5.229e+00 2.258e-01 23.161 < 2e-16 ***

## MesesDesdeUltimaReclamacion 2.416e-01 1.461e-01 1.653 0.098273 .

## OfertaDeRenovacionOffer2 1.719e+01 3.579e+00 4.804 1.58e-06 ***

## OfertaDeRenovacionOffer3 1.130e+01 4.402e+00 2.567 0.010284 *

## OfertaDeRenovacionOffer4 1.157e+01 5.058e+00 2.287 0.022228 *

## ClaseDeVehiculoLuxury Car 4.087e+01 3.207e+01 1.274 0.202609

## ClaseDeVehiculoLuxury SUV -5.759e+00 3.189e+01 -0.181 0.856690

## ClaseDeVehiculoSports Car -2.985e+01 1.208e+01 -2.471 0.013508 *

## ClaseDeVehiculoSUV -1.942e+01 1.056e+01 -1.839 0.065892 .

## ClaseDeVehiculoTwo-Door Car 4.311e-01 3.786e+00 0.114 0.909359

## TamaÃ.oDeVehiculoMedsize -4.255e+00 4.867e+00 -0.874 0.382030

## TamaÃ.oDeVehiculoSmall 8.568e+00 5.668e+00 1.512 0.130630

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136 on 8601 degrees of freedom

## Multiple R-squared: 0.7694, Adjusted R-squared: 0.7686

## F-statistic: 1025 on 28 and 8601 DF, p-value: < 2.2e-16

De los resultados obtenidos podemos refinar el modelo anterior, pero, para ello primero recategorizaremos las variables como ya lo habíamos
mencionado antes, ya que, algunas de las categorías originales no muestran ser significativas en el primer modelo. Para ello, utilizaremos
nuestras BloxPlot que creamos para irnos guiando y asi agrupar en una sola categoría algunas que entre ellas sean similares. Para guardar estos
cambios y ajustes en los datos crearemos una nueva variable donde cargaremos nuevamente la base y sobre esa variable trabajaremos.

datoslimpios <- read.csv("insurance_data.csv",header = TRUE, sep = ',')

Recategorizaciones:

##Empecemos con cobertura

datoslimpios$NuevaCobertura <- ifelse(datoslimpios$Cobertura=="Premium","Premium","Intermedia")

##Vamos con Clase de vehiculo

datoslimpios$NuevaClase <- ifelse(datoslimpios$ClaseDeVehiculo %in% c("Two-Door Car","Four-Door Car"),"Sedan",

ifelse(datoslimpios$ClaseDeVehiculo %in% c("Sports Car","SUV"),"Premium","Luxury"))

## Vamos con poliza

datoslimpios$NuevaPoliza <- ifelse(datoslimpios$Poliza %in% c("Personal L1","Personal L2", "Personal L3"),"Personal",

ifelse(datoslimpios$Poliza %in% c("Corporate L1","Corporate L2", "Corporate L3"),"Corporate","Special"))

## Vamos con educacion

datoslimpios$NuevoEducacion <- ifelse(datoslimpios$Educacion %in% c("Bachelor", "College"),"Median-Superior",

ifelse(datoslimpios$Educacion %in% c("Master","Doctor"),"Postgrade","High School"))

##Vamos con estado marital

datoslimpios$NuevoEstadoMarital <- ifelse(datoslimpios$EstadoMarital=="Single","Single","Compromiso")

#Vamos con Estado Laboral

datoslimpios$NuevoEstadoLaboral <- ifelse(datoslimpios$EstadoLaboral %in% c("Medical Leave", "Disabled", "Retired"),"QPNP",

ifelse(datoslimpios$EstadoLaboral %in% c("Employed"),"Employed","Unemployed"))

Ahora, con nuestros datos recategorizados haremos un nuevo modelo más refinado, además de que tomamos en cuenta lo arrojado en el
“stepAIC”. Cabe señalar que ignoraremos el tamaño del vehículo debido a que ninguna de sus categorÍas es significativa y dado que es una
variable que no es tan relevante porque ya tenemos la clase del vehículo y de ahí podemos conocer su tamaño, dicho lo anterior, continuemos.
mr2 <- lm(datoslimpios$ValorTotalDeReclamacion ~0+datoslimpios$NuevaCobertura+datoslimpios$NuevoEducacion+datoslimpios$Nuevo
EstadoLaboral+datoslimpios$Genero+datoslimpios$Ingresos+datoslimpios$TipoDeUbicacion+datoslimpios$NuevoEstadoMarital+datosli
mpios$PrimaMensualAuto+datoslimpios$MesesDesdeUltimaReclamacion+datoslimpios$NuevaClase+datoslimpios$NuevaPoliza)

summary(mr2)

##

## Call:

## lm(formula = datoslimpios$ValorTotalDeReclamacion ~ 0 + datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$MesesDesdeUltimaReclamacion + datoslimpios$NuevaClase +

## datoslimpios$NuevaPoliza)

##

## Residuals:

## Min 1Q Median 3Q Max

## -836.06 -65.46 -26.65 61.48 1622.47

##

## Coefficients:

## Estimate Std. Error t value

## datoslimpios$NuevaCoberturaIntermedia -2.211e+02 2.921e+01 -7.570

## datoslimpios$NuevaCoberturaPremium -2.064e+02 3.451e+01 -5.980

## datoslimpios$NuevoEducacionMedian-Superior -1.320e+01 3.364e+00 -3.923

## datoslimpios$NuevoEducacionPostgrade -2.162e+01 5.178e+00 -4.175

## datoslimpios$NuevoEstadoLaboralQPNP 6.872e+00 5.566e+00 1.235

## datoslimpios$NuevoEstadoLaboralUnemployed 7.243e+01 6.061e+00 11.950

## datoslimpios$GeneroM 1.280e+01 2.954e+00 4.333

## datoslimpios$Ingresos -2.484e-04 8.561e-05 -2.902

## datoslimpios$TipoDeUbicacionSuburban 3.734e+02 4.209e+00 88.725

## datoslimpios$TipoDeUbicacionUrban 2.175e+02 4.863e+00 44.715

## datoslimpios$NuevoEstadoMaritalSingle 6.548e+01 3.642e+00 17.978

## datoslimpios$PrimaMensualAuto 4.669e+00 1.308e-01 35.707

## datoslimpios$MesesDesdeUltimaReclamacion 2.417e-01 1.464e-01 1.650

## datoslimpios$NuevaClasePremium -8.790e+01 1.450e+01 -6.064

## datoslimpios$NuevaClaseSedan -8.820e+01 1.918e+01 -4.599

## datoslimpios$NuevaPolizaPersonal 2.954e+00 3.591e+00 0.823

## datoslimpios$NuevaPolizaSpecial 1.284e+01 7.929e+00 1.620

## Pr(>|t|)

## datoslimpios$NuevaCoberturaIntermedia 4.12e-14 ***

## datoslimpios$NuevaCoberturaPremium 2.32e-09 ***

## datoslimpios$NuevoEducacionMedian-Superior 8.80e-05 ***

## datoslimpios$NuevoEducacionPostgrade 3.00e-05 ***

## datoslimpios$NuevoEstadoLaboralQPNP 0.21700

## datoslimpios$NuevoEstadoLaboralUnemployed < 2e-16 ***

## datoslimpios$GeneroM 1.49e-05 ***

## datoslimpios$Ingresos 0.00372 **

## datoslimpios$TipoDeUbicacionSuburban < 2e-16 ***

## datoslimpios$TipoDeUbicacionUrban < 2e-16 ***

## datoslimpios$NuevoEstadoMaritalSingle < 2e-16 ***

## datoslimpios$PrimaMensualAuto < 2e-16 ***

## datoslimpios$MesesDesdeUltimaReclamacion 0.09888 .

## datoslimpios$NuevaClasePremium 1.39e-09 ***

## datoslimpios$NuevaClaseSedan 4.31e-06 ***

## datoslimpios$NuevaPolizaPersonal 0.41076

## datoslimpios$NuevaPolizaSpecial 0.10534

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136.4 on 8613 degrees of freedom

## Multiple R-squared: 0.9293, Adjusted R-squared: 0.9291

## F-statistic: 6655 on 17 and 8613 DF, p-value: < 2.2e-16

Notemos que apesar de haber refinado el modelo, seguimos teniendo varibles no significativas, por lo cual haremos uso de stepAIC, para seguir
refinando. Además, observamos que en el coeficiente de determinación para este segundo modelo es de 92.91%

modelo_backward_AIC2 = stepAIC(mr2,direction = "backward")


## Start: AIC=84857.06

## datoslimpios$ValorTotalDeReclamacion ~ 0 + datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$MesesDesdeUltimaReclamacion + datoslimpios$NuevaClase +

## datoslimpios$NuevaPoliza

##

## Df Sum of Sq RSS AIC

## - datoslimpios$NuevaPoliza 2 50160 160238353 84856

## <none> 160188193 84857

## - datoslimpios$MesesDesdeUltimaReclamacion 1 50664 160238858 84858

## - datoslimpios$Ingresos 1 156584 160344777 84863

## - datoslimpios$Genero 1 349182 160537376 84874

## - datoslimpios$NuevoEducacion 2 420135 160608329 84876

## - datoslimpios$NuevaClase 2 1033894 161222087 84909

## - datoslimpios$NuevaCobertura 2 2570250 162758443 84990

## - datoslimpios$NuevoEstadoLaboral 2 3364159 163552352 85032

## - datoslimpios$NuevoEstadoMarital 1 6011007 166199201 85173

## - datoslimpios$PrimaMensualAuto 1 23712839 183901033 86046

## - datoslimpios$TipoDeUbicacion 2 146826621 307014815 90467

##

## Step: AIC=84855.76

## datoslimpios$ValorTotalDeReclamacion ~ datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$MesesDesdeUltimaReclamacion + datoslimpios$NuevaClase -

## 1

##

## Df Sum of Sq RSS AIC

## <none> 160238353 84856

## - datoslimpios$MesesDesdeUltimaReclamacion 1 49330 160287684 84856

## - datoslimpios$Ingresos 1 154242 160392595 84862

## - datoslimpios$Genero 1 346687 160585041 84872

## - datoslimpios$NuevoEducacion 2 418120 160656474 84874

## - datoslimpios$NuevaClase 2 1034304 161272657 84907

## - datoslimpios$NuevaCobertura 2 2557959 162796312 84988

## - datoslimpios$NuevoEstadoLaboral 2 3365212 163603566 85031

## - datoslimpios$NuevoEstadoMarital 1 6026464 166264817 85172

## - datoslimpios$PrimaMensualAuto 1 23718123 183956477 86045

## - datoslimpios$TipoDeUbicacion 2 146868931 307107284 90466

summary(modelo_backward_AIC2)
##

## Call:

## lm(formula = datoslimpios$ValorTotalDeReclamacion ~ datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$MesesDesdeUltimaReclamacion + datoslimpios$NuevaClase -

## 1)

##

## Residuals:

## Min 1Q Median 3Q Max

## -835.79 -65.18 -26.95 61.38 1622.57

##

## Coefficients:

## Estimate Std. Error t value

## datoslimpios$NuevaCoberturaIntermedia -2.185e+02 2.908e+01 -7.514

## datoslimpios$NuevaCoberturaPremium -2.039e+02 3.441e+01 -5.925

## datoslimpios$NuevoEducacionMedian-Superior -1.319e+01 3.364e+00 -3.921

## datoslimpios$NuevoEducacionPostgrade -2.153e+01 5.176e+00 -4.159

## datoslimpios$NuevoEstadoLaboralQPNP 7.006e+00 5.566e+00 1.259

## datoslimpios$NuevoEstadoLaboralUnemployed 7.251e+01 6.061e+00 11.962

## datoslimpios$GeneroM 1.275e+01 2.954e+00 4.317

## datoslimpios$Ingresos -2.465e-04 8.560e-05 -2.880

## datoslimpios$TipoDeUbicacionSuburban 3.735e+02 4.209e+00 88.735

## datoslimpios$TipoDeUbicacionUrban 2.176e+02 4.863e+00 44.741

## datoslimpios$NuevoEstadoMaritalSingle 6.556e+01 3.642e+00 18.000

## datoslimpios$PrimaMensualAuto 4.669e+00 1.308e-01 35.710

## datoslimpios$MesesDesdeUltimaReclamacion 2.384e-01 1.464e-01 1.629

## datoslimpios$NuevaClasePremium -8.790e+01 1.450e+01 -6.064

## datoslimpios$NuevaClaseSedan -8.819e+01 1.918e+01 -4.598

## Pr(>|t|)

## datoslimpios$NuevaCoberturaIntermedia 6.30e-14 ***

## datoslimpios$NuevaCoberturaPremium 3.24e-09 ***

## datoslimpios$NuevoEducacionMedian-Superior 8.89e-05 ***

## datoslimpios$NuevoEducacionPostgrade 3.23e-05 ***

## datoslimpios$NuevoEstadoLaboralQPNP 0.20816

## datoslimpios$NuevoEstadoLaboralUnemployed < 2e-16 ***

## datoslimpios$GeneroM 1.60e-05 ***

## datoslimpios$Ingresos 0.00399 **

## datoslimpios$TipoDeUbicacionSuburban < 2e-16 ***

## datoslimpios$TipoDeUbicacionUrban < 2e-16 ***

## datoslimpios$NuevoEstadoMaritalSingle < 2e-16 ***

## datoslimpios$PrimaMensualAuto < 2e-16 ***

## datoslimpios$MesesDesdeUltimaReclamacion 0.10344

## datoslimpios$NuevaClasePremium 1.39e-09 ***

## datoslimpios$NuevaClaseSedan 4.33e-06 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136.4 on 8615 degrees of freedom

## Multiple R-squared: 0.9292, Adjusted R-squared: 0.9291

## F-statistic: 7541 on 15 and 8615 DF, p-value: < 2.2e-16

Vayamos con nuestro nuevo modelo, haciendo uso del stepAIC.

mr3 <- lm(datoslimpios$ValorTotalDeReclamacion ~0+datoslimpios$NuevaCobertura+datoslimpios$NuevoEducacion+datoslimpios$Nuevo


EstadoLaboral+datoslimpios$Genero+datoslimpios$Ingresos+datoslimpios$TipoDeUbicacion+datoslimpios$NuevoEstadoMarital+datosli
mpios$PrimaMensualAuto+datoslimpios$MesesDesdeUltimaReclamacion+datoslimpios$NuevaClase)

summary(mr3)
##

## Call:

## lm(formula = datoslimpios$ValorTotalDeReclamacion ~ 0 + datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$MesesDesdeUltimaReclamacion + datoslimpios$NuevaClase)

##

## Residuals:

## Min 1Q Median 3Q Max

## -835.79 -65.18 -26.95 61.38 1622.57

##

## Coefficients:

## Estimate Std. Error t value

## datoslimpios$NuevaCoberturaIntermedia -2.185e+02 2.908e+01 -7.514

## datoslimpios$NuevaCoberturaPremium -2.039e+02 3.441e+01 -5.925

## datoslimpios$NuevoEducacionMedian-Superior -1.319e+01 3.364e+00 -3.921

## datoslimpios$NuevoEducacionPostgrade -2.153e+01 5.176e+00 -4.159

## datoslimpios$NuevoEstadoLaboralQPNP 7.006e+00 5.566e+00 1.259

## datoslimpios$NuevoEstadoLaboralUnemployed 7.251e+01 6.061e+00 11.962

## datoslimpios$GeneroM 1.275e+01 2.954e+00 4.317

## datoslimpios$Ingresos -2.465e-04 8.560e-05 -2.880

## datoslimpios$TipoDeUbicacionSuburban 3.735e+02 4.209e+00 88.735

## datoslimpios$TipoDeUbicacionUrban 2.176e+02 4.863e+00 44.741

## datoslimpios$NuevoEstadoMaritalSingle 6.556e+01 3.642e+00 18.000

## datoslimpios$PrimaMensualAuto 4.669e+00 1.308e-01 35.710

## datoslimpios$MesesDesdeUltimaReclamacion 2.384e-01 1.464e-01 1.629

## datoslimpios$NuevaClasePremium -8.790e+01 1.450e+01 -6.064

## datoslimpios$NuevaClaseSedan -8.819e+01 1.918e+01 -4.598

## Pr(>|t|)

## datoslimpios$NuevaCoberturaIntermedia 6.30e-14 ***

## datoslimpios$NuevaCoberturaPremium 3.24e-09 ***

## datoslimpios$NuevoEducacionMedian-Superior 8.89e-05 ***

## datoslimpios$NuevoEducacionPostgrade 3.23e-05 ***

## datoslimpios$NuevoEstadoLaboralQPNP 0.20816

## datoslimpios$NuevoEstadoLaboralUnemployed < 2e-16 ***

## datoslimpios$GeneroM 1.60e-05 ***

## datoslimpios$Ingresos 0.00399 **

## datoslimpios$TipoDeUbicacionSuburban < 2e-16 ***

## datoslimpios$TipoDeUbicacionUrban < 2e-16 ***

## datoslimpios$NuevoEstadoMaritalSingle < 2e-16 ***

## datoslimpios$PrimaMensualAuto < 2e-16 ***

## datoslimpios$MesesDesdeUltimaReclamacion 0.10344

## datoslimpios$NuevaClasePremium 1.39e-09 ***

## datoslimpios$NuevaClaseSedan 4.33e-06 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136.4 on 8615 degrees of freedom

## Multiple R-squared: 0.9292, Adjusted R-squared: 0.9291

## F-statistic: 7541 on 15 and 8615 DF, p-value: < 2.2e-16

De este modelo 3 quiteremos únicamente MesesDeUltimaReclamacion ya que no es significativo, entonces creamos un modelo 4 para guardar
estos cambios.

mr4 <- lm(datoslimpios$ValorTotalDeReclamacion ~0+datoslimpios$NuevaCobertura+datoslimpios$NuevoEducacion+datoslimpios$Nuevo


EstadoLaboral+datoslimpios$Genero+datoslimpios$Ingresos+datoslimpios$TipoDeUbicacion+datoslimpios$NuevoEstadoMarital+datosli
mpios$PrimaMensualAuto+datoslimpios$NuevaClase)

summary(mr4)
##

## Call:

## lm(formula = datoslimpios$ValorTotalDeReclamacion ~ 0 + datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$NuevaClase)

##

## Residuals:

## Min 1Q Median 3Q Max

## -839.05 -64.57 -26.72 62.03 1618.61

##

## Coefficients:

## Estimate Std. Error t value

## datoslimpios$NuevaCoberturaIntermedia -2.155e+02 2.903e+01 -7.424

## datoslimpios$NuevaCoberturaPremium -2.010e+02 3.437e+01 -5.848

## datoslimpios$NuevoEducacionMedian-Superior -1.318e+01 3.365e+00 -3.917

## datoslimpios$NuevoEducacionPostgrade -2.150e+01 5.177e+00 -4.153

## datoslimpios$NuevoEstadoLaboralQPNP 6.958e+00 5.566e+00 1.250

## datoslimpios$NuevoEstadoLaboralUnemployed 7.235e+01 6.061e+00 11.936

## datoslimpios$GeneroM 1.288e+01 2.953e+00 4.362

## datoslimpios$Ingresos -2.517e-04 8.555e-05 -2.942

## datoslimpios$TipoDeUbicacionSuburban 3.732e+02 4.207e+00 88.720

## datoslimpios$TipoDeUbicacionUrban 2.174e+02 4.862e+00 44.712

## datoslimpios$NuevoEstadoMaritalSingle 6.553e+01 3.643e+00 17.990

## datoslimpios$PrimaMensualAuto 4.674e+00 1.307e-01 35.754

## datoslimpios$NuevaClasePremium -8.766e+01 1.450e+01 -6.047

## datoslimpios$NuevaClaseSedan -8.764e+01 1.918e+01 -4.569

## Pr(>|t|)

## datoslimpios$NuevaCoberturaIntermedia 1.24e-13 ***

## datoslimpios$NuevaCoberturaPremium 5.15e-09 ***

## datoslimpios$NuevoEducacionMedian-Superior 9.05e-05 ***

## datoslimpios$NuevoEducacionPostgrade 3.31e-05 ***

## datoslimpios$NuevoEstadoLaboralQPNP 0.21131

## datoslimpios$NuevoEstadoLaboralUnemployed < 2e-16 ***

## datoslimpios$GeneroM 1.31e-05 ***

## datoslimpios$Ingresos 0.00327 **

## datoslimpios$TipoDeUbicacionSuburban < 2e-16 ***

## datoslimpios$TipoDeUbicacionUrban < 2e-16 ***

## datoslimpios$NuevoEstadoMaritalSingle < 2e-16 ***

## datoslimpios$PrimaMensualAuto < 2e-16 ***

## datoslimpios$NuevaClasePremium 1.54e-09 ***

## datoslimpios$NuevaClaseSedan 4.96e-06 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136.4 on 8616 degrees of freedom

## Multiple R-squared: 0.9292, Adjusted R-squared: 0.9291

## F-statistic: 8078 on 14 and 8616 DF, p-value: < 2.2e-16

Consideramos que mr4 es nuestro mejor modelo, pero comprobemos si en verdad lo es aplicando stepAIC.

modelo_backward_AIC4 = stepAIC(mr4,direction = "backward")

## Start: AIC=84856.42

## datoslimpios$ValorTotalDeReclamacion ~ 0 + datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$NuevaClase

##

## Df Sum of Sq RSS AIC

## <none> 160287684 84856

## - datoslimpios$Ingresos 1 160999 160448683 84863

## - datoslimpios$Genero 1 353929 160641613 84873

## - datoslimpios$NuevoEducacion 2 417142 160704826 84875

## - datoslimpios$NuevaClase 2 1038120 161325804 84908

## - datoslimpios$NuevaCobertura 2 2513582 162801265 84987

## - datoslimpios$NuevoEstadoLaboral 2 3352791 163640475 85031

## - datoslimpios$NuevoEstadoMarital 1 6020529 166308213 85173

## - datoslimpios$PrimaMensualAuto 1 23782117 184069801 86048

## - datoslimpios$TipoDeUbicacion 2 146843771 307131455 90465

summary(modelo_backward_AIC4)
##

## Call:

## lm(formula = datoslimpios$ValorTotalDeReclamacion ~ 0 + datoslimpios$NuevaCobertura +

## datoslimpios$NuevoEducacion + datoslimpios$NuevoEstadoLaboral +

## datoslimpios$Genero + datoslimpios$Ingresos + datoslimpios$TipoDeUbicacion +

## datoslimpios$NuevoEstadoMarital + datoslimpios$PrimaMensualAuto +

## datoslimpios$NuevaClase)

##

## Residuals:

## Min 1Q Median 3Q Max

## -839.05 -64.57 -26.72 62.03 1618.61

##

## Coefficients:

## Estimate Std. Error t value

## datoslimpios$NuevaCoberturaIntermedia -2.155e+02 2.903e+01 -7.424

## datoslimpios$NuevaCoberturaPremium -2.010e+02 3.437e+01 -5.848

## datoslimpios$NuevoEducacionMedian-Superior -1.318e+01 3.365e+00 -3.917

## datoslimpios$NuevoEducacionPostgrade -2.150e+01 5.177e+00 -4.153

## datoslimpios$NuevoEstadoLaboralQPNP 6.958e+00 5.566e+00 1.250

## datoslimpios$NuevoEstadoLaboralUnemployed 7.235e+01 6.061e+00 11.936

## datoslimpios$GeneroM 1.288e+01 2.953e+00 4.362

## datoslimpios$Ingresos -2.517e-04 8.555e-05 -2.942

## datoslimpios$TipoDeUbicacionSuburban 3.732e+02 4.207e+00 88.720

## datoslimpios$TipoDeUbicacionUrban 2.174e+02 4.862e+00 44.712

## datoslimpios$NuevoEstadoMaritalSingle 6.553e+01 3.643e+00 17.990

## datoslimpios$PrimaMensualAuto 4.674e+00 1.307e-01 35.754

## datoslimpios$NuevaClasePremium -8.766e+01 1.450e+01 -6.047

## datoslimpios$NuevaClaseSedan -8.764e+01 1.918e+01 -4.569

## Pr(>|t|)

## datoslimpios$NuevaCoberturaIntermedia 1.24e-13 ***

## datoslimpios$NuevaCoberturaPremium 5.15e-09 ***

## datoslimpios$NuevoEducacionMedian-Superior 9.05e-05 ***

## datoslimpios$NuevoEducacionPostgrade 3.31e-05 ***

## datoslimpios$NuevoEstadoLaboralQPNP 0.21131

## datoslimpios$NuevoEstadoLaboralUnemployed < 2e-16 ***

## datoslimpios$GeneroM 1.31e-05 ***

## datoslimpios$Ingresos 0.00327 **

## datoslimpios$TipoDeUbicacionSuburban < 2e-16 ***

## datoslimpios$TipoDeUbicacionUrban < 2e-16 ***

## datoslimpios$NuevoEstadoMaritalSingle < 2e-16 ***

## datoslimpios$PrimaMensualAuto < 2e-16 ***

## datoslimpios$NuevaClasePremium 1.54e-09 ***

## datoslimpios$NuevaClaseSedan 4.96e-06 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 136.4 on 8616 degrees of freedom

## Multiple R-squared: 0.9292, Adjusted R-squared: 0.9291

## F-statistic: 8078 on 14 and 8616 DF, p-value: < 2.2e-16

En efecto, confirmamos lo considerado y llegamos a la conclusión de que mr4 es nuestro mejor modelo; interpretemenos los resultados obtenidos.

Comencemos con la variable categoríca, “Cobertura”, notemos en el modelo que de esta tenemos dos categorías (Intermedia -2.155e+02) y
(Premium -2.010e+02) ambos valores son negativos, lo que significan que ambas disminuyen el valor total de las reclamaciones, pero
comparandolas entre ellas, podemos ver que el valor mas grande es el de la Premium, esto significa que de esta categoría se obtengan más
reclamaciones; a diferencia de la intermedia que es la que hace que se reciban menos reclamaciones.

Despúes tenemos la variable “Educación”, sus variables significativas son (EducacionMedian-Superior -1.318e+01) y (EducacionPostgrade
-2.150e+01). Pero, tambien tenemos otra categoría oculta, la cual es “High School or Below” y vamos a comparar las otras dos categorías con
respecto a esta. Es decir, Median-Superior disminuye en un (-1.318e+01) el valor total de reclamaciones de igual forma, Postgrade disminuye en
un (-2.150e+01) el valor total de las reclamaciones, ambas con respecto a High School.

Otra variable es “Estado Laboral”, la cual tiene dos categorías significativas (Unemployed 7.235e+01) y (QPNP 6.958e+00) aunque esta última no
tenga significancía relevante, es importante para el modelo. Tambien existe otra categoría oculta, que es “Employed” y con respecto a esta vamos
a comparar las otras dos. Es decir, Unemployed aumenta el valor total de las reclamaciones en un (7.235e+01) y QPNP aumenta en un
(6.958e+00) el valor total de las reclmaciones,ambas con respecto a Employed.

La variable “Género” tambien aparece en nuestro modelo con la categoría (Masculino 1.288e+01), debido a que tenemos otra categoría oculta,
entonces decimos que el género Masculino aumenta el valor total de las reclamaciones en un (1.288e+01) con respecto a las Mujeres.

En la variable “Tipo de Ubicación” nos encontramos con dos categorías (UbicacionSuburban 3.732e+02) y (UbicacionUrban 2.174e+02) y hay una
tercera que esta oculta “UbicacionRural” y con respecto a estavamos a comparar las dos anteriores. Entonces decimos que Ubicacion Suburban
aumenta el valor total de las reclamaciones en un (3.732e+02) y UbicacionUrban aumenta el valor total de las relcamaciones en un (2.174e+02)
ambas con respecto a UbicacionRural.

La variable “Estado Marital” tiene una categoría significativa (Single 6.553e+01) y existe otra oculta; la cual es una recategorización que
nombramos “Compromiso”. Entonces, decimos que Single aumenta el valor total de las reclamaciones en un (6.553e+01) con respecto al Estado
Marital Compromiso.

Finalmente tenemos la variable categórica “ClaseDeVehículo” con las categorías (Premium -8.766e+01) y (Sedan -8.764e+01), estas se
compararan con respecto a la categoría oculta Luxury. Entonces tenemos que, Premium disminuye en un (-8.766e+01) el valor total de las
reclamaciones y Sedan disminuye en un (-8.764e+01) el valor total de las reclamaciones, ambas con respecto a Luxury.

Ahora, tenemos dos variables númericas (Ingresos -2.517e-04) y (PrimaMensualAuto 4.674e+00) es decir, los ingresos disminuyen en un
(-2.517e-04) el valor total de las reclamaciones y la Prima mensual aumenta en un (4.674e+00) el valor total de las reclamaciones.
De esta forma, concluimos que:

ValorTotaldelasReclamaciones = -2.155e+02(CoberturaIntermedia)-2.010e+02(CoberturaPremium)-1.318e+01(EducacionMedian-
Superior)-2.150e+01(EducacionPostgrade)+ 6.958e+00(EstadoLaboralQPNP)+7.235e+01(EstadoLaboralUnemployed)+
1.288e+01(GeneroM)-2.517e-
04(Ingresos)+3.732e+02(UbicacionSuburban)+2.174e+02(UbicacionUrban)+6.553e+01(EstadoMaritalSingle)+4.674e+00(PrimaMensualAuto)-8.766e+01(ClasePrem

Ahora solo queda revisar que el modelo cumpla los supuestos de normalidad.

Supuesto de normalidad

plot(mr4,2)

Gracias a nuestro gráfico podemos notar que tenemos muchos valores atípicos en la cola derecha; y para corregirlo haremos un tratamiento a los
datos, es decir, quitaremos por lo menos 1000 datos de los que tenemos para reducir la cantidad de los valores que nos causan anomalías en
dicho supuesto. Quitamos esta cantidad, ya que, a partir de este valor empieza una gran concentración de valores atípicos. Esto lo pudimos
observar en los Boxplot que obtuvimos anteirormente.

datoslimpios <- datoslimpios[datoslimpios$ValorTotalDeReclamacion < 1000,]

Ya quitamos algunos valores atípicos, pero aun debemos quitar puntos palanca porque estos también estan afectando nuestro supuesto de
normalidad. Además de disminuir el área donde se encuentran los residuos.

HighLeverage <- cooks.distance(mr4) > (4/nrow(datoslimpios))

LargeResiduals <- (rstandard(mr4))< 2

datoslimpios <- datoslimpios[!HighLeverage & !LargeResiduals,]

Una vez hecho el tratamiento, actualicemos nuestro mejor modelo:

mr4 <- lm(datoslimpios$ValorTotalDeReclamacion ~0+datoslimpios$NuevaCobertura+datoslimpios$NuevoEducacion+datoslimpios$Nuevo


EstadoLaboral+datoslimpios$Genero+datoslimpios$Ingresos+datoslimpios$TipoDeUbicacion+datoslimpios$NuevoEstadoMarital+datosli
mpios$PrimaMensualAuto+datoslimpios$NuevaClase)

Una vez hecho todo lo anterior volvamos a gráficar nuestro supuesto:

plot(mr4,2)

## Warning: not plotting observations with leverage one:

## 32
En el gráfico observamos que nuestros datos ya se ajustan mejor a una distribución normal, entonces el ajuste que le hicimos funcionó.

Ahora, vamos a aplicar la prueba de bondad de ajuste con el método Anderson Darling, debido a que el número de nuestra base de datos es
mayor a 5000 datos.

library(nortest)

ad.test(rstandard(mr4))# supesto normalidad anderson darling

##

## Anderson-Darling normality test

##

## data: rstandard(mr4)

## A = 0.40401, p-value = 0.3421

El valor del p − value nos indica que debemos aceptar la hipotesis de que los residuales se distribuyen de manera normal.

Veamos como se ve la densidad de nuestra varible ValorTotalDeReclamacion.

plot(density(datoslimpios$ValorTotalDeReclamacion,na.rm = TRUE))

Notemos que logramos que nuestro supuesto de normalidad se cumpla, a pesar de que estamos trabajando con valores reales y estos son muy
cambiantes y contienen valores atipicos, la normalidad se pudo validar.

Supuesto de homocedasticidad

Para saber que una muestra es homocedastica es necesario que la varianza sea constante a lo largo de las observaciones, es decir, que no varia
conforme se presentan nuevas observaciones. Para gráficar esto, haremos uso de nuestros datos residuales, además de nuestros valores
ajustados ya que, así lo requiere la homocedasticidad. Los datos fueron obtenidos del mejor modelo.
residuos <- rstandard(mr4)

valores.ajustados <- fitted(mr4)

plot(valores.ajustados, residuos)

Del gráfico podemos observar que la varianza de los errores es constante a lo largo del tiempo, por lo tanto se cumple con el supuesto de
homocedasticidad.

Prueba de White

library(skedastic)

## Warning: package 'skedastic' was built under R version 4.1.3

white_lm(mr4,interactions = FALSE, statonly = FALSE)

## Intercept included in auxiliary design matrix

## # A tibble: 1 x 5

## statistic p.value parameter method alternative

## <dbl> <dbl> <dbl> <chr> <chr>

## 1 16.8 0.952 28 White's Test greater

Dado que el valor p − value es mayor a 0.05, no tenemos evidencia suficiente para rechazar la hipotesis nula. Por lo tanto tenemos evidencia
suficiente para decir que la heterocedasticidad no esta presente en el modelo de relación; y con esto a su vez corroboramos el resultado y
automáticamente nuestro supuesto de homocedasticidad se valida.

Supuesto de Linealidad

Ahora graficaremos los errores estandarizados vs los valores observados de la variable explicativa.

plot(mr4,1)
Utilizamos este gráfico ya que consideramos es el que puede darnos una idea de como se comporta la linealidad en nuestro modelo, ya que no
hay ningún gráfico que nos ayude a ver la linealidad para un espacio hiperdimensional como lo es nuestro modelo de regresión lineal múltiple con
mas de tres variables; en dado caso tendríamos que usar un gráfico de dispersión de dos variables, pero ese corresponde a un modelo de
regresión lineal simple y ese no es nuestro caso y sería incorrecto hacer esa gráfica individual Por ello, cualquier otro gráfico que intentemos
hacer estaría incompleto poque no comocemos las demás dimensiones. Por lo tanto, esta es la única herramienta con la que podemos probar
linealidad. Podemos observar que en la primera parte existe un comportamiento anormal, pero en los últimos datos la línea roja no tiene tantas
variaciones y está muy cercana a la punteada.

SEGUNDO MODELO

Use la variable customer_lifetime_value para crear un segundo modelo que ayude a entender cómo maximizar el valor de cada cliente.

Al igual que en el modelo anterior haremos uso de los Boxplot para analizar las variables categóricas.

library(ggplot2)

ggplot(datos, aes(x=datos$Cobertura, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$Cobertura` is discouraged. Use `Cobertura` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.

ggplot(datos, aes(x=datos$Educacion, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$Educacion` is discouraged. Use `Educacion` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.
ggplot(datos, aes(x=datos$Genero, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$Genero` is discouraged. Use `Genero` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.

ggplot(datos, aes(x=datos$TipoDeUbicacion, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$TipoDeUbicacion` is discouraged. Use `TipoDeUbicacion`

## instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.
ggplot(datos, aes(x=datos$EstadoMarital, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$EstadoMarital` is discouraged. Use `EstadoMarital`

## instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.

ggplot(datos, aes(x=datos$TipoDePoliza, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$TipoDePoliza` is discouraged. Use `TipoDePoliza` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.
ggplot(datos, aes(x=datos$Poliza, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$Poliza` is discouraged. Use `Poliza` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.

ggplot(datos, aes(x=datos$CanalDeVenta, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$CanalDeVenta` is discouraged. Use `CanalDeVenta` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.
ggplot(datos, aes(x=datos$OfertaDeRenovacion, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$OfertaDeRenovacion` is discouraged. Use

## `OfertaDeRenovacion` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.

ggplot(datos, aes(x=datos$ClaseDeVehiculo, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$ClaseDeVehiculo` is discouraged. Use `ClaseDeVehiculo`

## instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.
ggplot(datos, aes(x=datos$TamaÃ.oDeVehiculo, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$TamaÃ.oDeVehiculo` is discouraged. Use

## `TamaÃ.oDeVehiculo` instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.

ggplot(datos, aes(x=datos$EstadoLaboral, y=datos$customer_lifetime_value)) + geom_boxplot(fill='blue')

## Warning: Use of `datos$EstadoLaboral` is discouraged. Use `EstadoLaboral`

## instead.

## Warning: Use of `datos$customer_lifetime_value` is discouraged. Use

## `customer_lifetime_value` instead.
Hacemos el análisis e interpretación de las gráficas ahora con la variable customer_lifetime_value que es la que nos interesa para este modelo.

Plot Cobertura

Las coberturas basic, extended y premium muestran diferentes tamaños de boxplot(rango interquartil) como de la mediana, e inclusive los valores
atípicos leves correspondientes.

Plot Educacion

Visualizando las 5 categorías notamos que algunas tienen tamaño de boxplot(rango interquartil) iguales y algunas medianas semejantes.

Plot Genero

Por tener solo F y M, notamos que es mayor la mediana del género M y el boxplot por poco.

Plot TipoDeUbicacion

Lo comprendemos al lugar Rural, Suburban y Urban del cliente, notándose semejanzas en las medianas, como boxplot´s de tamaños diferentes.

Plot EstadoMarital

Por el tamaño observado al boxplot de married vemos que es mas alto, pero compartiendo mediana con Divorced. Y con una baja de mediana
tenemos a single, pero con valores atípicos leves constantes.

Plot TipoDePoliza

Correspondiente a Special Auto, notamos una mediana un poco más alta entre Personal Auto y Corporate Auto. Teniendo estas últimas una
mediana semejantes pero el tamaño de boxplot(rango interquartil) diferente.

Plot Póliza

Este grafico nos representa la distribución de los tipos de póliza. Podemos ver que el tipo Corporate L1 cumple la simetría, por otra parte,
tenemos a Corporate L2, Corporate L3, Personal L1, Personal L2, Personal L3, tienen una distribución parecida de los datos, de igual forma hay
una asimetría en los cuartiles, hacia a la derecha, es decir la mayoría de los datos se encuentran en la parte superior del gráfico. En Special L1,
se muestra que no es simétrico, y su asimetría se va hacia la derecha. En Special L2 pasa lo mismo, sin embargo, son menos datos. Para Special
L3 la asimetría hacia la derecha está muy marcada, es decir, una gran cantidad de datos se concentran en la parte superior.

Plot Canal de Venta

En este grafico se presentan los Canales de venta. Podemos observar que Branch y Call Center tienen una distribución muy parecida o quizá
igual, la asimetría hacia la derecha también está en ambos. Agent y Web también tienen una asimetría hacia la derecha, sin embargo, difieren en
su tamaño y mediana con respecto a los otros dos.

Plot Oferta de renovación

En este grafico nos presentan la distribución de las 4 diferentes ofertas de renovación, sin embargo, podemos ver que las 4 se distribuyen de
diferente forma, es decir, su mediana es diferente en todas. Coinciden en el hecho de que tienen asimetría hacia la derecha, o sea que la mayoría
de sus datos se encuentran en la parte superior del plot.

Plot Clase de vehículo

Aquí se muestran los tipos de carros, entonces a simple vista vemos que los carros de cuatro puertas y los de dos puertas comparten la misma
mediana y que incluso ambos son simétricos entre sus cuartiles. Los carros deportivos y SUV comparten la misma mediana e incluso su asimetría
hacia la izquierda es casi igual, sin embargo, hay más datos en SUV lo que hace que sus cuartiles sean más grandes. Los carros lujosos no y los
SUV lujosos son completamente diferentes. Por una parte los carros lujosos tienen una asimetría hacia la izquierda, es decir la mayoría de los
datos se concentran en la parte inferior; y por el otro lado los SUV lujosos tienen asimetría hacia la derecha, donde la mayoría de sus datos se
encuentran en la parte superior.

Plot Tamaño de Vehículo

Aquí se nos muestran la distribución de los 3 tipos de vehículos. Observamos que en los tres casos es muy similar su mediana y los cuartiles,
difieren por muy poco. Además, todos tienen asimetría hacia la derecha, en donde se encuentran la mayoría de los datos.

Plot Estado Laboral


Aquí nos muestran los 5 estados laborales. Podemos ver que en los 5 hay asimetría hacia la derecha. Pero en el de Medical Leave y Unemployed
tienen un tamaño de datos, una mediana y una distribución muy similar.

Empezaremos a hacer el modelo respectivo usando la variable customer_lifetime_value, utilizando todas las variables y de ahí iremos refinando
hasta encontrar el mejor modelo.

mrc<-lm(datos$customer_lifetime_value ~. , datos)

summary(mrc)

##

## Call:

## lm(formula = datos$customer_lifetime_value ~ ., data = datos)

##

## Residuals:

## Min 1Q Median 3Q Max

## -4845.3 -2356.1 -950.5 883.7 16260.5

##

## Coefficients: (2 not defined because of singularities)

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) 2.342e+03 5.314e+02 4.406 1.06e-05 ***

## id 7.917e-03 1.435e-02 0.552 0.58123

## CoberturaExtended 2.502e+02 1.462e+02 1.711 0.08705 .

## CoberturaPremium 6.352e+02 3.092e+02 2.054 0.03997 *

## EducacionCollege 1.613e+02 9.797e+01 1.646 0.09977 .

## EducacionDoctor -7.697e+01 2.077e+02 -0.371 0.71099

## EducacionHigh School or Below 2.655e+02 9.948e+01 2.669 0.00761 **

## EducacionMaster 2.742e+02 1.507e+02 1.820 0.06887 .

## EstadoLaboralEmployed 3.360e+02 2.036e+02 1.650 0.09900 .

## EstadoLaboralMedical Leave 8.003e+00 2.505e+02 0.032 0.97452

## EstadoLaboralRetired -1.128e+02 2.833e+02 -0.398 0.69052

## EstadoLaboralUnemployed 1.889e+02 2.054e+02 0.920 0.35769

## GeneroM -5.718e+01 7.620e+01 -0.750 0.45304

## Ingresos 3.289e-03 2.210e-03 1.488 0.13669

## TipoDeUbicacionSuburban 6.424e+01 1.505e+02 0.427 0.66955

## TipoDeUbicacionUrban 6.623e+01 1.388e+02 0.477 0.63317

## EstadoMaritalMarried -6.138e+01 1.118e+02 -0.549 0.58300

## EstadoMaritalSingle -2.849e+02 1.297e+02 -2.197 0.02806 *

## PrimaMensualAuto 4.014e+01 5.996e+00 6.695 2.30e-11 ***

## MesesDesdeUltimaReclamacion 1.918e+00 3.767e+00 0.509 0.61072

## MesesDesdeAperturaDePoliza -2.962e+00 1.365e+00 -2.170 0.03005 *

## NumeroDeReclamacionesAbiertas -1.622e+02 4.109e+01 -3.947 7.98e-05 ***

## NumeroDePolizas 2.639e+02 1.555e+01 16.971 < 2e-16 ***

## TipoDePolizaPersonal Auto -4.055e+02 2.008e+02 -2.020 0.04343 *

## TipoDePolizaSpecial Auto 2.736e+02 3.551e+02 0.770 0.44104

## PolizaCorporate L2 -5.379e+02 2.410e+02 -2.232 0.02567 *

## PolizaCorporate L3 -4.990e+02 2.220e+02 -2.248 0.02460 *

## PolizaPersonal L1 2.804e+01 1.193e+02 0.235 0.81414

## PolizaPersonal L2 1.161e+02 9.983e+01 1.163 0.24502

## PolizaPersonal L3 NA NA NA NA

## PolizaSpecial L1 -1.160e+01 5.399e+02 -0.021 0.98286

## PolizaSpecial L2 -4.975e+02 4.120e+02 -1.208 0.22725

## PolizaSpecial L3 NA NA NA NA

## OfertaDeRenovacionOffer2 -7.050e+02 9.415e+01 -7.488 7.67e-14 ***

## OfertaDeRenovacionOffer3 -2.828e+02 1.141e+02 -2.478 0.01324 *

## OfertaDeRenovacionOffer4 -8.096e+02 1.327e+02 -6.099 1.11e-09 ***

## CanalDeVentaBranch -4.787e+01 9.435e+01 -0.507 0.61189

## CanalDeVentaCall Center 7.042e+01 1.065e+02 0.661 0.50853

## CanalDeVentaWeb -2.599e+01 1.175e+02 -0.221 0.82503

## ValorTotalDeReclamacion -2.852e-01 2.776e-01 -1.028 0.30421

## ClaseDeVehiculoLuxury Car 1.049e+03 8.261e+02 1.269 0.20432

## ClaseDeVehiculoLuxury SUV 9.089e+02 8.216e+02 1.106 0.26863

## ClaseDeVehiculoSports Car 4.811e+02 3.114e+02 1.545 0.12235

## ClaseDeVehiculoSUV 7.164e+02 2.723e+02 2.631 0.00854 **

## ClaseDeVehiculoTwo-Door Car 1.548e+02 9.748e+01 1.588 0.11241

## TamaÃ.oDeVehiculoMedsize 1.074e+02 1.253e+02 0.857 0.39141

## TamaÃ.oDeVehiculoSmall 1.776e+02 1.459e+02 1.217 0.22356

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 3498 on 8585 degrees of freedom

## Multiple R-squared: 0.2136, Adjusted R-squared: 0.2096

## F-statistic: 53 on 44 and 8585 DF, p-value: < 2.2e-16

Este primer modelo tiene un coeficiente de determinación del 20.96% lo cual es malo, ya que nos dice que solo el 20.96% de la variación de los
datos del customer_lifetime_value está siendo explicada por nuestro modelo.

Ademas observamos que las pruebas de hipotesis para cada β i nos dicen que las varaiables id, Genero, Ingresos, TipoDeUbicacion,
MesesDesdeUltimaReclamacion, CanalDeVenta, ValorTotalDeReclamacion y TamañoDeVehiculo no son significativas para el modelo, pero
comparemos con las varibles que nos arroje el stepAIC para poder descartar variables de manera mas acertada.

Vamos a emplear el método backward con el criterio AIC para desechar las variables que no sean útiles y podamos ir refinando el modelo para
obtener el mejor modelo posible.
library(MASS)

modeloc_backward_AIC = stepAIC(mrc,direction = "backward")


## Start: AIC=140887

## datos$customer_lifetime_value ~ id + Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + TipoDeUbicacion + EstadoMarital +

## PrimaMensualAuto + MesesDesdeUltimaReclamacion + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + TipoDePoliza +

## Poliza + OfertaDeRenovacion + CanalDeVenta + ValorTotalDeReclamacion +


## ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

##

## Step: AIC=140887

## datos$customer_lifetime_value ~ id + Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + TipoDeUbicacion + EstadoMarital +

## PrimaMensualAuto + MesesDesdeUltimaReclamacion + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + Poliza +

## OfertaDeRenovacion + CanalDeVenta + ValorTotalDeReclamacion +

## ClaseDeVehiculo + TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - CanalDeVenta 3 14383674 1.0508e+11 140882

## - TipoDeUbicacion 2 3073267 1.0507e+11 140883

## - TamaÃ.oDeVehiculo 2 18189116 1.0508e+11 140885

## - MesesDesdeUltimaReclamacion 1 3171542 1.0507e+11 140885

## - id 1 3723637 1.0507e+11 140885

## - Genero 1 6891215 1.0507e+11 140886

## - Poliza 8 178081962 1.0524e+11 140886

## - EstadoLaboral 4 82106058 1.0515e+11 140886

## - ValorTotalDeReclamacion 1 12920744 1.0508e+11 140886

## <none> 1.0506e+11 140887

## - Ingresos 1 27110903 1.0509e+11 140887

## - Cobertura 2 51994525 1.0512e+11 140887

## - Educacion 4 117089103 1.0518e+11 140889

## - EstadoMarital 2 78444990 1.0514e+11 140889

## - MesesDesdeAperturaDePoliza 1 57616639 1.0512e+11 140890

## - ClaseDeVehiculo 5 186594554 1.0525e+11 140892

## - NumeroDeReclamacionesAbiertas 1 190658259 1.0525e+11 140901

## - PrimaMensualAuto 1 548487524 1.0561e+11 140930

## - OfertaDeRenovacion 3 855373471 1.0592e+11 140951

## - NumeroDePolizas 1 3524710431 1.0859e+11 141170

##

## Step: AIC=140882.2

## datos$customer_lifetime_value ~ id + Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + TipoDeUbicacion + EstadoMarital +

## PrimaMensualAuto + MesesDesdeUltimaReclamacion + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + Poliza +

## OfertaDeRenovacion + ValorTotalDeReclamacion + ClaseDeVehiculo +

## TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - TipoDeUbicacion 2 3242469 1.0508e+11 140878

## - TamaÃ.oDeVehiculo 2 18491672 1.0510e+11 140880

## - MesesDesdeUltimaReclamacion 1 3234185 1.0508e+11 140880

## - id 1 3705503 1.0508e+11 140881

## - Poliza 8 176571308 1.0526e+11 140881

## - Genero 1 6900179 1.0509e+11 140881

## - EstadoLaboral 4 82809838 1.0516e+11 140881

## - ValorTotalDeReclamacion 1 13273140 1.0509e+11 140881

## <none> 1.0508e+11 140882

## - Cobertura 2 51232081 1.0513e+11 140882

## - Ingresos 1 27089095 1.0511e+11 140882

## - Educacion 4 115263887 1.0519e+11 140884

## - EstadoMarital 2 78269286 1.0516e+11 140885

## - MesesDesdeAperturaDePoliza 1 58740977 1.0514e+11 140885

## - ClaseDeVehiculo 5 187969568 1.0527e+11 140888

## - NumeroDeReclamacionesAbiertas 1 189996538 1.0527e+11 140896

## - PrimaMensualAuto 1 550724556 1.0563e+11 140925

## - OfertaDeRenovacion 3 869170857 1.0595e+11 140947

## - NumeroDePolizas 1 3533301973 1.0861e+11 141166

##

## Step: AIC=140878.5

## datos$customer_lifetime_value ~ id + Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + EstadoMarital + PrimaMensualAuto +


## MesesDesdeUltimaReclamacion + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + Poliza +

## OfertaDeRenovacion + ValorTotalDeReclamacion + ClaseDeVehiculo +

## TamaÃ.oDeVehiculo

##

## Df Sum of Sq RSS AIC

## - TamaÃ.oDeVehiculo 2 19158798 1.0510e+11 140876

## - MesesDesdeUltimaReclamacion 1 3027501 1.0508e+11 140877

## - id 1 3732004 1.0509e+11 140877

## - Poliza 8 176465711 1.0526e+11 140877

## - Genero 1 6940987 1.0509e+11 140877

## - EstadoLaboral 4 82305026 1.0516e+11 140877

## - ValorTotalDeReclamacion 1 12638385 1.0509e+11 140878

## <none> 1.0508e+11 140878

## - Cobertura 2 51283349 1.0513e+11 140879

## - Ingresos 1 26981843 1.0511e+11 140879

## - Educacion 4 115445042 1.0520e+11 140880

## - EstadoMarital 2 81718320 1.0516e+11 140881

## - MesesDesdeAperturaDePoliza 1 58826407 1.0514e+11 140881

## - ClaseDeVehiculo 5 189959791 1.0527e+11 140884

## - NumeroDeReclamacionesAbiertas 1 189700393 1.0527e+11 140892

## - PrimaMensualAuto 1 552052460 1.0563e+11 140922

## - OfertaDeRenovacion 3 872956139 1.0595e+11 140944

## - NumeroDePolizas 1 3532247269 1.0861e+11 141162

##

## Step: AIC=140876.1

## datos$customer_lifetime_value ~ id + Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + EstadoMarital + PrimaMensualAuto +


## MesesDesdeUltimaReclamacion + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + Poliza +

## OfertaDeRenovacion + ValorTotalDeReclamacion + ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - MesesDesdeUltimaReclamacion 1 3116431 1.0510e+11 140874

## - id 1 3594061 1.0510e+11 140874

## - Poliza 8 176576063 1.0528e+11 140875

## - Genero 1 7014602 1.0511e+11 140875

## - ValorTotalDeReclamacion 1 10160270 1.0511e+11 140875

## - EstadoLaboral 4 83967235 1.0518e+11 140875

## <none> 1.0510e+11 140876

## - Cobertura 2 50442120 1.0515e+11 140876

## - Ingresos 1 27621610 1.0513e+11 140876

## - Educacion 4 115208972 1.0522e+11 140878

## - EstadoMarital 2 81004355 1.0518e+11 140879

## - MesesDesdeAperturaDePoliza 1 58439526 1.0516e+11 140879

## - ClaseDeVehiculo 5 189482578 1.0529e+11 140882

## - NumeroDeReclamacionesAbiertas 1 190592155 1.0529e+11 140890

## - PrimaMensualAuto 1 552309429 1.0565e+11 140919

## - OfertaDeRenovacion 3 873441199 1.0597e+11 140941

## - NumeroDePolizas 1 3544934228 1.0865e+11 141160

##

## Step: AIC=140874.3

## datos$customer_lifetime_value ~ id + Cobertura + Educacion +

## EstadoLaboral + Genero + Ingresos + EstadoMarital + PrimaMensualAuto +


## MesesDesdeAperturaDePoliza + NumeroDeReclamacionesAbiertas +

## NumeroDePolizas + Poliza + OfertaDeRenovacion + ValorTotalDeReclamacion +

## ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - id 1 3554344 1.0511e+11 140873

## - Poliza 8 175993140 1.0528e+11 140873

## - Genero 1 6775262 1.0511e+11 140873

## - ValorTotalDeReclamacion 1 10249986 1.0511e+11 140873

## - EstadoLaboral 4 84185072 1.0519e+11 140873

## <none> 1.0510e+11 140874

## - Cobertura 2 50133148 1.0515e+11 140874

## - Ingresos 1 27047300 1.0513e+11 140875

## - Educacion 4 115622919 1.0522e+11 140876

## - EstadoMarital 2 81103811 1.0519e+11 140877

## - MesesDesdeAperturaDePoliza 1 59844870 1.0516e+11 140877

## - ClaseDeVehiculo 5 188349543 1.0529e+11 140880

## - NumeroDeReclamacionesAbiertas 1 190373176 1.0529e+11 140888

## - PrimaMensualAuto 1 554186588 1.0566e+11 140918

## - OfertaDeRenovacion 3 874348241 1.0598e+11 140940

## - NumeroDePolizas 1 3546233240 1.0865e+11 141159

##

## Step: AIC=140872.6

## datos$customer_lifetime_value ~ Cobertura + Educacion + EstadoLaboral +

## Genero + Ingresos + EstadoMarital + PrimaMensualAuto + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + Poliza +

## OfertaDeRenovacion + ValorTotalDeReclamacion + ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - Poliza 8 176466027 1.0528e+11 140871

## - Genero 1 6719042 1.0511e+11 140871

## - ValorTotalDeReclamacion 1 10196866 1.0512e+11 140871

## - EstadoLaboral 4 84183250 1.0519e+11 140872

## <none> 1.0511e+11 140873

## - Cobertura 2 50126847 1.0516e+11 140873

## - Ingresos 1 26871252 1.0513e+11 140873

## - Educacion 4 115697075 1.0522e+11 140874

## - EstadoMarital 2 80405097 1.0519e+11 140875

## - MesesDesdeAperturaDePoliza 1 59975156 1.0517e+11 140876

## - ClaseDeVehiculo 5 188894464 1.0530e+11 140878

## - NumeroDeReclamacionesAbiertas 1 190516210 1.0530e+11 140886

## - PrimaMensualAuto 1 553593652 1.0566e+11 140916

## - OfertaDeRenovacion 3 873172010 1.0598e+11 140938

## - NumeroDePolizas 1 3544299162 1.0865e+11 141157

##

## Step: AIC=140871.1

## datos$customer_lifetime_value ~ Cobertura + Educacion + EstadoLaboral +

## Genero + Ingresos + EstadoMarital + PrimaMensualAuto + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ValorTotalDeReclamacion + ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - Genero 1 6995543 1.0529e+11 140870

## - EstadoLaboral 4 80247995 1.0536e+11 140870

## - ValorTotalDeReclamacion 1 9271808 1.0529e+11 140870

## - Cobertura 2 48437351 1.0533e+11 140871

## <none> 1.0528e+11 140871

## - Ingresos 1 26756398 1.0531e+11 140871

## - Educacion 4 119112445 1.0540e+11 140873

## - EstadoMarital 2 78082761 1.0536e+11 140873

## - MesesDesdeAperturaDePoliza 1 58475112 1.0534e+11 140874

## - ClaseDeVehiculo 5 188446496 1.0547e+11 140877

## - NumeroDeReclamacionesAbiertas 1 185483056 1.0547e+11 140884

## - PrimaMensualAuto 1 559872891 1.0584e+11 140915

## - OfertaDeRenovacion 3 866882184 1.0615e+11 140936

## - NumeroDePolizas 1 3519859353 1.0880e+11 141153

##

## Step: AIC=140869.7

## datos$customer_lifetime_value ~ Cobertura + Educacion + EstadoLaboral +

## Ingresos + EstadoMarital + PrimaMensualAuto + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ValorTotalDeReclamacion + ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - EstadoLaboral 4 79973445 1.0537e+11 140868

## - ValorTotalDeReclamacion 1 10722242 1.0530e+11 140869

## - Cobertura 2 47395370 1.0534e+11 140870

## <none> 1.0529e+11 140870

## - Ingresos 1 26543624 1.0532e+11 140870

## - Educacion 4 119356326 1.0541e+11 140871

## - EstadoMarital 2 79591349 1.0537e+11 140872

## - MesesDesdeAperturaDePoliza 1 59345548 1.0535e+11 140873

## - ClaseDeVehiculo 5 187130950 1.0548e+11 140875

## - NumeroDeReclamacionesAbiertas 1 185737022 1.0548e+11 140883

## - PrimaMensualAuto 1 566765238 1.0586e+11 140914

## - OfertaDeRenovacion 3 876940255 1.0617e+11 140935

## - NumeroDePolizas 1 3514426432 1.0881e+11 141151

##

## Step: AIC=140868.2

## datos$customer_lifetime_value ~ Cobertura + Educacion + Ingresos +

## EstadoMarital + PrimaMensualAuto + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ValorTotalDeReclamacion + ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - ValorTotalDeReclamacion 1 16288348 1.0539e+11 140868

## - Cobertura 2 46517205 1.0542e+11 140868

## <none> 1.0537e+11 140868

## - Educacion 4 116662606 1.0549e+11 140870

## - EstadoMarital 2 72754873 1.0544e+11 140870

## - MesesDesdeAperturaDePoliza 1 59862450 1.0543e+11 140871

## - ClaseDeVehiculo 5 180872334 1.0555e+11 140873

## - Ingresos 1 181439383 1.0555e+11 140881

## - NumeroDeReclamacionesAbiertas 1 182001727 1.0555e+11 140881

## - PrimaMensualAuto 1 581219440 1.0595e+11 140914

## - OfertaDeRenovacion 3 842845136 1.0621e+11 140931

## - NumeroDePolizas 1 3552552595 1.0892e+11 141152

##

## Step: AIC=140867.6

## datos$customer_lifetime_value ~ Cobertura + Educacion + Ingresos +

## EstadoMarital + PrimaMensualAuto + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## - Cobertura 2 47033784 1.0543e+11 140867

## <none> 1.0539e+11 140868

## - Educacion 4 112931815 1.0550e+11 140869

## - MesesDesdeAperturaDePoliza 1 59658900 1.0545e+11 140870

## - EstadoMarital 2 92477984 1.0548e+11 140871

## - ClaseDeVehiculo 5 183957584 1.0557e+11 140873

## - NumeroDeReclamacionesAbiertas 1 182010509 1.0557e+11 140880

## - Ingresos 1 265394412 1.0565e+11 140887

## - PrimaMensualAuto 1 565115912 1.0595e+11 140912

## - OfertaDeRenovacion 3 857361085 1.0624e+11 140931

## - NumeroDePolizas 1 3549962141 1.0894e+11 141151

##

## Step: AIC=140867.4

## datos$customer_lifetime_value ~ Educacion + Ingresos + EstadoMarital +

## PrimaMensualAuto + MesesDesdeAperturaDePoliza + NumeroDeReclamacionesAbiertas +

## NumeroDePolizas + OfertaDeRenovacion + ClaseDeVehiculo

##

## Df Sum of Sq RSS AIC

## <none> 1.0543e+11 140867

## - Educacion 4 115151876 1.0555e+11 140869

## - ClaseDeVehiculo 5 155627323 1.0559e+11 140870

## - MesesDesdeAperturaDePoliza 1 61372532 1.0550e+11 140870

## - EstadoMarital 2 92072610 1.0553e+11 140871

## - NumeroDeReclamacionesAbiertas 1 185861833 1.0562e+11 140881

## - Ingresos 1 264383033 1.0570e+11 140887

## - OfertaDeRenovacion 3 875968392 1.0631e+11 140933

## - NumeroDePolizas 1 3529770295 1.0896e+11 141150

## - PrimaMensualAuto 1 5540253051 1.1097e+11 141307

Vamos a analizar el modelo, de acuerdo a lo arrojado en stepAIC().

summary(modeloc_backward_AIC)

##

## Call:

## lm(formula = datos$customer_lifetime_value ~ Educacion + Ingresos +

## EstadoMarital + PrimaMensualAuto + MesesDesdeAperturaDePoliza +

## NumeroDeReclamacionesAbiertas + NumeroDePolizas + OfertaDeRenovacion +


## ClaseDeVehiculo, data = datos)

##

## Residuals:

## Min 1Q Median 3Q Max

## -5263.3 -2369.7 -965.9 902.2 16212.5

##

## Coefficients:

## Estimate Std. Error t value Pr(>|t|)

## (Intercept) 1.586e+03 2.422e+02 6.547 6.22e-11 ***

## EducacionCollege 1.579e+02 9.775e+01 1.616 0.10620

## EducacionDoctor -8.273e+01 2.070e+02 -0.400 0.68938

## EducacionHigh School or Below 2.580e+02 9.899e+01 2.607 0.00916 **

## EducacionMaster 2.809e+02 1.497e+02 1.877 0.06062 .

## Ingresos 6.143e-03 1.322e-03 4.647 3.43e-06 ***

## EstadoMaritalMarried -2.285e+01 1.106e+02 -0.207 0.83637

## EstadoMaritalSingle -2.629e+02 1.244e+02 -2.113 0.03461 *

## PrimaMensualAuto 4.979e+01 2.341e+00 21.270 < 2e-16 ***

## MesesDesdeAperturaDePoliza -3.047e+00 1.361e+00 -2.239 0.02520 *

## NumeroDeReclamacionesAbiertas -1.599e+02 4.104e+01 -3.896 9.86e-05 ***

## NumeroDePolizas 2.633e+02 1.551e+01 16.978 < 2e-16 ***

## OfertaDeRenovacionOffer2 -6.973e+02 9.253e+01 -7.536 5.32e-14 ***

## OfertaDeRenovacionOffer3 -2.600e+02 1.132e+02 -2.297 0.02165 *

## OfertaDeRenovacionOffer4 -7.955e+02 1.306e+02 -6.089 1.18e-09 ***

## ClaseDeVehiculoLuxury Car -4.113e+02 4.410e+02 -0.933 0.35109

## ClaseDeVehiculoLuxury SUV -5.678e+02 4.307e+02 -1.318 0.18747

## ClaseDeVehiculoSports Car -1.469e+01 2.046e+02 -0.072 0.94278

## ClaseDeVehiculoSUV 2.344e+02 1.428e+02 1.641 0.10080

## ClaseDeVehiculoTwo-Door Car 1.395e+02 9.734e+01 1.433 0.15184

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 3499 on 8610 degrees of freedom

## Multiple R-squared: 0.2108, Adjusted R-squared: 0.2091

## F-statistic: 121.1 on 19 and 8610 DF, p-value: < 2.2e-16

De los resultados obtenidos podemos refinar el modelo obtenido, pero para ello primero recategorizaremos las variables como ya lo habíamos
mencionado antes ya que algunas de las categorías originales no muestran ser significativas en el primer modelo, con ello intentaremos crear un
mejor modelo.

Para la recategorización que haremos, utilizaremos nuestras BloxPlot que creamos para irnos guiando, también nos ayudaremos del summary del
modelo y del summary del stepAIC para poder hacer una comparación entre las variables que son significativas en ambos resultados y podamos
depurar variables. Dicho lo anterior, de las variables categóricas solo utilizaremos Cobertura, Educacion, EstadoMarital, TipoDePoliza, Poliza,
OfertaDeRenovacion y ClaseDeVehiculo.

Hay algunas variables que no tomaremos en cuenta para el siguiente modelo, por ejemplo, EstadoLaboral ya que tiene una significancia del
0.09900 lo cual es mayor a nuestro nivel de significancia el cual es de 0.05, TotalDePoliza tambien la quitaremos ya que consideramos que esta
información la podemos obtener a partir de la variable Póliza.

Nuevamente creemos una variable donde se cargará la base de datos que utilizaremos para este modelo, esto lo hacemos con la intención de
evitar problemas de sobre escritura entre las recategorizaciones y modifiaciones que se hagan en ambos modelos.

datoslimpiosc <- read.csv("insurance_data.csv",header = TRUE, sep = ',')

Ahora si recategoricemos las variables que nos interesan.


##Empecemos con Cobertura

datoslimpiosc$NewCobertura <- ifelse(datoslimpiosc$Cobertura=="Premium","Premium","Intermedia")

##Empecemos con Educacion

datoslimpiosc$NewEducacion <- ifelse(datoslimpiosc$Educacion %in% c("Bachelor", "College"),"Median-Superior",

ifelse(datoslimpiosc$Educacion %in% c("Master","Doctor"),"Postgrade","High School"))

##Empecemos con EstadoMarital

datoslimpiosc$NewEstadoMarital <- ifelse(datoslimpiosc$EstadoMarital=="Divorced","Divorced","Mayoria")

## Vamos con Poliza

datoslimpiosc$NewPoliza <- ifelse(datoslimpiosc$Poliza %in% c("Personal L1","Corporate L1", "Special L1"),"L1",

ifelse(datoslimpiosc$Poliza %in% c("Personal L2","Corporate L2", "Special L3"),"L2","L3"))

##Vamos con ClaseDeVehiculo

datoslimpiosc$NewClase <- ifelse(datoslimpiosc$ClaseDeVehiculo %in% c("Two-Door Car","Four-Door Car"),"Sedan",

ifelse(datoslimpiosc$ClaseDeVehiculo %in% c("Sports Car","SUV"),"Premium","Luxury"))

Ahora ya con nuestros datos recategorizados haremos un nuevo modelo más refinado, además de que tomamos en cuenta lo arrojado en el
“stepAIC” e hicimos una combinación de las variables significativas que arrojaban ambos summary, dicho lo anterior, continuemos.

mrc2 <- lm(datoslimpiosc$customer_lifetime_value~datoslimpiosc$NewCobertura+datoslimpiosc$Ingresos+datoslimpiosc$NewEducacio


n+datoslimpiosc$PrimaMensualAuto+datoslimpiosc$MesesDesdeAperturaDePoliza+datoslimpiosc$NumeroDeReclamacionesAbiertas+datosl
impiosc$NumeroDePolizas+datoslimpiosc$NewPoliza+datoslimpiosc$NewEstadoMarital+datoslimpiosc$NewClase+datoslimpiosc$OfertaDe
Renovacion)

summary(mrc2)

##

## Call:

## lm(formula = datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$NewCobertura +

## datoslimpiosc$Ingresos + datoslimpiosc$NewEducacion + datoslimpiosc$PrimaMensualAuto +

## datoslimpiosc$MesesDesdeAperturaDePoliza + datoslimpiosc$NumeroDeReclamacionesAbiertas +

## datoslimpiosc$NumeroDePolizas + datoslimpiosc$NewPoliza +

## datoslimpiosc$NewEstadoMarital + datoslimpiosc$NewClase +

## datoslimpiosc$OfertaDeRenovacion)

##

## Residuals:

## Min 1Q Median 3Q Max

## -5373.6 -2366.5 -956.9 884.8 16169.8

##

## Coefficients:

## Estimate Std. Error t value

## (Intercept) 1.869e+03 7.433e+02 2.515

## datoslimpiosc$NewCoberturaPremium 2.028e+02 1.920e+02 1.056

## datoslimpiosc$Ingresos 7.138e-03 1.271e-03 5.616

## datoslimpiosc$NewEducacionMedian-Superior -1.689e+02 8.618e+01 -1.960

## datoslimpiosc$NewEducacionPostgrade -6.820e+01 1.309e+02 -0.521

## datoslimpiosc$PrimaMensualAuto 4.719e+01 3.354e+00 14.072

## datoslimpiosc$MesesDesdeAperturaDePoliza -2.959e+00 1.361e+00 -2.175

## datoslimpiosc$NumeroDeReclamacionesAbiertas -1.582e+02 4.107e+01 -3.853

## datoslimpiosc$NumeroDePolizas 2.637e+02 1.551e+01 17.000

## datoslimpiosc$NewPolizaL2 -4.174e+01 1.110e+02 -0.376

## datoslimpiosc$NewPolizaL3 -1.463e+02 1.030e+02 -1.421

## datoslimpiosc$NewEstadoMaritalMayoria -9.605e+01 1.068e+02 -0.899

## datoslimpiosc$NewClasePremium 4.774e+02 3.719e+02 1.284

## datoslimpiosc$NewClaseSedan 2.104e+02 4.920e+02 0.428

## datoslimpiosc$OfertaDeRenovacionOffer2 -6.739e+02 9.220e+01 -7.309

## datoslimpiosc$OfertaDeRenovacionOffer3 -2.393e+02 1.130e+02 -2.117

## datoslimpiosc$OfertaDeRenovacionOffer4 -7.551e+02 1.303e+02 -5.795

## Pr(>|t|)

## (Intercept) 0.011922 *

## datoslimpiosc$NewCoberturaPremium 0.291042

## datoslimpiosc$Ingresos 2.02e-08 ***

## datoslimpiosc$NewEducacionMedian-Superior 0.050061 .

## datoslimpiosc$NewEducacionPostgrade 0.602338

## datoslimpiosc$PrimaMensualAuto < 2e-16 ***

## datoslimpiosc$MesesDesdeAperturaDePoliza 0.029654 *

## datoslimpiosc$NumeroDeReclamacionesAbiertas 0.000118 ***

## datoslimpiosc$NumeroDePolizas < 2e-16 ***

## datoslimpiosc$NewPolizaL2 0.706989

## datoslimpiosc$NewPolizaL3 0.155472

## datoslimpiosc$NewEstadoMaritalMayoria 0.368478

## datoslimpiosc$NewClasePremium 0.199328

## datoslimpiosc$NewClaseSedan 0.668870

## datoslimpiosc$OfertaDeRenovacionOffer2 2.93e-13 ***

## datoslimpiosc$OfertaDeRenovacionOffer3 0.034276 *

## datoslimpiosc$OfertaDeRenovacionOffer4 7.08e-09 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 3501 on 8613 degrees of freedom

## Multiple R-squared: 0.2098, Adjusted R-squared: 0.2083

## F-statistic: 142.9 on 16 and 8613 DF, p-value: < 2.2e-16

Notemos que, pese a haber refinado seguimos teniendo variables no significativas, por lo cual haremos uso de stepAIC, para seguir refinando.
Además, observamos que en el coeficiente de determinación para este segundo modelo es de 20.83%
modeloc_backward_AIC2 = stepAIC(mrc2,direction = "backward")
## Start: AIC=140872.9

## datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$NewCobertura +

## datoslimpiosc$Ingresos + datoslimpiosc$NewEducacion + datoslimpiosc$PrimaMensualAuto +

## datoslimpiosc$MesesDesdeAperturaDePoliza + datoslimpiosc$NumeroDeReclamacionesAbiertas +

## datoslimpiosc$NumeroDePolizas + datoslimpiosc$NewPoliza +

## datoslimpiosc$NewEstadoMarital + datoslimpiosc$NewClase +

## datoslimpiosc$OfertaDeRenovacion

##

## Df Sum of Sq RSS AIC

## - datoslimpiosc$NewPoliza 2 32744493 1.0561e+11 140872

## - datoslimpiosc$NewEstadoMarital 1 9914933 1.0559e+11 140872

## - datoslimpiosc$NewCobertura 1 13666498 1.0559e+11 140872

## <none> 1.0558e+11 140873

## - datoslimpiosc$NewEducacion 2 48986243 1.0562e+11 140873

## - datoslimpiosc$MesesDesdeAperturaDePoliza 1 57988690 1.0563e+11 140876

## - datoslimpiosc$NewClase 2 119498097 1.0569e+11 140879

## - datoslimpiosc$NumeroDeReclamacionesAbiertas 1 181974583 1.0576e+11 140886

## - datoslimpiosc$Ingresos 1 386574544 1.0596e+11 140902

## - datoslimpiosc$OfertaDeRenovacion 3 819104460 1.0639e+11 140934

## - datoslimpiosc$PrimaMensualAuto 1 2427268715 1.0800e+11 141067

## - datoslimpiosc$NumeroDePolizas 1 3542500601 1.0912e+11 141156

##

## Step: AIC=140871.6

## datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$NewCobertura +

## datoslimpiosc$Ingresos + datoslimpiosc$NewEducacion + datoslimpiosc$PrimaMensualAuto +

## datoslimpiosc$MesesDesdeAperturaDePoliza + datoslimpiosc$NumeroDeReclamacionesAbiertas +

## datoslimpiosc$NumeroDePolizas + datoslimpiosc$NewEstadoMarital +

## datoslimpiosc$NewClase + datoslimpiosc$OfertaDeRenovacion

##

## Df Sum of Sq RSS AIC

## - datoslimpiosc$NewEstadoMarital 1 9534613 1.0562e+11 140870

## - datoslimpiosc$NewCobertura 1 13865116 1.0562e+11 140871

## <none> 1.0561e+11 140872

## - datoslimpiosc$NewEducacion 2 49166583 1.0566e+11 140872

## - datoslimpiosc$MesesDesdeAperturaDePoliza 1 57506195 1.0567e+11 140874

## - datoslimpiosc$NewClase 2 119094778 1.0573e+11 140877

## - datoslimpiosc$NumeroDeReclamacionesAbiertas 1 183264273 1.0579e+11 140885

## - datoslimpiosc$Ingresos 1 384570094 1.0599e+11 140901

## - datoslimpiosc$OfertaDeRenovacion 3 819213077 1.0643e+11 140932

## - datoslimpiosc$PrimaMensualAuto 1 2429799486 1.0804e+11 141066

## - datoslimpiosc$NumeroDePolizas 1 3544186002 1.0915e+11 141154

##

## Step: AIC=140870.4

## datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$NewCobertura +

## datoslimpiosc$Ingresos + datoslimpiosc$NewEducacion + datoslimpiosc$PrimaMensualAuto +

## datoslimpiosc$MesesDesdeAperturaDePoliza + datoslimpiosc$NumeroDeReclamacionesAbiertas +

## datoslimpiosc$NumeroDePolizas + datoslimpiosc$NewClase +

## datoslimpiosc$OfertaDeRenovacion

##

## Df Sum of Sq RSS AIC

## - datoslimpiosc$NewCobertura 1 13245924 1.0563e+11 140869

## - datoslimpiosc$NewEducacion 2 48044090 1.0567e+11 140870

## <none> 1.0562e+11 140870

## - datoslimpiosc$MesesDesdeAperturaDePoliza 1 57042874 1.0567e+11 140873

## - datoslimpiosc$NewClase 2 117381025 1.0574e+11 140876

## - datoslimpiosc$NumeroDeReclamacionesAbiertas 1 183992956 1.0580e+11 140883

## - datoslimpiosc$Ingresos 1 392345073 1.0601e+11 140900

## - datoslimpiosc$OfertaDeRenovacion 3 843789171 1.0646e+11 140933

## - datoslimpiosc$PrimaMensualAuto 1 2438004326 1.0806e+11 141065

## - datoslimpiosc$NumeroDePolizas 1 3536271785 1.0915e+11 141153

##

## Step: AIC=140869.5

## datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$Ingresos +

## datoslimpiosc$NewEducacion + datoslimpiosc$PrimaMensualAuto +

## datoslimpiosc$MesesDesdeAperturaDePoliza + datoslimpiosc$NumeroDeReclamacionesAbiertas +

## datoslimpiosc$NumeroDePolizas + datoslimpiosc$NewClase +

## datoslimpiosc$OfertaDeRenovacion

##

## Df Sum of Sq RSS AIC

## - datoslimpiosc$NewEducacion 2 48032772 1.0568e+11 140869

## <none> 1.0563e+11 140869

## - datoslimpiosc$MesesDesdeAperturaDePoliza 1 57291865 1.0569e+11 140872

## - datoslimpiosc$NewClase 2 116755269 1.0575e+11 140875

## - datoslimpiosc$NumeroDeReclamacionesAbiertas 1 186720590 1.0582e+11 140883

## - datoslimpiosc$Ingresos 1 396345279 1.0603e+11 140900

## - datoslimpiosc$OfertaDeRenovacion 3 856157658 1.0649e+11 140933

## - datoslimpiosc$NumeroDePolizas 1 3528865389 1.0916e+11 141151

## - datoslimpiosc$PrimaMensualAuto 1 5540970674 1.1117e+11 141309

##

## Step: AIC=140869.4

## datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$Ingresos +

## datoslimpiosc$PrimaMensualAuto + datoslimpiosc$MesesDesdeAperturaDePoliza +

## datoslimpiosc$NumeroDeReclamacionesAbiertas + datoslimpiosc$NumeroDePolizas +

## datoslimpiosc$NewClase + datoslimpiosc$OfertaDeRenovacion

##

## Df Sum of Sq RSS AIC

## <none> 1.0568e+11 140869

## - datoslimpiosc$MesesDesdeAperturaDePoliza 1 57060375 1.0574e+11 140872

## - datoslimpiosc$NewClase 2 117834037 1.0580e+11 140875

## - datoslimpiosc$NumeroDeReclamacionesAbiertas 1 191986706 1.0587e+11 140883

## - datoslimpiosc$Ingresos 1 392770182 1.0607e+11 140899

## - datoslimpiosc$OfertaDeRenovacion 3 830616623 1.0651e+11 140931

## - datoslimpiosc$NumeroDePolizas 1 3551695419 1.0923e+11 141153

## - datoslimpiosc$PrimaMensualAuto 1 5565279393 1.1124e+11 141310

summary(modeloc_backward_AIC2)

##

## Call:

## lm(formula = datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$Ingresos +

## datoslimpiosc$PrimaMensualAuto + datoslimpiosc$MesesDesdeAperturaDePoliza +

## datoslimpiosc$NumeroDeReclamacionesAbiertas + datoslimpiosc$NumeroDePolizas +

## datoslimpiosc$NewClase + datoslimpiosc$OfertaDeRenovacion)

##

## Residuals:

## Min 1Q Median 3Q Max

## -5336.5 -2371.0 -953.7 887.1 16316.7

##

## Coefficients:

## Estimate Std. Error t value

## (Intercept) 1.058e+03 5.492e+02 1.927

## datoslimpiosc$Ingresos 7.158e-03 1.265e-03 5.660

## datoslimpiosc$PrimaMensualAuto 4.987e+01 2.341e+00 21.305

## datoslimpiosc$MesesDesdeAperturaDePoliza -2.935e+00 1.360e+00 -2.157

## datoslimpiosc$NumeroDeReclamacionesAbiertas -1.624e+02 4.104e+01 -3.957

## datoslimpiosc$NumeroDePolizas 2.637e+02 1.550e+01 17.020

## datoslimpiosc$NewClasePremium 7.041e+02 3.089e+02 2.279

## datoslimpiosc$NewClaseSedan 5.544e+02 3.800e+02 1.459

## datoslimpiosc$OfertaDeRenovacionOffer2 -6.737e+02 9.162e+01 -7.354

## datoslimpiosc$OfertaDeRenovacionOffer3 -2.392e+02 1.128e+02 -2.120

## datoslimpiosc$OfertaDeRenovacionOffer4 -7.514e+02 1.295e+02 -5.802

## Pr(>|t|)

## (Intercept) 0.0540 .

## datoslimpiosc$Ingresos 1.56e-08 ***

## datoslimpiosc$PrimaMensualAuto < 2e-16 ***

## datoslimpiosc$MesesDesdeAperturaDePoliza 0.0310 *

## datoslimpiosc$NumeroDeReclamacionesAbiertas 7.65e-05 ***

## datoslimpiosc$NumeroDePolizas < 2e-16 ***

## datoslimpiosc$NewClasePremium 0.0227 *

## datoslimpiosc$NewClaseSedan 0.1446

## datoslimpiosc$OfertaDeRenovacionOffer2 2.10e-13 ***

## datoslimpiosc$OfertaDeRenovacionOffer3 0.0340 *

## datoslimpiosc$OfertaDeRenovacionOffer4 6.79e-09 ***

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 3502 on 8619 degrees of freedom

## Multiple R-squared: 0.209, Adjusted R-squared: 0.2081

## F-statistic: 227.8 on 10 and 8619 DF, p-value: < 2.2e-16

Vayamos con nuestro nuevo modelo, haciendo una combinación de lo arrojado en el step y en el modelo 2

mrc3 <- lm(datoslimpiosc$customer_lifetime_value ~datoslimpiosc$Ingresos+datoslimpiosc$PrimaMensualAuto+datoslimpiosc$MesesD


esdeAperturaDePoliza+datoslimpiosc$NumeroDeReclamacionesAbiertas+datoslimpiosc$NumeroDePolizas+datoslimpiosc$OfertaDeRenovac
ion+datoslimpiosc$NewClase)

summary(mrc3)
##

## Call:

## lm(formula = datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$Ingresos +

## datoslimpiosc$PrimaMensualAuto + datoslimpiosc$MesesDesdeAperturaDePoliza +

## datoslimpiosc$NumeroDeReclamacionesAbiertas + datoslimpiosc$NumeroDePolizas +

## datoslimpiosc$OfertaDeRenovacion + datoslimpiosc$NewClase)

##

## Residuals:

## Min 1Q Median 3Q Max

## -5336.5 -2371.0 -953.7 887.1 16316.7

##

## Coefficients:

## Estimate Std. Error t value

## (Intercept) 1.058e+03 5.492e+02 1.927

## datoslimpiosc$Ingresos 7.158e-03 1.265e-03 5.660

## datoslimpiosc$PrimaMensualAuto 4.987e+01 2.341e+00 21.305

## datoslimpiosc$MesesDesdeAperturaDePoliza -2.935e+00 1.360e+00 -2.157

## datoslimpiosc$NumeroDeReclamacionesAbiertas -1.624e+02 4.104e+01 -3.957

## datoslimpiosc$NumeroDePolizas 2.637e+02 1.550e+01 17.020

## datoslimpiosc$OfertaDeRenovacionOffer2 -6.737e+02 9.162e+01 -7.354

## datoslimpiosc$OfertaDeRenovacionOffer3 -2.392e+02 1.128e+02 -2.120

## datoslimpiosc$OfertaDeRenovacionOffer4 -7.514e+02 1.295e+02 -5.802

## datoslimpiosc$NewClasePremium 7.041e+02 3.089e+02 2.279

## datoslimpiosc$NewClaseSedan 5.544e+02 3.800e+02 1.459

## Pr(>|t|)

## (Intercept) 0.0540 .

## datoslimpiosc$Ingresos 1.56e-08 ***

## datoslimpiosc$PrimaMensualAuto < 2e-16 ***

## datoslimpiosc$MesesDesdeAperturaDePoliza 0.0310 *

## datoslimpiosc$NumeroDeReclamacionesAbiertas 7.65e-05 ***

## datoslimpiosc$NumeroDePolizas < 2e-16 ***

## datoslimpiosc$OfertaDeRenovacionOffer2 2.10e-13 ***

## datoslimpiosc$OfertaDeRenovacionOffer3 0.0340 *

## datoslimpiosc$OfertaDeRenovacionOffer4 6.79e-09 ***

## datoslimpiosc$NewClasePremium 0.0227 *

## datoslimpiosc$NewClaseSedan 0.1446

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 3502 on 8619 degrees of freedom

## Multiple R-squared: 0.209, Adjusted R-squared: 0.2081

## F-statistic: 227.8 on 10 and 8619 DF, p-value: < 2.2e-16

Consideramos que mrc3 es nuestro mejor modelo con un coeficiente de determinación de 20.81%, pero comprobemos si en verdad lo es
aplicando stepAIC.

modeloc_backward_AIC3 = stepAIC(mrc3,direction = "backward")

## Start: AIC=140869.4

## datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$Ingresos +

## datoslimpiosc$PrimaMensualAuto + datoslimpiosc$MesesDesdeAperturaDePoliza +

## datoslimpiosc$NumeroDeReclamacionesAbiertas + datoslimpiosc$NumeroDePolizas +

## datoslimpiosc$OfertaDeRenovacion + datoslimpiosc$NewClase

##

## Df Sum of Sq RSS AIC

## <none> 1.0568e+11 140869

## - datoslimpiosc$MesesDesdeAperturaDePoliza 1 57060375 1.0574e+11 140872

## - datoslimpiosc$NewClase 2 117834037 1.0580e+11 140875

## - datoslimpiosc$NumeroDeReclamacionesAbiertas 1 191986706 1.0587e+11 140883

## - datoslimpiosc$Ingresos 1 392770182 1.0607e+11 140899

## - datoslimpiosc$OfertaDeRenovacion 3 830616623 1.0651e+11 140931

## - datoslimpiosc$NumeroDePolizas 1 3551695419 1.0923e+11 141153

## - datoslimpiosc$PrimaMensualAuto 1 5565279393 1.1124e+11 141310

summary(modeloc_backward_AIC3)
##

## Call:

## lm(formula = datoslimpiosc$customer_lifetime_value ~ datoslimpiosc$Ingresos +

## datoslimpiosc$PrimaMensualAuto + datoslimpiosc$MesesDesdeAperturaDePoliza +

## datoslimpiosc$NumeroDeReclamacionesAbiertas + datoslimpiosc$NumeroDePolizas +

## datoslimpiosc$OfertaDeRenovacion + datoslimpiosc$NewClase)

##

## Residuals:

## Min 1Q Median 3Q Max

## -5336.5 -2371.0 -953.7 887.1 16316.7

##

## Coefficients:

## Estimate Std. Error t value

## (Intercept) 1.058e+03 5.492e+02 1.927

## datoslimpiosc$Ingresos 7.158e-03 1.265e-03 5.660

## datoslimpiosc$PrimaMensualAuto 4.987e+01 2.341e+00 21.305

## datoslimpiosc$MesesDesdeAperturaDePoliza -2.935e+00 1.360e+00 -2.157

## datoslimpiosc$NumeroDeReclamacionesAbiertas -1.624e+02 4.104e+01 -3.957

## datoslimpiosc$NumeroDePolizas 2.637e+02 1.550e+01 17.020

## datoslimpiosc$OfertaDeRenovacionOffer2 -6.737e+02 9.162e+01 -7.354

## datoslimpiosc$OfertaDeRenovacionOffer3 -2.392e+02 1.128e+02 -2.120

## datoslimpiosc$OfertaDeRenovacionOffer4 -7.514e+02 1.295e+02 -5.802

## datoslimpiosc$NewClasePremium 7.041e+02 3.089e+02 2.279

## datoslimpiosc$NewClaseSedan 5.544e+02 3.800e+02 1.459

## Pr(>|t|)

## (Intercept) 0.0540 .

## datoslimpiosc$Ingresos 1.56e-08 ***

## datoslimpiosc$PrimaMensualAuto < 2e-16 ***

## datoslimpiosc$MesesDesdeAperturaDePoliza 0.0310 *

## datoslimpiosc$NumeroDeReclamacionesAbiertas 7.65e-05 ***

## datoslimpiosc$NumeroDePolizas < 2e-16 ***

## datoslimpiosc$OfertaDeRenovacionOffer2 2.10e-13 ***

## datoslimpiosc$OfertaDeRenovacionOffer3 0.0340 *

## datoslimpiosc$OfertaDeRenovacionOffer4 6.79e-09 ***

## datoslimpiosc$NewClasePremium 0.0227 *

## datoslimpiosc$NewClaseSedan 0.1446

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 3502 on 8619 degrees of freedom

## Multiple R-squared: 0.209, Adjusted R-squared: 0.2081

## F-statistic: 227.8 on 10 and 8619 DF, p-value: < 2.2e-16

En efecto confirmamos lo considerado y llegamos a la conclusión de que mrc3 es nuestro mejor modelo; interpretemos los resultados obtenidos.

En este modelo comenzaremos con la categoría “OfertaDeRenovación”, tiene 3 categorías significativas : (Offer2 -6.737e+02), (Offer3
-2.392e+02) y (Offer4 -7.514e+02) notando que los datos son negativos, lo que significa que disminuyen el customer_lifetime_value respecto a
Offer1.

La siguiente varaiable “ClaseVehiculo” con categorías (Premium 7.041e+02) y (Sedan 5.544e+02) aunque esta no tenga significancia relevante,
es importante para el modelo. Se compararán con respecto a la categoria Luxury. Por lo que significa que la categoría Premium aumenta en un
7.041e+02 a el customer_lifetime_value y Sedan aumenta de igual manera en un 5.544e+02 el customer_lifetime_value.

Concluyendo con nuestras variables numéricas (Ingresos 7.158e-03), (PrimaMensualAuto 4.987e+01), (MesesDesdeAperturaDePoliza
-2.935e+00 ), (NumeroDeReclamacionesAbiertas -1.624e+02)y (NumeroDePolizas 2.637e+02). Podemos notar que los ingresos,
PirmaMensualAuto y NumerodePolizas aumentan el customer_lifetime_value en 7.158e-03,4.987e+01 y 4.987e+01 respectivamente. Y
MesesDesdeAperturaDePoliza dismunuye el customer_lifetime_value en un -2.935e+00, como tambien NumeroDeReclamacionesAbiertas
disminuye el customer_lifetime_value en un -1.624e+02.

customer_lifetime_value = 7.158e-
03(Ingresos)+4.987e+01(PrimaMensualAuto)-2.935e+00(MesesDesdeAperturaDePoliza)-1.624e+02(NumeroDeReclamacionesAbiertas)+
2.637e+02(NumeroDePolizas)-6.737e+02(OfertaDeRenovacionOffer2)-2.392e+02(OfertaDeRenovacionOffer3)-7.514e+02(OfertaDeRenovacionOffer4)+7.041e+02(Cl
)+5.544e+02(ClaseSedan )

Supuesto de normalidad

plot(mrc3,2)
Gracias a nuestro grafico podemos notar que tenemos muchos valores atípicos en la cola derecha nuevamente; y para corregirlo haremos un
tratamiento a los datos, es decir, quitaremos por lo menos 15000 datos de los que tenemos para que reducir la cantidad de lo valores que nos
causan anomalías en dicho supuesto.

Esta cantidad fue elegida, ya que al visualizar los bloxplots con respecto a nuestra variable, los datos atipicos empiezan a partir de 15000.

datoslimpiosc <- datoslimpiosc[datoslimpiosc$customer_lifetime_value < 15000,]

Ya quitamos algunos valores atípicos, pero aun debemos quitar puntos palanca porque estos también estan afectando nuestro supuesto de
normalidad.

#HighLeverage <- cooks.distance(mrc3) > (4/nrow(datos))

#datoslimpios <- datoslimpios[!HighLeverage ,]

HighLeveragec <- cooks.distance(mrc3) > (4/nrow(datoslimpiosc))

LargeResidualsc <- (rstandard(mrc3))< 2

datoslimpiosc <- datoslimpiosc[!HighLeveragec & !LargeResidualsc,]

Una vez hecho el tratamiento, actualicemos nuestro mejor modelo.

mrc3 <- lm(datoslimpiosc$customer_lifetime_value ~datoslimpiosc$Ingresos+datoslimpiosc$PrimaMensualAuto+datoslimpiosc$MesesD


esdeAperturaDePoliza+datoslimpiosc$NumeroDeReclamacionesAbiertas+datoslimpiosc$NumeroDePolizas+datoslimpiosc$OfertaDeRenovac
ion+datoslimpiosc$NewClase)

Una vez hecho todo lo anterior volvamos a graficar nuestro supuesto.

plot(mrc3,2)

Veamos como se ve la densidad de nuestra varible Customer_lifetime_value.

plot(density(datoslimpiosc$customer_lifetime_value ,na.rm = TRUE))


Nuestro supuesto de normalidad se cumple, a pesar de que estamos trabajando con valores reales, aunque resulta curioso que se pueden formar
dos campanas siendo la izquierda la mas grande, pese a esto la normalidad se pudo validar.

Supuesto de homocedasticidad

Para saber que una muestra es homocedastica es necesario que la varianza sea constante a lo largo de las observaciones, es decir, que no varía
conforme se presentan nuevas observaciones.

residuosc <- rstandard(mrc3)

valores.ajustadosc <- fitted(mrc3)

plot(valores.ajustadosc, residuosc)

Hacemos el gráfico con respecto a los valores Podemos observar que la varianza de los errores es constante a lo largo del tiempo, por lo tanto,
cumple con el supuesto de homocedasticidad.

Prueba de White

library(skedastic)

white_lm(mrc3,interactions = FALSE, statonly = FALSE)

## # A tibble: 1 x 5

## statistic p.value parameter method alternative

## <dbl> <dbl> <dbl> <chr> <chr>

## 1 15.0 0.663 18 White's Test greater

Dado que el valor p − value es mayor a 0.05 (nuestro valor de significancia), no tenemos evidencia suficiente para rechazar la hipótesis nula.
Por lo tanto, tenemos evidencia suficiente para decir que la heterocedasticidad no está presente en el modelo de relación; y con esto a su vez
corroboramos y automáticamente nuestro supuesto de homocedasticidad queda validada.

Supuesto de Linealidad

Ahora graficaremos los errores estandarizados vs los valores observados de la variable explicativa.
plot(mrc3,1)

Utilizando este gráfico, notamos que hay un comportamiento lineal en los valores más chicos, mientras que el resto ya tienen un comportamiento
anormal, pese a esto hay una mayor agrupación de valores en la primera mitad. Además recordemos que no tenemos forma de graficar
hiperespacios, por lo que es difícil el asumirlo con el número de variables que tenemos en nuestro modelo, por esto podemos asumir linealidad.

PREGUNTAS

##¿Cómo puede usar este modelo para identificar los riesgos subyacentes de cada asegurado? HINT: Use las características para inferir
comportamientos.##

El uso de este modelo nos permite tener un panorama sobre los riesgos subyacentes que se relacionan con las variables significativas, en
especial las categóricas, debido a que estas son fijas, un ejemplo en nuestro modelo serían; Cobertura, Ubicación, Estado Laboral, Género,
Educación y Estado Marital.

Con esto podemos decir que a pesar de tomar en cuenta todos los riesgos, solo tenemos los más significativos. Además como se cumple el
supuesto de normalidad, entonces nuestro modelo puede ser útil para realizar predicciones acerca de nuestros valores de reclamaciones, así no
solo tenemos el diagnóstico de los asegurados actuales, sino que también se puede usar para los futuros.

Por otra parte, si hablamos más del lado asegurador, el tener un diagnóstico, así como una forma predictiva para el monto de reclamaciones,
servirá para considerar si las reservas son capaces de enfrentar nuestras obligaciones, y prever si la aseguradora requiere el uso de reaseguro
para hacer frente a todos aquellos riesgos que sobrepasen su capacidad.

En conclusión este modelo nos ayuda a saber que las características sobre el asegurado como lo son su Género y Estado Marital aumentan la
probabilidad de ocurrencia de una reclamación. Un ejemplo basado en los resultados del modelo es que si el asegurado es varón y soltero,
entonces tiene una mayor posibilidad de realizar reclamaciones, probablemente por la diferencia de responsabilidades en contraste a una persona
casada.

Otros posibles escenarios que afectan a las reclamaciones, son el tipo de cobertura, ubicación, educación y estado laboral.

Siendo el primero algo que reduce el valor de nuestras reclamación, pero no quita el hecho que el que la cobertura premium represente una
mayor reclamación a las otras, ahora la ubicación aumenta el valor de reclamación debido al tránsito añadiendo a esto la educación que tiene la
población, ya que en zonas marginadas es menos común tener niveles académicos, aclarando que también nos referimos a las de vialidad,
responsabilidad civil o éticas. Además de que la oportunidad laboral de zonas en desarrollo es menor, por lo que existe niveles de desempleo o
con individuos incapaces de realizar una actividad la cual sea remunerada, por ende sus ingresos son limitados.

##¿Con este modelo podría determinar si las primas cobradas son las adecuadas?##

Sí se puede, ya que la formula a la que llegamos en nuestro modelo es la siguiente:

ValorTotaldelasReclamaciones = -2.155e+02(CoberturaIntermedia)-2.010e+02(CoberturaPremium)-1.318e+01(EducacionMedian-
Superior)-2.150e+01(EducacionPostgrade)+ 6.958e+00(EstadoLaboralQPNP)+7.235e+01(EstadoLaboralUnemployed)+
1.288e+01(GeneroM)-2.517e-
04(Ingresos)+3.732e+02(UbicacionSuburban)+2.174e+02(UbicacionUrban)+6.553e+01(EstadoMaritalSingle)+4.674e+00(PrimaMensualAuto)-8.766e+01(ClasePrem

En ella se relaciona la variable PrimaMensualAuto, la cual podemos despejar de esta fórmula y nos da la siguiente:

PrimaMensualAuto =
[ValorTotaldelasReclamaciones+2.155e+02(CoberturaIntermedia)+2.010e+02(CoberturaPremium)+1.318e+01(EducacionMedian-
Superior)+2.150e+01(EducacionPostgrade)-6.958e+00(EstadoLaboralQPNP)-7.235e+01(EstadoLaboralUnemployed)-
1.288e+01(GeneroM)+2.517e-
04(Ingresos)-3.732e+02(UbicacionSuburban)-2.174e+02(UbicacionUrban)-6.553e+01(EstadoMaritalSingle)+8.766e+01(ClasePremium)+8.764e+01(ClaseSedan)]/4.6

Y realmente si es cierto ver que el tipo de cobertura, Educación, Estado Laboral, Género, Ingresos, Ubicación, Estado Marital y el tipo de Clase,
son factores que son muy importantes para calcular una prima. Analizando la formula para el calculo de las primas, llegamos a la conclusión de
que por ejemplo aquellas ubicaciones con mayor desarrollo deberían tener una mayor aportaciones, debido a que tienen más índices de
siniestralidad por la cantidad de habitantes. Ahora en el caso laboral, el monto de la prima debería ser mayor ya que al tener más reclamos
cuando la persona está desempleada,representan una participación mayormente riesgosa para la aseguradora, aparte no resulta equitativo cobrar
la misma prima a asegurados más siniestrados en contraste a las que no, entonces para asegurados solteros, que vivan en zona suburbana -
urbana deberían de dar una mayor aportación.
Por lo tanto, en efecto, nuestro modelo ayuda a determinar si las primas cobradas son adecuadas.

##Use la variable customer_lifetime_value para crear un segundo modelo que ayude a entender cómo maximizar el valor de cada cliente.##

El resultado de nuestro modelo fue el siguiente:

customer_lifetime_value = 7.158e-
03(Ingresos)+4.987e+01(PrimaMensualAuto)-2.935e+00(MesesDesdeAperturaDePoliza)-1.624e+02(NumeroDeReclamacionesAbiertas)+
2.637e+02(NumeroDePolizas)-6.737e+02(OfertaDeRenovacionOffer2)-2.392e+02(OfertaDeRenovacionOffer3)-7.514e+02(OfertaDeRenovacionOffer4)+7.041e+02(Cl
)+5.544e+02(ClaseSedan )

Lo cual nos dice que para obtener el valor de cada cliente, se utilizan las variables de Ingresos, Prima, Meses de Apertura de la Póliza, Número
de Reclamaciones Abiertas, Número de Pólizas, la Oferta de Renovación y el tipo de Clase.

Un ejemplo claro es si el cliente tiene un monto alto de ingresos, prima, número de pólizas y su tipo de clase es Premium o Sedan, y un número
bajo de meses de apertura de la póliza, número de reclamaciones y dependiendo de la oferta de renovación que tenga, entonces ese cliente va a
tener un valor alto para la aseguradora. Por el contrario si un cliente tiene ingresos bajos, un monto de prima bajo y además tiene un gran número
de reclamaciones, pues claramente ese cliente no será significativo para la compañía. Entonces, de esta manera el modelo le ayuda a la
compañía a hacer un análisis para ver en qué clientes deben enfocarse más y dar una trato exclusivo y en qué clientes pues literalmente no poner
mucha atención.

Y esto se debe por que la aseguradora va a buscar centrarse en casos que les dejan más ganancias. En conclusión, en efecto, las variables del
modelo ayudan a saber qué parámetros se toman en cuenta para evaluar el valor de un cliente en la aseguradora.

##Use ambos modelos para dar un diagnóstico de la situación actual de su cartera y posibles sugerencias para mejorar (si es posible).##

ValorTotaldelasReclamaciones = -2.155e+02(CoberturaIntermedia)-2.010e+02(CoberturaPremium)-1.318e+01(EducacionMedian-
Superior)-2.150e+01(EducacionPostgrade)+ 6.958e+00(EstadoLaboralQPNP)+7.235e+01(EstadoLaboralUnemployed)+
1.288e+01(GeneroM)-2.517e-
04(Ingresos)+3.732e+02(UbicacionSuburban)+2.174e+02(UbicacionUrban)+6.553e+01(EstadoMaritalSingle)+4.674e+00(PrimaMensualAuto)-8.766e+01(ClasePrem

customer_lifetime_value = 7.158e-
03(Ingresos)+4.987e+01(PrimaMensualAuto)-2.935e+00(MesesDesdeAperturaDePoliza)-1.624e+02(NumeroDeReclamacionesAbiertas)+
2.637e+02(NumeroDePolizas)-6.737e+02(OfertaDeRenovacionOffer2)-2.392e+02(OfertaDeRenovacionOffer3)-7.514e+02(OfertaDeRenovacionOffer4)+7.041e+02(Cl
)+5.544e+02(ClaseSedan )

De acuerdo a los dos modelos anteriores que obtuvimos, podemos ver que una persona que tiene mayores ingresos disminuye en el valor total de
las reclamaciones, al mismo tiempo este tipo de personas aumentan el valor del cliente, lo cual tiene una relación acertada en ambos modelos,
pues una persona de mayores ingresos tiende a hacer menos reclamaciones, quizá porque en muchas ocasiones tienen la oportunidad
económica para cubrir ciertos siniestros sin necesidad de llamar a la aseguradora o que quizá sean más cuidadosos a comparación de las
personas con bajos ingresos. Entonces, el tener menos cantidad de reclamaciones ayuda a que el valor del cliente aumente, ya que, no da tantos
“problemas” por así decirlo y la compañía lo considera un buen cliente, pues les representa un menor riesgo de pérdida.

Otro factor es que una persona de Clase Premium también disminuye en gran cantidad el valor total de las reclamaciones, lo que hace que al
mismo tiempo su valor como cliente aumente. En realidad tienen una explicación similar a lo de los ingresos, pues bien, una clase Premium es de
un auto con un costo elevado y que muchas veces las personas que poseen este tipo de carros son muy cuidadosas con ellos,entonces tienen un
índice bajo de reclamaciones, sin embargo su prima es alta por lo mismo de que el valor del auto es elevado y con esas características hace que
sean clientes valiosos para la compañía.

Si nos damos cuenta, estas son las variables en las que se relacionan nuestros modelos. Y en general es eso, que a mayores ingresos, cuentan
con un mejor auto, son más cuidadosos y hace que tengan menos reclamaciones. Además ahí se incluyen otros factores como la ubicación, tu
trabajo, etc.

Si es un poco notoria la desigualdad social en estos casos, pero aunque sea preocupante es la realidad de nuestra sociedad.

De esta manera una posible sugerencia a mejorar es que se brinden incentivos para los clientes con mayor valor, ya que, si no representan un
riesgo alto para la empresa hay que premiarlos para que sigan formando parte de la compañía y no quieran irse con otra que le brinde mejores
beneficios; O bien, darles una mejor promoción, que después de un tiempo se reduzca la prima. Este tipo de cosas hacen que los clientes se
motiven a seguir con una misma aseguradora y que claro cuando suceda un siniestro también se les brinde la mejor atención, ya que todos
estamos expuestos a tener uno, sin importar las clases sociales.

También podría gustarte