Está en la página 1de 29

UNIVERSIDAD DE GUADALAJARA

Centro Universitario de Ciencias Económico-Administrativas


Economía

Tema:
ANÁLISIS DE LOS FACTORES DETERMINANTES DE LOS COSTOS
MÉDICOS INDIVIDUALES MEDIANTE REGRESIÓN PROBIT/LOGIT

PRESENTA:
Ramírez Vázquez Johan André
Enrríguez Pérez Julio Gabriel
Narez de Borbón Jorge Alejandro

Docente:
Dr. Enrique Cuevas Rodríguez

Materia:
Econometría II

1
Introducción
En el sistema de salud de Estados Unidos, los altos costos médicos representan un desafío
significativo tanto para los individuos como para el sistema en general. Estos costos pueden
tener un impacto negativo en la accesibilidad, la calidad y la equidad de la atención médica.
Por lo tanto, es de vital importancia comprender los factores que contribuyen a la aparición
de altos costos médicos y su influencia en el sistema de salud.

El presente estudio se centra en analizar los factores asociados a los altos costos médicos en
el sistema de salud de Estados Unidos. A través de la utilización de técnicas econométricas,
específicamente la regresión probit o logit, se busca identificar las variables que influyen en
la probabilidad de incurrir en costos médicos superiores al promedio del seguro médico en el
país.

Objetivos del estudio:

Identificar los factores socioeconómicos y demográficos que están asociados a altos costos
médicos en el sistema de salud de Estados Unidos. Se examinarán variables como la edad, el
género, el índice de masa corporal (BMI), el número de hijos cubiertos por el seguro y el
hábito de fumar.

Evaluar la relación entre la región de residencia y los altos costos médicos. Se analizará si la
ubicación geográfica en Estados Unidos, dividida en regiones (noreste, sureste, suroeste,
noroeste), tiene un impacto en la probabilidad de incurrir en costos médicos superiores al
umbral establecido.

Estimar un modelo de regresión probit o logit para determinar la influencia de las variables
independientes en la probabilidad de tener altos costos médicos. Se estimarán los coeficientes
y se evaluará su significancia estadística.

Al comprender los factores que están asociados a los altos costos médicos, este estudio
pretende contribuir a una mejor comprensión de los determinantes de los costos de atención
médica en Estados Unidos. Los resultados obtenidos podrán ser utilizados para informar y
orientar políticas y decisiones relacionadas con la gestión de los costos en el sistema de salud,
con el objetivo de mejorar la accesibilidad y sostenibilidad de la atención médica para la
población.

2
Modelo y variables:

En este estudio, utilizaremos un modelo de regresión logit para analizar los factores asociados
a los altos costos médicos en el sistema de salud de Estados Unidos. El modelo nos permitirá
estimar la probabilidad de incurrir en costos médicos superiores al umbral establecido,
considerando diversas variables explicativas.

Variable dependiente:

High_Medical_Costs: Esta variable binaria será nuestra variable dependiente, donde 1


indicará la presencia de altos costos médicos y 0 indicará costos médicos por debajo del
umbral establecido. La importancia de esta variable radica en su capacidad para capturar el
fenómeno que queremos analizar: los factores que influyen en la probabilidad de incurrir en
costos médicos superiores al promedio del seguro médico en Estados Unidos.

Variables independientes:

Age: La edad del beneficiario principal del seguro médico. Es importante incluir esta
variable, ya que se ha observado que los costos médicos tienden a aumentar con la edad
debido a una mayor probabilidad de enfermedades crónicas y necesidades de atención médica
más frecuentes.

Sex: El género del asegurado, codificado como una variable binaria (1 para mujer, 0 para
hombre). Esta variable es relevante, ya que se ha encontrado que los patrones de utilización
de servicios médicos y las condiciones de salud pueden variar entre hombres y mujeres, lo
que podría influir en los costos médicos.

BMI: El índice de masa corporal (IMC) del beneficiario principal. El IMC proporciona una
medida objetiva del peso relativo a la altura y puede reflejar la salud general y el riesgo de
ciertas enfermedades. Incluir esta variable es importante, ya que un IMC elevado puede estar
relacionado con mayores costos médicos debido a condiciones de salud asociadas, como
enfermedades cardiovasculares o diabetes.

Children: El número de hijos cubiertos por el seguro médico o el número de dependientes.


Esta variable es relevante, ya que los costos médicos pueden verse afectados por las
necesidades de atención médica de los hijos o dependientes adicionales.

3
Smoker: Una variable binaria que indica si el beneficiario es fumador (1) o no fumador (0).
El tabaquismo ha sido ampliamente asociado con mayores costos médicos debido a la mayor
prevalencia de enfermedades relacionadas con el tabaco, como enfermedades respiratorias y
cardiovasculares.

Region: La región de residencia del beneficiario en Estados Unidos, dividida en categorías


geográficas (noreste, sureste, suroeste, noroeste). Incluir esta variable es importante, ya que
los costos de atención médica pueden variar según la región debido a diferencias en la
disponibilidad de servicios, la estructura de costos y los factores socioeconómicos.

Al incluir estas variables en el modelo de regresión logit, podremos analizar su impacto en la


probabilidad de tener altos costos médicos. Cada una de estas variables representa un aspecto
relevante que puede influir en la relación entre los factores demográficos, socioeconómicos y
de salud, y los costos médicos en el sistema de salud de Estados Unidos.

Estadística descriptiva
A continuación, se presentan imágenes que muestran información descriptiva sobre cada
variable utilizada en el modelo, tanto la variable dependiente como las independientes.

Es importante tener en cuenta que la estadística descriptiva nos permite analizar el


comportamiento de las variables. Las medidas de tendencia central, como la moda, la media y
la mediana, nos ayudan a identificar dónde se concentran la mayoría de los datos.

Por otro lado, las medidas de dispersión, como el rango, la varianza, la desviación estándar y
otras, nos proporcionan información sobre la variabilidad de los datos. Además, a través de la
estadística descriptiva podemos observar los valores máximo y mínimo de la muestra, los
cuales son muy utilizados en este tipo de modelos.

Asimismo, la asimetría y la curtosis nos sirven como indicadores para evaluar la normalidad
de nuestra muestra. Se espera que la distribución tenga una forma de campana simétrica en
ambos lados, y la curtosis nos ayuda a determinar qué tan aplanada o puntiaguda es esa
campana.

4
Edad (age):
Observaciones (Obs): 1,338: Esto indica que hay un total de 1,338 observaciones o
individuos en el conjunto de datos analizados.
Media (Mean): 39.20703: La edad promedio de los individuos en el conjunto de datos es de
aproximadamente 39.21 años.
Desviación estándar (Std. Dev.): 14.04996: La desviación estándar de la edad es de
aproximadamente 14.05. Esto sugiere que hay una variabilidad considerable en las edades de
los individuos.
Valor mínimo (Min): 18: El valor mínimo registrado para la edad en el conjunto de datos es
18, lo que indica que el individuo más joven tiene 18 años.
Valor máximo (Max): 64: El valor máximo registrado para la edad es 64, lo que indica que el
individuo más viejo tiene 64 años.

Índice de masa corporal (bmi):

Observaciones (Obs): 1,338: Esto indica que hay 1,338 observaciones disponibles para el
índice de masa corporal.
Media (Mean): 30.6634: El índice de masa corporal promedio de los individuos en el
conjunto de datos es de aproximadamente 30.66.
Desviación estándar (Std. Dev.): 6.098187: La desviación estándar del índice de masa
corporal es de aproximadamente 6.10. Esto muestra la variabilidad en los valores del índice
de masa corporal.
Valor mínimo (Min): 15.96: El valor mínimo registrado para el índice de masa corporal es
15.96, lo que indica el valor más bajo registrado en el conjunto de datos.
Valor máximo (Max): 53.13: El valor máximo registrado para el índice de masa corporal es
53.13, lo que indica el valor más alto registrado en el conjunto de datos.

Número de hijos (children):

Observaciones (Obs): 1,338: Esto indica que hay 1,338 observaciones disponibles para el
número de hijos.
Media (Mean): 1.094918: El número promedio de hijos por individuo en el conjunto de datos
es aproximadamente 1.09.
Desviación estándar (Std. Dev.): 1.205493: La desviación estándar del número de hijos es de
aproximadamente 1.21. Esto muestra la variabilidad en los valores del número de hijos.

5
Valor mínimo (Min): 0: El valor mínimo registrado para el número de hijos es 0, lo que indica
que hay individuos sin hijos en el conjunto de datos.
Valor máximo (Max): 5: El valor máximo registrado para el número de hijos es 5, lo que
indica que hay individuos con hasta 5 hijos en el conjunto de datos.

Costos médicos (charges):

Observaciones (Obs): 1,338: Esto indica que hay 1,338 observaciones disponibles para los
costos médicos individuales.
Media (Mean): 13,270.42: El costo médico promedio de los individuos en el conjunto de
datos es de aproximadamente $13,270.42.
Desviación estándar (Std. Dev.): 12,110.01: La desviación estándar de los costos médicos es
de aproximadamente $12,110.01. Esto indica que existe una gran variabilidad en los costos
médicos individuales.
Valor mínimo (Min): 1,121.874: El valor mínimo registrado para los costos médicos es de
$1,121.874, lo que indica el costo más bajo registrado en el conjunto de datos.
Valor máximo (Max): 63,770.43: El valor máximo registrado para los costos médicos es de
$63,770.43, lo que indica el costo más alto registrado en el conjunto de datos.

Tablas de frecuencia y distribución de las variables categóricas como "sex", "smoker" y


"region":

6
Tabla de frecuencia para la variable "sex":
Esta tabla muestra la distribución de la variable "sex", que representa el género de los
individuos. Se observa que hay 662 registros correspondientes a mujeres (female), lo cual
representa el 49.48% del total de datos. Por otro lado, hay 676 registros correspondientes a
hombres (male), lo cual representa el 50.52% del total de datos. En la columna del
acumulado, se muestra el porcentaje acumulado de cada categoría a medida que se avanza en
la tabla.

Tabla de frecuencia para la variable "smoker":


Esta tabla muestra la distribución de la variable "smoker", que indica si los individuos son
fumadores o no. Se observa que hay 1,064 registros correspondientes a no fumadores (no), lo
cual representa el 79.52% del total de datos. Por otro lado, hay 274 registros correspondientes
a fumadores (yes), lo cual representa el 20.48% del total de datos. En la columna del
acumulado, se muestra el porcentaje acumulado de cada categoría a medida que se avanza en
la tabla.

Tabla de frecuencia para la variable "region":


Esta tabla muestra la distribución de la variable "region", que indica la región geográfica de
los individuos. Se observa que hay 324 registros correspondientes a la región noreste
(northeast), lo cual representa el 24.22% del total de datos. Además, hay 325 registros
correspondientes a la región noroeste (northwest), lo cual representa el 24.29% del total de
datos. En cuanto a la región sureste (southeast), se tienen 364 registros, que representan el
27.20% del total de datos. Por último, la región suroeste (southwest) cuenta con 325 registros,
lo cual representa el 24.29% del total de datos. En la columna del acumulado, se muestra el
porcentaje acumulado de cada categoría a medida que se avanza en la tabla.

Análisis de las distribuciones o las relaciones entre las variables continuas "age", "bmi"
y "charges".

7
Definición de la variable dependiente:
"High_Medical_Costs" en un modelo econométrico. La variable binaria se define en base a
un umbral específico de "charges" que se considerarán como "costos médicos altos". En este
caso, los costos médicos superiores a $7,339 se considerarán como altos. Por lo tanto, el
comando para crear la variable sería el siguiente:

generate High_Medical_Costs = charges > 7339

De esta manera, la variable "High_Medical_Costs" se creará como una variable binaria,


donde aquellos casos con costos médicos superiores a $7,339 serán etiquetados como costos
médicos altos (1), mientras que los casos con costos médicos iguales o inferiores a $7,339
serán etiquetados como costos médicos no altos (0).

Regresión:
Se corre la regresión para poder analizar el modelo y poder conocer los valores genéricos.

8
Puntos clave para interpretar los resultados:

R-squared (R²): El coeficiente de determinación R² es una medida de ajuste del modelo. En


este caso, el R² es de aproximadamente 0.6027, lo que significa que alrededor del 60.27% de
la variabilidad de "High_Medical_Costs" puede explicarse por las variables incluidas en el
modelo.

Coeficientes: Los coeficientes estimados para cada variable independiente indican la relación
promedio entre esa variable y la variable dependiente, manteniendo constantes las otras
variables en el modelo. Por ejemplo, el coeficiente estimado para "age" es de
aproximadamente 0.0181, lo que sugiere que, en promedio, por cada año adicional de edad,
se espera un aumento de 0.0181 en "High_Medical_Costs".

Valores p: Los valores p asociados con cada coeficiente indican la significancia estadística de
esa variable. Un valor p menor que el nivel de significancia (generalmente 0.05) sugiere que
la variable tiene un efecto significativo en la variable dependiente. Por ejemplo, el valor p
para "smoker_code" es menor que 0.05, lo que indica que la variable tiene un efecto
significativo en "High_Medical_Costs".

Intervalos de confianza: Los intervalos de confianza (Confidence Intervals) te brindan un


rango de valores dentro del cual es probable que se encuentre el coeficiente poblacional. Por
ejemplo, el intervalo de confianza del 95% para "charges" va desde 0.0000117 hasta
0.0000172. Esto significa que, con un nivel de confianza del 95%, se espera que el
coeficiente poblacional de "charges" se encuentre dentro de ese rango.

Pruebas Formales:
Normalidad
Los resultados de la prueba Skewness/Kurtosis para Normalidad (sktest) muestran los
siguientes valores para los residuales de la regresión:

9
Número de observaciones (Obs): 1,338
Prueba de Skewness (Pr(Skewness)): 0.4829
Prueba de Kurtosis (Pr(Kurtosis)): 0.0000
Estadístico de chi-cuadrado ajustado (adj chi2(2)): 57.42
Probabilidad asociada al estadístico de chi-cuadrado (Prob>chi2): 0.0000

La prueba Skewness/Kurtosis para Normalidad evalúa si los residuales siguen una


distribución normal. En particular, prueba la hipótesis nula de que la distribución de los
residuales es simétrica y tiene una curtosis similar a la de una distribución normal.

Con base en los resultados, podemos interpretar lo siguiente:

Prueba de Skewness (Pr(Skewness)): El valor de 0.4829 es el p-valor asociado a la prueba de


simetría (skewness). Si el valor es mayor que un nivel de significancia específico (por
ejemplo, 0.05), no hay suficiente evidencia para rechazar la hipótesis nula de simetría en la
distribución de los residuales. En este caso, el p-valor de 0.4829 indica que no hay suficiente
evidencia para afirmar que los residuales no siguen una distribución simétrica.

Prueba de Kurtosis (Pr(Kurtosis)): El valor de 0.0000 es el p-valor asociado a la prueba de


curtosis (kurtosis). Si el valor es menor que un nivel de significancia específico, se rechaza la
hipótesis nula de que la curtosis de los residuales es similar a la de una distribución normal.
En este caso, el p-valor de 0.0000 indica que hay suficiente evidencia para afirmar que la
curtosis de los residuales difiere de la curtosis esperada en una distribución normal.

Estadístico de chi-cuadrado ajustado (adj chi2(2)): El valor de 57.42 representa el estadístico


de chi-cuadrado ajustado, que se utiliza para evaluar la bondad de ajuste de los residuales a
una distribución normal. Cuanto mayor sea el valor, mayor será la discrepancia entre la
distribución de los residuales y una distribución normal.

Probabilidad asociada al estadístico de chi-cuadrado (Prob>chi2): El valor de 0.0000 es el


p-valor asociado al estadístico de chi-cuadrado ajustado. Si el valor es menor que un nivel de
significancia específico, se rechaza la hipótesis nula de que los residuales siguen una
distribución normal.
En este caso, el p-valor de 0.0000 indica que hay suficiente evidencia para afirmar que los
residuales no siguen una distribución normal.

En resumen, los resultados sugieren que los residuales de la regresión no siguen una
distribución normal. Esto podría indicar la presencia de ciertos patrones o características en
los datos que no están siendo capturados por el modelo. Es posible que sea necesario

10
considerar transformaciones de las variables o explorar modelos alternativos para mejorar el
ajuste del modelo

Homocedasticidad
Prueba de White:

Resultados de White's test:


Estadístico de chi-cuadrado (chi2(33)):
223.80
Probabilidad asociada al estadístico de
chi-cuadrado (Prob > chi2): 0.0000
La prueba de White se utiliza para probar la
hipótesis nula de homocedasticidad (es decir,
que los errores tienen varianza constante)
frente a la hipótesis alternativa de
heterocedasticidad (es decir, que los errores
tienen varianza no constante). En este caso, el
valor del estadístico de chi-cuadrado es
223.80 y el p-valor asociado es 0.0000, lo que indica que hay suficiente evidencia para
rechazar la hipótesis nula de homocedasticidad. Esto sugiere la presencia de
heterocedasticidad en los residuales de la regresión.

Resultados de la descomposición de IM-test de Cameron y Trivedi:


Heteroskedasticity: Estadístico de chi-cuadrado = 223.80, df = 33, p-valor = 0.0000
Skewness: Estadístico de chi-cuadrado = 224.56, df = 7, p-valor = 0.0000
Kurtosis: Estadístico de chi-cuadrado = 61.57, df = 1, p-valor = 0.0000
La descomposición de IM-test proporciona información adicional sobre la contribución
relativa de la heterocedasticidad, la asimetría y la curtosis en la heterogeneidad de los errores.
En este caso, los resultados indican que tanto la heterocedasticidad como la asimetría y la
curtosis contribuyen significativamente a la heterogeneidad de los errores, como se evidencia
por los valores de los estadísticos de chi-cuadrado y los p-valores asociados.

En resumen, los resultados sugieren que existe heterocedasticidad en los residuales de la


regresión. Esto implica que la varianza de los errores no es constante a través de los valores
de las variables independientes.

11
Los resultados de la prueba de Breusch-Pagan / Cook-Weisberg para heterocedasticidad son
los siguientes:

Estadístico de chi-cuadrado (chi2(1)): 2.83


Probabilidad asociada al estadístico de chi-cuadrado (Prob > chi2): 0.0924
La prueba de Breusch-Pagan / Cook-Weisberg se utiliza para probar la hipótesis nula de que
existe varianza constante en los errores (homocedasticidad) frente a la hipótesis alternativa de
que la varianza de los errores no es constante (heterocedasticidad).

En este caso, el valor del estadístico de chi-cuadrado es 2.83 y el p-valor asociado es 0.0924.
Si el p-valor es menor que un nivel de significancia previamente establecido (por ejemplo,
0.05), se rechaza la hipótesis nula de homocedasticidad y se concluye que hay evidencia de
heterocedasticidad.

Sin embargo, en este caso, el p-valor de 0.0924 es mayor que un nivel de significancia de
0.05, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de
homocedasticidad. En otras palabras, no se encuentra evidencia convincente de que la
varianza de los errores no sea constante en el modelo.

En resumen, según los resultados de esta prueba, no se puede concluir que exista
heterocedasticidad en los errores del modelo. Sin embargo, es importante tener en cuenta que
la interpretación de los resultados de la prueba de heterocedasticidad puede depender del
contexto específico del estudio y de otras consideraciones adicionales.

Multicolinealidad
Los resultados de la prueba de VIF (Variance
Inflation Factor) son los siguientes:

VIF (Factor de Inflación de la Varianza): El VIF es


una medida que evalúa la multicolinealidad entre
las variables independientes en un modelo de
regresión. Cuanto mayor sea el VIF, mayor será la

12
correlación entre la variable y las demás variables independientes.

1/VIF: Esta columna representa el inverso del VIF y se utiliza para evaluar la proporción de
varianza no explicada por las demás variables independientes.

A continuación, se muestra el VIF y el 1/VIF para cada variable:

charges: VIF = 4.00, 1/VIF = 0.250198


smoker_code: VIF = 3.53, 1/VIF = 0.283551
age: VIF = 1.37, 1/VIF = 0.728510
bmi: VIF = 1.12, 1/VIF = 0.891007
children: VIF = 1.01, 1/VIF = 0.987463
sex_code: VIF = 1.01, 1/VIF = 0.991072
Region_Code: VIF = 1.01, 1/VIF = 0.993323
Además, se proporciona el "Mean VIF" (VIF promedio), que es el promedio de todos los VIF
calculados, y es igual a 1.86.

Interpretación de los resultados:

En general, los VIF para todas las variables son relativamente bajos, lo que sugiere que no
hay una alta multicolinealidad entre ellas. Un VIF de 1 indica que no hay correlación entre
una variable y las demás variables independientes.

Las variables "charges" y "smoker_code" tienen los VIF más altos, con valores de 4.00 y
3.53, respectivamente. Esto sugiere cierta correlación entre estas variables y las demás
variables independientes. Sin embargo, estos valores de VIF no son extremadamente altos, lo
que indica que la multicolinealidad no es un problema grave en el modelo.

Las demás variables (age, bmi, children, sex_code y Region_Code) tienen VIF cercanos a 1,
lo que indica que no hay una fuerte correlación entre ellas y las demás variables
independientes.

En resumen, los resultados de la prueba de VIF indican que la multicolinealidad no es un


problema significativo en el modelo de regresión, ya que los VIF son relativamente bajos.
Esto sugiere que las variables independientes tienen un bajo grado de correlación entre sí, lo

13
cual es deseable para una correcta interpretación de los coeficientes y la estabilidad del
modelo.
Prueba de Homocedasticidad
—--------------------------------------------------------------------------------------------------------------

Regresión logit
La regresión logit es un modelo estadístico utilizado para analizar la relación entre una
variable dependiente binaria (que sólo puede tomar dos valores posibles, por ejemplo, "éxito"
o "fracaso") y una o más variables independientes. El término "logit" se deriva de la función
logit utilizada en este modelo.

En la regresión logit, la variable dependiente se modela utilizando la función logit, que es una
transformación logarítmica de la probabilidad de éxito (la probabilidad de que la variable
dependiente tome el valor de interés). La función logit permite que el modelo capture la
relación no lineal entre las variables independientes y la probabilidad de éxito.

14
PRUEBAS FORMALES
Prueba de bondad de ajuste.

Una prueba de bondad de ajuste es una prueba estadística que evalúa qué tan bien se ajusta el
modelo de regresión logit a los datos observados. La bondad de ajuste se refiere a la calidad
del ajuste del modelo a los datos y se utiliza para determinar si el modelo captura de manera
adecuada las relaciones entre las variables y la variable dependiente.

15
Pearson chi2 otorga un valor de salida de 1130.12 lo que significa una discrepancia
importante entre los valores observados y los valores esperados del modelo.

El estadístico de probabilidad de chi2 muestra un resultado de 1.0000, Esto indica que que
existe una gran discrepancia entre el modelo observado y los resultados obtenidos.

Prueba de multicolinealidad:

La prueba VIF (Factor de Inflación de la Varianza, por sus siglas en inglés) es una medida
utilizada para detectar la presencia de multicolinealidad en un modelo de regresión. La
multicolinealidad se refiere a la alta correlación entre dos o más variables independientes en
un modelo, lo que puede dificultar la interpretación de los coeficientes y afectar la precisión
de las estimaciones.

El VIF se calcula para cada variable independiente en el modelo y mide cuánto se infla la
varianza del coeficiente debido a la multicolinealidad. Un VIF alto indica que la variable está
altamente correlacionada con otras variables independientes en el modelo.

Un VIF de 1 indica que no hay multicolinealidad entre la variable y las demás variables
independientes.

Un VIF > 1 < 5 indica una correlación moderada entre la variable y las demás variables
independientes.

Un VIF > 5 indica una alta correlación y la presencia de multicolinealidad.

16
Como se puede observar, existe una alta correlación entre la variable dependiente y las
variables de bmi (índice de masa corporal) y edad, no obstante el valor de la prueba vif de las
demás variables son < 5 lo cual indica que no existe correlación significativa, el VIF general
de la regresión logit es 4.07, por lo cual se concluye que no existe una correlación
significativa.
Prueba de verosimilitud.
La prueba de verosimilitud se utiliza para comparar dos modelos: el modelo completo y el
modelo restringido o incompleto.
En la prueba de verosimilitud utilizaremos el modelo anterior como el modelo completo, y el
modelo sin el índice de masa corporal y la edad como el restringido.
Las hipótesis de esta prueba son las siguientes:
Pvalor < 0.05 : Se rechaza H0 y se acepta H1.
Pvalor > 0.05: Se rechaza H1 y se acepta H0.

(H0) La hipótesis nula establece que el modelo reducido es igual de bueno que el modelo
completo, es decir, que la eliminación de las variables no afecta significativamente al ajuste
del modelo.

(H1) La hipótesis alternativa implica que el modelo completo es significativamente mejor


que el modelo reducido, es decir, que la inclusión de las variables mejora significativamente
el ajuste del modelo.

17
Una vez realizada la prueba se puede observar la estadística de prueba (LR chi2) es una
medida de la diferencia entre los modelos restringido y no restringido.
Esto indica la magnitud de la discrepancia entre los modelos y proporciona información sobre
la relevancia de las restricciones, en este caso es de 599.14 unidades.
La magnitud de la discrepancia indica la distancia o diferencia entre los ajustes de los dos
modelos.
Por último el valor de probabilidad (Prob>chi2) es de 0.000.
Como el valor es menor a 0.01 se acepta la hipótesis alternativa y se puede afirmar con un
99% de confianza que el modelo completo es mejor que el modelo reducido.
Interpretación del modelo

Primero obtenemos los valores marginales para poder realizar la interpretación del modelo.

B1: Variable edad: Por cada año cumplido, la probabilidad de tener un costo de seguro
mayor a 7,339 aumenta 1.8%.

18
B2: Variable sexo: Los hombres tienen 0.04% mas de probabilidad de tener un costo de
seguro mayor que 7,339.
B3: Índice de masa corporal: Por cada punto en el índice de masa corporal la probabilidad
de tener un costo de seguro elevado aumenta 0.02%
B4:Número de hijos: Por cada hijo que tenga la persona asegurada, su probabilidad de tener
un costo de seguro mayor a 7,339 aumenta 0.05%
B5: Región: Tenemos 4 regiones: Noreste = 0, Sureste = 1, Sur oeste = 2, Noroeste = 3
Noreste: Cuando se es dé la región noreste no aumenta ni disminuye tu probabilidad de
tener costos de seguro altos.
Sureste: Cuando se reside en la región sureste la probabilidad de tener un costo de seguro
elevado disminuye hasta 4%.
Sur oeste: Cuando se reside en la región sur oeste la probabilidad de tener un costo de
seguro elevado disminuye hasta 5%.
Noroeste: Cuando se reside en la región Noroeste la probabilidad de tener un costo de
seguro elevado disminuye hasta 6%.

R2: el Pseudo R2 de esta regresión es de 0.3390.


Comparamos el pseudo R2 del modelo completo y el modelo reducido para evaluar qué tan
bien se ajustan los datos con y sin ciertas variables independientes.
Regresión Número de variables Pseudo R2

logit High_Medical_Costs (Probabilidad de tener Pseudo R2 = 0.3390


age sex_code bmi children costos medicos elevados)=
i.Region_Code Edad, Sexo, Indice de Masa
Corporal, Numero de hijos
Y Region.

logit High_Medical_Costs (Probabilidad de tener Pseudo R2 = 0.3383


age sex_code children costos medicos elevados)=
i.Region_Code Edad, Sexo, Numero de
hijos y Region

logit High_Medical_Costs (Probabilidad de tener Pseudo R2 = 0.0083


bmi sex_code costos medicos elevados)=
i.Region_Code Sexo, Indice de masa
corporal y Region

Como se puede apreciar el modelo seleccionado es el modelo donde las variables se ajustan
mejor.

19
Evaluación de los coeficientes
Se realizará una evaluación de los coeficientes individuales para comprobar su
significancia hasta con un 90% de confianza.
H0: Los coeficientes no son significantes (=0)
H1: Los coeficientes son significativos (≠ 0)
Coeficiente P-valor Conclusión.
B1 (Edad) 0.000 El valor de probabilidad de la edad es 0.000
que es menor que 0.01, así que se rechaza H0 y
el coeficiente es significativo con un 99% de
confianza.
B2 (Sexo) 0.984 El valor de probabilidad de la variable sexo es
0.98 mayor que 0.1 asi que se acepta H0, el
coeficiente no es significativo.
B3 ( Masa 0.258 El valor P del Índice de masa corporal es 0.25,
corporal) mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B4 ( Núm. de 0.488 El valor P del número de hijos es 0.48 que es
hijos) mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B5: Sureste 0.140 El valor P de la variable sureste es de 0.140
mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B5: Sur oeste 0.065 El valor P de la variable sur oeste es de 0.065,
que es menor que 0.1 así que si se acepta H0, el
coeficiente es significativo con un 90% de
confianza.
B5: Noroeste 0.039 El valor P de la variable Noroeste es de 0.039,
menor que 0.1 así que si se acepta H1, el
coeficiente es significativo con un 90% de
confianza.

20
Para terminar, el valor de Probabilidad general de la regresión es 0.000, el cual es menor que
0.05, así que se acepta la validez general del modelo con un 95% de confianza.

Regresión Probit

La prueba probit es una técnica estadística utilizada para modelar variables binarias
utilizando una función de distribución normal acumulativa. Proporciona información sobre la
influencia de las variables independientes en la probabilidad de éxito y permite realizar
inferencias estadísticas sobre los coeficientes estimados.

21
Pruebas estadísticas:

verosimilitud

El número de observaciones es :1338


el numero de patrones de la covarianza son: 1334
el pearson chi2 es : 1111.72
el chi2 de 1.0000.

El comando estat gof en se utiliza para realizar una prueba de bondad de ajuste
(Goodness-of-Fit) en modelos de regresión, incluyendo modelos de regresión lineal, logística,
probit y otros.

Al ejecutar el comando estat gof después de ajustar un modelo en Stata, obtendrás varias
medidas y pruebas de bondad de ajuste que te ayudarán a evaluar qué tan bien se ajusta el
modelo a los datos observados.

los resultados a los resultados se puede interpretar

Pearson chi2 otorga un valor de salida de 1111.72 lo que significa una discrepancia
importante entre los valores observados y los valores esperados del modelo.

22
El chi2 muestra un resultado de 1.0000 por lo que nos quiere decir que existe una gran
discrepancia entre el modelo observado y los resultados obtenidos.

Multicolinealidad

Los resultados de la prueba de VIF (Variance


Inflation Factor) son los siguientes:

VIF (Factor de Inflación de la Varianza): El VIF es


una medida que evalúa la multicolinealidad entre las
variables independientes en un modelo de regresión.
Cuanto mayor sea el VIF, mayor será la correlación
entre la variable y las demás variables
independientes.

1/VIF: Esta columna representa el inverso del VIF y se utiliza para evaluar la proporción de
varianza no explicada por las demás variables independientes.

A continuación, se muestra el VIF y el 1/VIF para cada variable:


bmi: VIF = 10.30, 1/VIF = 0.097107
age: VIF = 7.85, 1/VIF = 0.127322
Region_Code: VIF = 5.15, 1/VIF = 194189
sex_code: VIF = 1.92, 1/VIF = 0.521428
children: VIF = 1.81, 1/VIF = 0.552294

Además, se proporciona el "Mean VIF" (VIF promedio), que es el promedio de todos los VIF
calculados, y es igual a 5.41.

Interpretación de los resultados:

23
En general, los VIF para todas las variables son relativamente bajos, lo que sugiere que no
hay una alta multicolinealidad entre ellas. Un VIF de 1 indica que no hay correlación entre
una variable y las demás variables independientes.

Las variables "bmi" y "age" “region_code”tienen los VIF más altos, con valores de 10.30 ,
7.85 y 5.15 respectivamente. Esto sugiere cierta correlación entre estas variables y las demás
variables independientes. Estos valores de VIF no son extremadamente altos, lo que sí indica
que la multicolinealidad puede ser un problema grave en el modelo.

Las demás variables (children, sex_code) tienen VIF cercanos a 1, lo que indica que no hay
una fuerte correlación entre ellas y las demás variables independientes.

En resumen, los resultados de la prueba de VIF indican un valor de VIF de 5.41 significa que
la varianza de un coeficiente particular es aproximadamente 5.41 veces mayor de lo que sería
si no hubiera colinealidad presente.

Interpretación del modelo

B1: Variable edad: Por cada año cumplido, la probabilidad de tener un costo de seguro mayor
a 7,339 aumenta 1.8%.

24
B2: Variable sexo: Los hombres tienen 0.01% mas de probabilidad de tener un costo de
seguro mayor que 7,339.
B3: Índice de masa corporal: Por cada punto en el índice de masa corporal la probabilidad de
tener un costo de seguro elevado aumenta 0.01%
B4: Por cada hijo que tenga la persona asegurada, su probabilidad de tener un costo de seguro
mayor a 7,339 aumenta 0.06%
B5: Región: Tenemos 4 regiones: Noreste = 0, Sureste = 1, Sur oeste = 2, Noroeste = 3
Noreste: Cuando se es dé la región noreste no aumenta ni disminuye tu probabilidad de tener
costos de seguro altos.
Sureste: Cuando se reside en la región sureste la probabilidad de tener un costo de seguro
elevado disminuye hasta 4%.
Sur oeste: Cuando se reside en la región sur oeste la probabilidad de tener un costo de seguro
elevado disminuye hasta 5%.
Noroeste: Cuando se reside en la región Noroeste la probabilidad de tener un costo de seguro
elevado disminuye hasta 5%.

R2: el Pseudo R2 de esta regresión es de 0.3437.


Comparamos el pseudo R2 del modelo completo y el modelo reducido para evaluar qué tan
bien se ajustan los datos con y sin ciertas variables independientes.
Regresión Número de variables Pseudo R2

Probit High_Medical_Costs (Probabilidad de tener Pseudo R2 = 0.3437


age sex_code bmi children costos medicos elevados)=
i.Region_Code Edad, Sexo, Indice de Masa
Corporal, Numero de hijos
Y Region.

Probit High_Medical_Costs (Probabilidad de tener Pseudo R2 = 0.3442


age sex_code children costos medicos elevados)=
i.Region_Code Edad, Sexo, Numero de
hijos y Region

Probit High_Medical_Costs (Probabilidad de tener Pseudo R2 = 0.0083


bmi sex_code costos medicos elevados)=
i.Region_Code Sexo, Indice de masa
corporal y Region

Evaluación de los coeficientes


Se realizará una evaluación de los coeficientes individuales para comprobar su
significancia hasta con un 90% de confianza.

25
H0: Los coeficientes no son significantes (=0)
H1: Los coeficientes son significativos (≠ 0)

Coeficiente P-valor Conclusión.


B1 (Edad) 0.000 El valor de probabilidad de la edad es 0.000
que es menor que 0.01, así que se rechaza H0 y
el coeficiente es significativo con un 99% de
confianza.
B2 (Sexo) 0.929 El valor de probabilidad de la variable sexo es
0.98 mayor que 0.1 asi que se acepta H0, el
coeficiente no es significativo.
B3 ( Masa 0.235 El valor P del Índice de masa corporal es 0.23,
corporal) mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B4 ( Núm. de 0.453 El valor P del número de hijos es 0.45 que es
hijos) mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B5: Sureste 0.143 El valor P de la variable sureste es de 0.143
mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B5: Sur oeste 0.062 El valor P de la variable sur oeste es de 0.062,
que es menor que 0.1 así que si se acepta H0, el
coeficiente es significativo con un 90% de
confianza.
B5: Noroeste 0.044 El valor P de la variable Noroeste es de 0.044,
menor que 0.1 así que si se acepta H1, el
coeficiente es significativo con un 90% de
confianza.

26
Para terminar, el valor de Probabilidad general de la regresión es 0.000, el cual es menor que
0.05, así que se acepta la validez general del modelo con un 95% de confianza.

Conclusiones

Después de realizar el análisis y evaluar los resultados, hemos llegado a la conclusión de que
el modelo logit es una mejor opción en comparación con otros modelos considerados. A
continuación, se presentan las razones que respaldan esta conclusión:

1. Adecuación del modelo: Durante la evaluación de los estadísticos de ajuste,


encontramos que el modelo logit proporciona un buen ajuste a los datos. Los valores
de los criterios de información, como el criterio de Akaike (AIC) y el criterio de
información bayesiano (BIC), indican que el modelo logit tiene un mejor equilibrio
entre el ajuste y la complejidad del modelo.
2. Interpretación de los coeficientes: El modelo logit ofrece una interpretación más
intuitiva y directa de los coeficientes en términos de probabilidades. Los coeficientes
logit se pueden interpretar como cambios en las probabilidades de éxito (o fracaso)
asociados con un cambio unitario en la variable independiente correspondiente. Esta
interpretación facilita la comprensión de cómo influyen las variables en el resultado
de interés.
3. Manejo de variables categóricas: El modelo logit es especialmente útil cuando se
tienen variables categóricas como predictores. Puede manejar fácilmente variables
con múltiples categorías mediante la codificación adecuada. Además, el modelo logit
permite analizar las diferencias entre las categorías en términos de probabilidades de
éxito.

Este es el resultado de la regresión logit:

27
(Prob. GMA)= 0.01849(Edad)+0.00042(Sexo)+0.0059(NH)+0.00205(IMC) - 0.044(RSE) -
0.0549(RSO) -0.0611(RNE)

Prob. GMA: Probabilidad de gastos médicos mayores a 7,339 dólares mensuales.


Edad: La edad cumplida.
Sexo: Hombre o Mujer.
NH: Numero de Hijos
IMC: Índice de masa corporal.
RSE: Región sureste
RSO: Región Suroeste
RNE: Región Noroeste
La región base es el noreste. (Cuando RSE, RSO Y RNE = 0)
En base a nuestra regresión pudimos recabar la siguiente información:

SUPUESTOS REGIÓN PROBABILIDAD


Hombre de 20 años de edad NORESTE La probabilidad de tener
sin hijos y con un índice de gastos médicos mayores a
masa corporal de 35 7399 dólares mensuales es
de 44.02%

Hombre de 20 años de edad SURESTE La probabilidad de tener


sin hijos y con un índice de gastos médicos mayores a
masa corporal de 35 7399 dólares mensuales es
de 39.62%

Hombre de 20 años de edad SUROESTE La probabilidad de tener


sin hijos y con un índice de gastos médicos mayores a
masa corporal de 35 7399 dólares mensuales es
de 38.53%

Hombre de 20 años de edad NOROESTE La probabilidad de tener


sin hijos y con un índice de gastos médicos mayores a
masa corporal de 35 7399 dólares mensuales es
de 37.91%

Podemos observar que una persona de las mismas características tiene diferentes
probabilidades de tener gastos médicos elevados dependiendo de la zona, siendo la zona
Noreste donde la probabilidad se incrementa más, por el otro lado el Noroeste es la zona
donde se tienen menos probabilidades de tener un costo médico mayor a 7399 dólares
mensuales.

28
Si tomamos la misma situacion anterior en la region Noreste, pero cambiamos el sexo para
que sea mujer, se optienen estos resultados:
Mujer de 20 años sin hijos con IMC DE 35: Su probabilidad de tener un costo médico mayor
a 7399 dólares mensuales es de 43.98.
Se puede concluir que aunque existe una diferencia, esta no es tan grande, se puede deber a
factores externos como por ejemplo que los hombres sean más propensos a beber alcohol y
consumir drogas y no es una diferencia real debida puramente al género.

El número de hijos muestra una relación positiva con la probabilidad de tener costos médicos
altos, esto indica que entre más hijos tenga una persona más probable es que sus gastos
médicos sean mayores a 7399 dólares.

Para terminar con el análisis, el índice de masa corporal también cuenta con una relación
positiva, esto indica que entre mayor sea el peso de la persona, mayores serán sus
probabilidades de tener gastos médicos mayores a 7399 dólares mensuales, este indica que las
personas con sobrepeso tienden a tener gastos médicos mayores.

En resumen, la probabilidad de tener gastos médicos elevados varía dependiendo la zona y


donde se encuentra la persona, además de que los factores que más pueden afectar esta
probabilidad son la edad y el peso, existe una pequeña diferencia apenas del 0.004% en la
probabilidad de tener costos médicos elevados si se es hombre, sin importar la región. por
último seleccionamos el modelo logit por que resulta ser una opción preferible en este
contexto debido a su adecuación, interpretación intuitiva de los coeficientes, capacidad para
manejar variables categóricas y su idoneidad para modelar respuestas binarias. No obstante,
es importante tener en cuenta que la elección del modelo depende de las características
específicas del conjunto de datos y los objetivos de la investigación.

29

También podría gustarte