Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema:
ANÁLISIS DE LOS FACTORES DETERMINANTES DE LOS COSTOS
MÉDICOS INDIVIDUALES MEDIANTE REGRESIÓN PROBIT/LOGIT
PRESENTA:
Ramírez Vázquez Johan André
Enrríguez Pérez Julio Gabriel
Narez de Borbón Jorge Alejandro
Docente:
Dr. Enrique Cuevas Rodríguez
Materia:
Econometría II
1
Introducción
En el sistema de salud de Estados Unidos, los altos costos médicos representan un desafío
significativo tanto para los individuos como para el sistema en general. Estos costos pueden
tener un impacto negativo en la accesibilidad, la calidad y la equidad de la atención médica.
Por lo tanto, es de vital importancia comprender los factores que contribuyen a la aparición
de altos costos médicos y su influencia en el sistema de salud.
El presente estudio se centra en analizar los factores asociados a los altos costos médicos en
el sistema de salud de Estados Unidos. A través de la utilización de técnicas econométricas,
específicamente la regresión probit o logit, se busca identificar las variables que influyen en
la probabilidad de incurrir en costos médicos superiores al promedio del seguro médico en el
país.
Identificar los factores socioeconómicos y demográficos que están asociados a altos costos
médicos en el sistema de salud de Estados Unidos. Se examinarán variables como la edad, el
género, el índice de masa corporal (BMI), el número de hijos cubiertos por el seguro y el
hábito de fumar.
Evaluar la relación entre la región de residencia y los altos costos médicos. Se analizará si la
ubicación geográfica en Estados Unidos, dividida en regiones (noreste, sureste, suroeste,
noroeste), tiene un impacto en la probabilidad de incurrir en costos médicos superiores al
umbral establecido.
Estimar un modelo de regresión probit o logit para determinar la influencia de las variables
independientes en la probabilidad de tener altos costos médicos. Se estimarán los coeficientes
y se evaluará su significancia estadística.
Al comprender los factores que están asociados a los altos costos médicos, este estudio
pretende contribuir a una mejor comprensión de los determinantes de los costos de atención
médica en Estados Unidos. Los resultados obtenidos podrán ser utilizados para informar y
orientar políticas y decisiones relacionadas con la gestión de los costos en el sistema de salud,
con el objetivo de mejorar la accesibilidad y sostenibilidad de la atención médica para la
población.
2
Modelo y variables:
En este estudio, utilizaremos un modelo de regresión logit para analizar los factores asociados
a los altos costos médicos en el sistema de salud de Estados Unidos. El modelo nos permitirá
estimar la probabilidad de incurrir en costos médicos superiores al umbral establecido,
considerando diversas variables explicativas.
Variable dependiente:
Variables independientes:
Age: La edad del beneficiario principal del seguro médico. Es importante incluir esta
variable, ya que se ha observado que los costos médicos tienden a aumentar con la edad
debido a una mayor probabilidad de enfermedades crónicas y necesidades de atención médica
más frecuentes.
Sex: El género del asegurado, codificado como una variable binaria (1 para mujer, 0 para
hombre). Esta variable es relevante, ya que se ha encontrado que los patrones de utilización
de servicios médicos y las condiciones de salud pueden variar entre hombres y mujeres, lo
que podría influir en los costos médicos.
BMI: El índice de masa corporal (IMC) del beneficiario principal. El IMC proporciona una
medida objetiva del peso relativo a la altura y puede reflejar la salud general y el riesgo de
ciertas enfermedades. Incluir esta variable es importante, ya que un IMC elevado puede estar
relacionado con mayores costos médicos debido a condiciones de salud asociadas, como
enfermedades cardiovasculares o diabetes.
3
Smoker: Una variable binaria que indica si el beneficiario es fumador (1) o no fumador (0).
El tabaquismo ha sido ampliamente asociado con mayores costos médicos debido a la mayor
prevalencia de enfermedades relacionadas con el tabaco, como enfermedades respiratorias y
cardiovasculares.
Estadística descriptiva
A continuación, se presentan imágenes que muestran información descriptiva sobre cada
variable utilizada en el modelo, tanto la variable dependiente como las independientes.
Por otro lado, las medidas de dispersión, como el rango, la varianza, la desviación estándar y
otras, nos proporcionan información sobre la variabilidad de los datos. Además, a través de la
estadística descriptiva podemos observar los valores máximo y mínimo de la muestra, los
cuales son muy utilizados en este tipo de modelos.
Asimismo, la asimetría y la curtosis nos sirven como indicadores para evaluar la normalidad
de nuestra muestra. Se espera que la distribución tenga una forma de campana simétrica en
ambos lados, y la curtosis nos ayuda a determinar qué tan aplanada o puntiaguda es esa
campana.
4
Edad (age):
Observaciones (Obs): 1,338: Esto indica que hay un total de 1,338 observaciones o
individuos en el conjunto de datos analizados.
Media (Mean): 39.20703: La edad promedio de los individuos en el conjunto de datos es de
aproximadamente 39.21 años.
Desviación estándar (Std. Dev.): 14.04996: La desviación estándar de la edad es de
aproximadamente 14.05. Esto sugiere que hay una variabilidad considerable en las edades de
los individuos.
Valor mínimo (Min): 18: El valor mínimo registrado para la edad en el conjunto de datos es
18, lo que indica que el individuo más joven tiene 18 años.
Valor máximo (Max): 64: El valor máximo registrado para la edad es 64, lo que indica que el
individuo más viejo tiene 64 años.
Observaciones (Obs): 1,338: Esto indica que hay 1,338 observaciones disponibles para el
índice de masa corporal.
Media (Mean): 30.6634: El índice de masa corporal promedio de los individuos en el
conjunto de datos es de aproximadamente 30.66.
Desviación estándar (Std. Dev.): 6.098187: La desviación estándar del índice de masa
corporal es de aproximadamente 6.10. Esto muestra la variabilidad en los valores del índice
de masa corporal.
Valor mínimo (Min): 15.96: El valor mínimo registrado para el índice de masa corporal es
15.96, lo que indica el valor más bajo registrado en el conjunto de datos.
Valor máximo (Max): 53.13: El valor máximo registrado para el índice de masa corporal es
53.13, lo que indica el valor más alto registrado en el conjunto de datos.
Observaciones (Obs): 1,338: Esto indica que hay 1,338 observaciones disponibles para el
número de hijos.
Media (Mean): 1.094918: El número promedio de hijos por individuo en el conjunto de datos
es aproximadamente 1.09.
Desviación estándar (Std. Dev.): 1.205493: La desviación estándar del número de hijos es de
aproximadamente 1.21. Esto muestra la variabilidad en los valores del número de hijos.
5
Valor mínimo (Min): 0: El valor mínimo registrado para el número de hijos es 0, lo que indica
que hay individuos sin hijos en el conjunto de datos.
Valor máximo (Max): 5: El valor máximo registrado para el número de hijos es 5, lo que
indica que hay individuos con hasta 5 hijos en el conjunto de datos.
Observaciones (Obs): 1,338: Esto indica que hay 1,338 observaciones disponibles para los
costos médicos individuales.
Media (Mean): 13,270.42: El costo médico promedio de los individuos en el conjunto de
datos es de aproximadamente $13,270.42.
Desviación estándar (Std. Dev.): 12,110.01: La desviación estándar de los costos médicos es
de aproximadamente $12,110.01. Esto indica que existe una gran variabilidad en los costos
médicos individuales.
Valor mínimo (Min): 1,121.874: El valor mínimo registrado para los costos médicos es de
$1,121.874, lo que indica el costo más bajo registrado en el conjunto de datos.
Valor máximo (Max): 63,770.43: El valor máximo registrado para los costos médicos es de
$63,770.43, lo que indica el costo más alto registrado en el conjunto de datos.
6
Tabla de frecuencia para la variable "sex":
Esta tabla muestra la distribución de la variable "sex", que representa el género de los
individuos. Se observa que hay 662 registros correspondientes a mujeres (female), lo cual
representa el 49.48% del total de datos. Por otro lado, hay 676 registros correspondientes a
hombres (male), lo cual representa el 50.52% del total de datos. En la columna del
acumulado, se muestra el porcentaje acumulado de cada categoría a medida que se avanza en
la tabla.
Análisis de las distribuciones o las relaciones entre las variables continuas "age", "bmi"
y "charges".
7
Definición de la variable dependiente:
"High_Medical_Costs" en un modelo econométrico. La variable binaria se define en base a
un umbral específico de "charges" que se considerarán como "costos médicos altos". En este
caso, los costos médicos superiores a $7,339 se considerarán como altos. Por lo tanto, el
comando para crear la variable sería el siguiente:
Regresión:
Se corre la regresión para poder analizar el modelo y poder conocer los valores genéricos.
8
Puntos clave para interpretar los resultados:
Coeficientes: Los coeficientes estimados para cada variable independiente indican la relación
promedio entre esa variable y la variable dependiente, manteniendo constantes las otras
variables en el modelo. Por ejemplo, el coeficiente estimado para "age" es de
aproximadamente 0.0181, lo que sugiere que, en promedio, por cada año adicional de edad,
se espera un aumento de 0.0181 en "High_Medical_Costs".
Valores p: Los valores p asociados con cada coeficiente indican la significancia estadística de
esa variable. Un valor p menor que el nivel de significancia (generalmente 0.05) sugiere que
la variable tiene un efecto significativo en la variable dependiente. Por ejemplo, el valor p
para "smoker_code" es menor que 0.05, lo que indica que la variable tiene un efecto
significativo en "High_Medical_Costs".
Pruebas Formales:
Normalidad
Los resultados de la prueba Skewness/Kurtosis para Normalidad (sktest) muestran los
siguientes valores para los residuales de la regresión:
9
Número de observaciones (Obs): 1,338
Prueba de Skewness (Pr(Skewness)): 0.4829
Prueba de Kurtosis (Pr(Kurtosis)): 0.0000
Estadístico de chi-cuadrado ajustado (adj chi2(2)): 57.42
Probabilidad asociada al estadístico de chi-cuadrado (Prob>chi2): 0.0000
En resumen, los resultados sugieren que los residuales de la regresión no siguen una
distribución normal. Esto podría indicar la presencia de ciertos patrones o características en
los datos que no están siendo capturados por el modelo. Es posible que sea necesario
10
considerar transformaciones de las variables o explorar modelos alternativos para mejorar el
ajuste del modelo
Homocedasticidad
Prueba de White:
11
Los resultados de la prueba de Breusch-Pagan / Cook-Weisberg para heterocedasticidad son
los siguientes:
En este caso, el valor del estadístico de chi-cuadrado es 2.83 y el p-valor asociado es 0.0924.
Si el p-valor es menor que un nivel de significancia previamente establecido (por ejemplo,
0.05), se rechaza la hipótesis nula de homocedasticidad y se concluye que hay evidencia de
heterocedasticidad.
Sin embargo, en este caso, el p-valor de 0.0924 es mayor que un nivel de significancia de
0.05, lo que indica que no hay suficiente evidencia para rechazar la hipótesis nula de
homocedasticidad. En otras palabras, no se encuentra evidencia convincente de que la
varianza de los errores no sea constante en el modelo.
En resumen, según los resultados de esta prueba, no se puede concluir que exista
heterocedasticidad en los errores del modelo. Sin embargo, es importante tener en cuenta que
la interpretación de los resultados de la prueba de heterocedasticidad puede depender del
contexto específico del estudio y de otras consideraciones adicionales.
Multicolinealidad
Los resultados de la prueba de VIF (Variance
Inflation Factor) son los siguientes:
12
correlación entre la variable y las demás variables independientes.
1/VIF: Esta columna representa el inverso del VIF y se utiliza para evaluar la proporción de
varianza no explicada por las demás variables independientes.
En general, los VIF para todas las variables son relativamente bajos, lo que sugiere que no
hay una alta multicolinealidad entre ellas. Un VIF de 1 indica que no hay correlación entre
una variable y las demás variables independientes.
Las variables "charges" y "smoker_code" tienen los VIF más altos, con valores de 4.00 y
3.53, respectivamente. Esto sugiere cierta correlación entre estas variables y las demás
variables independientes. Sin embargo, estos valores de VIF no son extremadamente altos, lo
que indica que la multicolinealidad no es un problema grave en el modelo.
Las demás variables (age, bmi, children, sex_code y Region_Code) tienen VIF cercanos a 1,
lo que indica que no hay una fuerte correlación entre ellas y las demás variables
independientes.
13
cual es deseable para una correcta interpretación de los coeficientes y la estabilidad del
modelo.
Prueba de Homocedasticidad
—--------------------------------------------------------------------------------------------------------------
Regresión logit
La regresión logit es un modelo estadístico utilizado para analizar la relación entre una
variable dependiente binaria (que sólo puede tomar dos valores posibles, por ejemplo, "éxito"
o "fracaso") y una o más variables independientes. El término "logit" se deriva de la función
logit utilizada en este modelo.
En la regresión logit, la variable dependiente se modela utilizando la función logit, que es una
transformación logarítmica de la probabilidad de éxito (la probabilidad de que la variable
dependiente tome el valor de interés). La función logit permite que el modelo capture la
relación no lineal entre las variables independientes y la probabilidad de éxito.
14
PRUEBAS FORMALES
Prueba de bondad de ajuste.
Una prueba de bondad de ajuste es una prueba estadística que evalúa qué tan bien se ajusta el
modelo de regresión logit a los datos observados. La bondad de ajuste se refiere a la calidad
del ajuste del modelo a los datos y se utiliza para determinar si el modelo captura de manera
adecuada las relaciones entre las variables y la variable dependiente.
15
Pearson chi2 otorga un valor de salida de 1130.12 lo que significa una discrepancia
importante entre los valores observados y los valores esperados del modelo.
El estadístico de probabilidad de chi2 muestra un resultado de 1.0000, Esto indica que que
existe una gran discrepancia entre el modelo observado y los resultados obtenidos.
Prueba de multicolinealidad:
La prueba VIF (Factor de Inflación de la Varianza, por sus siglas en inglés) es una medida
utilizada para detectar la presencia de multicolinealidad en un modelo de regresión. La
multicolinealidad se refiere a la alta correlación entre dos o más variables independientes en
un modelo, lo que puede dificultar la interpretación de los coeficientes y afectar la precisión
de las estimaciones.
El VIF se calcula para cada variable independiente en el modelo y mide cuánto se infla la
varianza del coeficiente debido a la multicolinealidad. Un VIF alto indica que la variable está
altamente correlacionada con otras variables independientes en el modelo.
Un VIF de 1 indica que no hay multicolinealidad entre la variable y las demás variables
independientes.
Un VIF > 1 < 5 indica una correlación moderada entre la variable y las demás variables
independientes.
16
Como se puede observar, existe una alta correlación entre la variable dependiente y las
variables de bmi (índice de masa corporal) y edad, no obstante el valor de la prueba vif de las
demás variables son < 5 lo cual indica que no existe correlación significativa, el VIF general
de la regresión logit es 4.07, por lo cual se concluye que no existe una correlación
significativa.
Prueba de verosimilitud.
La prueba de verosimilitud se utiliza para comparar dos modelos: el modelo completo y el
modelo restringido o incompleto.
En la prueba de verosimilitud utilizaremos el modelo anterior como el modelo completo, y el
modelo sin el índice de masa corporal y la edad como el restringido.
Las hipótesis de esta prueba son las siguientes:
Pvalor < 0.05 : Se rechaza H0 y se acepta H1.
Pvalor > 0.05: Se rechaza H1 y se acepta H0.
(H0) La hipótesis nula establece que el modelo reducido es igual de bueno que el modelo
completo, es decir, que la eliminación de las variables no afecta significativamente al ajuste
del modelo.
17
Una vez realizada la prueba se puede observar la estadística de prueba (LR chi2) es una
medida de la diferencia entre los modelos restringido y no restringido.
Esto indica la magnitud de la discrepancia entre los modelos y proporciona información sobre
la relevancia de las restricciones, en este caso es de 599.14 unidades.
La magnitud de la discrepancia indica la distancia o diferencia entre los ajustes de los dos
modelos.
Por último el valor de probabilidad (Prob>chi2) es de 0.000.
Como el valor es menor a 0.01 se acepta la hipótesis alternativa y se puede afirmar con un
99% de confianza que el modelo completo es mejor que el modelo reducido.
Interpretación del modelo
Primero obtenemos los valores marginales para poder realizar la interpretación del modelo.
B1: Variable edad: Por cada año cumplido, la probabilidad de tener un costo de seguro
mayor a 7,339 aumenta 1.8%.
18
B2: Variable sexo: Los hombres tienen 0.04% mas de probabilidad de tener un costo de
seguro mayor que 7,339.
B3: Índice de masa corporal: Por cada punto en el índice de masa corporal la probabilidad
de tener un costo de seguro elevado aumenta 0.02%
B4:Número de hijos: Por cada hijo que tenga la persona asegurada, su probabilidad de tener
un costo de seguro mayor a 7,339 aumenta 0.05%
B5: Región: Tenemos 4 regiones: Noreste = 0, Sureste = 1, Sur oeste = 2, Noroeste = 3
Noreste: Cuando se es dé la región noreste no aumenta ni disminuye tu probabilidad de
tener costos de seguro altos.
Sureste: Cuando se reside en la región sureste la probabilidad de tener un costo de seguro
elevado disminuye hasta 4%.
Sur oeste: Cuando se reside en la región sur oeste la probabilidad de tener un costo de
seguro elevado disminuye hasta 5%.
Noroeste: Cuando se reside en la región Noroeste la probabilidad de tener un costo de
seguro elevado disminuye hasta 6%.
Como se puede apreciar el modelo seleccionado es el modelo donde las variables se ajustan
mejor.
19
Evaluación de los coeficientes
Se realizará una evaluación de los coeficientes individuales para comprobar su
significancia hasta con un 90% de confianza.
H0: Los coeficientes no son significantes (=0)
H1: Los coeficientes son significativos (≠ 0)
Coeficiente P-valor Conclusión.
B1 (Edad) 0.000 El valor de probabilidad de la edad es 0.000
que es menor que 0.01, así que se rechaza H0 y
el coeficiente es significativo con un 99% de
confianza.
B2 (Sexo) 0.984 El valor de probabilidad de la variable sexo es
0.98 mayor que 0.1 asi que se acepta H0, el
coeficiente no es significativo.
B3 ( Masa 0.258 El valor P del Índice de masa corporal es 0.25,
corporal) mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B4 ( Núm. de 0.488 El valor P del número de hijos es 0.48 que es
hijos) mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B5: Sureste 0.140 El valor P de la variable sureste es de 0.140
mayor que 0.1 así que si se acepta H0, el
coeficiente no es significativo.
B5: Sur oeste 0.065 El valor P de la variable sur oeste es de 0.065,
que es menor que 0.1 así que si se acepta H0, el
coeficiente es significativo con un 90% de
confianza.
B5: Noroeste 0.039 El valor P de la variable Noroeste es de 0.039,
menor que 0.1 así que si se acepta H1, el
coeficiente es significativo con un 90% de
confianza.
20
Para terminar, el valor de Probabilidad general de la regresión es 0.000, el cual es menor que
0.05, así que se acepta la validez general del modelo con un 95% de confianza.
Regresión Probit
La prueba probit es una técnica estadística utilizada para modelar variables binarias
utilizando una función de distribución normal acumulativa. Proporciona información sobre la
influencia de las variables independientes en la probabilidad de éxito y permite realizar
inferencias estadísticas sobre los coeficientes estimados.
21
Pruebas estadísticas:
verosimilitud
El comando estat gof en se utiliza para realizar una prueba de bondad de ajuste
(Goodness-of-Fit) en modelos de regresión, incluyendo modelos de regresión lineal, logística,
probit y otros.
Al ejecutar el comando estat gof después de ajustar un modelo en Stata, obtendrás varias
medidas y pruebas de bondad de ajuste que te ayudarán a evaluar qué tan bien se ajusta el
modelo a los datos observados.
Pearson chi2 otorga un valor de salida de 1111.72 lo que significa una discrepancia
importante entre los valores observados y los valores esperados del modelo.
22
El chi2 muestra un resultado de 1.0000 por lo que nos quiere decir que existe una gran
discrepancia entre el modelo observado y los resultados obtenidos.
Multicolinealidad
1/VIF: Esta columna representa el inverso del VIF y se utiliza para evaluar la proporción de
varianza no explicada por las demás variables independientes.
Además, se proporciona el "Mean VIF" (VIF promedio), que es el promedio de todos los VIF
calculados, y es igual a 5.41.
23
En general, los VIF para todas las variables son relativamente bajos, lo que sugiere que no
hay una alta multicolinealidad entre ellas. Un VIF de 1 indica que no hay correlación entre
una variable y las demás variables independientes.
Las variables "bmi" y "age" “region_code”tienen los VIF más altos, con valores de 10.30 ,
7.85 y 5.15 respectivamente. Esto sugiere cierta correlación entre estas variables y las demás
variables independientes. Estos valores de VIF no son extremadamente altos, lo que sí indica
que la multicolinealidad puede ser un problema grave en el modelo.
Las demás variables (children, sex_code) tienen VIF cercanos a 1, lo que indica que no hay
una fuerte correlación entre ellas y las demás variables independientes.
En resumen, los resultados de la prueba de VIF indican un valor de VIF de 5.41 significa que
la varianza de un coeficiente particular es aproximadamente 5.41 veces mayor de lo que sería
si no hubiera colinealidad presente.
B1: Variable edad: Por cada año cumplido, la probabilidad de tener un costo de seguro mayor
a 7,339 aumenta 1.8%.
24
B2: Variable sexo: Los hombres tienen 0.01% mas de probabilidad de tener un costo de
seguro mayor que 7,339.
B3: Índice de masa corporal: Por cada punto en el índice de masa corporal la probabilidad de
tener un costo de seguro elevado aumenta 0.01%
B4: Por cada hijo que tenga la persona asegurada, su probabilidad de tener un costo de seguro
mayor a 7,339 aumenta 0.06%
B5: Región: Tenemos 4 regiones: Noreste = 0, Sureste = 1, Sur oeste = 2, Noroeste = 3
Noreste: Cuando se es dé la región noreste no aumenta ni disminuye tu probabilidad de tener
costos de seguro altos.
Sureste: Cuando se reside en la región sureste la probabilidad de tener un costo de seguro
elevado disminuye hasta 4%.
Sur oeste: Cuando se reside en la región sur oeste la probabilidad de tener un costo de seguro
elevado disminuye hasta 5%.
Noroeste: Cuando se reside en la región Noroeste la probabilidad de tener un costo de seguro
elevado disminuye hasta 5%.
25
H0: Los coeficientes no son significantes (=0)
H1: Los coeficientes son significativos (≠ 0)
26
Para terminar, el valor de Probabilidad general de la regresión es 0.000, el cual es menor que
0.05, así que se acepta la validez general del modelo con un 95% de confianza.
Conclusiones
Después de realizar el análisis y evaluar los resultados, hemos llegado a la conclusión de que
el modelo logit es una mejor opción en comparación con otros modelos considerados. A
continuación, se presentan las razones que respaldan esta conclusión:
27
(Prob. GMA)= 0.01849(Edad)+0.00042(Sexo)+0.0059(NH)+0.00205(IMC) - 0.044(RSE) -
0.0549(RSO) -0.0611(RNE)
Podemos observar que una persona de las mismas características tiene diferentes
probabilidades de tener gastos médicos elevados dependiendo de la zona, siendo la zona
Noreste donde la probabilidad se incrementa más, por el otro lado el Noroeste es la zona
donde se tienen menos probabilidades de tener un costo médico mayor a 7399 dólares
mensuales.
28
Si tomamos la misma situacion anterior en la region Noreste, pero cambiamos el sexo para
que sea mujer, se optienen estos resultados:
Mujer de 20 años sin hijos con IMC DE 35: Su probabilidad de tener un costo médico mayor
a 7399 dólares mensuales es de 43.98.
Se puede concluir que aunque existe una diferencia, esta no es tan grande, se puede deber a
factores externos como por ejemplo que los hombres sean más propensos a beber alcohol y
consumir drogas y no es una diferencia real debida puramente al género.
El número de hijos muestra una relación positiva con la probabilidad de tener costos médicos
altos, esto indica que entre más hijos tenga una persona más probable es que sus gastos
médicos sean mayores a 7399 dólares.
Para terminar con el análisis, el índice de masa corporal también cuenta con una relación
positiva, esto indica que entre mayor sea el peso de la persona, mayores serán sus
probabilidades de tener gastos médicos mayores a 7399 dólares mensuales, este indica que las
personas con sobrepeso tienden a tener gastos médicos mayores.
29