Está en la página 1de 2

Taller 1 - Diseño de experimentos – Ingeniería Industrial

Nombres: IDs:

La base de datos “insuranse.csv” que acompaña este documento en la actividad de Taller 1


contiene información de inversiones en seguros de una muestra de personas, en esta base de
datos se tiene los siguientes campos:

 age: edad de la persona en años


 sex: género de la persona female = femenino y male= masculino.
 bmi: índice de masa muscular
 children: número de hijos
 smoke: yes = fumador no= no fumador
 región: región de la ciudad a la que pertenece
 expenses: gasto en seguro anual en dólares.

Con la siguiente información desarrolle los siguientes puntos, por favor al finalizar el desarrollo de
las actividades copie en este documento el link del notebook (dar en el botón “compartir” de colab)
con el procedimiento para el desarrollo de los puntos.

1. (1.5 Unidades) A partir de la base de datos proporcionada, desarrolle un modelo de


regresión lineal tomando como variables independientes age, bmi y children y como
variable respuesta a expenses a partir de este responda las siguientes preguntas:

a. (0.5 unidades) ¿Cuál es el valor del coeficiente R2 y que indica este valor?
El coeficiente R2 es 0,12, lo que esto significa que mientras más cerca esté a cero
esta menos ajustado al modelo, en pocas palabras no es tan fiable las
estimaciones, no se ajustan a la variable real
b. (1.0 unidades) Analice los coeficientes del modelo de regresión, a partir de estos
identifique que variables tienen efecto significativo o no, redacte un párrafo en el
cual resuma los hallazgos de este análisis.
La variable que mas influye es la de hijos, pero la que tiene mas peso es edad, esto
quiere decir, que mientras mas edad tenga el gasto será mayor, en cambio la
variable hijos no será constante o de por vida, va a haber un momento donde se
harán cargos ellos mismos
2. (0.5 Unidades) A través de una prueba T de comparación de medias identifica si se
encuentran diferencias significativas en la variable expenses entre los hombres y las
mujeres, justifique su respuesta.
Se rechaza Ho esto quiere decir que se encuentra diferencia significativa en la variable
expenses, los hombres gastan una cantidad considerable de dinero aún más que las
mujeres
3. (0.5 Unidades) A través de una prueba T de comparación de medias identifica si se
encuentran diferencias significativas en la variable expenses entre los fumadores y no
fumadores, justifique su respuesta.
Se rechaza Ho ya que el valor p es muy pequeño entonces esto quiere decir que si hay
diferencia entre las personas que fuman y no
4. (0.5 Unidades) A través de una prueba de Fisher (Ji-cuadrada) identifique si existe una
dependencia entre las variables sex y smoke, justifique su respuesta.
De acuerdo con la prueba Fisher existe dependencia entre el sexo y los fumadores, es
decir, hay justificación para decir que los fumadores hombres tienen mayor dependencia
que las mujeres.

5. (1.5 Unidades) A partir de la base de datos proporcionada, desarrolle un modelo de


regresión logística tomando como variables independientes age, bmi, children y expenses
como variable respuesta a smoke a partir de este analice sus coeficientes y redacte un
párrafo en el cual resuma los hallazgos.
El coeficiente para la edad fue negativo lo cual nos dice que al aumentar la edad la
probabilidad de fumar disminuye. Por otra parte, a menor índice de masa muscular la
probabilidad de fumar es mayor ya que el coeficiente unitario es negativo y mientras
mayor numero de hijos las probabilidades de fumar van disminuyendo de acuerdo con
que su coeficiente es negativo. Por último, a mayor gasto mayor probabilidad de ser
fumador ya que su coeficiente es positivo. Estos datos en general muestran cambios de
aumento o disminución, pero no en una escala drástica.

https://colab.research.google.com/drive/12xDkRz2KrkJPNM0gOtdfvzBW8DjN0GLE

https://colab.research.google.com/drive/140wDftbqaDm6oSz4ze8a7x3yGq4SUyQs

https://colab.research.google.com/drive/1ubJ0XNonQqmD9dWnJIy21wiu0GaIW7b8

También podría gustarte