Documentos de Académico
Documentos de Profesional
Documentos de Cultura
al Aprendizaje Automático
1. Introducción y objetivo
La Regresión Logística es una técnica estadística multivariante que nos permite estimar
la relación existente entre una variable dependiente no métrica, en particular dicotómica
y un conjunto de variables independientes métricas o no métricas. En este reporte
tenemos como objetivo comparar dos modelos donde se usará la regresión logística
sobre un conjunto de datos que van a entrenarse para realizar una prediccion, uno
hecho en Machine Learning Studio Classic y otro hecho en Python con sklearn con el
fin de concluir cual modelos es mejor
2. Describir el conjunto de datos
Esta es una imagen del dataset llamado diabetes donde tenemos un conjunto de datos
que describen si un paciente es diabético o no y otras características. El dataset tiene
los siguientes atributos:
Pregnancies
PlasmaGlucose
DiastolicBloodPressure
TricepsThickness
SerumInsulin
BMI
DiabetesPedigree
Age
PatientID
Diabetic
Estos tributos tienen como fin describir las características del paciente y su condición,
en este caso la etiqueta que vamos a estar prediciendo es “Diabetic” y las demás
vendrían siendo sus características. Los datos serán separados y normalizados para el
entrenamiento para así mismo poder realizar la predicción con el algoritmo antes
mencionado de Regresión Logística.
3. Implementación del algoritmo y pruebas
3.1 Metodología
Pregnancies
PlasmaGlucose
DiastolicBloodPressure
TricepsThickness
SerumInsulin
BMI
DiabetesPedigree
Age
3.2 Experimentos y resultados
Aquí si podemos obtener la matriz de confusión por lo que tenemos mas claro ya que
es una herramienta que permite la visualización del desempeño de un algoritmo que se
emplea en aprendizaje supervisado. Cada columna de la matriz representa el número
de predicciones de cada clase, mientras que cada fila representa a las instancias en la
clase real. Uno de los beneficios de las matrices de confusión es que facilitan ver si el
sistema está confundiendo dos clases. Aquí en este código la ventaja es que puede
verse muy claramente los resultados donde vemos que la precisión es bastante alta y
el test accuracy es del 0.77 por lo que igualmente es una buena puntuación
4. Conclusiones
¿Qué modelo es mejor?
Bueno, en ambos casos pudimos construir un modelo que era bastante bueno pero
tiene que haber un ganador y aunque al principio por un momento me incline más por
el modelo hecho en Machine Learning Studio Classic por su facilidad de uso y su
rápida implementación cuando realizamos la prueba la probabilidad fue mas o menos el
70% por lo que realice mas pruebas y los resultados eran bastante similares que
rondaban entre el 70%-75% en la probabilidad por lo que aunque en los resultados de
visualización no hay un apartado donde pueda decirnos el error del resultado o la
precisión con las pruebas si podemos darnos cuenta de que como la probabilidad en
cada caso es mas o menos constante entonces podemos concluir que la precisión del
modelo podría rondar entre esos números.
Entonces comparándolo con el modelo hecho en python podemos ver que el test
accuracy es del 0.77 que nos da una exactitud más alta y también la matriz de
confusión es mas precisa podemos ver que este resultado es mejor por lo que
podemos concluir que quizá por la sencillez del código y las librerías de sklearn que
realizaron un buen trabajo de optimización este modelo podría ser un poco mejor pero
aun así ambos modelos podrían ser de utilidad