Con base en tu aprendizaje sobre cómo los algoritmos de machine
learning hacen predicciones para conjuntos de datos y cómo mejoran estas predicciones, reflexiona sobre las siguientes preguntas:
¿Qué factores son importantes tener en cuenta al
construir un buen modelo? Por ejemplo, ¿es lo complejo necesariamente mejor? ¿Cuáles son las compensaciones?
De acuerdo con lo visto en esta semana, para construir un buen
modelo es importante tener en cuenta factores tales como:
Si el modelo es supervisado (conozco mi variable objetivo
o variable dependiente, en este caso, el algoritmo aprende de los datos que son introducidos) o no supervisado (no conozco mi variable objetivo o variable dependiente, en este caso, el algoritmo aprende de datos que no han sido etiquetados, busca relaciones generadas o patrones). o Modelos supervisados: Algoritmos de regresión (para valores continuos). Predicen valores numéricos (valores continuos). Algoritmos de clasificación (para valores discretos). Clasifican objetos en diferentes clases. Modelos no supervisados: Clustering Clasifica en grupos los datos de salida. Deep Learning (aunque en parte es supervisado). Asociación, es decir, es capaz de descubrir reglas dentro del conjunto de datos. El algoritmo aprende de forma automática. Si el modelo está sobreajustado (Over Fitting) o si el modelo está subajustado (Under Fitting). La situación ideal se conoce como "Best Fitting".
o Se toma un Dataset bien trabajado
estadísticamente, en donde se ven si no hay sesgos, se entiende la muestra, etc., y se realiza una partición, en donde una parte corresponde al Test Validation (30%, pruebas, para predecir, ver si el modelo tiene capacidad de predecir con alto nivel de certeza) y la otra parte es el Training (70%, para entrenar el modelo). o Si se entrena mal el modelo, aparecen los problemas mencionados en el punto anterior. o Esto se realiza con la división del Dataset, en lo que se conoce como Data Partitioning. Una vez realizado el entrenamiento, ver lo del K-Fold Cross Validation. o Se realiza para evitar sesgos estadísticos. o No se realiza la partición 70% y 30% como lo mencionado en Data Partitioning. o Se busca obtener un bloque de prueba no sesgado, de diferentes bloques. o No se cometería el error de Over Fitting.
Ahora, no necesariamente al ser un modelo complejo es mejor que
uno simple. Un modelo complejo ocupa muchos más recursos, necesita más capacidad computacional para poder realizarse y ejecutarse. Puede un modelo simple obtener el mismo resultado que uno complejo, por lo que no es necesariamente mejor uno que otro.
Finalmente, las compensaciones es lo que se conoce como Trade
Off. Estas tienen que ver con: Que tanto se realiza exploración (por ejemplo, cuanto tiempo dejo a un modelo que aprenda) y en qué momento comienzo con la explotación de los datos. o De acuerdo a lo investigado, el trade-off de exploración y explotación, es aplicado a diferentes áreas, principalmente a la gestión. o Cuando hablamos de explotación, nos enfrentamos a la cuestión de tomar una decisión en la actualidad en base a los conocimientos parciales que se tienen , mientras que al hablar de exploración, hace referencia a tomar decisiones en el futuro, así, acumulando datos y toma de perspectiva más amplia. Lo otro es el Bias (Sesgo)-Variance (Varianza), en donde veo el sesgo y varianza que puedo permitir en un modelo. o Cuando hablamos de modelos supervisados y buscamos realizar una predicción, pueden surgir dos problemas principales, uno tiene relación con el sesgo, mientras que el otro tiene relación con la varianza. o El objetivo, es minimizar el riesgo en este binomio. o Cuando hablamos de los errores, el sesgo es en relación al Under Fitting, es decir, un sesgo alto generar error en el entrenamiento y datos des prueba. o En el error de la varianza (dispersión), la cual tiene relación con sensibilidad, hace referencia al Over Fitting, es decir, si tenemos una varianza muy alta, es por un ajuste complejo en los datos de entrenamiento, es decir, el modelo se ajusta con mucha precisión, incluso creando curvas complejas que sobre ajustan los datos.
Llevar un orden y completar todo lo mencionado en líneas
anteriores, permiten que un modelo tenga éxito, así entender lo que realiza un científico de datos, si uno se dedica al Business Analytics.
Detección de peatones: Por favor, sugiera un subtítulo para un libro con el título 'Detección de peatones' dentro del ámbito de 'Visión por computadora'. El subtítulo sugerido no debe tener ':'.