Tarea 5

Tarea 5
Con base en tu aprendizaje sobre cómo los algoritmos de machine

learning hacen predicciones para conjuntos de datos y cómo
mejoran estas predicciones, reflexiona sobre las siguientes
preguntas:
 ¿Qué factores son importantes tener en cuenta al

construir un buen modelo? Por ejemplo, ¿es lo complejo
necesariamente mejor? ¿Cuáles son las compensaciones?
De acuerdo con lo visto en esta semana, para construir un buen

modelo es importante tener en cuenta factores tales como:
 Si el modelo es supervisado (conozco mi variable objetivo

o variable dependiente, en este caso, el algoritmo aprende
de los datos que son introducidos) o no supervisado (no
conozco mi variable objetivo o variable dependiente, en
este caso, el algoritmo aprende de datos que no han sido
etiquetados, busca relaciones generadas o patrones).
o Modelos supervisados:
 Algoritmos de regresión (para valores
continuos).
 Predicen valores numéricos
(valores continuos).
 Algoritmos de clasificación (para valores
discretos).
 Clasifican objetos en diferentes
clases.
 Modelos no supervisados:
 Clustering
 Clasifica en grupos los
datos de salida.
 Deep Learning (aunque en parte
es supervisado).
 Asociación, es decir, es
capaz de descubrir
reglas dentro del
conjunto de datos.
 El algoritmo aprende de
forma automática.
 Si el modelo está sobreajustado
(Over Fitting) o si el modelo está
subajustado (Under Fitting). La
situación ideal se conoce como
"Best Fitting".
o Se toma un Dataset bien trabajado

estadísticamente, en donde se ven si no hay
sesgos, se entiende la muestra, etc., y se realiza
una partición, en donde una parte corresponde al
Test Validation (30%, pruebas, para predecir, ver
si el modelo tiene capacidad de predecir con alto
nivel de certeza) y la otra parte es el Training
(70%, para entrenar el modelo).
o Si se entrena mal el modelo, aparecen los
problemas mencionados en el punto anterior.
o Esto se realiza con la división del Dataset, en lo
que se conoce como Data Partitioning.
 Una vez realizado el entrenamiento, ver lo del K-Fold
Cross Validation.
o Se realiza para evitar sesgos estadísticos.
o No se realiza la partición 70% y 30% como lo
mencionado en Data Partitioning.
o Se busca obtener un bloque de prueba no
sesgado, de diferentes bloques.
o No se cometería el error de Over Fitting.
Ahora, no necesariamente al ser un modelo complejo es mejor que

uno simple. Un modelo complejo ocupa muchos más recursos,
necesita más capacidad computacional para poder realizarse y
ejecutarse. Puede un modelo simple obtener el mismo resultado
que uno complejo, por lo que no es necesariamente mejor uno que
otro.
Finalmente, las compensaciones es lo que se conoce como Trade

Off. Estas tienen que ver con:
 Que tanto se realiza exploración (por ejemplo, cuanto
tiempo dejo a un modelo que aprenda) y en qué momento
comienzo con la explotación de los datos.
o De acuerdo a lo investigado, el trade-off de
exploración y explotación, es aplicado a
diferentes áreas, principalmente a la gestión.
o Cuando hablamos de explotación, nos
enfrentamos a la cuestión de tomar una decisión
en la actualidad en base a los conocimientos
parciales que se tienen , mientras que al hablar
de exploración, hace referencia a tomar
decisiones en el futuro, así, acumulando datos y
toma de perspectiva más amplia.
 Lo otro es el Bias (Sesgo)-Variance (Varianza), en donde
veo el sesgo y varianza que puedo permitir en un modelo.
o Cuando hablamos de modelos supervisados y
buscamos realizar una predicción, pueden surgir
dos problemas principales, uno tiene relación con
el sesgo, mientras que el otro tiene relación con
la varianza.
o El objetivo, es minimizar el riesgo en este
binomio.
o Cuando hablamos de los errores, el sesgo es en
relación al Under Fitting, es decir, un sesgo alto
generar error en el entrenamiento y datos des
prueba.
o En el error de la varianza (dispersión), la cual
tiene relación con sensibilidad, hace referencia al
Over Fitting, es decir, si tenemos una varianza
muy alta, es por un ajuste complejo en los datos
de entrenamiento, es decir, el modelo se ajusta
con mucha precisión, incluso creando curvas
complejas que sobre ajustan los datos.
Llevar un orden y completar todo lo mencionado en líneas

anteriores, permiten que un modelo tenga éxito, así entender lo
que realiza un científico de datos, si uno se dedica al Business
Analytics.

Tarea 5

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tarea 5

Cargado por

Copyright:

Formatos disponibles

Tarea 5

Con base en tu aprendizaje sobre cómo los algoritmos de machine

 ¿Qué factores son importantes tener en cuenta al

De acuerdo con lo visto en esta semana, para construir un buen

 Si el modelo es supervisado (conozco mi variable objetivo

o Se toma un Dataset bien trabajado

Ahora, no necesariamente al ser un modelo complejo es mejor que

Finalmente, las compensaciones es lo que se conoce como Trade

Llevar un orden y completar todo lo mencionado en líneas

También podría gustarte