Examen Final

1. ¿Cuáles son los diferentes tipos de Machine Learning? Detallar cada uno.
 Unsupervised Learning
Es un tipo de machine learning donde el algoritmo esta entrenado en datos de salida no

etiquetadas, el aprendizaje no supervisado trata con datos no etiquetados y tiene como
objetivo buscar patrones escondidos o estructuras dentro de los datos.
 Supervised Learning
Es un tipo de machine learning donde el algoritmo esta entrenado en datos etiquetados, esto
quiere decir que los datos de entrada son usados para entrenar se combinan con las etiquetas
de salidas, el objetivo es aprender un mapeo de los datos de entrada a la salida correcta.
 Reinforcement Learning
Es un tipo de paradigma de machine learning el cual un agente aprende como comportarse en

un ambiente para ejecutar ciertas acciones y recibiendo feedback de manera de castigo o
recompensa. El agente interactúa con el ambiente, aprendiendo de su experiencia y adaptar su
comportamiento para alcanzar los objetivos
2. ¿Qué es el overfitting? ¿Como lo podemos evitar?
es un modelo de aprendizaje que sobredimensiona el grado del modelo, ocupando la mayoría

de los datos y ocupando mucha memoria en el computador debido a que mientras mas
grande es el grado del modelo se necesita mas infraestructura para dar soporte al moedelo al
cual se entiende mayor costo.
Lo podemos evitar buscando el menor grado del modelo que calze mejor a los datos, esto nos
ahorraría dinero y menor tiempo de análisis.
3. ¿Qué es el 'conjunto de entrenamiento' y el 'conjunto de prueba' en un modelo de

aprendizaje automático? ¿Cuántos datos asignará para sus conjuntos de
entrenamiento, validación y prueba?
El conjunto de entrenamiento se utiliza para entrenar o ajustar el modelo, y el conjunto de

prueba se utiliza para evaluar el rendimiento del modelo después que ha sido entrenado en
este modelo se realiza predicciones sobre este conjunto y estas predicciones se comparan con
las salidas reales.
Por lo general el conjunto de entrenamiento suele estar en el rango de 70-80% del conjunto
total, y el conjunto de validación entre 10-15% y por ultimo conjunto de prueba esta en el
rango 10-20%.
4. ¿Cómo maneja los datos perdidos o dañados en un conjunto de datos?
Se realiza mediante eliminación de filas o columnas, sustitución de valores por un valor

constante como la media, mediana o moda. En otros casos se puede interpolar los datos
faltantes.
5. Explicar la matriz de confusión con respecto a los algoritmos de aprendizaje

automático.
Es un tabla con diferentes salidas predichas en un problema de clasificación que no ayuda
visualizar los resultado de manera más clara.
6. ¿Qué es un falso positivo y un falso negativo y que significa?
El falso positivo es la cantidad de instancias negativas que el modelo ha clasificado como

positivo
El falso negativo es la cantidad de instancias negativas que el modelo ha clasificado como

negativas
7. Detalle las métricas de error para regresión
Error absoluto medio: esto calcula el promedio de las diferencias absolutas entre predicción y
valores reales.
Error cuadrático medio: calcula el promedio de las diferencias cuadráticas entre predicciones y
los valores reales.
Raíz del error cuadratico medio: es la raíz cuadrada del error cuadratico medio
Error porcentual absoluto medio: calcula el promedio de los errores porcentuales absolutos
entre predicciones y valores reales
Coeficiente de determinación: indica la proporción de la variabilidad en la variable

dependiente a partir de las variables independientes.
8. ¿Cuáles son las etapas previas a la construcción de un modelo en el aprendizaje

automático?
Entender el negocio, recopilación de datos, limpieza de datos, análisis de datos, modelamiento

de datos, evaluación del modelo, visualización y reportes, despliegue de modelo.
9. ¿Cuáles son las aplicaciones del aprendizaje automático supervisado en las empresas
modernas?
Reconocimiento de imágenes y videos, prediccion de ventas, automatización al servicio al

cliente, reconocimiento de voz, traducción automática.
10. ¿Cuál es la diferencia entre el aprendizaje automático supervisado y no supervisado?
Aprendizaje supervisado Aprendizaje no supervisado

Entrenamiento Se proporcionan datos de Solo se proporcionan datos
entrada y salida de entrada
Finalidad Hacer predicciones o Explorar patrones y
clasificaciones estructuras en los datos
Evaluación Capacidad de predecir la evaluación es mas
correctamente la salida subjetiva y depende del
contexto.
11. ¿Cuándo utilizará clasificación en lugar de regresión?
La regresión se utilizara cuando para las variables de salida tipo continua, en cambio para la
clasificación son de tipo discreto
12. ¿Qué es random forest? Explicar cuál es su fundamento.
Los arboles de aprendizaje son modelos muy usados para métodos de conjuntos. Los
apéndices fuertes compuestos de multiples arboles pueden llamarse bosque, el enfoque
bosque aleatorio es un método bagging donde los aroles profundos se combinan para producir
una salida con una varianza baja
13. ¿Qué es el sesgo y la varianza en un modelo de aprendizaje automático?
El sesgo es la simplificación que realiza un modelo con respecto a la realidad, el sesgo alto
tiende a hacer suposiciones, un modelo con sesgo alto puede subestimar o sobreestimar
sistemáticamente la verdadera relación entre las variables.
La varianza es la sensibilidad de un modelo a las fluctuaciones en los datos de entrenamiento.

Un modelo con alta varianza se ajusta demasiado a los detalles específicos de los datos de
entrenamiento. Un modelo con alta varianza tiene un rendimiento excelente.
14. ¿Cuál es el trade-off entre el sesgo y la varianza?
Sesgo y varaianza bajos: el modelo se ajusta bien a los datos de entrenamiento y generaliza
bien los nuevos datos
Sesgo bajo y varianza alta: el modelo puede ajustarse demasiado a los datos de entrenamiento
y no generalizar bien a nuevos datos.
Sesgo alto y varianza baja: el modelo es demasiado simple y no se ajusta bien a los datos de
entrenamiento ni generaliza bien a los nuevos datos
15. ¿Qué es el aprendizaje ensemble?
Es un paradigma de aprendizaje automático en el que entrenan varios modelos para resolver el

mismo problema y se combinan para obtener mejores resultados. La hipótesis principal es que
cuando los modelos débiles se combinan correctamente podemos obtener modelos más
precisos y/o robustos.
16. ¿Qué es la validación cruzada?
Es una técnica utilizada para evaluar el rendimiento de un modelo estadístico y garantizar que
sea capaz de generalizar bien los datos no vistos, el propósito es proporcionar una estimación
mas precisa del rendimiento del modelo.
17. ¿Qué son los datos no balanceados?
Se refieren a una situación en que la clase de interés de un conjunto de datos no están

representadas de manera equitativa. En otras palabras, hay una gran disparidad en el numero
de instancias e tre las diferentes clases-
18. ¿Como manejo los outliers?

Mediante los siguientes pasos
Identificación y eliminación, transformación de datos, sustitución de valores, algoritmos

robustos a outliers, método de detección de outliers (isolation forest o el método de k-
vecinos).
19. ¿Cuál es el ciclo de vida de la ciencia de datos? Explicar cada fase.}
Entender el negocio: comprender la declaración del problema y comprender bien los datos y
obtener información de los expertos.
Recoleccion de datos: es conocer a la persona que nos pueda proporcionar datos.
Limpieza de datos: aquí tendremos que mirar la datos y modificar según sea necesario sin
alterar su proposito
Análisis de datos: análisis exploratorio según la filosofía de cada analista.
Modelamiento de datos: la preparación de datos es esta técnica, el modelado se utiliza para

encontrar patrones o comportamientos en los datos.
Evaluacion del modelo: proceso critico para determinar la efectividad o rendimiento
Visualización y reportes: la visualización y los informes son clave en la evaluacion de modelos

de aprendizaje automatico, proporcionan una información intuititva y detallada del
rendimiento.
Despliegue de modelo: proceso poner en producción un modelo de aprendizaje automatico

para que pueda realizar predicciones en entornos del mundo real.
20. Para que sirve la data de validación luego del entrenamiento. Explicar en detalle.
La validación es esencial para ajustar y evaluar el modelo de manera iterativa durante el

desarrollo. Facilita la toma de decisiones informados garantizando que el modelo generalice
bien a los nuevos datos.

Examen Final

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Examen Final

Cargado por

Copyright:

Formatos disponibles

1. ¿Cuáles son los diferentes tipos de Machine Learning? Detallar cada uno.

Es un tipo de machine learning donde el algoritmo esta entrenado en datos de salida no

Es un tipo de paradigma de machine learning el cual un agente aprende como comportarse en

2. ¿Qué es el overfitting? ¿Como lo podemos evitar?

es un modelo de aprendizaje que sobredimensiona el grado del modelo, ocupando la mayoría

3. ¿Qué es el 'conjunto de entrenamiento' y el 'conjunto de prueba' en un modelo de

El conjunto de entrenamiento se utiliza para entrenar o ajustar el modelo, y el conjunto de

4. ¿Cómo maneja los datos perdidos o dañados en un conjunto de datos?

Se realiza mediante eliminación de filas o columnas, sustitución de valores por un valor

5. Explicar la matriz de confusión con respecto a los algoritmos de aprendizaje

6. ¿Qué es un falso positivo y un falso negativo y que significa?

El falso positivo es la cantidad de instancias negativas que el modelo ha clasificado como

El falso negativo es la cantidad de instancias negativas que el modelo ha clasificado como

7. Detalle las métricas de error para regresión

Coeficiente de determinación: indica la proporción de la variabilidad en la variable

8. ¿Cuáles son las etapas previas a la construcción de un modelo en el aprendizaje

Entender el negocio, recopilación de datos, limpieza de datos, análisis de datos, modelamiento

Reconocimiento de imágenes y videos, prediccion de ventas, automatización al servicio al

10. ¿Cuál es la diferencia entre el aprendizaje automático supervisado y no supervisado?

Aprendizaje supervisado Aprendizaje no supervisado

12. ¿Qué es random forest? Explicar cuál es su fundamento.

13. ¿Qué es el sesgo y la varianza en un modelo de aprendizaje automático?

La varianza es la sensibilidad de un modelo a las fluctuaciones en los datos de entrenamiento.

14. ¿Cuál es el trade-off entre el sesgo y la varianza?

15. ¿Qué es el aprendizaje ensemble?

Es un paradigma de aprendizaje automático en el que entrenan varios modelos para resolver el

16. ¿Qué es la validación cruzada?

17. ¿Qué son los datos no balanceados?

Se refieren a una situación en que la clase de interés de un conjunto de datos no están

18. ¿Como manejo los outliers?

Identificación y eliminación, transformación de datos, sustitución de valores, algoritmos

19. ¿Cuál es el ciclo de vida de la ciencia de datos? Explicar cada fase.}

Recoleccion de datos: es conocer a la persona que nos pueda proporcionar datos.

Análisis de datos: análisis exploratorio según la filosofía de cada analista.

Modelamiento de datos: la preparación de datos es esta técnica, el modelado se utiliza para

Evaluacion del modelo: proceso critico para determinar la efectividad o rendimiento

Visualización y reportes: la visualización y los informes son clave en la evaluacion de modelos

Despliegue de modelo: proceso poner en producción un modelo de aprendizaje automatico

La validación es esencial para ajustar y evaluar el modelo de manera iterativa durante el

También podría gustarte