Está en la página 1de 4

1. ¿Cuáles son los diferentes tipos de Machine Learning? Detallar cada uno.

 Unsupervised Learning

Es un tipo de machine learning donde el algoritmo esta entrenado en datos de salida no


etiquetadas, el aprendizaje no supervisado trata con datos no etiquetados y tiene como
objetivo buscar patrones escondidos o estructuras dentro de los datos.

 Supervised Learning

Es un tipo de machine learning donde el algoritmo esta entrenado en datos etiquetados, esto
quiere decir que los datos de entrada son usados para entrenar se combinan con las etiquetas
de salidas, el objetivo es aprender un mapeo de los datos de entrada a la salida correcta.

 Reinforcement Learning

Es un tipo de paradigma de machine learning el cual un agente aprende como comportarse en


un ambiente para ejecutar ciertas acciones y recibiendo feedback de manera de castigo o
recompensa. El agente interactúa con el ambiente, aprendiendo de su experiencia y adaptar su
comportamiento para alcanzar los objetivos

2. ¿Qué es el overfitting? ¿Como lo podemos evitar?

es un modelo de aprendizaje que sobredimensiona el grado del modelo, ocupando la mayoría


de los datos y ocupando mucha memoria en el computador debido a que mientras mas
grande es el grado del modelo se necesita mas infraestructura para dar soporte al moedelo al
cual se entiende mayor costo.

Lo podemos evitar buscando el menor grado del modelo que calze mejor a los datos, esto nos
ahorraría dinero y menor tiempo de análisis.

3. ¿Qué es el 'conjunto de entrenamiento' y el 'conjunto de prueba' en un modelo de


aprendizaje automático? ¿Cuántos datos asignará para sus conjuntos de
entrenamiento, validación y prueba?

El conjunto de entrenamiento se utiliza para entrenar o ajustar el modelo, y el conjunto de


prueba se utiliza para evaluar el rendimiento del modelo después que ha sido entrenado en
este modelo se realiza predicciones sobre este conjunto y estas predicciones se comparan con
las salidas reales.

Por lo general el conjunto de entrenamiento suele estar en el rango de 70-80% del conjunto
total, y el conjunto de validación entre 10-15% y por ultimo conjunto de prueba esta en el
rango 10-20%.

4. ¿Cómo maneja los datos perdidos o dañados en un conjunto de datos?

Se realiza mediante eliminación de filas o columnas, sustitución de valores por un valor


constante como la media, mediana o moda. En otros casos se puede interpolar los datos
faltantes.

5. Explicar la matriz de confusión con respecto a los algoritmos de aprendizaje


automático.
Es un tabla con diferentes salidas predichas en un problema de clasificación que no ayuda
visualizar los resultado de manera más clara.

6. ¿Qué es un falso positivo y un falso negativo y que significa?

El falso positivo es la cantidad de instancias negativas que el modelo ha clasificado como


positivo

El falso negativo es la cantidad de instancias negativas que el modelo ha clasificado como


negativas

7. Detalle las métricas de error para regresión

Error absoluto medio: esto calcula el promedio de las diferencias absolutas entre predicción y
valores reales.

Error cuadrático medio: calcula el promedio de las diferencias cuadráticas entre predicciones y
los valores reales.

Raíz del error cuadratico medio: es la raíz cuadrada del error cuadratico medio

Error porcentual absoluto medio: calcula el promedio de los errores porcentuales absolutos
entre predicciones y valores reales

Coeficiente de determinación: indica la proporción de la variabilidad en la variable


dependiente a partir de las variables independientes.

8. ¿Cuáles son las etapas previas a la construcción de un modelo en el aprendizaje


automático?

Entender el negocio, recopilación de datos, limpieza de datos, análisis de datos, modelamiento


de datos, evaluación del modelo, visualización y reportes, despliegue de modelo.

9. ¿Cuáles son las aplicaciones del aprendizaje automático supervisado en las empresas
modernas?

Reconocimiento de imágenes y videos, prediccion de ventas, automatización al servicio al


cliente, reconocimiento de voz, traducción automática.

10. ¿Cuál es la diferencia entre el aprendizaje automático supervisado y no supervisado?

Aprendizaje supervisado Aprendizaje no supervisado


Entrenamiento Se proporcionan datos de Solo se proporcionan datos
entrada y salida de entrada
Finalidad Hacer predicciones o Explorar patrones y
clasificaciones estructuras en los datos
Evaluación Capacidad de predecir la evaluación es mas
correctamente la salida subjetiva y depende del
contexto.
11. ¿Cuándo utilizará clasificación en lugar de regresión?

La regresión se utilizara cuando para las variables de salida tipo continua, en cambio para la
clasificación son de tipo discreto

12. ¿Qué es random forest? Explicar cuál es su fundamento.

Los arboles de aprendizaje son modelos muy usados para métodos de conjuntos. Los
apéndices fuertes compuestos de multiples arboles pueden llamarse bosque, el enfoque
bosque aleatorio es un método bagging donde los aroles profundos se combinan para producir
una salida con una varianza baja

13. ¿Qué es el sesgo y la varianza en un modelo de aprendizaje automático?

El sesgo es la simplificación que realiza un modelo con respecto a la realidad, el sesgo alto
tiende a hacer suposiciones, un modelo con sesgo alto puede subestimar o sobreestimar
sistemáticamente la verdadera relación entre las variables.

La varianza es la sensibilidad de un modelo a las fluctuaciones en los datos de entrenamiento.


Un modelo con alta varianza se ajusta demasiado a los detalles específicos de los datos de
entrenamiento. Un modelo con alta varianza tiene un rendimiento excelente.

14. ¿Cuál es el trade-off entre el sesgo y la varianza?

Sesgo y varaianza bajos: el modelo se ajusta bien a los datos de entrenamiento y generaliza
bien los nuevos datos

Sesgo bajo y varianza alta: el modelo puede ajustarse demasiado a los datos de entrenamiento
y no generalizar bien a nuevos datos.

Sesgo alto y varianza baja: el modelo es demasiado simple y no se ajusta bien a los datos de
entrenamiento ni generaliza bien a los nuevos datos

15. ¿Qué es el aprendizaje ensemble?

Es un paradigma de aprendizaje automático en el que entrenan varios modelos para resolver el


mismo problema y se combinan para obtener mejores resultados. La hipótesis principal es que
cuando los modelos débiles se combinan correctamente podemos obtener modelos más
precisos y/o robustos.

16. ¿Qué es la validación cruzada?

Es una técnica utilizada para evaluar el rendimiento de un modelo estadístico y garantizar que
sea capaz de generalizar bien los datos no vistos, el propósito es proporcionar una estimación
mas precisa del rendimiento del modelo.

17. ¿Qué son los datos no balanceados?

Se refieren a una situación en que la clase de interés de un conjunto de datos no están


representadas de manera equitativa. En otras palabras, hay una gran disparidad en el numero
de instancias e tre las diferentes clases-

18. ¿Como manejo los outliers?


Mediante los siguientes pasos

Identificación y eliminación, transformación de datos, sustitución de valores, algoritmos


robustos a outliers, método de detección de outliers (isolation forest o el método de k-
vecinos).

19. ¿Cuál es el ciclo de vida de la ciencia de datos? Explicar cada fase.}

Entender el negocio: comprender la declaración del problema y comprender bien los datos y
obtener información de los expertos.

Recoleccion de datos: es conocer a la persona que nos pueda proporcionar datos.

Limpieza de datos: aquí tendremos que mirar la datos y modificar según sea necesario sin
alterar su proposito

Análisis de datos: análisis exploratorio según la filosofía de cada analista.

Modelamiento de datos: la preparación de datos es esta técnica, el modelado se utiliza para


encontrar patrones o comportamientos en los datos.

Evaluacion del modelo: proceso critico para determinar la efectividad o rendimiento

Visualización y reportes: la visualización y los informes son clave en la evaluacion de modelos


de aprendizaje automatico, proporcionan una información intuititva y detallada del
rendimiento.

Despliegue de modelo: proceso poner en producción un modelo de aprendizaje automatico


para que pueda realizar predicciones en entornos del mundo real.

20. Para que sirve la data de validación luego del entrenamiento. Explicar en detalle.

La validación es esencial para ajustar y evaluar el modelo de manera iterativa durante el


desarrollo. Facilita la toma de decisiones informados garantizando que el modelo generalice
bien a los nuevos datos.

También podría gustarte