Está en la página 1de 8

Joseph Jardel Moarry Fuentes 1 de julio de 2022

INSTITUTO SUPERIOR TECNOLÓGICO


“GUAYAQUIL”
EMPRENDIMIENTO
DATA WAREHOUSE Y MINADO DE DATOS

Nombres:
JOSEPH JARDEL MOARRY FUENTES

Docente:
ING. RONNIE CESAR DIAZ SORIANO

Período 2022 - 2
Joseph Jardel Moarry Fuentes 1 de julio de 2022

Actividad 1. Investigar 4 algoritmo utilizado para el machine learning.


El aprendizaje
automático ocurre
a través de
algoritmos. Un
algoritmo es
simplemente una
serie ordenada de
pasos que se
toman para realizar
una tarea. El
objetivo del aprendizaje automático es crear un modelo que nos permita
resolver una tarea en particular. Luego, el modelo se entrena utilizando una
gran cantidad de datos. El modelo aprende de estos datos y puede hacer
predicciones. Dependiendo de la tarea que quieras realizar, puede ser más
adecuado trabajar con un algoritmo u otro. Elegir un algoritmo no es fácil. Si
buscamos información en Internet, podemos encontrar una verdadera
colección de artículos tan detallados que a veces, además de nuestra ayuda,
nos confundimos. Por lo tanto, intentaremos brindarle algunas pautas básicas
para que pueda comenzar.

Tipos de Machine Learning

Los tipos de implementación de machine Learning pueden clasificarse en tres


categorías diferentes:

 Aprendizaje supervisado

 Aprendizaje no supervisado

 Aprendizaje de refuerzo según la naturaleza de los datos que recibe.

Aprendizaje Supervisado

En el aprendizaje supervisado, los algoritmos que trabajan con datos


"etiquetados" intentan encontrar una función que, dadas sus variables de
Joseph Jardel Moarry Fuentes 1 de julio de 2022

entrada, le asigne una etiqueta de salida adecuada. El algoritmo se entrena


utilizando el "historial" de los datos y, por lo tanto, "aprende" a asignar una
etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de
salida.

Por ejemplo, un detector de spam, analiza el histórico de mensajes, viendo


qué función puede representar, según los parámetros de entrada que se
definan (el remitente, si el destinatario es individual o parte de una lista, si el
asunto contiene determinados términos etc.), la asignación de la etiqueta
“spam” o “no es spam”. Una vez definida esta función, al introducir un nuevo
mensaje no etiquetado, el algoritmo es capaz de asignarle la etiqueta correcta.

El aprendizaje supervisado se suele usar en:

 Problemas de clasificación (identificación de dígitos, diagnósticos, o


detección de fraude de identidad).

 Problemas de regresión (predicciones meteorológicas, de expectativa


de vida, de crecimiento etc.).

Los algoritmos más habituales que aplican para el aprendizaje


supervisado son:
1. Árboles de decisión.

Un árbol de decisión es un algoritmo de aprendizaje supervisado no


paramétrico que se utiliza tanto para tareas de clasificación como de
regresión. Tiene una estructura de árbol jerárquico, que consta de
nodos de raíz, ramas, entrenudos y nodos de hoja. Este tipo de
estructura de organigrama también crea una representación fácil de
entender del proceso de toma de decisiones, lo que permite que los
diferentes grupos de la organización comprendan mejor por qué se tomó
la decisión.
El aprendizaje del árbol de decisión utiliza una estrategia de divide y
vencerás al realizar una búsqueda codiciosa para identificar los puntos
de división óptimos en un árbol. Este proceso de división se repite
Joseph Jardel Moarry Fuentes 1 de julio de 2022

recursivamente de arriba a abajo hasta que todos o la mayoría de los


registros se hayan clasificado bajo etiquetas de clase específicas.
La clasificación de todos los puntos de datos en grupos homogéneos
depende en gran medida de la complejidad del árbol de decisión. Es
fácil obtener árboles pequeños como nodos de hojas puras, es decir,
puntos de datos en una capa.

2. Clasificación de Naïve Bayes.

Estos modelos se denominan algoritmos "ingenuos" o "inocentes" en


español. Asumen que los pronosticadores son independientes entre sí.
En otras palabras, la presencia de una característica particular en el
conjunto de datos es completamente independiente de la presencia de
cualquier otra característica.

Proporciona una manera fácil de construir modelos que se comportan


muy bien debido a su simplicidad. Lo hacen proporcionando un método
para calcular la probabilidad 'después' de que ocurra un evento A dado,
dada la probabilidad dada para los eventos 'anteriores'. Es una
clasificación de probabilidad simple con una fuerte hipótesis de
independencia. Aunque la teoría de la independencia de las
características es generalmente una mala hipótesis y a menudo es
violada por grupos de datos reales. Por lo general, proporciona una
mejor precisión de clasificación para conjuntos de datos en tiempo real
que cualquier otro clasificador. También requiere una pequeña cantidad
de datos de entrenamiento. El clasificador Naïve-Bayes aprende de los
datos de entrenamiento y luego predice la clase de caso de prueba con
la mayor probabilidad posterior.
Joseph Jardel Moarry Fuentes 1 de julio de 2022

3. Support Vector Machines (SVM).

Se utiliza para muchos problemas de clasificación y regresión como el


procesamiento
de la señal, el
procesamiento
del lenguaje
natural y las
aplicaciones
médicas para el
reconocimiento
de imágenes y de
voz. El objetivo
del algoritmo
SVM es encontrar un súper nivel que separe mejor dos clases distintas de
puntos de datos. "Mejor posible" significa el supernivel que tiene el
margen mayor entre las dos categorías, tal y como indican los signos más
y menos de la siguiente figura. El margen se define como el ancho máximo
del espacio paralelo al hiperplano sin puntos de datos internos. El
algoritmo sólo puede encontrar ese hipernivel en problemas que permiten
la separación lineal; En la mayoría de problemas prácticos, el algoritmo
maximiza los márgenes suaves permitiendo un pequeño número de
clasificaciones erróneas. El vector de soporte indica un subconjunto de
notas de entrenamiento que localizan el hiperplano separador. Los
algoritmos estándar de SVM se formulan para problemas de clasificación
Joseph Jardel Moarry Fuentes 1 de julio de 2022

binaria; Los problemas multiclase suelen reducirse a una serie de


problemas binarios

Los llamados métodos kernel. Puede usar funciones del núcleo para
transformar características. Las funciones centrales asignan datos a otro
espacio, generalmente de mayor dimensión. Esto es con la esperanza de
que las clases se puedan separar fácilmente después de esta
transformación, lo que podría simplificar los límites de decisión no lineales
complejos para que sean lineales en el espacio dimensional. No tiene que
convertir los datos explícitamente, pero esto supone una gran carga
computacional. Esto se llama un truco del núcleo.

4. Métodos “Ensemble” (Conjuntos de clasificadores).

Como objetivo
agrupar los objetos
de un dataset según
su similaridad, de
forma que los
objetos que hay
dentro de un grupo
(cluster) sean más
similares que
aquellos que caen
en grupos distintos.
Desde un punto de
vista intuitivo, este
problema tiene un
objetivo muy claro: agrupar adecuadamente un conjunto de datos no
etiquetados. A pesar de su intuición, la noción de "clúster/agrupamiento"
no puede ser definido con precisión, una de las casusas por las que se ha
propuesto un rango tan amplio de algoritmos de clustering. Normalmente,
para poder hablar de similaridad se suele acudir a algún tipo de distancia
(a veces nos conformamos con algo que no llega a cumplir todas las
propiedades de una distancia/métrica y trabajamos con pseudo-métricas),
con el fin de poder asociar la similitud de los objetos analizados con la
Joseph Jardel Moarry Fuentes 1 de julio de 2022

distancia que hay entre ellos. Por ejemplo, si podemos describir el objeto
por medio de un vector numérico de propiedades, es entonces habitual
tratar con métricas vectoriales (como la distancia euclídea) para medir la
similitud entre los objetos.
Joseph Jardel Moarry Fuentes 1 de julio de 2022

BIBLIOGRAFÍA

Caparrini, F. S. (2021). Algoritmos de Clustering - Fernando Sancho Caparrini.

Fernando Sancho Caparrini. http://www.cs.us.es/%7Efsancho/?e=230

R. (2021, 3 diciembre). Los 10 Algoritmos esenciales en Machine Learning. Raona.

https://www.raona.com/los-10-algoritmos-esenciales-machine-

learning/#:%7E:text=M%C3%A9todos%20Ensemble%3A%20Los%20m%C3%

A9todos%20Ensemble,voto%20ponderado%20de%20sus%20predicciones.

Support Vector Machine (SVM). (2021a). MATLAB & Simulink.

https://la.mathworks.com/discovery/support-vector-

machine.html#:%7E:text=Support%20vector%20machine%20(SVM)%20es,rec

onocimiento%20de%20im%C3%A1genes%20y%20voz.

Support Vector Machine (SVM). (2021b). MATLAB & Simulink.

https://la.mathworks.com/discovery/support-vector-

machine.html#:%7E:text=Support%20vector%20machine%20(SVM)%20es,rec

onocimiento%20de%20im%C3%A1genes%20y%20voz.

También podría gustarte