Está en la página 1de 4

Computación II.

-
Unidad 2. Minería de Datos
Actividad 1. Clasificación de Algoritmos

Universidad Abierta y a Distancia de México.

Licenciatura en Matemáticas

Actividad 1. Clasificación de Algoritmos


A continuación se presenta la primer actividad correspondiente a la unidad 2 de la asignatura de
computación II en donde se aborda la naturaleza de los grandes datos.

1.- Considerando que los algoritmos se pueden clasificar en algoritmos supervisados y no supervisados,
y también en clasificación y regresión, investigar cómo se clasifican los siguientes algoritmos.

2.- Provee una pequeña descripción de cada uno y como lo podrías aplicar en un caso hipotético.

(Se realizan simultáneamente los 2 puntos)

a. Clustering jerárquico.- Es un método de minería de datos que se utiliza para agrupar datos
considerando la “distancia” entre cada uno de ellos y buscando que los datos que están dentro de un
“cluster” sean lo más similares entre sí. Una aplicación de dicho algoritmo es el empleado por páginas de
citas, como Tinder, en la cual, según las características, gustos, ubicaciones, entre otros parámetros se
agrupa a las personas para mostrarlas como posibles parejas. Desde una perspectiva empresarial,
podemos considerar las ubicaciones de personas que buscan en páginas de internet o redes sociales un
determinado producto o servicio, y con dicha información, establecer un tanto una cantidad como la
ubicación estratégica de tiendas o puestos que proporcionen dicho servicio o producto.
Son algoritmos de tipo no supervisado de clasificación.

b. Random forest.- Es un algoritmo que, como su nombre lo indica, crea un bosque de manera aleatoria,
generando múltiples arboles de decisión y un resultado de predicción para cada árbol de decisión;
posteriormente realiza una “votación” para cada resultado previsto, y al final selecciona el resultado de
la predicción que obtuvo más votos como predicción final. Una aplicación para este tipo de algoritmos es
clasificar a los solicitantes de un préstamo bancario, en donde el algoritmo, en base a su historial crediticio
y movimientos financieros, nos dirá quienes tienen la posibilidad de pagar el préstamo. Otra posible
aplicación esta relacionada con la evidencia de aprendizaje de la unidad anterior, en donde se manejó una
base de datos con las cualidades de un conjunto de marcas o tipos de vino; implementar el algoritmo de
bosque aleatorio no puede clasificar los vinos en “ligeros y pesados”, de acuerdo a cualidades como la
acidez, el nivel de alcohol, la concentración del sabor, entre otros parámetros.
Corresponde a un algoritmo supervisado de Clasificación, pero también se pueden emplear para la
regresión.

c. Red Neuronal de Hopfield .- Consiste en un algoritmo que almacena un conjunto de patrones de forma
que cuando se presente un nuevo patrón, la red responda produciendo alguno de los patrones
previamente almacenados que más se parezca al presentado. Debido a la característica de la red neuronal
de Hopfiel, esta puede servir como memoria asociativa, es decir, permiten regenerar información
incompleta o alterada por ruido, lo que las hace idóneas para implementarse en el reconocimiento de
imágenes; por ejemplo, en el reconocimiento facial empleado por los smartphones para desbloquear la
pantalla.
Corresponde a un algoritmo no supervisado de clasificación.

d. Self Organizing Maps.- Es un tipo particular de red neuronal que proporciona una forma de representar
datos numéricos multidimensionales en espacios vectoriales de dimensión inferior, por ejemplo en 2 o 3
dimensiones, mediante la preservación de propiedades topológicas de los datos. Una aplicación para este
tipo de algoritmo es considerar los diversos indicadores para medir la calidad de vida en los diferentes

2
países del mundo; al ejecutar el algoritmo obtendremos un tipo de clasificación que considera todos los
indicadores y nos proporciona una idea general sobre la calidad de vida de la población de diferentes
países, véase el siguiente ejemplo.

Corresponde a un algoritmo no supervisado de clasificación.

3.- Responde a los siguientes planteamientos:

• ¿Cuál es la clasificación de los algoritmos?

Dentro de la minería de datos, los algoritmos se pueden clasificar de acuerdo a la modalidad de


supervisión o de acuerdo sus características.

En el caso de su clasificación de acuerdo a la modalidad de supervisión, se tienen a los algoritmos


supervisados y no supervisados, en donde los primeros basan su aprendizaje en una colección de datos
de entrenamiento previamente etiquetado. En el caso de los algoritmos no supervisados, basan su
proceso de entrenamiento en una colección de datos sin etiquetas o clases previamente definidas, es
decir, se desconoce el valor de las categorías o clases.

En el caso de la clasificación de los algoritmos de acuerdo a sus características, se tiene a los algoritmos
de regresión, los cuales buscan predecir un atributo numérico; y a los algoritmos de clasificación, los
cuales buscan predecir un atributo de tipo categórico.

• ¿Qué es lo que hace diferente a cada algoritmo?

Lo que hace diferente a cada tipo de algoritmo es la forma en como se realizan las operaciones,
procedimientos y entrenamiento, es decir, su fundamento ideológico, teórico y operativo.

• ¿Cómo trabajan los diferentes tipos de algoritmos?

Los algoritmos trabajan mediante un conjunto de heuríticas (invenciones) y cálculos que permiten crear
un modelo a partir de datos. Para crear este modelo, el algoritmo, previamente entrenado, analiza los
datos proporcionados en busca de patrones o tendencias en repetidas ocasiones, determinando los
parámetros óptimos.

Diversos tipos de algoritmos buscan la “cercanía” o el “parentesco” entre los datos para establecer
categorías, lo que se realiza mediante propiedades topológicas o matriciales, mientras que otros realizan
procesos como interpolaciones, aproximaciones, o transformaciones para predecir resultados. Por otra
parte, otros algoritmos generan arboles de decisión y analizan el “peso” o las “votaciones” de dichas
decisiones.

3
Fuentes

Witten, I. H. (20). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.

Caballero, Martín & Riesco. (2019). Big Data con Python. Recolección, almacenamiento y proceso. España:
Alfaomega Grupo Editor.

Triolla. (2009). Estadística. México: Pearson Educación.

Devore, J.. (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México: Cengage Learning
Editores.

También podría gustarte