Está en la página 1de 7

Unidad 2.

Minería de datos

Actividad 1. Naturaleza de los grandes datos.

Alumno: Adrián Toledano Sánchez


Matricula: ES1921013601
Grupo: MT-MCOM2-2202-B2-001
Asignatura: Computación 1
Prof.: JOSÉ LUIS MONDRAGÓN DIEGO
Licenciatura: Matemáticas

20 de octubre de 2022
Universidad Abierta y a Distancia de México
Actividad 1. Naturaleza de los grandes datos.

Indicaciones de la actividad: En esta actividad vas a clasificar algunos


algoritmos muy comunes en el aprendizaje de máquina con una breve
descripción de ellos.

1. Considerando que los algoritmos se pueden clasificar en algoritmos


supervisados y no supervisados, y también en clasificación y
regresión, investigar cómo se clasifican los siguientes algoritmos

Algoritmo Algoritmos supervisados Algoritmos de aprendizaje


de aprendizaje automático automático no
supervisados
Clustering X
jerárquico
Random forest X
Red neuronal X
artificial
Self X
Organizing
Maps

2. Provee una pequeña descripción de cada uno y como lo podrías


aplicar en un caso hipotético.

a. Clustering jerárquico
El Clustering Jerárquico (agrupamiento jerárquico o Hierarchical Clustering en
inglés), es un método de data mining (Minería de datos) para agrupar datos en
clases, tal que objetos dentro de una clase sean lo más semejantes entre sí,
pero muy diferentes con otros objetos de otra clase. El algoritmo de clúster
jerárquico agrupa los datos basándose en la distancia entre cada uno y
buscando que los datos que están dentro de un clúster sean los más similares
entre sí. Un clúster es una colección de datos u objetos que son similares entre
sí dentro del mismo clúster y diferentes a otros objetos en otros clústeres
(Romero, 2019).
En una representación gráfica los elementos quedan anidados en jerarquías con
forma de árbol.

Figura 1. Cluster jerárquico en forma de árbol

b. Random forest
Un Random Forest es un conjunto (ensemble) de árboles de
decisión combinados con bagging. Al usar bagging, lo que en realidad está
pasando, es que distintos árboles ven distintas porciones de los datos. Ningún
árbol ve todos los datos de entrenamiento. Esto hace que cada árbol se entrene
con distintas muestras de datos para un mismo problema. De esta forma, al
combinar sus resultados, unos errores se compensan con otros y tenemos una
predicción que generaliza mejor (Martínez, 2020).

Figura 2: Algoritmo Random Forest


c. Red Neuronal de Hopfield

En este tipo de red se toma como parámetro de medición el tiempo, entre otros
factores, se puede utilizar para resolver problemas de optimización o como
memoria asociativa. Para ésta RNA, las entradas suelen ser binarias.
Es una red Monocapa, con N neuronas, la que tiene por salida 0 o 1. En esta
red existe la retroalimentación, sin embargo, la salida de una neurona no es
entrada de la misma.
Las redes se pueden concebir como grafos con nodos y enlaces. Se organizan
por capas, la primera es de entrada, las siguientes son denominadas ocultas, y
finalmente la capa de salida (Martínez, 2020).

Aplicación: Clasificar la evolución de los pacientes y explorar los factores


relacionados.

d. Self Organizing Maps


Un mapa autoorganizado (self-organizing map, SOM) o un mapa
autoorganizado de características (self-organizing feature map, SOFM) es un
tipo de red neuronal artificial (ANN por sus siglas en inglés), que es entrenada
usando aprendizaje no supervisado para producir una representación discreta
del espacio de las muestras de entrada, llamado mapa.
Estos usan una función de vecindad para preservar las
propiedades topológicas del espacio de entrada (Self Organizing Maps, s. f.).

3. Responde a los siguientes planteamientos:

• ¿Cuál es la clasificación de los algoritmos?


Las técnicas de minería de datos se eligen basándose en el tipo de datos a
analizar, el tipo de conocimiento o patrones a extraer de los datos y la forma en
la que se utilizará el conocimiento. Esto nos arroja la siguiente clasificación
(Benedet, s.f):
1. Algoritmos supervisados de aprendizaje automático, que se utilizan para
clasificar los datos estructurados.

2. Algoritmos de aprendizaje automático no supervisados, que son los que


se utilizan para la exploración de datos no etiquetados.

3. Algoritmos de aprendizaje automático semi-supervisados, que son una


combinación de las metodologías mencionadas anteriormente.

Por otra parte, según Francisco Javier Martínez de Pisón Ascacíbar (citado en
Romero, 2019) “en la práctica, quizás, una de las clasificaciones más
interesantes de los algoritmos de minería de datos es la que corresponde con
su función”, entonces se pueden clasificar:
Tipos de algoritmos de minería de datos

- Algoritmos de clasificación: predicen una o más variables discretas,


basándose en los demás atributos del conjunto de datos.
- Algoritmos de regresión: predicen una o más variables numéricas
continuas, como pérdidas o ganancias, basándose en otros atributos del
conjunto de datos.
- Algoritmos de segmentación: dividen los datos en grupos, o clústeres, de
elementos que tienen propiedades similares.
- Algoritmos de asociación: buscan correlaciones entre diferentes atributos
de un conjunto de datos. La aplicación más común de esta clase de
algoritmo es la creación de reglas de asociación, que pueden usarse en
un análisis de la cesta de compra.
- Algoritmos de análisis de secuencias: resumen las secuencias frecuentes
o episodios en los datos, como una serie de clics en un sitio web o una
serie de eventos de registro que preceden al mantenimiento del equipo.

Si se considera también algoritmos que apoyen a las tareas previas de


preprocesado y preparación de los datos, se puede añadir:
• Técnicas de visualización multivariante.
• Algoritmos de detección y eliminación de datos atípicos.
• Algoritmos de detección de datos ausentes y rellenado de los mismos.

• ¿Qué es lo que hace diferente a cada algoritmo?


Para usar algunas técnicas y/o algoritmos de Minería de datos, es necesario
contar con los datos preparados, conocer su descripción, y para seleccionar la
técnica, se requiere saber el tipo de dato (Benedet, s. f.; Romero, 2019).
El modelo de minería de datos que crea un algoritmo a partir de los datos puede
tomar diversas formas, incluyendo:
• Un conjunto de clústeres que describe cómo se relacionan los casos de
un conjunto de datos.
• Un árbol de decisión que predice un resultado y que describe cómo
afectan a este los distintos criterios.
• Un modelo matemático que predice las ventas.
• Un conjunto de reglas que describen cómo se agrupan los productos en
una transacción, y las probabilidades de que dichos productos se
adquieran juntos.

• ¿Cómo trabajan los diferentes tipos de algoritmos?

Un algoritmo en minería de datos (o aprendizaje automático) es un conjunto de


heurísticas y cálculos que permiten crear un modelo a partir de datos (Algoritmos
de minería de datos, 2022). Para crear un modelo, el algoritmo analiza primero
los datos proporcionados, en busca de tipos específicos de patrones o
tendencias. El algoritmo usa los resultados de este análisis en un gran número
de iteraciones para determinar los parámetros óptimos para crear el modelo de
minería de datos. A continuación, estos parámetros se aplican en todo el
conjunto de datos para extraer patrones procesables y estadísticas detalladas.
Fuentes consultadas
Algoritmos de minería de datos (Analysis Services: Minería de datos).
(septiembre 27, 2022). Microsoft [web]. https://learn.microsoft.com/es-
es/analysis-services/data-mining/data-mining-algorithms-analysis-services-
data-mining?view=asallproducts-allversions

Benedet, M. (s. f). Qué es data mining, cómo funciona, algoritmos y ejemplos.
19/10/2022. https://blog.mdcloud.es/que-es-data-mining-algoritmos-y-ejemplos/

Duk2. (s. f.). Algoritmos de Data Mining para agrupar datos – Clustering
Jerárquico. 19/10/2022. https://estrategiastrading.com/clustering-jerarquico/

Martínez Heras, J. (septiembre 18, 2020). Random Forest (Bosque Aleatorio):


combinando árboles. https://www.iartificial.net/random-forest-bosque-aleatorio/

Romero, J. (junio 20, 2019). Técnicas y algoritmos de Minería de Datos.


https://jorgeromero.net/tecnicas-y-algoritmos-de-mineria-de-
datos/#Redes_neuronales_artificiales

SOM/KOHONEN Network. Mapas Auto-organizativos. (s. f.). SOM/KOHONEN


Network. Mapas Auto-organizativos [PDF]. 20/10/2022.
https://www.inf.utfsm.cl/~hallende/bajadas/Cap6SOM.pdf

También podría gustarte