Está en la página 1de 5

Instituto Tecnológico De las Américas

Asignatura:
Minería de Datos e Inteligencia de Negocios
Tema:
Aprendizaje No Supervisado
Sustentado por:

Ámbar Rocío Caraballo Rubecindo


Matrícula:
2019-7408
Grupo:
#4
Instructor:
Jorge Ramón Taveras
Fecha:
07/03/2021
Aprendizaje no supervisado
Hablando del aprendizaje no supervisado, a diferencia del supervisado, en los no supervisados no
es necesario disponer de la respuesta correcta en los datos de entrenamiento. Ya que no se busaca
la reproducción de un resultado conocido, sino el descubrimiento de nuevos patrones o
resultados.
Estos problemas aparentan ser más complejos que los supervisados. Ya que se espera que el
modelo aprenda sin decirle el qué. Los problemas más habituales en este tipo de aprendizaje son
los de clúster. En estos se busca grupos de registros que son similares entres si y, al mismo
tiempo, diferentes del resto. Una vez obtenidos los grupos se le ha de asignar una clasificación a
cada uno, la cual puede ser conocida o no antes de entrenar el modelo. Lo que muchas veces
lleva al descubrimiento de patrones desconocidos. Por ejemplo, en una tienda la agrupación de
clientes puede llevar a diferencias entre los clientes fieles o de conveniencia. Descubriendo al
mismo tiempo otras categorías de estos que se desconocían previamente. Estos nuevos grupos se
pueden utilizar posteriormente para realizar campañas específicas al poder identificar sus
intereses y preferencias comunes.
En el pequeño mapa mostrado a continuación se muestran algunas de las características del
Aprendizaje No Supervisado:
Clasificación de aprendizaje no supervisado
El aprendizaje no supervisado se puede clasificar en dos categorías:

- Aprendizaje no supervisado paramétrico

En este caso, suponemos una distribución paramétrica de datos. Supone que los datos de muestra
provienen de una población que sigue una distribución de probabilidad basada en un conjunto
fijo de parámetros. Teóricamente, en una familia normal de distribuciones, todos los miembros
tienen la misma forma y están parametrizados por la media y la desviación estándar, eso significa
que, si conoce el promedio y la desviación estándar y que la distribución es normal, conoce la
probabilidad de cualquier observación futura. El aprendizaje no supervisado paramétrico implica
la construcción de modelos de mezclas gaussianas y el uso del algoritmo de maximización de
expectativas para predecir la clase de la muestra en cuestión. Este caso es mucho más difícil que
el aprendizaje supervisado estándar porque no hay etiquetas de respuesta disponibles y, por lo
tanto, no hay una medida exacta de precisión disponible para verificar el resultado.

- Aprendizaje no supervisado no paramétrico

En esta versión, los datos se agrupan en grupos, donde cada grupo dice algo acerca de las
categorías y clases presentes en los datos. Este método se usa comúnmente para modelar y
analizar datos con pequeños tamaños de muestra. A diferencia de los modelos paramétricos, los
modelos no paramétricos no requieren que el modelador haga suposiciones sobre la distribución
de la población, y a veces se los conoce como un método libre de distribución.

Los algoritmos de agrupamiento más comunes incluyen:

 Agrupación de clústeres k-Means: divide datos en clústeres distintos según la


distancia al centroide de un clúster.
 Agrupamiento jerárquico: crea una jerarquía multinivel de clústeres mediante la
creación de un árbol de clústeres.
 Mezclas de modelos gaussianos: clústeres de modelos como una mezcla de
componentes de densidad normal multivariante.

Algoritmos de aprendizaje no supervisado

Agrupamiento o Clustering

El agrupamiento puede considerarse el problema de aprendizaje no supervisado más importante,


entonces, como cualquier otro problema de este tipo, se trata de encontrar una estructura en una
colección de datos sin etiqueta. Una definición amplia de clustering podría ser, el proceso de
organizar objetos en grupos cuyos miembros son similares de alguna manera. Un clúster es, por
lo tanto, una colección de objetos que son similares entre ellos y son diferentes a los objetos que
pertenecen a otros clústeres.

Los algoritmos de agrupación se pueden clasificar como se detalla a continuación:

1) Agrupamiento exclusivo: los datos se agrupan de manera exclusiva, de modo que si un


cierto punto de datos pertenece a un grupo definido, entonces podría no ser incluido en
otro clúster.

2) Superposición de clústeres: usa conjuntos difusos para agrupar datos, de modo que cada
punto puede pertenecer a dos o más clústeres con diferentes grados de membresía. En
este caso, los datos se asociarán con un valor de membresía apropiado.

3) Agrupamiento jerárquico: se basa en la unión entre los dos clústeres más cercanos. La
condición de inicio se realiza estableciendo cada punto de datos como un clúster, después
de algunas iteraciones alcanza los clústeres finales deseados.

4) Agrupación probabilística: utiliza un enfoque probabilístico.

Algoritmo K-means

K-means es un algoritmo de clasificación no supervisada (clusterización) que agrupa objetos


en k grupos basándose en sus características. El agrupamiento se realiza minimizando la suma de
distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la distancia
cuadrática.

El algoritmo consta de tres pasos:

1. Inicialización: una vez escogido el número de grupos, k, se


establecen k centroides en el espacio de los datos, por ejemplo, escogiéndolos
aleatoriamente.
2. Asignación objetos a los centroides: cada objeto de los datos es asignado a su
centroide más cercano.
3. Actualización centroides: se actualiza la posición del centroide de cada grupo
tomando como nuevo centroide la posición del promedio de los objetos
pertenecientes a dicho grupo.
Bibliografía
 Todo sobre aprendizaje no supervisado en Machine Learning - 🤖 Aprende IA
 Aprendizaje no supervisado - Wikipedia, la enciclopedia libre
 Machine learning: conoce qué es y las diferencias entre sus tipos (blogthinkbig.com)
 kmeans (unioviedo.es)

También podría gustarte