Está en la página 1de 4

INSTITUTO TECNOLÓGICO DE CIUDAD MADERO

Carrera: Ingeniería en Sistemas Computacionales

Maestra: Guadalupe Castilla Valdez

Materia: Tecnologías para Big Data

Grupo: 750B A

Alumno: Jorge Patricio Acevedo Arguelles

Numero de control: 18070580

Horario: 11:00 am - 12:00 pm

Actividad: Cuestionario de algoritmo de agrupación particional


K-Means
ALGORITMO DE AGRUPACIÓN PARTICIONAL K-MEANS
1. ¿Qué es K-Means?
R = Es un método de agrupamiento, que tiene como objetivo la partición de
un conjunto de n observaciones en k grupos en el que cada observación
pertenece al grupo cuyo valor medio es más cercano. Es un método utilizado
en minería de datos.

2. Describa los pasos del algoritmo K-Means


R=
Inicialización: una vez escogido el número de grupos, k, se
establecen k centroides en el espacio de los datos, por ejemplo, escogiéndolos
aleatoriamente.
Asignación objetos a los centroides: cada objeto de los datos es asignado a su
centroide más cercano.
Actualización centroides: se actualiza la posición del centroide de cada grupo
tomando como nuevo centroide la posición del promedio de los objetos
pertenecientes a dicho grupo.

3. ¿Qué resuelve dicho algoritmo?


R = Un problema de optimización, siendo la función a optimizar (minimizar) la
suma de las distancias cuadráticas de cada objeto al centroide de su clúster.

4. ¿Cómo se representan los objetos?


R = Con vectores reales de d dimensiones (x1,x2,…,xn)(x1,x2,…,xn) y el
algoritmo k-means construye k grupos donde se minimiza la suma de distancias
de los objetos, dentro de cada grupo S={S1,S2,…,Sk}S={S1,S2,…,Sk}, a su
centroide.

5. ¿Qué necesita K-Means como dato de entrada?


R = El número de grupos en los que vamos a segmentar la población. A partir de
este número k de clusters, el algoritmo coloca primero k puntos aleatorios
(centroides). Luego asigna a cualquiera de esos puntos todas las muestras con
las distancias más pequeñas.

6. ¿Qué se hace después de asignar el dato de entrada?


R = El punto se desplaza a la media de las muestras más cercanas. Esto generará
una nueva asignación de muestras, ya que algunas muestras están ahora más
cerca de otro centroide. Este proceso se repite de forma iterativa y los grupos se
van ajustando hasta que la asignación no cambia más moviendo los puntos.
7. ¿Qué es un Centroide?
R = Es un vector de medias para todas las variables utilizadas para las
observaciones dentro de cada grupo.

8. ¿Hasta cuándo se deja de repetir el proceso?


R = Hasta que ya no haya reasignaciones.

9. ¿Qué representa el resultado final?


R = El ajuste que maximiza la distancia entre los distintos grupos y minimiza la
distancia intragrupo.

10. ¿Qué distancia utiliza K-Means para saber si los datos son parecidos o
diferentes?
R = La distancia entre los datos. Las observaciones que se parecen tendrán una
menor distancia entre ellas. En general, como medida se utiliza la distancia
euclidiana, aunque también se pueden utilizar otras funciones.

11. ¿En dónde podemos aplicar K-Means?


R=
Segmentación de clientes
Agrupación de textos que hablan de temas similares
Geoestadística
Comunidades de redes sociales

12. ¿Cómo son considerados los algoritmos de clustering y cuál es su función?


R = Son considerados de aprendizaje no supervisado. Busca patrones en los
datos sin tener una predicción específica como objetivo (no hay variable
dependiente). En lugar de tener una salida, los datos solo tienen una entrada que
serían las múltiples variables que describen los datos.
BIBLIOGRAFÍA:
 https://estrategiastrading.com/k-means/

 J.A. Hartigan (1975). Clustering algorithms. John Wiley & Sons, Inc.

 https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.
html

 https://es.wikipedia.org/wiki/K-
medias#:~:text=K%2Dmedias%20es%20un%20m%C3%A9todo,valor%
20medio%20es%20m%C3%A1s%20cercano.&text=La%20agrupaci%C3
%B3n%20del%20conjunto%20de,datos%20en%20celdas%20de%20Vo
ronoi.

También podría gustarte