Documentos de Académico
Documentos de Profesional
Documentos de Cultura
AD INV Tema3 Grupo2
AD INV Tema3 Grupo2
CARRERA DE COMPUTACIÓN
SEMESTRE SÉPTIMO
INFORME
MATERIA:
ANÁLISIS DE DATOS
AUTORES:
PEDRO P. PROAÑO SOLÓRZANO
MANUEL A. ZAMBRANO SABANDO
FACILITADOR:
ING. JAVIER H. LÓPEZ ZAMBRANO
Según (Larrañaga et al., 2012) en la mayoría de los casos se busca realizar ese aprendizaje
a partir de información no estructurada y sin supervisión humana. En las últimas décadas, el
uso de técnicas de aprendizaje automático en aplicaciones en campos tan diversos como la
informática, la estadística, la robótica, la medicina, etc. se ha visto incrementado de manera
extraordinaria.
CLUSTERING PROBABILÍSTICO ( EM )
Los dos algoritmos anteriores presentan el mismo problema de dependencia del resultado
del orden en el que estén presentados los sujetos en la base de datos, y su tendencia a
sobre ajustar los clústeres obtenidos en las muestras de entrenamiento (Berzal, 2012).
1. Exploración inicial: testear las agrupaciones que aseguren una mayor homogeneidad
intragrupo y una mayor heterogeneidad intergrupal a partir de una serie de variables
de entrada.
2. Evaluación a partir de un criterio variable: probar si un conjunto de variables de
entrada puede emplearse como predictor de una variable de clase o variable criterio,
generando unas agrupaciones conforme al criterio en base a las puntuaciones
obtenidas en las variables predictoras.
Para este ejercicio vamos a utilizar un cvs sobre diabetes, una vez descargado
procederemos a utilizar la aplicación de Weka lo ejecutamos y le damos clic en Explorer.
Lo siguiente es abrir el csv de diabete, para ello nos dirimos a botón “open file”, buscamos
el csv en nuestro equipo y le damos en abrir.
Para este ejercicio vamos a evaluar el modelo con una variable en especifica, luego en el
Algoritmo EM, aplicamos por default, y le damos en Start.
Una vez se ha obtenido el modelo deseado, se puede guardar una nueva variable en la
base de datos con la asignación obtenida haciendo clic con el botón derecho del ratón sobre
el modelo en Results lists, seleccionar Visualice clusters assignments, y en la ventana
emergente hacer clic en Save. El archivo guardado incluirá las variables de la base de datos
original y una nueva variable con la asignación llevada a cabo por la técnica de clustering
aplicada.
CONCLUSIONES
En conclusión a resaltar no hay que confundir dos términos que son cluster y
clustering, ya que cluster vendría a ser un número de cosas o personas similares
agrupadas y el clustering ya seria el proceso de particionar en un conjunto de
sub-clases.
Las aplicaciones del clustering son muy diversas y requeridas para analizar cosas
que pasan a nuestro alrededor, como para reconocer áreas con cierta característica
de tierra (GIS) que sirven para detectar posibles fallas que ocasionen problemas en
el futuro, entre otras.
EM Probabilístico resalta por realizar una división más específica que otros
algoritmos. Se puede concluir que el algoritmo EM, siendo un algoritmo que realiza
clustering probabilístico, es más adecuado que otros algoritmos por ejemplo el
algoritmo k-medias por lo cual se escogió este para la demostración porque nos dio
mejores resultados.
BIBLIOGRAFÍA
Berzal, F. (2012). Clustering e Introducción a Medidas de similitud. Decsai, 1( 5), 35–50.
elvex.ugr.es/decsai/intelligent/slides/dm/D3 Clustering.pdf
Larrañaga, P., Inza, I., & Moujahid, A. (2012). Tema 14. Clustering. 1–11.
https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&ved=2ah
UKEwig3-ne88_nAhXOrFkKHbisDRUQFjADegQIBxAB&url=http%3A%2F%2Fww
w.sc.ehu.es%2Fccwbayes%2Fdocencia%2Fmmcc%2Fdocs%2Ft14clustering.pdf
&usg=AOvVaw2IBAoHOrXTyVbnd9Ld6M-n