Documentos de Académico
Documentos de Profesional
Documentos de Cultura
-
Unidad 2. Minería de Datos
Actividad 3. Análisis de Datos
Licenciatura en Matemáticas
1.- ¿Cuántas variables son suficientes para explicar el conjunto de datos wine?
2.- ¿Cuántos diferentes centroides fueron suficientes para explicar lo mejor posible estos datos?
A continuación mostraremos las capturas de pantalla del análisis realizado en Python que atenderán estas
preguntas:
2
3
3.- Usando K-medios o SVM determinar qué tipo de plantas corresponden a los siguientes vectores:
Es importante destacar que no se proporciona información sobre los vectores mencionados, solo los
valores, así mismo se desconoce a que se refiere la pregunta con la palabra “plantas”, por lo que se asume
que son datos correspondientes a medidas o parámetros correspondientes a 3 tipos de plantas.
Dado que son 3 vectores, a lo mucho se puede realizar una clasificación de 3 tipos de plantas, sin embargo,
los vectores a y b tienen valores relativamente cercanos entre sí, por lo que podemos asumir que la
4
clasificación correspondiente a 2 tipos de plantas es la más adecuada. A continuación se muestra el
análisis empleando Python.
5
Observamos que considerar 2 clusters es lo más conveniente, así mismo, en la última línea de código
podemos observar las coordenadas de los 2 centroides, correspondientes a 2 tipos diferentes de
“plantas”.
El último vector difiere considerablemente de los otros 2 por ordenes de magnitud superiores a 10, por
lo que por sí solo puede ser considerado un centroide.
Fuentes
Witten, I. H. (20). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.
Caballero, Martín & Riesco. (2019). Big Data con Python. Recolección, almacenamiento y proceso. España:
Alfaomega Grupo Editor.
Devore, J.. (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México: Cengage Learning
Editores.