Está en la página 1de 6

Computación II.

-
Unidad 2. Minería de Datos
Actividad 3. Análisis de Datos

Universidad Abierta y a Distancia de México.

Licenciatura en Matemáticas

Actividad 3. Análisis de Datos


A continuación se presenta la tercer actividad correspondiente a la unidad 2 de la asignatura de
computación II en donde se determina una descripción estadística genérica sobre un conjunto de datos.

1.- ¿Cuántas variables son suficientes para explicar el conjunto de datos wine?
2.- ¿Cuántos diferentes centroides fueron suficientes para explicar lo mejor posible estos datos?
A continuación mostraremos las capturas de pantalla del análisis realizado en Python que atenderán estas
preguntas:

2
3
3.- Usando K-medios o SVM determinar qué tipo de plantas corresponden a los siguientes vectores:

a. 3.54, 2.32, 1.4, 0.2

b. 6.34, 2.75, 3.8, 1.4

c. 89.1333, 32.43, 20.10, 9.9

Es importante destacar que no se proporciona información sobre los vectores mencionados, solo los
valores, así mismo se desconoce a que se refiere la pregunta con la palabra “plantas”, por lo que se asume
que son datos correspondientes a medidas o parámetros correspondientes a 3 tipos de plantas.

Dado que son 3 vectores, a lo mucho se puede realizar una clasificación de 3 tipos de plantas, sin embargo,
los vectores a y b tienen valores relativamente cercanos entre sí, por lo que podemos asumir que la

4
clasificación correspondiente a 2 tipos de plantas es la más adecuada. A continuación se muestra el
análisis empleando Python.

5
Observamos que considerar 2 clusters es lo más conveniente, así mismo, en la última línea de código
podemos observar las coordenadas de los 2 centroides, correspondientes a 2 tipos diferentes de
“plantas”.

4.- ¿Qué puedes decir sobre el último vector?

El último vector difiere considerablemente de los otros 2 por ordenes de magnitud superiores a 10, por
lo que por sí solo puede ser considerado un centroide.

Fuentes

Witten, I. H. (20). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.

Caballero, Martín & Riesco. (2019). Big Data con Python. Recolección, almacenamiento y proceso. España:
Alfaomega Grupo Editor.

Triolla. (2009). Estadística. México: Pearson Educación.

Devore, J.. (2008). Probabilidad y Estadística para Ingeniería y Ciencias. México: Cengage Learning
Editores.

También podría gustarte