Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clasificación con
máquina de vectores
de soporte y redes de
neuronas
Actividad 2
Realizado por: Quisaguano Paredes, Fernando
Ciudad: Quito
Fecha: 4 de junio 2021
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
Descripción de la actividad
El conjunto de datos con el cual vamos a trabajar se encuentra en el siguiente link.
https://www.kaggle.com/iabhishekofficial/mobile-price-classification#train.csv
battery_power Energía total que una batería puede almacenar en un tiempo medido en mAh
blue Tiene bluetooth o no
clock_speed velocidad a la que el microprocesador ejecuta instrucciones
dual_sim Tiene soporte dual sim o no
fc Megapíxeles de la cámara frontal
four_g Tiene 4G o no
int_memory Memoria interna en gigabytes
m_dep Profundidad móvil en cm
mobile_wt Peso del teléfono móvil
n_cores Número de núcleos de procesador
pc Megapíxeles de la cámara principal
px_height Altura de resolución de píxeles
px_width Ancho de resolución de píxeles
ram Memoria de acceso aleatorio en megabytes
sc_h Altura de la pantalla del móvil en cm
sc_w Ancho de pantalla del móvil en cm
© Universidad Internacional de La Rioja (UNIR)
talk_time más tiempo que durará una sola carga de batería cuando esté hablando
three_g Tiene 3G o no
touch_screen Tiene pantalla táctil o no
wifi Tiene wifi o no
Actividades 1
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
• Datos estadísticos
© Universidad Internacional de La Rioja (UNIR)
Actividades 2
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
Actividades 3
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
Una posibilidad sería seleccionar alguna técnica de “feature selection” para escoger
las variables que presenten un mejor desempeño para entrenamiento.
También se podría obtener la importancia de estas variables con la variable objetivo
por medio de random forest.
Como vemos la variable más importante es ram, seguida de las más correlacionadas,
© Universidad Internacional de La Rioja (UNIR)
pero también se ve que no se podría descartar mobile_wt el peso del teléfono casi a
la par con la memoria del teléfono int_memory aun teniendo correlación muy baja
con precio del teléfono. Se observa que las variables que identificamos como posibles
categóricas son las de menos importantes para el desarrollo del modelo. Por lo tanto,
Actividades 4
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
Clasificador SVM:
© Universidad Internacional de La Rioja (UNIR)
Actividades 5
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
El mejor modelo nos muestra costo de 10 para un mejor desenpeño del modelo con
error bajo y baja dispersión.
Actividades 6
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
Se obtiene un modelo con acurrency 0.962 que es bastante bueno ya que logra
clasificar gran parte de los datos.
b) ¿Qué podríamos inferir de este gráfico?
En el Figura 10 tenemos los vectores de soporte se pintan con “x” y los demás puntos
con “o”. La dispersión de los datos se muestran una forma lineal. Al ser “ram” una
variable altamente correlacionada con la variable objetivo se muestra se forma
similar las particiones lineales del SVM de 4 clases (0,1,2,3).
© Universidad Internacional de La Rioja (UNIR)
Actividades 7
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
c)
Realizamos la predicción de un nuevo modelo para un kernel radial, ahora también
incluimos la variable gamma. Y escogemos el mejor modelo como observamos en la
Figura 11.
Ahora se obtiene un coste 0.001 y gamma de 0.5 teniendo un error alto de 0.76 sin
poderlo bajar. En la Figura 12 observamos que solo se pudo predecir relativamente
bien la clase 1 de ahí el error 0.76. y el accurancy de 0.26.
© Universidad Internacional de La Rioja (UNIR)
Actividades 8
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
¿Por qué la diferencia de resultados? Comenta la diferencia que existe entre los dos
modelos (lineal, radial).
De aquí podemos llegar a la conclusión que utilizar un kernel radial para un problema
que mostraba claramente una dispersión lineal como la (Figura 10). No es lo correcto.
En la Figura 14 se muestra con mayor detalle los valores que tomaron estas
neuronas para inferir en la activación de la salida en este caso la clasificación de
4 clases (0,1,2,3) También en azul se ver el bias de cada neurona.
© Universidad Internacional de La Rioja (UNIR)
Actividades 9
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
b)
El resultado de este modelo Figura 15, con accurancy 0.968 es ligeramente superior
al modelo con SVM lineal con tan solo 3 neuronas en la capa oculta. Este resultado
se debe al clasificar un poco mejor a la clase 2 respecto de SVM. Figura 9.
Actividades 10
Asignatura Datos del alumno Fecha
Apellidos: Quisaguano Paredes
Aprendizaje Automático 4-06-2021
Nombre: Fernando
Comentarios adicionales
• En esta practica observamos con el mismo conjunto de datos dos formas de
predecir la misma variable objetivo. Se obtuvo buenos resultados con ambos
modelos, un preprocesamiento (escalamiento) de los datos facilita en gran
medida el entrenamiento del modelo SVM.
• El entrenamiento de SVM es relativamente rápido comparado con NN, pero
al buscar un coste ideal (función tune) se encarece el coste computacional
(tiempo de ejecución) sobre todo con conjunto de datos relativamente
grandes.
© Universidad Internacional de La Rioja (UNIR)
Actividades 11