Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Informe de Problema de Clasificación
Informe de Problema de Clasificación
Integrantes:
Johader Cuellar.
Lina Buitrago.
Bases.
Para el desarrollo de esta actividad es importante informar que se cuenta con una gran cantidad
de información cualitativa y cuantitativa repartida en las siguientes 54 columnas o variables de la
información.
Establecidas en bases de datos como train.csv que contiene la variable respuesta de popularidad,
en la base test.csv no, los resultados de un modelo anteriormente entrenado y en la ultima base
los verdaderos valores de Popularidad que se encuentran en el archivo respuestas.csv.
Metodología.
Teniendo en cuenta que la información de Train esta constituida por variables categóricas y
numéricas, y dichas variables numéricas tienen valores exponencialmente diferentes se procese a
estandarizar la información con la función StandardScaler(). Con el fin de realizar un modelo de
regresión Logística y observar, explorar y definir las variables significativas con relación a la
variable de interés, en este caso la popularidad de los artículos.
Las variables con datos atípicos elevados y bajos que fueron representativos en la información se
seleccionaron de las siguientes variables:
'titulo','contenido','enlaces','referencias','imag','video','word_mean','num_metadato','min_ppc','m
ax_ppc','mean_ppc','min_mpc','max_mpc','mean_mpc','mean_minpc','mean_maxpc','mean_mean
pc','min_ref','max_ref','mean_ref’.
Se procede a un análisis descriptivo de los resultados de la variable respuesta no popular tiene una
participación del 77.30%, es decir la proporción de artículos considerados populares es solo del
22.70% del total de los casos reportados.
Regresión Logística.
Como primera etapa se realiza un entrenamiento de una regresión logística, con el uso de un
parámetro de Calibración obteniendo un valor muy bajo de 0.05 en AUC, accuracy del 48% y un
área bajo la curva de 0.48. En nuestra opinión es considerado un modelo adecuado para una
posible predicción más cercana.
Resultados:
Con el 5% el resultado fue de:
Valoración:
En un mercado de la industria de jabones se pretende por medio de la publicidad de una
red social lanzar un nuevo producto, si de los 15.857 artículos del producto solo 4.936 son
populares la empresa estaría perdiendo 10.921 de las publicaciones, si estos se les
considerara un valor económico de $4.000 significaría una pérdida muy significativa de
$43.684.000 COP en publicidad.
La precisión del modelo es baja ya que está en el 38.4%.
K – Nearest Neighbors.
Como una segunda etapa se realiza un método de KNN en el cual se obtiene un valor muy
bajo de 0.0518 en AUC y accuracy del 77.71%. En nuestra opinión es considerado un
modelo no adecuado para una posible predicción más cercana a la realidad.
Resultados:
Con el 10% el resultado fue de:
Se permite ver que el modelo por KNN predice el 99.98% como artículos no populares y el
restante como populares, es un modelo con más menos clasificación teniendo en cuenta
las probabilidades del modelo anterior.
Por otro lado, evaluamos el modelo en un segundo escenario un poco más ajustado en la
probabilidad del 5%, en el cual se evidencia la siguiente información: