Está en la página 1de 6

Informe de Problema de Clasificación.

Integrantes:

 Johader Cuellar.
 Lina Buitrago.

Contextualización del tema.

Considerando los inconvenientes de clasificación de la popularidad de artículos de información


que se evidencian en los medios digitales, se busca por medio de un modelo predecir si el articulo
próximo será o contará con popularidad en las redes sociales. Este tipo de análisis son eficientes
para temas de publicidad, marketing y otras actividades donde se pueden relacionar productos de
lanzamientos, promociones entre otras.

Bases.

Para el desarrollo de esta actividad es importante informar que se cuenta con una gran cantidad
de información cualitativa y cuantitativa repartida en las siguientes 54 columnas o variables de la
información.

1. título: Total de palabras en el título.


2. contenido: Total de palabras en el contenido.
3. unique_words: Tasa de palabras sin repetir en el contenido.
4. no_stopword: Tasa de palabras informativas en el contenido.
5. t_unique: Tasa de palabras únicas continuas en el contenido.
6. enlaces: Número de enlaces referenciados.
7. referencias: Número de citaciones del artículo
8. imag: Número de imágenes contenidas en el artículo.
9. Video: Número de videos contenidos en el artículo.
10. word_mean: Largo promedio de las palabras.
11. num_metadato: Número de palabras informativas de los metadatos.
12. d_estilo: El artículo corresponde a Estilo de Vida.
13. d_entretenimiento: El artículo corresponde a Entretenimiento.
14. d_negocios: El artículo corresponde a Negocios.
15. d_social: El artículo corresponde a Sociedad.
16. d_tecnologia: El artículo corresponde a Tecnología.
17. d_global: El artículo corresponde a contenido internacional.
18. min_ppc: Número mínimo mensual de artículos compartidos con palabras poco informativas.
19. max_ppc: Número máximo mensual de artículos compartidos con palabras poco informativas.
20. mean_ppc: Número promedio mensual de artículos compartidos con palabras poco
informativas.
21. min_mpc: Número mínimo mensual de artículos compartidos con palabras altamente
informativas.
22. max_mpc: Número máximo mensual de artículos compartidos con palabras altamente
informativas.
23. mean_mpc: Número promedio mensual de artículos compartidos con palabras altamente
informativas.
24. mean_minpc: Número mínimo de palabras del articulo compartido.
25. mean_maxpc: Número máximo de palabras del articulo compartido.
26. mean_meanpc: Número promedio de palabras del articulo compartido.
27. min_ref: Número mínimo de referencias del artículo compartido.
28. max_ref: Número máximo de referencias del artículo compartido.
29. mean_ref: Número promedio de referencias del artículo compartido.
30. lunes: El artículo se publicó un día lunes.
31. martes: El artículo se publicó un día martes.
32. miercoles: El artículo se publicó un día miércoles.
33. jueves: El artículo se publicó un día jueves.
34. viernes: El artículo se publicó un día viernes.
35. sabado: El artículo se publicó un día sábado.
36. domingo: El artículo se publicó un día domingo.
37. pun_1: Score de cercanía al tópico 1. 3
8. pun_2: Score de cercanía al tópico 2.
39. pun_3: Score de cercanía al tópico 3.
40. pun_4: Score de cercanía al tópico 4.
41. subj: Medida de subjetividad del texto.
42. sen_score: Índice sintético de sensibilidad.
43. ind_pp: Índice de sesgo del autor.
44. ind_pn: Tasa de palabras con connotación positiva.
45. ind_pp_nn: Tasa de palabras con connotación negativa.
46. ind_pn_nn: Tasa de palabras con connotación neutra.
47. mean_polp: Tasa promedio de sesgo de las palabras positivas.
48. min_polp: Tasa mínima de sesgo de las palabras positivas.
49. max_polp: Tasa máxima de sesgo de las palabras positivas.
50. mean_poln: Tasa promedio de sesgo de las palabras negativas.
51. min_poln: Tasa mínima de sesgo de las palabras negativas.
52. max_poln: Tasa máxima de sesgo de las palabras negativas.
53. plevel: Nivel absoluto de sesgo del texto. 54. popular: El artículo es popular (Variable objetivo).

Establecidas en bases de datos como train.csv que contiene la variable respuesta de popularidad,
en la base test.csv no, los resultados de un modelo anteriormente entrenado y en la ultima base
los verdaderos valores de Popularidad que se encuentran en el archivo respuestas.csv.

Metodología.

Teniendo en cuenta la información perteneciente a cada una de las bases se procede de la


siguiente forma:
Por medio del lenguaje de Python en el IDE de visual code, se realiza la carga de la información y
respectivamente un análisis de las variables encontradas.

 Respuesta: Archivo con una variable de identificación y una variable de respuesta


representada por uno (1) si el articulo es considerado popular y cero (0) si es, al
contrario. La cantidad de datos es de 15.857 datos totales, con un promedio de 0.22
aproximadamente, con un máximo de 1 y un mínimo de 0.
 Test: Con la cantidad de 15.857 datos y un aproximado de 54 variables categóricas y
cuantitativas, donde los promedios y demás datos pueden variar a la cantidad
relacionada o no, es de informar adicionalmente que la data Train cuenta con el número
de columnas iguales que la data Test solo que con una cantidad de 23.787 datos, un
33.3 % mas de datos.

En el momento no se evidencio datos faltantes o perdidos en la información recibida.

Estructuración de la información para la evaluación de las variables y la significancia.

Teniendo en cuenta que la información de Train esta constituida por variables categóricas y
numéricas, y dichas variables numéricas tienen valores exponencialmente diferentes se procese a
estandarizar la información con la función StandardScaler(). Con el fin de realizar un modelo de
regresión Logística y observar, explorar y definir las variables significativas con relación a la
variable de interés, en este caso la popularidad de los artículos.

Las variables con datos atípicos elevados y bajos que fueron representativos en la información se
seleccionaron de las siguientes variables:

'titulo','contenido','enlaces','referencias','imag','video','word_mean','num_metadato','min_ppc','m
ax_ppc','mean_ppc','min_mpc','max_mpc','mean_mpc','mean_minpc','mean_maxpc','mean_mean
pc','min_ref','max_ref','mean_ref’.

Se transforman y se procede a la evaluación con el modelo.

Modelo de Regresión Logística con la librería statsmodels.

El modelo usado es un Logit considerando el método Maximum Likelihood Estimation (MLE).


Donde la significancia se consideró a partir del Valor del P-Value fuese pequeño al 5%, es decir,
toda variable con un resultado mayor fue considerada no apta para un estudio posterior.

Las variables exógenas se consideraron las 54 de la información recibida y se obtuvo como


resultado solo 24, es decir un 46.15% relacionadas a continuación:

'titulo', 'contenido', 'unique_words', 'no_stopword', 't_unique', 'enlaces', 'referencias', 'imag',


'video', 'word_mean', 'num_metadato', 'd_estilo', 'd_entretenimiento', 'd_negocios', 'd_social',
'd_tecnologia', 'd_global', 'min_ppc', 'max_ppc', 'mean_ppc', 'min_mpc', 'max_mpc', 'mean_mpc',
'mean_minpc', 'mean_maxpc', 'mean_meanpc', 'min_ref', 'max_ref', 'mean_ref', 'lunes', 'martes',
'miercoles', 'jueves', 'viernes', 'sabado', 'domingo', 'pun_1', 'pun_2', 'pun_3', 'pun_4', 'subj',
'sen_score', 'ind_pp', 'ind_pn', 'ind_pp_nn', 'ind_pn_nn', 'mean_polp', 'min_polp', 'max_polp',
'mean_poln', 'min_poln', 'max_poln', 'plevel'

Se procede a un análisis descriptivo de los resultados de la variable respuesta no popular tiene una
participación del 77.30%, es decir la proporción de artículos considerados populares es solo del
22.70% del total de los casos reportados.

Evaluación de los Modelos predictores.

Regresión Logística.

Como primera etapa se realiza un entrenamiento de una regresión logística, con el uso de un
parámetro de Calibración obteniendo un valor muy bajo de 0.05 en AUC, accuracy del 48% y un
área bajo la curva de 0.48. En nuestra opinión es considerado un modelo adecuado para una
posible predicción más cercana.

 Análisis de datos teniendo en cuenta el modelo.


En este caso se procede a realizar una simulación con los datos estructurados teniendo en
cuentas las probabilidades de predicción.
Se desarrolla una tabla de predicción con una probabilidad mayor o igual al 10%, si el
puede clasificar dicho dato como popular en las redes de información o no.
Resultados:
Con el 10% el resultado fue de:

Predicción Cantidad de datos


No Popular 10908
Popular 4949

Se concluye que el modelo de Regresión Logística predice el 68.78% como artículos


populares y el restante como no populares. Teniendo como un segundo escenario con un
modelo un poco más ajustado en la probabilidad del 5% se evidencia la siguiente
información:

Resultados:
Con el 5% el resultado fue de:

Predicción Cantidad de datos


No Popular 10921
Popular 4936

Se establece que el modelo de Regresión Logística predice el 68.87% como artículos


populares y el restante como no populares. Existe un aumento en los artículos no
populares, es decir que aumento 0.08% ajustando la probabilidad en el cual aumentaron
los artículos no populares.

Valoración:
En un mercado de la industria de jabones se pretende por medio de la publicidad de una
red social lanzar un nuevo producto, si de los 15.857 artículos del producto solo 4.936 son
populares la empresa estaría perdiendo 10.921 de las publicaciones, si estos se les
considerara un valor económico de $4.000 significaría una pérdida muy significativa de
$43.684.000 COP en publicidad.
La precisión del modelo es baja ya que está en el 38.4%.
K – Nearest Neighbors.

Como una segunda etapa se realiza un método de KNN en el cual se obtiene un valor muy
bajo de 0.0518 en AUC y accuracy del 77.71%. En nuestra opinión es considerado un
modelo no adecuado para una posible predicción más cercana a la realidad.

 Análisis de datos teniendo en cuenta el modelo.


Se procede a realizar una simulación con los datos estructurados teniendo en cuentas las
probabilidades de predicción igual al modelo anterior. Se desarrolla una tabla de predicción
con una probabilidad mayor o igual al 10%, si él modelo puede clasificar dicho dato como
popular en las redes de información o no.

Resultados:
Con el 10% el resultado fue de:

Predicción Cantidad de datos


No Popular 15854
Popular 3

Se permite ver que el modelo por KNN predice el 99.98% como artículos no populares y el
restante como populares, es un modelo con más menos clasificación teniendo en cuenta
las probabilidades del modelo anterior.

Por otro lado, evaluamos el modelo en un segundo escenario un poco más ajustado en la
probabilidad del 5%, en el cual se evidencia la siguiente información:

Predicción Cantidad de datos


No Popular 15854
Popular 3

Se evidencia el mismo resultado al de la probabilidad anterior, como conclusión final es


recomendable usar un modelo de clasificación de regresión logística ya que este en una
inversión con el ejemplo anterior la perdida en la publicidad es considerablemente alta.

También podría gustarte