ML Edwin Hurtado

FUNDACION UNIVERSITARIA EMPRESARIAL DE LA CCB
Diplomado en inteligencia artificial
ESTUDIANTES:
EDWIN HURTADO RUIZ
Entregado a:
Ing. Leonardo Valderrama García
17 de septiembre de 2023
FUNDACION UNIVERSITARIA EMPRESARIAL DE LA CCB

Bogotá DC
2023
INTRODUCCION
En el contexto actual, la percepción de los clientes y usuarios es de vital importancia para

cualquier empresa o marca. La capacidad de comprender cómo se sienten los clientes
acerca de un producto o servicio puede marcar la diferencia entre el éxito y el fracaso en el
mercado. Sin embargo, la recopilación y el análisis de las opiniones de los clientes de
manera manual puede resultar ser una tarea compleja y poco eficiente. Aquí es donde la
Inteligencia Artificial y el Aprendizaje automático entran en juego como aliados poderosos.
En este laboratorio, abordaremos una problemática clave: la clasificación de comentarios de

clientes para analizar la percepción de un producto o marca. Nos enfrentamos al desafío de
definir de manera automática si un comentario específico de un cliente es positivo, negativo
o neutral. Esto no solo ahorra tiempo y recursos, sino que también permite una
comprensión más profunda y rápida de cómo los clientes ven un producto o servicio en
particular.
OBJETIVOS
• Realizar un análisis exploratorio de los datos para comprender su estructura,

identificar características clave y evaluar la calidad de los datos.
• Preprocesar los datos, incluyendo la limpieza de texto y la transformación de
características, para prepararlos para el modelado.
• Organizar los datos en conjuntos de entrenamiento y prueba
• Entrenar el modelo utilizando el conjunto de entrenamiento.
• Realizar predicciones en el conjunto de prueba y evaluar el rendimiento del modelo.
• Utilizar métricas de evaluación, como la precisión, el recall y el valor F1, para
medir el rendimiento del modelo.
DESARROLLO DEL TALLER
Paso 1: importar las librerías que serán necesarias para nuestro ejercicio.
Paso 2: cargamos el dataset y hacemos un análisis exploratorio sobre los datos cargados.
Obtuvimos como resultado que se cuenta con una cantidad de registros de 50.000, este es
un archivo con 2 columnas (review, sentiment)
Los datos se caracterizan en dos estados: positivo y negativo, de los cuales el 50%
corresponde a cada estado.
Generamos una gráfica de barras para identificar la cantidad de datos.
Paso 3. Procesamiento de los datos
Limpieza de Texto: Los comentarios pueden contener ruido en forma de signos de

puntuación, caracteres especiales, números, etc. La limpieza de texto implica eliminar estos
elementos no deseados para simplificar el procesamiento.
data['review'] = data['review'].apply(limpiar_texto)
Esto asegura que las palabras escritas en mayúscula y minúscula se traten de la misma
manera y se reduzca la complejidad.
División de Datos: Antes de entrenar un modelo, debes dividir tus datos en conjuntos de
entrenamiento y prueba para evaluar el rendimiento del modelo. La mayoría de las veces, se
utiliza una proporción como 70% para entrenamiento y 30% para prueba.
El procesamiento de datos es un paso esencial para asegurarte de que los datos estén en un
formato adecuado para que el modelo de Machine Learning los comprenda y aprenda
patrones relevantes. Una vez que se haya realizado el procesamiento, los datos estarán
listos para ser utilizados en el entrenamiento y la evaluación de modelos de clasificación de
comentarios.
Paso 4. Dividir los datos en entrenamiento y prueba
Se generaron dos conjuntos: entrenamiento y pruebas.

En el conjunto de entrenamiento se utilizó para entrenar el modelo de clasificación de
comentarios.
El conjunto de pruebas para evaluar el rendimiento del modelo, y se utilizaron los datos de
prueba para medir la precisión y otras métricas del modelo entrenado.
Paso 5: Crear un vectorizador TF/IDF
Se creó un vector que transforma los textos de los comentarios en representaciones

numéricas mediante la técnica TF/IDF
TF, mide la frecuencia de una palabra en un texto, mientras más aparece la palabra, mayor
frecuencia.
IDF, mide la importancia de una palabra, las mas comunes tiene menos importancia,
mientras que las palabras raras, tiene una importancia mayor.
Paso 6: Entrenar un modelo de clasificación

clf es una convención común para nombrar al modelo o clasificador. En este caso, se crea
una instancia del clasificador Naive Bayes Multinomial utilizando la clase
MultinomialNB de scikit-learn. Este clasificador es apropiado para problemas de

clasificación de texto, como la clasificación de comentarios, donde los datos de entrada
suelen representar la frecuencia de ocurrencia de palabras.
X_train_tfidf: Representa las características de entrenamiento, que en este caso son las
representaciones TF-IDF de los comentarios de entrenamiento. Cada fila de esta matriz
corresponde a un comentario y cada columna corresponde a una palabra o característica del
conjunto de datos.
y_train: Representa las etiquetas de entrenamiento, que son las categorías (positivo,
negativo o neutral) a las que pertenecen los comentarios de entrenamiento. Debe haber una
etiqueta correspondiente para cada comentario en X_train_tfidf.
Paso Evaluar el modelo

la exactitud es del 85.33%, lo que significa que el modelo clasificó correctamente
aproximadamente el 85.33% de los comentarios en el conjunto de prueba.
El reporte de clasificación muestra varias métricas para cada clase (en este caso, "negative"
y "positive"):
Precision: Mide la proporción de instancias positivas (en este caso, comentarios positivos)
que fueron clasificadas correctamente como positivas. Para la clase "negative", la precisión
es del 85%, lo que significa que el 85% de los comentarios clasificados como "negative"
fueron verdaderamente negativos. Para la clase "positive", la precisión también es del 85%,
lo que significa que el 85% de los comentarios clasificados como "positive" fueron
verdaderamente positivos.
Recall (Sensibilidad): Mide la proporción de instancias positivas que fueron correctamente

clasificadas por el modelo. Para la clase "negative", el recall es del 85%, lo que significa
que el 85% de los comentarios realmente negativos fueron identificados por el modelo
como "negative". Para la clase "positive", el recall también es del 85%, lo que significa que
el 85% de los comentarios realmente positivos fueron identificados como "positive".
F1-Score: El F1-Score es la media armónica de precisión y recall. Proporciona una medida

del equilibrio entre precisión y recall. Tanto para la clase "negative" como para la clase
"positive", el F1-Score es del 85%.
Support: Indica la cantidad de instancias en cada clase en el conjunto de prueba.
La matriz de confusión muestra los resultados detallados de las clasificaciones del modelo.
La matriz se divide en cuatro partes: verdaderos positivos (TP), verdaderos negativos (TN),
falsos positivos (FP) y falsos negativos (FN).
En este caso, se tuvo:
4,229 verdaderos positivos (comentarios positivos correctamente clasificados).
4,304 verdaderos negativos (comentarios negativos correctamente clasificados).
732 falsos positivos (comentarios negativos incorrectamente clasificados como positivos).
735 falsos negativos (comentarios positivos incorrectamente clasificados como negativos).

Paso 9: Implementar la clasificación de comentarios en consola
En este ultimo paso, se toma una frase de entrada, para luego se elimina los signos, o demás
(Limpiar el texto)
Luego de procesada la frase se convierte en un vector numérico que el modelo pueda
entender.
Luego se utiliza el modelo de clasificación para predecir la clase a la que pertenece, para
determinar si la clase es positiva o negativa.
Con [0] se obtiene el primer elemento del resultado, que es la clase predicha.
Y finalmente hacemos una prueba con una frase:

CONCLUSION
En el transcurso de este taller, hemos abordado la problemática de la clasificación de

comentarios para analizar la percepción de los clientes hacia un producto o marca
utilizando técnicas de aprendizaje automático. A través del procesamiento de datos,
modelamiento y evaluación, hemos logrado resultados prometedores.
taller ha demostrado cómo aplicar técnicas de aprendizaje automático para abordar una
problemática real relacionada con la percepción del cliente hacia productos o marcas a
través de la clasificación de comentarios. El modelo desarrollado es un punto de partida
sólido y puede ser una herramienta valiosa para las empresas en la toma de decisiones y la
comprensión de la opinión de los clientes.

ML Edwin Hurtado

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ML Edwin Hurtado

Cargado por

Copyright:

Formatos disponibles

FUNDACION UNIVERSITARIA EMPRESARIAL DE LA CCB

Diplomado en inteligencia artificial

EDWIN HURTADO RUIZ

FUNDACION UNIVERSITARIA EMPRESARIAL DE LA CCB

En el contexto actual, la percepción de los clientes y usuarios es de vital importancia para

En este laboratorio, abordaremos una problemática clave: la clasificación de comentarios de

• Realizar un análisis exploratorio de los datos para comprender su estructura,

Paso 3. Procesamiento de los datos

Limpieza de Texto: Los comentarios pueden contener ruido en forma de signos de

Paso 4. Dividir los datos en entrenamiento y prueba

Se generaron dos conjuntos: entrenamiento y pruebas.

Paso 5: Crear un vectorizador TF/IDF

Se creó un vector que transforma los textos de los comentarios en representaciones

Paso 6: Entrenar un modelo de clasificación

MultinomialNB de scikit-learn. Este clasificador es apropiado para problemas de

Paso Evaluar el modelo

Recall (Sensibilidad): Mide la proporción de instancias positivas que fueron correctamente

F1-Score: El F1-Score es la media armónica de precisión y recall. Proporciona una medida

Support: Indica la cantidad de instancias en cada clase en el conjunto de prueba.

En este caso, se tuvo:

4,229 verdaderos positivos (comentarios positivos correctamente clasificados).

4,304 verdaderos negativos (comentarios negativos correctamente clasificados).

732 falsos positivos (comentarios negativos incorrectamente clasificados como positivos).

735 falsos negativos (comentarios positivos incorrectamente clasificados como negativos).

Y finalmente hacemos una prueba con una frase:

En el transcurso de este taller, hemos abordado la problemática de la clasificación de

También podría gustarte