Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTUDIANTES:
Entregado a:
Ing. Leonardo Valderrama García
17 de septiembre de 2023
Paso 1: importar las librerías que serán necesarias para nuestro ejercicio.
Paso 2: cargamos el dataset y hacemos un análisis exploratorio sobre los datos cargados.
Obtuvimos como resultado que se cuenta con una cantidad de registros de 50.000, este es
un archivo con 2 columnas (review, sentiment)
Los datos se caracterizan en dos estados: positivo y negativo, de los cuales el 50%
corresponde a cada estado.
Generamos una gráfica de barras para identificar la cantidad de datos.
Esto asegura que las palabras escritas en mayúscula y minúscula se traten de la misma
manera y se reduzca la complejidad.
División de Datos: Antes de entrenar un modelo, debes dividir tus datos en conjuntos de
entrenamiento y prueba para evaluar el rendimiento del modelo. La mayoría de las veces, se
utiliza una proporción como 70% para entrenamiento y 30% para prueba.
El procesamiento de datos es un paso esencial para asegurarte de que los datos estén en un
formato adecuado para que el modelo de Machine Learning los comprenda y aprenda
patrones relevantes. Una vez que se haya realizado el procesamiento, los datos estarán
listos para ser utilizados en el entrenamiento y la evaluación de modelos de clasificación de
comentarios.
TF, mide la frecuencia de una palabra en un texto, mientras más aparece la palabra, mayor
frecuencia.
IDF, mide la importancia de una palabra, las mas comunes tiene menos importancia,
mientras que las palabras raras, tiene una importancia mayor.
X_train_tfidf: Representa las características de entrenamiento, que en este caso son las
representaciones TF-IDF de los comentarios de entrenamiento. Cada fila de esta matriz
corresponde a un comentario y cada columna corresponde a una palabra o característica del
conjunto de datos.
y_train: Representa las etiquetas de entrenamiento, que son las categorías (positivo,
negativo o neutral) a las que pertenecen los comentarios de entrenamiento. Debe haber una
etiqueta correspondiente para cada comentario en X_train_tfidf.
El reporte de clasificación muestra varias métricas para cada clase (en este caso, "negative"
y "positive"):
Precision: Mide la proporción de instancias positivas (en este caso, comentarios positivos)
que fueron clasificadas correctamente como positivas. Para la clase "negative", la precisión
es del 85%, lo que significa que el 85% de los comentarios clasificados como "negative"
fueron verdaderamente negativos. Para la clase "positive", la precisión también es del 85%,
lo que significa que el 85% de los comentarios clasificados como "positive" fueron
verdaderamente positivos.
La matriz de confusión muestra los resultados detallados de las clasificaciones del modelo.
La matriz se divide en cuatro partes: verdaderos positivos (TP), verdaderos negativos (TN),
falsos positivos (FP) y falsos negativos (FN).
En este ultimo paso, se toma una frase de entrada, para luego se elimina los signos, o demás
(Limpiar el texto)
Luego de procesada la frase se convierte en un vector numérico que el modelo pueda
entender.
Luego se utiliza el modelo de clasificación para predecir la clase a la que pertenece, para
determinar si la clase es positiva o negativa.
Con [0] se obtiene el primer elemento del resultado, que es la clase predicha.
taller ha demostrado cómo aplicar técnicas de aprendizaje automático para abordar una
problemática real relacionada con la percepción del cliente hacia productos o marcas a
través de la clasificación de comentarios. El modelo desarrollado es un punto de partida
sólido y puede ser una herramienta valiosa para las empresas en la toma de decisiones y la
comprensión de la opinión de los clientes.