Proyecto Inteligencia de Negocios

Tema: Algoritmo Naive Bayes
Materia: Inteligencia de Negocios
Integrantes:
Xavier Decker
Johnny Vera
ÍNDICE
INTRODUCCIÓN 3
MARCO TEÓRICO 4
APLICACIÓN DEL ALGORITMO 10
CONCLUSIONES 18
RECOMENDACIONES 18
BIBLIOGRAFÍA 19
2
INTRODUCCIÓN
La siguiente investigación tiene el objetivo de explicar y comprobar el funcionamiento del
algoritmo Naive Bayes, herramienta reconocida como efectiva en el ámbito de minería de
datos, para adquirir los conocimientos necesarios y poder realizar un correcto uso de su
función en la interpretación de información, dando como resultados diferentes análisis sobre
la data, los cuales pueden llegar a ser utilizados en la toma de decisiones dentro de una
organización.
Como objetivo se tiene también la aplicación de conceptos aprendidos en la materia de
inteligencia de negocio para de esta forma explicar de la mejor manera el uso de esta
herramienta y promoverla como una de las opciones fiables para la minería de datos.
3
MARCO TEÓRICO
Algoritmo
Un algoritmo puede definirse como una secuencia de instrucciones que representan un
modelo de solución para determinado tipo de problemas. Este conjunto de acciones son
realizadas en un orden específico para luego llegar a una respuesta. Los algoritmos son
independientes de los lenguajes de programación (UNNI, 2016).
En cada problema el algoritmo puede escribirse y luego ejecutarse en un lenguaje diferente de
programación, esta es la infraestructura de cualquier solución. Estos deben contar con las
siguientes características:
● Preciso: Debe definirse de manera rigurosa, sin dar a lugar a ambigüedades.
● Definido: Si se sigue el algoritmo dos veces, se obtienen dos resultados.
● Finito: Debe culminar en algún momento.
● Debe producir un resultado. Los datos de salida serán los resultados de efectuar las
instrucciones.
Minería de Datos
O también conocido como Data Mining, es un conjunto de técnicas y tecnologías que
permiten explorar grandes bases de datos, de manera automática o semiautomática, con el
objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos, lo
cual se utiliza para analizar lo denominado inteligencia del negocio.
La minería de datos surgió con la intención o el objetivo de ayudar a comprender una enorme
cantidad de datos, y que estos, pudieran ser utilizados para extraer conclusiones para
4
contribuir en la mejora y crecimiento de las empresas, sobre todo, por lo que hace a las ventas
o fidelización de clientes.
Exploradores de Datos
Las personas que se dedican al análisis de datos a través de este sistema son conocidos como
mineros o exploradores de datos, estos intentan descubrir patrones en medio de enormes
cantidades de datos. Su intención es la de aportar información valiosa a las empresas para así,
ayudarlas en la toma de decisiones futuras. Pero debemos tener claro que la elección del
mejor algoritmo para una tarea analítica específica es un desafío, ya que podemos encontrar
muchos patrones distintos, y además, dependerá de los problemas a resolver (Ribas, 2018).
Estos pueden ser la clasificación, regresión, segmentación, asociación y análisis de
secuencias. Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de Data
Mining, deberán realizar cuatro pasos distintos:
1. Determinación de los objetivos: El cliente determina qué objetivos quiere conseguir
gracias al uso del Data Mining.
2. Procesamiento de los datos: Selección, limpieza, enriquecimiento, reducción y
transformación de la base de datos.
3. Determinación del modelo: Primero se debe hacer un análisis estadístico de los datos
y después visualización gráfica de los mismos.
4. Análisis de los resultados: En este paso se deberán verificar si los resultados
obtenidos son coherentes.
5
Algoritmo Naive Bayes
Naive Bayes es una técnica de clasificación y predicción que construye modelos que predicen
la probabilidad de posibles resultados. Naive Bayes utiliza datos históricos para encontrar
asociaciones y relaciones y hacer predicciones, son una clase de Aprendizaje Automatizado.
Estos modelos son llamados algoritmos “Naive”, o “Inocentes” en español. En ellos se asume
que las variables predictoras son independientes entre sí. En otras palabras, que la presencia
de una cierta característica en un conjunto de datos no está en absoluto relacionada con la
presencia de cualquier otra característica. Lo consiguen proporcionando una forma de
calcular la probabilidad ‘posterior’ de que ocurra un cierto evento A, dadas algunas
probabilidades de eventos ‘anteriores’ (Roman,2019).
Figura 1: Probabilidades en Teorema de Bayes.
❖ P(h) es la probabilidad a priori de la hipótesis h. Probabilidad de h sin ninguna
observación
❖ P(D) es la probabilidad a priori de D. Probabilidad de observar D, sin saber que
hipótesis se verifica
❖ P(h|D) es la probabilidad a posteriori de h. Probabilidad de que h sea cierta después
de observar D
❖ P(D|h) es la probabilidad a posteriori de D. Es la probabilidad de observar el conjunto
de entrenamiento D en un universo donde se verifica la hipótesis h.
6
De manera explicativa, si tomamos el ejemplo explicado anteriormente donde la información
que tenemos hasta ahora y asumiendo que solo trabajan en la oficina 4 días a la semana, las
probabilidades de que la persona vista sea Alicia o Bruno, son:
● P(Alicia) = 3/4 = 0.75
● P(Bruno) = 1/4 = 0.25
Si se menciona otra característica de la persona vista, por ejemplo llevaba una prenda de
color rojo, se tiene que:
● Alicia viste de rojo 2 veces a la semana.
● Bruno viste de rojo 3 veces a la semana.
Combinando ambas informaciones se puede inferir que a la semana, los dos sujetos de la
hipótesis cumplen el siguiente escenario:
● La probabilidad de que Alicia vista de rojo es → P(Rojo|Alicia) = 2/5 = 0.4
● La probabilidad de que Bruno vista de rojo → P(Rojo|Bruno) = 3/5 = 0.6
Figura 2: Gráfico de probabilidades del caso Trabajadores de Oficina
El argumento de Bayes no es que el mundo sea intrínsecamente probabilístico o incierto, sino
que aprendemos sobre el mundo a través de la aproximación, acercándonos cada vez más a la
7
verdad, a medida que recogemos más evidencias. En términos sencillos, el clasificador
ingenuo de Bayes asume que la presencia o ausencia de una característica particular no está
relacionada con la presencia o ausencia de cualquier otra característica. (Avila, 2018).
Si consideramos por ejemplo analizar un caso de dos personas en una oficina, Alicia y Bruno,
los eventos y datos históricos son considerados informaciones anteriores, en este caso hay
registros de que Alicia asiste a la oficina 3 días a la semana, mientras que Bruno asiste solo
un dia.
Para resolver una consigna sin información, se puede realizar inferencias mediante
probabilidades, por ejemplo en el presente dia se tiene entendido que alguien de los dos
asistió a la oficina, pero no se tiene conocimientos de quien fue.
Este tipo de problemas son fácilmente resueltas mediante la metodología de Naive Bayes, en
donde se clasifican los diferentes escenarios de la data en distintos ambientes, para llegar a la
respuesta más acertada. Los pasos que hay que realizar para poder utilizar el algoritmo Naive
Bayes en problemas de clasificación son los siguientes:
1. Convertir el conjunto de datos en una tabla de frecuencias.
2. Crear una tabla de probabilidad calculando las correspondientes a que ocurran los
diversos eventos.
3. La ecuación Naive Bayes se usa para calcular la probabilidad posterior de cada clase.
4. La clase con la probabilidad posterior más alta es el resultado de la predicción.
Una de las ventajas de aplicar esta metodología es su manera fácil y rápida de predecir clases,
para problemas de clasificación binarios y multiclase. En los casos en que sea apropiada una
presunción de independencia, el algoritmo se comporta mejor que otros modelos de
clasificación, incluso con menos datos de entrenamiento. El desacoplamiento de las
8
distribuciones de características condicionales de clase significa que cada distribución puede
ser estimada independientemente como si tuviera una sola dimensión. Esto ayuda con
problemas derivados de la dimensionalidad y mejora el rendimiento.
Sin embargo, cuando el conjunto de datos de prueba tiene una característica que no ha sido
observada en el conjunto de entrenamiento, el modelo le asignará una probabilidad de cero y
será inútil realizar predicciones.
APLICACIÓN DEL ALGORITMO
Para el desarrollo del documento se realizará un ejercicio con una base de datos sobre
información de clientes respecto a su preferencia a la hora de adquirir un software, si
prefieren de libre uso o de pago, y si estas mismas personas son motivados en la compra de
estos por contar previamente con breves conocimientos en programación. Para esto se debe
de identificar las probabilidades de los datos obtenidos, para lo cual utilizaremos la
herramienta de minería de datos “WEKA”.
9
Uso de la herramienta
1. Creamos el archivo .arff el cual permitirá determinar los valores y columnas de datos
existentes en la carga de datos, obteniendo de esta forma una cabecera tipo:
Figura 3: Cabecera de documento tipo Arff
2. Seguido de anexamos la data separada por comas “,”, como se muestra a
continuación:
Figura 4: Carga de datos en el archivo Arff
10
Parece bastante ilegible, sin embargo, así es como el sistema reconoce y administra el
proceso de carga de datos para proceder con su análisis.
3. Accedemos al software Weka GUI Chooser:
Figura 5: Herramienta de minería de datos
4. Cargamos la información de nuestro archivo en formato .arff, lo escogemos desde
donde se haya almacenado
Figura 6: Carga de archivo en WEKA
11
5. Si la carga fue correcta no se mostrará ningún mensaje de error, sin embargo, la
mayor por parte de los errores suele estar en campos mal escritos entre la data
manejadas por coma:
Figura 7: Carga de datos
Implementación de Algoritmo Naive Bayes
1. Se escoge el tipo de algoritmo que se desea implementar, en este caso la demostración
será el de Naive Bayes:
Figura 8: Selección tipo de árbol
12
2. Resultados del tipo de algoritmo escogido:
Figura 9: Resultados según el modelo de datos escogido
RESULTADOS DE LA APLICACIÓN DEL ALGORITMO
Figura 10: Resultados algoritmo
13
}
Figura 11: Predicciones según el modelo seleccionado
14
Figura 12: Árbol de decisión generado
15
CONCLUSIONES
El teorema de Bayes tiene una aplicacion muy util al momento de querer una respuesta
aproximada sobre una hipótesis no realizada, a través de demás probabilidades alrededor del
mismo escenario. Este algoritmo utiliza datos probabilísticos de características encontradas
en una base de datos con informaciones históricas, de esta forma encuentra patrones en los
resultados y genera predicciones, obteniendo una respuesta cerca de la realidad. Su uso puede
ser implementado para estudios que desean realizar incorporaciones de Machine Learning
debido a que realiza suposiciones basado en comportamientos, también si se desea realizar un
estudio para medir la probabilidad de aceptación de un nuevo producto dentro de un mercado,
así mismo investigaciones sobre probabilidades de que un evento suceda basándose en
características de escenarios similares.
RECOMENDACIONES
Como recomendación podría mencionar que para el estudio podría aportar el hecho de incluir
en la selección de datos el rango de edades pues podrá permitir desde qué momento empieza
la curiosidad del individuo por aprender y vincularse a un nuevo lenguaje de programación.
Pues estas conclusiones podrían reformular las metodología aplicadas en las enseñanzas de
los jóvenes, cambiando o adaptando un syllabus pertinente a la carrera tradicional de la
universidad y a su vez como para poder determinar si se sienten satisfecho con el contenido
dictado actualmente o de ser necesario incluir las nuevas herramientas que realmente son
cotizadas en el mercado, y evitar esta necesidad patentada en los datos de tener que invertir
fondos propios para obtener un programa, el cual académicamente de cierta forma podría
16
resultar gratis o por lo menos un descuento.
BIBLIOGRAFÍA
● Ribas. (2018). Qué es el Data Mining o la minería de datos y qué ventajas nos
aporta. Retrieved from https://www.iebschool.com/blog/data-mining-mineria-
datos-big-data/
● Roman, V. (2019, April 29). Algoritmos Naive Bayes: Fundamentos e
Implementación. Retrieved from
https://medium.com/datos-y-ciencia/algoritmos-naive-bayes-fudamentos-e-
implementaci%C3%B3n-4bcb24b307f
● UNNI. (2016). ALGORITMOS Y DIAGRAMAS. Retrieved from
http://ing.unne.edu.ar/pub/informatica/Alg_diag.pdf
● Gabits. (2009). Algoritmo "Naive Bayes". Retrieved from
https://algoritmosmineriadatos.blogspot.com/2009/12/algoritmo-naive-
bayes.html
● Ávila. (2018). Clasificador Naive Bayes. Retrieved from
https://www.jacobsoft.com.mx/es_mx/clasificador-naive-bayes/
17

Proyecto Inteligencia de Negocios

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Proyecto Inteligencia de Negocios

Cargado por

Copyright:

Formatos disponibles

Tema: Algoritmo Naive Bayes

Materia: Inteligencia de Negocios

APLICACIÓN DEL ALGORITMO 10

La siguiente investigación tiene el objetivo de explicar y comprobar el funcionamiento del

algoritmo Naive Bayes, herramienta reconocida como efectiva en el ámbito de minería de

función en la interpretación de información, dando como resultados diferentes análisis sobre

Como objetivo se tiene también la aplicación de conceptos aprendidos en la materia de

Un algoritmo puede definirse como una secuencia de instrucciones que representan un

independientes de los lenguajes de programación (UNNI, 2016).

En cada problema el algoritmo puede escribirse y luego ejecutarse en un lenguaje diferente de

● Preciso: Debe definirse de manera rigurosa, sin dar a lugar a ambigüedades.

● Definido: Si se sigue el algoritmo dos veces, se obtienen dos resultados.

● Finito: Debe culminar en algún momento.

O también conocido como Data Mining, es un conjunto de técnicas y tecnologías que

permiten explorar grandes bases de datos, de manera automática o semiautomática, con el

objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos, lo

cual se utiliza para analizar lo denominado inteligencia del negocio.

mineros o exploradores de datos, estos intentan descubrir patrones en medio de enormes

Estos pueden ser la clasificación, regresión, segmentación, asociación y análisis de

Mining, deberán realizar cuatro pasos distintos:

1. Determinación de los objetivos: El cliente determina qué objetivos quiere conseguir

gracias al uso del Data Mining.

2. Procesamiento de los datos: Selección, limpieza, enriquecimiento, reducción y

transformación de la base de datos.

y después visualización gráfica de los mismos.

4. Análisis de los resultados: En este paso se deberán verificar si los resultados

obtenidos son coherentes.

asociaciones y relaciones y hacer predicciones, son una clase de Aprendizaje Automatizado.

de una cierta característica en un conjunto de datos no está en absoluto relacionada con la

presencia de cualquier otra característica. Lo consiguen proporcionando una forma de

calcular la probabilidad ‘posterior’ de que ocurra un cierto evento A, dadas algunas

probabilidades de eventos ‘anteriores’ (Roman,2019).

Figura 1: Probabilidades en Teorema de Bayes.

❖ P(h) es la probabilidad a priori de la hipótesis h. Probabilidad de h sin ninguna

❖ P(D) es la probabilidad a priori de D. Probabilidad de observar D, sin saber que

❖ P(h|D) es la probabilidad a posteriori de h. Probabilidad de que h sea cierta después

❖ P(D|h) es la probabilidad a posteriori de D. Es la probabilidad de observar el conjunto

de entrenamiento D en un universo donde se verifica la hipótesis h.

probabilidades de que la persona vista sea Alicia o Bruno, son:

● P(Alicia) = 3/4 = 0.75

● P(Bruno) = 1/4 = 0.25

color rojo, se tiene que:

● Alicia viste de rojo 2 veces a la semana.

● Bruno viste de rojo 3 veces a la semana.

hipótesis cumplen el siguiente escenario:

● La probabilidad de que Alicia vista de rojo es → P(Rojo|Alicia) = 2/5 = 0.4

● La probabilidad de que Bruno vista de rojo → P(Rojo|Bruno) = 3/5 = 0.6

Figura 2: Gráfico de probabilidades del caso Trabajadores de Oficina

El argumento de Bayes no es que el mundo sea intrínsecamente probabilístico o incierto, sino

relacionada con la presencia o ausencia de cualquier otra característica. (Avila, 2018).

asistió a la oficina, pero no se tiene conocimientos de quien fue.

Bayes en problemas de clasificación son los siguientes:

1. Convertir el conjunto de datos en una tabla de frecuencias.

4. La clase con la probabilidad posterior más alta es el resultado de la predicción.

presunción de independencia, el algoritmo se comporta mejor que otros modelos de

clasificación, incluso con menos datos de entrenamiento. El desacoplamiento de las

problemas derivados de la dimensionalidad y mejora el rendimiento.

observada en el conjunto de entrenamiento, el modelo le asignará una probabilidad de cero y

será inútil realizar predicciones.

APLICACIÓN DEL ALGORITMO

información de clientes respecto a su preferencia a la hora de adquirir un software, si

de identificar las probabilidades de los datos obtenidos, para lo cual utilizaremos la

herramienta de minería de datos “WEKA”.

existentes en la carga de datos, obteniendo de esta forma una cabecera tipo: