Está en la página 1de 17

Tema: Algoritmo Naive Bayes

Materia: Inteligencia de Negocios

Integrantes:

Xavier Decker

Johnny Vera
ÍNDICE

INTRODUCCIÓN 3

MARCO TEÓRICO 4

APLICACIÓN DEL ALGORITMO 10

CONCLUSIONES 18

RECOMENDACIONES 18

BIBLIOGRAFÍA 19

2
INTRODUCCIÓN

La siguiente investigación tiene el objetivo de explicar y comprobar el funcionamiento del

algoritmo Naive Bayes, herramienta reconocida como efectiva en el ámbito de minería de

datos, para adquirir los conocimientos necesarios y poder realizar un correcto uso de su

función en la interpretación de información, dando como resultados diferentes análisis sobre

la data, los cuales pueden llegar a ser utilizados en la toma de decisiones dentro de una

organización.

Como objetivo se tiene también la aplicación de conceptos aprendidos en la materia de

inteligencia de negocio para de esta forma explicar de la mejor manera el uso de esta

herramienta y promoverla como una de las opciones fiables para la minería de datos.

3
MARCO TEÓRICO

Algoritmo

Un algoritmo puede definirse como una secuencia de instrucciones que representan un

modelo de solución para determinado tipo de problemas. Este conjunto de acciones son

realizadas en un orden específico para luego llegar a una respuesta. Los algoritmos son

independientes de los lenguajes de programación (UNNI, 2016).

En cada problema el algoritmo puede escribirse y luego ejecutarse en un lenguaje diferente de

programación, esta es la infraestructura de cualquier solución. Estos deben contar con las

siguientes características:

● Preciso: Debe definirse de manera rigurosa, sin dar a lugar a ambigüedades.

● Definido: Si se sigue el algoritmo dos veces, se obtienen dos resultados.

● Finito: Debe culminar en algún momento.

● Debe producir un resultado. Los datos de salida serán los resultados de efectuar las

instrucciones.

Minería de Datos

O también conocido como Data Mining, es un conjunto de técnicas y tecnologías que

permiten explorar grandes bases de datos, de manera automática o semiautomática, con el

objetivo de encontrar patrones repetitivos que expliquen el comportamiento de estos datos, lo

cual se utiliza para analizar lo denominado inteligencia del negocio.

La minería de datos surgió con la intención o el objetivo de ayudar a comprender una enorme

cantidad de datos, y que estos, pudieran ser utilizados para extraer conclusiones para

4
contribuir en la mejora y crecimiento de las empresas, sobre todo, por lo que hace a las ventas

o fidelización de clientes.

Exploradores de Datos

Las personas que se dedican al análisis de datos a través de este sistema son conocidos como

mineros o exploradores de datos, estos intentan descubrir patrones en medio de enormes

cantidades de datos. Su intención es la de aportar información valiosa a las empresas para así,

ayudarlas en la toma de decisiones futuras. Pero debemos tener claro que la elección del

mejor algoritmo para una tarea analítica específica es un desafío, ya que podemos encontrar

muchos patrones distintos, y además, dependerá de los problemas a resolver (Ribas, 2018).

Estos pueden ser la clasificación, regresión, segmentación, asociación y análisis de

secuencias. Los mineros o exploradores de datos a la hora de llevar a cabo un análisis de Data

Mining, deberán realizar cuatro pasos distintos:

1. Determinación de los objetivos: El cliente determina qué objetivos quiere conseguir

gracias al uso del Data Mining.

2. Procesamiento de los datos: Selección, limpieza, enriquecimiento, reducción y

transformación de la base de datos.

3. Determinación del modelo: Primero se debe hacer un análisis estadístico de los datos

y después visualización gráfica de los mismos.

4. Análisis de los resultados: En este paso se deberán verificar si los resultados

obtenidos son coherentes.

5
Algoritmo Naive Bayes

Naive Bayes es una técnica de clasificación y predicción que construye modelos que predicen

la probabilidad de posibles resultados. Naive Bayes utiliza datos históricos para encontrar

asociaciones y relaciones y hacer predicciones, son una clase de Aprendizaje Automatizado.

Estos modelos son llamados algoritmos “Naive”, o “Inocentes” en español. En ellos se asume

que las variables predictoras son independientes entre sí. En otras palabras, que la presencia

de una cierta característica en un conjunto de datos no está en absoluto relacionada con la

presencia de cualquier otra característica. Lo consiguen proporcionando una forma de

calcular la probabilidad ‘posterior’ de que ocurra un cierto evento A, dadas algunas

probabilidades de eventos ‘anteriores’ (Roman,2019).

Figura 1: Probabilidades en Teorema de Bayes.

❖ P(h) es la probabilidad a priori de la hipótesis h. Probabilidad de h sin ninguna

observación

❖ P(D) es la probabilidad a priori de D. Probabilidad de observar D, sin saber que

hipótesis se verifica

❖ P(h|D) es la probabilidad a posteriori de h. Probabilidad de que h sea cierta después

de observar D

❖ P(D|h) es la probabilidad a posteriori de D. Es la probabilidad de observar el conjunto

de entrenamiento D en un universo donde se verifica la hipótesis h.

6
De manera explicativa, si tomamos el ejemplo explicado anteriormente donde la información

que tenemos hasta ahora y asumiendo que solo trabajan en la oficina 4 días a la semana, las

probabilidades de que la persona vista sea Alicia o Bruno, son:

● P(Alicia) = 3/4 = 0.75

● P(Bruno) = 1/4 = 0.25

Si se menciona otra característica de la persona vista, por ejemplo llevaba una prenda de

color rojo, se tiene que:

● Alicia viste de rojo 2 veces a la semana.

● Bruno viste de rojo 3 veces a la semana.

Combinando ambas informaciones se puede inferir que a la semana, los dos sujetos de la

hipótesis cumplen el siguiente escenario:

● La probabilidad de que Alicia vista de rojo es → P(Rojo|Alicia) = 2/5 = 0.4

● La probabilidad de que Bruno vista de rojo → P(Rojo|Bruno) = 3/5 = 0.6

Figura 2: Gráfico de probabilidades del caso Trabajadores de Oficina

El argumento de Bayes no es que el mundo sea intrínsecamente probabilístico o incierto, sino

que aprendemos sobre el mundo a través de la aproximación, acercándonos cada vez más a la

7
verdad, a medida que recogemos más evidencias. En términos sencillos, el clasificador

ingenuo de Bayes asume que la presencia o ausencia de una característica particular no está

relacionada con la presencia o ausencia de cualquier otra característica. (Avila, 2018).

Si consideramos por ejemplo analizar un caso de dos personas en una oficina, Alicia y Bruno,

los eventos y datos históricos son considerados informaciones anteriores, en este caso hay

registros de que Alicia asiste a la oficina 3 días a la semana, mientras que Bruno asiste solo

un dia.

Para resolver una consigna sin información, se puede realizar inferencias mediante

probabilidades, por ejemplo en el presente dia se tiene entendido que alguien de los dos

asistió a la oficina, pero no se tiene conocimientos de quien fue.

Este tipo de problemas son fácilmente resueltas mediante la metodología de Naive Bayes, en

donde se clasifican los diferentes escenarios de la data en distintos ambientes, para llegar a la

respuesta más acertada. Los pasos que hay que realizar para poder utilizar el algoritmo Naive

Bayes en problemas de clasificación son los siguientes:

1. Convertir el conjunto de datos en una tabla de frecuencias.

2. Crear una tabla de probabilidad calculando las correspondientes a que ocurran los

diversos eventos.

3. La ecuación Naive Bayes se usa para calcular la probabilidad posterior de cada clase.

4. La clase con la probabilidad posterior más alta es el resultado de la predicción.

Una de las ventajas de aplicar esta metodología es su manera fácil y rápida de predecir clases,

para problemas de clasificación binarios y multiclase. En los casos en que sea apropiada una

presunción de independencia, el algoritmo se comporta mejor que otros modelos de

clasificación, incluso con menos datos de entrenamiento. El desacoplamiento de las

8
distribuciones de características condicionales de clase significa que cada distribución puede

ser estimada independientemente como si tuviera una sola dimensión. Esto ayuda con

problemas derivados de la dimensionalidad y mejora el rendimiento.

Sin embargo, cuando el conjunto de datos de prueba tiene una característica que no ha sido

observada en el conjunto de entrenamiento, el modelo le asignará una probabilidad de cero y

será inútil realizar predicciones.

APLICACIÓN DEL ALGORITMO

Para el desarrollo del documento se realizará un ejercicio con una base de datos sobre

información de clientes respecto a su preferencia a la hora de adquirir un software, si

prefieren de libre uso o de pago, y si estas mismas personas son motivados en la compra de

estos por contar previamente con breves conocimientos en programación. Para esto se debe

de identificar las probabilidades de los datos obtenidos, para lo cual utilizaremos la

herramienta de minería de datos “WEKA”.

9
Uso de la herramienta

1. Creamos el archivo .arff el cual permitirá determinar los valores y columnas de datos

existentes en la carga de datos, obteniendo de esta forma una cabecera tipo:

Figura 3: Cabecera de documento tipo Arff

2. Seguido de anexamos la data separada por comas “,”, como se muestra a

continuación:

Figura 4: Carga de datos en el archivo Arff

10
Parece bastante ilegible, sin embargo, así es como el sistema reconoce y administra el

proceso de carga de datos para proceder con su análisis.

3. Accedemos al software Weka GUI Chooser:

Figura 5: Herramienta de minería de datos

4. Cargamos la información de nuestro archivo en formato .arff, lo escogemos desde

donde se haya almacenado

Figura 6: Carga de archivo en WEKA

11
5. Si la carga fue correcta no se mostrará ningún mensaje de error, sin embargo, la

mayor por parte de los errores suele estar en campos mal escritos entre la data

manejadas por coma:

Figura 7: Carga de datos

Implementación de Algoritmo Naive Bayes

1. Se escoge el tipo de algoritmo que se desea implementar, en este caso la demostración

será el de Naive Bayes:

Figura 8: Selección tipo de árbol

12
2. Resultados del tipo de algoritmo escogido:

Figura 9: Resultados según el modelo de datos escogido

RESULTADOS DE LA APLICACIÓN DEL ALGORITMO

Figura 10: Resultados algoritmo

13
}

Figura 11: Predicciones según el modelo seleccionado

14
Figura 12: Árbol de decisión generado

15
CONCLUSIONES

El teorema de Bayes tiene una aplicacion muy util al momento de querer una respuesta

aproximada sobre una hipótesis no realizada, a través de demás probabilidades alrededor del

mismo escenario. Este algoritmo utiliza datos probabilísticos de características encontradas

en una base de datos con informaciones históricas, de esta forma encuentra patrones en los

resultados y genera predicciones, obteniendo una respuesta cerca de la realidad. Su uso puede

ser implementado para estudios que desean realizar incorporaciones de Machine Learning

debido a que realiza suposiciones basado en comportamientos, también si se desea realizar un

estudio para medir la probabilidad de aceptación de un nuevo producto dentro de un mercado,

así mismo investigaciones sobre probabilidades de que un evento suceda basándose en

características de escenarios similares.

RECOMENDACIONES

Como recomendación podría mencionar que para el estudio podría aportar el hecho de incluir

en la selección de datos el rango de edades pues podrá permitir desde qué momento empieza

la curiosidad del individuo por aprender y vincularse a un nuevo lenguaje de programación.

Pues estas conclusiones podrían reformular las metodología aplicadas en las enseñanzas de

los jóvenes, cambiando o adaptando un syllabus pertinente a la carrera tradicional de la

universidad y a su vez como para poder determinar si se sienten satisfecho con el contenido

dictado actualmente o de ser necesario incluir las nuevas herramientas que realmente son

cotizadas en el mercado, y evitar esta necesidad patentada en los datos de tener que invertir

fondos propios para obtener un programa, el cual académicamente de cierta forma podría

16
resultar gratis o por lo menos un descuento.

BIBLIOGRAFÍA

● Ribas. (2018). Qué es el Data Mining o la minería de datos y qué ventajas nos

aporta. Retrieved from https://www.iebschool.com/blog/data-mining-mineria-

datos-big-data/

● Roman, V. (2019, April 29). Algoritmos Naive Bayes: Fundamentos e

Implementación. Retrieved from

https://medium.com/datos-y-ciencia/algoritmos-naive-bayes-fudamentos-e-

implementaci%C3%B3n-4bcb24b307f

● UNNI. (2016). ALGORITMOS Y DIAGRAMAS. Retrieved from

http://ing.unne.edu.ar/pub/informatica/Alg_diag.pdf

● Gabits. (2009). Algoritmo "Naive Bayes". Retrieved from

https://algoritmosmineriadatos.blogspot.com/2009/12/algoritmo-naive-

bayes.html

● Ávila. (2018). Clasificador Naive Bayes. Retrieved from

https://www.jacobsoft.com.mx/es_mx/clasificador-naive-bayes/

17

También podría gustarte