Está en la página 1de 44

Modelo predictivo de la demanda avícola en las diferentes zonas del país

Salgado Rodríguez Juan José

Serna Osorio Vanessa

Facultad de Ingeniería

Especialización en analítica de datos aplicada a los negocios

Institución Universitaria EAM

23 Junio 2023
2

1. Tabla de Contenido

1. Tabla de Contenido...................................................................................................................2

2. Lista de Ilustraciones................................................................................................................4

3. Marco de referencia..................................................................................................................7

3.1 Marco de antecedentes – Estado del arte......................................................................................7

3.1.1 Articulo 1....................................................................................................................................7

3.1.2 Articulo 2....................................................................................................................................8

3.1.3 Articulo 3....................................................................................................................................9

3.1.4 Articulo 4..................................................................................................................................10

3.1.5 Articulo 5..................................................................................................................................11

4. Marco teórico – conceptual....................................................................................................13

5. Marco legal.............................................................................................................................16

6. Descripción del problema.......................................................................................................16

7. Justificación............................................................................................................................20

8. Objetivos.................................................................................................................................23

8.1 General.............................................................................................................................................23

8.2 Específicos..................................................................................................................................23

9. Alcance y Delimitación..........................................................................................................24

10. Desarrollo del Proyecto..........................................................................................................25

10.1 Metodología....................................................................................................................................25

10.2 Definición del negocio...................................................................................................................25

10.3 Comprensión y preparación de los datos........................................................................................26

10.4 Base de datos:.............................................................................................................................26


3

10.4.1 Informe de ventas Nutrexcol...................................................................................................26

10.5 Modelado.......................................................................................................................................27

10.6 Limpieza.........................................................................................................................................28

10.6.1 División de datos ordenada en el tiempo Análisis..................................................................29

10.7 Evaluación......................................................................................................................................29

10.7.1 El árbol de regresión...............................................................................................................30

10.7.2 KNN para regresión................................................................................................................31

10.7.3 Red Neuronal..........................................................................................................................32

11. Resultado................................................................................................................................35

11.1.1 Árboles de regresión y clasificación.......................................................................................35

11.1.2 KNN de regresión...................................................................................................................36

11.1.3 Redes neuronales....................................................................................................................37

11.2 Lecciones aprendidas y recomendaciones......................................................................................38

11.2.1 Experimentar con otros algoritmos.........................................................................................38

11.2.2 Aumentar variables................................................................................................................38

12. Conclusiones...........................................................................................................................39

13. Referencias.............................................................................................................................40

14. Anexos....................................................................................................................................44
4

2. Lista de Ilustraciones

Ilustración 1- división de los datos par conjunto de entrenamiento y evaluación.....................................25

Ilustración 2- Comportamiento del Modelo Árbol de Decisión................................................................32

Ilustración 3- Comportamiento del Modelo KNN.....................................................................................33

Ilustración 4- Comportamiento del Modelo Red Neuronal.......................................................................34


5

Estudiantes

Documento de Identidad: 1004960333

Nombre del Estudiante: Salgado Rodriguez Juan José

Teléfono de contacto: 3016833940

Correo electrónico: Juan.salgado.6033@eam.edu.co

Documento de Identidad: 1007603705

Nombre del Estudiante: Serna Osorio Vanessa

Teléfono de contacto: 3146319257

Correo electrónico: Vanessa.serna.0370@eam.edu.co

Asesor

Nombre del Asesor: Cardona Torres Sergio Augusto

Formación académica: Ingeniero de Sistemas

Teléfono de contacto:3105386144

Correo electrónico: Sergio.cardona@eam.edu.co


6

Descripción de la organización usuaria

Es una empresa colombiana dedicada a la producción y comercialización de mezclas, aditivos,

productos y servicios para la nutrición y salud animal.

Razón social: Nutrición experta de Colombia S.A.S

Dirección: Km4 vía el Caimo Armenia-Quindío

Teléfono: 31408755573

Responsable: Lina Marcela Valencia

Teléfono Responsable: 3164829409

Cargo: Gerente de Operaciones


7

3. Marco de referencia

1.2 Marco de antecedentes – Estado del arte

3.1.1 Articulo 1

El artículo Impacto de la inclusión de centeno en las dietas para pollos de engorde sobre el

rendimiento, la calidad de la cama, la salud de las almohadillas de las patas, la viscosidad

digestiva, las características de los órganos y la morfología intestinal, realizó un

experimento donde probaron si el centeno podría reemplazar al maíz o al trigo y estimar

el efecto de niveles superiores de inclusión de maíz triturado o centeno aplastado de hasta

un 30 % en pollos de engorde sobre el rendimiento del crecimiento, la calidad de la cama,

salud de la almohadilla plantar, viscosidad de la digesto, características de los órganos y

morfología intestinal. Teniendo en cuenta la seguridad alimentaria, el suministro de

proteínas y sustento humano, donde las aves de corral se consideran animales

beneficiosos en todo el mundo. Es importante la maximización de la eficacia de los

alimentos, que destaquen los vínculos de la producción avícola, la nutrición y los

servicios ecosistémicos sostenibles. Ya que esto es entre 50% a 70% el costo total de la

producción animal. De este estudio se pudo incluyó que el centeno en las dietas de pollos

de engorde comenzando con un 5 % en la tercera semana de vida, aumentando hasta un

30 % de centeno en las últimas semanas del período de crianza sin comprometer el

consumo de alimento, el rendimiento y la camada. También se demostró que el centeno

triturado es apetecible, lo que permite agregar centeno a un alimento suplementario


8

granulado. Este estudio demuestra la importancia de la alimentación en el sector avícola,

siendo el pilar del área en el que este proyecto se enfoca. (Sustainability, 2020)

3.1.2 Articulo 2

El documento Importancia De Los Sistemas Avícolas Campesinos (Pollo De Engorde Y Gallina

Ponedora) Dentro De La Unidad Productiva Y Su Aporte A La Seguridad Alimentaria:

Estudio De Caso Vereda La Pradera, Municipio De Duitama, Boyacá, tiene como

propósito demostrar la importancia de los sistemas avícolas campesinos (pollo de

engorde y gallina ponedora) dentro de la unidad productiva y su aporte a la seguridad

alimentaria desde la perspectiva de género. Busca caracterizar los sistemas avícolas

campesinos y su aporte a la seguridad alimentaria en diez familias de la ciudad de

Duitama. Como método utilizaron el estudio de caso el cual consiste en un estudio

detallado de un tema específico que generalmente lo utilizan para investigación social

como es en este caso. Se logró estudiar a profundidad las características productivas de

las diez familias seleccionadas, utilizando diversos conceptos y comprendiendo las

dinámicas propias de su presente que seguramente marcan la pauta para plantar futuras

investigaciones más extensas. Utilizaron herramientas como las encuestas, observación y

diálogos en visitas de campo, diagramas de las fincas y fotografías de las mismas. Como

conclusión obtuvieron que se encontraron familias que, aunque poseen pocas cantidades

de tierra han sabido producir y distribuir sus cultivos y animales de tal manera que les

aporte a la alimentación y a la obtención de excedentes económicos que les ayude a

satisfacer sus necesidades. Sin embargo, también se evidencio estas producciones no son
9

suficientes para el sostenimiento de la familia, lo que estimula la búsqueda de labores

extra prediales por parte de algunos integrantes. El documento tiene gran aporte para el

proyecto que planteamos ya que habla sobre la producción de aves, distribución de

cultivos y la seguridad alimentaria. (Fonseca, 2010)

3.1.3 Articulo 3

En este trabajo se presenta un análisis de inteligencia competitiva mediante un análisis

estratégico y estructural sobre el sector avícola en Colombia teniendo en cuenta las

nuevas problemáticas legales, ambientales y sanitarias. El trabajo tiene un enfoque mixto

o multimodal mediante de procesos de recolección y análisis de datos, llevando a cabo

diferentes tipos de investigación, según su ubicación temporal, según el análisis y el

alcance de los resultados. Donde se dividió en 3 fases, para iniciar, la relación del análisis

estratégico del sector avícola, seguidamente, el análisis estructural del sector avícola, por

último, la definición de las estrategias de competitividad, mediante 3 pasos, análisis

PESTEL, DOFA y benchmarking. Luego de la aplicación de estos pasos, se determinó

que política, económica, social, tecnológica, ecológica y legal, están favoreciendo el

sector avícola, sin embargo, el aumento de los impuestos, el desempleo y la tasa de

inflación afecta en gran manera la comercialización avícola. Así mismo, se encuentra que

el área avícola tiene grandes fortalezas y oportunidades, como sus constantes

capacitación en diversos temas, así mismo también tiene unas debilidades y amenazas

como los es las constantes enfermedades que llegan al país. El trabajo da a conocer que
10

Bucaramanga está muy bien posicionado, determina también que para que el sector

avícola siga en aumento y sostenible debe seguir actualizándolo y mejorando sus

procesos. Este articulo tiene gran importancia en ya que informa el cómo ha estado el

sector avícola en Colombia, el lugar el cual será enfocado este proyecto, ya que se debe

saber el cómo está la situación actual en todos estos aspectos para después poder inferir

los resultados del estudio, así mismo se conoce todos los factores externos que podrán

afectar los posibles resultados del trabajo. (Chacón, 2018)

3.1.4 Articulo 4

El artículo Análisis Del Comportamiento De La Cadena De Producción En La Empresa

Maxialimentos Ltda. A Partir De Las Fluctuaciones Económicas Del Sector Avícola: Una

Perspectiva Desde Dinámica De Sistemas, presenta una investigación orientada a

entender el comportamiento de diferentes unidades de negocio de la empresa

MaxiAlimentos teniendo como propósito la compresión de cada unidad y sus

interacciones. Basados en la metodología de Dinámica. Con el fin de construir un modelo

de simulación donde permita comprender las dinámicas operativas y financieras. Las

técnicas utilizadas serán mediante la metodología de dinámica de sistemas donde se basa

en el análisis y modelamiento del comportamiento temporal de sistemas complejos

identificando los actores más relevantes que influyen en el problema en cuestión, además

de construir un modelo de diagramas de niveles bajo el programa iThink. Conforme a los

análisis de resultados de toda la investigación proporciona datos concretos y sólidos en

donde se apoya en todo el modelo de simulación logrando datos realmente significativos


11

que harán que mejore la problemática de la empresa. La investigación desarrollada en la

empresa MaxiAlimentos permite identificar un gran significativo mediante el modelo de

simulación donde beneficia de manera estructural y financiera definiendo claramente las

dinámicas operativas. El artículo fue seleccionado por su gran criterio e información que

aporta en el estudio y metodología de las granjas avícolas y encasetamiento de los pollos

de un día, sirviendo como referente para la implementación de una metodología de

minería de datos. (Luque, 2016)

3.1.5 Articulo 5

El artículo Estudio de inteligencia competitiva para el sector avícola del área metropolitana de

Bucaramanga, se puede definir que el alimento es la variable más influyente en el

proceso de engorde y postura del pollo por medio del encasetamiento teniendo como

objetivo mejorar las condiciones de la carne y el huevo como producto final. Para realizar

el artículo se tomaron como base distintas investigaciones que corresponden al proceso

de engorde y postura de los pollos de encasetamiento, utilizando investigaciones actuales

con base a Fenavi y de diferentes universidades a nivel internacional La investigación

proporciona datos sólidos teniendo como resultado pollos más saludables, más nutritivos,

de mayor peso y mejor fisiología, disminuyendo pérdidas y la merma de los pollos

enfermos. La investigación desarrollada permite afirmar que la variable más importante e

influyente del proceso de encasetamiento es el alimento, siendo quien proporciona mayor

crecimiento y mejor nutrición. Fue seleccionado porque tiene como base grandes
12

investigaciones que demuestran que la variable y operación más importante del proceso

de postura y engorde es el alimento y encasetamiento respectivamente. (Chacón, La

Universidad Santo Tomás, 2018)


13

4. Marco teórico – conceptual

El encasetamiento es el número de pollitas y pollitos de un día que entran a galpones a ser parte de la

población de aves destinadas a la postura o al engorde, donde las aves crecen y se

reproducen. Durante la semana 35 a 40 el ave debe tener un peso promedio de 2200 gr, para

poder ser beneficiada y enviada al consumidor final. La vida productiva de una pollita que va

dirigida para postura inicia con la postura de huevos pequeños (tipo B) en la semana 19 y

termina en la semana 82 (si no se realiza replume) poniendo huevos tipo AA y extra

(Fenavi). Estos procesos son controlados por entes regulatorios los cuales son organismos

públicos que gozan de personalidad jurídica de derecho público interno y que poseen

autonomía administrativa, financiera y técnica. Son organismos creados para el marco

regulador y por lo tanto deberán regular y/o controlar aspectos jurídicos, técnicos y atender

las relaciones entre los usuarios y consumidores y las empresas privadas prestadoras de

servicios públicos (Ica). En Colombia hay 2 principales entes regulatorios en el sector avícola

los cuales son el ICA y Fenavi, en donde el Instituto Colombiano Agropecuario, ICA, una

entidad Pública del Orden Nacional con personería jurídica, autonomía administrativa y

patrimonio independiente, perteneciente al Sistema Nacional de Ciencia y Tecnología,

adscrita al Ministerio de Agricultura y Desarrollo Rural. Este es responsable de diseñar y

ejecutar estrategias para, prevenir, controlar y reducir riesgos sanitarios, biológicos y


14

químicos para las especies animales y vegetales, que puedan afectar la producción

agropecuaria, forestal, pesquera y acuícola de Colombia (Fenavi). Asi mismo, Fenavi Es una

entidad representativa del sector avícola colombiano, ejerce la representación gremial de los

Avicultores con el propósito de propender por el desarrollo de la Industria Avícola, proteger

y defender los intereses de los Avicultores, solicitar la atención necesaria y requerir la

protección del estado que la producción Avícola necesite y Administrar los recursos del

Fondo Nacional Avícola, entre otras. (Mavromichalis, 2017)

La palabra “avicultura”, designa genéricamente a toda actividad relacionada con la cría y el cuidado

de las aves, como así también el desarrollo de su explotación comercial. (Solla), en donde

uno de los factores mas importantes es alimentacion balanceada, la cual varia mediante la

condicion y el tipo de pollo. Una fórmula típica para pollo de engorde se puede elaborar con

facilidad mediante un puñado de ingredientes: un grano principal, como maíz o trigo; una

fuente de proteína, como la harina de soya, y no más que unas cuantas fuentes bien conocidas

de minerales y vitaminas. Al poner todo esto en algún programa de formulación de alimentos

balanceados, junto a una serie de especificaciones de la dieta –las que proporcionan las

grandes casas genéticas serán suficientes para esta cuestión–, nos dará una formulación a

mínimo costo (Dsm), en donde su base es la adicion de premezclas, la cuales son

ingredientes utilizados en la elaboración del producto balanceado con alta selección de

calidad en los proveedores y productos, entre estos están los aminoácidos, vitaminas,
15

minerales, antibióticos, anticoccidiales, mejoradores, antimicóticos y otros aditivos para la

nutrición animal (Agraria). El rol es crucial en el bienestar y el desempeño de las aves, junto

con un papel decisivo de ciertas funciones del organismo, por ejemplo, desempeño,

crecimiento, fertilidad, inmunidad.  (Mexico, 2018)


16

5. Marco legal

Resolución 3651 de 2014 – ICA: Establecer los requisitos para la certificación de granja avícola

de postura y/o levante como bio-segura. (Napurí)

6. Descripción del problema

Para FENAVI en el 2017 en la fase de producción se encasetaron (hace referencia al número

de pollitas y pollitos de un día que entran a ser parte de la población de aves

destinadas a la postura o al engorde, respectivamente) 50 millones de aves de postura

en promedio anual, y para la fase de crianza y levante se encasetaron 14 millones de

aves. Para los entes regulatorios es importante el cuidado de las aves y la inocuidad del

producto. El ICA (Instituto colombiano Agropecuario) presenta la resolución 3651 del

2014 la cual indica que las aves de postura solo las deben ser adquiridas por granjas

registradas. La avicultura en Colombia se encuentra divida en aves de engorde,

postura, levante, reproductoras y traspatio, las cuales hacen parte de la población total

del territorio. Se realizo un Censo Nacional Agropecuario el cual se toman los 5

departamentos con más aves alojadas los cuales son Santander (23.55%),

Cundinamarca (20,12%), Valle del Cauca (12,47%), Antioquia (7,61%) y Tolima

(6,56%), así albergan 70,31% de la población de estas especies (Bioseguridad en

granjas avícolas). En el año 2017 el municipio de Duitama fue el que obtuvo mayor

relevancia, el cual está situada en tercer lugar en la actividad pecuaria en el municipio,

dando a conocer que el 27% son aves de postura, el 40.5% son aves de engorde y el
17

32.5 % son aves de patio la cual ocupa la tercera parte de lugar en la producción

pecuaria del municipio. (Fonseca, Universidad Javeriana, 2010)

Según investigaciones anteriores del Instituto colombiano agropecuario (ICA) Colombia tiene

perdidas solo en la mortalidad animal de $3.439.321.504 en donde el 75% corresponde

a la especie aviar que consta de una cuantía 417.121 aves anuales. Así mismo, con el

ministerio de agricultura las principales zonas productoras de encasetamiento son la

región central, Valle y Santander las cuales superan los 3.000 millones de huevos y las

3.000 toneladas de pollo. (Orozco, 2017)

Cifras reportadas por FENAVI la producción de pollos ha incrementado un 20% en los

últimos 5 años con 149606.8 toneladas de pollo en canal, por consiguiente, el sector

avícola es de gran importancia para la economía colombiana como lo demuestra la

revista EL TIEMPO dando a conocer que este sector contribuye con el 22 % del PIB

pecuario, el 10.75 del agropecuario y el 2.7 del PIB nacional.

En Colombia hay una entidad encargada del cumplimiento de las leyes sanitarias y el

aseguramiento de la inocuidad del alimento animal llamada ICA, en donde demostró

su función en el informe del corte del 31 de diciembre del 2019, donde se observa la

cantidad de hallazgos la cual envió a las diferentes granjas y plantas del país,

permitiendo encontrar una regular reforma rural integra en el país, pero también una

denuncia y diez hallazgos especiales, en donde, cada identidad auditada debe realizar

acciones de mejora.

De acuerdo con lo revisado en distintas investigaciones se han identificado las diferentes

variables para determinar las posibilidades de pronosticar la producción de alimento


18

para los lugares del país con más apariciones de pollos en encasetamiento como lo son

la producción de alimento en la empresa, demanda nacional de los pollos de un día y

los datos históricos del encasetamiento a nivel nacional. Sin embargo, se puede

evidenciar la dificultad de recolectar la data debido a que son muy pocos los datos

públicos que se basen en el tema.

Es muy importante tener claro que el mayor riesgo que puede tener una producción avícola es

no contar con un plan de bioseguridad, ya que este es un pilar fundamental debido a

que hace referencia al mantenimiento del medio ambiente libre de microorganismos o

al menos con una carga mínima que no interfiera con la productividad de las aves

encasetadas ya sea ponedoras, reproductoras o para levante (Galindo., 2005). Por esto

los entes regulatorios como FENAVI, el ICA, Ministerio de Salud y Protección Social,

entre otros, son los encargados de optar por el bienestar de los animales y en su ciclo

de vida, como también hace parte del proceso de la inocuidad del producto entregado

directamente al cliente. Por esto una de las resoluciones que plantea el ICA es

establecer los requisitos para la certificación de granja avícola de postura y/o levante

como bio-segura (Fenavi, 2015). También hay una resolución que propone el

ministerio de salud y protección social por la cual se establecen los requisitos

sanitarios para el funcionamiento de las plantas de beneficio de aves de corral,

desprese y almacenamiento, comercialización, expendio, transporte, importación o

exportación de carne y productos cárnicos comestibles. (Ica, 2014)

Según los datos anteriores se plantea desarrollar un análisis de datos el cual pueda predecir la

cantidad de demanda por cada zona del país, obteniendo los datos históricos de

plataformas como datos.gov.co, plataforma de Fenavi, ICA, entre otras. Con el fin de
19

poder identificar la cantidad de materia prima necesaria para la producción del

alimento balanceado, y realizar centralización de oferta en las zonas pronosticadas.


20

7. Justificación

La federación nacional de avicultores (FENAVI) es la encargada de optar por el bienestar de

las aves y su consumo. Son los que establecen requisitos sanitarios para el

funcionamiento de plantas de beneficio de aves de corral, almacenamiento de producto

crudo, comercialización, expendio transporte, importación o exportación de carne y

productos cárnicos comestibles. Este ente regulatorio establece normas y leyes

asegurando el bienestar humano y del ave por esto el decreto 1500 consiste “en

establecer el reglamento técnico a través del cual se crea el Sistema Oficial de

Inspección, Vigilancia y Control de la Carne, Productos Cárnicos Comestibles y

Derivados Cárnicos Destinados para el Consumo Humano y los requisitos sanitarios y

de inocuidad que se deben cumplir en su producción primaria, beneficio, desposte,

desprese, procesamiento, almacenamiento, transporte, comercialización, expendio,

importación o exportación”. Para así en el momento de comercialización brindar la

calidad e inocuidad de los productos para el consumidor final, poniendo en

funcionamiento las Buenas Prácticas de Manufactura. (Social, 2007)

Según investigaciones de la federación nacional de avicultores (FENAVI) desde el año 2017

se registran más de 800 millones de pollos en encasetamiento en donde se utilizan más

de 6.2 millones de toneladas para insumos alimenticios para los pollos, es decir,

abarcando un gran porcentaje del mercado colombiano, así mismo, se identificó la

importancia de facilitar el alimento para los pollos de encasetamiento, por ende el

proyecto quiere pronosticar la cantidad de aditivos que se deben tener disponibles en

diferentes momentos del año (Agronegocio, 2017) .


21

Respecto a los datos abiertos que suministra la página gubernamental.gov.com, se puede

analizar varios tipos de datos relacionados con el sector avícola, datos históricos como

los corregimientos, veredas, y la actividad dedicada en el sector, también están

divididas por municipios con datos desde el 2019 hasta el 2021, donde se podrá con

facilidad observar el comportamiento y las zonas con más oferta para el modelo de

predicción. (Social M. D., 2013)

En el artículo del FENAVI política ambiental para el sector avícola. Opina que el mejor

documento del compromiso de la comunidad internacional del problema del ambiente

es la agenda 21; este documento plantea El desarrollo adecuado de la biotecnología

debe aportar, entre otros, un aumento de la seguridad alimentaria mediante prácticas

de agricultura sostenible y procesos de desarrollo agroindustrial más eficaces (Neiva,

2022). Así mismo, en la guía metodológica del ICA, código 00.11.19.06 dicta que En

todas las granjas y plantas de incubación debe existir un manual de procedimientos

escritos para control de calidad de materias primas e insumos, donde se señalen las

especificaciones de calidad y los criterios de aceptación y rechazo. dando a conocer de

la importancia de los alimentos balanceados para las granjas, ya que toda la

alimentación debe ser certificada por el ICA (Fenavi, 2002).

Como resultado se ha podido obtener información de las diferentes variables que se nombran

en este trabajo, como la producciónnde aves y la producción de alimento balanceado.

Las cuales han aportado información útil que soporta el desarrollo de este proyecto,

dando a conocer la importancia del bienestar de los animales y el producto para

comercializar, teniendo en cuenta todas las normativas que fluyen durante todo el

proceso de transformación desde el encasetamiento hasta el producto para entregar al


22

consumidor final. Además de esto también se obtuvo datos de la tasa de mortalidad, y

los diferentes motivos por los cuales esta tasa incrementa o disminuye, como las

enfermedades, espacio reducido, la ventilación dentro de los galpones, entre otras.

Dado lo anterior y como aporte a los diferentes esfuerzos realizados en la investigación se

pretende implementar un modelo que logre pronosticar la cantidad de alimento,

aditivos y medicamentos disponibles en la empresa Nutrexcol para los diferentes

momentos del año para las fincas productoras de pollo en engorde y postura. Con este

modelo la empresa puede determinar la cantidad de producto final debe de tener

disponible en cada momento del año. (Vásquez)


23

8. Objetivos

8.1 General

Implementar un modelo predictivo de la demanda avícola en las diferentes zonas del país, que

facilite la toma de decisiones de una empresa del sector avícola.

1.3 Específicos

Aplicar una metodología para preparar, limpiar y consolidar la selección de los datos objeto de

estudio.

Aplicar diferentes métodos de técnicas de minería de datos, para seleccionar diferentes modelos

predictivos.

Evaluar la calidad del modelo predictivo mediante pruebas con los datos históricos de la

empresa.

Implementar visualizaciones para la evaluación de los modelos predictivos.


24

9. Alcance y Delimitación

Para el alcance del proyecto se buscará implementar un modelo que logre pronosticar la

demanda avícola y su comportamiento en sus diferentes etapas en distintas zonas del

país mediante la multiplicidad de herramientas de análisis de datos permitiendo que la

empresa pueda obtener bases sólidas y reales dónde facilite la toma de decisiones

correspondientes para la disponibilidad de alimentos, aditivos y medicamentos en el

año. Teniendo como limitaciones acontecimientos que no sean predecibles cómo los

problemas sociales o cambios climáticos. Además, el proyecto esta condicionado a la

disponibilidad de sofware avanzados, aplicaciones disponibles y el acceso a

información que permitan pronosticar todas las zonas del país.


25

10. Desarrollo del Proyecto

10.1 Metodología

CRISP-DM, que son las siglas de Cross-Industry Standard Process for Data Mining, es un

método probado para orientar sus trabajos de minería de datos. El ciclo vital del

modelo contiene seis fases con flechas que indican las dependencias más importantes

y frecuentes entre fases. La secuencia de las fases no es estricta. De hecho, la mayoría

de los proyectos avanzan y retroceden entre fases si es necesario.

El modelo de CRISP-DM es flexible y se pueden personalizar fácilmente. Por ejemplo, si su

organización intenta detectar actividades de blanqueo de dinero, es probable que

necesite realizar una criba de grandes cantidades de datos sin un objetivo de modelado

específico. En lugar de realizar el modelado, su trabajo se centrará en explorar y

visualizar datos para descubrir patrones sospechosos en datos financieros. CRISP-DM

permite crear un modelo de minería de datos que se adapte a sus necesidades

concretas. (Ibm, 2021)

10.2 Definición del negocio

Mediante la ciencia de datos se hará un análisis descriptivo de las ventas en las zonas del país,

basados en los clientes de la empresa Nutrexcol, la cual es una empresa colombiana

dedicada a la producción y comercialización de mezclas, aditivos, productos y servicios


26

para la nutrición y salud animal. Se seleccionarán variables de importancia determinando

su comportamiento y relación entre ellas, con el fin de realizar un modelo predictivo.

10.3 Comprensión y preparación de los datos

Se utilizará una base de datos, la cual contiene información de las ventas en kilos de pre-

mezclas de alimento para aves de la empresa Nutrexcol por zonas.

1.1 Base de datos:

10.4.1 Informe de ventas Nutrexcol

El informe entregado por la empresa Nutrexcol, tendrá las ventas históricas por zonas,

dependiendo de las ubicaciones de los clientes.

No° Variables Descripción Tipo de Dato

1 Fecha Tiempo que indica el día, mes y año. Texto

Nombre centro de
2 Nombre de la bodega virtual
costo Texto

3 Zona Ubicación geográficamente Texto

4 Centro de costo Referencia numérica de la bodega virtual Texto

5 Cantidad ventas en kilogramos de premezclas Numérico


27

10.5 Modelado

Para el proyecto se eligió trabajar con la información de las ventas en kilogramos de una empresa

que está dedicada a la producción de premezclas, aditivos y productos para la nutrición

animal. Con el fin de implementar un modelo predictivo que le facilite el pronóstico de

ventas por zona objetivo de la empresa, para el proyecto se realizó un enfoque en la zona

con mayor impacto en la empresa, para esto se implementó un modelo predictivo el cual

se llama serie de tiempos utilizando una herramienta llamada Colab, que es un producto

de Google Research. Permite a cualquier usuario escribir y ejecutar código arbitrario de

Python en el navegador. Es especialmente adecuado para tareas de aprendizaje

automático, análisis de datos y educación. (Google, s.f.) Mediante diferentes modelos se

determina el que mejor se ajusta a la cantidad de datos de entrenamiento que equivalen al

70% y de la cantidad de datos de evaluación que equivalen al 30%.

Para iniciar con el proyecto se realiza la recolección de datos con un total 8894 registros, donde

se toma la información desde enero del 2018 hasta febrero del 2023.
28

10.6 Limpieza

Paso 1: Para empezar la limpieza se eliminan 5 columnas que no tienen información y una

columna llamada nombre de costo ya que brinda la misma información que la columna

centro de costos, dejando las columnas de fecha, zona, centro de costo y cantidad.

Paso 2: para continuar se filtra por zona y por las bodegas las cuales se utilizan para manejar el

inventario de mezclas para aves, también se eliminan las columnas irrelevantes.

Paso 3: Se renombra la columna “Cantidad” por “Y” y se obtienen las medidas de tendencia.

Paso 4: Para continuar se realiza un análisis univariable el cual se utiliza para estudiar las

variables de forma individual, después se agrupan en semana los datos de la fecha diaria,

se establece la fecha como índice, lo que quiere decir es que la fecha le da un orden a

lógico a los datos.


29

10.6.1 División de datos ordenada en el tiempo Análisis

Se realizó una visualización para observar el comportamiento de la base de datos que se está

utilizando.

Ilustración 1- división de los datos par conjunto de entrenamiento y evaluación

10.7 Evaluación

Para esta etapa se entrena un modelo ForecasterAutoreg a partir de diferentes regresores de

sklearn. Se configura una ventana temporal de 12 lags, lo que significa que el modelo

utiliza como predictores 12 meses anteriores.

Para el proyecto se implementaron 3 tipos de modelos, los cuales son árbol de regresión, KNN

para regresión y Red Neuronal.


30

10.7.1 El árbol de regresión

El modelo es un algoritmo de aprendizaje utilizado para resolver problemas de regresión y

clasificación. (Jenifa, 2022) En este caso, los datos se dividen en una proporción de

70/30, donde el 70% corresponde a los datos de entrenamiento utilizados para entrenar el

modelo, y el 30% restante son datos de evaluación. Además, se establece un número

mínimo de muestras requeridas en un rango de 2 a 10. Se establece la profundidad

máxima del árbol en un rango de 2 a 10.

También se utiliza una función “Regressor” para realizar predicciones y se introduce la función

de “lags”, que indica el número de retrasos utilizados para predecir el siguiente valor en

una serie de tiempo. En este caso, se implementa un valor de 12 lags.

Además, se han implementado hiperparametros, como los parámetros "min_samples_leaf" el

cual controla la cantidad mínima de muestras que deben estar presentes en un nodo y se

establece en un rango de 2 a 10. Por otro lado, "max_depth" controla la profundidad

máxima del árbol y se establece en un rango de 2 a 10, y el parámetro "criterion"

determina la mejor característica para dividir los datos en cada nodo del árbol.

También, se implementó el hiperparámetro "Forecaster" que representa el modelo de predicción

utilizado. El hiperparámetro "param grid" es un diccionario que contiene los

hiperparámetros que se probarán. "Lags grid" es una lista de valores para los lags que se

probarán. La función "steps" define los pasos futuros a predecir. El hiperparámetro "refit"

indica si se debe ajustar el modelo con los mejores hiperparámetros encontrados. Por

último, la función "metric" se refiere a las métricas utilizadas para evaluar el rendimiento

del modelo.
31

Para la configuración del árbol de regresión y clasificación, se utilizan los parámetros óptimos

obtenidos en las líneas anteriores.

Para evaluar el modelo de Árbol de Regresión y Clasificación, se utilizan medidas de error como

el MAPE, MSE, RMSE y MAE. Sin embargo, se enfoca principalmente en la medida de

error MAPE, la cual indica el porcentaje de error de las predicciones en comparación con

los datos de evaluación.

10.7.2 KNN para regresión

El algoritmo KNN para regresión, el cual se basa en utilizar los valores de las características de

los vecinos más cercanos para predecir la salida numérica de un nuevo punto de datos

(Diaz, s.f.). Para entrenar el modelo, los datos se dividen en una proporción de 70/30,

donde el 70% corresponde a los datos de entrenamiento y el 30% restante son datos de

evaluación.

Además, se utiliza una función "Regressor" para realizar las predicciones y se introduce la

función de “lags”, que representa el número de retrasos utilizados para predecir el

siguiente valor en una serie de tiempo. En este caso, se implementa un valor de 12 lags.

Asimismo, se han implementado hiperparámetros en el modelo KNN. El parámetro

"n_neighbors" representa la cantidad de vecinos más cercanos que se considerarán para

hacer la predicción, y en este caso se estableció un rango del 1 al 10 para probar

diferentes valores. El parámetro "weights" indica cómo se ponderarán los vecinos en

función de su distancia al punto de consulta, y el parámetro "metric" define la métrica


32

utilizada para medir la distancia entre los puntos. Aquí se utiliza la métrica "cosine", que

mide la similitud coseno entre dos vectores.

Adicionalmente, se implementó el hiperparámetro "Forecaster", que representa el modelo de

predicción utilizado, y se define el diccionario "param grid" que contiene los

hiperparámetros que se probarán. La lista "lags grid" especifica los diferentes valores de

lags que se probarán. La función "steps" define los pasos futuros a predecir, y el

hiperparámetro "refit" indica si se debe ajustar el modelo con los mejores

hiperparámetros encontrados.

Para la configuración del modelo KNN para regresión, se utilizan los parámetros óptimos

obtenidos en las líneas anteriores.

Para evaluar el modelo de KNN para regresión, se utilizan medidas de error como el MAPE,

MSE, RMSE y MAE. Sin embargo, se enfoca principalmente en la medida de error

MAPE, la cual indica el porcentaje de error de las predicciones en comparación con los

datos de evaluación.

10.7.3 Red Neuronal

Este modelo se basa en una red neuronal artificial compuesta por un conjunto interconectado de

unidades llamadas neuronas artificiales o nodos. Estas neuronas procesan y transmiten

información mediante conexiones ponderadas (Ibm, 2021).En el contexto de este

problema, los datos se dividen en una proporción de 70/30, donde el 70% corresponde a

los datos de entrenamiento utilizados para entrenar el modelo, y el 30% restante son datos

de evaluación.
33

En la configuración de la red neuronal, se implementan diferentes parámetros. El parámetro

"random_state" establece la semilla para la generación de números aleatorios, asegurando

que los resultados sean reproducibles. El parámetro "hidden_layer_sizes" define la

arquitectura de la red neuronal, es decir, el número y tamaño de las capas ocultas. En este

caso, se ha establecido una capa oculta con 20 neuronas. El parámetro

"learning_rate_init" controla el tamaño de los pasos que se toman para ajustar los pesos

de la red neuronal durante el proceso de entrenamiento. El parámetro "max_iter"

determina el número máximo de iteraciones o épocas que el algoritmo de entrenamiento

realizará antes de detenerse. Aquí se ha establecido en 10,000 iteraciones. Por último, el

parámetro "activation" define la función de activación utilizada en las neuronas de la red

neuronal.

En cuanto a la predicción, se utiliza una función "Regressor" y se introduce el concepto de

"lags", que indica el número de retrasos utilizados para predecir el siguiente valor en una

serie de tiempo. En este caso, se implementa un valor de 12 lags, lo que significa que se

toman en cuenta los valores de las últimas 12 observaciones para realizar la predicción.

Además, se establece un número mínimo de muestras requeridas en un rango de 9 a 12,

asegurando que haya suficientes muestras para realizar predicciones precisas.

Además, se han implementado hiperparametros, como los parámetros "hidden_layer_sizes" para

este caso, se están probando diferentes configuraciones una capa oculta con 1 neurona,

una capa oculta con 5 neuronas, una capa oculta con 8 neuronas y una capa oculta con

100 neuronas, el parámetro "activation" en esta situación se está probando varias

opciones, incluyendo "identity" (función de identidad), "logistic" (función sigmoide),

"tanh" (función tangente hiperbólica) y "relu" (unidad lineal rectificada). La función de


34

activación determina la salida de una neurona dado un conjunto de entradas, y el

parámetro de "learning_rate" es un parámetro que controla la tasa de aprendizaje utilizada

en el algoritmo de entrenamiento de la red neuronal. en el caso se está probando tres

opciones, "constant" (tasa de aprendizaje constante), "invscaling" (tasa de aprendizaje

que disminuye con el tiempo) y "adaptive" (tasa de aprendizaje adaptativa que ajusta la

tasa de acuerdo a la disminución de la pérdida).

Se implementó el hiperparámetro "Forecaster" que representa el modelo de predicción utilizado.

El hiperparámetro "param grid" es un diccionario que contiene los hiperparámetros que

se probarán. "Lags grid" es una lista de valores para los lags que se probarán. La función

"steps" define los pasos futuros.

Para evaluar el modelo de Red Neuronal, se utilizan medidas de error como el MAPE, MSE,

RMSE y MAE. Sin embargo, se enfoca principalmente en la medida de error MAPE,

MAPE es el error de porcentaje medio absoluto, que es una medida relativa que escala

esencialmente la MAD para que se muestre en unidades de porcentaje en lugar de en

unidades de la variable. El error de porcentaje medio absoluto es una medida de error

relativa que utiliza valores absolutos para evitar que los errores positivos y negativos se

cancelen entre sí y utiliza errores relativos para permitirle comparar la precisión de

previsión entre métodos de serie de tiempo. (Oracle, s.f.)


35

11. Resultado

El objetivo principal de este proyecto fue implementar un modelo predictivo de la demanda

avícola en las diferentes zonas del país, que facilite la toma de decisiones de una empresa

del sector avícola, Para abordar este objetivo, se emplearon varios algoritmos de serie de

tiempos, los cuales fueron árboles de decisión, KNN y redes neuronales. Se utilizó un

conjunto de datos de un período de 5 años, que incluía características relevantes en las

ventas en kilogramos de una empresa comercializadora de alimento animal.

11.1.1 Árboles de regresión y clasificación

El árbol de regresión y clasificación se configuró con los parámetros arrojados por el

entrenamiento los cuales son: criterion: friedman_mse, max_depth: 5, min_samples_leaf:

4. el cual dio un modelo como se muestra en la ilustración 2.

Ilustración 2- Comportamiento del Modelo Árbol de Decisión


36

Dando como resultado en la medida de error MAPE de 1.001, mostrando un rendimiento

insatisfactorio, sin embargo, es el mejor modelo del proyecto.

11.1.2 KNN de regresión

El KNN se configuró con los parámetros arrojados por el entrenamiento los cuales son: criterion:

metric: cosine, n_neighbors: 6, weights: distance. el cual dio un modelo como se muestra

en la ilustración 3.

Ilustración 3- Comportamiento del Modelo KNN

Dando como resultado en la medida de error MAPE de 5.951, mostrando un rendimiento

insatisfactorio siendo el peor modelo del proyecto.


37

11.1.3 Redes neuronales

La red neuronal se configuró de 3 maneras diferentes, la primera con los parámetros arrojados

por el entrenamiento los cuales son: activation: identity, hidden_layer_sizes: 8,

learning_rate: adaptive, la segunda con los parámetros arrojados por el entrenamiento los

cuales son: activation: identity, hidden_layer_sizes: (10, 10), learning_rate: constant, y la

tercera con los parámetros arrojados por el entrenamiento los cuales son: activation:

identity, hidden_layer_sizes: (10, 10), learning_rate: constant, el cual dio un mejor

modelo los dos últimos como se muestra en la ilustración 4.

Ilustración 4- Comportamiento del Modelo Red Neuronal

Dando como resultado en la medida de error MAPE de 3.700, mostrando un rendimiento

insatisfactorio
38

Aunque se esperaba obtener resultados más prometedores en el pronóstico de las ventas en

kilogramos de alimento para aves, los modelos desarrollados no alcanzaron las métricas

deseadas. Se identificaron varias posibles razones para estos resultados:

Limitaciones en los datos: El conjunto de datos utilizado puede haber sido insuficiente en

términos de tamaño y representatividad. Esto pudo haber afectado la capacidad de los

modelos para generalizar y capturar patrones relevantes.

Variabilidad en los datos: El conjunto de datos presenta gran variabilidad en las cantidades

vendidas, ya que hay temporadas que se vende demasiado, dependiendo los contratos con

los clientes.

11.2 Lecciones aprendidas y recomendaciones

11.2.1 Experimentar con otros algoritmos

Dado que los modelos utilizados no tuvieron un rendimiento óptimo, se recomienda explorar

otros algoritmos de aprendizaje automático y técnicas más avanzadas

1.1.1 Aumentar variables

Realizar análisis de datos en otras áreas de la empresa, para consolidar otras variables dentro de

la empresa que pueda aportar más volumen y exactitud en el momento de realizar los

modelos de predicción.
39

Aunque los resultados de este proyecto no fueron los esperados, se considera que este análisis

proporciona una base sólida para futuras investigaciones en la detección de fraudes en

transacciones financieras.

12. Conclusiones

A pesar de aplicar una metodología para preparar, limpiar y consolidar los datos y diferentes

algoritmos de serie de tiempo, como árboles de decisión, KNN y redes neuronales,

ninguno de los modelos alcanzó las métricas deseadas. Los errores de pronóstico,

medidos por el MAPE, fueron superiores a los niveles aceptables para una precisión

satisfactoria.

El conjunto de datos utilizado presentó limitaciones en términos de tamaño y representatividad,

lo que pudo afectar la capacidad de los modelos para generalizar y capturar patrones

relevantes. Además, la variabilidad en las cantidades vendidas de alimento para aves

debido a contratos con clientes y factores estacionales también puede haber contribuido a

los resultados insatisfactorios.

Para mejorar el rendimiento del modelo predictivo de demanda avícola, se recomienda explorar

otros algoritmos de aprendizaje automático y técnicas más avanzadas, considerando en

particular enfoques específicos para datos de serie de tiempo. Además, se sugiere realizar

un análisis más exhaustivo de los datos, incluyendo variables adicionales relacionadas

con otras áreas de la empresa, que puedan proporcionar una mayor precisión y volumen

de información para los modelos de predicción.


40

13. Referencias

Agraria, D. d. (2022). Obtenido de

https://www.produccion-animal.com.ar/produccion_aves/produccion_avicola/106-

MANUAL_DE_AVICULTURA.pdf

Agronegocio. (2017). Obtenido de https://www.agronegocios.co/ganaderia/santander-lidera-la-

produccion-avicola-2622546#

Chacón, D. L. (2018). Obtenido de

https://repository.usta.edu.co/bitstream/handle/11634/13016/2018danielallanos.pdf?

sequence=1&isAllowed=y

Chacón, D. L. (2018). La Universidad Santo Tomás. Obtenido de

https://repository.usta.edu.co/bitstream/handle/11634/13016/2018danielallanos.pdf?

sequence=1&isAllowed=y

Diaz, R. (2022). the machine learners. Obtenido de

https://www.themachinelearners.com/algoritmo-knn/

Dsm. (2022). Obtenido de https://www.dsm.com/anh/es/challenges/improving-nutrition-and-

performance/poultry-premix-and-mineral-feed.html#:~:text=Las%20premezclas%20para

%20aves%20pueden,a%20menudo%20se%20producen%20desaf%C3%ADos

Fenavi. (2002). Obtenido de

https://repository.agrosavia.co/bitstream/handle/20.500.12324/37056/

Ver_Documento_37056.pdf?sequence=1&isAllowed=y

Fenavi. (Junio de 2015). Obtenido de https://fenavi.org/wp-content/uploads/2018/05/revista-

250.pdf
41

Fenavi. (2022). Obtenido de

https://valle.fenavi.org/estadisticas/encasetamiento-pollita/#:~:text=El

%20encasetamiento%20es%20el%20n%C3%BAmero,postura%20o%20al%20engorde

%2C%20respectivamente

Fenavi. (2022). Obtenido de https://fenavi.org/nosotros/.

Fonseca, D. M. (2010). Obtenido de

https://repository.javeriana.edu.co/bitstream/handle/10554/852/eam70.pdf

Fonseca, D. M. (2010). Universidad Javeriana. Obtenido de

https://repository.javeriana.edu.co/bitstream/handle/10554/852/eam70.pdf

Galindo., S. L. (Febrero de 2005). Obtenido de https://www.redalyc.org/articulo.oa?

id=63612654015

Google. (2023). Obtenido de

https://research.google.com/colaboratory/intl/es/faq.html#:~:text=Colaboratory%2C

%20o%20%22Colab%22%20para,an%C3%A1lisis%20de%20datos%20y%20educaci

%C3%B3n

Ibm. (Agosto de 2021). Obtenido de https://www.ibm.com/docs/es/spss-modeler/saas?topic=dm-

crisp-help-overview

Ibm. (Agosto de 2021). Obtenido de https://www.ibm.com/docs/es/spss-modeler/saas?

topic=networks-neural-model

Ica. (Noviembre de 2014). Obtenido de https://www.ica.gov.co/getattachment/b8cb4efd-a1b4-

409e-a11d-c81b91f59025/2014R3651.aspx

Ica. (2022). Obtenido de https://www.ica.gov.co/el-ica#:~:text=El%20ICA%20dise%C3%B1a

%20y%20ejecuta,pesquera%20y%20acu%C3%ADcola%20de%20Colombia
42

Jenifa, A. (Diciembre de 2022). GEEKFLARE. Obtenido de https://geekflare.com/es/regression-

vs-classification/

Luque, A. F. (2016). Obtenido de

https://repositorio.uniandes.edu.co/bitstream/handle/1992/15189/u729627.pdf?

sequence=1&isAllowed=y

Mavromichalis, I. (Noviembre de 2017). INDUSTRIA AVÍCOLA. Obtenido de

https://www.industriaavicola.net/nutricion-y-fabricacion-de-alimentos-balanceados/

puntos-de-presion-de-la-formulacion-de-alimento-de-pollo/#:~:text=Una%20f

%C3%B3rmula%20t%C3%ADpica%20para%20pollo,conocidas%20de%20minerales

%20y%20vitaminas.

Mexico, G. d. (Noviembre de 2018). Obtenido de https://www.gob.mx/siap/articulos/aves-de-

postura-jalisco-estado-con-mayor-numero-de-gallinas-ponedoras#:~:text=Las

%20gallinas%20de%20postura%20son,omn%C3%ADvora%2C%20con%20una

%20ovoposici%C3%B3n%20continua..

Napurí, C. G. (2022). Obtenido de https://blogposgrado.ucontinental.edu.pe/los-entes-

reguladores

Neiva, A. M. (2022). Obtenido de

https://www.datos.gov.co/Agricultura-y-Desarrollo-Rural/INVENTARIO-

DESARROLLO-AGROPECUARIO-2021/twdr-7jdx

Oracle. (2023). Obtenido de

https://docs.oracle.com/cloud/help/es/pbcs_common/PFUSU/insights_metrics_MAPE.ht

m#PFUSU-GUID-C33B0F01-83E9-468B-B96C-413A12882334
43

Orozco, L. (2017). Obtenido de https://www.agronegocios.co/ganaderia/santander-lidera-la-

produccion-avicola-2622546#

Social, M. d. (Mayo de 2007). Obtenido de

https://corponarino.gov.co/expedientes/juridica/2007decreto1500.pdf.

Social, M. D. (Enero de 2013). Obtenido de

https://fenavi.org/wp-content/uploads/2019/02/Resolucion_0242_de_2013.pdf

social, M. d. (2023). Ministerio de salud y protección social. Obtenido de

https://fenavi.org/documentos/resolucion-242-de-2013-ministerio-de-salud-y-proteccion-

social/

Solla. (2022). Obtenido de https://www.solla.com/materias-primas-y-premezclas/#:~:text=Son

%20ingredientes%20utilizados%20en%20la,aditivos%20para%20la%20nutrici

%C3%B3n%20animal

Sustainability. (2020). MDPI. Obtenido de https://www.mdpi.com/2071-1050/12/18/7753/htm#

Tamayo, M. (1995). El proyecto de Investigación . Serie Aprender a Investigar ICFES.

Vásquez, H. A. (2023). Obtenido de https://www.ica.gov.co/getattachment/af9943f9-87a5-4897-

9962-2d414fa0fdbf/Publicacion-10.aspx
44

14. Anexos

Anexo de paso a pao Colab.docx

DATOS PROYECTO NUTREXCOL (1).xlsx

https://colab.research.google.com/drive/

1hWve1BML4wYZurxuEC5R0ClG62pkUlpB#scrollTo=xtfNmK7ohK7v

También podría gustarte