G3 3 Final

1
Elaboración de una herramienta predictiva de personal propenso a accidentes laborales en las

obras de construcción en el sector de hidrocarburos en campo rubiales (Meta).
(Metodología CRISP-DM)
Vanessa Aguilar Pérez Cód. 1511023641.
Luis Fernando Briceño Bonilla Cód.1812010233.
Tutor. Ing. Fernando Bomba
POLITECNICO GRANCOLOMBIANO INSTITUCIÓN UNIVERSITARIA.
MINERIA DE DATOS
BOGOTÁ
2020.
2
Contenido
1. Comprensión del Negocio. 5

1.1. Objetivos del negocio. 5
1.1.1. Objetivo general comercial. 5
1.1.2. Objetivos específicos comerciales. 5
1.2. Objetivos de la minería de datos. 5
1.2.1. Objetivo general de la minería de datos. 5
1.2.2. Objetivos específicos de la minería de datos. 6
2. Comprensión de los datos. 6
2.1. Recopilación de los datos iniciales. 6
2.1.1. Las variables más representativas son: 6
2.1.2. Las variables que no son representativas son: 7
2.2. Descripción de las variables. 7
2.3. Exploración de los datos. 8
2.3.1. Análisis estadístico de las variables cuantitativas. 8
2.3.2. Análisis estadístico de las variables cualitativas relevantes. 8
2.3.2.1. Variable Accidente. 8
2.3.2.2. Variable Cargo. 9
2.3.2.3. Variable Camisa. 10
2.3.2.4. Variable Curso_Fase3. 10
2.3.2.5. Variable Pase_Campo. 10
2.3.2.6. Variable Conte. 11
2.3.2.7. Variable Curso_Alturas. 11
2.3.2.8. Variable Escolaridad. 11
2.3.2.9. Variable Régimen. 11
2.3.2.10. Variable Contrato. 12
2.3.2.11. Variable Género. 12
3
2.3.2.12. Variable Subcontratista. 12

2.3.3. Relación de la variable Objetivo / Dependiente (Accidente) en función a otras variables
Explicativas / Independientes. 13
2.3.3.1. Personas accidentadas vsGénero. 13
2.3.3.2. Personas accidentadas vs género –Régimen –Tipo_contrato. 13
2.3.3.3. Personas accidentadas vs Genero - Sindicato. 13
2.3.3.4. Personas accidentadas vs Género - Escolaridad. 14
2.3.3.5. Personas accidentadas vs Curso_Alturas – Curso_Fase3. 14
2.3.3.6. Personas accidentadas vs Pase_Campo – Curso_Fase3. 15
2.3.3.7 Personas No accidentadas vs Curso_Alturas – Curso_Fase3. 15
3. Preparación de los Datos. 16
3.1. Eliminación de variables. 16
3.1.1. Eliminación de variables no Representativas. 16
3.1.2. Eliminación de variable por integración en una nueva variable. 16
3.2. Creación de nuevas variables. 17
4. Modelado 19
4.1. Selección de la técnica de modelado. 19
4.2. Creación del flujo de trabajo en KNIME. 19
4.3. Cargue de Datos. 20
4.4. Filtrado de columnas 20
4.5. Normalización de variables. 21
4.6. Partición. 23
4.7. Selección de técnicas de clasificación. 24
4.7.1. Árbol de decisión. 24
4.7.1.1. Configuración de los Nodos 24
4.7.1.2. Resultados técnica del árbol de decisión. 26
4.7.2. Regresión logística. 28
4.7.2.2. Resultados técnica de la Regresión Logística. 29
4.7.3. NaiveBayes. 30
4.7.3.2. Resultados tecnicaNaiveBayes. 32
4
4.8. Selección del mejor Modelo. 32

4.8.1. Bondad de Ajuste. 32
4.8.1.1. matriz de confusión. 32
4.8.1.2. Selección del modelo. 34
4.9. Resultados obtenidos del Modelo seleccionado. 34
4.9.1. Variables que más inciden en la accidentalidad de este tipo de obras. 34
4.9.2. Ranking de las variables que más inciden en la accidentalidad de este tipo de obras. 34
4.9.3. Regla de decisión. 35
4.3.9.1. Formulación de la regla de decisión. 37
4.10. Conclusiones y hallazgos. 37
5. Evaluación e implementación del modelo. 38
5.1. Objetivo general. 38
5.2. Matriz objetivos específicos de MD Vs acción de cumplimiento. 38
5.3. Matriz resultado Vs acción estratégica. 39
5
1. Comprensión del Negocio.
1.1. Objetivos del negocio.

JAH INGENIERIA Y SUMINISTROS S.A.S. es una empresa dedicada a la prestación de bienes y
servicios al sector de la construcción. Actualmente se encuentra desarrollando un proyecto
cuyo objeto es “CONSTRUCCION DE OBRAS CIVILES, ELECTRICAS, MECANICAS E
INSTRUMENTACION REQUERIDAS POR ECOPETROL S.A. Y SU GRUPO EMPRESARIAL PARA LA
VIGENCIA 2018 AL 2021 CON OPCION DE DOS (2) AÑOS MAS, EN EL HUB ORIENTE”, localizado
en campo rubiales, departamento del Meta.
Se identificó que, durante su primer año de proyecto, no se está cumpliendo con los indicadores
de costos, utilidades y tiempos de ejecución de obras, establecidos al inicio del proyecto;
originados principalmente por los tiempos perdidos y sobrecostos por ocasión de accidentes
laborales presentados durante la ejecución de las obras, en los que se ha podido evidenciar
como causa raíz, errores humanos.
1.1.1. Objetivo general comercial.
Reducir los sobrecostos generados durante la fase de construcción del proyecto para
alcanzar las metas proyectadas por la gerencia y la junta de socios de la organización,
mediante la disminución de la accidentalidad laboral en el proyecto.
1.1.2. Objetivos específicos comerciales.
a. Crear estrategias de sensibilización dirigidas al personal de obra, para fortalecer los

temas de seguridad industrial y salud ocupacional como estilos de vida.
b. Disminuir los tiempos perdidos por paradas de seguridad e investigación de accidentes,

para mejorar el avance y disminuir el atraso en la ejecución de las obras.
c. Disminuir la perdida de horas hombre laboradas por motivos de incapacidades médicas

para aumentar los rendimientos de las actividades a ejecutar.
1.2. Objetivos de la minería de datos.
1.2.1. Objetivo general de la minería de datos.

6
Crear un modelo predictivo de los trabajadores más propensos a accidentes laborales en

obras de construcción, mediante la clasificación de los datos básicos de ingreso de cada
uno, focalizando y fortaleciendo en ellos la disciplina de seguridad industrial y salud
ocupacional.
1.2.2. Objetivos específicos de la minería de datos.
a. Identificar variables representativas que inciden en la accidentalidad de este tipo de

obras, para fortalecerlas mediante estrategias de seguridad industrial y salud
ocupacional
b. Presentar el ranking de variables representativas, aplicando así, los procedimientos

correctos mediante la priorización de las acciones a tomar.
c. Determinar el modelo predictivo más conveniente de aplicar ante accidentes laborales,

reduciendo las probabilidades de accidentalidad mediante la identificación temprana
de potenciales generadores de eventos laborales negativos.
d. Definir una regla de decisión, para la identificación de trabajadores propensos a tener

accidentes laborales.
2. Comprensión de los datos.
2.1.Recopilación de los datos iniciales.
Se conformó una base de datos con la información registrada de cada trabajador al momento de su
ingreso, las capacitaciones relevantes recibidas y la respuesta a la pregunta “¿Se ha visto usted
involucrado en un accidente laboral en este proyecto?”.
Se realizó la revisión y limpieza de la base de datos, eliminando campos repetidos, celdas vacías y datos
incoherentes.
2.1.1. Las variables más representativas son:
a. Accidente.
b. Cargo.
c. Curso fase 3.
d. Pasecampo.
e. Conte.
f. Cursoalturas.
g. Cursoconfinados.
h. Certi_res.
i. Sindicato.
7
j. Escolaridad.
k. Edad.
l. Subcontratista.
2.1.2. Las variables que no son representativas son:
a. Cedula.
b. Ods.
c. Nombre.
2.2.Descripción de las variables.
Tabla 1. Descripción de las variables del proyecto
Variable Categoría / unidad Tipo de Variable
Ítem Numérico Discreto
Variable
Accidente Si / No Nominal Objetivo /
Dependiente
Cedula Numérico Discreto Variables

Explicativ
Ods Texto Nominal
as /
Ubicación Texto Nominal Independi
entes
Nombre Texto Nominal
Cargo Texto Nominal
Turno Numérico / días Ordinal
Camisa S / M / L / XL / XXL Ordinal
Pantalón Numérico Ordinal
Botas Numérico Ordinal
Curso_fase1 Si / No Nominal
Pasecampo Si / No Nominal
Conte Si / No Nominal
8
Curso_alturas Si / No Nominal
Curso_confinados Si / No Nominal
Domicilio Texto Nominal
Certi_res Si / No Nominal
Sindicato Si / No Nominal
Primaria / secundaria /
Escolaridad Ordinal
tecnólogo / profesional
Régimen Legal / Convencional Nominal
Salario Pesos Continua
Termino_fijo /
Contrato Obra_labor / Nominal
Termino_Indefinido
Genero Mujer / Hombre Nominal
Edad Años Ordinal
Subcontratista Si / No Nominal
2.3.Exploración de los datos.
Para la compilación y análisis de los datos de la base de datos se utilizará el software Microsoft Excel,
teniendo en cuenta que estos datos ya pasaron por un proceso de revisión, limpieza, y depuración.
2.3.1. Análisis estadístico de las variables cuantitativas.
Tabla 2. Análisis estadístico de las variables cuantitativas
TURNO SALARIO EDAD
Media 15,040 Media 2492864,512 Media 39,27
Error típico 0,093 Error típico 32130,901 Error típico 0,302
Mediana 14 Mediana 2197290 Mediana 39,5
Moda 14 Moda 2197290 Moda 38
Desviación Desviación Desviación

2,273 783098,011 7,359
estándar estándar estándar
9
Varianza de Varianza de Varianza de la

5,169 613242495200,858 54,149
la muestra la muestra muestra
Curtosis 0,995 Curtosis 7,347 Curtosis 0,233
Coeficiente
Coeficiente Coeficiente de
1,730 de 1,944 -0,302
de asimetría asimetría
asimetría
Rango 6 Rango 6010000,000 Rango 41
Mínimo 14 Mínimo 1490000,000 Mínimo 18
Máximo 20 Máximo 7500000,000 Máximo 59
Suma 8934 Suma 1480761520,000 Suma 23329
Cuenta 594 Cuenta 594 Cuenta 594
2.3.2. Análisis estadístico de las variables cualitativas relevantes.
2.3.2.1. Variable Accidente.
Tabla 3. Análisis estadístico variable accidente
Variable
Recuento %
Accidente
NO 534 89,90%
SI 60 10,10%
Total general 594 100,00%
2.3.2.2. Variable Cargo.
Tabla 4. Análisis estadístico variable cargo
Variable Recuent
%
Cargo o
ADMINISTRADOR_DE_OBRA 5 0,84%
ALMACENISTA 5 0,84%
ANDAMIERO 1 0,17%
APAREJADOR 2 0,34%
10
ASISTENTE_ADMON 8 1,35%
AUXILIAR_INGENIERIA 2 0,34%
AYUDANTE_DE_PINTURA 2 0,34%
AYUDANTE_ELECTRICISTA 22 3,70%
AYUDANTE_TECNICO_MECANICO 11 1,85%
CADENERO 11 1,85%
CONDUCTOR_VEHICULOS_PESADO
9 1,52%
S
COORDINADOR_HSE 4 0,67%
COORDINADOR_QAQC 2 0,34%
DIBUJANTE 1 0,17%
DIRECTOR 7 1,18%
ELECTRICISTA 3 0,51%
ING_CONTROL_DE_COSTOS 5 0,84%
INGENIERO_RESIDENTE 14 2,36%
INSPECTOR_DE_CALIDAD_QAQC 7 1,18%
LINIERO 3 0,51%
MECANICO 2 0,34%
OBRERO 264 44,44%
OFICIAL_DE_OBRA 116 19,53%
OPERADOR_MAQUINARIA 25 4,21%
PAILERO 3 0,51%
PINTOR_SANBLASTING 1 0,17%
SOLDADOR_1A 3 0,51%
SUPERVISOR_AMBIENTAL 1 0,17%
SUPERVISOR_DE_OBRA 16 2,69%
SUPERVISOR_HSE 22 3,70%
TECNICO_ELECTRICISTA 11 1,85%
TOPOGRAFO 3 0,51%
TUBERO_1A 3 0,51%
100,00
594
Total general %
2.3.2.3. Variable Camisa.
Tabla 5. Análisis estadístico variable camisa
Variable Recuent
%
Camisa o
L 157 26,43%
M 199 33,50%
11
S 116 19,53%
XL 110 18,52%
XXL 10 1,68%
XXXL 2 0,34%
Total general 594 100,00%
2.3.2.4. Variable Curso_Fase3.
Tabla 6. Análisis estadístico variable curso_fase3.
Variable Recuent
%
Curso_Fase3 o
NO 181 30,47%
SI 413 69,53%
100,00
594
Total general %
2.3.2.5. Variable Pase_Campo.
Tabla 7. Análisis estadístico variable Pase_Campo.
Variable Recuent
%
Pase_Campo o
NO 506 85,19%
SI 88 14,81%
100,00
594
Total general %
2.3.2.6. Variable Conte.
Tabla 8. Análisis estadístico variable Conte.
Variable Recuent
%
Conte o
12
NO 559 94,11%
SI 35 5,89%
100,00
594
Total general %
2.3.2.7. Variable Curso_Alturas.
Tabla 9. Análisis estadístico variable Curso_Alturas.
Variable Recuent
%
Curso_Alturas o
NO 327 55,05%
SI 267 44,95%
100,00
594
Total general %
2.3.2.8. Variable Escolaridad.
Tabla 10. Análisis estadístico variable Escolaridad.
Variable Recuent
%
Escolaridad o
PRIMARIA 197 33,16%
PROFESIONAL 61 10,27%
SECUNDARIA 290 48,82%
TECNOLOGO 46 7,74%
100,00
594
Total general %
2.3.2.9. Variable Régimen.
Tabla 11. Análisis estadístico variable Régimen.
Variable Recuent
%
Régimen o
CONVENCIONAL 384 64,65%
LEGAL 210 35,35%
100,00
594
Total general %
2.3.2.10. Variable Contrato.

13
Tabla 12. Análisis estadístico variable Contrato.
Variable Recuent
%
Contrato o
INDEFINIDO 1 0,17%
OBRA_LABOR 491 82,66%
TERMINO_FIJO 102 17,17%
100,00
594
Total general %
2.3.2.11. Variable Género.
Tabla 13. Análisis estadístico variable Género.
Variable Recuent
%
Género o
HOMBRE 546 91,92%
MUJER 48 8,08%
100,00
594
Total general %
2.3.2.12. Variable Subcontratista.
Tabla 14. Análisis estadístico variable subcontratista.
Variable Recuent
%
Subcontratista o
NO 509 85,69%
SI 85 14,31%
100,00
594
Total general %
2.3.3. Relación de la variable Objetivo / Dependiente (Accidente) en función a otras

variables Explicativas / Independientes.
14
2.3.3.1. Personas accidentadas vsGénero.
Tabla 15. Relación Accidente SI vs Género.

ACCIDENTE SI
Variable Recuent
%
Género o
HOMBRE 57 95,00%
MUJER 3 5,00%
100,00
60
Total general %
Figura 1. Relación Accidente SI vs Genero.
2.3.3.2. Personas accidentadas vs género –Régimen –Tipo_contrato.
Tabla 16. Relación Accidente SI vs Género-Régimen-Tipo_Contrato.
ACCIDENTE SI
Género-Régimen- Recuent
%
Tipo_contrato o
HOMBRE 57 95,00%
OBRA_LABOR 40 66,67%
LEGAL 10 16,67%
OBRA_LABOR 7 11,67%
MUJER 3 5,00%
OBRA_LABOR 2 3,33%
LEGAL 1 1,67%
TERMINO_FIJO
Figura 2. Relació 1,67% SI vs Genero-Régimen-
1 n Accidente
Tipo_Contrato. 100,00
60
Total general %
2.3.3.3. Personas accidentadas vs Genero - Sindicato.
Tabla 17. Relación Accidente SI vs Género - Sindicato.

15
ACCIDENTE SI
Recuent
%
Género - sindicato o
HOMBRE 57 95,00%
NO 16 26,67%
SI 41 68,33%
MUJER 3 5,00%
SI 3 5,00%
Figura 3. Relació n Accidente SI vs Género- 100,00
60
Total general
Sindicato %
2.3.3.4. Personas accidentadas vs Género - Escolaridad.
Tabla 18. Relación Accidente SI vs Género-Escolaridad.
ACCIDENTE SI
Género - Recuent
%
Escolaridad o
HOMBRE 57 95,00%
PRIMARIA 50 83,33%
PROFESIONAL 3 5,00%
SECUNDARIA 1 1,67%
TECNOLOGO 3 5,00%
MUJER 3 5,00%
PRIMARIA 2 3,33%
PROFESIONAL 1 1,67%
Figura 4. Relació n Accidente SI vs Género-
100,00 Escolaridad
60
Total general %
2.3.3.5. Personas accidentadas vs Curso_Alturas – Curso_Fase3.
Tabla 19. Relación Accidente SI vs Curso_Alturas – Curso_Fase3.
ACCIDENTE SI
Curso_Alturas -
Recuento %
Curso_Fase3
NO 55 91,67%
NO 49 81,67%
SI 6 10,00%
16
SI 5 8,33%
NO 5 8,33%
100,00
60
Total general %
Figura 5. Relació n Accidente SI vs Curso_Alturas –

Curso_Fase3
2.3.3.6. Personas accidentadas vs Pase_Campo – Curso_Fase3.
Tabla 20. Relación Accidente SI vs Pase_Campo – Curso_Fase3.
ACCIDENTE SI
Pase_Campo - Recuent
%
Curso_Fase3 o
NO 50 83,33%
NO 47 78,33%
SI 3 5,00%
SI 10 16,67%
NO 7 11,67%
SI 3 5,00%
100,00
60 Figura 6. Relació n Accidente SI vs
Total general %
Pase_Campo – Curso_Fase3
2.3.3.7 Personas No accidentadas vs Curso_Alturas – Curso_Fase3.

17
Tabla 21. Relación Accidente NO vs Curso_Alturas – Curso_Fase3.
ACCIDENTE NO
Curso_Alturas -
Recuento %
Curso_Fase3
NO 272 50,94%
NO 57 10,67%
SI 215 40,26%
SI 262 49,06%
NO 70 13,11%
SI 192 35,96%
100,00
534
Total general % Figura 7. Relació n Accidente NO vs
Curso_Alturas – Curso_Fase3
3. Preparación de los Datos.
A continuación, se detallará el procesamiento previo de análisis de datos, antes de aplicar las técnicas de
minería de datos.
Se contará con la información más relevante que permita alcanzar el objetivo de la presente
investigación. Para ello se realizará un proceso de adecuación y transformación de nuestra base de
datos, el cual consiste en:
3.1.Eliminación de variables.
3.1.1. Eliminación de variables no Representativas.
Se eliminaron de la base de datos las variables “Cedula”, “ODS”, “Nombre y Botas” por
considerarse de poco aporte al análisis de la accidentalidad.
También se eliminan las variables “Curso_Fase1” y “Curso_Fase2”, al determinarse su

poco aporte en las relaciones que se puedan generar entre variables, al presentar el
mismo valor para todos los integrantes de la base de datos.
3.1.2. Eliminación de variable por integración en una nueva variable.

18
Se eliminaron las variables “Camisa” y “Pantalón”, las cuales se integraron para formar
una nueva variable llamada “Contextura”.
Igualmente se eliminan las variables “Domicilio” y “Certi_Res”, las cuales se integran

para formar la nueva variable llamada “Origen”.
3.2.Creación de nuevas variables.
3.2.1. Creación de la variable “Tipo_Cargo”.
Se realiza una categorización de la variable “cargo”, catalogándolos de acuerdo al nivel

de funciones y principal área de incidencia en el proyecto. Para este caso de estudio, las
categorías de esta nueva variable son “Administrativo”u“Operativo”.
3.2.2. Creación de la variable Contextura.
Realizamos la integración de las variables “Camisa” y “Pantalón” para generar una

variable más descriptiva de las condiciones corporales del trabajador o trabajadora
objeto de análisis. Para este caso de estudio, las categorías de esta nueva variable son
“Pequeña”, “Mediana” y “grande”. Los criterios de integración son:
Para los hombres.
a. Si “Camisa” = S; entonces “Contextura” = “Pequeña”.

b. Si “Camisa” = M;entonces “Contextura” = “Mediana”.
c. Si “Camisa” = L y “Pantalon”<= 34;entonces “Contextura” = “Mediana”.
d. Si “Camisa” = L y “Pantalon” > 34; entonces “Contextura” = “Grande”.
e. Si “Camisa” = XL;entonces “Contextura” = “Grande”.
f. Si “Camisa” = XXL;entonces “Contextura” = “Grande”
Para las mujeres.
a. Si “Camisa” = S; entonces “Contextura” = “Pequeña”.

b. Si “Camisa” = M;entonces “Contextura” = “Mediana”.
c. Si “Camisa” = L y “Pantalon” <= 12; entonces “Contextura” = “Mediana”.
d. Si “Camisa” = L y “Pantalon” > 12; entonces “Contextura” = “Grande”.
e. Si “Camisa” = XL;entonces “Contextura” = “Grande”.
3.2.3. Creación de la variable “Origen”.

19
Dado que se aprecia una estrecha relación entre las variables “Domicilio” y “Certi_Res”;
donde sí “Domicilio” = “PUERTO_GAITAN_CASCO_URBANO” o
“PUERTO_GAITAN_VEREDAS”; Entonces “Certi_Res” = SI; de lo contrario el valor es
“NO”. Se decide crear una nueva variable que agrupa a esta dos y tiene como categorías
“Foraneo” y “Local”. Los criterios de integración son:
a. Si “Certi_Res” = Si; entonces “Origen” = “Local”.

b. Si “Certi_Res” = No; entonces “Origen” = “Foraneo”.
Tabla 22. Descripción de las variables nuevas del proyecto.
Variable Categoría / unidad Tipo de Variable
Administrativo /
Tipo_Cargo Nominal Variables
Operativo
Explicativas
Pequeña / /
Contextura Nominal
Mediana / Grande Independien
tes
Origen Local / Foraneo Nominal
Tabla 23. Descripción de las variables definitivas para modelado.
Categoría /
Variable Tipo de Variable
unidad
Ítem Numérico Discreto
Variable
Accidente Si / No Nominal Objetivo /
Dependiente
Ubicación Texto Nominal Variables

Explicativas
Cargo Texto Nominal
/
Administrativo Independien
Tipo_Cargo Nominal
/ Operativo tes
Numérico /
Turno Ordinal
días
Contextura Pequeña / Nominal

Mediana /
20
Grande
Pasecampo Si / No Nominal
Conte Si / No Nominal
Curso_alturas Si / No Nominal
Curso_confinados Si / No Nominal
Local /
Origen Nominal
Foraneo
Sindicato Si / No Nominal
Primaria /
secundaria /
Escolaridad Ordinal
tecnólogo /
profesional
Legal /
Régimen Nominal
Convencional
Salario Pesos Continua
Termino_fijo /
Obra_labor /
Contrato Nominal
Termino_Inde
finido
Mujer /
Genero Nominal
Hombre
Edad Años Ordinal
Subcontratista Si / No Nominal
4. Modelado
4.1.Selección de la técnica de modelado.
Para la obtención del objetivo de esta investigación se utilizarán las técnicas de análisis de
datos predictivas, buscando clasificar a un trabajador/a correctamente en un grupo
previamente definido (Accidente).
21
Se empelarán tres métodos de clasificación, Árbol de decisión, Regresión logística y

bayesiano.
Para la creación del modelo se utilizará el software KNIME.
4.2.Creación del flujo de trabajo en KNIME.
Para la creación del flujo de trabajo, teniendo en cuenta las técnicas de clasificación a
aplicar, se utilizarán los siguientes Nodos:
1. Excel Reader (XLS)

2. ColumnFilter
3. Normalizer
4. Partitioning
5. DecisionTreeLearner
6. DecisionTree Predictor
7. Scorer
8. LogisticRegressionLearner
9. LogisticRegression Predictor
10. Scorer
11. NaiveBayesLearner
12. NaiveBayes Predictor
13. Scorer
14. Excel Writer (XLS)
Figura 8. Flujo de Trabajo en

KNIME
4.3.Cargue de Datos.
Utilizando el nodo 1 (Excel Reader XLS), se carga la base de datos definitiva.
Figura 9. Cargue de base de datos en KNIME

22
4.4.Filtrado de columnas
Aunque la base de datos orinal fue depurada y limpiada, se mantuvo la variable ítem como
llave primaria de la nueva base de datos; no obstante, esta variable no es representativa
para el objetivo de la investigación, motivo por el cual se excluye del presente modelo.
La variable cargo también es excluida, ya que se encuentra clasificada en la variable

“Tipo_cargo”.
Figura 10. Filtrado de las variables ítem y cargo del modelo.

23
4.5.Normalización de variables.
En el nodo 3 (Normalizer) se normalizarán las variables cuantitativas, ya que estas se

presentan en unidades diferentes, como lo son “Turno” expresada en días, “Salario”
expresada en pesos y “Edad” expresada en años.
Figura 11. Normalización de las variables cuantitativas.

24
Luego de dar aplicar y ok en esta ventana se utilizará el nodo 14 (Excel Writer XLS) para
obtener los valores normalizados de estas variables.
Figura 12. Configuración Nodo 14 (Excel Writer XLS)

25
Figura 13. Valores de variantes normalizadas.
4.6.Partición.
En el nodo 4 (Partitioning) se realizará una partición (70% y 30%) de la base de datos

cargada ya normalizada, con el fin de generar una parte para entrenamiento del modelo
(70%) y la otra parte (30%) se utilizará para prueba del mismo.
El programa ha tomado para la primera parte (70%) un total de 415 filas y 19 columnas,
mientras que para la segunda parte (30%) ha tomado 179 filas y 19 columnas.
26
Figura 14. Partición de los datos.
4.7.Selección de técnicas de clasificación.
4.7.1. Árbol de decisión.
4.7.1.1. Configuración de los Nodos
Los nodos correspondientes a la ejecución de la técnica Árbol de decisión son los

numero 5 (DecisionTreeLearner), 6 (DecisionTreePredictor) y 7 (Scorer).
Se une la salida de la partición del 70% del nodo 4 con la entrada del nodo 5
(DecisionTreeLearner) y procedemos a configurar este nodo.
27
Figura 15. Configuración Nodo 5 (DecisionTreeLearner).
Luego de configurarlo, se corre el nodo 5 y se procede a configurar el Nodo 6

(DecisionTree Predictor) uniendo la salida del 30% de la partición del nodo 4.
28
Figura 16. Configuración Nodo 6 (DecisionTreePredictor).
Corremos el nodo 6 (DecisionTreePredictor) y pasamos a configurar el nodo 7

(Scorer).
29
Figura 17. Configuración Nodo 7 (Scorer).
Una vez configurado el Nodo 7, lo corremos y analizamos los datos obtenidos.
4.7.1.2. Resultados técnica del árbol de decisión.
De este modelo se obtuvo una precisión del 96.648%
Figura 18. Matriz de confusión Árbol de decisión.

30
Figura 19. Árbol de decisión.

31
4.7.2. Regresión logística.

32
Los nodos correspondientes a la ejecución de la técnica de regresión Logística

son los numero 8 (LogisticRegressionLearner), 9 (LogisticRegression Predictor) y
10 (Scorer).
Se une la salida de la partición del 70% del nodo 4 con la entrada del nodo
8(LogisticRegressionLearner) y se procede a configurar este nodo.
Figura 20. Configuración Nodo 8 (LogisticRegressionLearner)
Luego de configurarlo, se corre el nodo 8 y se pasa a configurar el Nodo 9

(DecisionTree Predictor) uniendo la salida del 30% de la partición del nodo 4.
33
Figura 21. Configuración Nodo 9(LogisticRegression Predictor).
Se corre el nodo 9 (LogisticRegression Predictor) y se pasa a configurar el nodo

10 (Scorer).
Figura 22. Configuración Nodo 10 (Scorer)
Una vez configurado el Nodo 10, se corren y analizan los datos obtenidos.
4.7.2.2. Resultados técnica de la Regresión Logística.

34
Figura 23. Matriz de confusión Regresión logística.
4.7.3. NaiveBayes.
Los nodos correspondientes a la ejecución de la técnica NaiveBayes son los

numero 11 (NaiveBayesLearner), 12 (NaiveBayes Predictor) y 13 (Scorer).
Se une la salida de la partición del 70% del nodo 4 con la entrada del nodo
11(NaiveBayesLearner) y se procede a configurar este nodo.
35
Figura 24. Configuración Nodo 11(NaiveBayesLearner)
Luego de configurarlo, se corre el nodo 11 y se pasa a configurar el Nodo 12

(NaiveBayes Predictor) uniendo la salida del 30% de la partición del nodo 4.
Figura 25. Configuración Nodo 12(NaiveBayesPredictor).

36
Se corre el nodo 12 (NaiveBayes Predictor) y se pasa a configurar el nodo 13

(Scorer).
Figura 26. Configuración Nodo 13(Scorer)
Una vez configurado el Nodo 13, se corren y analizan los datos obtenidos.
4.7.3.2. Resultados tecnicaNaiveBayes.

37
Figura 27. Matriz de confusión NaiveBayes.
4.8.Selección del mejor Modelo.
4.8.1. Bondad de Ajuste.
Una vez creados los tres modelos (Árbol de Decisión, Regresión Logística y
NaiveBayes) se procede a determinar qué tan acertados se ajustan los valores
originales a los valores teóricos que se obtienen de cada modelo, para
seleccionar de entre todos ellos el modelo de mejor rendimiento.
4.8.1.1. matriz de confusión.
Esta matriz es construida a partir de los datos de prueba, datos que se

seleccionan al momento que inicia el modelado cuando se parte de la base en
datos de entrenamiento y datos de prueba.
La matriz de confusión o matriz de clasificación es una herramienta estándar

de evaluación de modelos estadísticos, que compara los valores reales con los
valores de predicción y los clasifica en una matriz donde en la diagonal
(resaltados en gris) están la cantidad de valores reales y de predicción que son
correctos, que son clasificados correctamente por el modelo, y por fuera de la
diagonal de la matriz se encuentran la cantidad de errores que la función de
clasificación o modelos cometieron al no clasificar bien esa cantidad de casos.
Tabla 24. Matriz de confusión método Árbol de decisión.
ACCIDENTE NO SI TOTAL
38
NO 163 5 168
SI 1 10 11
TOTAL 164 15 179
% ACIERTO 99,39% 66,67% 96,65%
% ERROR 0,61% 33,33% 3,35%
Tabla 25. Matriz de confusión método Regresión Logística.

ACCIDENT
NO SI TOTAL
E
NO 164 4 168
SI 3 8 11
TOTAL 167 12 179
%
98,2% 66,67% 96,09%
ACIERTO
% ERROR 1,80% 33,33% 3,91%
Tabla 26. Matriz de confusión método NaiveBayes.

ACCIDENT
NO SI TOTAL
E
NO 165 3 168
SI 0 11 11
TOTAL 165 14 179
%
100,0% 78,6% 98,32%
ACIERTO
% ERROR 0,00% 21,43% 1,68%
Tabla 27. Resumen Matriz de confusión métodos construidos.

Matriz de
MODELO
Confusión.
NaiveBayes 98,3%
Árbol de decisión 96,6%
RegresiónLogistica 96,1%
4.8.1.2. Selección del modelo.

39
De acuerdo a la bondad de ajuste realizada en esta investigación, el orden de

elegibilidad del mejor modelo obtenido es:
1. NaiveBayes.
2. Árbol de decisión.
3. Regresión Logística.
No obstante, este equipo analista ha seleccionado como el modelo más

adecuado para obtener los objetivos de la investigación al Árbol de Decisión,
teniendo en cuenta que:
1. El porcentaje de acierto de este modelo cumple con las expectativas del

equipo analista.
2. No consideramos representativa la diferencia porcentual obtenida en la
exactitud del modelo, con respecto al NaiveBayes.
3. Los resultados obtenidos en este modelo son de fácil explicación al cliente
e igualmente, de fácil interpretación por el mismo.
4. Los resultados obtenidos en este modelo resultan más pragmáticos a la
hora de ponerlo en práctica en las obras, permitiendo desplegar
visualmente las áreas a fortalecer.
4.9.Resultados obtenidos del Modelo seleccionado.
4.9.1. Variables que más inciden en la accidentalidad de este tipo de obras.
● Origen
● Edad
● Escolaridad
● Curso_Fase3
4.9.2. Ranking de las variables que más inciden en la accidentalidad de este tipo de
obras.
1. Curso_Fase3.
Evidenciando la importancia de capacitar en temas de seguridad industrial en
el sector de los hidrocarburos, al personal contratado.
2. Escolaridad.
Identificando una fuerte relación inversamente proporcional entre el Nivel de
escolaridad y la accidentalidad. Siendo así que a menor preparación académica
se ha presentado mayor accidentalidad.
3. Edad.
Exponiendo posibles patrones de comportamiento inseguro frente al trabajo,
en la población mayor de 39 años de edad y de baja escolaridad.
40
4. Origen.
Mostrando que la mano de obra local tiene mayores índices de accidentalidad
en estas obras.
4.9.3. Regla de decisión.
Para obtener la regla se realizará la lectura del árbol de decisión obtenido en el modelo
predictivo construido, para lo cual se hace necesario hacer la conversión del valor de la edad,
interpolando los datos obtenidos en la normalización de variables hecha durante el proceso del
modelado de los datos.
Se observa que el valor de 0.5 que expresa el árbol de decisión, Se

encuentra en los 38.5 años de edad, por lo cual para la
interpretación del modelo se tomaran como 39 años para
llevarlo al entero próximo.
Figura. 28. Interpolación edad normalizada.
Figura 29. Lectura del árbol de decisión.

41
4.3.9.1. Formulación de la regla de decisión.

42
Con una probabilidad del 81.2%, la regla de decisión del trabajador más propenso
a verse involucrado en accidentes laborales en este tipo de obras es:
El trabajador que es de Origen Local, cuya Edad es superior a los 39 años, con un
Nivel de Escolaridad que no supera la Primaria y No se encuentra capacitado en el
Curso Fase 3 de Ecopetrol.
4.10. Conclusiones y hallazgos.
a. Mediante la realización del análisis de las diferentes variables evaluadas, se pudo

evidenciar que al aplicar el modelo descrito se logran reducir significativamente los
sobrecostos que se generan a causa de los accidentes laborales y que son
generados por el no conocimiento y el bajo nivel de capacitación de los
trabajadores.
b. Se encontró que las principales causas de los accidentes laborales en esta
investigación, son la deficiencia y bajo nivel de capacitación y conocimiento de los
trabajadores en los diferentes temas de seguridad y salud en el trabajo; razón por lo
cual es necesario implementar un plan de mejoramiento que consista en
sensibilizar, concientizar y capacitar a cada uno de los trabajadores con el fin de
prevenir o mitigar el impacto que pueda generar el desconocimiento de estos en el
surgimiento de accidentes laborales.
c. Al aplicar los respectivos correctivos desde las variables más significativas arrojadas
por el modelo establecido, se podrá lograr la disminución de tiempos perdidos
reflejados en una reducción en la perdida de horas hombre trabajadas a causa de
incapacidades y el evidente mejoramiento en el avance, ejecución y culminación de
las obras en tiempos menores.
d. El modelo generado nos permitió predecir las 4 variables que son más propensas a
generar accidentes laborales y el nivel de importancia de estas en el desarrollo y
cumplimiento de los planes de mejoramiento a establecer en la empresa. Dichas
variables arrojadas son nivel de capacitación, escolaridad, edad y origen.
43
5. Evaluación e implementación del modelo.
5.1. Objetivo general.
Crear un modelo predictivo de los trabajadores más propensos a accidentes laborales en obras
de construcción, mediante la clasificación de los datos básicos de ingreso de cada uno,
focalizando y fortaleciendo en ellos la disciplina de seguridad industrial y salud ocupacional.
5.2. Matriz objetivos específicos de MD Vs acción de cumplimiento.
Tabla 28. Cuadro comparativo Objetivos específicos MD Vs Acción de cumplimiento.
Objetivos específicos de MD Acción de cumplimiento

1. Identificar variables representativas que inciden en
la accidentalidad de este tipo de obras, para
Origen, Edad, Escolaridad, Curso_Fase3
fortalecerlas mediante estrategias de seguridad
industrial y salud ocupacional.
2. Presentar el ranking de variables representativas,
aplicando así, los procedimientos correctos mediante 1) Curso_Fase3, 2)Escolaridad, 3)Edad, 4) Origen
la priorización de las acciones a tomar.
3. Determinar el modelo predictivo más conveniente
de aplicar ante accidentes laborales, reduciendo las El modelo predictivo más conveniente de aplicar
probabilidades de accidentalidad mediante la ante accidentes para este caso, es el árbol de
identificación temprana de potenciales generadores de decisión.
eventos laborales negativos.
Con una probabilidad del 81.2%, la regla de

decisión del trabajador más propenso a verse
involucrado en accidentes laborales en este tipo de
4. Definir una regla de decisión, para la identificación
obras es el trabajador que es de Origen Local, cuya
de trabajadores propensos a tener accidentes
Edad es superior a los 39 años, con un Nivel de
laborales.
Escolaridad que no supera la Primaria y No se
encuentra capacitado en el Curso Fase 3 de
Ecopetrol.
44
5.3. Matriz resultado Vs acción estratégica.
Tabla 29. Cuadro comparativo Resultado Vs Acción estratégica.
Resultado Acción Estratégica

1) Capacitación en curso Fase 3.
2)Capacitación interna liderazgo y sentido de
pertenencia.
3) Capacitación interna procedimientos seguros de
Trabajadores con probabilidad de accidente superior al trabajo.
80% 4) Vinculación del trabajador a las brigadas de
seguridad y salud ocupacional (primeros auxilios,
búsqueda y rescate, prevención y combate de
incendios, evacuación de áreas) de acuerdo a sus
capacidades y experiencias.
2)Capacitación interna liderazgo y sentido de
Trabajadores con probabilidad de accidente entre el
pertenencia.
70% y el 80%
trabajo.
Trabajadores con probabilidad de accidente entre el
60% y el 70%
trabajo.

G3 3 Final

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

G3 3 Final

Cargado por

Copyright:

Formatos disponibles

1

Elaboración de una herramienta predictiva de personal propenso a accidentes laborales en las

Vanessa Aguilar Pérez Cód. 1511023641.

Luis Fernando Briceño Bonilla Cód.1812010233.

Tutor. Ing. Fernando Bomba

POLITECNICO GRANCOLOMBIANO INSTITUCIÓN UNIVERSITARIA.

1. Comprensión del Negocio. 5

2.3.2.12. Variable Subcontratista. 12

4.8. Selección del mejor Modelo. 32

1. Comprensión del Negocio.

1.1. Objetivos del negocio.

1.1.1. Objetivo general comercial.

1.1.2. Objetivos específicos comerciales.

a. Crear estrategias de sensibilización dirigidas al personal de obra, para fortalecer los

b. Disminuir los tiempos perdidos por paradas de seguridad e investigación de accidentes,

c. Disminuir la perdida de horas hombre laboradas por motivos de incapacidades médicas

1.2. Objetivos de la minería de datos.

1.2.1. Objetivo general de la minería de datos.

Crear un modelo predictivo de los trabajadores más propensos a accidentes laborales en

1.2.2. Objetivos específicos de la minería de datos.

a. Identificar variables representativas que inciden en la accidentalidad de este tipo de

b. Presentar el ranking de variables representativas, aplicando así, los procedimientos

c. Determinar el modelo predictivo más conveniente de aplicar ante accidentes laborales,

d. Definir una regla de decisión, para la identificación de trabajadores propensos a tener

2. Comprensión de los datos.

2.1.Recopilación de los datos iniciales.

2.1.1. Las variables más representativas son:

2.1.2. Las variables que no son representativas son:

2.2.Descripción de las variables.

Tabla 1. Descripción de las variables del proyecto

Variable Categoría / unidad Tipo de Variable

Ítem Numérico Discreto

Cedula Numérico Discreto Variables

Cargo Texto Nominal

Turno Numérico / días Ordinal

Camisa S / M / L / XL / XXL Ordinal

Pantalón Numérico Ordinal

Botas Numérico Ordinal

Domicilio Texto Nominal

Régimen Legal / Convencional Nominal

Salario Pesos Continua

Genero Mujer / Hombre Nominal

Edad Años Ordinal

2.3.Exploración de los datos.

2.3.1. Análisis estadístico de las variables cuantitativas.

Tabla 2. Análisis estadístico de las variables cuantitativas

TURNO SALARIO EDAD

Media 15,040 Media 2492864,512 Media 39,27

Error típico 0,093 Error típico 32130,901 Error típico 0,302

Mediana 14 Mediana 2197290 Mediana 39,5

Moda 14 Moda 2197290 Moda 38

Desviación Desviación Desviación

Varianza de Varianza de Varianza de la

Curtosis 0,995 Curtosis 7,347 Curtosis 0,233

Rango 6 Rango 6010000,000 Rango 41

Mínimo 14 Mínimo 1490000,000 Mínimo 18

Máximo 20 Máximo 7500000,000 Máximo 59

Suma 8934 Suma 1480761520,000 Suma 23329

Cuenta 594 Cuenta 594 Cuenta 594

2.3.2. Análisis estadístico de las variables cualitativas relevantes.

2.3.2.1. Variable Accidente.

Tabla 3. Análisis estadístico variable accidente