Documentos de Académico
Documentos de Profesional
Documentos de Cultura
(Metodología CRISP-DM)
MINERIA DE DATOS
BOGOTÁ
2020.
2
Contenido
Se identificó que, durante su primer año de proyecto, no se está cumpliendo con los indicadores
de costos, utilidades y tiempos de ejecución de obras, establecidos al inicio del proyecto;
originados principalmente por los tiempos perdidos y sobrecostos por ocasión de accidentes
laborales presentados durante la ejecución de las obras, en los que se ha podido evidenciar
como causa raíz, errores humanos.
Reducir los sobrecostos generados durante la fase de construcción del proyecto para
alcanzar las metas proyectadas por la gerencia y la junta de socios de la organización,
mediante la disminución de la accidentalidad laboral en el proyecto.
Se conformó una base de datos con la información registrada de cada trabajador al momento de su
ingreso, las capacitaciones relevantes recibidas y la respuesta a la pregunta “¿Se ha visto usted
involucrado en un accidente laboral en este proyecto?”.
Se realizó la revisión y limpieza de la base de datos, eliminando campos repetidos, celdas vacías y datos
incoherentes.
a. Accidente.
b. Cargo.
c. Curso fase 3.
d. Pasecampo.
e. Conte.
f. Cursoalturas.
g. Cursoconfinados.
h. Certi_res.
i. Sindicato.
7
j. Escolaridad.
k. Edad.
l. Subcontratista.
a. Cedula.
b. Ods.
c. Nombre.
Variable
Accidente Si / No Nominal Objetivo /
Dependiente
Curso_fase1 Si / No Nominal
Curso_fase2 Si / No Nominal
Curso_fase3 Si / No Nominal
Pasecampo Si / No Nominal
Conte Si / No Nominal
8
Curso_alturas Si / No Nominal
Curso_confinados Si / No Nominal
Certi_res Si / No Nominal
Sindicato Si / No Nominal
Primaria / secundaria /
Escolaridad Ordinal
tecnólogo / profesional
Termino_fijo /
Contrato Obra_labor / Nominal
Termino_Indefinido
Subcontratista Si / No Nominal
Para la compilación y análisis de los datos de la base de datos se utilizará el software Microsoft Excel,
teniendo en cuenta que estos datos ya pasaron por un proceso de revisión, limpieza, y depuración.
Coeficiente
Coeficiente Coeficiente de
1,730 de 1,944 -0,302
de asimetría asimetría
asimetría
Variable
Recuento %
Accidente
NO 534 89,90%
SI 60 10,10%
Total general 594 100,00%
Variable Recuent
%
Cargo o
ADMINISTRADOR_DE_OBRA 5 0,84%
ALMACENISTA 5 0,84%
ANDAMIERO 1 0,17%
APAREJADOR 2 0,34%
10
ASISTENTE_ADMON 8 1,35%
AUXILIAR_INGENIERIA 2 0,34%
AYUDANTE_DE_PINTURA 2 0,34%
AYUDANTE_ELECTRICISTA 22 3,70%
AYUDANTE_TECNICO_MECANICO 11 1,85%
CADENERO 11 1,85%
CONDUCTOR_VEHICULOS_PESADO
9 1,52%
S
COORDINADOR_HSE 4 0,67%
COORDINADOR_QAQC 2 0,34%
DIBUJANTE 1 0,17%
DIRECTOR 7 1,18%
ELECTRICISTA 3 0,51%
ING_CONTROL_DE_COSTOS 5 0,84%
INGENIERO_RESIDENTE 14 2,36%
INSPECTOR_DE_CALIDAD_QAQC 7 1,18%
LINIERO 3 0,51%
MECANICO 2 0,34%
OBRERO 264 44,44%
OFICIAL_DE_OBRA 116 19,53%
OPERADOR_MAQUINARIA 25 4,21%
PAILERO 3 0,51%
PINTOR_SANBLASTING 1 0,17%
SOLDADOR_1A 3 0,51%
SUPERVISOR_AMBIENTAL 1 0,17%
SUPERVISOR_DE_OBRA 16 2,69%
SUPERVISOR_HSE 22 3,70%
TECNICO_ELECTRICISTA 11 1,85%
TOPOGRAFO 3 0,51%
TUBERO_1A 3 0,51%
100,00
594
Total general %
Variable Recuent
%
Camisa o
L 157 26,43%
M 199 33,50%
11
S 116 19,53%
XL 110 18,52%
XXL 10 1,68%
XXXL 2 0,34%
Total general 594 100,00%
Variable Recuent
%
Curso_Fase3 o
NO 181 30,47%
SI 413 69,53%
100,00
594
Total general %
Variable Recuent
%
Pase_Campo o
NO 506 85,19%
SI 88 14,81%
100,00
594
Total general %
Variable Recuent
%
Conte o
12
NO 559 94,11%
SI 35 5,89%
100,00
594
Total general %
2.3.2.7. Variable Curso_Alturas.
Variable Recuent
%
Curso_Alturas o
NO 327 55,05%
SI 267 44,95%
100,00
594
Total general %
Variable Recuent
%
Escolaridad o
PRIMARIA 197 33,16%
PROFESIONAL 61 10,27%
SECUNDARIA 290 48,82%
TECNOLOGO 46 7,74%
100,00
594
Total general %
Variable Recuent
%
Régimen o
CONVENCIONAL 384 64,65%
LEGAL 210 35,35%
100,00
594
Total general %
Variable Recuent
%
Contrato o
INDEFINIDO 1 0,17%
OBRA_LABOR 491 82,66%
TERMINO_FIJO 102 17,17%
100,00
594
Total general %
Variable Recuent
%
Género o
HOMBRE 546 91,92%
MUJER 48 8,08%
100,00
594
Total general %
Variable Recuent
%
Subcontratista o
NO 509 85,69%
SI 85 14,31%
100,00
594
Total general %
Variable Recuent
%
Género o
HOMBRE 57 95,00%
MUJER 3 5,00%
100,00
60
Total general %
ACCIDENTE SI
Género-Régimen- Recuent
%
Tipo_contrato o
HOMBRE 57 95,00%
CONVENCIONAL 47 78,33%
OBRA_LABOR 40 66,67%
TERMINO_FIJO 7 11,67%
LEGAL 10 16,67%
OBRA_LABOR 7 11,67%
TERMINO_FIJO 3 5,00%
MUJER 3 5,00%
CONVENCIONAL 2 3,33%
OBRA_LABOR 2 3,33%
LEGAL 1 1,67%
TERMINO_FIJO
Figura 2. Relació 1,67% SI vs Genero-Régimen-
1 n Accidente
Tipo_Contrato. 100,00
60
Total general %
ACCIDENTE SI
Recuent
%
Género - sindicato o
HOMBRE 57 95,00%
NO 16 26,67%
SI 41 68,33%
MUJER 3 5,00%
SI 3 5,00%
Figura 3. Relació n Accidente SI vs Género- 100,00
60
Total general
Sindicato %
ACCIDENTE SI
Género - Recuent
%
Escolaridad o
HOMBRE 57 95,00%
PRIMARIA 50 83,33%
PROFESIONAL 3 5,00%
SECUNDARIA 1 1,67%
TECNOLOGO 3 5,00%
MUJER 3 5,00%
PRIMARIA 2 3,33%
PROFESIONAL 1 1,67%
Figura 4. Relació n Accidente SI vs Género-
100,00 Escolaridad
60
Total general %
ACCIDENTE SI
Curso_Alturas -
Recuento %
Curso_Fase3
NO 55 91,67%
NO 49 81,67%
SI 6 10,00%
16
SI 5 8,33%
NO 5 8,33%
100,00
60
Total general %
ACCIDENTE SI
Pase_Campo - Recuent
%
Curso_Fase3 o
NO 50 83,33%
NO 47 78,33%
SI 3 5,00%
SI 10 16,67%
NO 7 11,67%
SI 3 5,00%
100,00
60 Figura 6. Relació n Accidente SI vs
Total general %
Pase_Campo – Curso_Fase3
ACCIDENTE NO
Curso_Alturas -
Recuento %
Curso_Fase3
NO 272 50,94%
NO 57 10,67%
SI 215 40,26%
SI 262 49,06%
NO 70 13,11%
SI 192 35,96%
100,00
534
Total general % Figura 7. Relació n Accidente NO vs
Curso_Alturas – Curso_Fase3
A continuación, se detallará el procesamiento previo de análisis de datos, antes de aplicar las técnicas de
minería de datos.
Se contará con la información más relevante que permita alcanzar el objetivo de la presente
investigación. Para ello se realizará un proceso de adecuación y transformación de nuestra base de
datos, el cual consiste en:
3.1.Eliminación de variables.
Se eliminaron de la base de datos las variables “Cedula”, “ODS”, “Nombre y Botas” por
considerarse de poco aporte al análisis de la accidentalidad.
Se eliminaron las variables “Camisa” y “Pantalón”, las cuales se integraron para formar
una nueva variable llamada “Contextura”.
Dado que se aprecia una estrecha relación entre las variables “Domicilio” y “Certi_Res”;
donde sí “Domicilio” = “PUERTO_GAITAN_CASCO_URBANO” o
“PUERTO_GAITAN_VEREDAS”; Entonces “Certi_Res” = SI; de lo contrario el valor es
“NO”. Se decide crear una nueva variable que agrupa a esta dos y tiene como categorías
“Foraneo” y “Local”. Los criterios de integración son:
Administrativo /
Tipo_Cargo Nominal Variables
Operativo
Explicativas
Pequeña / /
Contextura Nominal
Mediana / Grande Independien
tes
Origen Local / Foraneo Nominal
Categoría /
Variable Tipo de Variable
unidad
Variable
Accidente Si / No Nominal Objetivo /
Dependiente
Numérico /
Turno Ordinal
días
Grande
Curso_fase3 Si / No Nominal
Pasecampo Si / No Nominal
Conte Si / No Nominal
Curso_alturas Si / No Nominal
Curso_confinados Si / No Nominal
Local /
Origen Nominal
Foraneo
Sindicato Si / No Nominal
Primaria /
secundaria /
Escolaridad Ordinal
tecnólogo /
profesional
Legal /
Régimen Nominal
Convencional
Termino_fijo /
Obra_labor /
Contrato Nominal
Termino_Inde
finido
Mujer /
Genero Nominal
Hombre
Subcontratista Si / No Nominal
4. Modelado
Para la obtención del objetivo de esta investigación se utilizarán las técnicas de análisis de
datos predictivas, buscando clasificar a un trabajador/a correctamente en un grupo
previamente definido (Accidente).
21
Para la creación del flujo de trabajo, teniendo en cuenta las técnicas de clasificación a
aplicar, se utilizarán los siguientes Nodos:
4.4.Filtrado de columnas
Aunque la base de datos orinal fue depurada y limpiada, se mantuvo la variable ítem como
llave primaria de la nueva base de datos; no obstante, esta variable no es representativa
para el objetivo de la investigación, motivo por el cual se excluye del presente modelo.
4.5.Normalización de variables.
Luego de dar aplicar y ok en esta ventana se utilizará el nodo 14 (Excel Writer XLS) para
obtener los valores normalizados de estas variables.
4.6.Partición.
El programa ha tomado para la primera parte (70%) un total de 415 filas y 19 columnas,
mientras que para la segunda parte (30%) ha tomado 179 filas y 19 columnas.
26
Se une la salida de la partición del 70% del nodo 4 con la entrada del nodo 5
(DecisionTreeLearner) y procedemos a configurar este nodo.
27
Se une la salida de la partición del 70% del nodo 4 con la entrada del nodo
8(LogisticRegressionLearner) y se procede a configurar este nodo.
Una vez configurado el Nodo 10, se corren y analizan los datos obtenidos.
4.7.3. NaiveBayes.
Se une la salida de la partición del 70% del nodo 4 con la entrada del nodo
11(NaiveBayesLearner) y se procede a configurar este nodo.
35
Una vez configurado el Nodo 13, se corren y analizan los datos obtenidos.
Una vez creados los tres modelos (Árbol de Decisión, Regresión Logística y
NaiveBayes) se procede a determinar qué tan acertados se ajustan los valores
originales a los valores teóricos que se obtienen de cada modelo, para
seleccionar de entre todos ellos el modelo de mejor rendimiento.
ACCIDENTE NO SI TOTAL
38
NO 163 5 168
SI 1 10 11
TOTAL 164 15 179
% ACIERTO 99,39% 66,67% 96,65%
% ERROR 0,61% 33,33% 3,35%
1. NaiveBayes.
2. Árbol de decisión.
3. Regresión Logística.
● Origen
● Edad
● Escolaridad
● Curso_Fase3
4.9.2. Ranking de las variables que más inciden en la accidentalidad de este tipo de
obras.
1. Curso_Fase3.
Evidenciando la importancia de capacitar en temas de seguridad industrial en
el sector de los hidrocarburos, al personal contratado.
2. Escolaridad.
Identificando una fuerte relación inversamente proporcional entre el Nivel de
escolaridad y la accidentalidad. Siendo así que a menor preparación académica
se ha presentado mayor accidentalidad.
3. Edad.
Exponiendo posibles patrones de comportamiento inseguro frente al trabajo,
en la población mayor de 39 años de edad y de baja escolaridad.
40
4. Origen.
Mostrando que la mano de obra local tiene mayores índices de accidentalidad
en estas obras.
Para obtener la regla se realizará la lectura del árbol de decisión obtenido en el modelo
predictivo construido, para lo cual se hace necesario hacer la conversión del valor de la edad,
interpolando los datos obtenidos en la normalización de variables hecha durante el proceso del
modelado de los datos.
Con una probabilidad del 81.2%, la regla de decisión del trabajador más propenso
a verse involucrado en accidentes laborales en este tipo de obras es:
El trabajador que es de Origen Local, cuya Edad es superior a los 39 años, con un
Nivel de Escolaridad que no supera la Primaria y No se encuentra capacitado en el
Curso Fase 3 de Ecopetrol.
Crear un modelo predictivo de los trabajadores más propensos a accidentes laborales en obras
de construcción, mediante la clasificación de los datos básicos de ingreso de cada uno,
focalizando y fortaleciendo en ellos la disciplina de seguridad industrial y salud ocupacional.