Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PROFESOR GUÍA:
WILLIAM WRAGG LARCO
MIEMBROS DE LA COMISIÓN:
CARLOS AGUILERA GUTIÉRREZ
RAÚL GOUET BAÑARES
SANTIAGO DE CHILE
NOVIEMBRE 2007
RESUMEN DE LA MEMORIA
PARA OPTAR AL TITULO DE
INGENIERO CIVIL
POR: MATÍAS JORY R.
FECHA: 23/10/2007
PROF. GUIA: Sr. WILLIAM WRAGG L.
Para conseguir la base de datos se realizó una encuesta distribuida entre más de 20
profesionales de obra de distintas empresas. Mediante herramientas estadísticas se eligieron
las mejores variables para los distintos modelos. Una vez realizado cada modelo se estudió la
incidencia de cada variable en el problema y se ejecutó una validación cruzada para
determinar el real nivel de representatividad de los mejores modelos.
Se concluye que es factible realizar una predicción de las variaciones de costos ya que
para el caso de construcciones habitacionales en altura, la industria muestra una
estandarización de sus procesos constructivos bastante avanzada. También se concluye que la
inclusión de nuevas tecnologías de gestión que ayudan a la toma de decisiones es un paso
serio en el mercado competitivo de hoy en día. Al final se recomiendan algunas
consideraciones para estudios posteriores.
ii
INDICE DE TEMAS:
1. INTRODUCCIÓN............................................................................................................1
2. MARCO TEÓRICO.........................................................................................................3
3. METODOLOGÍA...........................................................................................................21
iii
3.5. MODELO QUE ESTIMA LA VARIACIÓN DE COSTOS DE UN PROYECTO DE CONSTRUCCIÓN..... 40
3.5.1. Modelo de Regresión Lineal Múltiple......................................................................... 40
3.5.2. Modelo de R.N.A. ........................................................................................................ 44
3.6. MODELO QUE ESTIMA EL PLAZO REAL DE UN PROYECTO DE CONSTRUCCIÓN...................... 46
3.6.1. Modelo de Regresión Lineal Múltiple......................................................................... 46
3.6.2. Modelo de R.N.A. ........................................................................................................ 47
4. ANÁLISIS DE RESULTADOS.....................................................................................48
5. COMENTARIOS Y CONCLUSIONES.......................................................................68
6. ANEXO A........................................................................................................................70
7. ANEXO B ........................................................................................................................78
8. BIBLIOGRAFÍA ............................................................................................................80
iv
INDICE DE TABLAS
v
INDICE DE FIGURAS
vi
1. INTRODUCCIÓN.
En Latinoamérica existen pocos casos en que se haya utilizado sistemas de R.N.A para
resolver problemas de gestión en el rubro de la construcción. Sin embargo en países asiáticos
y en Estados Unidos el uso de esta tecnología está empezando a cobrar cada vez más auge. Es
así como en los journals de la American Society of Civil Engineers (A.S.C.E)1 se puede
encontrar una gran variedad de investigaciones que utilizan esta tecnología para problemas
típicos de gestión de la construcción. Por ejemplo, se pueden encontrar papers que tratan de
crear sistemas de predicción del performance para proyectos de ingeniería [Georgy, 2005],
otros en que se trata de predecir la variación de costos para proyectos de reconstrucción
[Attalla y Hegazy, 2003], para medir la productividad de partidas de hormigón [Ezeldyn,
2006], o para modelar el markup de un contratista [Liu, 2005].
1
http://www.pubs.asce.org/journals/jrns.html
1
2. Identificar y analizar factores que pueden influir en los problemas de costo y plazo que
se pueden generar en un proyecto de construcción utilizando una base bibliográfica y
la experiencia de profesionales de la industria de la construcción.
3. Con los factores determinados en el punto anterior se diseña una encuesta con el fin de
generar una base de datos con la cual trabajar.
2
2. MARCO TEÓRICO.
El último factor clave es la notable especialización que han realizado las empresas
subcontratistas, las cuales se han vuelto mucho más eficientes haciendo subir los estándares
para toda la industria.
Se da en esta industria que las empresas "gestionan" al momento de optar por sus
subcontratos, esto es, que la mayoría de las veces optan por el subcontratista más barato,
presionando a las empresas a bajar sus precios de manera considerable, lo que genera el
incentivo de que las empresas subcontratistas muchas veces cobren precios que una vez
adjudicado un proyecto no tienen la capacidad de cumplir. Como resultado se tiene grandes
problemas a la a hora de hacer cumplir los contratos y una asfixia permanente sobre las
pequeñas empresas las cuales subsisten sin la suficiencia económica para capacitar a sus
trabajadores y menos para obtener nuevas tecnologías, ambas condiciones necesarias para
mejorar su gestión.
3
Otro punto de preocupación que empieza a tomar fuerza en esta industria es el
aumento en los estándares mínimos. Por ejemplo, las empresas tendrán que enfrentar las
nuevas normas de confort habitacional, las nuevas políticas de vivienda pública y a un
comprador más exigente que el que había en el pasado, el cual, al momento de comprar una
vivienda, tiene requerimientos que no todas las empresas pueden cumplir. Lo mencionado
anteriormente obliga a las empresas constructoras a mejorar su gestión y políticas de futuro
para mantenerse competitivas dentro del mercado. Con este fin se pueden abordar distintas
soluciones en todas las etapas de un proyecto, siendo vital la etapa de planificación, ya que es
ahí donde se estiman ciertos alcances del proyecto, que a la postre pueden ser significativos
en su rendimiento.
4
• Informes geológicos detallados sobre los tipos de terreno encontrados en el sitio.
• Informes hidrográficos.
• Estudios de impacto ambiental.
• Reglamentos y bases del contrato.
• Planificación de la obra.
• Antecedentes de la zona y costos de referencia en ella.
• Conocer el mercado de trabajadores especializados y de personal general en la zona de
construcción.
• Fuentes de abastecimiento de materiales y equipos.
• Habitaciones.
• Acceso a la obra.
A los parámetros anteriores se deben sumar los considerados para todo proyecto, como
sueldos, rendimientos de trabajadores y equipos, costos de operación de equipos, costo de los
materiales, etc. Pero para que toda la información anteriormente citada sirva para generar un
presupuesto completo y de buena calidad, la condición quizás más importante es tener un
proyecto definido de la forma más completa posible. Esto incluye una buena calidad de las
especificaciones técnicas, de los planos generales y de detalle.
• Desmoronamiento de terreno.
• Napas freáticas descubiertas en las faenas de excavación.
• Problemas con los vecinos.
• Atraso de permisos.
• Problema con maquinarias.
• Accidentes en obra.
• Mal ritmo de provisión de hormigón.
• Problemas con los proyectos.
• No existencia de materiales.
• Mal clima.
• Falta de mano de obra especializada.
• Rendimiento de mano de obra menor a la esperada.
• Falta de presupuesto.
• Demora entrega de certificados.
5
El no cumplimiento del presupuesto trae repercusiones complejas a las empresas
constructoras. Obviamente una extensión del presupuesto significa una utilidad inferior a la
esperada, lo cual, para empresas constructoras grandes, puede ser un problema menor pero
para empresas pequeñas que mantienen flujos y márgenes apretados, una utilidad por debajo
de la esperada puede significar problemas mayores, ya sea el fracaso del proyecto o el quiebre
de la empresa si es que la desviación con respecto al presupuesto es demasiado grande.
6
La idea es imitar sistemas que utilizan las empresas manufactureras y de servicios, las
cuales están ocupando desde hace un buen tiempo sistemas de análisis de datos. Estos
sistemas se ocupan de realizar un análisis exhaustivo de los datos que obtienen de sus
procesos o ventas. Con ellos pueden definir nuevas estrategias o determinar ciertas
predicciones de ventas o producción. Algunos de estos sistemas son el data minning, modelos
estadísticos multivariados, redes neuronales artificiales o sistemas borrosos, los cuales son de
gran utilidad a la hora de planificar las producciones o establecer objetivos futuros.
La solución es crear una base de datos potente a la cual se le sumen no sólo variables
típicas sino también variables que conocen los profesionales de obra y que no son
almacenados en ninguna parte. Con esta base de datos se pueden generar ciertos modelos que
reconozcan patrones en ellos y que sirvan para arrojar una luz a las estimaciones de
imprevistos para sobrecostos y extensiones de plazo en proyectos de construcción. Todo esto,
bajo el supuesto de que la duración y los costos de un proyecto se ven afectados por un
cúmulo de factores los cuales pueden ser estimados y así mitigar sus efectos sobre la
productividad de una construcción.
A continuación se establecen los alcances para las herramientas que se ocuparán en este
estudio.
Para un análisis de datos propiamente tal se debe incluir sin lugar a dudas un análisis
estadístico minucioso. Lo primero en un análisis de estas características es separar la
estadística descriptiva de la estadística inferencial [Triola, 2000a].
2
David Baccarini realizó una encuesta a ejecutivos de empresas constructoras británicas y ante
la pregunta de si al finalizar una construcción revisaban la precisión de sus presupuestos y
programaciones el 62% de los encuestados dijo que no [Baccarini, 2005].
7
Con ayuda de la estadística inferencial se pueden determinar generalizaciones o
inferencias a partir de los datos. Acá es donde se recaba la información implícita que tienen
los datos, la cual puede servir para tomar decisiones o ayudar en la gestión. Para esto existen
distintas herramientas en esta área de la estadística, las cuales se pueden utilizar para
determinar por ejemplo: parámetros de poblaciones usando datos de muestra, diferencia entre
las medias o varianzas de muestras de distintas poblaciones, correlaciones e independencias
entre variables para una muestra, etc. Con alguna de las herramientas anteriormente citadas de
la estadística inferencial se podrá establecer ciertas diferencias o relaciones entre las distintas
variables que inciden en el riesgo de un proyecto de construcción y a la vez depura una base
de datos, con el fin de realizar modelos más complejos que ayuden a la predicción de
resultados o estimación de riesgos.
Otra ayuda importante para el análisis de datos son los sistemas multivariados de
estadística, los cuales, gracias al uso de software especializados para computadores personales
son de fácil uso y acceso. Con distintas técnicas del análisis multivariante se pueden realizar
variados tipos de inferencias a partir de tres o más variables al mismo tiempo. Por ejemplo se
pueden reducir el número de variables de una base de datos, mediante las interrelaciones que
se dan entre las distintas variables, condensando la información en un número menor de
variables con una pérdida mínima de información. Otra técnica de gran ayuda que sirve para
realizar predicciones a partir de varias variables independientes, es la regresión múltiple. Con
la regresión múltiple se pueden determinar predicciones relativamente precisas para las
variaciones de costos y plazos3.
3
Varias investigaciones leídas comparan modelos de regresión lineal múltiple con modelos de
redes neuronales. [Attalla y Hegazy, 2003]
8
interrelación entre muchos factores conocidos y desconocidos. Con las características de la
industria anteriormente señaladas, las redes neuronales tienen varias ventajas frente a otros
tipos de métodos ya que pueden reconocer patrones complejos y no lineales.
Como las redes neuronales no sirven para hacer inferencias a partir de una base de datos
sino que más bien funcionan como una herramienta, cobra sentido realizar un análisis
estadístico para obtener información que puede ser importante y de ayuda en el problema
descrito.
2.3.1. Introducción.
Las redes neuronales artificiales son un modelo simplificado del cerebro humano.
Estas “copian esquemáticamente la estructura neuronal del cerebro para tratar de reproducir
9
sus capacidades, como por ejemplo, aprender de la experiencia a partir de las señales o datos
del exterior, con el objetivo de construir sistemas de procesamiento de la información
paralelos, distribuidos y adaptativos” [Martín del Brío y Sanz, 2001]. Las redes neuronales
actúan sobre un conjunto de datos en donde reconocen patrones, pueden hacer predicciones o
tomar una decisión, gracias a la experiencia obtenida en una etapa de aprendizaje. Así, las
redes tienen un buen desempeño en la solución de problemas complejos donde el
reconocimiento de patrones o comportamientos es importante. Algunos ejemplos de uso de
redes neuronales son los siguientes:
Biología:
- Obtención de modelos de la retina.
Empresa:
- Evaluación de probabilidades de formaciones geológicas y petrolíferas.
- Explotación de bases de datos.
- Optimización de plazas y horarios en líneas de vuelo.
- Modelado de sistemas para automatización y control.
Medio Ambiente:
- Analizar tendencias y patrones.
- Previsión del tiempo.
Finanzas:
- Previsión de la evolución de precios.
- Valoración del riesgo de créditos.
- Interpretación de firmas.
Manufactura:
- Robots automatizados y sistemas de control.
- Control de producción en líneas de procesos.
- Inspección de calidad.
Medicina:
- Analizadores del habla.
- Diagnóstico y tratamiento a partir de síntomas.
- Predicción de reacciones adversas en los medicamentos.
Militares:
- Clasificación de las señales de radar.
- Creación de armas inteligentes.
- Reconocimiento y seguimiento en el tiro al blanco.
Como se puede ver, las redes neuronales tienen una gran cantidad de aplicaciones,
muchas de las cuales todavía no se pueden ni siquiera prever.
10
2.3.2. Características de las Redes Neuronales Artificiales R.N.A.
Las Redes Neuronales Artificiales emulan tres características claves de los sistemas
nerviosos, los cuales son:
a) Procesamiento Paralelo: Al igual que las neuronas del cerebro, las redes neuronales
artificiales están formadas por una gran cantidad de procesadores sencillos. De esta manera se
tiene la ventaja de que cada uno realiza un procesamiento separado de las otras neuronas con
lo que se puede procesar una gran cantidad de datos al mismo tiempo y de manera más rápida
que en un sistema de procesador único.
2.3.3.1 Neuronas.
11
Figura 2.1 Procesador elemental o neurona.
Netai = ∑ Wij X j − θ i ,
Como se puede observar la función lineal es una suma ponderada de las entradas con
los pesos sinápticos.
12
saturación y admite señales débiles sin una excesiva atenuación. La expresión matemática es
la siguiente:
1
F ( x) = .
1 + e −x
- Función Lineal.
Esta función se utiliza cuando se quiere que todos los datos tengan la misma
importancia, esto ya que esta función no se hace menos sensible al alejarse de cero. La
expresión matemática es la siguiente:
F ( x) = x .
13
- Función Tangente Hiperbólica.
Esta función tiene las mismas propiedades que la Logística pero permite un rango de
salida que va desde -1 a 1. La expresión matemática es la siguiente:
e x − e−x
F ( x) = x .
e + e−x
F(x) =1−e−x .
2
−x2
Gaussiana F(x) =e Complemento de Gaussiana
14
Figura 2.6 Función Complemento de Gaussiana.
Una red neuronal típica posee tres tipos de capas como se ve en la siguiente figura.
15
El procesamiento de los datos se lleva a cabo en la capa oculta, es ahí donde se
procesa y se memoriza la información. La cantidad de capas ocultas y su número de neuronas
lo decide quién arma la red y al pasar por ella los datos se propagan a la capa siguiente,
después de pasar por una función de activación.
Existen otros tipos de arquitecturas para redes neuronales como puede ser una red
monocapa. También se pueden dar conexiones intra-capa o conexiones retrorealimentadas en
que el sentido es contrario entrada-salida.
El aprendizaje parte con un cierto modelo de neurona, arquitectura de red y con los
pesos sinápticos iniciales como nulos o aleatorios. La red va alterando sus pesos conforme se
le entregan nuevos conjuntos de datos.
A continuación se explican los distintos tipos de aprendizaje que se dan en las R.N.A.
16
El caso en que a la red no se le presentan respuestas deseadas el tipo de aprendizaje es
no supervisado, para que este funcione se le debe presentar a la red una multitud de patrones
para generar un cierto nivel de redundancia en las entradas y así la red sea capaz de descubrir
por sí misma rasgos comunes, regularidades, correlaciones o categorías. Es por esto que este
tipo de aprendizaje es de gran utilidad para generadores de categorías.
Existe dos tipos más de aprendizaje, conocidos como híbrido y reforzado. El primero
es una mezcla del aprendizaje supervisado y no supervisado, el cual mezcla estos tipos en
distintas capas. El segundo lo que hace es emplear información del error pero la ocupa sólo
para determinar si está funcionando bien o mal, y por ende no explicita la salida deseada.
El método consiste en establecer una función de error o coste que mida el rendimiento
de la red y que dependa de los pesos sinápticos. Dada esta función se establece el
procedimiento de optimización capaz de proporcionar una configuración de pesos que
corresponda a un mínimo local de la función propuesta. Dicho de otra manera, el método
aplicado proporciona una regla de actualización iterativa de los pesos en función de los
patrones de aprendizaje. Así se puede lograr la búsqueda de un punto óptimo de la red
neuronal. A continuación se explicará el algoritmo de enseñanza para la red más simple,
llamada Adalina, la cual consta de una neurona similar a la de la Figura 2.1 pero la función
de activación es la identidad.
p
1 2 1
J= e = (d − ∑ wk x k ) 2 ,
2 2 k =1
donde
d: salida deseada
wk: peso sináptico
xk: entrada k-ésima
17
Al graficar se obtiene una curva como la mostrada en la Figura 2.8, en donde el
punto w* corresponde a una configuración de pesos localmente óptima.
⎛ p
⎞
wk (n + 1) = wk (n) + η ⎜ d (n) − ∑ w j (n) x j (n) ⎟⎟ x k (n)
⎜ k = 1,2,......, p .
⎝ j =1 ⎠
η indica el tamaño del paso tomado en cada iteración.
Para el caso de una red multicapa (con una o más capas ocultas) se extiende el
algoritmo LMS, esto quiere decir que la funcional de error se derivará en función de los pesos
de la capa de salida y de los pesos de las neuronas de las capas ocultas, haciendo uso de la
18
regla de cadena. En consecuencia, las funciones de transferencia de las neuronas deben ser
diferenciables. Las siguientes figuras muestran la utilización del método del descenso por
gradiente para una red de una neurona y de una red multicapa.
Figura 2.9 Método del descenso por gradiente para una red de una neurona.
Figura 2.10 Método del descenso por gradiente para una red multicapa.
19
- Se introducen los inputs en la capa de entrada.
- Se propaga esta señal por todas las capas de la red hasta la que se obtiene un output en la
capa de salida.
- Se compara el output de salida de la red con el deseado.
- Se calcula un error para cada unidad de salida.
- Se transmite el error hacia atrás hacia todos los nodos que están conectados directamente.
- Estos nodos reciben una fracción el error proporcional al peso de sus conexiones.
- Se actualizan de manera iterativa todos los pesos de las conexiones con tal de disminuir el
error.
- Cuando el error resulta aceptable se detiene el aprendizaje.
Las redes neuronales artificiales presentan grandes ventajas las cuales hacen que este
tipo de tecnología esté entrando con fuerza en múltiples áreas. Entre las ventajas se incluye:
20
3. METODOLOGÍA.
Esta última ventaja da al mandante un abanico de opciones para elegir el proyecto que
más le convenga a los intereses de su empresa.
Para este trabajo de título se abordarán dos problemas a modelar. El primer problema a
tratar será la construcción de un modelo capaz de realizar una estimación de orden de
magnitud del costo presupuestado de un proyecto de construcción4, el cual servirá para
entender el comportamiento de las R.N.A y la regresión lineal múltiple (R.L.M.). El segundo
problema, en donde se pretende ocupar todo el potencial de estas dos herramientas, es
4
Para rangos de valores de una estimación de orden de magnitud ver Tabla 2.1
21
elaborar cuatro modelos, dos de R.N.A. y dos de R.L.M., capaces de estimar las variaciones
de costos y plazos de un proyecto de construcción, objetivo principal de este trabajo de título.
Una vez realizados los dos modelos se procede a analizar el poder de generalización
de cada uno. Para esto se utilizaron cuatro proyectos de testeo con el fin de determinar cual de
los dos métodos logra una mejor estimación.
En estos modelos se decidió utilizar como variable dependiente los plazos y costos
finales de un proyecto6, en vez de las variaciones, ya que mejoraba el nivel de generalización.
Con el fin de legitimar los mejores modelos se realizó una validación cruzada. Esto
implicó rehacerlos varias veces con la base de datos aleatorizada.
5
Presupuesto Proyecto = Costos Generales + Costo Directo de Obra, en Tabla 6.1del Anexo A
columna Costo Presupuestado.
6
Ver columnas Costo real y Plazo real en Tabla 6.1 Anexo A
22
Recolección de Datos Análisis de Datos
Encuesta orientada a Valores descriptivos,
proyectos correlaciones, análisis
habitacionales en de varianza, etc.
altura.
Identificación de variables CP
Selección de modelos
Superficie
Pisos sobre cota 0 Costo Presupuestado CP
Subterráneos Variación de Costos VC
Categoría (Clase1, Clase2, Variación de Plazos VP
Clase3)
Diseño modelos de
Diseño de R.N.A. regresión
Definir: Ecuación de regresión
- Nº de capas ocultas Coeficientes estandarizados
- Nº de neuronas Coeficiente de
determinación R2
Entrenamiento R.N.A.
Testeo y Validación
Establecer:
- Proyectos para Regresión vs. Redes
entrenamiento Neuronales
- Proyectos para testeo Elección del mejor modelo
- Nº de iteraciones y revalidación
23
alimentarla y que a su vez esta información sea lo más acuciosa y fidedigna posible. Debido al
punto anterior, se determinó realizar una encuesta a una gran variedad de empresas
constructoras e inmobiliarias. Esto tiene la ventaja de que se puede encausar la recolección de
datos hacia los temas que el investigador desee. La encuesta y su utilización se explican en el
siguiente punto.
3.2.1. Encuesta.
La encuesta que se decidió enviar a las distintas empresas contiene varias categorías
que son de interés para el rubro de la construcción, para cada categoría se consideraron
distintas variables que pueden afectar la productividad de cada proyecto o que tienen un cierto
riesgo inherente en ellas. Dichas variables fueron determinadas analizando distintos estudios
similares a este7 y una vez estipuladas fueron sometidas al juicio de profesionales del rubro
para asegurar la utilidad de cada una de ellas.
A continuación se detalla cada categoría, las variables que contienen y una breve
explicación de cómo contestar cada una de ellas. Además, para evitar algún tipo de problema,
toda la información se registra de manera anónima para así asegurar la confidencialidad de las
empresas que entregaron datos.
Este punto contiene antecedentes típicos de cada proyecto de construcción, los cuales
se analizan por separado.
7
Se encontraron varias experiencias similares realizadas en distintas partes del mundo, estas
fueron de gran ayuda para evitar incluir variables cuya incidencia era mínima en el problema a
estudiar [Sutrisna et al, 2005].
24
- Costo presupuesto del proyecto y Costo directo de obra: Con estas dos variables y con
los costos reales se calcularán las diferencias de costos de cada proyecto. Una de estas dos
variables será la variable dependiente a estimar en los modelos.
- Tipo de contrato: Con esta variable se pretende identificar si existe alguna diferencia
significativa en el resultado de la construcción a partir de distintos tipos de contratos entre el
mandante y la empresa constructora..
- Superficie proyecto: Sirve para estudiar la incidencia del tamaño del proyecto en la
estimación que se haga de los costos y plazos.
- Empresa construye y vende: Es una variable interesante ya que se podrá inferir si es que
existe una diferencia en como se hacen las proyecciones si el propietario del proyecto a la vez
lo construye.
- Comuna: Puede indicar alguna diferencia en los resultados dependiendo de la ubicación del
proyecto.
- Fecha de inicio y término de la construcción: Esta variable puede ser interesante para
ubicar el proyecto en las distintas coyunturas económicas por las que puede estar pasando el
país o la industria de la construcción.
25
La categoría completa con la explicación que lee el encuestado se muestra a
continuación.
Acá tenemos algunas variables que debido a que pueden tener un rango de respuestas
demasiado amplio se someterán al juicio de expertos para encausarlas en 4 o menos
categorías, las variables anteriormente citadas son el nombre de la oficina de Arquitectura y el
nombre de la oficina de ingenieros que realiza el cálculo estructural.
- Valor venta promedio: Puede ser un parámetro interesante considerar la calidad del
producto a vender y si esto afecta la productividad del negocio.
- Inspección técnica externa: El analizar si el proyecto posee una inspección técnica externa
también puede ser importante al momento de subir los costos ya que los requerimientos de
calidad pueden ser mayores al exigir el fiel cumplimiento de las especificaciones técnicas
26
- Coordinación de proyectos externa: La realización de una coordinación externa del
proyecto puede determinar que el proyecto sea mejor estudiado y así muchos errores de
diseño se corrigen antes de llegar a terreno.
- Certificación: Es interesante analizar si la empresa que posee algún tipo de certificación
que estandarice sus procesos o gestione la calidad obtiene mejores rendimientos que una
empresa que no posee ningún tipo de certificación.
En esta categoría se tocan temas que atañen al proceso mismo de la construcción del proyecto,
el análisis por separado se hace a continuación:
- Accesibilidad de los materiales: Puede ser importante ya que para las obras extraordinarias
la lejanía de un material dado puede traer asociado un costo mayor a que si las materias
primas están relativamente cerca.
27
- Duración construcción programada: Con esta variable y la duración real del proyecto se
determinará la segunda variable dependiente u output del modelo.
- Complejidad del layout: Esta variable que puede tener cierto efecto en la organización de
una obra que es la complejidad de la instalación de faena o del layout, esto por que es sabido
que con un terreno complejo el layout de instalaciones puede traer complicaciones serias en la
ejecución de las obras.
Las dos variables que pertenecen a esta categoría se incluyeron para determinar si
genera alguna influencia en el resultado de un proyecto el que se ocupe algún software en el
control de presupuestos y que se tenga un profesional dedicado a la programación y control de
la obra.
28
Tabla 3.4 Programación y Control.
Programación y control Observaciones
Profesional dedicado exclusivamente a Sí: si la empresa posee un profesional a cargo exclusivamente para
programación y control programación y control, No: caso contrario.
Sí: si la empresa utiliza algún tipo de software para control de
Utiliza algún software para control de
presupuesto, Ej: Rego, Arquímides, Presto, Unysoft, Opus olé, etc.,
presupuesto
No: caso contrario.
Las variables de comuna y valor de venta se juntaron para crear una variable
cualitativa nueva llamada categoría la cual será incluida en los distintos modelos. Esta
variable será dividida en tres clases. La primera incluye proyectos de gran calidad, en
comunas de alto costo de suelo y de alto costo de venta de sus departamentos. La segunda
clase incluye proyectos de mediana calidad, en comunas de un costo de suelo medio y con un
30
precio de venta de departamentos medio. La tercera clase incluye los proyectos no contenidos
en las otras dos.
Los distintos modelos de regresión múltiple de este trabajo de título se realizaron con el
software de estadística SPSS. A continuación se detallan los pasos para obtener una regresión
múltiple con este programa.
31
Figura 3.2 Pasos para la regresión múltiple.
Una vez establecidas las condiciones para la regresión el software crea una ventana
aparte con un Output en donde aparecen los resultados.
32
Figura 3.4 Output con los resultados.
Para realizar los modelos se ocuparon veinte proyectos para la regresión y cuatro para
testear la exactitud de las estimaciones, los cuales se pueden ver en el Anexo A. Se ocupa el
coeficiente de determinación ajustado9 para comparar entre regresiones. Además, para
determinar la importancia de cada variable en cada regresión se mostrará los coeficientes
estandarizados beta10.
La siguiente tabla muestra las variables que se ocuparon para las cinco mejores
alternativas:
8
Al tener una variable con tres clases sólo se necesitan dos variables ficticias para poder
representarla en la regresión y en la red neuronal. Ver Anexo B.
9
Se ocupa el R 2 ajustado ya que cada regresión tiene un número distinto de variables
independientes. Ver Anexo B
10
Ver Anexo B
33
Tabla 3.9 Alternativas a realizar con R.L.M y R.N.A.
Variables Predictoras Alt. 1 Alt. 2 Alt. 3 Alt. 4 Alt. 5
Superficie(X1) X X X X X
Pisos sobre cota 0 (X2) X X X
Subterráneos(X3) X X
Clase 1 (X4) X X X X
Clase 2 (X5) X X X X
Sí empresa construye y vende (X6) X
Variable Criterio
Costo Proyecto(Y) X X X X X
Coeficiente
Variable
estandarizado Beta
Superficie [m2] (X1) 0,974
Coeficiente
Variable
estandarizado
Superficie [m2] (X1) 0,923
Clase 1 (X4) 0,163
Clase 2 (X5) 0,110
Pisos sobre cota 0
0,094
[uni] (X2)
34
Los coeficientes estandarizados son:
Coeficiente
Variable
estandarizado
Superficie [m2] (X1) 0,918
Clase 1 (X4) 0,180
Clase 2 (X5) 0,126
Pisos sobre cota 0
0,148
[uni] (X2)
Subterráneos [uni]
-0,096
(X3)
Coeficiente
Variable
estandarizado
Superficie [m2] (X1) 0,966
Clase 1 (X4) 0,142
Clase 2 (X5) 0,072
35
A partir de los coeficientes estandarizados de las distintas alternativas se pueden
realizar varias inferencias. Primero, para las cuatro alternativas se observa que la variable más
importante es la Superficie del proyecto, lo cual obedece a que es la variable de mayor
correlación con el costo del proyecto, a mayor superficie obviamente aumenta el costo
presupuestado. La variable ficticia clase 1 muestra un coeficiente estandarizado mayor que la
clase 2 lo que confirma que a medida que se aumentan los estándares de un edificio los costos
aumentan. Por último en los coeficientes de la alternativa 4 se observa que el número de
subterráneos posee un coeficiente estandarizado negativo lo que indica que de dos edificios
con la misma superficie total será más barato el que posea más subterráneos, esto se debe a
que el costo por metro cuadrado de subterráneo es menor. El coeficiente asociado a la variable
sí empresa construye y vende en la alternativa 5 es negativo, lo que indica que si una empresa
es inmobiliaria y constructora el costo del proyecto sale más barato que si son dos empresas
separadas. En el capítulo 4 se analizan los resultados para cada modelo.
Lo primero es tener los datos ordenados en la planilla de cálculo para luego proceder a
etiquetar las variables que serán independientes y dependientes. Los proyectos se etiquetan
como de entrenamiento y de testeo. La siguiente figura muestra como se etiquetaron los datos.
36
Una vez que se tienen todos los datos etiquetados se procede a crear la red, para eso el
software tiene tres opciones. La primera es para problemas de clasificación, la segunda para
aproximación de funciones, en ambas una vez creada la red se pueden cambiar varios
parámetros como el número de epochs11, el número de neuronas en la capa oculta y el tipo de
función de transferencia. La tercera opción permite determinar todo sobre la red, desde su
arquitectura hasta el tipo de aprendizaje. La siguiente figura muestra la selección del tipo de
red.
Una vez que se elige la red a entrenar se abre automáticamente la interfaz del
Neurosolutions5, en ella se puede elegir el número de neuronas de la capa oculta y las
funciones de transferencia como se muestra en la Figura 3.7 Determinación de neuronas
capa oculta. Luego al momento de entrenar la red se elige el número de epochs, como se
muestra en la Figura 3.8.
11
Número de veces que se le presentan los datos a la red.
37
Figura 3.7 Determinación de neuronas capa oculta.
38
La siguiente figura muestra el proceso de entrenamiento de la red.
Una vez entrenada la red se procede a hacer el testeo con los proyectos que se dejaron
aparte para tal efecto, lo que se puede ver en la siguiente figura la cual muestra el resultado de
la generalización del modelo.
39
Para todos lo modelos realizados se ocupó la opción de red para aproximación de
funciones, la cual corresponde a una red de una capa de entrada, una capa oculta y la capa se
salida. El método de aprendizaje de esta red es el algoritmo de retropropagación o
Backpropagation.
Al igual que con la técnica de R.L.M, se ocuparon 20 proyectos para entrenar la red y
4 para testear el nivel de generalización. Los modelos realizados son los mismos que en el
punto anterior, con el fin de poder comparar ambas técnicas de manera directa.
Para estos modelos se realizaron los mismos pasos que para el modelo que estima el
costo presupuestado de un proyecto. La variable dependiente a ocupar será el costo real del
proyecto12, con el cual se calculará la variación de costos, esto ya que con el costo real como
variable dependiente se lograron mejores estimaciones.
12
Este es el costo directo más los gastos generales al que se llegó al final de la construcción.
Ver columna Costo Real en Tabla 6.1, Anexo A.
40
Tabla 3.10 Alternativas a realizar con R.L.M y R.N.A.
Variables Predictoras Alt. 1 Alt. 2 Alt. 3 Alt. 4
Costo proyecto presupuestado
X X X X
(X1)
Superficie (X2) X X X X
Nº de pisos sobre cota 0 (X3) X
Nº de subterráneos (X4) X X
Sí empresa construye y vende
X X X X
(X5)
Complejidad del layout, alta
X X
(X6)
Complejidad del layout, media
X X
(X7)
Técnicas especiales de
X X
construcción, media (X8)
Técnicas especiales de
X X
construcción, alta(X9)
Variable Criterio
Costo real proyecto (Y) X X X X
Para realizar los modelos se ocuparon veinte proyectos para la regresión y cuatro para
testear la exactitud de las estimaciones, los cuales se pueden ver en el Anexo A. Se ocupó el
coeficiente de determinación ajustado para comparar entre regresiones. Además, para
determinar la importancia de cada variable se muestran los coeficientes estandarizados beta.
Coeficiente
Variable
estandarizado
Costo proyecto
presupuestado 1,096
[UF](X1)
Superficie [m2](X2) -0,102
Sí empresa construye y
-0,016
vende(X5)
41
La segunda regresión es la siguiente:
Coeficiente
Variable
estandarizado
Costo proyecto
presupuestado 1,126
[UF](X1)
Superficie [m2](X2) -0,158
Sí empresa construye y
-0,018
vende(X5)
Nº de pisos sobre cota
0,030
0 [uni] (X3)
Nº de subterráneos
0,019
[uni] (X4)
Y = 1042 .291 + 1.01 * X 1 − 0.91 * X 2 − 7868 .308 * X 5 + 3090 .521 * X 6 + 3870 .155 * X 7
+ 3380 .795 * X 8 + 12975 .98 * X 9
Con R2: 0,975
42
La cuarta regresión es la siguiente:
Y = −129 .398 + 1.124 * X 1 − 1.238 * X 2 − 7114 .795 * X 5 + 3423 .433 * X 6 + 3143 .531 * X 7
+ 3327 .438 * X 8 + 11722 .57 * X 9 + 933 .157 * X 4
Con R2: 0,973
Coeficiente
Variable
estandarizado
Costo proyecto
presupuestado 1,116
[UF](X1)
Superficie [m2](X2) -,112
Sí empresa construye y
-,034
vende(X5)
Complejidad del
,018
layout, alta (X6)
Complejidad del
,016
layout, media (X7)
Técnicas especiales de
construcción, media ,018
(X8)
Técnicas especiales de
,042
construcción, alta(X9)
Nº de subterráneos
,015
[uni] (X4)
43
categoría baja13, esto indicaría que crece la probabilidad de un aumento de costos en un
layout de complejidad alta y media en comparación con un layout de complejidad baja, pero
la diferencia no es tan clara entre las categorías más altas. En el capítulo 4 se analizan los
resultados para cada modelo.
En este caso para cada alternativa se fue variando el número de neuronas de la capa
oculta y el número de epochs. La experiencia dice que a medida que se aumenta el número de
neuronas se debe disminuir el número de epochs, de esta manera se evita la memorización de
los datos por parte de la red en la fase de entrenamiento. El proceso se detiene cuando se
encuentra una estimación suficientemente buena. Las distintas arquitecturas para cada
alternativa se muestran a continuación.
Alternativa 3 N-2 N-3 N-4 N-5 N-6 N-7 N-8 N-9 N-10
Capa de Entrada 7 7 7 7 7 7 7 7 7
Capa Oculta 2 3 4 5 6 7 8 9 10
Capa de Salida 1 1 1 1 1 1 1 1 1
13
Recordar que se necesitan sólo dos variables ficticias para una variable cualitativa de tres
categorías, la tercera categoría se expone cuando las otras dos presentes en la ecuación son
cero.
44
Para la alternativa 1 la mejor configuración fue la N-3 con 800 epochs. Para la
alternativa 2 fue la N-3 con 1000 epochs, para la alternativa 3 fue la N-10 con 150 epochs y
para la alternativa 4 fue la N-6 con 400 epochs.
0,08000
0,07000
0,06000
0,05000
ECM
4 neuronas
0,04000
3 neuronas
0,03000
0,02000
0,01000
0,00000
0 500 1000 1500 2000 2500
Epochs
0,08000
0,07000
0,06000
0,05000
7 neuronas
ECM
0,04000 6 neuronas
5 neuronas
0,03000
0,02000
0,01000
0,00000
0 500 1000 1500 2000 2500 3000 3500
Epochs
45
9 neuronas
ECM Vs. Epochs
8 neuronas
10 neuronas
0,18000
0,16000
0,14000
0,12000
ECM
0,10000
0,08000
0,06000
0,04000
0,02000
0,00000
0 500 1000 1500 2000 2500 3000 3500
Epochs
Para este modelo se ocupó el plazo real como variable dependiente, ya que mostró
mejores resultados que al ocupar la variación del plazo como variable criterio. Los proyectos
utilizados para la regresión y el testeo son los mismos que para los modelos de variación de
costos. Para la elección de variables del modelo ver Anexo B.
46
A continuación se detalla la única regresión que entregó resultados cercanos a los
reales. Para este caso se ha agregado el coeficiente de determinación múltiple R214, el cual
sirve para ver que tan bien se ajusta la regresión a los datos de muestra. Al igual que en el
modelo anterior, se muestran los coeficientes estandarizados con el fin de determinar cuales
son las variables más influyentes en esta regresión.
La regresión es la siguiente:
Coeficiente
Variable
estandarizado
Costo proyecto
presupuestado 0,171
[UF](X1)
Superficie [m2](X2) -0,125
Sí empresa construye y
0,063
vende(X3)
Nº de subterráneos
0,060
[uni] (X4)
Plazo programado
0,897
[días](X5)
Para este modelo se analizó la misma alternativa que para el caso de regresión lineal y
se ocuparon los mismos proyectos para el entrenamiento y testeo. En la tabla a continuación
se pueden ver distintas configuraciones para la arquitectura de la red neuronal.
14
Ver Anexo B.
47
4. ANÁLISIS DE RESULTADOS.
En Tabla 4.1 se pueden ver los cuatro proyectos ocupados para testear las distintas
alternativas de regresión lineal y de redes neuronales. Estos proyectos fueron elegidos de
manera aleatoria y no forman parte de los datos con que se realizaron los modelos.
De la Tabla 4.2 a la Tabla 4.6 se muestran los resultados obtenidos para las cinco
alternativas señaladas en el capítulo anterior. La columna Real contiene el costo
presupuestado para la obra que calcula la constructora, la columna Reg1 muestra la
estimación hecha por el modelo de regresión lineal explicado en el punto 3.4.1 y la columna
RNA1 contiene la estimación que entrega el modelo de redes neuronales del punto 3.4.2. Se
incluye en las tablas, con el fin de comparar de mejor manera los modelos, el error en
porcentaje de la estimación de cada uno y el error cuadrático medio. Se incluye una figura en
cada alternativa para ver de manera gráfica la diferencia en las estimaciones.
48
Costo pres.
Resultados Alternativa 1 Reg1
RNA1
300.000
250.000
200.000
Costo [UF]
150.000
100.000
50.000
0
1 2 3 4
Proyecto
Costo pres.
Resultados Alternativa 2 Reg2
RNA2
300.000
250.000
200.000
Costo [UF]
150.000
100.000
50.000
0
1 2 3 4
Proyecto
49
Tabla 4.4 Resultados Alternativa 3.
Costo Proyecto Presupuestado Error
Proyectos
Real Reg3 RNA3 Reg3 RNA3
1 253.165,0 252.586,9 256.518,1 -0,23% 1,32%
2 84.783,0 81.627,3 87.078,7 -3,72% 2,71%
3 43.271,0 37.698,7 47.933,0 -12,88% 10,77%
4 227.413,0 237.424,7 223.214,1 4,40% -1,85%
Error Cuadrático Medio 5.949,32 3.737,58
Costo pres.
Resultados Alternativa 3 Reg3
RNA3
300.000
250.000
200.000
Costo [UF]
150.000
100.000
50.000
0
1 2 3 4
Proyecto
50
Costo pres.
Resultados Alternativa 4 Reg4
RNA4
300.000
250.000
200.000
Costo [UF]
150.000
100.000
50.000
0
1 2 3 4
Proyecto
Costo pres.
Resultados Alternativa 5 Reg5
RNA5
300.000
250.000
200.000
Costo [UF]
150.000
100.000
50.000
0
1 2 3 4
Proyecto
51
Tanto para el modelo de regresión múltiple como para el de redes neuronales, la
alternativa 3 es la que logra la mejor estimación. La Tabla 2.1 muestra que para una
estimación de orden de magnitud, el nivel de exactitud va desde un 30% a un 50%. Salvo una
estimación de la alternativa 2, todas mejoran este nivel de exactitud, incluso la gran mayoría
está dentro del nivel de estimación definitiva, que según la Tabla 2.1 va desde un 5% a un
10%.
A pesar de que la alternativa 5 contiene las mismas variables que la 3 más sí construye
y vende, no logra obtener un mejor resultado.
En la Tabla 4.7 se pueden ver los cuatro proyectos ocupados para testear las cuatro
alternativas mostradas en el capítulo 3. Estos proyectos fueron elegidos de manera aleatoria y
no forman parte de los datos con que se realizaron los modelos.
52
Tabla 4.7 Datos para testear la exactitud de las estimaciones
Nº de
Costo pisos
Empresa Nº de Técnicas Costo real
proyecto Superficie sobre Complejidad
Proyecto construye subtes Especiales de proyecto
presupuestado [m2] cota del layout
y vende [uni] Construcción [UF]
[UF] 0
[uni]
1 no 80.700,0 8.950 12 2 baja baja 82.000,0
2 si 97.426,0 8.468 15 2 alta alta 97.780,0
3 si 186.809,2 20.470 13 2 baja alta 178.907,8
4 no 253.165,0 22.000 20 2 media baja 262.304,3
Los resultados para las distintas alternativas se muestran en las siguientes cuatro
tablas. La columna de Costo Real indica la variable dependiente, junto a esta se muestra la
estimación para la regresión lineal (Reg1) y para el modelo de redes neuronales (RNA1).
También se indica la variación real de costos (Var. real) que tuvo el proyecto y la calculada a
partir de las estimaciones de R.L.M (Var. Reg1) y de R.N.A. (Var. RNA1). Se utilizará el
error cuadrático medio con el fin de comparar de mejor manera el nivel de estimación de las
distintas alternativas y modelos. Se incluyen figuras que muestran de manera gráfica los
resultados.
53
Var real
Resultados Alternativa 1 Var. Reg1
Var. RNA1
3,00%
1,00%
Variación [%]
-3,00%
-5,00%
Proyectos
Var real
Resultados Alternativa 2 Var. Reg2
Var. RNA2
3,00%
1,00%
Variación [%]
-3,00%
-5,00%
Proyectos
54
Tabla 4.10 Resultados Alternativa 3 Variación de costos
Costos reales
Costo Variación de costos [%]
Costo estimados [UF]
Proyectos Presupuestado
real [UF] Var. Var. Var.
[UF] Reg2 RNA2
real Reg3 RNA3
1 80.700,0 82.000,0 81.740,7 82.918,1 1,61% 1,29% 2,75%
2 97.426,0 97.780,0 99.196,2 99.464,6 0,36% 1,82% 2,09%
3 186.809,2 178.907,8 183.585,9 184.488,2 -4,23% -1,73% -1,24%
4 253.165,0 262.304,3 263.603,0 260.919,9 3,61% 4,12% 3,06%
Error Cuadrático Medio 0,0148 0,0184
Var real
Resultados Alternativa 3 Var. Reg3
Var. RNA3
3,00%
1,00%
Variación [%]
-3,00%
-5,00%
Proyectos
55
Var real
Resultados Alternativa 4 Var. Reg4
Var. RNA4
3,00%
1,00%
Variación [%]
-3,00%
-5,00%
Proyectos
Un primer análisis muestra que tanto los cuatro modelos de redes neuronales como los
cuatro de regresión de las distintas alternativas, son capaces de predecir el signo de la
variación de costos.
En la Tabla 4.12 se pueden ver los cuatro proyectos ocupados para testear el modelo
de regresión lineal y de redes neuronales.
56
Tabla 4.12 Datos para testear la exactitud de las estimaciones
Costo Plazo
Construye Superficie
Proyecto Presupuestado Subterráneos programado
y vende [m2]
[UF] [días]
1 no 80.700,0 8.950 2 330
2 no 97.426,0 8.468 2 450
3 no 186.809,2 20.470 2 480
4 no 253.165,0 22.000 2 570
Var. real
Resultados Alternativa 1
Var. Reg1
Var. RNA1
10,00%
9,00%
8,00%
Var. Plazo [%]
7,00%
6,00%
5,00%
4,00%
3,00%
2,00%
1,00%
0,00%
1 1,5 2 2,5 3 3,5 4
Proyectos
57
Siendo la alternativa mostrada en la página anterior la mejor de varias probadas, se
puede inferir a partir de los resultados que la variación de plazo no ha podido ser tan bien
modelada por las variables que posee la encuesta como el modelo de costos. Ante esto el
modelo es útil como un primer estimador de plazo en una fase inicial del proyecto, y no como
una fuente fidedigna del plazo real.
Adicionalmente se han incluido dos proyectos, a estos se les aplicará cada validación y
el modelo original del punto 4.1.2 con el fin de estimar su costo real y variación de costos.
Con estos dos proyectos se puede apreciar la eficacia de cada validación en estimar
variaciones de costos y servirá para definir cual es el mejor modelo posible de todos los
realizados.
Los resultados de las cinco validaciones para cada alternativa y por tipo de técnica se
pueden apreciar en el Anexo A.
A modo de resumen se presentan las Tabla 4.14 y Tabla 4.15 las cuales contienen el
error cuadrático medio para cada validación y alternativa.
58
Tabla 4.14 ECM para validaciones de la Alternativa 2
ECM
Modelo
RNA RLM
Modelo inicial 0,0145 0,0077
Validación 1 0,0308 0,0221
Validación 2 0,1025 0,0493
Validación 3 0,0740 0,0339
Validación 4 0,0623 0,0623
Validación 5 0,0299 0,1307
Como se observa en la Tabla 4.14 y Tabla 4.15, para ambas alternativas el modelo
inicial realiza una estimación bastante buena. El problema es que para las distintas
validaciones de una misma alternativa el ECM aumenta. Esto parece indicar que para el
modelo inicial se tomaron cuatro proyectos fáciles de predecir o sesgados, debido a que al
construir las mismas alternativas con la base de datos aleatorizada, el poder de generalización
disminuye.
Los dos proyectos que se usan para establecer cuál es el mejor modelo se muestran a
continuación.
59
Cada uno de estos proyectos fue testeado en cada validación con el fin de obtener una
estimación del costo real. A continuación se muestran los resultados de las estimaciones del
proyecto 1 para cada validación de la alternativa 2 y 3. Al final de cada tabla se presenta la
variación que se obtiene promediando la media obtenida de la Alternativa 2 y 3.
Alternativa 2 Alternativa 3
Primer modelo 371.713,5 386.597,0
Validación1 369.870,1 389.000,6
Validación2 364.773,9 389.187,8
Validación3 371.009,0 390.803,9
Validación4 351.488,4 357.506,7
Validación5 366.405,6 391.113,7
Media 365.876,7 384.035,0
Alternativa 2
Estimaciones RLM Proyecto 1 Alternativa 3
Valor real
400.000,00
390.000,00
Costo real [UF]
380.000,00
370.000,00
360.000,00
350.000,00
340.000,00
1 2 3 4 5 6
Validación
60
Al analizar los datos de la Tabla 4.17 y la Figura 4.11 se aprecia que para el caso de
los modelos de regresión las estimaciones de la Alternativa 2 se mantienen por debajo del
valor real, en cambio las estimaciones de la Alternativa 3 se mantienen muy por encima del
valor real, salvo para el modelo 5 en donde ambas estimaciones están por debajo. A
continuación se muestran los resultados de las estimaciones del proyecto 1 para los modelos
de redes neuronales.
Tabla 4.18 Estimaciones Proyecto 1 para técnica de RNA
Proyecto 1 RNA
Alternativa 2 Alternativa 3
Primer modelo 367.836,5 385.362,2
Validación1 361.989,5 384.038,1
Validación2 342.674,4 390.169,0
Validación3 367.664,9 388.878,8
Validación4 328.444,0 400.624,5
Validación5 343.484,8 398.047,0
Media 352.015,68 391.186,6
400000
Costo real [UF]
380000
360000
340000
320000
300000
1 2 3 4 5 6
Validación
Alternativa 2 Alternativa 3
Primer modelo 151.357,8 139.256,1
Validación1 166.269,6 141.168,4
Validación2 166.225,7 136.839,4
Validación3 161.540,0 138.954,9
Validación4 141.987,4 136.915,9
Validación5 168.798,7 139.371,6
Media 159.363,2 138.751,0
170.000,00
Costo real [UF]
160.000,00
150.000,00
140.000,00
130.000,00
120.000,00
1 2 3 4 5 6
Validación
62
Para este proyecto se observa que la Alternativa 3 está por debajo del valor real y la
Alternativa 2 por sobre. La siguiente tabla contiene las estimaciones para los modelos de
redes neuronales.
Alternativa 2 Alternativa 3
Primer modelo 147.420,5 136.291,2
Validación1 166.264,4 138.193,6
Validación2 176.219,7 136.240,0
Validación3 171.389,4 137.994,1
Validación4 158.141,1 137.891,5
Validación5 185.960,7 136.022,9
Media 167.566,0 137.105,6
Alternativa 2
Estimaciones RNA Proyecto 2 Alternativa 3
Valor real
200000
190000
180000
Costo real [UF]
170000
160000
150000
140000
130000
120000
110000
100000
1 2 3 4 5 6
Validación
63
Al igual que en el modelo de RLM para este proyecto la Alternativa 3 va por debajo del
valor real y la Alternativa 2 por sobre. Al observar los resultados para el proyecto 2 se extrae
que la estimación promedio de los modelos de RLM es mejor a la de los modelos de RNA.
A juzgar por los resultados obtenidos en las estimaciones de cada proyecto el modelo
definitivo puede ser un promedio de las medias de cada alternativa, esto ya que al parecer una
alternativa tiende a subdimensionar el costo real y la otra a sobredimensionarlo.
La variable cualitativa categoría dividida en dos clases demostró ser importante para
los modelos de redes neuronales, esto se aprecia en la marcada diferencia entre las
estimaciones de la Alternativa 1 y la 4, las cuales muestran un ECM de 28.076,9 y 15.309,06
respectivamente. La primera alternativa ocupa la superficie como única variable, en cambio la
cuarta agrega la variable categoría y esto mejora considerablemente las estimaciones, salvo
para el proyecto 1. Esta mejoría no fue tan marcada en los modelos de regresión, con un ECM
de 19.804,8 y 15.865,38 respectivamente, y que para el proyecto 2, 3 y 4 presenta peores
estimaciones que el modelo de RNA, esto se puede deber al carácter de cualitativa de la
variable ya que al parecer los modelos de RNA asimilan de mejor manera este tipo de
variables.
64
que destinan a gastos generales y sueldos de sus empleados por lo que un proyecto con las
mismas características puede tener costos diferentes. También varía el rendimiento y costos
de los subcontratistas con que cuenta la empresa. Estos distintos escenarios hacen que un
modelo de estas características presente un rango pequeño de riesgo, el cual es muy complejo
de medir.
En el caso del modelo para predecir la variación de costos en una primera etapa, antes
de la validación, se lograron buenos resultados. El modelo de RNA de la alternativa 2 fue la
que obtuvo los mejores resultados con los ECM más bajos. Lo sigue la RLM de la alternativa
3 la cual excluye las variables pisos sobre cota 0 y subterráneos e incluye complejidad del
layout y técnicas especiales de construcción. El hecho de mantener un buen nivel de
estimación al cambiar las variables, refleja que se han escogido las que al parecer resuelven el
problema. Se debe mencionar que se hizo un modelo que incluyó todas las variables utilizadas
en las cuatro alternativas y que dio un peor resultado.
Se puede apreciar en cada una de las alternativas que, para un proyecto cuya
inmobiliaria pertenece a la misma empresa que construye, la variación de costos tiende a
disminuir, incluso puede ser negativa. Una razón para esto es que en el caso contrario las
empresas constructoras con el fin de ganar una licitación presentan propuestas difíciles de
cumplir. A su vez una constructora del mismo holding que la inmobiliaria no tiene necesidad
de ganar una propuesta, por ende los presupuestos y programaciones son más veraces o
apegados a la realidad que los otros. Esto se ve reflejado en las distintas regresiones en donde
el coeficiente que acompaña a esta variable es negativo y cuyo valor que puede significar la
utilidad del proyecto, de ahí radica la importancia de incluir esta variable obligatoriamente en
todas las alternativas.
El objetivo de la validación hecha para las alternativas 2 y 3 era demostrar que las
variables escogidas realmente podían resolver el problema. Se pudo observar que al hacer las
validaciones los resultados variaron bastante. Esto se refleja en el cambio que presenta el
ECM para cada validación. Esta fuerte variación se puede explicar en parte por que la
cantidad de proyectos era insuficiente para establecer de manera clara los patrones que rigen
el problema. Quizás con una mayor cantidad de proyectos las variaciones del ECM para cada
validación hubiesen sido menores.
65
Tabla 4.21 Promedio de estimaciones para el proyecto 1
Variación RLM Variación RNA
Var. Prom. Alt. 2 Var. Prom. Alt. 3 Var. Prom. Alt. 2 Var. Prom. Alt. 3
3,06% 8,18% -0,84% 10,19%
La siguiente tabla muestra el ECM asociado a la técnica de RLM y RNA de las tablas
anteriores para la predicción de las variaciones de costos para los dos proyectos.
En las tablas 4.21 y 4.22 se puede ver que al promediar los resultados de las dos alternativas,
tanto para la técnica de RNA como de RLM, se logra un buen nivel de estimación de la
variación de costos, lo cual se observa en el bajo ECM que presentan. Ante estos buenos
resultados se define el modelo 1 como el promedio de las estimaciones obtenidas por la
alternativa 2 y 3. Por otro lado, la alternativa 2 inicial mostrada en el punto 4.1.2, muestra una
buena estimación tanto de los cuatro proyectos de testeo como de los últimos dos usados para
testear las validaciones, a esta opción se la llamará modelo 2. La siguiente tabla muestra estos
resultados.
66
Tabla 4.24 ECM para el modelo 2
Variación de costos
Proyectos Var. real Alternativa 2
Reg2 RNA2
1 1,61% 2,53% 1,28%
2 0,36% 2,73% 1,51%
3 -4,23% -3,87% -3,28%
4 3,61% 2,26% 3,72%
5a 4,23% 4,71% 3,62%
6a 16,47% 18,69% 15,61%
67
5. COMENTARIOS Y CONCLUSIONES.
Una de las razones claves para el buen resultado fue encausar la investigación sólo a
un tipo de proyecto, en este caso a construcción habitacional en altura. Este tipo de proyecto
muestra una estandarización importante en sus procesos constructivos, quizás más de lo que
se cree, lo que genera que sus resultados puedan ser modelados. Por otro lado, los proyectos
de construcción enfocados a otros sectores, por ejemplo: industrial o comercial, muestran una
dispersión de resultados mucho más amplia por lo que buscar patrones es bastante más
complejo. Otra razón importante para optar por este tipo de construcción es la gran cantidad
de edificios construidos y en construcción en Santiago, lo que facilita el acceso a la
recolección de datos.
A pesar de lo accesible de los datos para este tipo de proyectos se debe tener bastante
cuidado a la hora de hacer una encuesta. En estos casos siempre existirá un error asociado a
cómo el profesional contesta la encuesta ya que cada persona puede entender de una manera
distinta ciertas preguntas. Por ejemplo en algunas variables un poco más subjetivas como la
complejidad de layout, para un profesional un layout de una obra puede ser de complejidad
media y para otro puede ser de complejidad baja. Para minimizar este tipo de problemas se
deben mejorar aún más las definiciones de las variables, esto quiere decir tratar de reducir al
mínimo las posibles subjetividades que puede enfrentar la encuesta. Por otro lado el hecho de
que para casi todas las alternativas que estiman el costo presupuestado se obtuvieran buenos
resultados indica que las variables escogidas son representativas del problema. A su vez para
el modelo de variación de costos también las variables escogidas explicaron el problema. En
cambio para el modelo que estima variaciones de plazo, no se logró encontrar la combinación
de variables que obtuviera buenos resultados, esto se puede deber a que el nivel de
incertidumbre en este caso es mayor que en el problema de costos o simplemente las variables
de la encuesta fueron insuficientes para encontrar los patrones necesarios.
69
6. ANEXO A
70
Continuación Tabla 6.1
Valor de Empresa Técnicas Plazo Sueldo
Complejidad
Proyecto venta posee especiales de programado jornal
del layout
[UF/m2] certificación construcción [días] [pesos]
1 35 no alta 450 alta 150.000
2 28 no baja 540 media 268.000
3 31 no baja 330 baja 190.000
4 31 no baja 240 alta 180.000
5 30 no medio 527 baja 205.000
6 46,5 no medio 450 alta 225.000
7 45 no medio 500 baja 180.000
8 44,3 no medio 460 baja 210.000
9 33 no medio 480 baja 180.000
10 37 no alta 420 alta 180.000
11 32 si baja 420 alta 190.000
12 50 no baja 660 baja 240.000
13 41,9 si baja 390 alta 194.008
14 30 si medio 540 media 180.000
15 35 no baja 450 baja 205.000
16 25 si baja 420 baja 185.000
17 26 si baja 480 baja 200.000
18 32 si baja 480 baja 200.000
19 42 si baja 570 media 200.000
20 25 no baja 390 baja 200.000
21 26 no medio 990 media 180.000
22 31 no medio 396 media 190.000
23 35 no baja 360 baja 150.000
24 36 si baja 570 media 180.000
71
Continuación Tabla 6.1
Fecha Fecha Tipo de
Proyecto Arquitecto Ingeniero
inicio Termino Estructura
1 Ago-05 Dic-06 muros Carlos Belmar Patricio Bonelli
Pedro Bartolome
2 Nov-05 Jun-07 muros Navarrete,Page y Asoc.
Bachelet
R. Gatica -
3 Nov-04 Oct-05 muros Gastón Figueroa
J.Jimenez
R. Gatica -
4 Jul-04 Mar-05 muros IVI Arquitectos
J.Jimenez
5 Ago-05 Mar-07 muros Fernandez Wood Eduardo Spoerer
6 Oct-05 Ene-07 muros Almagro Eduardo Spoerer
7 Nov-04 Abr-06 muros Almagro Spoerer asociados
8 Jun-05 Oct-06 muros Almagro Eduardo Spoerer
9 Mar-05 Ago-06 muros Hernando Arrigada Pilar Menendez
10 Jun-03 Jul-04 muros Jorgue Millan Pilar Menendez
11 Sep-05 Dic-07 muros Patrri Turnerr Eduardo Spoerer
12 Jun-04 Abr-06 muros Squella Arquitectura René Lagos
13 Jul-06 Ago-07 muros Apt y Fleiserman Lenora Morales
14 Ene-05 Ago-06 muros Manuel Alarcon Santoloya
15 May-06 Ago-07 muros Fernandez Wood luis soler
16 Mar-04 Jun-05 muros Saavedra y Asoc. Alfonso Larrain
17 Jun-04 Dic-05 muros Juan Luis Hurtado Alfonso Larrain
18 Sep-04 Dic-05 muros Allamand y Gaona Asoc. Alfonso Larrain
Alemparte, Barreda y
19 Nov-06 Jul-07 muros René lagos
asoc
20 Abr-04 May-05 muros Vicente Perez Alfonso Larrain
21 Sep-04 Jul-07 muros Leyton Arquitectos Gonzalo Santolaya
22 Oct-05 Ene-07 muros Eugenio Molina Morel Pedro Bartolomé B.
23 Ago-06 Jul-07 muros Senarq Arquitectura Inges
24 Ene-04 Jun-06 muros Paz Gatica-Jimenez
72
Continuación Tabla 6.1
Experiencia Experiencia Nº obras Monto
Profesión Accesibilidad
Proyecto empresa administrador extraordinarias OOEE
administrador materiales
[años] [años] [uni] [UF]
Constructor
1 500.000 7 alta 10 15.000,0
Civil
Constructor
2 . 4 media 5 3.368,9
Civil
Constructor
3 2.700.000 12 alta 64 1.300,0
Civil
Constructor
4 2.700.000 10 alta 52 5.086,0
Civil
Ingeniero
5 . 12 alta 0 0,0
Civil
Constructor
6 1.087.000 4 alta 8 1.200,0
Civil
Constructor
7 1.087.000 3 alta 3 240,0
Civil
Ingeniero
8 1.087.000 3 alta 5 0,0
Civil
Constructor
9 1.800.000 25 alta 0 0,0
Civil
Ingeniero
10 1.800.000 12 alta 0 0,0
Civil
Constructor
11 800.000 7 alta 0 1.000,0
Civil
Ingeniero
12 2.500.000 10 alta 0 7.748,0
Civil
Ingeniero
13 500.000 14 alta 0 2.500,0
Civil
Constructor
14 500.000 5 alta 0 0,0
Civil
Constructor
15 . 5 alta 0 1.749,7
Civil
Constructor
16 1.351.000 12 alta 0 4.700,0
Civil
Ingeniero
17 1.351.000 5 alta 0 5.628,0
Civil
Constructor
18 1.351.000 7 media 0 10.600,0
Civil
Ingeniero
19 . 17 alta 107 4.995,0
Civil
Constructor
20 1.351.000 10 baja 0 0,0
Civil
Constructor
21 2.700.000 15 alta 0 0,0
Civil
Constructor
22 275.000 10 alta 35 4.657,2
Civil
Constructor
23 . 7 alta 0 2.000,0
Civil
Constructor
24 400.000 5 alta 15 8.600,0
Civil
73
Continuación Tabla 6.1
Variación
Subcontratación Plazo real Costo real Variación
Proyecto Software Plazo
[%] [días] [UF] Costo [UF]
[días]
1 no 40,00% 480 138.000,00 30 15.000,00
2 no 63,00% 540 128.634,00 0 3.369,00
3 no 80,00% 360 82.000,00 30 1.300,00
4 no . 300 63.618,20 60 5.053,01
5 si 52,00% 589 227.700,00 62 3.393,65
6 no . 480 97.780,00 30 354,00
7 si 31,00% 510 129.000,00 10 -1.000,00
8 no 30,50% 471 94.160,00 11 -731,00
9 si . 480 178.907,80 0 -7.901,42
10 si . 450 70.966,50 30 7.260,00
11 no 25,00% 480 122.800,00 60 1.800,00
12 si 46,00% 690 352.542,70 30 16.378,30
13 si 50,00% 420 93.450,00 30 4.450,00
14 si . 570 155.740,00 30 6.240,00
15 si 61,30% 450 143.242,00 0 -13.972,00
16 si . 450 144.132,94 30 -40.968,06
17 si 32,00% 540 123.813,08 60 946,08
18 si 37,00% 450 173.111,07 -30 5.042,07
19 no . 590 262.304,30 20 9.139,30
20 si 70,00% 390 172.383,00 0 14.602,00
21 no 32,00% 1005 376.778,00 15 0,00
22 si . 441 86.142,92 45 1.359,92
23 no 60,00% 360 45.000,00 0 1.729,00
24 no 90,00% 660 226.500,00 90 -913,00
74
Resultados Alternativa 2 Validación2
Costos reales
Costo Variación de costos [%]
Costo estimados [UF]
Proyectos Presupuestado
real [UF] Var. Var. Var.
[UF] Reg2 RNA2
real Reg3 RNA3
1 224.306,4 227.700,0 227.217,0 225.803,8 1,51% 1,30% 0,67%
2 168.069,0 173.111,1 181.642,7 187.079,7 3,00% 8,08% 11,31%
3 63.706,5 70.966,5 58.594,4 67.751,7 11,40% -8,02% 6,35%
4 80.700,0 82.000,0 85.349,0 80.913,8 1,61% 5,76% 0,26%
Error Cuadrático Medio 0,1025 0,0493
75
Resultados Alternativa 3 Validación 1
Costos reales
Costo Variación de costos [%]
Costo estimados [UF]
Proyectos Presupuestado
real [UF] Var. Var. Var.
[UF] Reg2 RNA2
real Reg3 RNA3
1 376.778,0 376.778,0 362.627,0 395.909,3 0,00% -3,76% 5,08%
2 84.783,0 86.143,0 82.804,6 74.356,1 1,60% -2,33% -12,30%
3 149.500,0 155.740,0 160.043,8 142.249,3 4,17% 7,05% -4,85%
4 125.265,0 126.634,0 126.459,0 113.197,6 2,69% 0,95% -9,63%
Error Cuadrático Medio 0,0308 0,1063
76
Resultados Alternativa 3 Validación 5
Costos reales
Costo Variación de costos [%]
Costo estimados [UF]
Proyectos Presupuestado
real [UF] Var. Var. Var.
[UF] Reg2 RNA2
real Reg3 RNA3
1 376.778,0 376.778,0 387.873,8 401.463,9 0,00% 2,94% 6,55%
2 168.069,0 173.111,1 167.007,4 168.222,8 3,00% -0,63% 0,09%
3 130.000,0 129.000,0 126.041,8 125.866,1 -0,77% -3,04% -3,18%
4 43.271,0 45.000,0 41.842,7 45.509,8 4,00% -3,30% 5,17%
Error Cuadrático Medio 0,0448 0,0383
77
7. ANEXO B
7.1. Definiciones
i. Análisis de Regresión Lineal Múltiple: Es una técnica estadística que se utiliza para
analizar la relación entre una única variable dependiente y varias variables
independientes. El objetivo es usar las variables independientes para predecir la única
variable dependiente. Las variables independientes son ponderadas de manera de
indicar su contribución relativa a la predicción conjunta. Las ponderaciones facilitan la
interpretación de la influencia de cada variable en la realización de la predicción.
ii. Variables Ficticias: Una variable ficticia es una variable dicotómica que representa
una categoría de una variable independiente no métrica. Cualquier variable
independiente que posee k categorías puede ser representada como variable ficticia k-
1. Por ejemplo una variable con tres categorías puede ser expresada con dos variables
ficticias que toman los valores de 0 o 1.
iii. R2 ajustado: Este se usa para comparar diferentes ecuaciones de regresión múltiple ya
que ajusta el valor de R2 según el número de variables y el tamaño de muestra. El
coeficiente de correlación múltiple (R2) es una medida de que tan bien se ajusta la
ecuación de regresión a los datos. El ajuste es muy bueno si el valor se aproxima a 1 y
malo si se aproxima a 0.
Para la selección de variables se utilizó como guía el libro Análisis Multivariante [Hair
et al, 1999b].
La primera eliminación de variables fue para aquellas que tienen valores en blanco,
por ejemplo: Nivel de subcontratación, experiencia empresa constructora. Luego se eliminó
78
la variable tipo de estructura, ya que todos los edificios caen en la misma categoría. La
variable accesibilidad de los materiales no se consideró ya que para cada categoría se contaba
con pocos ejemplos. Esto debido a que la categoría alta se presentaba en casi la totalidad de
los proyectos.
Con todas las variables sobrantes y ocupando el software SPSS, se procedió a seguir
los pasos explicados en el libro Análisis Multivariante. El primer paso fue utilizar todas las
variables y dejar que el mismo software decidiera cual era la mejor combinación. Esto gracias
a que el SPSS cuenta con métodos de regresión lineal destinados a este ejercicio (método
stepwise, backward, foward). El problema es que salvo para el método backward, la única
variable que consideraban en la regresión final era el costo presupuestado. El método
backward entregó cinco variables más, pisos sobre cota 0, número de subterráneos, empresa
construye y vende, complejidad del layout y si la empresa posee certificación. Al tener
regresiones tan pobres en el número de variables, el libro entrega otra opción, agregar más
variables de manera manual. El procedimiento es el siguiente: Cada vez que se incluye una
nueva variable en la regresión se analiza su poder de generalización. Esto se hizo ocupando
los cuatro proyectos dejados fuera para testear los modelos. Así se realizaron varias
regresiones, ocupando como base, las entregadas por los métodos del SPSS antes
mencionados y una tabla de correlaciones de las variables. Las mejores regresiones a las que
se llegó en cada problema, son las mostradas en este trabajo de título.
79
8. BIBLIOGRAFÍA
- EZELDIN, AS.; SHARARA, L. 2006. Neural Networks for Estimating the Productivity
of Concreting Activities. J. Constr. Eng. Manage. 132(6):650-661.
- HAIR, J.; ANDERSON, R.; TATHAM, R.; BLACK, W. 1999a. Introducción. In:
Análisis Multivariante. 5ª ed. Prentice Hall Iberia, S.R.L. Madrid, España. pp 1-
28.
- HAIR, J.; ANDERSON, R.; TATHAM, R.; BLACK, W. 1999b. Análisis de regresión
múltiple. In: Análisis Multivariante. 5ª ed. Prentice Hall Iberia, S.R.L. Madrid,
España. pp 143-206.
- LIU, M.; LING, Y. 2005. Modeling a Contractor´s Markup. J. Constr. Eng. Manage.
131(4):391-399.
- MARTÍN DEL BRÍO, B.; SANZ A. 2001. Redes neuronales supervisadas. In: Redes
Neuronales y Sistemas Difusos. 2ª ed. Alfaomega Grupo Editor, S.A. Colombia.
pp 41-84.
- PÉREZ, C. 2005. Técnicas Estadísticas con SPSS 12. Aplicaciones al análisis de datos.
Pearson Educación S.A. Madrid, España. 824 p.
- PRINCIPE, J.; EULIANO, N.; LEFEVRE, WC. 2000. Neural and Adaptive Systems.
Fundamentals Through Simulations. John Wiley & Sons, Inc. USA. 656 p.
80
- SIQUEIRA, I. 1999. Neural Network-Based Cost Estimating. Presented in partial
Fulfillment of the Requirements For the Degree of Masters of Applied Science.
Quebec, Canada. Concordia University. 87 p.
81