Informe Con Formato Revisión 01

COMPARATIVA DEL ÍNDICE DE CALIDAD DE
VIDA URBANA ENTRE ANTOFAGASTA Y

REGIONES DE CHILE MEDIANTE ANÁLISIS
DE CLÚSTER
Jorge Baltra 1 , Jorge Castillo 2 , Francisca Herrera 3
Profesor Guía: Jan Cademartori Dujisin
Profesores Correctores:
Fecha:
1
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: Jorge.baltra.carrasco@ua.cl.
2
Universidad de Antofagasta s/n, Email: Jorge.castillo.quiroga@ua.cl.
3
Universidad de Antofagasta s/n, Email: Francisca.herrera.cortes@ua.cl.
1
1 AGRADECIMIENTOS
Jorge Baltra
Jorge Castillo
Francisca Herrera
2
2 RESUMEN
En el siguiente proyecto, se realizará un estudio sobre la Región de Antofagasta respecto a su

índice de calidad de vida urbano, comparándolo con los distintos niveles a lo largo del país.
Se definirá lo que significa la Calidad de Vida Urbana, las condiciones que conllevan este índice y
además cada una de sus variables.
La metodología se basará en el uso de una herramienta estadística, conocida como análisis de

clúster, que brindará un análisis objetivo y lo más acertado posible, el cual pueda brindar un
acercamiento al lector y otorgar una nueva perspectiva sobre la segunda región en comparación
con el resto de Chile.
Con la información adquirida, se creará una base de datos en el programa SPSS para la aplicación
de análisis de clúster y con los resultados se generará una perspectiva neutra para categorizar a
cada región del país en conglomerados y tener una visión más certera sobre la realidad nacional
con respecto a la calidad de vida.
3
1. ÍNDICE
1 AGRADECIMIENTOS 2
2 RESUMEN 3
1. ÍNDICE 4
3 INTRODUCCIÓN 6
4 PLANTEAMIENTO DEL PROBLEMA 7
4.1 PROBLEMÁTICA 7
4.2 DELIMITACIÓN DE LA INVESTIGACIÓN 8
4.3 JUSTIFICACIÓN 8
4.4 LIMITACIONES 9
4.5 OBJETIVOS 10
4.5.1 Objetivo general 10
4.5.2 Objetivos específicos 10
5 FUNDAMENTACIÓN TEÓRICA 11
5.1 ESTADO DEL ARTE 11
5.2 MARCO TEÓRICO: 12
5.2.1 Medidas de distancias 16
6 HIPOTESIS Y VARIABLES 18
6.1 HIPÓTESIS GENERAL: 18
6.2 DIAGRAMAS DE VARIABLES 18
6.3 DEFINICIÓN OPERACIONAL DE VARIABLES 20
7 METODOLOGÍA 27
7.1 TIPOS DE CLÚSTER 27
7.2 DISTANCIA CLÚSTERES 28
7.3 TIPO DE INVESTIGACIÓN 28
7.4 POBLACIÓN Y MUESTRA 29
8 RECOLECCIÓN DE LA INFORMACIÓN 34
8.1 FUENTES DE INFORMACIÓN. 34
9 RESULTADOS 38
9.1 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: 41
9.2 DISTRIBUCIÓN DE CLÚSTER 49
9.2.1 Predictores: 54
10 DISCUSIÓN DE RESULTADOS 60
11 CONCLUSIONES 61
12 RECOMENDACIONES 63
4
13 ANEXOS 64
14 BIBLIOGRAFÍA 65
3 INTRODUCCIÓN
5
En el presente proyecto se investigará la situación vivida en Antofagasta durante el año 2020
respecto a la calidad de vida urbana. Muy frecuentemente se considera que Antofagasta es una
región que debiese contar con una buena calidad de vida, teniendo en cuenta que es de las
regiones que más aporta al PIB nacional.
Considerando la información en escala monetaria, puede que esto sea así, ya que es una de las
regiones más ricas del país, pero se debe recordar que en la vida no todo es dinero y que el dinero
no siempre es sinónimo de felicidad.
El indicador de Calidad de Vida Urbana (ICVU) es un estudio que realiza todos los años la
Universidad Católica a través del Instituto de Estudios Urbanos, en conjunto con la Cámara Chilena
de la Construcción, trabajo que busca medir de forma objetiva las condiciones de vida de la
población.
Si bien este estudio no es una medición oficial por parte de algún Órgano de la Administración del
Estado, sus resultados se han convertido en una referencia para saber y comparar el estado de la
calidad de vida que ofrecen las regiones de Chile.
Mediante la síntesis de información proveniente de diferentes fuentes públicas y privadas a lo largo

del país, este proyecto buscará generar una explicación objetiva y lo más acercada a la realidad
posible. Se buscará crear una imagen general sobre la condición en la que se encuentra la región.
El problema de éste es que es un estudio generalizado respecto a la Segunda Región, pero en la
siguiente investigación se realizará un estudio basado en esta información, sustituyendo
indicadores para garantizar que exista una transparencia informativa y permitir al lector
interiorizarse con la información disponible.
6
4 PLANTEAMIENTO DEL PROBLEMA
4.1 Problemática
En el tiempo Chile ha avanzado en economía, mayoritariamente, gracias al potencial del sector
minero, lo que ha provocado un avance notorio del desarrollo como país. Debido a esto es que las
regiones que tienen mayor influencia en el PIB nacional son en su mayoría pertenecientes al sector
norte del país, donde la Región de Antofagasta se posiciona como una de las con mayor aporte al
PIB chileno. Teniendo en cuenta ese factor, se podría traducir que la Región de Antofagasta podría
ser considerada como un lugar con una alta calidad de vida, pero tomando en cuenta diversos
indicadores que se consideran dentro del Índice de Calidad de Vida Urbana debemos tener en
cuenta que para determinar si una zona particular posee una buena calidad de vida, existen
diversos factores, que se determinan mediante variables.
El índice de Calidad de Vida Urbana (ICVU), se viene realizando desde el año 2011 en donde a
partir de 36 variables, se construyeron en 6 dimensiones distintos factores relacionados con la
calidad de vida:
• Condición Laboral (CL), referidas a variables que midan las facilidades de acceso al
mercado laboral, ingresos, capacitaciones, desarrollo profesional y protección social de
los residentes.
• Ambiente de Negocios (AN), referidas a variables económicas manifiestas que
permitan corroborar que la ciudad y/o comuna es un medio urbano favorable para la
generación de inversiones privadas y/o emprendimientos por cuenta propia.
• Condiciones Socio Culturales (CS), referido a la medición de variables relativas al nivel
de participación de la población en organizaciones sociales, así como a los niveles de
seguridad y educación que afectan la formación de capital social.
• Conectividad y Movilidad (CM), referido a la medición de variables relacionadas con las
condiciones de la infraestructura de conectividad, movilidad y seguridad vial de la
población residente.
• Salud y Medio Ambiente (SM), referido a la medición de condiciones de salud de la
población en relación con enfermedades que presentan una mayor correlación con las
condiciones ambientales y su medio antrópico.
• Vivienda y Entorno (VE), referido a variables que dan cuenta de la calidad de la
vivienda, nivel de hacinamiento e inversión en el espacio público cercano para sus
residentes.
Mediante estas dimensiones, es que se puede elaborar un Índice multidimensional que permite
comparar en términos relativos la calidad de vida que tiene cada comuna, o ciudad que está
constituida por más de una comuna, permitiendo focalizar donde se encuentran los déficits y así
dar orientaciones a la acción pública y privada en el territorio para ser mejor ciudad.
El problema de la investigación previa, realizada por la PUC, es que existen muchas variables que
carecen de accesos a la información en la cual se basan, por lo que genera un desconcierto para
quien quisiera indagar más sobre este tópico de gran interés, entonces es menester el generar
estudios, donde la información tenga mayor accesibilidad para el público.
Otro factor que se puede considerar algo confuso, es que se trabaja mediante la opinión de
expertos para la elaboración del indicador, pero en ningún momento se comenta el sistema a
7
utilizar a la hora de calcular cada valor, entonces se optó en este trabajo para crear una variación
del sistema utilizado por la PUC y enfocarse más en generar una base de datos, que sintetiza cada
dimensión del ICVU, pero que estandarice las variables y las compare mediante un análisis de
clúster.
4.2 Delimitación de la investigación
La investigación del ICVU de la PUC fue realizada durante el año 2020, en la ciudad de Santiago.
Mientras que el presente informe fue realizado en la región de Antofagasta, desde octubre del año
2021 hasta inicios de enero de 2022.
Este estudio contempla 16 regiones de Chile, las cuales son:
● Región de Arica y Parinacota.

● Región de Tarapacá.
● Región de Antofagasta.
● Región de Atacama.
● Región de Coquimbo.
● Región de Valparaíso.
● Región Metropolitana de Santiago.
● Región del Libertador General Bernardo O’Higgins.
● Región del Maule.
● Región del Ñuble.
● Región del Biobío.
● Región de La Araucanía.
● Región de Los Ríos.
● Región de Los Lagos.
● Región de Aysén del General Carlos Ibáñez del Campo.
● Región de Magallanes y la Antártica Chilena
Y se limitará a analizar cada variable, a partir de información del año 2020 .
4.3 Justificación
Si bien estudios como el ICVU son de gran utilidad para entender la realidad nacional, como es
mencionado anteriormente, es de vital importancia poseer estudios donde exista acceso a
información comprometida con estos, y mejor aún actualizada.
8
Para saber realmente cómo se comporta la Región de Antofagasta, respecto a las demás regiones,
teniendo en cuenta variables consideradas que tienen influencia en el ICVU de cada región.
Bajo esta imagen se ve en duda si realmente esta información es actual, o si variables que afectan
positivamente la situación de la región son parte de este índice. Dado lo anterior, se decide usar
fuentes de acceso público, para así entregar información franca y transparente.
De acuerdo con lo mencionado anteriormente, se busca entender la relación de Antofagasta como

región en el ICVU, tomando en cuenta las demás regiones y su comportamiento en base a este
índice.
¿Qué dimensión afecta a cada región en el índice como tal?, ¿Que se debe considerar para
Con esta investigación, se busca tener una razón de cómo la Región de Antofagasta se asemeja a
otras regiones del país, teniendo en cuenta las influencias de cada variable recogida del ICVU.
¿Qué área influye más dentro de este índice?, ¿Que no se debe considerar y que sí en este
índice?, entre otras preguntas como esas se ve envuelta esta investigación.
4.4 Limitaciones
Una limitación para el desarrollo fue, como para todos, la llegada del COVID-19, pandemia que
afectó directamente a la presencialidad de muchos tipos de mediciones, sobre todo en el ámbito de
educación. Ejemplo claro de lo anterior son las pruebas SIMCE, que estos últimos años no se
pudieron aplicar, por ende, no se dispone con la información del año 2020.
También existían problemas con diferentes medios oficiales, ya que algunos servidores contaban
con problemas que afectan negativamente el acceso a las fuentes de información, por lo que
algunas variables tuvieron que ser eliminadas o simplemente ser reemplazadas por otras, ya que
siempre existía el riesgo de que el sitio donde se encuentra la fuente apareciese como sin acceso
que simplemente la página había dejado de existir.
9
Además, al ser un estudio que considera cada región nacional, se encontró investigaciones
publicadas que poseían enfoques en ciertas zonas del país, que simplemente ignoraban otras
regiones, o que por ejemplo mencionan las variables de diez regiones solamente y al buscar la
información faltante en otros medios, ésta simplemente no existía.
Algunas variables han sido modificadas y otras agregadas.
Las variables agregadas durante este estudio fueron:
● Porcentaje de participación en el mercado laboral.

● Tasa de participación laboral.
● Tasa de participación femenina en el trabajo.
● Puntaje PSU promedio en establecimientos municipales.
● Tasa de años de vida potenciales perdidos.
● Acceso inadecuado de agua potable.
Dentro del estudio previo también se modificó variables, la variable metro de áreas verdes con
mantenimiento por habitante se reemplazó por superficie total en metros cuadrados de parques
urbanos, la cantidad de camas en hospitales y clínicas cada 1000 habitantes se cambió por Tasa
de establecimientos del SNSS y el gasto total municipal por habitante en la comuna por el gasto
cada 100.000 habitantes en peso chileno.
4.5 Objetivos
4.5.1 Objetivo general

Comparar similitudes y diferencias entre Antofagasta y otras regiones de Chile al agruparlas en
distintos conglomerados, mediante una corrección del ICVU publicado por el Instituto de Estudios
Urbanos de la PUC, sustituyendo variables sin acceso a la información por aquellas con mayor
accesibilidad.
4.5.2 Objetivos específicos

a) Conformar una Base de Datos para cada una de las variables que actualmente incluye el
ICVU. Elaborado por la Universidad Católica.
10
b) Proponer nuevas variables para un nuevo ICVU que cumplan con el acceso público a los
datos.
c) Comparar el ICVU de las Regiones de Chile utilizando un Análisis de Clúster jerárquico y
bietápico.
5 Fundamentación teórica
5.1 Estado del arte
Autor Descripción del artículo
Índice de calidad de vida Según la composición del ICVU, se puede entender que, debido al
urbana, Orellana (2012) fenómeno multidimensional de la realidad urbana, existen
diferencias en los estándares para la medición de la calidad de
vida a nivel nacional. Estos estándares regionales son esenciales
para generar una comprensión general sobre la realidad de cada
región en torno a las dimensiones señaladas en este estudio.
Indicadores de calidad Se plantea la necesidad de crear una ruta metodológica para

de vida urbana, teoría y generar un índice global de calidad de vida urbana, a partir de la
tarea de integrar distintos indicadores urbanos, colocando en
metodología, Leva
manos de los gestores públicos una herramienta privilegiada para
(2005) la toma de decisiones en materia de calidad de vida.
Indicadores de calidad Surge la pregunta de cómo construir indicadores o cuáles de

de vida y políticas éstos considerar para hacer un diagnóstico consciente de las
públicas, Rey (2014) falencias o virtudes de cada urbe y remediarlas o potenciarlas a
través de políticas públicas puntuales.
Análisis de Se plantea metodológicamente cómo trabajar con Análisis de

conglomerados o Clúster, con el objetivo de encontrar qué grupos de
clúster, Figueras (2001) conglomerados son significantes y cuáles no.
11
Integración urbana y Se explora la relación entre la calidad de vida urbana e índices de
calidad de vida: Integración urbana a partir del Sistema de Indicadores y
disyuntivas en contextos Estándares de Desarrollo Urbano (SIEDU).
metropolitanos, Vicuña
(2019)
La calidad de vida en
espacios urbanos, Se busca establecer planteamientos para la calidad de vida
Gonzalez (2018) experimentada según habitantes en un espacio determinado
teniendo en cuenta dos elementos básicos: Salud o condiciones
objetivas en que viven las personas y la percepción, satisfacción o
evaluación subjetiva de las personas acerca de su situación.
En estas investigaciones se usa una metodología de trabajo para realizar estudios en vistas de
desarrollar y poder tener una buena aplicación del ICVU, revisando distintos indicadores nacionales
e internacionales que se consideran para medir la calidad de vida. De esta manera optan a
construir el indicador con variables objetivas (datos cuantitativos) registradas y actualizadas cada
cierto tiempo por fuentes institucionales públicas y privadas, de un carácter confiable. Esta
información se usará como guía para poder desarrollar el estudio y entenderlo de una manera
similar a cómo se ha planteado anteriormente.
5.2 Marco teórico:
La utilización del concepto de Calidad de Vida (CV) puede remontarse a los Estados Unidos
después de la Segunda Guerra Mundial, como una tentativa de los investigadores de la época de
conocer la percepción de las personas acerca de si tenían una buena vida o si se sentían
financieramente seguras (Campbell, 1981; Meeberg, 1993).
El hecho que desde sus inicios haya estado vinculado a otras variables psicológicas que involucran
en sí mismas el concepto de bienestar ha posibilitado que a la fecha, muchos investigadores no
diferencien claramente en sus estudios cada concepto o lo utilicen de manera distinta.
12
El concepto de Calidad de Vida actualmente incorpora tres ramas de las ciencias: economía,
medicina y ciencias sociales. Cada una de estas disciplinas ha promovido el desarrollo de un punto
de vista diferente respecto a cómo debiera ser conceptualizada la CV (Cummins, 2004)
Diagrama 1: Modelo conceptual de la OMS.
La metodología más apropiada a utilizar será el Indicador Calidad De Vida Urbana (ICVU)
(Orellana; Bannen; Fuentes; Gilabert y Pape). Donde se analizarán 6 ámbitos como componentes
de un ICVU, bajo condiciones objetivas y comparables:
1. Condición laboral.
2. Ambiente de negocios.
3. Condiciones socioculturales.
4. Conectividad y movilidad.
5. Salud y medio ambiente.
6. Vivienda y entorno.
13
Dado a la diferencia de población que hay entre regiones se toma como muestra datos
proporcionales.
Finalmente se trabajará mediante el uso del software SPSS para la tabulación de datos, los que
posteriormente serán comparados mediante la realización de un Análisis de Clúster (También
llamado análisis de conglomerados), para establecer una relación entre la calidad de vida urbana
del resto del país y la Región de Antofagasta.
El análisis de clúster es una técnica de análisis estadístico multivariante correspondiente a los

métodos de clasificación automática o no supervisada, que busca agrupar los elementos de una
muestra en grupos homogéneos, teniendo en cuenta la similitud entre ellos. (Peña, 2002) .
Esto se considera de gran utilidad cuando no existe supuesto previo acerca de cuántos clústeres
existirán dentro de un conjunto y nos proveen de información acerca de las distintas asociaciones y
posibles patrones que puedan haber dentro de una base de datos.
Existen distintos tipos de clústeres, pero para este estudio se utilizarán los siguientes: El clúster
jerárquico que corresponde a un algoritmo que agrupa los datos, basados en la distancia entre
cada uno e identificando cuáles datos dentro del clúster son más similares entre sí. Y el clúster
bietápico, que es utilizado para determinar una cantidad óptima de subgrupos. A diferencia del
clúster jerárquico se puede trabajar con un número predeterminado de clústeres, utilizando
variables categóricas y continuas de forma simultánea.
El análisis establece dichos grupos basándose en la similitud que presenta un conjunto de

entidades respecto de una serie de características que el investigador ha especificado
previamente. Al final, se extrae los grupos de sujetos y sus características definitorias: número de
segmentos, número de integrantes de cada segmento. Si las variables de aglomeración están en
escalas muy diferentes, será necesario estandarizarlas previamente. Es necesario observar
también los valores atípicos y desaparecidos, porque los métodos jerárquicos no tienen solución
con valores perdidos, y porque los valores atípicos deforman distancias y producen clústeres
unitarios. Es perjudicial la presencia de variables correlacionadas, por lo que es conveniente
realizar primero un análisis de multicolinealidad. Los conglomerados deben tener sentido
conceptual y no variar mucho al cambiar la muestra o método de aglomeración. Para la formación
de clúster en este trabajo se utilizó la técnica de Análisis de Clúster Jerárquico, con el Método de
Ward, que tiene por objeto maximizar la homogeneidad dentro de cada conglomerado. Para ello,
14
plantea todas las posibles combinaciones de observaciones para el número de grupos que se esté
considerando en cada etapa concreta. Este método, propuesto por Ward en 1963 es uno de los
más utilizados en la práctica; posee casi todas las ventajas del método de la media, y suele ser
más discriminativo en la determinación de los niveles de agrupación. Este método, además, es
capaz de encontrar mejor una clasificación óptima en comparación con otros métodos.
Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en
clústeres puede medirse a base de la suma total de los cuadrados de las desviaciones entre cada
punto (individuo) y la media del clúster en el que se integra. Para que el proceso de “clusterización”
resultará óptimo, en el sentido de que los grupos formados no distorsionen los datos originales,
proponía la siguiente estrategia: en cada paso del análisis, considerar la posibilidad de la unión de
cada par de grupos y optar por la fusión de aquellos dos grupos que menos incrementa en la suma
de los cuadrados de las desviaciones al unirse. La ventaja del método de Ward es que no deja
ningún tipo de “cabos sueltos”. No quedan formados grupos que tengan uno o muy pocos
elementos. Todos los datos se agrupan en clústeres que tienen varios elementos. Así, las
principales ventajas del método de Ward son: la formación de clústeres más compactos y de
similar tamaño y la minimización de la pérdida de información en el proceso de organización de los
conglomerados. La medida de similitud a base de la cual se formaron los grupos fue la distancia,
esto es, las distintas medidas entre los puntos del espacio definido por los individuos. La distancia
euclídea al cuadrado es la medida utilizada para la formación de conglomerados en este trabajo y
se expresa: distancia euclídea al cuadrado d(i, j) 2 = ∑ k (xik − xjk) 2 . Se observa que la distancia
euclídea al cuadrado entre dos individuos se define como la suma de los cuadrados de las
diferencias de todas las coordenadas de los dos puntos. Para la determinación de los grupos se
hace uso del gráfico denominado dendograma, que puede emplearse para evaluar la cohesión de
los conglomerados que se han formado y proporcionar información sobre el número adecuado de
conglomerados que deben conservarse. El tipo de variable utilizada en este trabajo es métrica y es
la participación de cada sector económico, a nivel provincial en la demanda de créditos bancarios.
El software utilizado para realizar los conglomerados y el resto del análisis fue el SPSS
El procedimiento de análisis de conglomerados en dos fases, también llamado bietápico, es una

herramienta de exploración diseñada para descubrir las agrupaciones naturales de un conjunto de
datos, permitiendo así la generación de criterios de información, frecuencias de los conglomerados
y los estadísticos descriptivos por conglomerado, gráficos de barras, sectores y gráficos de
importancia de las variables. El método de análisis de conglomerados en dos fases tiene unas
características únicas respecto a otros métodos de conglomeración tradicionales, que son las
siguientes: un procedimiento automático del número óptimo de conglomerados, la posibilidad de
15
crear modelos de conglomerados con variables tanto categóricas como continuas y la opción de
trabajar con archivos de datos de gran tamaño.
El análisis cluster de K-medias es una herramienta diseñada para asignar casos a un número fijo
de grupos (clusters o conglomerados) cuyas características no se conocen aún pero que se basan
en un conjunto de variables especificadas. Es muy útil cuando queremos clasificar un gran número
(miles) de casos.
El procedimiento del análisis cluster de K-medias empieza con la construcción de unos centros de
conglomerados iniciales. Podemos asignar estos nosotros mismos o tener un procedimiento de
selección de observaciones bien situadas para los centros de conglomerados.
Después de la obtención de los centros de los conglomerados, el procedimiento:
● Asigna casos a los conglomerados basándose en la distancia de los centros de los

conglomerados.
● Actualizar las posiciones de los centros de los conglomerados basándose en los valores
medios de los casos en cada conglomerado.
Estos pasos se repiten hasta que cualquier reasignamiento de los casos haga que los
conglomerados sean internamente más variables o externamente similares .
5.2.1 Medidas de distancias
A partir de la matriz de datos X de orden Nxp se construye la matriz S de distancias de orden NxN,
donde cada coeficiente de S, sij representa el valor de un coeficiente de disimilitud para los casos i
y j, que mide el grado de disimilitud/distancia de los individuos. Esta matriz será simétrica, dado
que sij = sji Estas matrices pueden variar considerablemente para los mismos datos según la
medida de disimilitud/distancia usada y según haya o no transformado o estandarizado las
variables originales. R proporciona varias medidas de distancia. Una de las más usadas es la
euclídea (la raíz cuadrada de la suma de cuadrados de las diferencias) . Vea ayuda para la función
dist en R ("euclidean", "maximum", "manhattan", "canberra", "binary" o "minkowski"). La función
16
daisy en el package cluster permite usar métricas euclídea, manhattan o distancia de Gower, esta
función es útil cuando las variables usadas no son numéricas (nominales, binarias, ordinales o
incluso combinaciones de ellas). Para más información use ayuda de R. Variables cuantitativas: La
medida más importante es la distancia euclídea y derivaciones de ella mediante ponderaciones.
Sean X1, X2, ..., Xp las variables observadas. Notamos con Xij valor observado en el caso i-ésimo
en la variable j-ésima. Dados dos casos i e i’, se definen las siguientes medidas de proximidad: •
Distancia euclídea: Es la raíz cuadrada de la suma de los cuadrados de las diferencias entre los
valores de los elementos. Ésta es la medida por defecto que suele usarse para datos de intervalo.
∑= −= p j ii jiij xxd 1 2 ' ' ( ) Depende de la escala de medida. Sus valores no están acotados.
Variables binarias (presencia/ausencia de atributo): Existe una gran diversidad de medidas.
Basadas en si están o no presentes las modalidades de las variables binarias. Departamento de
Estadística e Investigación Operativa 4 Supongamos que la tabla siguiente resume la información
para un par de casos i e i’. Cada caso vendrá dado por una p-upla de unos y ceros, donde: 1 indica
la presencia y 0 la ausencia de cierto atributo. Caso i 1 0 1 a b Caso i’ 0 c d a = total de atributos
presentes en el caso i y en el caso i’ d = total de atributos ausentes en ambos casos b = total de
atributos ausentes en i y presentes en i’ c = total de atributos ausentes en i’ y presentes en i
Distancia euclídea: cbdii' += Es sencillamente la distancia euclídea para el caso particular en que
las variables toman sólo los valores 1 y 0. Dependiendo de las características de los datos, unos
coeficientes serán más o menos apropiados que otros. Se puede llegar a designar a dos casos
como iguales o distintos, dependiendo de la medida usada. Entre los de uso más frecuente destaca
el coeficiente de concordancia simple. Unas veces será importante considerar el recuento de
ausencias y otras no. En algunos análisis, tan importante es considerar la concordancia de
presencias como de ausencias. Es preciso advertir que si se realizan varios análisis con medidas
diferentes y los resultados del agrupamiento son similares, esto no garantiza siempre que se haya
encontrado la verdadera estructura de los datos, dado que muchos de los coeficientes
especificados están relacionados entre sí y, en consecuencia, la concordancia de resultados puede
responder, en muchos casos, a las relaciones existentes entre las medidas de similaridad usadas,
más que al carácter de la estructura del agrupamiento. R permite efectuar un análisis clúster
jerárquico usando como entrada una matriz de datos o la de distancias. Esta opción es interesante
porque a veces no se dispone de los datos originales o, bien, porque se desea manipular
previamente la matriz de distancias.
17
6 HIPOTESIS Y VARIABLES
6.1 Hipótesis General:

En la agrupación de conglomerados, Antofagasta debería encontrarse en un clúster compuesto
por regiones de mayor aporte al PIB.
6.2 Diagramas de variables
18
19
20
6.3 Definición operacional de variables
Nombre Empresas Delitos de Establecimientos Denuncia por

Operacional Nuevas mayor SNSS violencia
connotación
social
Variable Tasa de Tasa de delitos Tasa Camas Tasa de denuncias por

Empresas de mayor establecimientos violencia intrafamiliar
nuevas cada connotación SNSS cada Cada 100.000
100.000 social cada 100.000 habitantes
habitantes 100.000 habitantes
habitantes
Descripción Empresas Los delitos de Camas La violencia

nuevas mayor disponibles de intrafamiliar es todo
registradas en el connotación establecimientos aquel acto de poder u
SII de manera social refieren a del Sistema omisión recurrente,
Anual. aquellos delitos Nacional de dirigido a dominar,
de carácter Servicios de someter, agredir
violento y que Salud por cada física, psico-
afectan la 100.000 emocional o
propiedad, la habitantes socialmente a
(Empresas vida y bienes de cualquier miembro de
nuevas/Poblacio las personas, la familia
n total)x100.000 generando con (Camas
ello un impacto disponibles
público. SNSS/Población)x
100.000
(Denuncias por
(Tasa de delitos violencia
/ intrafamiliar/Població
Población)x100. n)x100.000
000
21
Nombre Año de vida Hacinamiento Atención Adscripción sistema de salud
Operacional potencial perdido médica
Variable Tasa de años de Porcentaje de Tasa de Porcentaje de Hogares

vida potenciales Carencia de atención carentes en adscripción al
perdidos hacinamiento médica sistema de Salud
Últimos 3
meses
(2020)
Descripción Tasa de años de Razón entre el n° Porcentaje de Porcentaje hogares donde

personas que han
vida potenciales de residentes y algún integrante que no están
recibido atención
perdidos se refiere el n° de médica ante un afiliada a un sistema
a la pérdida que dormitorios en la problema de previsional de salud y no tiene
ocurre cuando vivienda, salud, otro seguro de salud.
enfermedad o
fallecen personas considerando
accidente en los
jóvenes o existen piezas de uso N°Hogares sin adscripción al
últimos 3 meses
fallecimientos exclusivo o uso respecto del total sistema de salud/Hogares con
prematuros. múltiple de la población adscripción al sistema de
que presenta un salud
problema de
salud,
enfermedad o
l: Edad límite N° accidente durante
inferior Residentes/N° el mismo periodo.
dormitorios.
L: Edad límite
superior
Personas
atendidas últimos
i: Edad de muerte 3 meses/Total
población que
di: Número de presentó
defunciones a la problemas de
salud en el mismo
edad i
periodo
22
Nombre Simce Simce Fecundidad PSU Colegios Municipales
Operacional Lenguaje Matemáticas Adolescente
Variable Promedio Promedio Tasa de Puntaje PSU promedio en

Simce Simce fecundidad establecimientos municipales
Lenguaje 2019 Matemáticas adolescente en
2019 porcentaje
Descripción Promedio de Promedio de Tasa de

prueba Simce prueba fecundidad
de alumnos de SIMCE de adolescente
4to básico en alumnos de como porcentaje
la asignatura 4to básico en del total de
de Lenguaje la asignatura mujeres
por región de embarazadas en
Matemáticas cada región
por región
x1,x2..xn=
Promedio
personal por x1,x2..xn=
estudiante Promedio
personal por
N: Total de estudiante Puntaje promedio PSU de
estudiantes Matemáticas, Historia, Ciencias
N: Total de e Historia por región en
estudiantes establecimientos municipales
23
Nombre Hogar y Medio Asistencia Mercado Laboral Hogar y
Operacional Ambiente Educacional Seguridad
Variable Porcentaje de Porcentaje de Porcentaje que Porcentaje de

Hogares carentes Hogares Carentes participa del hogares carentes
por medio en asistencia mercado laboral seguridad
ambiente
Descripción Porcentaje de Son aquellos Razón entre la Expresa el

hogares que donde algún fuerza de trabajo porcentaje de
residen en un niños/as y o población hogares que
entorno inmediato
adolescentes de 4 económicamente declaran haber
de su vivienda que
a 18 años no está activa (ocupados presenciado una
está afectado por
asistiendo a un y desocupados) situación de
la presencia de dos
o más situaciones establecimiento con respecto a la inseguridad
persistentes de educacional y no población en (tráfico de
contaminación ha egresado de edad de trabajar drogas o
cuarto medio, o (15 años y más). balaceras) cerca
personas de 19 a de su residencia
26 años tiene una con frecuencia
condición de siempre.
permanente y/o
de larga duración y
no asisten a un
establecimiento
educacional.
24
Nombre Hogar y Trato Hogar y Ingreso del Hogar y
Operacional social Participación Hogar Accesibilidad
Social
Variable Porcentaje de Porcentaje de Ingreso Porcentaje de

hogares hogares monetario del hogares
carentes de carentes de hogar promedio carentes en
trato social apoyo y accesibilidad
participación
social
Descripción Expresa el Porcentaje de El ingreso Muestra el

porcentaje de hogares que no monetario del acceso expedito
hogares que disponen de hogar se define a servicios de
declaran que redes sociales como la suma transporte,
alguno de sus ni participan en del ingreso salud y
miembros ha un grupo autónomo del educación (en
sido organizado. hogar y las un radio de
discriminado en transferencias distancia
los últimos 12 monetarias que caminable
meses. recibe el hogar desde la
del Estado. Las vivienda
transferencias
monetarias son
todos los pagos
en dinero
provistos por el
Estado.
25
26
Nombre
Operacional Utilización de Mujeres en el Acceso Inadecuado
Internet Trabajo Agua Potable
Variable Población de 5 Tasa de Acceso inadecuado

años o más que participación a agua potable o
utiliza internet 1 femenina en el no cuentan con
vez a la semana al trabajo conexión a
menos alcantarillado
Descripción Total de individuos Porcentaje de Número total de

mayores a 5 años que participación población sin
tienen acceso a femenina (busca o alcantarillado vs total
internet al menos una tiene empleo) /total población
vez a la semana / total población región
población región
27
7 Metodología
Antes de realizar el análisis de clúster respectivo a cada variable del estudio, primero se consideró
de gran importancia el realizar una estandarización de cada una de ellas. Ya que, gracias a esta
herramienta, se puede comparar datos de distribuciones distintas o que posean diferentes
unidades de medida.
Por lo que, al generar la distribución normalizada, se genera una media aritmética igual a 0 y una
desviación estándar de 1 a lo largo de todas las variables estandarizadas.
Dentro de la clusterización esta herramienta es usada muy comúnmente, ya que se trabaja con
grandes cantidades de información y que muchas veces, no está toda en unidades similares.
Variables de investigación
En esta investigación existen variables como el ingreso, que se expresa en miles o millones de
pesos, mientras que otras como la participación femenina en el trabajo está determinada en
porcentaje. Por lo que a la hora de comparar un ingreso de por ejemplo 2 millones de pesos vs un
46% de participación femenina en el trabajo en la región de Arica, puede llevar a diferencias muy
grandes que a la hora de clusterizar, pueden llevar a generar números tan elevados que requieran
notación científica, por ende para que este proceso sea más simple de comprender para el lector,
se optó por estandarizar, trabajar con variables bajo una distribución normalizada y de esta forma a
su vez disminuir el reescalado dentro del clúster jerárquico.
7.1 Tipos de Clúster

Dentro de la presente investigación se optó por utilizar el clúster jerárquico y bietápico por sobre
otras categorías de clúster.
La decisión de considerar un clúster jerárquico por sobre otros, se debe principalmente a que es
mucho más fácil de implementar y además sus resultados poseen una mayor simplicidad a la hora
de interpretarlos, el dendrograma es una herramienta de gran utilidad para el investigador a la hora
de explicar conglomerados, debido a que es capaz de reescalar la distancia entre variables, para
de tal forma generar un gráfico compacto que resume toda la información proveniente del análisis
de clúster.
28
En el caso del clúster bietápico, que también es conocido como Two-step clúster debido a su título
en inglés. Se priorizó debido a que es bastante único, además tiene tres características
diferenciadoras a considerar con el resto de los métodos.
I) Permite trabajar con variables categóricas y contínuas.
II) Permite definir previamente el número de clústeres a generar.
III) Permite analizar grandes números de datos.
Durante esta investigación se consideró de gran utilidad el two-step clúster, principalmente ya que
posee además a los 3 puntos previos, una tabla de centroides que indica la media y desviación
estándar por variable en cada clúster, por lo tanto, es una herramienta que permite realizar un
análisis más específico de alguna información que es omitida durante el clúster jerárquico.
7.2 Distancia Clústeres

En el caso de la unidad para determinar la distancia entre clústeres se escogió la distancia
euclidiana por sobre otras, debido a que considera el tamaño del segmento que conecta ambos
puntos entre conglomerados, forma mucho más acertada de calcular distancia en comparación a
otros métodos, como por ejemplo la distancia Manhattan, que calcula la distancia solo horizontal o
verticalmente.
Sobre otras formas de establecer distancias en este tipo de estudios, existen otras medidas de
disimilitud como la distancia basada en la correlación, pero este tipo de proceso es más enfocado
al estudio en el área de la genética, por lo que se priorizó trabajar con distancia euclidiana por los
motivos previamente señalados.
7.3 Tipo de Investigación
● El presente estudio corresponde a una investigación histórica, debido a que se trabaja con
datos provenientes de un año anterior, donde se describe cómo era el contexto nacional en
aquel momento.
29
7.4 Población Y Muestra
● Al trabajar con variables, las cuales se miden tienen distintas escalas de medida y además
poseen valores numéricos muy distintos entre sí, se optó por estandarizar la información,
ya que de no hacerlo esto podría llevar a resultados muy alejados de la realidad.
El presente estudio considera las siguientes variables:
VARIABLE Tasa de Tasa de Tasa Tasa de Promedi Promedio

Empresa delitos de Camas denuncias o Simce Simce
s nuevas mayor establecimi por Lenguaje Matemáticas
cada connotación entos violencia 2019 2019
100.000 social cada SNSS cada intrafamiliar
habitante 100.000 100.000 Cada
s habitantes habitantes 100.000
habitantes
MEDIA 1274,8 1833,5 152,7 688,5 241 259
MEDIANA 1680,7 2316 248,2 958 243 268
MAX 1096,5 832 52,5 481 233 248
MIN 1306,2 1809 160,1 709,4 240,3 259
VARIABLE Tasa de Puntaje Tasa de Porcentaje Tasa de Porcentaje de

fecundida PSU años de de atención Hogares
d promedio en vida Carencia médica carentes en
adolesce establecimie potenciales de Últimos 3 adscripción al
nte en ntos perdidos hacinamien meses sistema de
30
porcentaj municipales to (2020) Salud
e
MEDIA 25,2 461,15 77 4% 0,92 5%
MEDIANA 35,1 486,3 78 8% 0,94 9%
MAX 19,3 438,2 76 3% 0,88 3%
MIN 26,1 461,3 77 4% 0,92 5%
VARIABLE Porcentaj Porcentaje Porcentaje Porcentaje Porcentaj Porcentaje de

e de de Hogares que de hogares e de hogares
Hogares Carentes en participa carentes hogares carentes de
carentes asistencia del seguridad carentes apoyo y
por mercado de trato participación
medio laboral social social
ambiente
MEDIA 3% 2% 54% 7% 11% 6%
MEDIANA 18% 3% 61% 20% 17% 10%
MAX 1% 1% 48% 1% 8% 3%
MIN 4% 2% 54% 7% 12% 6%
31
VARIABLE Ingreso Porcentaje Gasto Puntaje Superfici Tasa
monetari de hogares cada PSU igual o e total Mortalidad
o del carentes en 100.000 superior a m2 Infantil
hogar accesibilida habitantes 450 puntos parques
promedio d en $ en urbanos
establecimi
entos
municipales
194,9463
MEDIA 792118 0,0655 22211067,3 39,8827365 46 132,8
11323,30
MEDIANA 1204524 0,11 54142336,4 51,1085714 34 306
5,667010
MAX 634603 0,018 14769797,9 31,3 78 7,2
983,1948
MIN 865536 0,0615 393353760 40,2498061 52 137,25
32
VARIABLE Tasa de Tasa de Tasa de Tasa de Població Tasa de
participac ocupación siniestros fallecidos n de 5 participación
ión (Mayores de de tránsito cada años o femenina en
laboral 15 años) cada 100000 más que el trabajo
(Mayores 100000 habitantes utiliza
de 15 habitantes internet 1
años) vez a la
semana
al menos
MEDIA 56,8 52,0 413,1 9,9 69% 0,5
MEDIANA 65,1 61,8 570,0 15,0 80% 0,5
MAX 52,8 46,9 267,8 4,8 60% 0,4
MIN 57,6 53,1 421,1 10,2 70% 0,5
33
VARIABLE Acceso
inadecua
do a
agua
potable o
no
cuentan
con
conexión
a
alcantarill
ado
MEDIA 8%
MEDIANA 18%
MAX 3%
MIN 9%
8 RECOLECCIÓN DE LA INFORMACIÓN
8.1 Fuentes de información.

Para la selección de la información, se utilizaron bases de datos de diferentes entidades públicas y
privadas, entre ellas se encuentran: Instituto Nacional de Estadística, Sistema Nacional de
Información Municipal, Encuesta Casen, Departamento de Estadísticas e Información de Salud,
34
Ministerio de Educación, Superintendencia de Bancos e Instituciones Financieras de Chile,
Observatorio de ciudades, sumados a los estudios realizados por el Programa de las Naciones
Unidas para el Desarrollo durante los años 2019 y 2020 entre otros.
El acceso a estas fuentes de información, provienen principalmente de bases de datos públicas

que ellas administran, por lo que toda la información se encuentra disponible para el público
general.
A continuación, se indicará la fuente en específico de la cual provino cada variable dentro del
estudio:
Variable Tasa de Tasa de delitos Tasa Camas Tasa de

Empresas de mayor establecimiento denuncias por
nuevas cada connotación s SNSS cada violencia
100.000 social cada 100.000 intrafamiliar
habitantes 100.000 habitantes Cada 100.000
habitantes habitantes
Fuente SII (2020) Portal CEAD DEIS/DIGERA Portal CEAD

(2020) (2020) (2020)
Variable Promedio Simce Promedio Tasa de Puntaje PSU

Lenguaje 2019 Simce fecundidad promedio en
Matemáticas adolescente en establecimiento
2019 porcentaje s municipales
Fuente Mineduc (2019) Mineduc Minsal (2020) Mineduc

(2019) (2019)
35
Variable Tasa de años de Porcentaje de Tasa de atención Porcentaje de
vida potenciales Carencia de médica Últimos 3 Hogares
perdidos hacinamiento meses (2020) carentes en
adscripción al
sistema de
Salud
Fuente Deis-Minsal Casen (2020) Casen (2020) Casen (2020)

(2020)
Variable Porcentaje de Porcentaje de Porcentaje que Porcentaje de

Hogares Hogares participa del hogares
carentes por Carentes en mercado carentes
medio asistencia laboral seguridad
ambiente
Fuente Casen (2020) Casen (2020) Casen (2020) Casen (2020)
36
Variable Porcentaje de Porcentaje de Ingreso Porcentaje de
hogares hogares monetario del hogares
carentes de carentes de hogar promedio carentes en
trato social apoyo y accesibilidad
participación
social
Fuente Casen (2020) Casen (2020) Casen (2020) Casen (2020)
Variable Gasto Puntaje PSU Superficie Tasa Tasa de

Municipal igual o superior total m2 Mortalidad participación
cada 100.000 a 450 puntos en parques Infantil laboral
habitantes en establecimientos urbanos (Mayores de 15
$ municipales años)
Fuente Casen (2020) SINIM (2019) INE (2020) INE (2020) INE (2020)
Variable Tasa de ocupación Tasa de siniestros de Tasa de fallecidos

(Mayores de 15 años) tránsito cada 100000 cada 100000
habitantes habitantes
Fuente INE (2020) Conaset (2020) Conaset (2020)
Variable Población de 5 años o Tasa de Acceso inadecuado a

más que utiliza internet participación agua potable o no
1 vez a la semana al femenina en el cuentan con conexión a
menos trabajo alcantarillado
37
Fuente Minsal (2020) Minsal (2020) Minsal (2020)
La información adquirida mediante estas fuentes se utilizó para sintetizar una base de datos propia,
que fuese capaz de incluir información de las siguientes variables a lo largo de cada región del
territorio nacional:
Cada una de estas variables fueron utilizadas para el año 2020 generando finalmente la base de
datos que fue utilizada a lo largo de la investigación.
9 Resultados
La información se organizó primero por archivos separados, los cuales contienen la información
proveniente de las diferentes fuentes utilizadas para su adquisición.
Inicialmente se comenzó con una base del formato final, el cual consistía en un documento Excel
con una columna mencionando todas las regiones a nivel nacional, el cual fue siendo modificado
hasta generar una base de datos, ya que la información nueva era ingresada en forma de
columnas hacia la derecha del documento original.
Región
Arica Y Parinacota
Tarapacá
Antofagasta
Atacama
Coquimbo
Valparaíso
38
Región Metropolitana
O'higgins
Maule
Ñuble
Biobío
Araucanía
Los Ríos
Los Lagos
Aysén
Magallanes
Cada variable poseía una columna propia, en la cual la información se transformaba a tasas cada
100.000 habitantes o en un promedio general por región, para evitar trabajar con números
demasiado grandes mientras se digitaba la información.
Región Tasa de Empresas nuevas cada 100.000 habitantes
Arica Y Parinacota 1273.4
Tarapacá 1499.9
Antofagasta 1451.4
Atacama 1276.2
39
Coquimbo 1290.2
Valparaíso 1300.1
Región Metropolitana 1680.7
O'higgins 1096.5
Maule 1204.9
Ñuble 1186.6
Biobío 1324.6
Araucanía 1134.9
Los Ríos 1240.3
Los Lagos 1245.9
Aysén 1456.0
Magallanes 1238.2
Mediante este formato se diseñó la siguiente base de datos que se presentará a continuación y la
cual conforma la estructura a gran escala previo al uso del análisis de clúster
Una vez generada esta base de datos, con diferentes variables correspondientes a cada una de las
dimensiones que considera el ICVU, la información se traspasó a un software llamado IBM SPSS,
para la realización del análisis de clúster.
40
Los datos fueron estandarizados a un valor Z previamente a la realización del análisis de clúster,
ya que al trabajar con diversos tipos de variables y escalas es necesario encontrar una medida de
poder comparar y trabajar con cada variable.
La fórmula para estandarizar variables es la siguiente:
Donde Z corresponde a la variable, xi es la muestra, X es la media y Sx la desviación estándar.
La estandarización de los datos permite comparar las distintas medidas que se encuentran en este
análisis y fueron clave para generar una base de datos en el software SPSS. Ya que por ejemplo
en caso de no estandarizar, variables como el ingreso (Que se mide en millones de pesos) vs una
41
tasa que va simplemente en valores de alrededor de 1.1 a 1.9 generarían grandes diferencias, ya
que la variable ingreso al estar en una escala mayor tendría una mayor influencia sobre el
resultado final, por lo que el transformar datos a escalas comparables evita que ocurran estos
problemas y son importantes previo a realizar un análisis de clúster.
Una vez realizado este proceso, se procedió a trabajar mediante el uso de un análisis de clúster
jerárquico
9.1 Análisis de conglomerados jerárquico:
Para la realización de este tipo de análisis estadístico, primero se comienza con la creación
automática mediante el software de los distintos conglomerados, dependiendo del grado de
similitud entre cada caso dentro del estudio:
Tabla 2: Resumen de los casos procesados
La tabla 2 nos indica el número y porcentaje de casos con valores perdidos dentro de alguna de las
variables que se incluyeron a lo largo del análisis, sumado al tamaño total de la muestra. Como se
puede apreciar existen 16 casos válidos en el estudio, que corresponden a las 16 regiones de
Chile, al haber 0 casos perdidos, esto indica que los datos dentro del estudio fueron correctamente
ingresados y procesados dentro de SPSS y el total N, representa la suma entre casos válidos más
perdidos.
La información que aparece posterior a aquella tabla corresponde a la medida que fue utilizada
para obtener la matriz de distancia, que será explicada posteriormente. En este caso la medida a
utilizar fue la distancia euclídea al cuadrado.
42
Primera aparición del clúster de
Clúster combinado etapa
Etap Clúster Clúster Etapa
a 1 2 Coeficientes Clúster 1 Clúster 2 siguiente
1 8 9 4.142 0 0 8
2 6 11 10.802 0 0 7
3 10 13 20.104 0 0 4
4 10 14 32.332 3 0 5
5 10 12 45.719 4 0 8
6 15 16 61.708 0 0 14
7 5 6 79.074 0 2 11
8 8 10 97.520 1 5 12
9 2 3 116.986 0 0 10
10 2 4 146.431 9 0 13
11 1 5 178.066 0 7 12
12 1 8 214.512 11 8 15
13 2 7 271.515 10 0 14
14 2 15 338.449 13 6 15
15 1 2 465.000 12 14 0
Tabla 3: Historial del proceso de conglomeración
La tabla 3 muestra el historial de la generación de conglomerados, etapa a etapa, como este

estudio corresponde a las 16 regiones de Chile, existirán por lo tanto 15 etapas de fusión, ya que
lógicamente si en cada etapa se fusionan 2 distintos casos, el resultado final serán 15 etapas de
conglomeración.
La columna llamada clúster combinado representa que clústeres fueron combinados dentro de
cada una de las etapas, por ejemplo, la etapa 1 de este caso, representa la combinación del clúster
8 con el clúster 9, la etapa 2 la combinación del clúster 6 con el 11 y así sucesivamente.
La columna coeficientes representa la distancia a la que se encuentra cada caso previo a la

combinación de conglomerados y la columna etapa siguiente, indica en qué momento el nuevo
clúster formado por los casos previos, será nuevamente combinado con otro clúster a lo largo de la
generación del clúster jerárquico final.
43
Tabla 4: Distribución de clústeres
Dentro de la tabla 5 se puede observar la manera en la que fueron distribuidas las 16 regiones
nacionales a lo largo de los distintos clústeres formados.
Podemos apreciar que el clúster número 1 se compone de las regiones de Arica Y Parinacota,
Coquimbo, Valparaíso y la región del Bío Bío.
El 2do clúster de Tarapacá, Antofagasta, Atacama
El 3ro está compuesto solamente por la RM
El 4to clúster está compuesto por la región de O’higgins, El Maule, Ñuble, Araucanía, Los Ríos y
Los Lagos.
44
Finalmente, el último Clúster se compone de las regiones del sur de Chile, Magallanes y Aysén.
Ilustración 1: Dendrograma
La ilustración 1 representa el Dendrograma de las 16 regiones utilizadas durante este estudio,

donde se puede apreciar también las distintas etapas del proceso de fusión de cada región en sus
respectivos clústeres, sumado a la distancia entre cada una de ellas (Valores que aparecen en el
superior del gráfico).
Se debe considerar que las distancias para este caso son re-escaladas, para facilitar la visión del
investigador, ya que al ser valores muy distantes dependiendo del estudio, es mucho más fácil de
apreciar y entender un gráfico en la cual, por ejemplo, si la distancia mayor corresponde a 2000 y
la menor a 0.005, reescalarlas para que el mayor sea equivalente a 25 y el menor a 0, como en el
caso de este estudio.
45
Además, cabe destacar que si bien, a simple vista no se aprecian las 15 etapas que son
mencionadas en la tabla 3, esto corresponde a una falsa impresión que genera el re-escalado
mencionado previamente, ya que, si pudiésemos apreciar este mismo Dendrograma con un mayor
acercamiento a zonas específicas de este, se podría apreciar mejor que cada una de estas etapas
si están presentes, pero son difíciles de apreciar mediante este método gráfico.
Considerando las distancias que aparecen en la tabla 3, la distancia máxima (465) correspondería
a 25 dentro del Dendrograma y la distancia 4.1 correspondería al mínimo.
Cuando se crean las fusiones dentro del Dendrograma, se debe considerar que las fusiones que se
realizan en el extremo izquierda del mismo corresponden a fusiones dentro de conglomerados más
homogéneos, mientras que las fusiones realizadas al extremo derecho representan lo contrario,
conglomerados mucho más heterogéneos.
Al considerar grupos por homogeneidad, se estima que la cantidad óptima de clústeres que pueden
ser recreados a nivel nacional corresponden a 5, los cuales se distribuyen de la siguiente forma:
Clúster 1: Arica y Parinacota, Coquimbo, Valparaíso, Bío Bío.
Clúster 2: Tarapacá, Antofagasta, Atacama
Clúster 3: Región Metropolitana
Clúster 4: O’higgins, Maule, Ñuble, Araucanía, Los Ríos, Los Lagos
Clúster 5: Aysen, Magallanes.
(El número designado a cada conglomerado es el mismo generado por el software SPSS al realizar
el análisis)
Para ilustrar el algoritmo del clúster de jerarquía, utilizamos el método de la matriz de

disimilaridades para identificar la proximidad entre cada región.
Esta proximidad se mide en forma de matriz, la cual se generó utilizando una distancia euclediana,
calculando la distancia entre cada objeto mediante el uso de la siguiente fórmula:
46
Se debe siempre registrar lo similares o disimilares que es cada variable entre sí, dependiendo de
cómo haya sido su representación dentro del espacio de variables del estudio.
En este caso se considera que cada región corresponde a un vector dentro del espacio de
variables, por lo que mediante la siguiente matriz se puede representar la distancia entre cada una
de ellas, que es menester dentro de todo estudio mediante el método jerárquico.
47
Tabla : Matriz de proximidades
48
Mediante el uso de la matriz previamente señalada, la distancia entre todas las regiones del país
que fueron parte de este estudio, además un detalle a observar es que como la distancia es
simétrica (La distancia entre A y B es igual a la distancia entre B y A), la matriz se puede decir que
posee dos zonas, las que están sobre la diagonal igual a 0 (Ya que esta línea representa la
distancia entre un objeto y si mismo), y la zona bajo la diagonal.
Análisis bietápico:
Durante el inicio del análisis de clúster bietápico se puede apreciar que el modelo posee una
medida de cohesión aceptada para el estudio, ya que se encuentra en zona regular, en caso de
que el estudio arrojara un valor inferior y se encontrase en la zona mala, se debería reconsiderar la
estructura del estudio, modificar variables o utilizar otro número de clústeres dentro del mismo .
La cohesión se refiere a que tan similares o que tan cerca están las variables en cada cluster y
separación se refiere a que tan separado está un cluster de otro, es decir que tan distintos son.
49
Si la cohesión fuese menor a 0 el cluster estaría erróneo, pero en este caso es alrededor de 0.4 por
lo que es aceptable.
9.2 Distribución de clúster
N % de combinado % del total
Clúster 1 3 18.8% 16.7%
2 6 37.5% 33.3%
3 2 12.5% 11.1%
4 4 25.0% 22.2%
5 1 6.3% 5.6%
Combinado 16 100.0% 88.9%
Total 18 100.0%
Con la siguiente tabla de distribución de clúster se puede observar el % que cada clúster
representa del total de variables, en este análisis bietápico nuevamente la región metropolitana fue
ubicada en un clúster externo al resto de regiones (Clúster 5).
50
Gráfico representativo de la dimensión de cada clúster, además del cociente de tamaño entre el
más pequeño con el más grande
51
Número de clústeres Criterio bayesiano de Schwarz (BIC)
1 630.266
2 731.947
3 893.636
4 1067.996
5 1243.117
El Criterio Bayesiano de Schwarz (BIC) crea un balance entre el número de parámetros en el

modelo (k) y el número de puntos de información (n) en contra de la función de máxima
probabilidad (L). Lo que hace esta función es determinar el número de parámetros dentro del
modelo que minimicen el BIC.
Como se aprecia en el siguiente gráfico, El BIC nos enseña que nuestro cálculo inicial que
representaba el número de clústeres como 5 es acertado, ya que el valor BIC tiende al alza al
aumentar el número de clústeres, aunque esto se traduce en Aumentar el número de parámetros
dentro del modelo.
52
Centroides:
Son utilizados para determinar la media y desviación estándar de cada variable dentro del estudio, pero en este caso específicamente su
valor dentro de cada clúster. Estas cifras son de gran utilidad para generar un análisis más específico, ya que el análisis de clúster
jerárquico no nos permite acceder a dicha información.
53
9.2.1 Predictores:
Los predictores son valores de las variables que se miden de 0 a 1, los cuales indican cuánto contribuyó cada una al proceso de
clusterización. En la siguiente tabla se presenta la importancia de cada variable de este estudio al realizar la clusterización bietápica.
54
55
56
57
58
59
10 Discusión de resultados
De acuerdo con cómo fue agrupada cada región del país, surgieron diversas ideas sobre el
resultado final de esta investigación.
Primero se debe considerar que solo se utilizaron variables que miden aspectos sociales
mayoritariamente, pero que de cierto modo cada clúster creado agrupó regiones por Zona. Por
ejemplo, el clúster 2 agrupó a regiones de la zona norte, el clúster 4 a regiones de la zona centro
sur y el clúster 5 a regiones de la zona sur. Posiblemente la calidad de vida se ve afectada
indirectamente por los diferentes climas que existen a lo largo de Chile, considerando el estudio
¨High Mortality Days During The Winter Season¨ comparing meteorological conditions across 5 us
cities¨, realizado por Michael J. Allen y Scott C. Sheridan, las temperaturas bajas afectan
negativamente la calidad de vida del ser humano y factores como por ejemplo la tasa de mortalidad
aumenta en regiones de climas fríos.
Otro factor que llama la atención es que las regiones que componen cada clúster son de tamaños
similares, en términos de superficie.
Además de los factores previamente señalados, muchas de las regiones que son parte de los
clústeres generados dependen principalmente de sectores comerciales similares, como en el caso
del clúster 2 que son regiones mineras, o las regiones del clúster 5 que son regiones asociadas al
sector forestal.
También llama la atención el hecho de que ambos clústeres, jerárquico y bietápico, agruparon de la
misma manera las variables y llegaron a valores en común.
Finalmente, los resultados obtenidos son aceptables para este estudio, en términos de cohesión y
distancia como fue expresado dentro del análisis del modelo bietápico.
Sobre este tipo de estudios, si bien el ICVU es un indicador bastante bueno y es realizado
periódicamente, no existen muchas fuentes de información con respecto al tema y en el caso de
nuestro estudio, la aplicación del análisis de clúster contribuye nuevas perspectivas para analizar la
calidad de vida en Chile.
60
11 CONCLUSIONES
La calidad de vida, al ser representada mediante el ICVU, nos entrega una visión acerca del estado
en que se encuentra cada región del país y el bienestar de sus habitantes. Un factor que
generalmente se considera necesario para el Desarrollo de la calidad de vida, es el que un territorio
sea próspero y esté rodeado de oportunidades para quien sea parte de él.
Pero si bien, el ICVU considera distintas dimensiones y realiza un ranking de regiones, el Sistema
utilizado al no ser definido dentro del estudio, no permite comprender mediante qué criterios se
realiza la clasificación, ni tampoco el procesamiento de datos, que llevan a obtener una imagen
general del país, que a la larga genera confusión.
Gracias al análisis de clúster, se puede obtener una visión general de cada variable perteneciente
a las diferentes dimensiones, que luego de ser realizado definió a Antofagasta, como una región
que forma parte de un clúster compartido junto a Tarapacá y Atacama.
Inicialmente la hipótesis buscaba encontrar cierta similitud, entre el aporte al PIB nacional realizado
por Antofagasta, y que esto lograse vincularla, considerando estándares de calidad de vida, con
otras regiones prósperas del país, como por ejemplo la región Metropolitana, Valparaíso o la región
del Bío Bío.
Pero en la práctica, el análisis de clúster optó por asociarla a regiones mineras (Tarapacá y
Atacama) y las regiones mencionadas previamente resultaron formar parte del clúster 1, que está
conformado por las regiones de Arica y Parinacota, Coquimbo, Valparaíso y la región del Bío-Bío.
Mientras que la región Metropolitana, fue definida en un clúster único, ya que no posee otras
regiones que se le asemejen a lo largo del país.
Una posible explicación de este fenómeno es que la calidad de vida se ve afectada por la ubicación
geográfica de la zona en estudio, o que la administración gubernamental de cada región en
específico se ve influenciada por su vecino más cercano, sumado a que muchas de las regiones
que fueron categorizadas como parte de un clúster poseen economías basadas en recursos
similares, como lo es la minería en el clúster 2, del cual forma parte la región de Antofagasta.
Esta situación llama bastante la atención, ya que, en aspectos generales, mediante el análisis
jerárquico, prácticamente Chile se vio descrito en cada clúster según Zona, cada clúster contenía
regiones de zonas similares, pero al usar un Sistema de procesamiento de datos como la
61
clusterización, la cual está basada en datos que no entregan información alguna sobre la geografía
y la distribución de cada región a lo largo de Chile, es algo que llama bastante la atención.
Para futuras investigaciones este factor puede ser de gran interés, ya que si bien aclara cómo se
encuentra Antofagasta con respecto a otras regiones del país, a su vez genera muchas
interrogantes de como indirectamente, cada variable que define el ICVU, fue capaz de describir la
distribución de las regiones nacionales y como cada una se asemeja entre sí, casi de forma
preestablecida por la localización.
62
.
12 RECOMENDACIONES
63
13 ANEXOS
64
14 BIBLIOGRAFÍA
Construcción, C. C. (05 de Mayo de 2016). Cámara Chilena de la Construcción. Obtenido de

https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-otras-publicaciones/
icvu-2016

https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-icvu/icvu-2017

https://cchc.cl/centro-de-informacion/publicaciones/publicaciones-icvu/icvu-2018

https://www.cchc.cl/centro-de-informacion/publicaciones/publicaciones-icvu/icvu-2019-
resumen-ejecutivo
Granada, U. d. (s.f.). Universidad de Granada. Obtenido de

https://www.ugr.es/~mvargas/2.%20(norte,%202011)RESUMENANLISISCLUSTER.pdf

https://elvex.ugr.es/idbis/dm/slides/42%20Clustering%20-%20Hierarchical.pdf

https://www.ugr.es/~mvargas/2.RESUMENANLISISCLUSTER.pdf
https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).
https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).
Issuu. (17 de Julio de 2014). Issuu. Obtenido de

https://issuu.com/camaraconstruccion/docs/presentaci__n-icvu-2014-final
norte, P. p. (18 de Mayo de 2011). Politicas publicas del norte. Obtenido de

https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/
Online, S. E. (06 de Mayo de 2021). Scientific Electronic Library Online. Obtenido de

http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1665-
53462021000100009&lang=en
Quilmes, U. N. (2005). Universidad Nacional de Quilmes. Obtenido de

http://hm.unq.edu.ar/archivos_hm/GL_ICVU.pdf
Revoledu. (2019). Revoledu. Obtenido de

https://people.revoledu.com/kardi/tutorial/Clustering/Linkages.htm
65
Slideshare. (07 de Mayo de 2012). Slideshare. Obtenido de
https://es.slideshare.net/eleytoni/ranking-de-comunas-icvu-2012
Slideshare. (07 de Mayo de 2013). Slideshare. Obtenido de https://es.slideshare.net/edowoo/icvu-

2013prensa7demayofinal
Ucn, N. (12 de Julio de 2018). Noticias Ucn. Obtenido de

http://www.noticias.ucn.cl/wp-content/uploads/2018/08/Arturo-Orellana-ICVU.pdf
66

Informe Con Formato Revisión 01

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Informe Con Formato Revisión 01

Cargado por

Copyright:

Formatos disponibles

COMPARATIVA DEL ÍNDICE DE CALIDAD DE

VIDA URBANA ENTRE ANTOFAGASTA Y

Jorge Baltra 1 , Jorge Castillo 2 , Francisca Herrera 3

Profesor Guía: Jan Cademartori Dujisin

En el siguiente proyecto, se realizará un estudio sobre la Región de Antofagasta respecto a su

La metodología se basará en el uso de una herramienta estadística, conocida como análisis de

Mediante la síntesis de información proveniente de diferentes fuentes públicas y privadas a lo largo

4.2 Delimitación de la investigación

Este estudio contempla 16 regiones de Chile, las cuales son:

● Región de Arica y Parinacota.

Y se limitará a analizar cada variable, a partir de información del año 2020 .

De acuerdo con lo mencionado anteriormente, se busca entender la relación de Antofagasta como

Algunas variables han sido modificadas y otras agregadas.

Las variables agregadas durante este estudio fueron:

● Porcentaje de participación en el mercado laboral.

4.5.1 Objetivo general

4.5.2 Objetivos específicos

5.1 Estado del arte

Autor Descripción del artículo

Indicadores de calidad Se plantea la necesidad de crear una ruta metodológica para

Indicadores de calidad Surge la pregunta de cómo construir indicadores o cuáles de

Análisis de Se plantea metodológicamente cómo trabajar con Análisis de

5.2 Marco teórico:

Diagrama 1: Modelo conceptual de la OMS.

El análisis de clúster es una técnica de análisis estadístico multivariante correspondiente a los

El análisis establece dichos grupos basándose en la similitud que presenta un conjunto de

El procedimiento de análisis de conglomerados en dos fases, también llamado bietápico, es una

Después de la obtención de los centros de los conglomerados, el procedimiento:

● Asigna casos a los conglomerados basándose en la distancia de los centros de los

5.2.1 Medidas de distancias

6.1 Hipótesis General:

6.2 Diagramas de variables

Nombre Empresas Delitos de Establecimientos Denuncia por

Variable Tasa de Tasa de delitos Tasa Camas Tasa de denuncias por

Descripción Empresas Los delitos de Camas La violencia

Variable Tasa de años de Porcentaje de Tasa de Porcentaje de Hogares

Descripción Tasa de años de Razón entre el n° Porcentaje de Porcentaje hogares donde

Variable Promedio Promedio Tasa de Puntaje PSU promedio en

Descripción Promedio de Promedio de Tasa de

Variable Porcentaje de Porcentaje de Porcentaje que Porcentaje de

Descripción Porcentaje de Son aquellos Razón entre la Expresa el

Variable Porcentaje de Porcentaje de Ingreso Porcentaje de

Descripción Expresa el Porcentaje de El ingreso Muestra el

Variable Población de 5 Tasa de Acceso inadecuado

Descripción Total de individuos Porcentaje de Número total de

7.1 Tipos de Clúster

I) Permite trabajar con variables categóricas y contínuas.

II) Permite definir previamente el número de clústeres a generar.

III) Permite analizar grandes números de datos.

7.2 Distancia Clústeres

7.3 Tipo de Investigación

El presente estudio considera las siguientes variables:

VARIABLE Tasa de Tasa de Tasa Tasa de Promedi Promedio

MEDIA 1274,8 1833,5 152,7 688,5 241 259

MEDIANA 1680,7 2316 248,2 958 243 268

MAX 1096,5 832 52,5 481 233 248

MIN 1306,2 1809 160,1 709,4 240,3 259

VARIABLE Tasa de Puntaje Tasa de Porcentaje Tasa de Porcentaje de

MEDIA 25,2 461,15 77 4% 0,92 5%

MEDIANA 35,1 486,3 78 8% 0,94 9%

MAX 19,3 438,2 76 3% 0,88 3%

MIN 26,1 461,3 77 4% 0,92 5%