Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Profesores Correctores:
Fecha:
1
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: Jorge.baltra.carrasco@ua.cl.
2
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: Jorge.castillo.quiroga@ua.cl.
3
Departamento de Ingeniería Comercial, Facultad de Ingeniería, Universidad de Antofagasta, Campus Coloso, Avda.
Universidad de Antofagasta s/n, Email: Francisca.herrera.cortes@ua.cl.
1
1 AGRADECIMIENTOS
Jorge Baltra
Jorge Castillo
Francisca Herrera
2
2 RESUMEN
Se definirá lo que significa la Calidad de Vida Urbana, las condiciones que conllevan este índice y
además cada una de sus variables.
Con la información adquirida, se creará una base de datos en el programa SPSS para la aplicación
de análisis de clúster y con los resultados se generará una perspectiva neutra para categorizar a
cada región del país en conglomerados y tener una visión más certera sobre la realidad nacional
con respecto a la calidad de vida.
3
1. ÍNDICE
1 AGRADECIMIENTOS 2
2 RESUMEN 3
1. ÍNDICE 4
3 INTRODUCCIÓN 6
4 PLANTEAMIENTO DEL PROBLEMA 7
4.1 PROBLEMÁTICA 7
4.2 DELIMITACIÓN DE LA INVESTIGACIÓN 8
4.3 JUSTIFICACIÓN 8
4.4 LIMITACIONES 9
4.5 OBJETIVOS 10
4.5.1 Objetivo general 10
4.5.2 Objetivos específicos 10
5 FUNDAMENTACIÓN TEÓRICA 11
5.1 ESTADO DEL ARTE 11
5.2 MARCO TEÓRICO: 12
5.2.1 Medidas de distancias 16
6 HIPOTESIS Y VARIABLES 18
6.1 HIPÓTESIS GENERAL: 18
6.2 DIAGRAMAS DE VARIABLES 18
6.3 DEFINICIÓN OPERACIONAL DE VARIABLES 20
7 METODOLOGÍA 27
7.1 TIPOS DE CLÚSTER 27
7.2 DISTANCIA CLÚSTERES 28
7.3 TIPO DE INVESTIGACIÓN 28
7.4 POBLACIÓN Y MUESTRA 29
8 RECOLECCIÓN DE LA INFORMACIÓN 34
8.1 FUENTES DE INFORMACIÓN. 34
9 RESULTADOS 38
9.1 ANÁLISIS DE CONGLOMERADOS JERÁRQUICO: 41
9.2 DISTRIBUCIÓN DE CLÚSTER 49
9.2.1 Predictores: 54
10 DISCUSIÓN DE RESULTADOS 60
11 CONCLUSIONES 61
12 RECOMENDACIONES 63
4
13 ANEXOS 64
14 BIBLIOGRAFÍA 65
3 INTRODUCCIÓN
5
En el presente proyecto se investigará la situación vivida en Antofagasta durante el año 2020
respecto a la calidad de vida urbana. Muy frecuentemente se considera que Antofagasta es una
región que debiese contar con una buena calidad de vida, teniendo en cuenta que es de las
regiones que más aporta al PIB nacional.
Considerando la información en escala monetaria, puede que esto sea así, ya que es una de las
regiones más ricas del país, pero se debe recordar que en la vida no todo es dinero y que el dinero
no siempre es sinónimo de felicidad.
El indicador de Calidad de Vida Urbana (ICVU) es un estudio que realiza todos los años la
Universidad Católica a través del Instituto de Estudios Urbanos, en conjunto con la Cámara Chilena
de la Construcción, trabajo que busca medir de forma objetiva las condiciones de vida de la
población.
Si bien este estudio no es una medición oficial por parte de algún Órgano de la Administración del
Estado, sus resultados se han convertido en una referencia para saber y comparar el estado de la
calidad de vida que ofrecen las regiones de Chile.
6
4 PLANTEAMIENTO DEL PROBLEMA
4.1 Problemática
En el tiempo Chile ha avanzado en economía, mayoritariamente, gracias al potencial del sector
minero, lo que ha provocado un avance notorio del desarrollo como país. Debido a esto es que las
regiones que tienen mayor influencia en el PIB nacional son en su mayoría pertenecientes al sector
norte del país, donde la Región de Antofagasta se posiciona como una de las con mayor aporte al
PIB chileno. Teniendo en cuenta ese factor, se podría traducir que la Región de Antofagasta podría
ser considerada como un lugar con una alta calidad de vida, pero tomando en cuenta diversos
indicadores que se consideran dentro del Índice de Calidad de Vida Urbana debemos tener en
cuenta que para determinar si una zona particular posee una buena calidad de vida, existen
diversos factores, que se determinan mediante variables.
El índice de Calidad de Vida Urbana (ICVU), se viene realizando desde el año 2011 en donde a
partir de 36 variables, se construyeron en 6 dimensiones distintos factores relacionados con la
calidad de vida:
• Condición Laboral (CL), referidas a variables que midan las facilidades de acceso al
mercado laboral, ingresos, capacitaciones, desarrollo profesional y protección social de
los residentes.
• Ambiente de Negocios (AN), referidas a variables económicas manifiestas que
permitan corroborar que la ciudad y/o comuna es un medio urbano favorable para la
generación de inversiones privadas y/o emprendimientos por cuenta propia.
• Condiciones Socio Culturales (CS), referido a la medición de variables relativas al nivel
de participación de la población en organizaciones sociales, así como a los niveles de
seguridad y educación que afectan la formación de capital social.
• Conectividad y Movilidad (CM), referido a la medición de variables relacionadas con las
condiciones de la infraestructura de conectividad, movilidad y seguridad vial de la
población residente.
• Salud y Medio Ambiente (SM), referido a la medición de condiciones de salud de la
población en relación con enfermedades que presentan una mayor correlación con las
condiciones ambientales y su medio antrópico.
• Vivienda y Entorno (VE), referido a variables que dan cuenta de la calidad de la
vivienda, nivel de hacinamiento e inversión en el espacio público cercano para sus
residentes.
Mediante estas dimensiones, es que se puede elaborar un Índice multidimensional que permite
comparar en términos relativos la calidad de vida que tiene cada comuna, o ciudad que está
constituida por más de una comuna, permitiendo focalizar donde se encuentran los déficits y así
dar orientaciones a la acción pública y privada en el territorio para ser mejor ciudad.
El problema de la investigación previa, realizada por la PUC, es que existen muchas variables que
carecen de accesos a la información en la cual se basan, por lo que genera un desconcierto para
quien quisiera indagar más sobre este tópico de gran interés, entonces es menester el generar
estudios, donde la información tenga mayor accesibilidad para el público.
Otro factor que se puede considerar algo confuso, es que se trabaja mediante la opinión de
expertos para la elaboración del indicador, pero en ningún momento se comenta el sistema a
7
utilizar a la hora de calcular cada valor, entonces se optó en este trabajo para crear una variación
del sistema utilizado por la PUC y enfocarse más en generar una base de datos, que sintetiza cada
dimensión del ICVU, pero que estandarice las variables y las compare mediante un análisis de
clúster.
La investigación del ICVU de la PUC fue realizada durante el año 2020, en la ciudad de Santiago.
Mientras que el presente informe fue realizado en la región de Antofagasta, desde octubre del año
2021 hasta inicios de enero de 2022.
4.3 Justificación
Si bien estudios como el ICVU son de gran utilidad para entender la realidad nacional, como es
mencionado anteriormente, es de vital importancia poseer estudios donde exista acceso a
información comprometida con estos, y mejor aún actualizada.
8
Para saber realmente cómo se comporta la Región de Antofagasta, respecto a las demás regiones,
teniendo en cuenta variables consideradas que tienen influencia en el ICVU de cada región.
Bajo esta imagen se ve en duda si realmente esta información es actual, o si variables que afectan
positivamente la situación de la región son parte de este índice. Dado lo anterior, se decide usar
fuentes de acceso público, para así entregar información franca y transparente.
¿Qué dimensión afecta a cada región en el índice como tal?, ¿Que se debe considerar para
Con esta investigación, se busca tener una razón de cómo la Región de Antofagasta se asemeja a
otras regiones del país, teniendo en cuenta las influencias de cada variable recogida del ICVU.
¿Qué área influye más dentro de este índice?, ¿Que no se debe considerar y que sí en este
índice?, entre otras preguntas como esas se ve envuelta esta investigación.
4.4 Limitaciones
Una limitación para el desarrollo fue, como para todos, la llegada del COVID-19, pandemia que
afectó directamente a la presencialidad de muchos tipos de mediciones, sobre todo en el ámbito de
educación. Ejemplo claro de lo anterior son las pruebas SIMCE, que estos últimos años no se
pudieron aplicar, por ende, no se dispone con la información del año 2020.
También existían problemas con diferentes medios oficiales, ya que algunos servidores contaban
con problemas que afectan negativamente el acceso a las fuentes de información, por lo que
algunas variables tuvieron que ser eliminadas o simplemente ser reemplazadas por otras, ya que
siempre existía el riesgo de que el sitio donde se encuentra la fuente apareciese como sin acceso
que simplemente la página había dejado de existir.
9
Además, al ser un estudio que considera cada región nacional, se encontró investigaciones
publicadas que poseían enfoques en ciertas zonas del país, que simplemente ignoraban otras
regiones, o que por ejemplo mencionan las variables de diez regiones solamente y al buscar la
información faltante en otros medios, ésta simplemente no existía.
Dentro del estudio previo también se modificó variables, la variable metro de áreas verdes con
mantenimiento por habitante se reemplazó por superficie total en metros cuadrados de parques
urbanos, la cantidad de camas en hospitales y clínicas cada 1000 habitantes se cambió por Tasa
de establecimientos del SNSS y el gasto total municipal por habitante en la comuna por el gasto
cada 100.000 habitantes en peso chileno.
4.5 Objetivos
10
b) Proponer nuevas variables para un nuevo ICVU que cumplan con el acceso público a los
datos.
c) Comparar el ICVU de las Regiones de Chile utilizando un Análisis de Clúster jerárquico y
bietápico.
5 Fundamentación teórica
Índice de calidad de vida Según la composición del ICVU, se puede entender que, debido al
urbana, Orellana (2012) fenómeno multidimensional de la realidad urbana, existen
diferencias en los estándares para la medición de la calidad de
vida a nivel nacional. Estos estándares regionales son esenciales
para generar una comprensión general sobre la realidad de cada
región en torno a las dimensiones señaladas en este estudio.
11
Integración urbana y Se explora la relación entre la calidad de vida urbana e índices de
calidad de vida: Integración urbana a partir del Sistema de Indicadores y
disyuntivas en contextos Estándares de Desarrollo Urbano (SIEDU).
metropolitanos, Vicuña
(2019)
La calidad de vida en
espacios urbanos, Se busca establecer planteamientos para la calidad de vida
Gonzalez (2018) experimentada según habitantes en un espacio determinado
teniendo en cuenta dos elementos básicos: Salud o condiciones
objetivas en que viven las personas y la percepción, satisfacción o
evaluación subjetiva de las personas acerca de su situación.
En estas investigaciones se usa una metodología de trabajo para realizar estudios en vistas de
desarrollar y poder tener una buena aplicación del ICVU, revisando distintos indicadores nacionales
e internacionales que se consideran para medir la calidad de vida. De esta manera optan a
construir el indicador con variables objetivas (datos cuantitativos) registradas y actualizadas cada
cierto tiempo por fuentes institucionales públicas y privadas, de un carácter confiable. Esta
información se usará como guía para poder desarrollar el estudio y entenderlo de una manera
similar a cómo se ha planteado anteriormente.
La utilización del concepto de Calidad de Vida (CV) puede remontarse a los Estados Unidos
después de la Segunda Guerra Mundial, como una tentativa de los investigadores de la época de
conocer la percepción de las personas acerca de si tenían una buena vida o si se sentían
financieramente seguras (Campbell, 1981; Meeberg, 1993).
El hecho que desde sus inicios haya estado vinculado a otras variables psicológicas que involucran
en sí mismas el concepto de bienestar ha posibilitado que a la fecha, muchos investigadores no
diferencien claramente en sus estudios cada concepto o lo utilicen de manera distinta.
12
El concepto de Calidad de Vida actualmente incorpora tres ramas de las ciencias: economía,
medicina y ciencias sociales. Cada una de estas disciplinas ha promovido el desarrollo de un punto
de vista diferente respecto a cómo debiera ser conceptualizada la CV (Cummins, 2004)
La metodología más apropiada a utilizar será el Indicador Calidad De Vida Urbana (ICVU)
(Orellana; Bannen; Fuentes; Gilabert y Pape). Donde se analizarán 6 ámbitos como componentes
de un ICVU, bajo condiciones objetivas y comparables:
1. Condición laboral.
2. Ambiente de negocios.
3. Condiciones socioculturales.
4. Conectividad y movilidad.
5. Salud y medio ambiente.
6. Vivienda y entorno.
13
Dado a la diferencia de población que hay entre regiones se toma como muestra datos
proporcionales.
Finalmente se trabajará mediante el uso del software SPSS para la tabulación de datos, los que
posteriormente serán comparados mediante la realización de un Análisis de Clúster (También
llamado análisis de conglomerados), para establecer una relación entre la calidad de vida urbana
del resto del país y la Región de Antofagasta.
Esto se considera de gran utilidad cuando no existe supuesto previo acerca de cuántos clústeres
existirán dentro de un conjunto y nos proveen de información acerca de las distintas asociaciones y
posibles patrones que puedan haber dentro de una base de datos.
Existen distintos tipos de clústeres, pero para este estudio se utilizarán los siguientes: El clúster
jerárquico que corresponde a un algoritmo que agrupa los datos, basados en la distancia entre
cada uno e identificando cuáles datos dentro del clúster son más similares entre sí. Y el clúster
bietápico, que es utilizado para determinar una cantidad óptima de subgrupos. A diferencia del
clúster jerárquico se puede trabajar con un número predeterminado de clústeres, utilizando
variables categóricas y continuas de forma simultánea.
14
plantea todas las posibles combinaciones de observaciones para el número de grupos que se esté
considerando en cada etapa concreta. Este método, propuesto por Ward en 1963 es uno de los
más utilizados en la práctica; posee casi todas las ventajas del método de la media, y suele ser
más discriminativo en la determinación de los niveles de agrupación. Este método, además, es
capaz de encontrar mejor una clasificación óptima en comparación con otros métodos.
Ward propuso que la pérdida de información que se produce al integrar los distintos individuos en
clústeres puede medirse a base de la suma total de los cuadrados de las desviaciones entre cada
punto (individuo) y la media del clúster en el que se integra. Para que el proceso de “clusterización”
resultará óptimo, en el sentido de que los grupos formados no distorsionen los datos originales,
proponía la siguiente estrategia: en cada paso del análisis, considerar la posibilidad de la unión de
cada par de grupos y optar por la fusión de aquellos dos grupos que menos incrementa en la suma
de los cuadrados de las desviaciones al unirse. La ventaja del método de Ward es que no deja
ningún tipo de “cabos sueltos”. No quedan formados grupos que tengan uno o muy pocos
elementos. Todos los datos se agrupan en clústeres que tienen varios elementos. Así, las
principales ventajas del método de Ward son: la formación de clústeres más compactos y de
similar tamaño y la minimización de la pérdida de información en el proceso de organización de los
conglomerados. La medida de similitud a base de la cual se formaron los grupos fue la distancia,
esto es, las distintas medidas entre los puntos del espacio definido por los individuos. La distancia
euclídea al cuadrado es la medida utilizada para la formación de conglomerados en este trabajo y
se expresa: distancia euclídea al cuadrado d(i, j) 2 = ∑ k (xik − xjk) 2 . Se observa que la distancia
euclídea al cuadrado entre dos individuos se define como la suma de los cuadrados de las
diferencias de todas las coordenadas de los dos puntos. Para la determinación de los grupos se
hace uso del gráfico denominado dendograma, que puede emplearse para evaluar la cohesión de
los conglomerados que se han formado y proporcionar información sobre el número adecuado de
conglomerados que deben conservarse. El tipo de variable utilizada en este trabajo es métrica y es
la participación de cada sector económico, a nivel provincial en la demanda de créditos bancarios.
El software utilizado para realizar los conglomerados y el resto del análisis fue el SPSS
15
crear modelos de conglomerados con variables tanto categóricas como continuas y la opción de
trabajar con archivos de datos de gran tamaño.
El análisis cluster de K-medias es una herramienta diseñada para asignar casos a un número fijo
de grupos (clusters o conglomerados) cuyas características no se conocen aún pero que se basan
en un conjunto de variables especificadas. Es muy útil cuando queremos clasificar un gran número
(miles) de casos.
El procedimiento del análisis cluster de K-medias empieza con la construcción de unos centros de
conglomerados iniciales. Podemos asignar estos nosotros mismos o tener un procedimiento de
selección de observaciones bien situadas para los centros de conglomerados.
Estos pasos se repiten hasta que cualquier reasignamiento de los casos haga que los
conglomerados sean internamente más variables o externamente similares .
A partir de la matriz de datos X de orden Nxp se construye la matriz S de distancias de orden NxN,
donde cada coeficiente de S, sij representa el valor de un coeficiente de disimilitud para los casos i
y j, que mide el grado de disimilitud/distancia de los individuos. Esta matriz será simétrica, dado
que sij = sji Estas matrices pueden variar considerablemente para los mismos datos según la
medida de disimilitud/distancia usada y según haya o no transformado o estandarizado las
variables originales. R proporciona varias medidas de distancia. Una de las más usadas es la
euclídea (la raíz cuadrada de la suma de cuadrados de las diferencias) . Vea ayuda para la función
dist en R ("euclidean", "maximum", "manhattan", "canberra", "binary" o "minkowski"). La función
16
daisy en el package cluster permite usar métricas euclídea, manhattan o distancia de Gower, esta
función es útil cuando las variables usadas no son numéricas (nominales, binarias, ordinales o
incluso combinaciones de ellas). Para más información use ayuda de R. Variables cuantitativas: La
medida más importante es la distancia euclídea y derivaciones de ella mediante ponderaciones.
Sean X1, X2, ..., Xp las variables observadas. Notamos con Xij valor observado en el caso i-ésimo
en la variable j-ésima. Dados dos casos i e i’, se definen las siguientes medidas de proximidad: •
Distancia euclídea: Es la raíz cuadrada de la suma de los cuadrados de las diferencias entre los
valores de los elementos. Ésta es la medida por defecto que suele usarse para datos de intervalo.
∑= −= p j ii jiij xxd 1 2 ' ' ( ) Depende de la escala de medida. Sus valores no están acotados.
Variables binarias (presencia/ausencia de atributo): Existe una gran diversidad de medidas.
Basadas en si están o no presentes las modalidades de las variables binarias. Departamento de
Estadística e Investigación Operativa 4 Supongamos que la tabla siguiente resume la información
para un par de casos i e i’. Cada caso vendrá dado por una p-upla de unos y ceros, donde: 1 indica
la presencia y 0 la ausencia de cierto atributo. Caso i 1 0 1 a b Caso i’ 0 c d a = total de atributos
presentes en el caso i y en el caso i’ d = total de atributos ausentes en ambos casos b = total de
atributos ausentes en i y presentes en i’ c = total de atributos ausentes en i’ y presentes en i
Distancia euclídea: cbdii' += Es sencillamente la distancia euclídea para el caso particular en que
las variables toman sólo los valores 1 y 0. Dependiendo de las características de los datos, unos
coeficientes serán más o menos apropiados que otros. Se puede llegar a designar a dos casos
como iguales o distintos, dependiendo de la medida usada. Entre los de uso más frecuente destaca
el coeficiente de concordancia simple. Unas veces será importante considerar el recuento de
ausencias y otras no. En algunos análisis, tan importante es considerar la concordancia de
presencias como de ausencias. Es preciso advertir que si se realizan varios análisis con medidas
diferentes y los resultados del agrupamiento son similares, esto no garantiza siempre que se haya
encontrado la verdadera estructura de los datos, dado que muchos de los coeficientes
especificados están relacionados entre sí y, en consecuencia, la concordancia de resultados puede
responder, en muchos casos, a las relaciones existentes entre las medidas de similaridad usadas,
más que al carácter de la estructura del agrupamiento. R permite efectuar un análisis clúster
jerárquico usando como entrada una matriz de datos o la de distancias. Esta opción es interesante
porque a veces no se dispone de los datos originales o, bien, porque se desea manipular
previamente la matriz de distancias.
17
6 HIPOTESIS Y VARIABLES
18
19
20
6.3 Definición operacional de variables
21
Nombre Año de vida Hacinamiento Atención Adscripción sistema de salud
Operacional potencial perdido médica
dormitorios.
L: Edad límite
superior
Personas
atendidas últimos
i: Edad de muerte 3 meses/Total
población que
di: Número de presentó
defunciones a la problemas de
salud en el mismo
edad i
periodo
22
Nombre Simce Simce Fecundidad PSU Colegios Municipales
Operacional Lenguaje Matemáticas Adolescente
x1,x2..xn=
Promedio
personal por x1,x2..xn=
estudiante Promedio
personal por
N: Total de estudiante Puntaje promedio PSU de
estudiantes Matemáticas, Historia, Ciencias
N: Total de e Historia por región en
estudiantes establecimientos municipales
23
Nombre Hogar y Medio Asistencia Mercado Laboral Hogar y
Operacional Ambiente Educacional Seguridad
24
Nombre Hogar y Trato Hogar y Ingreso del Hogar y
Operacional social Participación Hogar Accesibilidad
Social
25
26
Nombre
Operacional Utilización de Mujeres en el Acceso Inadecuado
Internet Trabajo Agua Potable
27
7 Metodología
Antes de realizar el análisis de clúster respectivo a cada variable del estudio, primero se consideró
de gran importancia el realizar una estandarización de cada una de ellas. Ya que, gracias a esta
herramienta, se puede comparar datos de distribuciones distintas o que posean diferentes
unidades de medida.
Por lo que, al generar la distribución normalizada, se genera una media aritmética igual a 0 y una
desviación estándar de 1 a lo largo de todas las variables estandarizadas.
Dentro de la clusterización esta herramienta es usada muy comúnmente, ya que se trabaja con
grandes cantidades de información y que muchas veces, no está toda en unidades similares.
Variables de investigación
En esta investigación existen variables como el ingreso, que se expresa en miles o millones de
pesos, mientras que otras como la participación femenina en el trabajo está determinada en
porcentaje. Por lo que a la hora de comparar un ingreso de por ejemplo 2 millones de pesos vs un
46% de participación femenina en el trabajo en la región de Arica, puede llevar a diferencias muy
grandes que a la hora de clusterizar, pueden llevar a generar números tan elevados que requieran
notación científica, por ende para que este proceso sea más simple de comprender para el lector,
se optó por estandarizar, trabajar con variables bajo una distribución normalizada y de esta forma a
su vez disminuir el reescalado dentro del clúster jerárquico.
La decisión de considerar un clúster jerárquico por sobre otros, se debe principalmente a que es
mucho más fácil de implementar y además sus resultados poseen una mayor simplicidad a la hora
de interpretarlos, el dendrograma es una herramienta de gran utilidad para el investigador a la hora
de explicar conglomerados, debido a que es capaz de reescalar la distancia entre variables, para
de tal forma generar un gráfico compacto que resume toda la información proveniente del análisis
de clúster.
28
En el caso del clúster bietápico, que también es conocido como Two-step clúster debido a su título
en inglés. Se priorizó debido a que es bastante único, además tiene tres características
diferenciadoras a considerar con el resto de los métodos.
Durante esta investigación se consideró de gran utilidad el two-step clúster, principalmente ya que
posee además a los 3 puntos previos, una tabla de centroides que indica la media y desviación
estándar por variable en cada clúster, por lo tanto, es una herramienta que permite realizar un
análisis más específico de alguna información que es omitida durante el clúster jerárquico.
Sobre otras formas de establecer distancias en este tipo de estudios, existen otras medidas de
disimilitud como la distancia basada en la correlación, pero este tipo de proceso es más enfocado
al estudio en el área de la genética, por lo que se priorizó trabajar con distancia euclidiana por los
motivos previamente señalados.
● El presente estudio corresponde a una investigación histórica, debido a que se trabaja con
datos provenientes de un año anterior, donde se describe cómo era el contexto nacional en
aquel momento.
29
7.4 Población Y Muestra
● Al trabajar con variables, las cuales se miden tienen distintas escalas de medida y además
poseen valores numéricos muy distintos entre sí, se optó por estandarizar la información,
ya que de no hacerlo esto podría llevar a resultados muy alejados de la realidad.
30
porcentaj municipales to (2020) Salud
e
MAX 1% 1% 48% 1% 8% 3%
31
VARIABLE Ingreso Porcentaje Gasto Puntaje Superfici Tasa
monetari de hogares cada PSU igual o e total Mortalidad
o del carentes en 100.000 superior a m2 Infantil
hogar accesibilida habitantes 450 puntos parques
promedio d en $ en urbanos
establecimi
entos
municipales
194,9463
MEDIA 792118 0,0655 22211067,3 39,8827365 46 132,8
11323,30
MEDIANA 1204524 0,11 54142336,4 51,1085714 34 306
5,667010
MAX 634603 0,018 14769797,9 31,3 78 7,2
983,1948
MIN 865536 0,0615 393353760 40,2498061 52 137,25
32
VARIABLE Tasa de Tasa de Tasa de Tasa de Població Tasa de
participac ocupación siniestros fallecidos n de 5 participación
ión (Mayores de de tránsito cada años o femenina en
laboral 15 años) cada 100000 más que el trabajo
(Mayores 100000 habitantes utiliza
de 15 habitantes internet 1
años) vez a la
semana
al menos
33
VARIABLE Acceso
inadecua
do a
agua
potable o
no
cuentan
con
conexión
a
alcantarill
ado
MEDIA 8%
MEDIANA 18%
MAX 3%
MIN 9%
8 RECOLECCIÓN DE LA INFORMACIÓN
34
Ministerio de Educación, Superintendencia de Bancos e Instituciones Financieras de Chile,
Observatorio de ciudades, sumados a los estudios realizados por el Programa de las Naciones
Unidas para el Desarrollo durante los años 2019 y 2020 entre otros.
A continuación, se indicará la fuente en específico de la cual provino cada variable dentro del
estudio:
35
Variable Tasa de años de Porcentaje de Tasa de atención Porcentaje de
vida potenciales Carencia de médica Últimos 3 Hogares
perdidos hacinamiento meses (2020) carentes en
adscripción al
sistema de
Salud
36
Variable Porcentaje de Porcentaje de Ingreso Porcentaje de
hogares hogares monetario del hogares
carentes de carentes de hogar promedio carentes en
trato social apoyo y accesibilidad
participación
social
Fuente Casen (2020) SINIM (2019) INE (2020) INE (2020) INE (2020)
37
Fuente Minsal (2020) Minsal (2020) Minsal (2020)
La información adquirida mediante estas fuentes se utilizó para sintetizar una base de datos propia,
que fuese capaz de incluir información de las siguientes variables a lo largo de cada región del
territorio nacional:
Cada una de estas variables fueron utilizadas para el año 2020 generando finalmente la base de
datos que fue utilizada a lo largo de la investigación.
9 Resultados
La información se organizó primero por archivos separados, los cuales contienen la información
proveniente de las diferentes fuentes utilizadas para su adquisición.
Inicialmente se comenzó con una base del formato final, el cual consistía en un documento Excel
con una columna mencionando todas las regiones a nivel nacional, el cual fue siendo modificado
hasta generar una base de datos, ya que la información nueva era ingresada en forma de
columnas hacia la derecha del documento original.
Región
Arica Y Parinacota
Tarapacá
Antofagasta
Atacama
Coquimbo
Valparaíso
38
Región Metropolitana
O'higgins
Maule
Ñuble
Biobío
Araucanía
Los Ríos
Los Lagos
Aysén
Magallanes
Cada variable poseía una columna propia, en la cual la información se transformaba a tasas cada
100.000 habitantes o en un promedio general por región, para evitar trabajar con números
demasiado grandes mientras se digitaba la información.
Tarapacá 1499.9
Antofagasta 1451.4
Atacama 1276.2
39
Coquimbo 1290.2
Valparaíso 1300.1
O'higgins 1096.5
Maule 1204.9
Ñuble 1186.6
Biobío 1324.6
Araucanía 1134.9
Aysén 1456.0
Magallanes 1238.2
Mediante este formato se diseñó la siguiente base de datos que se presentará a continuación y la
cual conforma la estructura a gran escala previo al uso del análisis de clúster
Una vez generada esta base de datos, con diferentes variables correspondientes a cada una de las
dimensiones que considera el ICVU, la información se traspasó a un software llamado IBM SPSS,
para la realización del análisis de clúster.
40
Los datos fueron estandarizados a un valor Z previamente a la realización del análisis de clúster,
ya que al trabajar con diversos tipos de variables y escalas es necesario encontrar una medida de
poder comparar y trabajar con cada variable.
La estandarización de los datos permite comparar las distintas medidas que se encuentran en este
análisis y fueron clave para generar una base de datos en el software SPSS. Ya que por ejemplo
en caso de no estandarizar, variables como el ingreso (Que se mide en millones de pesos) vs una
41
tasa que va simplemente en valores de alrededor de 1.1 a 1.9 generarían grandes diferencias, ya
que la variable ingreso al estar en una escala mayor tendría una mayor influencia sobre el
resultado final, por lo que el transformar datos a escalas comparables evita que ocurran estos
problemas y son importantes previo a realizar un análisis de clúster.
Una vez realizado este proceso, se procedió a trabajar mediante el uso de un análisis de clúster
jerárquico
Para la realización de este tipo de análisis estadístico, primero se comienza con la creación
automática mediante el software de los distintos conglomerados, dependiendo del grado de
similitud entre cada caso dentro del estudio:
La tabla 2 nos indica el número y porcentaje de casos con valores perdidos dentro de alguna de las
variables que se incluyeron a lo largo del análisis, sumado al tamaño total de la muestra. Como se
puede apreciar existen 16 casos válidos en el estudio, que corresponden a las 16 regiones de
Chile, al haber 0 casos perdidos, esto indica que los datos dentro del estudio fueron correctamente
ingresados y procesados dentro de SPSS y el total N, representa la suma entre casos válidos más
perdidos.
La información que aparece posterior a aquella tabla corresponde a la medida que fue utilizada
para obtener la matriz de distancia, que será explicada posteriormente. En este caso la medida a
utilizar fue la distancia euclídea al cuadrado.
42
Primera aparición del clúster de
Clúster combinado etapa
Etap Clúster Clúster Etapa
a 1 2 Coeficientes Clúster 1 Clúster 2 siguiente
1 8 9 4.142 0 0 8
2 6 11 10.802 0 0 7
3 10 13 20.104 0 0 4
4 10 14 32.332 3 0 5
5 10 12 45.719 4 0 8
6 15 16 61.708 0 0 14
7 5 6 79.074 0 2 11
8 8 10 97.520 1 5 12
9 2 3 116.986 0 0 10
10 2 4 146.431 9 0 13
11 1 5 178.066 0 7 12
12 1 8 214.512 11 8 15
13 2 7 271.515 10 0 14
14 2 15 338.449 13 6 15
15 1 2 465.000 12 14 0
Tabla 3: Historial del proceso de conglomeración
La columna llamada clúster combinado representa que clústeres fueron combinados dentro de
cada una de las etapas, por ejemplo, la etapa 1 de este caso, representa la combinación del clúster
8 con el clúster 9, la etapa 2 la combinación del clúster 6 con el 11 y así sucesivamente.
43
Tabla 4: Distribución de clústeres
Dentro de la tabla 5 se puede observar la manera en la que fueron distribuidas las 16 regiones
nacionales a lo largo de los distintos clústeres formados.
Podemos apreciar que el clúster número 1 se compone de las regiones de Arica Y Parinacota,
Coquimbo, Valparaíso y la región del Bío Bío.
El 4to clúster está compuesto por la región de O’higgins, El Maule, Ñuble, Araucanía, Los Ríos y
Los Lagos.
44
Finalmente, el último Clúster se compone de las regiones del sur de Chile, Magallanes y Aysén.
Ilustración 1: Dendrograma
Se debe considerar que las distancias para este caso son re-escaladas, para facilitar la visión del
investigador, ya que al ser valores muy distantes dependiendo del estudio, es mucho más fácil de
apreciar y entender un gráfico en la cual, por ejemplo, si la distancia mayor corresponde a 2000 y
la menor a 0.005, reescalarlas para que el mayor sea equivalente a 25 y el menor a 0, como en el
caso de este estudio.
45
Además, cabe destacar que si bien, a simple vista no se aprecian las 15 etapas que son
mencionadas en la tabla 3, esto corresponde a una falsa impresión que genera el re-escalado
mencionado previamente, ya que, si pudiésemos apreciar este mismo Dendrograma con un mayor
acercamiento a zonas específicas de este, se podría apreciar mejor que cada una de estas etapas
si están presentes, pero son difíciles de apreciar mediante este método gráfico.
Considerando las distancias que aparecen en la tabla 3, la distancia máxima (465) correspondería
a 25 dentro del Dendrograma y la distancia 4.1 correspondería al mínimo.
Cuando se crean las fusiones dentro del Dendrograma, se debe considerar que las fusiones que se
realizan en el extremo izquierda del mismo corresponden a fusiones dentro de conglomerados más
homogéneos, mientras que las fusiones realizadas al extremo derecho representan lo contrario,
conglomerados mucho más heterogéneos.
Al considerar grupos por homogeneidad, se estima que la cantidad óptima de clústeres que pueden
ser recreados a nivel nacional corresponden a 5, los cuales se distribuyen de la siguiente forma:
(El número designado a cada conglomerado es el mismo generado por el software SPSS al realizar
el análisis)
Esta proximidad se mide en forma de matriz, la cual se generó utilizando una distancia euclediana,
calculando la distancia entre cada objeto mediante el uso de la siguiente fórmula:
46
Se debe siempre registrar lo similares o disimilares que es cada variable entre sí, dependiendo de
cómo haya sido su representación dentro del espacio de variables del estudio.
En este caso se considera que cada región corresponde a un vector dentro del espacio de
variables, por lo que mediante la siguiente matriz se puede representar la distancia entre cada una
de ellas, que es menester dentro de todo estudio mediante el método jerárquico.
47
Tabla : Matriz de proximidades
48
Mediante el uso de la matriz previamente señalada, la distancia entre todas las regiones del país
que fueron parte de este estudio, además un detalle a observar es que como la distancia es
simétrica (La distancia entre A y B es igual a la distancia entre B y A), la matriz se puede decir que
posee dos zonas, las que están sobre la diagonal igual a 0 (Ya que esta línea representa la
distancia entre un objeto y si mismo), y la zona bajo la diagonal.
Análisis bietápico:
Durante el inicio del análisis de clúster bietápico se puede apreciar que el modelo posee una
medida de cohesión aceptada para el estudio, ya que se encuentra en zona regular, en caso de
que el estudio arrojara un valor inferior y se encontrase en la zona mala, se debería reconsiderar la
estructura del estudio, modificar variables o utilizar otro número de clústeres dentro del mismo .
La cohesión se refiere a que tan similares o que tan cerca están las variables en cada cluster y
separación se refiere a que tan separado está un cluster de otro, es decir que tan distintos son.
49
Si la cohesión fuese menor a 0 el cluster estaría erróneo, pero en este caso es alrededor de 0.4 por
lo que es aceptable.
2 6 37.5% 33.3%
3 2 12.5% 11.1%
4 4 25.0% 22.2%
5 1 6.3% 5.6%
Total 18 100.0%
Con la siguiente tabla de distribución de clúster se puede observar el % que cada clúster
representa del total de variables, en este análisis bietápico nuevamente la región metropolitana fue
ubicada en un clúster externo al resto de regiones (Clúster 5).
50
Gráfico representativo de la dimensión de cada clúster, además del cociente de tamaño entre el
más pequeño con el más grande
51
Número de clústeres Criterio bayesiano de Schwarz (BIC)
1 630.266
2 731.947
3 893.636
4 1067.996
5 1243.117
Como se aprecia en el siguiente gráfico, El BIC nos enseña que nuestro cálculo inicial que
representaba el número de clústeres como 5 es acertado, ya que el valor BIC tiende al alza al
aumentar el número de clústeres, aunque esto se traduce en Aumentar el número de parámetros
dentro del modelo.
52
Centroides:
Son utilizados para determinar la media y desviación estándar de cada variable dentro del estudio, pero en este caso específicamente su
valor dentro de cada clúster. Estas cifras son de gran utilidad para generar un análisis más específico, ya que el análisis de clúster
jerárquico no nos permite acceder a dicha información.
53
9.2.1 Predictores:
Los predictores son valores de las variables que se miden de 0 a 1, los cuales indican cuánto contribuyó cada una al proceso de
clusterización. En la siguiente tabla se presenta la importancia de cada variable de este estudio al realizar la clusterización bietápica.
54
55
56
57
58
59
10 Discusión de resultados
De acuerdo con cómo fue agrupada cada región del país, surgieron diversas ideas sobre el
resultado final de esta investigación.
Primero se debe considerar que solo se utilizaron variables que miden aspectos sociales
mayoritariamente, pero que de cierto modo cada clúster creado agrupó regiones por Zona. Por
ejemplo, el clúster 2 agrupó a regiones de la zona norte, el clúster 4 a regiones de la zona centro
sur y el clúster 5 a regiones de la zona sur. Posiblemente la calidad de vida se ve afectada
indirectamente por los diferentes climas que existen a lo largo de Chile, considerando el estudio
¨High Mortality Days During The Winter Season¨ comparing meteorological conditions across 5 us
cities¨, realizado por Michael J. Allen y Scott C. Sheridan, las temperaturas bajas afectan
negativamente la calidad de vida del ser humano y factores como por ejemplo la tasa de mortalidad
aumenta en regiones de climas fríos.
Otro factor que llama la atención es que las regiones que componen cada clúster son de tamaños
similares, en términos de superficie.
Además de los factores previamente señalados, muchas de las regiones que son parte de los
clústeres generados dependen principalmente de sectores comerciales similares, como en el caso
del clúster 2 que son regiones mineras, o las regiones del clúster 5 que son regiones asociadas al
sector forestal.
También llama la atención el hecho de que ambos clústeres, jerárquico y bietápico, agruparon de la
misma manera las variables y llegaron a valores en común.
Finalmente, los resultados obtenidos son aceptables para este estudio, en términos de cohesión y
distancia como fue expresado dentro del análisis del modelo bietápico.
Sobre este tipo de estudios, si bien el ICVU es un indicador bastante bueno y es realizado
periódicamente, no existen muchas fuentes de información con respecto al tema y en el caso de
nuestro estudio, la aplicación del análisis de clúster contribuye nuevas perspectivas para analizar la
calidad de vida en Chile.
60
11 CONCLUSIONES
La calidad de vida, al ser representada mediante el ICVU, nos entrega una visión acerca del estado
en que se encuentra cada región del país y el bienestar de sus habitantes. Un factor que
generalmente se considera necesario para el Desarrollo de la calidad de vida, es el que un territorio
sea próspero y esté rodeado de oportunidades para quien sea parte de él.
Pero si bien, el ICVU considera distintas dimensiones y realiza un ranking de regiones, el Sistema
utilizado al no ser definido dentro del estudio, no permite comprender mediante qué criterios se
realiza la clasificación, ni tampoco el procesamiento de datos, que llevan a obtener una imagen
general del país, que a la larga genera confusión.
Gracias al análisis de clúster, se puede obtener una visión general de cada variable perteneciente
a las diferentes dimensiones, que luego de ser realizado definió a Antofagasta, como una región
que forma parte de un clúster compartido junto a Tarapacá y Atacama.
Inicialmente la hipótesis buscaba encontrar cierta similitud, entre el aporte al PIB nacional realizado
por Antofagasta, y que esto lograse vincularla, considerando estándares de calidad de vida, con
otras regiones prósperas del país, como por ejemplo la región Metropolitana, Valparaíso o la región
del Bío Bío.
Pero en la práctica, el análisis de clúster optó por asociarla a regiones mineras (Tarapacá y
Atacama) y las regiones mencionadas previamente resultaron formar parte del clúster 1, que está
conformado por las regiones de Arica y Parinacota, Coquimbo, Valparaíso y la región del Bío-Bío.
Mientras que la región Metropolitana, fue definida en un clúster único, ya que no posee otras
regiones que se le asemejen a lo largo del país.
Una posible explicación de este fenómeno es que la calidad de vida se ve afectada por la ubicación
geográfica de la zona en estudio, o que la administración gubernamental de cada región en
específico se ve influenciada por su vecino más cercano, sumado a que muchas de las regiones
que fueron categorizadas como parte de un clúster poseen economías basadas en recursos
similares, como lo es la minería en el clúster 2, del cual forma parte la región de Antofagasta.
Esta situación llama bastante la atención, ya que, en aspectos generales, mediante el análisis
jerárquico, prácticamente Chile se vio descrito en cada clúster según Zona, cada clúster contenía
regiones de zonas similares, pero al usar un Sistema de procesamiento de datos como la
61
clusterización, la cual está basada en datos que no entregan información alguna sobre la geografía
y la distribución de cada región a lo largo de Chile, es algo que llama bastante la atención.
Para futuras investigaciones este factor puede ser de gran interés, ya que si bien aclara cómo se
encuentra Antofagasta con respecto a otras regiones del país, a su vez genera muchas
interrogantes de como indirectamente, cada variable que define el ICVU, fue capaz de describir la
distribución de las regiones nacionales y como cada una se asemeja entre sí, casi de forma
preestablecida por la localización.
62
.
12 RECOMENDACIONES
63
13 ANEXOS
64
14 BIBLIOGRAFÍA
https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).
https://www.politicaspublicasdelnorte.cl/informe-calidad-de-vida-urbana-2011-icvu/. (s.f.).
65
Slideshare. (07 de Mayo de 2012). Slideshare. Obtenido de
https://es.slideshare.net/eleytoni/ranking-de-comunas-icvu-2012
66