Está en la página 1de 31

ANÁLISIS UNIVARIADO, BIVARIADO Y MULTIVARIADO DE LA ENCUESTA DE

CALIDAD DE VIDA DEL DANE – ENCV 2012 EN BOGOTÁ.

POR:
DAVID ANDRÉS BOLAÑOS GARCIA
HANS OLIVER ROJAS VALENCIA

PROBABILIDAD E INFERENCIA BÁSICA

PROFESORA: MARTHA BOHÓRQUEZ

UNIVERSIDAD NACIONAL DE COLOMBIA


BOGOTÁ D.C.
2018-09-05
1. PLANTEAMIENTO DEL PROBLEMA

La calidad de vida y las desigualdades sociales en Bogotá se pueden percibir a


simple vista, en ciertas variables de la población, como su vivienda, el estrato de la
misma o el acceso a servicios sanitarios. No obstante, las apariencias pueden ser
engañosas, haciéndose necesario el estudio de los datos existentes sobre estas
variables en la ciudad. Además, estas no son las únicas variables que pueden incidir
en la calidad de vida y la desigualdad social de una población, también son
importantes el ingreso personal, del hogar y la composición del mismo, entre otras,
que por limitaciones de tiempo y personal no serán incluidas en este ejercicio.

Para poder estudiar con datos fiables estas variables, utilizaremos la base de datos
de la encuesta nacional de calidad de vida – ENCV 2012, realizada por el
Departamento Administrativo Nacional de Estadística - DANE. En esta actividad, nos
basaremos en una muestra de la población de Bogotá, y se compararán diferentes
variables para determinar la relación entre el estrato contra diferentes variables,
además de determinar su relación o la falta de ella en el análisis propuesto. En el
presente trabajo se presentan las gráficas, tablas y el análisis univariado, bivariado y
multivariado realizado. Para el análisis, se tomaron 3 variables categóricas y 3
variables continuas, realizándose análisis continua – continua, continua –categórica
y categórica – categórica.

2. OBJETIVO DEL ANÁLISIS

General: Describir el comportamiento de algunas variables que inciden en la calidad


de vida y las desigualdades sociales existentes en la población de Bogotá, a partir
de una muestra de 1790 viviendas.

Determinar si existen correlaciones o asociaciones entre las variables categóricas:


estrato, servicio de alcantarillado en la vivienda y servicio de recolección de basuras,
para la misma muestra.

Determinar si existen correlaciones o asociaciones entre las variables categóricas y


continuas mencionadas anteriormente.

3. DESCRIPCIÓN DE LOS DATOS

Los datos fueron tomados de la encuesta nacional de calidad de vida – ENCV 2012,
obtenidos en la ciudad de Bogotá a partir de una encuesta realizada a 1789 hogares
(individuos). La Encuesta de Calidad de Vida (ECV) tiene como objetivo la
investigación multidimensional del bienestar de los hogares, su unidad de análisis
son las viviendas, hogares y personas, el marco muestral fue la población urbana de
Bogotá registrada en el Censo general de población y vivienda de 2005. El tipo de
muestreo utilizado por el DANE, para la ENCV-12, fue probabilístico, estratificado,
multietápico y por conglomerados (DANE, 2010, pg. 6), siendo Bogotá una unidad
primaria de muestreo, sus manzanas las unidades secundarias de muestreo, y áreas
de 10 viviendas en promedio, las unidades terciarias de muestreo. El tamaño de
muestra fue de 10% y el error estándar menor a 5% (DANE, 2010, pg. 7).

Se escogieron variables del capítulo servicios del hogar; que indaga por la
conexión a servicios públicos, privados o comunales, del capítulo de trabajo, que
indaga por las fuentes de ingreso del hogar, y del capítulo de vivienda, que indaga
por las condiciones físicas y económicas de la misma. De todas las variables
generadas por el DANE a partir de la ENCV-12, se escogieron para este ejercicio 3
continuas y 3 discretas. Las tres continuas y su codificación son: ingreso por hogar
(IngHogar), ingreso per cápita (IngPCap) y número de hogares por vivienda
(HogaresViv), donde esta última es una variable de intervalo y las otras dos de
razón. Las tres variables discretas y su codificación son: estrato (Estrato), servicio
de alcantarillado en la vivienda (Alcant) y servicio de recolección de basuras
(Recbas), donde la primera es ordinal y tiene siete categorías (estratos E0 a E6) y
las otras dos variables son dicotómicas y tienen dos categorías (Si o No).

4. METODOLOGÍA

Para llevar a cabo los análisis bivariados entre las variables continuas, se utilizaron
diagramas de dispersión, de densidad, tablas de covarianzas y tablas de correlación;
entre las variables categóricas se usaron tablas de contingencia, medidas de
asociación y valores Test; mientras que entre las variables continuas y categóricas
se emplearon diagramas de caja, razones de correlación y valores test.

El tratamiento de los datos y la generación de las gráficas y tablas se realizaron en R


y R Studio, utilizando el comando dev.print(device = xfig), y su migración a formato
Word se realizó a través del paquete Markdown.

Se selecciona el directorio donde está ubicado el archivo en formato .txt, para que r
importe los resultados. La función read.table es la encargada de “llamar” los datos
para que sean adoptados por r. Usando View(), se visualizan los datos importados.
Es una manera de confirmar que la información sea la requerida para la actividad.

En la imagen de abajo, se determinan algunas características básicas de las


variables continuas y discretas, como lo son el promedio (mean()), la mediana
(median()), los valores mínimos y máximos (min() y max(), respectivamente), la
varianza (var()) y la desviación estándar (sd()).
Otra manera de confirmar estas variables es utilizando la función summary(), la cual
me arroja algunas de las características mencionadas arriba, pero con base en las
categorías que les haya asignado, o sobre el conjunto global de datos.

Hay formas de interpretar la información, pero una de las maneras más útiles de ver
la agrupación de los datos es usando la función quantile(). Esta función me permite
agrupar los datos por percentiles, deciles o cuartiles, dependiendo del análisis que
quiera hacer de los datos. A manera de ejemplo, se usó la función de quantile() para
determinar los cuartiles de los datos de ingreso per capita (IngresoPCap),
obteniendo los siguientes resultados:

Después de indagación en los manuales de R disponibles (Paradis 2003, Bouso


Freijo 2013), se encontró que no existe una función en R para sacar la Moda, en
este caso, solo se encontró la función mode=as.numeric(which.max()) para hallarla
en tablas de frecuencias (Bouso Freijo 2013), tal que no era utilizable en este caso
porque halla solamente el valor máximo. Para las medidas de forma de la
distribución se utilizaron en R las funciones skewness() y kurtosis()

La conclusión que se puede sacar sobre la información de arriba, es que el 25% de


los encuestados tiene un ingreso per capita entre cero a 307 917 COP o que el 75%
de los encuestados tiene un ingreso superior a 307 917 COP. Todo depende de la
interpretación que se desee sacar, pero es una forma útil de utilizar la tabla.
Usando la función var() y plasmando más de una categoría, se puede determinar
una matriz de covarianzas. Para efectos de la actividad, es más diciente realizar la
matriz de correlaciones, usando la fórmula cor().

La matriz de correlación, me indica (como su nombre lo dice) la relación entre dos


variables continuas La traza de la matriz tiene valores unitarios, mientras que el
triángulo superior e inferior muestran los valores de correlación entre las variables.
Entre más cercano a 1 o -1, significa que hay correlación entre las variables, pero si
se acerca a cero, quiere decir que no hay relación entre las variables. En este caso,
se puede concluir que el ingreso por hogares (IngHogar) e ingreso per capita tiene
una alta correlación, mientras que los hogares por vivienda (HogaresViv) y el ingreso
per capita, no están relacionados.

Las variables no continuas pueden expresarse de forma gráfica. Esto se hace con la
finalidad de determinar la cantidad de individuos que están en una de las
subcategorías de la variable a analizar. En el caso del ejemplo, se puede determinar
que la mayoría de la población que fue entrevistada en Bogotá (de acuerdo con la
muestra) vive en estratos 2 y 3, mientras que la menor cantidad de la población
entrevistada, vive en estratos altos (estrato 5 y estrato 6). La forma de realizar el
gráfico de barras es utilizando la función barplot().
Otra forma de determinar el comportamiento de los datos, es utilizando el diagrama
de torta. La interpretación del diagrama de torta es similar al diagrama de barras,
solo que se puede determinar el porcentaje de cada una de las variables que se está
interpretando. La función para elaborar un diagrama de torta es pie().

Para las variables continuas, se usa un histograma. El histograma tiene un


comportamiento visual similar al diagrama de barras, solo que agrupa las variables a
analizar en frecuencias, agrupándolas. Esto se realiza con el fin de manejar la
información de mejor manera. La función para elaborar un histograma es hist().

Analizando el gráfico, se determina que tiene una alta asimetría positiva, ya que al
realizar el cálculo, usando la fórmula skewness() nos da un valor de 6.22, además
de observar gráficamente su tendencia asimétrica. Los valores expresados en el
histograma son los esperados, ya que en la sociedad actual, muchas personas
ganas el mínimo o un valor muy cercano, mientras que pocas personas perciben
salarios altos.

Por último, se realiza el diagrama de caja y bigote, utilizando la función boxplot().


Este diagrama nos permite interpretar el comportamiento de las características de
una variable, y nos aporta información útil y completa al momento de realizar un
análisis. Primero que todo, se puede determinar que a medida que el estrato sube, la
mediana se incrementa, al igual que la varianza entre los valores. Esto nos indica
que a medida que sube el estrato, los salarios son más altos y más variables entre
los individuos. Adicional a esto, se pueden observar los datos atípicos entre cada
uno de los estratos. Los de estrato 6 tienden a poseer más datos atípicos, ya que si
el promedio es cercano a los cinco millones de pesos, existen personas con ingresos
de más de quince millones de pesos.

En la gráfica, también se puede determinar la asimetría que existe en el ingreso, y es


más notorio a medida que el estrato aumenta, ya que la caja está inclinada hacia el
lado inferior del bigote.
5. ANÁLISIS DE RESULTADOS

En la figura 1 del anexo, se muestran los diagramas de ponqué de las tres variables
categóricas, donde se puede ver que la mayoría de las viviendas encuestadas
pertenecieron a los estratos 2 y 3, en menor medida al 1 y al 4, y unos pocos a los
estratos 5, 6 y 0, pero este resultado no es diciente por si solo ni permite un análisis
en contexto, tal que se realizó un agrupamiento y re-categorización del estrato,
pasando de 6 subgrupos a 3, quedando los estratos 0,1 & 2 en el grupo “bajo”, el
estrato 3 en el grupo “medio”, y los estratos 4,5 & 6 en la categoría “alto” (ver figura
2). Ello nos permitió identificar que en realidad son las viviendas de estrato “bajo” las
más numerosas, representan cerca de la mitad de la muestra, los “estratos medios”
representaron el 40% y los estratos altos, que son minoría, apenas un 13%.

Además se nota que en la muestra la gran mayoría de hogares tienen servicio de


alcantarillado (99%) y todos el de recolección de basuras (100%), siendo un servicio
de cobertura total (universal) en la ciudad de Bogotá, razón por la cual no se hallaron
relaciones lineales entre estas dos variables y las otras variables escogidas para
realizar el presente análisis. En las figuras 3 y 4 se muestran los histogramas y
diagramas de caja de las variables continuas, donde resalta que los histogramas
presentan una alta curtosis y asimetría y en el caso de los ingresos varios datos se
alejan más allá de 1,5 veces el rango intercuartílico hacia valores altos. Tras una
revisión de los diagramas de dispersión de todas las variables, no se encuentra que
haya relación lineal entre la mayoría de las variables utilizadas, excepto por las dos
variables de ingreso, por hogar y per capita, que muestran tener una relación lineal
positiva, lo que se confirma al examinar su covarianza. La heterogeneidad y la
cantidad de valores atípicos en la variable ingreso de los hogares aumenta en la
medida que aumenta el nivel de estrato de la vivienda.

Para facilidad de visualización, en la siguiente tabla se resumen los análisis


realizados sobre las gráficas y tablas univariadas, bivariadas y multivariadas
realizadas:

Variables Gráfica y/o tabla Comentarios de análisis


analizadas
Estrato Figuras 1, 2 y 4 La media del estrato fue 2,6, lo que significa
Tablas 1.1.-1.4. básicamente que el promedio de la muestra está entre
los estratos 2 y 3, muy cercana se encuentra la
mediana que fue 3, es decir, que la vivienda ubicada
en el percentil 50 de la muestra, pertenece al estrato
3, que la media haya estado por debajo de la mediana,
muestra que la distribución es asimétrica, situación
que se confirma con el coeficiente de asimetría de 5,4
que arrojó la distribución de esta variable, y que
también nos muestra por su valor positivo, que la cola
de distribución se extiende para valores mayores a la
media. El rango intercuartílico de esta variable estuvo
entre 2 y 3, es decir, que un 50% de los individuos de
la muestra, pertenece a dichos estratos, y que las
viviendas de los demás estratos son datos atípicos,
especialmente aquellas que se encuentran cerca a los
estratos límites 1 y 6. Esta heterogeneidad de la
distribución, genera una forma de distribución con
altísimo apuntamiento, visible en un coeficiente de
curtosis de 32,5.
Todo esto nos sugiere una desigualdad social en
cuanto al estrato de la vivienda, donde la mayoría de
la población posee vivienda de estrato 2 o 3 (bajo y
medio-bajo) y muy pocos de 5 y 6 (alto y muy-alto),
como lo confirman la varianza y la desviación estándar
que se acercan al 0.
Ingreso del Hogar Figuras 1 y 4 La media del ingreso de los hogares en Bogotá fue de
Tablas 1.1.-1.4. $ 2’828.488 de pesos en 2012, la mediana fue mucho
más baja, pues el hogar ubicado en el percentil 50 de
la muestra, tuvo como ingreso apenas $1.695.000
pesos, lo que significa que el 50% de la muestra tiene
ingresos menores o igual a ese valor. La distribución
del ingreso también es asimétrica, con un coeficiente
de 10,4 y una cola de distribución que se extiende
para valores mayores a la media. El rango
intercuartílico de esta variable estuvo entre $912.167
pesos y $3.100.667, tal que el 50% de los hogares de
Bogotá recibe ingresos entre esos valores, y que los
demás hogares perciben ingresos atípicos. Esta
desigualdad de la distribución del ingreso de los
hogares en la ciudad, genera una forma de
distribución con altísimo apuntamiento, una curtosis de
190,1.
Todo esto nos sugiere una altísima desigualdad social
en cuanto al ingreso en la ciudad y su concentración
en pocos hogares, con valores atípicos para el resto
de la población.
Ingreso per cápita Figura 1 y 3. La media del ingreso de los hogares en Bogotá fue de
Tablas 1.1.-1.4. $1’044.401 pesos en 2012, la mediana fue mucho
más baja, pues el hogar ubicado en el percentil 50 de
la muestra, tuvo como ingreso apenas $1.695.000
pesos, lo que significa que el 50% de la muestra tiene
ingresos menores o igual a ese valor. La distribución
del ingreso también es asimétrica, con un coeficiente
de 10,4 y una cola de distribución que se extiende
para valores mayores a la media. El rango
intercuartílico de esta variable estuvo entre $912.167
pesos y $3.100.667, tal que el 50% de los hogares de
Bogotá recibe ingresos entre esos valores, y que los
demás hogares perciben ingresos atípicos. Esta
desigualdad de la distribución del ingreso de los
hogares en la ciudad, genera una forma de
distribución con altísimo apuntamiento, una curtosis de
190,1.
Todo esto nos sugiere una altísima desigualdad social
en cuanto al ingreso en la ciudad y su concentración
en pocos hogares, con valores atípicos para el resto
de la población.
Hogares por Figura 1 y 3. La media de hogares por vivienda fue de 1,46 en
Vivienda Tablas 1.1.-1.4.. 2012, la mediana fue de 1 hogar por vivienda, lo que
significa que el 50% de la muestra tiene 1 hogar por
vivienda. La distribución de hogares por vivienda fue
simétrica, con un coeficiente de asimetría de 1,3 y
poco apuntamiento, una curtosis de 1,88. Hubo poca
dispersión de los datos y alta centralidad, visible en
una desviación estándar y una varianza cercanas a 1.
Todo esto nos sugiere que la gran mayoría de los
hogares de la muestra no comparte su vivienda con
otros hogares, que en Bogotá, predomina la vivienda
unifamiliar.
Alcantarillado Figura 1. Dado que casi toda la muestra Si posee alcantarillado,
Tablas 1.1.-1.4. todos los números de tuque dieron 1, excepto el valor
máximo (=2), la dispersión fue muy baja, pues la sd y
la varianza se acercaron al cero(0) y al estar
concentrada casi toda la frecuencia en un solo valor, la
asimetría y la curtosis fueron altísimas.
Recolección de Figura 1. Dado que el 100% de la muestra Si posee servicio de
basura Tablas 1.1.-1.4. recolección de basura, todos los valores de tendencia
central y rango fueron unitarios, la distribución
simétrica, no hubo varianza ni desviación típica (=0), y
al estar concentrada toda la frecuencia en un solo
valor, R no pudo arrojar medidas de forma de la
distribución (NaN).
IngHogar - Figuras 5, 6 y 7 Existe una correlación (relación) positiva entre los dos
IngPCap Tablas 1, 2 y 3. tipos de ingreso, alcanzándose valores relativamente
altos de 0.85, al igual que una muy alta covarianza de
6.99. A esto se suma los resultados de la gráfica de
dispersión para estas dos variables, que muestra una
nube de puntos alargada que van del 1 al 3er
cuadrante, lo que confirma la relación lineal positiva
entre las dos variables. Esto sugiere que el número de
personas por hogar no interfiere de manera importante
la correlación entre las dos variables. Las dos
variables continuas, ingreso por hogar e ingreso per
cápita, ya de por sí tienen una dependencia teórica, en
tanto que el ingreso per cápita se estima a partir de
dividir el ingreso total del hogar por el número de
personas económicamente activas (Población en edad
de trabajar) que lo componen.
IngHogar – Figuras 3, 5, 7 y Los hogares de mayor ingreso tienden a vivir en
HogaresViv 8. vivienda individual, mientras los hogares de ingreso
Tabla 1. bajo tienden a vivir en vivienda compartida.
Al cruzar las variables Ingreso del hogar y Hogares por
vivienda, en un diagrama de caja, se refleja que existe
una cantidad importante y llamativa de valores atípicos
en la variable ingreso del hogar, especialmente para la
subpoblación de 1 solo hogar por vivienda, que es la
que agrupa a aquellos hogares con mayor ingreso, y
cuyo nivel de ingreso les hace atípicos para la
distribución de la variable. También se debe a que la
distribución de la variable ingreso es asimétrica, como
lo refleja su histograma, concentrándose la gran
mayoría de observaciones en el nivel más bajo de
ingreso, cercano a 0, y refleja una fuerte desigualdad y
concentración del ingreso, visible en la distancia de
1’200.000 pesos entre la mediana (Q2) y la Media
aritmética (X’) (figura 1), y que el Quartil 3 (75% de los
hogares consultados en Bogotá) no superan los
3’200.000 pesos de ingreso (figura 1), lo que se refleja
en lo estrecho de los diagramas de cajas y su
ubicación cerca al ingreso 0 (figura 6).
HogaresViv – Figuras 6, 11 y 14 Aunque en las 3 subpoblaciones de estratos alto,
Estrato Tablas 7, 8 y 11 medio y bajo, predominan las viviendas habitadas por
un solo hogar, los perfiles de fila y columna de la TC
entre estas dos variables (figura 9), refleja que las
viviendas de 3 hogares, son todas de bajo estrato, las
viviendas con dos hogares son en su mayoría de bajo
estrato también, y un margen menor de estrato medio,
y que en la totalidad de viviendas de alto estrato, vive
un solo hogar por vivienda.
Ingreso del hogar Figuras 4, 7, 9, 16 Mientras que la distribución de frecuencias de la
– Estrato Tablas 1, 7, 8 variable Ingreso del hogar es asimétrica, la variable
estrato presenta una distribución normal. Es por esta
razón, que los diagramas de caja comparativos entre
los 3 grupos de estrato, no tienen posiciones
diferentes respecto al nivel de ingreso, pues los 3
diagramas se acercan al 0, y los 3 presentan varios
valores atípicos de ingreso, por encima del límite
superior del diagrama. Lo que sí es notorio, es que el
grupo de estratos altos de vivienda, es el que a la vez
concentra más hogares con ingresos cuyos valores
son atípicos, además, presenta mayor volumen de
observaciones cuyo ingreso está por encima de la
media del subgrupo, tal que la mayoría de valores que
están agrupados dentro del rango intercuartilico, están
por encima de la mediana (Cuartil 2) y por eso este
diagrama de caja es más amplio (con un rango
intercuartílico mayor) y con un límite superior más alto.
Si a esto sumamos, el valor de la correlación, es válido
decir que las dos variables se influyen mutuamente.
Ingreso – Figuras 7, 10, 12 El diagrama de caja comparativo entre las variables
Alcantarillado Tablas 1, 5, 6 ingreso y alcantarillado, resulta ser un reflejo de la
distribución de la variable ingreso, debida a la alta
heterogeneidad entre sus valores y gran cantidad de
valores atípicos por encima del límite superior, que
contrasta con la alta homogeneidad de la variable
alcantarillado, cuyos valores se concentran casi que
en su totalidad en el diagrama de caja del grupo que si
cuenta con el servicio, siendo los dos integrantes del
grupo “No”, valores atípicos en si mismos, como lo
muestra al diagrama de caja exclusivo para la variable
alcantarillado.
Continuas - Figuras 7, No existe correlación entre las variables (valores de
RecBas Tablas 1, 4, 12 razones de correlación = 0), ya que para el caso de
Bogotá todos los hogares encuestados tienen servicio
de recolección de basura, sin importar número de
hogares por vivienda o ingresos.
Continuas - Figuras 7, No existe correlación entre las variables (valores de
Alcant Tablas 1, 5, 6, 12, razones de correlación próximos a 0), ya que para el
13 caso de Bogotá la gran mayoría de hogares tienen
acceso al servicio de alcantarillado, sin importar
hogares por vivienda o ingresos. Lo mismo se puede
visualizar en el análisis a través de los valores Test, ya
que no se sobrepasa en valor absoluto a 2.
Continuas - Figuras 1, 2, 4, 7, A través de razones de correlación se muestra que
Estrato 16 y 18 existe una leve relación entre el estrato y los ingresos.
Tablas 1, 7, 8 A través del análisis con valores Test, se ve que en los
estratos alto y bajo hay mayor correlación entre estas
variables (valores test mayores a 2 en valor absoluto),
mientras que en el estrato medio la correlación no es
tan marcada. En el estrato alto hay una importante
correlación con el ingreso (mayor ingreso que el
promedio) y es notoria la correlación con el número
de hogares por vivienda (menor número de hogares
que el promedio). En el estrato bajo se nota lo mismo
pero en sentido contrario (menor ingreso que el
promedio y mayor número de hogares por vivienda
que el promedio).
Estrato - Figuras 1, 12 En la tabla de contingencia y en las figuras fila y
Alcantarillado Tablas 1, 9, 12, 13 columna, se puede ver que el 100% de quienes no
tienen alcantarillado (2 hogares) pertenecen al estrato
bajo y dentro de los encuestados que tienen
alcantarillado, la mayoría pertenece a los estratos
bajo, medio y por último a los de alto. Mediante el
índice de asociación (valor cercano a 0), se nota que
existe una baja asociación entre el estrato y la
tenencia del servicio de alcantarillado, ya que
prácticamente todos los hogares encuestados tiene
dicho servicio excepto 2 del estrato bajo. Lo mismo se
puede observar mediante los valores Test, ya que
fueron inferiores en valor absoluto a 2.
Estrato – Figuras 1, 7, 13 Dados los resultados, donde el 100% de la muestra de
Recolección de Tablas 1, 10, 12 Bogotá de la ENCV-12, posee cobertura en servicio de
basura recolección de basuras, no es posible hallar relación
lineal alguna entre esta variable y la de estrato, ya que
todas las viviendas sin importar su estrato Si cuentan
con el servicio. Por ello, los perfiles de columna/fila de
la tabla de contingencia entre estas dos variables,
refleja tal cual la contribución de las 3 categorías de
estrato, a la muestra seleccionada para la encuesta
por el DANE.
Hogares por Figura 7, 10, 11 Al revisar el gráfico de caja y bigotes del ingreso per
vivienda – Ingreso Tabla 1 capita, se evidencia que la mayoría de la población
Per Capita tiene ganancias bajas, en caso de convertir la variable
continua en ordinal.
Respecto al diagrama de perfiles de fila y columna,
entre las ganancias per capita y los hogares por
vivienda, se determina que los hogares donde hay una
vivienda (denominada normal) tiene un
comportamiento similar al del ingreso per capita,
como es de esperar; los hogares donde hay dos y tres
viviendas tienden a tener ingresos bajos, y su
distribución es más homogénea hacia la parte inferior
del gráfico.
Hogar vivienda – Figura 7, 12 Al revisar los perfiles de fila x columna entre las
Alcantarillado Tabla 1, 13 variables, se puede inferir que son básicamente la
misma variable respecto a la variable de
alcantarillado. En la tabla de contingencia se evidencia
mejor la distribución, ya que solo dos de los hogares
no tienen alcantarillado, por lo que su tendencia es
cero. Se deduce que no hay relación entre el
alcantarillado respecto a los hogares por vivienda,
según los porcentajes de la frecuencia.
Alcantarillado – Figuras 1, 6 , 7 Al usar la variable de recolección de basura, no se
Recolección de (esquina inferior podrá determinar si existe alguna relación entre la
basura derecha) otra variable a comparar, ya que al tener todos los
Tabla 1 valores afirmativos, no habrá ningún tipo de relación
entre si tiene servicio de alcantarillado y si se recoleta
la basura. La única conclusión es que la recolección de
basuras se realiza para todas las personas (las que
tienen servicio de alcantarillado y las que no tienen)
Ingreso hogar - . Figura 6 y 7 Al igual que lo expresado en la casilla de arriba, no
Recolección de (esquina inferior existe ninguna relación entre el ingreso por hogar y el
basura derecha) servicio de recolección de basuras, es decir, sin
Tabla 1 importar el ingreso por persona, se tendrá el servicio
de recolección de basura.
Ingreso per capita Figura 7 y 13 Como es de esperarse, entre más algo es el estrato,
- Estrato Tabla 1 mayor es el ingreso per capita de cada individuo.
Adicional a esto, se puede determinar que a mayor
estrato, hay mayor diferencia intercuartil. Se puede
determinar y ver la gran diferencia entre los ingresos
de una persona de estrato bajo a una persona de
estrato alto.
6. CONCLUSIONES

Se comprueba que existe una alta relación lineal entre el ingreso del hogar y el
ingreso per cápita, debido en parte a que el ingreso per cápita se estima a partir de
dividir el ingreso total del hogar por el número de personas en edad de trabajar que
lo componen (DANE, 2012). Además, existen casos donde en el hogar solo hay una
sola persona en edad de trabajar, tal que el valor de sus ingresos per cápita será
exactamente igual al del ingreso del hogar, de ahí que el comportamiento de ambas
variables sea muy similar. Todo esto nos sugiere una concentración de los ingresos
de la población de la ciudad en pocos hogares privilegiados, con valores que son
atípicos para el resto de la población. Sin embargo, no existe crisis de hacinamiento
habitacional en la ciudad, pues la gran mayoría de los hogares de la muestra no
comparte su vivienda con otros hogares, tal que en Bogotá, predomina la vivienda
unifamiliar.

A grandes rasgos, se confirma la relación lineal positiva entre los ingresos per cápita
y la pertenencia en un estrato, salvo excepciones evidenciadas por cada estrato
tratado de manera individual. Igual situación pasa entre las variables ingreso del
hogar y estrato, entre más altos son los valores de la primera variable, más alto será
el estrato en la 2da. Aunque está relación se desdibuja un poco en los diagramas de
dispersión debido al agrupamiento de la variable estrato en 6 o 3 grupos, y por los
valores atípicos en el ingreso, los diagramas de cajas permiten ver está relación con
más claridad. En el contexto, esto implica que a mayores ingresos del hogar o de
sus integrantes en edad de trabajar, estos podrán acceder a viviendas de mayor
estrato. Esta situación repercute en una desigualdad social en cuanto al estrato de la
vivienda, donde la mayoría de la población posee vivienda de estrato 2 o 3 (bajo y
medio-bajo) y muy pocos de 5 y 6 (alto y muy-alto), como lo confirman la varianza y
la desviación estándar que se acercan al 0.

Se halló también que prácticamente todas las viviendas de Bogotá, cuentan con
servicio de alcantarillado y recolección de basuras, sin importar el estrato, los
ingresos del hogar o el número de hogares que convivan en una misma vivienda.
Por lo cual, se puede deducir que estos servicios públicos de carácter sanitario son
prestados por la ciudad, sin atender a la condición socioeconómica de los hogares y
viviendas.

7. REFERENCIAS BIBLIOGRÁFICAS.

- Bouso Freijo (2013). El paquete estadístico R. CIS. Madrid. 248 págs.


- DANE (2012). Encuesta Nacional de Calidad de Vida - ENCV 2012. Bogotá:
DIMPE, DANE. 423 págs.
-
- Peña, D. ( ). Fundamentos de estadística.

- Pardo, C. (2018). Estadística descriptiva multivariada, notas de clase. En


revisión. 225 págs.

- Paradis, E. (2003). R para principiantes. 61 págs. Barcelona.

8. ANEXO.

Estrato HogaresViv IngHogar IngPCap Alcant RecBas


Min. :0.000 Min. :1.000 Min. : 0 Min. : 0 Min. :1.000 Min. :1
1st Qu.:2.000 1st Qu.:1.000 1st Qu.: 912167 1st Qu.: 307917 1st Qu.:1.000 1st Qu.:1
Median :3.000 Median :1.000 Median : 1695000 Median : 543542 Median :1.000 Median :1
Mean :2.669 Mean :1.046 Mean : 2828488 Mean : 1044401 Mean :1.001 Mean :1
3rd Qu.:3.000 3rd Qu.:1.000 3rd Qu.: 3100667 3rd Qu.: 1050000 3rd Qu.:1.000 3rd Qu.:1
Max. :6.000 Max. :3.000 Max. :111250000 Max. :27812500 Max. :2.000 Max. :1
Tabla 1: Los 5 números de Tuque (medidas de centralidad y de rango de
distribución) de las variables utilizadas.

Estrato HogaresViv IngHogar IngPCap Alcant RecBas


Sd 0.232005 1006717 4652747 1776422 0.0334263 0
Varianza 0.05382633 1,013479 2,1648E+13 3,156E+18 0,001117318 0
Tabla 1.1.: Medidas de variabilidad de la distribución de las variables.

Estrato HogaresViv IngHogar IngPCap Alcant RecBas


Skewness 5,487395 1,035318 10,45113 6,219712 29,83298 NaN
Kurtosis 32,55747 1,88331 190,1847 57,65202 888,5036 NaN
Tabla 1.2.: Medidas de forma de la distribución de las variables.

Estrato HogaresViv IngHogar IngPCap Alcant


Estrato 1,00000000 -0.09306569 0.40277132 0.45889877 -0.03886103
HogaresViv -0.09306569 1,00000000 -0.05014222 -0.02140532 -0.00661120
IngHogar 0.40277132 -0.05014222 1,00000000 0.84658742 -0.01014116
IngPCap 0.45889877 -0.02140532 0.84658742 1,00000000 -0.01389184
Alcant -0.03886103 -0.00661120 -0.01014116 -0.01389184 1,00000000
Tabla 1.3. Matriz de correlaciones entre las variables.

Estrato HogaresViv IngHogar IngPCap Alcant


Estrato 1.013479e+00 -2.173674e-02 1.886580e+06 8.206737e+05 -1.307706e-03
HogaresViv -2.173674e-02 5.382633e-02 -5.412655e+04 -8.821967e+03 -5.127032e-05
IngHogar 1.886580e+06 -5.412655e+04 2.164805e+13 6.997251e+12 -1.577195e+03
IngPCap 8.206737e+05 -8.821967e+03 6.997251e+12 3.155677e+12 -.248870e+02
Alcant -1.307706e-03 -5.127032e-05 -1.577195e+03 -8.248870e+02 1.117318e-03
Tabla 1.4.: Matriz de varianzas y covarianzas entre las variables.

Figura 1. Diagramas de ponqué de las tres variables categóricas (superior izquierda


estrato, superior derecha acceso a alcantarillado e inferior izquierda recolección de
basuras).
Figura 2. Diagrama de ponqué recategorizados los estratos (bajo: E0, E1 y E2;
medio: E3; alto: E4, E5 y E6).
Figura 3. Histogramas del ingreso per cápita y número de hogares por vivienda
Figura 4. Histogramas del estrato de la vivienda y el ingreso del hogar
Figura 5. Diagramas de caja de las variables continuas.

8.1. Análisis de dos variables continúas


Figura 6. Diagramas de dispersión, de densidades kernell univaluadas y bivariadas
de las variables IngHogar – IngPCap.
Figura 7: Diagramas de dispersión de todas las variables utilizadas.
Tabla 2. Matriz de varianzas y covarianzas. Variables IngHogar – IngPCap.
IngHogar IngPCap
IngHogar 2.16 6.99
IngPCap 6.99 3.15

Tabla 3. Matriz de correlaciones. Variables IngHogar – IngPCap.


IngHogar IngPCap
IngHogar 1.00 0.85
IngPCap 0.85 1.00

8.2. Análisis de una variable continúa y una cualitativa por diagramas de


caja.

Figura 8. Diagrama de caja para IngHogar vs HogaresViv.


Figura 9. Diagrama de caja para Ingreso del hogar vs Estrato.

Figura 10. Diagrama de caja para Ingreso del hogar vs Alcantarillado


Figura 11. Diagrama de caja para estrato de la vivienda vs hogares por vivienda

Tabla 4. Razones de correlación entre las variables continuas y RecBas (%).

HogaresViv IngHogar IngPCap


0.00 0.00 0.00

Tabla 5. Razones de correlación entre las variables continuas y Alcant (%).


HogaresViv IngHogar IngPCap
0.00 0.01 0.02

Tabla 6. Valores Test entre las variables continuas y Alcant.


Categoria Alcant Test.Value Class.Mean Frequency Global.Mean
HogaresViv No -0.280 1.0 2 1.0
IngHogar No -0.429 1418475.0 2 2828487.8
IngPCap No -0.587 306952.0 2 1044400.9
IngPCap1 Si 0.587 1045226.3 1787 1044400.9
IngHogar1 Si 0.429 2830065.8 1787 2828487.8
HogaresViv1 Si 0.280 1.0 1787 1.0

Tabla 7. Razones de correlación entre las variables continuas y Estrato (%).


HogaresViv IngHogar IngPCap
0.45 14.64 18.40
Tabla 8. Valores Test entre las variables continuas y Estrato.
Categoria Estrato Test.Value Class.Mean Frequency Global.Mean
IngPCap Alto 17.504 2944210.4 233 1044400.9
IngHogar Alto 15.737 7301944.5 233 2828487.8
HogaresViv Alto -2.628 1.0 233 1.0
HogaresViv1 Bajo 1.977 1.1 836 1.0
IngHogar1 Bajo -9.200 1747946.4 836 2828487.8
IngPCap1 Bajo -10.780 561008.7 836 1044400.9
HogaresViv2 Medio -0.208 1.0 720 1.0
IngPCap2 Medio -1.046 990873.6 720 1044400.9
IngHogar2 Medio -1.440 2635456.1 720 2828487.8

8.3. Análisis de dos cualitativas por tablas de contingencia.

Tabla 9. Tabla de contingencia para las variables Estrato y Alcant.


Estrato Alcant
Frecuencia Porcentaje
No Si totF No Si totF
Alto 0 233 233 0.0 13.0 13.0
Bajo 2 834 836 0.1 46.6 46.7
Medio 0 720 720 0.0 40.2 40.2
totC 2 1787 1789 0.1 99.9 100.0
Figura 12. Perfiles fila y columna de la TC de las variables Estrato y Alcant.

Tabla 10. Tabla de contingencia para las variables Estrato y Recolección de


basura

Estrato Recolección de basura


Frecuencia Porcentaje
No Si totF No Si totF
Alto 0 233 233 0.0 13.0 13.0
Bajo 0 836 836 0.0 46.8 46.8
Medio 0 720 720 0.0 40.2 40.2
totC 0 1789 1789 0.0 100.0 100.0
Figura 13. Perfiles fila y columna de la TC de las variables Estrato y Recolección
de basura.

Tabla 11. Tabla de contingencia para las variables Estrato y Hogares por vivienda

Estrato Hogares por vivienda


Frecuencia Porcentaje (%)
1 2 3 totF 1 2 3 totF
Bajo 1485 62 9 1556 333.7 13.9 2.0 349.7
Medio 132 2 0 134 29.7 0.4 0.0 30.1
Alto 99 0 0 99 22.2 0.0 0.0 22.2
totC 1716 64 9 1789 385.6 14.4 2.0 402.0
Figura 14. Perfiles fila y columna de la TC de las variables Estrato y hogares por
vivienda

Tabla 12. Estadísticas X2 entre Estrato y Alcant.


Variable 2 dfr pval Tval 2
Estrato 2.3 2 0.319 0.469 0.001

Tabla 12. Ordenamiento por valores Test entre el estrato, Alcant y RecBas.
Categoria Estrato Test.Value p.Value Class.Cat Cat.Class Global Weight
Alcant.Si Alto 0.310 0.756 13.0 100.0 99.9 1787
RecBas.Si Alto 0.000 1.000 13.0 100.0 100.0 1789
Alcant.No Alto -0.310 0.756 0.0 0.0 0.1 2
Alcant.No1 Bajo 1.231 0.218 100.0 0.2 0.1 2
RecBas.Si1 Bajo 0.000 1.000 46.7 100.0 100.0 1789
Alcant.Si1 Bajo -1.231 0.218 46.7 99.8 99.9 1787
Alcant.Si2 Medio 0.921 0.357 40.3 100.0 99.9 1787
RecBas.Si2 Medio 0.000 1.000 40.2 100.0 100.0 1789
Alcant.No2 Medio -0.921 0.357 0.0 0.0 0.1 2

Tabla 13. TC de Alcant por Estrato y tablas de perfiles fila y columna.


TC
Alcant Alto Bajo Medio marR
No 0 2 0 2
Si 233 834 720 1787
marC 233 836 720 1789
Frecuencias relativas en porcentaje
Alcant Alto Bajo Medio marR
No 0.0 0.1 0.0 0.1
Si 13.0 46.6 40.2 99.9
marC 13.0 46.7 40.2 100.0
Perfiles Fila
Alcant Alto Bajo Medio
No 0.0 100.0 0.0 100.0
Si 13.0 46.7 40.3 100.0
marg 13.0 46.7 40.2 100.0
Perfiles Columna
Alcant Alto Bajo Medio marg
No 0.0 0.2 0.0 0.1
Si 100.0 99.8 100.0 99.9
100.0 100.0 100.0 100.0

Figura 15. Distribución de hogares por vivienda respecto a los ingresos per cápita

Figura 16. Perfiles fila y columna del estrato respecto a los ingresos del hogar
recategorizados.
Figura 17. Perfiles fila y columna de los hogares por vivienda respecto al
alcantarillado (gráficas en color negro) y perfiles fila y columna del alcantarillado
respecto a los hogares por vivienda (gráficas en color rojo)

TABLA DE CONTINGENCIA FRECUENCIAS RELATIVAS EN


PORCENTAJE
NO SI TOTAL NO SI TOTAL
Normal 2 1714 1716 0 96% 96%
Semipoblado 0 64 64 0 4% 4%
Poblado 0 9 0 0 1% 1%
Total 2 1787 1789 0 100% 100%
Tabla 14. Tabla de contingencia de las variables alcantarillado y hogares por
vivienda.

Figura 18. Diagrama de caja y bigotes de los estratos (Sin categorizar) respecto al
ingreso per capita.