Está en la página 1de 24

TALLER 1

CONTENIDO
Parte 1: Calidad del dato.............................................................................................................2
Parte 2: Memorando....................................................................................................................4
Memorando...................................................................................................................................4
Anexos..........................................................................................................................................7
Parte 3: Probabilidades...............................................................................................................14

PARTE 1: CALIDAD DEL DATO


Verificada la página web del Departamento Administrativo Nacional de Estadística (DANE),
consultamos los datos respectivos a la Encuesta de Cultura Política 2019. Esta encuesta aborda las
percepciones que tienen los ciudadanos sobre la temática de la política. Dicha encuesta se encuentra
dividida en 7 capítulos. Con el fin de llevar a cabo el análisis de los datos, se escogió el capítulo
“Características Generales”, cuyo objetivo específico es “conocer las características básicas de los
encuestados para obtener perfiles socio-demográficos, con el propósito de relacionar esta
información con el resto de variables de la investigación”.
El primer paso para realizar el análisis fue descargar el archivo de Excel del capítulo y guardarlo en
el disco “C” del equipo, en formato csv. Una vez descargado, se procedió a abrir el archivo en
Excel, para tener una vista general de la base. A modo de resumen, encontramos 18 variables y
60.576 observaciones. Por otro lado, consultamos el directorio de las variables y los datos.
Después, desde el programa STATA, importamos el archivo de Excel, con el formato de primera
fila como el nombre de las variables. Una vez importado el archivo, abrimos el ed con el fin de
saber si los datos se habían importado correctamente. Encontramos que, 14 de las 18 variables
estaban nombradas con un formato que no hacía fácil su comprensión. Por esto procedimos a
consultar el diccionario de los datos en la página web del DANE, donde se encuentra el label de
cada variable, la pregunta que se le formuló a los entrevistados y las posibles respuestas junto con
sus etiquetas. A partir de lo anterior, renombramos las variables con el comando rename. En cuanto
a las etiquetas, solo se encontraba una variable en la que se necesitaba renombrar las etiquetas, la
P220, correspondiente al sexo. Al consultar en el diccionario de la base de datos del DANE,
encontramos que 1 correspondía a hombre y 2 a mujer, por lo tanto, definimos las etiquetas de esa
manera. Los comandos que se usaron para estas etiquetas fueron:
label define sexoind 1 “hombre” 2 “mujer”
label values SEXO sexoind
Sin embargo, nos encontramos con que, al importar el archivo de Excel a STATA, 8 variables no se
importaron como texto en números, por lo cual figuraban en rojo y no en azul. Decidimos cambiar
esto, antes de seguir con el análisis dado que podríamos incurrir en errores si le solicitáramos a
STATA realizar acciones con estas variables. Para realizar este cambio, era necesario crear nuevas
variables, y mediante un comando, indicarle al programa que copiara la información de la variable
original (Var1) a esta nueva variable (Var2), pero almacenándola como texto en números. El código
que usamos fue encode Var1, generate Var2. Con esto, de ahora en adelante usaríamos las Var2
para llevar a cabo el análisis. Este proceso fue necesario para las variables P5465, P6050, P605,
P6160, P8586, P6210, P6210S1 y P6945:
encode IDENTIDADCULTURAL, generate (IDENTIDADCULTURALNUM)
encode GRADOPARENTAL, generate (GRADOPARENTALNUM)
encode ESTADOCIVIL, generate (ESTADOCIVILNUM)
encode LEERECRIBIR, generate (LEERECRIBIRNUM)
encode ESTUDIANTE, generate (ESTUDIANTENUM)
encode ULTIMONIVELED, generate (ULTIMONIVELEDnum)
encode ULTIMOGRADO, generate (ULTIMOGRADOnum)
encode RELIGION, generate (RELIGIONnum)
El siguiente paso que se realizó fue revisar si al importar la base del Excel, por error se habían
importado más columnas o filas de las que se encontraban en la base, es decir filas o columnas en
blanco. Una vez más se procedió a abrir el ed y se corroboró que no se habían importado filas o
columnas en blanco.
Después, se revisó si había duplicados en la base. Primero, se encontró que había dos variables que
podían contener la misma información “edad” y “fecha de nacimiento”. Sin embargo, es importante
aclarar que, aunque con la fecha de nacimiento se pueda saber la edad, no es lo mismo hacer un
análisis con estas dos variables. Por ejemplo, con la fecha de nacimiento se puede hacer un análisis
por fechas de nacimiento, o meses, o años, mientras que con la edad no. Además, la edad es un
número aproximado de los años que tiene una persona, pero con la fecha de nacimiento se puede
saber la fecha exacta, es decir, no se aproxima a la edad cumplida como se hace con el número de
años. Por lo tanto, se concluyó que entre estas dos variables no se presentaba un duplicado, razón
por la cual se dejaron ambas.
Finalmente, se llevó a cabo el paso relacionado con las celdas en blanco. Al abrir una vez más el ed
se cayó en cuenta de un gran número de espacios en blanco para ciertos individuos y ciertas
variables. Para entender si había alguna razón para que estos espacios se encontraran en blanco, una
vez más se recurrió al diccionario de la base de datos del DANE. Al revisar, se concluyó que había
una lógica detrás de estos espacios en blanco. Por ejemplo, para la variable P6008, que corresponde
al número de personas en el hogar, se encontró que sólo se tomó una respuesta por hogar,
seguramente la del jefe de hogar, es decir, esos espacios en blanco no corresponden al número 0,
sino que, por el contrario, esa información solo se le otorga a una persona por hogar, posiblemente
para evitar sobreconteo. En este caso, por ejemplo, no se podrían llenar los espacios con el número
0 ni eliminar las filas, dado que estaríamos dejando entonces sólo a una persona por cada hogar
encuestado, es decir, estaríamos eliminando información de los hogares y solo dejando información
individual de los jefes de hogar, llevando a un posible sesgo en la encuesta.
En las otras variables que se encontraron espacios en blanco, se concluyó que todos estos espacios
hacían referencia a un individuo menor de edad, conclusión a la que se llegó gracias a la existencia
de la variable edad. Al investigar por qué razón no se le aplicaron estas variables, o preguntas, a los
menores de edad, se encontró que la Encuesta de Cultura Política sólo se le realiza a mayores de
edad1, por lo cual esto podría ser una explicación para la cual se estuvieran omitiendo ciertas
preguntas a los menores de edad. Sin embargo, se concluyó que estos individuos no se eliminarían
de la base, dado que el capítulo escogido hace referencia a las características de los hogares a los
cuales se les aplica la Encuesta, y si se procediera a eliminar estos individuos, la información de los
hogares quedaría incompleta.
En conclusión, se decidió tratar los espacios en blanco como “missing values” y no eliminar ni las
variables ni los individuos que presentaran estos espacios. De todos modos, STATA toma estos
valores como “missing values” y no los usa para computar estadísticas de cada variable. En ningún
momento se consideró rellenar estos “missing values” con la media o mediana de cada variable,
dado que, como se explicó antes, los “missing values” correspondían a una población en especial
(menores de edad) y había una razón metodológica detrás de esta exclusión.

1
Documento de descripción de la Encuesta de Cultura Política EPC - DANE 24 de marzo de 2020 pág 5
“UNIVERSO Está compuesto por la población civil no institucional, de 18 años y más, residente habitual de
los hogares en todo el territorio nacional”
Análisis de la variable P5785
La variable escogida para este análisis es la P5785 que hace referencia a la pregunta ¿Cuántos años
cumplidos tiene <...>?. Este variable es numérica continua. Cabe aclarar que la pregunta fue
realizada a todas las personas del hogar.
Ahora bien, para analizar la calidad de la variable, primero, el criterio integridad se refiere a la
corrección y la completitud de los datos. En cuanto al primer aspecto, la corrección, la información
publicada en la base de datos debe indicar las correcciones, la fecha de corrección y las causas del
error. Al analizar la variable, en la información publicada por el DANE no se indican correcciones
respecto a la variable. Y, respecto al segundo elemento, completitud, es el grado en el que los datos
asociados con una entidad tienen valores asociados para todos los atributos esperados (DANE,
2017). En esta variable, se encuentran valores para todos los individuos, en un rango de 0 a 104.
La oportunidad describe al tiempo que transcurre entre la ocurrencia del fenómeno del estudio y la
publicación de la información estadística, garantizando la actualización de los datos (DANE, 2017).
Teniendo en cuenta que la recolección de datos se realizó entre el 01 de abril y el 30 de mayo de
2019, la publicación de los datos procesados en la página web de la entidad se efectuó el 6 de
noviembre de 2019, tenemos que la información cumple con el criterio de oportunidad.
El criterio consistencia se refiere a que la información publicada debe ser consistente con anteriores
conjuntos de datos que se hayan publicado (DANE, 2017). Para analizar este criterio se recurrió a
las Encuestas de Cultura Política de años anteriores, y se encontró que esta pregunta se viene
realizando desde el 2010, cuando empezó la Encuesta. Sin embargo, se halló que esta pregunta, en
un comienzo, por ejemplo, en la Encuesta 2011, solo se aplicaba si el encuestado no declaraba la
fecha de nacimiento. A diferencia de la realizada para el 2019, donde está pregunta se les realizó a
todos los individuos, sin importar si declaraban fecha de nacimiento o no. Esto significa que la
consistencia a la hora de realizar la pregunta relacionada con la variable no ha sido la misma
durante los años. Sin embargo, la variable si ha sido consistente a lo largo de los años, es decir
siempre se ha usado la unidad de años en esta variable.
La exactitud de una variable se refiere al grado en que los resultados de la operación estadística se
aproximan y describen correctamente las cantidades o características que se quieren medir (DANE,
2017). Es decir, las estadísticas estiman correctamente la realidad que intentan medir. Para concluir
si esta variable contiene el criterio de exactitud, se analizó el rango de esta, que va desde los cero
años hasta 104, que a primera vista sería coherente con la realidad. Además, se hizo una
comparación con la variable “fecha de nacimiento” con algunos individuos, para corroborar que la
fecha correspondiera a la edad reportada, y se encontró que la información corresponde. Por lo
tanto, se concluye que la variable cuenta con exactitud.

PARTE 2: MEMORANDO
PARA: ALEJANDRO GÓMEZ LOPEZ
Secretario de Salud de Bogotá

DE: AYDEE MARSIGLIA – CAMILA CUÉLLAR


Consultoras

ASUNTO: Análisis de la Encuesta Calidad de Vida año 2016

Respetado Secretario,

En atención a la tarea encomendada por usted relacionada con realizar un análisis a la encuesta
reciente sobre calidad de vida publicada por el DANE, a continuación, le presentaremos un análisis
de los datos de dicha encuesta, que son relevantes para la toma de decisiones por parte de su
despacho en razón de las competencias misionales de la Entidad que usted lidera.

Es importante resaltar que este memorando contiene el análisis del capítulo dedicado a los jefes de
hogar, que comprende una muestra de 13.089 personas encuestadas en la ciudad de Bogotá, el
procesamiento estadístico de la información se realizó a través del software STATA 16.0 y
obtuvimos los siguientes resultados:

Respecto a la caracterización de los jefes de hogar, la muestra nos señala que el 69,62% son
hombres y el 30,38% mujeres. Estas cifras nos indican que el mayor porcentaje de la figura sigue
estando en cabeza de los hombres, como tradicionalmente ha ocurrido. Al comparar con el estado
de salud autoreportado, es preocupante la brecha existente entre hombres y mujeres que consideran
que su estado de salud es malo, mientras que de las mujeres el 19,06% reportan un mal estado de
salud, en los hombres este porcentaje corresponde al 9,55%.

Frente a la edad, tenemos que la media de edad de los jefes de hogares es de 39,64 años. Aunque
aproximadamente el 68% de los individuos se encuentran entre 26 y 53 años de edad, es importante
resaltar que se observan jefes de hogar muy jóvenes (entre 16 y 22) que conforman el 16,98% de la
muestra. Llama la atención que la edad mayor registrada es de 65 años, por tanto, se estarían
presentando un fenómeno a tener en cuenta, hay adultos mayores que son jefes de hogar. Al analizar
la relación con el estado de salud, se encuentra que la medida de tendencia central de quienes
reportan que su estado de salud es bueno es de 39,6 años, mientras que la medida de tendencia
central de quienes reportan que su estado de salud es malo es de 43 años.

Frente al estado civil de las personas encuestadas el 54,99% indican que “no se encuentra ni
casados ni en unión libre”, el 32,33% indican estar “separados o viudos”, el 8,25% está “casados o
en unión libre” y solo el 4,43% manifiesta estar “soltero”. A partir de lo anterior, es importante
resaltar el alto porcentaje de hogares (91,75%) que cuentan con un jefe de hogar que no tiene
pareja, es decir hay una alta probabilidad de hogares monoparentales. Al desagregar por sexo, la
muestra nos refleja que la probabilidad de hogares monoparentales dado que están cabeza femenina
(93,46%), es mayor a los de cabeza masculina (91%). A raiz de lo anterior, es importante enfatizar
que, de los jefes de hogar sin pareja, el 13,1% reporta que se encuentran mal de salud, mientras que,
de los jefes de hogar con pareja, sólo el 4,2% reporta que se encuentran mal de salud. Es decir, es
casi 3 veces más probable autoreportar que se encuentra mal de salud si el individuo no se
encuentra “casado o en unión libre”.

Además, la muestra nos arroja que el 7,55% de los individuos son beneficiarios del programa Más
Familias en Acción. No obstante, al indagar los individuos que reciben ingresos por subsidios, se
encontró que quienes pertenecen a Más Familias en Acción reciben en promedio menos ingresos
por subsidios que quienes no hacen parte del Programa. Además, se puede concluir que quienes
hacen parte de Familias en Acción no están considerando los pagos condicionados como un
subsidio, dado que al menos el 25% de quienes pertenecen al Programa respondieron que tienen
cero ingresos por concepto de subsidios.

En este punto es importante resaltar que quienes no hacen parte de Familias en Acción están
reportando mejor estado de salud, específicamente, el 84% reporta encontrase en buen estado,
mientras que de quienes pertenecen al Programa, sólo el 62,8% reporta dicho estado. Por otro lado,
es importante apuntar que, al desagregar por sexo, el 10,79% de las mujeres pertenecen al
programa, mientras que, en los hombres, este porcentaje corresponde al 6,13%. Sin embargo,
preocupa que, en promedio los hombres reciben más ingresos por subsidios que las mujeres, es más,
mientras que al menos el 50% de las mujeres están recibiendo cero ingresos por subsidios, este
porcentaje en hombres equivale al 10%. Y, al analizar el estado de salud respecto a los ingresos por
subsidios se encontró que, en promedio, quienes reportan tener buen estado de salud tienen mayores
ingresos por subsidios que quienes reportaron tener un mal estado de salud. Es más, de quienes
reportaron encontrarse en un buen estado de salud, sólo 10% o menos no tienen ingresos por
subsidios, mientras que para quienes reportaron un mal estado de salud, este porcentaje corresponde
al 25%.

Paralelo a los ingresos por subsidios, es importante analizar la situación laboral de los encuestados,
donde el 89.53% manifiesta contar con un empleo y el restante indica estar desempleado, y, dado el
sexo, se encuentra que el 88,18% de las mujeres están empleadas, mientras que en los hombres este
porcentaje corresponde al 90,11%. Es preocupante que, al analizar la situación laboral y los
ingresos laborales, se encuentra que quienes reportan estar empleados, al menos el 50% reporta 0
ingresos laborales. Es curioso que, frente a las horas trabajadas, quienes reportaron estar empleados,
en promedio trabajan 11,2 horas a la semana, dato que consideramos que pudo haber un error en el
reporte de información y que los encuestados hayan reportado las horas diarias. Considerando este
posible sesgo, el análisis sobre el estado de salud se hace respecto al estado laboral. De quienes
están empleados, el 82,88% considera que su estado de salud es bueno, un comportamiento
semejante a quienes están desempleados y reportaron una buena salud (80,23%). Esta semejanza
también se presenta para el estado de salud regular y malo. En síntesis, se podría decir que la
diferencia en el estado de salud de quienes se encuentran empleados, contra los desempleados, no es
tan diferente.

De acuerdo con el grado de escolaridad reportado por los encuestados el cual denota que estamos
hablando de una población con muy bajos grados de escolarización ya que de la muestra el 70.72 %
indica no tener ningún tipo de formación, y solo el 3.12% cuenta con formación universitaria. Sin
embargo, se tiene en cuenta que este 70,72% se puede deber a un error de la encuesta, ya que la
categoría “ninguno” puede entenderse como “ninguno de los anteriores” lo cual incluiría a personas
que, por ejemplo, tienen un nivel de escolaridad mayor a universitario. Por lo anterior, para hacer el
análisis respecto al estado de salud, se tienen en cuenta los niveles de escolaridad especificados. Es
de resaltar que existe una gran brecha entre quienes tienen un nivel de primaria y quienes tienen un
nivel de universitario, principalmente en el estado de salud malo y el estado de salud bueno. El
46,94% de quienes tienen nivel universitario reportan estar mal de salud, mientras que respecto a
quienes tienen un nivel de primaria, sólo el 8,3% reporta este estado.

Ahora, frente al núcleo familiar, los jefes de hogar tienen entre 1 y 10 hijos, con una alta dispersión
de los datos, y con una medida de tendencia central de tres hijos por individuo. Es curioso que, el
número de hijos entre quienes reportan un buen estado de salud contra un mal de estado de salud, es
casi el mismo, 3,6 y 3,5, respectivamente.
En conclusión, a partir del análisis anterior sobre la muestra de la Encuesta de Calidad de Vida
2016, es preocupante la diferencia en probabilidad que se encontró en el estado de salud según las
categorías y datos de las variables sexo, estado civil, ingresos por subsidios y el nivel de
escolaridad. Por otro lado, las variables que reportan menos brechas en la probabilidad del estado de
salud según sus categorías o datos son estado laboral, edad y número de hijos. Por lo anterior, y
teniendo en cuenta las competencias de su Despacho, le sugerimos hacer un análisis más profundo
de las primeras categorías, dado que a partir de nuestro análisis no es adecuado determinar si existe
correlación entre las variables.

Anexos memorando

Variable sexo:
Tabla 1. Porcentaje hombres y mujeres.

Tabla 2. Porcentaje de estado malo de salud dado el sexo.

Variable edad:
Tabla 3. Edad del jefe del hogar si su estado de salud es malo

**Se uso la mediana como medida de tendencia central ya que la media y la mediana son diferentes.

Tabla 4. Edad del jefe del hogar si su estado de salud es bueno.


**Se uso la media como medida de tendencia central ya que se asemeja a la mediana.

Variable estado civil:


Tabla 5. Distribución estado civil

Tabla 6. Distribución estado civil dado el sexo

**Para encontrar el porcentaje de quienes viven sin pareja, se sumó las tres categorías que son diferentes a
casado/unión libre, por cada sexo, y se dividió por el total de individuos de cada sexo.

Tabla 7. Estado de salud según el estado civil

**Para encontrar el porcentaje de individuos sin pareja en mal estado de salud, se sumó quienes reportaron
que están mal de salud en las categorías no está casado ni en unión libre, separado o divorciado y soltero y se
dividió sobre el total de quienes pertenecen a estas últimas categorías.
Variable Más Familias en Acción:
Tabla 8. Beneficiarios Más Familias en Acción

Tabla 9. Ingresos por subsidios si son beneficiarios de Más Familias en Acción

Tabla 10. Ingresos por subsidios si no son beneficiarios de Más Familias en Acción

Gráfico 1. Ingresos por subsidios según pertenencia al Programa Más Familias en Acción

Tabla 11. Estado de salud dada la pertenencia al Programa Más Familias en Acción
Tabla 12. Pertenencia al Programa según el sexo

Variables ingresos por subsidios:


Tabla 13. Ingresos por subsidios si son hombres

**Se uso la mediana como medida de tendencia central dado que son diferentes la media y la mediana.

Tabla 14. Ingresos por subsidios si son mujeres

**Se uso la mediana como medida de tendencia central dado que son diferentes la media y la mediana.

Gráfico 2. Ingresos por subsidios según género


Tabla 15. Ingresos por subsidios si el estado de salud es malo

Tabla 16. Ingresos por subsidios si el estado de salud es bueno

Gráfico 3. Ingresos por subsidios según estado de salud


Variable estado laboral:
Tabla 17. Estado laboral dado el sexo

Tabla 18. Ingresos laborales de quienes están empleados

Tabla 19. Estado de salud si se encuentra empleado

Tabla 20. Estado de salud si se encuentra desempleado


Variable nivel de escolaridad:
Tabla 21. Nivel de escolaridad

Tabla 22. Estado de salud malo dado nivel educativo

Variable número de hijos:


Gráfico 4. Número de hijos por individuo.
Gráfico 5. Número de hijos según estado de salud del individuo

PARTE 3: PROBABILIDADES
2.1.a
P(A): Probabilidad de que se encuentre separado = 32,33%

P(B): Probabilidad de que considere que su estado de salud es bueno = 82,6%


P(A y B): Probabilidad de que se encuentre separado y su estado de salud es bueno = 22,3%

Cálculo:
P(A ó B) = P(A) + P(B) – P(A y B)
P(A ó B) = 0,3233 + 0,826 – 0,223
P(A ó B) = 92,6%
Si se selecciona una persona al azar de la muestra, la probabilidad de que esta se encuentre separado
o considere que su estado de salud es bueno es del 92,6%.
2.1.b
P(A): que el jefe del hogar se encuentre empleado = 89,53%

P(B): que el jefe del hogar no sea beneficiario de “más familias en acción” = 92,45%
P(BlA): que el jefe del hogar no sea beneficiario de “más familias en acción” dado que se encuentra
empleado = 92,69%

Cálculo:
P(A y B) = P(A) * P(BlA)
P(A y B) = 0,8953 * 0,9269
P(A y B) = 82,98%
Si se selecciona una persona al azar de la muestra, la probabilidad de que esta se encuentre
empleada y no sea beneficiario de “más familias en acción” es del 82,98%.
Al hacerlo con una tabla de contingencia por stata se corrobora el resultado:

2.1.c
P(A): que sea universitario
P(B): que sea mujer
P(AlB) = 3,42%

Si se selecciona una persona al azar de la muestra, la probabilidad de que esta sea universitario dado
que es mujer es del 3,42%.
2.2
P(A): beneficiario de “más familias en acción” = 0,0755

Si se selecciona una persona al azar de la muestra, la probabilidad de que esta sea beneficiaria de
“más familias en acción” es del 7,55%.
2.3
P(A): que la persona este empleado
P(B): que la persona sea hombre
P(AlB): 0,9011

Si se selecciona una persona al azar de la muestra, la probabilidad de que esta esté empleada dado
que es hombre, es del 90,11%.
2.4.a
P(A): mujer
P(B): estado de salud malo
P(BlA): 0.1906

La probabilidad de que una persona reporte que su estado de salud es malo, dado que esta es una
mujer, es del del 19,06%.
2.4.b.
P(A): mujer
P(B): estado de salud regular
P(BlA): 0,0593

La probabilidad de que una persona reporte que su estado de salud es regular, dado que esta es una
mujer, es del 5,93%.
2.5
A y B son estadísticamente independientes si P(AlB) = P(A)
P(A): ser mujer = 30,38%
P(B): estar empleado
P(AlB): probabilidad de ser mujer dado que está empleado = 29,93%

A y B no son eventos estadísticamente independientes dado que P(AlB) es diferente a P(A).


2.6.a.
P(A): que esté empleado
P(B): que el nivel educativo más alto sea universitario
P(AlB): probabilidad de que esté empleado dado que su nivel educativo más alto es universitario

Número de individuos nivel más alto es universitario: 9256 + 446 + 10 + 2215 + 409 = 12336
Número de empleados sí el nivel más alto es universitario: 8466 + 393 + 10 + 1864 + 312 = 11045
P(AlB) = 11045/12336
P(AlB) = 89,5%
Si se selecciona una persona al azar de la muestra, la probabilidad de que esté empleado dado que
su nivel educativo más alto es universitario es del 89,5%.
2.6.b.
P(A): que esté empleado
P(B): que el nivel educativo sea más alto que técnico o tecnólogo
P(AlB): probabilidad de que esté empleado dado que su nivel educativo más alto es técnico o
tecnólogo

Número de individuos nivel más alto es técnico o tecnólogo: 9256 + 446 + 10 + 2215 = 11927
Número de empleados sí el nivel más alto es técnico o tecnólogo: 8466 + 393 + 10 + 1864 = 10.733
P(AlB) = 10733/11927
P(AlB) = 89,9%
2.7
La medida de tendencia central de quienes hacen parte de Más Familias en Acción es de 25.829,5
pesos, se usa la mediana, dado que la distribución tiene un sesgo visible, por lo tanto, la media y la
mediana son muy diferentes. Y la medida de tendencia central de quienes no hacen parte de Más
Familias en Acción es de 35.180 pesos si se usa la mediana y 34.944,97 pesos si se usa la media,
dado que la distribución no presenta un sesgo, y las medidas se asemejan, se puede usar la media.
Esto quiere decir que, en promedio, quienes pertenecen a Más Familias en Acción reciben menos
ingresos por subsidios que quienes no hacen parte del Programa.
Por otro lado, mientras que de los individuos que pertenecen al Programa, al menos el 25% no
reciben ingresos por subsidios, de los que no pertenecen al Programa al menos el 10% no reciben
ingresos por subsidios. Es decir, un mayor porcentaje de quienes pertenecen al Programa no reciben
subsidios, que de quienes no pertenecen al Programa.
Y, por último, en cuanto al rango, se encuentra que, dado que ambos tienen un mínimo de 0, el
determinante es el máximo. Por un lado, respecto a quienes pertenecen al Programa, el máximo
ingreso por subsidios es de 79,834 pesos, mientras que respecto a quienes no pertenecen al
Programa, el máximo ingreso por el mismo concepto es de 79,993 pesos. Es decir, el máximo
ingreso por subsidios de ambos grupos es muy similar.

2.8.
La variable P8624, que hace referencia a los ingresos laborales de los jefes de hogar en pesos
colombianos, es una variable cuantitativa y es continua. Tiene una media de 249956,8 pesos, una
mediana de 0 y una desviación estándar de 798471, sin embargo, dado que la distribución de los
datos no se asemeja a una normal simétrica, sino que tiene un sesgo a la derecha, no es adecuado
interpretar la media como la medida de tendencia central. Además, tiene una kurtosis de 742,37, lo
que quiere decir que su forma es latikurtica. Por otro lado, al mirar el mínimo y el máximo valor de
la variable, se encuentra que los datos están distribuidos entre un ingreso laboral de 0 pesos y
40.000.000 pesos. Al analizar los datos se concluyó que puede haber un error en el registro de los
datos ya que se encuentran valores faltantes.
Por otro lado, la variable P8640, que hace referencia a los ingresos por subsidios que reciben los
jefes de hogar en pesos colombianos, es una variable cuantitativa y es continua. Tiene una media de
34.526,11 pesos, una mediana de 34.648 y una desviación estándar de 26.062, 63, sin embargo,
dado que la distribución de los datos no se asemeja a una normal simétrica, sino que tiene un sesgo
a la derecha, no es adecuado interpretar la media como la medida de tenencia central. Además, tiene
una kurtosis de 1,7 lo que quiere decir que su forma es lectokurtica. Por otro lado, al mirar el
mínimo y máximo valor de la variable, se encuentra que los datos están distribuidos entre un
ingreso por subsidios de 0 y 79.993 pesos colombianos. Al analizar los datos, se concluyó que
puede haber un error en el registro de los datos ya que se encuentran valores faltantes.
2.8.a.
Al graficar la variable P8624, se obtiene que la distribución de los datos no se asemeja a una
distribución normal simétrica, sino que tiene un sesgo a la derecha. Y al comparar media con
mediana, se encuentre que los valores son diferentes (media: 249956,8 mediana:0), es decir hay
datos atípicos. Esto quiere decir que la media no es una buena interpretación de medida de
tendencia central, por esto, la mediana es una mejor medida. Al calcular la mediana, se obtiene el
valor cero, lo que quiere decir que, en promedio, los ingresos laborales de los jefes de hogar son 0
pesos.

Al graficar la variable P8640, se obtiene que la distribución de los datos tiene un sesgo a la derecha,
sin embargo, la curva graficada como la normal, muestra que la distribución puede asemejarse a una
normal. Y al comparar media con mediana, se encuentra que los valores son más parecidos que los
de la variable P8624 (media: 34.526,11 mediana: 34.648). En esta variable, dado que la media y la
mediana se asemejan más, se podría usar la media como medida de tendencia central, sin embargo,
recomendamos usar la mediana, dada la diferencia entre las dos medidas. Al calcular la mediana, se
obtiene el valor 34.648, lo que quiere decir que, en promedio, los ingresos laborales de los jefes de
hogar son 34.648 pesos.

2.8.b.
El percentil 75 de la variable P8640 es 57.106. Esto significa que el 75% de los jefes de hogar
tienen ingresos por subsidios menores o iguales a 57.106 pesos.
2.8.c.
La variable P8624 hace referencia a los ingresos laborales. Es una variable numérica, continua, y
tiene 90 datos faltantes. Tiene una media de 249956,8 pesos, una mediana de 0, una varianza de
638000000000 y una desviación estándar de 798471, sin embargo, tal como se explicó antes, no es
adecuado interpretar la media como la medida de tendencia central. Además, tiene una kurtosis de
742,37, lo que quiere decir que su forma es latikurtica. Por otro lado, al mirar el mínimo y el
máximo valor de la variable, se encuentra que los datos están distribuidos entre un ingreso laboral
de 0 pesos y 40.000.000 pesos, por lo cual el rango de la variable es 40.000.000 pesos. Además, se
puede decir que el 50% de los individuos de la muestra tienen unos ingresos laborales iguales a
cero, y el 75% tienen un ingreso laboral igual a 400.000 pesos o menos.

2.8.d.
Mínimo: 0
Q1: 11455
Mediana: 34648
Q3: 57106
Máximo: 79993

También podría gustarte