Está en la página 1de 11

Técnicas de Análisis de Datos

Profesor: Arturo Harker


Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Taller Grupo No. 4 TAD


Semana 3 – Análisis Descriptivo

1. Limpie la base de datos siguiendo estos pasos:

a. Elimine duplicados.

Con el fin de identificar de manera precisa la existencia de registros duplicados en la base de datos, se
utilizó el comando “duplicates report” a fin de identificar la existencia de estos.
Como se puede apreciar, la salida del reporte indica que no existen registros duplicados, sino un total
de 43.156 registros únicos.

. duplicates report

Duplicates in terms of all variables

--------------------------------------
copies | observations surplus
----------+---------------------------
1 | 43156 0
--------------------------------------

b. Elimine los espacios adicionales.

Se comprobó en el editor de datos que no existen ni registros ni variables adicionales a la estructura


de la base de datos.

c. Seleccione y tratar todas las celdas en blanco

La base de datos tiene espacios en blanco que corresponden a la estructura de la misma. Además,
teniendo en cuenta que son variables categóricas que no son susceptibles de operaciones matemáticas
que pudieran generar error en el análisis estadístico.

1
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

A continuación, planteamos un ejemplo con base en el análisis anterior, para el cual, utilizamos las
preguntas P6933 (¿Votó usted en las elecciones presidenciales de 2018?) y P5336S1 (¿Por qué razones
usted no votó en las elecciones presidenciales de 2018 – Tenía menos de 18 años?)

¿Votó |
usted en |
las |
elecciones |
presidenci | ¿Por qué no votó? - Menor 18
ales de | años
2018? | 1 2 | Total
-----------+---------------------------------+----------
1 | 32,631 0 0 | 32,631
2 | 0 708 9,688 | 10,396
99 | 129 0 0 | 129
-----------+---------------------------------+----------
Total | 32,760 708 9,688 | 43,156

Si bien la pregunta P5336S1 ((¿Por qué razones usted no votó en las elecciones presidenciales de 2018
– Tenía menos de 18 años?) tiene valores vacíos, éstos corresponden a personas que aseguran que sí
votaron en las elecciones (32.631 personas) o que no saben o no informan si votaron o no (129
personas), lo cual es coherente con la estructura de la encuesta, pues estas personas, no deben responder
por qué no votaron, dado que sí lo hicieron o no informan si lo hicieron o no.

De las 10.396 personas que no votaron, 708 no lo hicieron porque tenían menos de 18 años, mientras
que los 9.688 restantes no lo hicieron por otra razón.

A efectos de facilitar la lectura de la información anterior, se realizó la transformación de la variable


P5336S1 que se encontraba en String a Numérica, para poder modificar las etiquetas de las categorías
de las variables. Al realizar esto los valores en blanco no serán tomados en cuenta, pero como se explicó,
esto no afecta el análisis de la información.

¿Votó |
usted en |
las |
elecciones |
presidenci | ¿Por qué no votó?
ales de | - Menor 18 años
2018? | Sí No | Total
-----------+----------------------+----------
No | 708 9,688 | 10,396
-----------+----------------------+----------
Total | 708 9,688 | 10,396

Lo anterior, permite concluir que efectivamente, los valores en blanco, en el caso particular de las
preguntas seleccionadas, corresponde a la estructura de la encuesta.

d. Convierta los números almacenados como texto en números

Los números en esta base de datos representan las categorías de variables cualitativas, por lo que no se
debe hacer la conversión a números, en la medida en que no se realizarán operaciones matemáticas con
estas respuestas, sino que el tratamiento que se les dará será netamente cualitativo.

2
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Sin embargo, es importante tener en cuenta que existen tres tipos de archivos: .csv, .dta, .sav. Para este
caso, de acuerdo con la revisión realizada, trabajamos con el archivo .csv, que no requería limpiar la
base de datos. Ahora bien, en el punto anterior, se realizó el cambio del tipo de variable a numérica
para poder realizar los ajustes a manera de ejemplo.

2.Escoja una variable en la base de datos y analice su calidad con respecto a los siguientes criterios:

➢ INTEGRIDAD: se refiere a la corrección y completitud de los datos en una base de datos.


➢ OPORTUNIDAD: Disponibilidad en el momento adecuado y oportuno de la información.
➢ CONSISTENCIA: Es la coherencia de un dato en la base de datos a la que pertenece.
➢ EXACTITUD: Es el grado en el cual el dato representa la realidad medida.

La Encuesta de Cultura Política del DANE, “busca generar información estadística estratégica que permita
caracterizar aspectos de la cultura política colombiana, acumulación de capital social, participación en
escenarios comunitarios y confianza, basados en las percepciones y prácticas de los ciudadanos sobre su
entorno político y social, como insumo para diseñar políticas públicas dirigidas a fortalecer la democracia y la
convivencia pacífica colombiana.” Para el desarrollo de este taller, se eligió la información relacionada con el
capítulo Elecciones y Partidos.

Al hacer el análisis de calidad de los datos, se evidencia que el total de variables incluidas en la base de datos
corresponde a la información que se recoge por medio de la encuesta (Integridad). Asimismo, la captura de
la información se realizó durante los meses de julio y agosto de 2019, lo cual corresponde a la más reciente
medición (Oportunidad), en la medida en que esta encuesta se realiza cada dos años, de acuerdo con la
información suministrada en el boletín técnico.

En cuanto a la Consistencia de los datos se tomaron las siguientes variables: “¿Votó usted en las elecciones
presidenciales de 2018?” y “¿Hay algún partido o movimiento político con el que se identifique más que con
el resto?”, se evidencia en los resultados de estas preguntas que hay coincidencia entre los valores de las
respuestas de preguntas que son complementarias.

Por ejemplo: solamente las personas que dieron la respuesta de no haber votado (n=10396) responden a la
pregunta de por qué no votó, de la misma forma de los que votaron (n=32631) son los que responden la
pregunta de por qué si votó. Lo anterior denota que existe consistencia en los datos y se puede evidenciar en
el Anexo A de este documento.

Por otra parte, la Exactitud de los datos se complementan con las preguntas que amplifican una temática. Por
ejemplo, la pregunta “¿Hay algún partido o movimiento político con el que se identifique más que con el
resto?” se acerca a la realidad de las percepciones medidas con las preguntas que profundizan dichas respuestas:
“Usted se identifica con el partido o movimiento político por: b. Comparte las ideas políticas o las propuestas
del partido o movimiento político” y “Por qué razones no se identifica con un partido o movimiento político:
a. Falta de credibilidad en los partidos o movimientos políticos”.

3
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Parte 3: Probabilidades

2.1. Se selecciona una persona al azar de la muestra. Calcule la probabilidad de:

a. Que se encuentre separado o considere que su estado de salud es bueno


➢ Estado Civil Separado: 32,33%
➢ Estado de Salud Bueno: 82,60%
b. Que el jefe de hogar se encuentre empleado y no sea beneficiario de “más familias en acción”
➢ 82,98%
c. Que sea universitario dado que es mujer
➢ 3,42%

2.2. Si se selecciona una persona al azar de la muestra. ¿Cuál es la probabilidad que sea beneficiario de
“más familias en acción”?
➢ 7,55%

2.3. Si se selecciona una persona al azar de la muestra, ¿cuál es la probabilidad que este empleado dado
que es hombre?
➢ 90,11%

2.4. Si se selecciona una persona al azar de la muestra y es mujer, ¿cuál es la probabilidad que reporte
que su estado de salud en general es:

a. Malo?
➢ 19,06%
b. Regular?
➢ 5,93%

2.5. ¿Ser mujer y estar empleado son eventos estadísticamente independientes? Muestre los cálculos
que apoyan su respuesta.

Para saber si dos eventos A y B son estadísticamente independientes, se debe cumplir que la probabilidad
del evento A condicionada a B, debe ser igual a la probabilidad marginal del evento A.

Para ello, se procederá a calcular la probabilidad de estar empleado dado que es mujer P(Empleado|Mujer)
y la probabilidad de estar empleado P(Empleado). Si son eventos estadísticamente independientes, las dos
probabilidades deben ser iguales, de lo contrario, no serían eventos estadísticamente independientes.

Como se puede observar en el Anexo B, la probabilidad de estar empleado dado que es mujer es igual a
88,18%, mientras que la probabilidad de estar empleado es igual a 89,53%. Por lo tanto, dado que las
probabilidades no son iguales, se concluye que ser mujer y estar empleado no son eventos estadísticamente
independientes.

2.6. Si se selecciona una persona al azar de la muestra, ¿cuál es la probabilidad que esté empleado dado
que su nivel educativo más alto sea:

a. Universitario?

4
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

➢ 76,28%
b. Técnico o tecnólogo?
➢ 84,15%

2.7. ¿Qué podría decir usted sobre los ingresos por subsidios tanto de los beneficiarios de familias en
acción como de los que no reciben este beneficio?

En primer lugar, es importante precisar que, de los 13.089 jefes de hogar encuestados, tan solo el 7,55%
hace parte del programa Más Familias en Acción (Anexo C).

Ahora bien, con relación a los Ingresos por Subsidios, los hogares reciben en promedio $34.648 por este
concepto, teniendo como monto máximo $79.993. Para 3.080 jefes de hogar, el ingreso por este concepto
es igual a cero, los cuales corresponden al 23,53% del total de la muestra.

De acuerdo con los estimadores de dispersión y análisis de forma, se puede concluir que la variable
SUBSIDIOS tiene una distribución normal, puesto que tanto la media (34.526) como la mediana (34.648)
tiene valores similares y su coeficiente de asimetría es cercano a cero (0,06), lo cual se encuentra detallado
en el Anexo D.

Al analizar conjuntamente las dos variables descritas previamente, se identifica que, en promedio, los
beneficiarios de Más Familias en Acción reciben ingresos por subsidios por valor de $29.395, mientras que
quienes no son beneficiarios de este programa, reciben $34.944 en promedio, lo que corresponde a un 17%
más, tal como lo muestra la tabla a continuación.

FAMILIA_ACCION | mean p50 p75 cv min max N


---------------+----------------------------------------------------------------------
Si | 29395.93 25829.5 54119 .9299478 0 79834 988
No | 34944.97 35180 57247 .7415149 0 79993 12101
---------------+----------------------------------------------------------------------
Total | 34526.11 34648 57106 .7548673 0 79993 13089
--------------------------------------------------------------------------------------

Adicionalmente, en el gráfico a continuación, se evidencia que, para cada categoría de ingreso, la frecuencia
es ligeramente más alta en el cuadrante de la derecha, el cual corresponde a los jefes de hogar que no son
beneficiarios del programa.

Gráfico 1: Ingresos por Subsidios y Beneficiarios de Más Familias en Acción

5
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

2.8. Describa brevemente las variables P8624 y P8640, y responda:

La variable P8624 corresponde a Ingresos Laborales, mientras que la variable P8640 corresponde a
Ingresos por Subsidios. Ambas están expresadas en pesos y muestran el total de ingresos laborales o por
subsidios que reciben los jefes de hogar encuestados.

Como de describió de manera preliminar en el punto 2.7, los Ingresos por Subsidios representan un ingreso
promedio de $34.526, con un máximo de $79.993. Los datos indican que se distribuyen de manera normal,
debido a que el coeficiente de asimetría es cercano a cero (0,06), por lo que tanto la media como la mediana
arrojan valores similares.

Con relación a los Ingresos Laborales se encuentra que existen 90 valores perdidos. Los datos varían de
manera significativa, ya que, como es de esperarse, los subsidios tienen montos máximos establecidos,
mientras que los salarios no. En ese sentido, los valores oscilan entre $0 y $40.000.000 aproximadamente.
Si bien la media se ubica en $249.956, no es un dato representativo pues el coeficiente de asimetría (19.9)
indica una distribución asimétrica a la derecha, lo cual se comprueba con que cerca del 75% de los datos
observados con iguales a cero (8.441 jefes de hogar indican que su salario es igual a cero).

Ingresos por subsidios


-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 0 0
10% 0 0 Obs 13,089
25% 11455 0 Sum of Wgt. 13,089

50% 34648 Mean 34526.11


Largest Std. Dev. 26062.63
75% 57106 79954
90% 71216 79964 Variance 6.79e+08
95% 75598 79971 Skewness .0647428
99% 78991 79993 Kurtosis 1.702186

6
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Ingresos laborales
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 0 0
10% 0 0 Obs 12,999
25% 0 0 Sum of Wgt. 12,999

50% 0 Mean 249956.8


Largest Std. Dev. 798471
75% 400000 1.50e+07
90% 660000 1.80e+07 Variance 6.38e+11
95% 1000000 3.20e+07 Skewness 19.96767
99% 2500000 4.00e+07 Kurtosis 742.3786

a. Para cada variable cual es la medida de tendencia recomendada

a. Para los Ingresos por Subsidios, la media es una medida de tendencia que representa
adecuadamente los datos, en la medida en que estos se distribuyen de forma normal.
b. Con relación a los Ingresos Laborales, dado que no tienen una distribución simétrica y que de
hecho están concentrados en valores cercanos o iguales a cero, con datos extremos de alrededor
de 40 millones de pesos, la media no es un buen indicador, por lo que la mediana debería usarse
en este caso.

b. ¿Cuál es el percentil 75 de la variable P8640? ¿Qué significa?

a. El percentil 75 de la variable P8640 es $57.106. Esto indica que el 75% de los jefes de hogar
recibe ingresos por subsidios por debajo de $57.106; o de otra forma, que solo el 25% de los
jefes de hogar encuestados recibe ingresos por subsidios superiores a $57.106.

c. ¿Describa brevemente la distribución de la variable P8624?

a. La variable P8624 corresponde a Ingresos Laborales, la cual tiene 90 valores perdidos. Los
valores oscilan entre $0 y $40.000.000 aproximadamente y se encuentra un total de 8.441
valores iguales a cero. La media se ubica en $249.956 pero no es un dato que describa
adecuadamente la distribución pues el coeficiente de asimetría (19,9) indica una distribución
asimétrica a la derecha, lo cual se comprueba con que cerca del 75% de los datos observados
con iguales a cero, es decir, que solo el 25% de los encuestados tiene valores superiores a cero
y que van hasta los 40 millones de pesos.

d. Calcule y grafique los 5 números de resumen de la variable P8640

a. La variable P8640 corresponde a Ingresos por Subsidios. A continuación, se presentan los


cinco números que resumen la variable (Anexo D):

i. Mínimo: $0
ii. Máximo: $79.993
iii. Q1: $11.455
iv. Q3: $57.106
v. Mediana (Q2): $34.648

7
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

8
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Anexo A: Ejemplo Consistencia 1

Anexo A: Ejemplo Consistencia 2

9
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Anexo B: Cálculos ejercicio 2.5 (Independencia estadística)


. tab TRABAJO_JEFE SEXO_JEFE, column

Estado |
laboral del | Sexo de jefe del
jefe de | hogar
hogar | Hombre Mujer | Total
------------+----------------------+----------
Empleado | 8,211 3,507 | 11,718
| 90.11 88.18 | 89.53
------------+----------------------+----------
Desempleado | 901 470 | 1,371
| 9.89 11.82 | 10.47
------------+----------------------+----------
Total | 9,112 3,977 | 13,089
| 100.00 100.00 | 100.00

. tab TRABAJO_JEFE

Estado |
laboral del |
jefe de |
hogar | Freq. Percent Cum.
------------+-----------------------------------
Empleado | 11,718 89.53 89.53
Desempleado | 1,371 10.47 100.00
------------+-----------------------------------
Total | 13,089 100.00

Anexo C: Beneficiarios Más Familias en Acción (Análisis ingreso por subsidios)


Beneficiari |
o de Más |
Familias en |
Acción | Freq. Percent Cum.
------------+-----------------------------------
Si | 988 7.55 7.55
No | 12,101 92.45 100.00
------------+-----------------------------------
Total | 13,089 100.00

10
Técnicas de Análisis de Datos
Profesor: Arturo Harker
Grupo 4: Andrés López Ávila, Nelson Fabián López Barrero, Luz Angie
Romero, Lorena María Vargas, Nicolás Gómez Arenas

Anexo D: Resumen variable SUBSIDIOS (Análisis ingreso por subsidios)


Ingresos por subsidios
-------------------------------------------------------------
Percentiles Smallest
1% 0 0
5% 0 0
10% 0 0 Obs 13,089
25% 11455 0 Sum of Wgt. 13,089

50% 34648 Mean 34526.11


Largest Std. Dev. 26062.63
75% 57106 79954
90% 71216 79964 Variance 6.79e+08
95% 75598 79971 Skewness .0647428
99% 78991 79993 Kurtosis 1.702186

11

También podría gustarte