Está en la página 1de 7

UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELLÍN

ESCUELA DE ESTADÍSTICA - Sem 02 - 2023


PRIMER TRABAJO Análisis Descriptivo de Datos (10%) Cédula 1034776309

Nombre Completo María Paula Garzón Caicedo D. I. 1113978868


Nombre Completo Paula Alejandra López Nieto D. I. 1034776309

La base de datos con la que le corresponde trabajar, se obtiene como una muestra
aleatoria de una gran base de datos. La base original corresponde a la información
de 9000 Empresas Colombianas. Las observaciones corresponden a registros del
2019, y las variables contenidas en dicha base son: RAZON (nombre de la
Empresa), DEPARTAMENTO (Domicilio principal de la empresa), INGRESOS (en
millones de pesos), GANANCIA (en millones de pesos) ACTIVOS (total activos en
millones), PASIVOS (total pasivos en millones de pesos), CATE (1: Empresas
Antioqueñas, 0: Otras), SECTOR (Sector productivo: Comercio, Servicios,
Manufactura, Otros).
Cada pareja debe generar una base de datos, que corresponderá a una muestra de
tamaño 200 de la base original. Los datos originales están en el archivo:
“base.txt”, el cual está disponible en Moodle, pestaña Trabajos – Trabajo 1. Para
hacerlo debe seguir los siguientes pasos:
# Para leer el archivo de datos, darle click al archivo “base.txt”, aparecerá una
nueva pestaña. Copie el contenido y guárdelo en un block de notas, con el mismo
nombre: “base.txt”. En R ejecute el siguiente código:
uno <- read.table(file.choose(), header=T, sep=";")

Se habilitará un explorador y se escoge el archivo “base.txt”


Copiar el siguiente código en R, sin modificar ninguna de sus líneas
genera <- function(cedula){
set.seed(cedula)
data <- uno[sample(1:9000,200),]
data
}
# Para crear la base de datos con la cual trabajara, debe ejecutar la siguiente
línea:
datos <- genera(cedula)
# cedula representa el número de cedula de uno de los dos integrantes. En el
trabajo debe indicar cuál número de cédula usó.
Ingresar a R Commander, y cargar el archivo “datos”. La variable CATE debe
convertirse en factor, ya que aparece con los valores 0 y 1 pero es categórica.
Con la base ya creada debe resolver las siguientes preguntas.
1. (25 pts.) Para las variables INGRESO y GANANCIA calcule: Media,
Mediana y desviación estándar e interprete sus resultados en el contexto de la
información. Para la variable SECTOR, elabore una tabla de porcentajes y el
respectivo diagrama de barras. Comente los resultados obtenidos en el gráfico.
2. (25 pts.) Si se considera la variable PASIVOS, ¿Esta se comporta igual en
para las empresas Antioqueñas y para las que no lo son? Justifique su
respuesta. Elabore los gráficos que considere pertinentes. Estos deben ser
interpretados, en el contexto de la información analizada.
3. (25 pts.) ¿Se puede afirmar que las empresas dedicadas al Comercio en
promedio tienen mayores ACTIVOS que las dedicadas a Servicios? Justifique
su respuesta. Puede anexar los resúmenes y/o gráficos que considere
pertinentes.
4. (25 pts.) Si se considera el sector SERVICIOS, ¿Se puede afirmar que el
porcentaje de empresas Antioqueñas en este sector es menor a las que no lo
son? Justifique su respuesta. Puede anexar los resúmenes y/o gráficos que
considere pertinentes.
El trabajo debe hacerse usando SOLO R-Commander.
Debe entregar un documento con la solución a las preguntas, SOLO en
formato pdf. Este documento debe cargarse en el curso en Moodle, en la
pestaña Trabajos – Trabajo I – Soporte Trabajo 1, en la carpeta que le
corresponde según su profesor y horario, antes de las 6:00 pm del sábado
26 de agosto de 2023.
Solución 1 pregunta:

Como se puede observar, la variable INGRESO tiene una media de 38758.499, lo


que representa el promedio de ingresos que la mayoría de las empresas reciben.
Por otra parte, se nota que la desviación estándar es de 34238.40, un valor
bastante elevado, lo que sugiere que los ingresos están dispersos o alejados con
respecto a la media. En otras palabras, los ingresos varían significativamente
entre las empresas.
Continuando con la mediana, esta se sitúa en 24806.85, lo que indica que la
mitad de las empresas tienen ingresos por encima de este valor y la otra mitad por
debajo.
En contraste, el promedio de la variable GANANCIA es menor en comparación con
la variable INGRESO. Esto se debe a que las ganancias representan la cantidad de
dinero que queda después de pagar los gastos, mientras que los ingresos son el
total de dinero que la empresa gana. Además, la desviación estándar de las
ganancias es menor que la de los ingresos, con una diferencia de 28527.16, lo que
sugiere que las ganancias no varían tanto con respecto a su promedio en
comparación de cómo lo hacen los ingresos.
En cuanto a la mediana de las ganancias, esta se encuentra en 754.90, lo que
significa que la mitad de las empresas tienen ganancias por encima de este valor y
la otra mitad por debajo.
Como se observa en la gráfica, donde hay más cantidad de empresas es en los
sectores de comercio y de servicios, debido a que son las que suplen más rápido
las necesidades de una población y también porque son mucho más llamativas,
mientras que las empresas dedicadas a la manufactura o a otras son de muy poca
cantidad.
Solución 2 pregunta:

Al analizar la media de pasivos en ambos tipos de empresas, se observa que, a


pesar de que las empresas antioqueñas son menos numerosas (62) en
comparación con las otras empresas (138), el promedio de pasivos en las
empresas antioqueñas es significativamente mayor, con una diferencia de 16,877,
lo cual es bastante notable.
En cuanto a la mediana, notamos que el valor central de los pasivos para las
empresas antioqueñas es aproximadamente la mitad del promedio, mientras que
en las otras empresas, la mediana supera la mitad del promedio. Además, el
diagrama muestra varios valores atípicos debido a la gran distancia entre los
valores máximos y mínimos.
La desviación estándar nos indica que la razón por la cual vemos valores atípicos
en el diagrama se debe a la dispersión en los valores. Esto se evidencia en cómo la
desviación supera al promedio. En resumen, aunque las empresas comparten
similitudes en cuanto a la media, mediana y desviación estándar de sus pasivos,
difieren significativamente en términos de magnitud.
Solución 3 pregunta:

Al observar la gráfica y comparar los promedios de activos en diferentes sectores,


no podemos afirmar de manera concluyente que las empresas dedicadas al
comercio tengan en promedio activos mayores que las de servicios. Esto se debe a
que el cálculo de la media para cada sector se basó en diferentes conjuntos de
datos. Sin embargo, es importante destacar que la cantidad de datos recopilados
para los sectores de servicios y comercio es similar, aunque no idéntica. Esto
significa que cualquier diferencia significativa se reflejaría en el promedio de cada
sector.
Solución pregunta 4:

Como se puede apreciar en el diagrama de barras, es evidente que la cantidad de


empresas antioqueñas en el sector de servicios es inferior en comparación con las
empresas que no pertenecen a esta región. Además, se nota que, en general, las
empresas antioqueñas tienden a tener una presencia menor en los diferentes
sectores en comparación con las empresas no antioqueñas.

Esta tendencia puede explicarse al observar el diagrama de bigotes sobre los


pasivos. En él, se destaca que las empresas antioqueñas tienen un nivel de deuda
más alto, lo que puede sugerir que no son tan sostenibles como las empresas no
antioqueñas. Esta podría ser una razón por la cual su presencia es menos
numerosa en los diferentes sectores empresariales.

También podría gustarte