Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Univariado, Metodos Numericos, Bivariado, Teoria Probabilidad
Analisis Univariado, Metodos Numericos, Bivariado, Teoria Probabilidad
Introducción
De la empresa Arrendamientos Nutibara dedicada a la compra, venta, el arriendo y el
avalúo de propiedades raíz, se cuenta con la base de datos de los empleados en la cual están
consignados por trabajador, el nombre, la edad, el número de hijos, ciudad de residencia y
el cargo que ocupa dentro de la empresa. A partir de dichos datos se propone realizar una
síntesis y un análisis estadístico riguroso con el fin de optimizar la dinámica en la base de
datos; además, de permitir llevar el control de las cuatro variables anteriormente citadas
entorno al personal.
1. Planteamiento del problema
El personal de recursos humanos desea obtener información sobre el número de hijos que
hay en la familia de cada trabajador, esto con el fin de saber cuántas personas serán
invitadas a la celebración de los sesenta (60) años de la empresa y se desea saber la
distribución de su personal en el Valle de Aburrá con el fin de establecer el lugar más
conveniente para la realización de la fiesta. Para esto, se toma una muestra de cuarenta
personas.
2. Objetivo general: establecer la distribución del número de hijos por edades de los
trabajadores y la de los cargos en las diferentes ciudades.
3. Objetivos específicos:
Analizar la distribución de las edades dentro de la empresa.
Relacionar el número de hijos dentro del personal de la empresa.
Exponer la distribución de las ciudades de residencia del personal de la empresa.
Analizar los cargos dentro de la empresa y su distribución.
Identificar qué tipo de relación existe entre las variables edad y número de hijos.
Calcular correlaciones o correspondencias entre las variables ciudad de residencia y
cargo.
4. Definición de variables:
Las variables estadísticas se pueden clasificar según medición de la siguiente manera:
cualitativas, cuando toma valores de cualidades o categorías y, cuantitativas cuando toma
valores numéricos.
A razón de lo anterior dentro del trabajo en cuestión se tiene que:
Cargo: variable cualitativa nominal.
Ciudad de residencia: cualitativa nominal.
Edad: variable cualitativa continua.
Número de hijos: variable cualitativa discreta.
Edad 0 1 2 3 4 5 Total
22-27 4 2 0 0 0 0 6
27-32 1 1 2 0 0 0 4
32-37 2 5 1 1 0 0 9
37-42 3 1 3 0 0 0 7
42-47 2 5 1 1 0 1 10
47-52 1 0 1 1 0 0 3
52-57 0 0 1 0 0 0 1
Total 13 14 9 3 0 1 40
Tabla 3 de contingencia variables cuantitativas.
Ciudad de residencia
Contador 1 0 0 0 0 0 0 0 1
Asesor Interno 3 0 0 0 0 0 0 1 4
Conductor 1 0 0 0 0 0 0 0 1
Auxiliar Servicios 3 0 0 0 0 0 0 1 4
Jefe admón. 1 0 0 0 0 0 0 0 1
Auxiliar contable 1 1 0 1 0 0 0 0 3
Auxiliar caja 1 0 1 0 0 1 0 0 3
Jefe caja 1 0 0 0 0 0 0 0 1
Auxiliar de
2 0 0 0 0 0 0 0 2
sistemas
Jefe sistemas 0 0 0 1 0 0 0 0 1
Asesor externo 1 0 0 0 2 1 0 1 5
Jefe Crédito 1 0 0 0 0 0 0 0 1
Auxiliar crédito 1 0 0 0 0 1 0 1 3
Secretaria gerencia 1 0 0 0 0 0 0 0 1
Auxiliar
1 0 0 0 0 0 1 0 2
Arrendamientos
Jefe de ventas 1 0 0 0 0 0 0 0 1
Auxiliar ventas 1 0 0 0 0 0 0 0 1
Abogado 1 0 0 0 0 0 0 0 1
Recepcionista 1 0 0 0 0 0 0 0 1
Relaciones
1 0 0 0 0 0 0 0 1
publicas
Jefe de cartera 1 0 0 0 0 0 0 0 1
Auxiliar admón. 1 0 0 0 0 0 0 0 1
Total 26 1 1 2 2 3 1 4 40
Medellín 26 65 26 0.65
Bello 4 10 30 0.75
Copacabana 1 2.5 31 0.775
Itagüí 1 2.5 32 0.8
Caldas 2 5 34 0.85
Estrella 2 5 36 0.9
Envigado 3 7.5 39 0.975
Prado 1 2.5 40 1
Total 40
Envigado Prado
CIUDAD
Estrella 8% DE3%RESIDENCIA
70.0000 5% Gráfica 1-2. diagrama de barras y
60.0000 Caldas circular variable ciudad de residencia.
5%
Itagui
50.0000
Copacabana
3%
40.0000
3% De las gráficas 1 y 2 se puede notar
30.0000
20.0000
claramente como los empleados de la
Bello
10.0000 empresa están muy concentrados en la
10% Medellín
0.0000 65% ciudad de Medellín con un 65% seguido
lí n llo a ui da
s l la o o
el Be an g l re ad ad de bello, 10% y envigado con un 8%, la
d a b Ita Ca t i g Pr
e c Es En
v
M
Co
pa ciudad con menos trabajadores
residiendo son dos, Itagüí y Copacabana
con 2%.
Cargo de los empleados de arrendamientos Nutibara
De la tabla 1 se elaboró la tabla de frecuencias para la variable cualitativa cargo:
Tabla 5 frecuencias variable cargo
Cargo f n F N
12.500
Contador 5.0000 0 5.0000 0.1250
10.000
Asesor Interno 4.0000 0 9.0000 0.2250
10.000
Conductor 4.0000 0 13.0000 0.3250
Auxiliar Servicios 3.0000 7.5000 16.0000 0.4000
Jefe admón. 3.0000 7.5000 19.0000 0.4750
Auxiliar contable 3.0000 7.5000 22.0000 0.5500
Auxiliar caja 2.0000 5.0000 24.0000 0.6000
Jefe caja 2.0000 5.0000 26.0000 0.6500
Auxiliar de sistemas 1.0000 2.5000 27.0000 0.6750
Jefe sistemas 1.0000 2.5000 28.0000 0.7000
Asesor externo 1.0000 2.5000 29.0000 0.7250
Jefe Crédito 1.0000 2.5000 30.0000 0.7500
Auxiliar crédito 1.0000 2.5000 31.0000 0.7750
Secretaria gerencia 1.0000 2.5000 32.0000 0.8000
Auxiliar
Arrendamientos 1.0000 2.5000 33.0000 0.8250
Jefe de ventas 1.0000 2.5000 34.0000 0.8500
Auxiliar ventas 1.0000 2.5000 35.0000 0.8750
Abogado 1.0000 2.5000 36.0000 0.9000
Recepcionista 1.0000 2.5000 37.0000 0.9250
Relaciones publicas 1.0000 2.5000 38.0000 0.9500
Jefe de cartera 1.0000 2.5000 39.0000 0.9750
Auxiliar admón. 1.0000 2.5000 40.000 1.0000
40.000
Total 0
Recepcionista
3% publicas
Relaciones
Conductor 3%
Jefe de cartera
10% Contador
13% 3%
Auxiliar admon
3%
Asesor Interno
10%
Con los datos de la tabla 1, de la variable edad se calcularon mediante las funciones de
Excel los siguientes parámetros.
Tabla 6 parámetros estadísticos de la variable edad
Media 38
Moda 38
Mediana 39
Desviación 8
Curtosis -0.4
Asimetría -0.2
Coeficiente
V 70
De la primera serie de datos generados en la tabla 6, se puede notar que las tres medidas de
tendencia central están muy cercanas entre sí; para la curtosis se tiene que un valor de 0 o
cercano a cero nos da una inferencia de datos normales.[2], el valor de -0.4 es muy cercano
a 0 de lo cual estos datos tienden a ser datos normales; para la asimetría se presenta un
análisis similar a la de curtosis de acuerdo con esto el valor es cercano a 0.
Prueba de pp-plot
Se graficaron los datos de edad para ver su tendencia de tal forma que al generar una
gráfica lineal este pase muy equidistante a todos los puntos.
EDAD
60
30
15
0 5 10 15 20 25 30 35 40 45
n= 40.0 22 27
Tabla 7 K≥ 6.3 datos para generar la tabla de 27 32 frecuencias. Tabla 8
intervalos para la variable edad
K= 7.0 32 37
Xmax= 57.0 37 42
Xmin= 22.0 42 47
R= 35.0 47 52
A= 5.0 52 57
Ya con los datos de la tabla 8 se pueden generar la marca de clase de cada intervalo que es
el promedio, la frecuencia absoluta fi, la cual se calcula en conjunto con la tabla 1 y tabla 8
contando cuantos datos se tiene en cada intervalo, la frecuencia absoluta acumulada Fi, la
cual se genera de la siguiente manera: la el primer valor no se acumula y corresponde al
primer valor de fi, las restantes se calculan como Fi-1+fi, la frecuencia relativa hi se calcula
como el cociente entre fi/n y la frecuencia relativa acumulada Hi de manera análoga a Fi
pero con los datos de hi.
10.0
10.00
8.00
personas
6.06.00
5.0
4.00
4.0
2.00 3.0
0.00
22-27 27-32 32-37 37-42 42-47 1.0 47-52 52-57
0.0
Rango de edades
23.000025.000030.000035.000040.000045.0000 50.000055.0000
edades
Gráfica 7-8. Polígono de frecuencias
ojiva
Distribución de las edades y diagrama de barras edades
28% 40
36
39 trabajadores arrendamientos
Nutibara.
numero de personase
13%
26
25% Gráfica 9-10. Ojiva y diagrama de
10% pastel edades personal
15
10
arrendamientos Nutibara.
6 15% 8%
3% De las gráficas 7 a 10 se deja en
0
22.0000 27.0000 32.0000 37.0000 42.0000 47.0000 52.0000 57.0000 evidencia como en la empresa la el
22-27 27-32 32-37 edad
37-42 42-47 47-52 52-57 53% del personal está entre los 37-47
años, el 25% está entre los 22-32.
5.4 Métodos Numéricos
5.4.1 Medidas de tendencia central con interpretación
Se realizarán los cálculos de las medidas de tendencia central para datos agrupados a la
variable cuantitativa continua:
El cálculo de la moda, media, mediana, medidas de tendencia central y la varianza,
desviación típica y coeficiente de variación, medidas todas estas de variación, se usaron los
datos consignados en la tabla 9 en conjunto con las siguientes ecuaciones.
Para la media: Mediana: Moda:
Para saber que fi. Fi y que Linf usar se debe escoger la fila
que sea igual o mayor a n/2=40/2=20 para Fi. en la tabla 9 se encuentra resaltada dicha
fila.
Tabla 10. Medidas de tendencia central para la variable edad
Moda (Mo) 41.2857
0.0510
Dist.Nor.Edad
0.0460
0.0410
0.0360
0.0310
0.0260
0.0210
0.0160
0.0110
0.0060
0.0010
202122 232425262728293031 323334353637383940414243444546474849505152535455565758
Cv 0.2073
68% 67.5000
֊σ 30.3604
X 38.5000
σ 46.6396
99.50
% 97.5000
֊2σ 22.2208
X 38.5000
2σ 54.7792
99.70
% 100.0000
֊3σ 14.0811
X 38.5000
3σ 62.9189
En consecuencia se puede asegurar que las edades entre los 30 y 47 años están en el rango
de los 68% de los datos, que el 97,5 % de los datos están entre edades de 22.2 y 55 años, y
que el 100% de los datos están entre 22 y 57 años.
5.4.5 . Medidas de Posición
Estas medidas dividen al conjunto de datos en grupos con el mismo número de datos.
Cuartiles: Son tres valores que corresponden al 25%, 50% y 75% de los datos. Se calcula
con la siguiente ecuación:
1.000 46.000
total 40.0000 0 0 102.0000
Varianza segun1.2275
Distribucion de Clientes numero de
hijosM.variación Desv.Tipica 1.1079
40% Cv 0.9634
33%
35% 35%
% de trabajadores
30%
25%
23%
20%
15%
10%
8%
5%
3%
0%
0 1 2 3 4 5
Numero de Hijos
Gráfica 12. Diagrama de bastones para la variable número de hijos
Finalmente, las medidas de posición
Tabla 17. Medidas de posición para la variable número de hijos
Q1 0.0000
Q2 1.0000
Q3 2.0000
Análisis Bivariado
5.5 Variables Cualitativas con su respectiva Interpretación
En variables cualitativas se hace el análisis bivariado amparado a la prueba de chi
cuadrado, la cual en primer lugar verifica si las dos variables son dependientes o
independientes, si determina la dependencia posteriormente determina que tan intensa es
esa dependencia.
Se plantean las hipótesis:
H0=variables son independientes (hipótesis nula)
Ha=las variables son dependientes (hipótesis alternativa)
De la tabla 3 de contingencia se calculará la tabla de valores esperados con la siguiente
formula
Contador 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Asesor Interno 2.600 0.100 0.100 0.200 0.200 0.300 0.100 0.400 4.000
Conductor 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar Servicios 2.600 0.100 0.100 0.200 0.200 0.300 0.100 0.400 4.000
Jefe admón. 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar contable 1.950 0.075 0.075 0.150 0.150 0.225 0.075 0.300 3.000
Auxiliar caja 1.950 0.075 0.075 0.150 0.150 0.225 0.075 0.300 3.000
Jefe caja 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar de
1.300 0.050 0.050 0.100 0.100 0.150 0.050 0.200 2.000
sistemas
Jefe sistemas 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Asesor externo 3.250 0.125 0.125 0.250 0.250 0.375 0.125 0.500 5.000
Jefe Crédito 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar crédito 1.950 0.075 0.075 0.150 0.150 0.225 0.075 0.300 3.000
Secretaria gerencia 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar
1.300 0.050 0.050 0.100 0.100 0.150 0.050 0.200 2.000
Arrendamientos
Jefe de ventas 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar ventas 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Abogado 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Recepcionista 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Relaciones publicas 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Jefe de cartera 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
Auxiliar admón. 0.650 0.025 0.025 0.050 0.050 0.075 0.025 0.100 1.000
40.00
total 26.000 1.000 1.000 2.000 2.000 3.000 1.000 4.000 0
Paso seguido se calculará el valor de chicuadrado calculado con la siguiente ecuación:
χ 2 obs=0.9973
Para poder hacer el contraste con la hipótesis nula se debe calcular el χ 2 teo usando los
grados de libertad y las tablas de chi cuadrado, para este caso se necesitó hacer uso de
interpolación lineal.
Grados de libertad= (número de filas-1) (número de columnas-1).[3]
Grados de libertad= (22-1) (8-1) =147.
Asumiendo un Alpha de 0.01 entramos a la tabla 19.
Interpolando:
χ 2 teo=189.8405
Teniendo en cuenta las siguientes consideraciones:
χ 2 teo> χ 2 obs.
Por esta razón Ho es aceptada dándonos como conclusión que las variables ciudad de
residencia y cargo desempañado en la empresa arrendamientos Nutibara no son
dependientes si no independientes.
5.6 Variables Cuantitativas Regresión lineal
Se tiene para este ítem las siguientes variables
Variable independiente: Edad
Variable dependiente: Número de hijos
Esta categorización se da ya que edad es una variable temporal y está siempre será
independiente en cualquier fenomenología estudiada sumado a que la capacidad del número
de hijos está ligada solo a cierta etapa temporal en la vida de los humanos, y la dependiente
por lógica consecuente el número de hijos es la dependiente.
Se realizará el diagrama de dispersión para edad vs número de hijos:
grafico de dispersión
6
4
n° de hijos
0
20 25 30 35 40 45 50 55 60
edad
Gráfica 13. Gráfico de dispersión para las variables edad
número de hijos
Desde la teoría se tiene las siguientes interpretaciones.[4]:
Comparando la figura que se muestra a la derecha con la gráfica
13 se puede intuir que las variables tienen una relación débil
positiva y una fuerza de correlación muy débil.
Determinación de los coeficientes de regresión.
60167.000 2786.375
1515 46 1876.0000 0 102.0000 0.0000 0 0.0000 133.7500
De la tabla 21. Se puede verificar que la representación de la recta de los datos es muy débil
ya que el coeficiente r^2 es muy cercano a 0 y este modelo lineal no es un buen modelo que
represente la relación de los datos.
5.6 Aplicación de la Teoría de Probabilidad
para determinar si dos eventos son dependientes o independientes se tiene que:
P ( A|B )=P ( A )
P ( A ∩B)
=P ( A )
P(B)
P ( A ∩ B )=P ( A )∗P ( B )
Si se cumple la ecuación anterior los eventos son independientes de lo contrario son
dependientes:
Sea
A= edad entre 22-27
B= número de hijos 0
Se va a calcular por separado cada igualdad usando los datos de la tabla 22.
P (( edad entre 22−27)∩(número de hijos 0) )=0.1
P ( AoB ) =0.3250+0.1500−0.3250∗0.1500=0.4263
Regla de la multiplicación
P ( AB ) =0.3250∗0.1500=0.0488
Teorema de bayes
0.3250∗0.1500
P ( A∨B )= =0.3250
0.1500
Conclusiones
A partir del análisis estadístico riguroso que se llevó acabo con la base de datos del
personal de Arrendamientos Nutibara, se logró sintetizar de forma precisa y exacta la
variación de cada una de las cuatro variables que eran objeto de estudio. Los métodos
anteriormente empleados sirvieron como herramienta matemática para estimar la
desviación estadística de las variables cuantitativas que eran de nuestro interés.
Inicialmente, las variables cualitativas nominales como lo son el cargo y la ciudad de
residencia fueron sintetizadas mediante una tabla de frecuencia estándar y posteriormente
graficadas en diagramas de barra y circular.
A partir de estos resultados se concluye que el 65% del personal de la empresa es residente
de la ciudad de Medellín, el 10% reside en Bello, el 8% en envigado, el 5% en Caldas y la
Estrella, el 3% en Prado y el 2% en Itagüí y Copacabana. Frente a este se arroja una mayor
favorabilidad de realizar el encuentro social en la ciudad de Medellín.
Posteriormente para la segunda variable cualitativa: cargo laboral. Se registró un mayor
número de contadores en la empresa en total unos cinco. Seguido a esto, se cuenta con 4
contadores y conductores. Tres personas ocupan cargos de auxiliares de servicios, jefe de
administración y auxiliar contable. Dos personas son auxiliares de caja y jefe de caja; y por
última una persona por cargo para los cargos restantes (aux. de sistemas, jefe de sistemas,
asesor externo, jefe crédito, aux. de crédito y secretaría de gerencia). En pocas palabras el
cargo más dominante es el correspondiente al contador ocupando un 13% de la totalidad,
seguido de los contadores y conductores que representan el 10% cada uno del total del
personal.
Es importante resaltar que, mediante la prueba de chi-student se concluye que las dos
variables anteriormente descritas son totalmente independientes.
Por otro lado, para el tratamiento de las variables cuantitativas se emplearon los métodos
reportados, lo cual permitió analizar la tendencia y desviación de las variables sujetas a
análisis matemático.
Para la cantidad de número de hijos se puede concluir a partir de las Medidas de Tendencia
Central que la edad promedio dentro del personal es de 38 años, esto nos indica que el 50%
de los trabajadores tienen 39,27 años o menos y el otro 50% tienen 39,27 años o más.
El dato de moda fue de 41.28 la edad que representa la edad más común de 41 años. Esta
inferencia es bastante precisa y certera debido a que los cálculos de parámetros como la
curtosis y asimetría dieron muy cercanos a cero. Mediante la tabla de frecuencias y las
ilustraciones de los resultados se concluye que el intervalo de edades más común es entre
37 y 42 años de edad que representa el 28% del total. A este dato le sigue el rango de edad
entre 42 a 47 años con un 25%.
Por otro lado, para la variable número de hijos, se realizó el mismo tratamiento que la
variable edad. Se obtuvo que la media de hijos dentro del personal es uno (1). Mediante el
diagrama de bastones se observa que el 33% de los empleados no tienen hijos, el 35%
tienen un hijo, y el 23% poseen dos hijos.
Seguido a esto, se realizó un análisis de interdependencia de esta variable con la variable
edad. La dependencia de ambas variables fue una consideración necesaria debido a la
ligada relación que existe biológicamente entre los humanos.
Sin embargo, a pesar de existir una relación entre ambas variables, no representan una
función correctamente modelada. Esto se concluye a partir del bajo coeficiente de
correlación R de la tabla 21.
REFERENCIAS.
[1]. (2020). Recuperado el 18 de Abril 2020, de:
http://www.fuenterrebollo.com/Aeronautica2016/contingencia.pdf