Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CURSO
ESTADÍSTICA EMPRESARIAL I
GUÍA DE PRÁCTICA Nº 1
Periodo Académico 2023-1
CASOS DE APLICACIÓN
Profesora Responsable:
1
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CAPÍTULO 1
2
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
TÉRMINOS BÁSICOS DE LA ESTADÍSTICA
Población.- Conjunto de elementos que conforman el universo a ser investigado, claramente definidos en el
espacio y el tiempo. Pueden ser personas, hogares, distritos, empresas, estudiantes universitarios, otros.
Muestra.- Es un subconjunto o una parte del universo, la que se ha seleccionado con el fin de estudiar una o
más características y obtener información acerca de la población de la cual proviene.
Unidad de análisis.- Es el elemento o unidad base de la población o de la muestra del cual se obtendrá datos
referidos a ciertas características o variables, que nos interesan para explicar un determinado fenómeno.
Unidad Reportante.- Es aquella persona que nos brinda la información que se le solicita.
Estadígrafo.- Es el valor calculado en base a los datos que se obtienen en la muestra y por lo tanto; es una
estimación o aproximación al parámetro.
Parámetro.- Es una medida de resumen de toda la población que, se expresa por ejemplo como total,
promedio, proporción, razón, etc.
Variable.- Es una característica de la unidad de análisis cuya medida puede cambiar de valor. Se representa
simbólicamente mediante las letras del alfabeto (X, Y, Z).
3
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
REPASO DE POBLACIÓN, MUESTRA, UNIDAD DE ANÁLISIS,
PARÁMETRO, ESTADÍGRAFO Y VARIABLE
CASOS DE APLICACIÓN
1. Clasifique cada una de las siguientes variables: nominal (N), ordinal (O), discreta (D), continua (C).
2. La gerencia de marketing de una empresa de galletas desea estimar el promedio de cajas de galletas que
se venden por bodega, durante un mes, en el Cercado de Lima. En base al resultado, la empresa debe
decidir si implementa una campaña publicitaria por medios radiales. Se seleccionó una muestra aleatoria
de 150 bodegas y se recolectó información aplicando una encuesta.
Responder las siguientes preguntas :
4
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3. En cada uno de los siguientes enunciados, complete los espacios en blanco:
a. Para realizar un estudio sobre el grado de satisfacción laboral de la empresa ALFA (alto,
medio, bajo) se entrevista a 50 de sus trabajadores que vienen laborando por lo menos tres
años en la empresa.
Población: Todos los trabajadores de la empresa ALFA que vienen laborando por lo menos tres
Muestra: 150 trabajadores de la empresa ALFA que vienen laborando por lo menos tres años en la
empresa (n).
Unidad de análisis: Un trabajador de la empresa ALFA que viene laborando por lo menos tres
años en la empresa.
Variable: Grado de satisfacción laboral de la empresa ALFA (alto, medio, bajo) de un trabajador
Estadígrafo: Monto PROMEDIO de las factura pagada en la empresa distribuidora que conforman
5
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
4. En el siguiente cuadro defina un parámetro y un estadígrafo para cada población y muestra
respectivamente según la variable de interés.
Población Muestra Variable Parámetro Estadígrafo
400 alumnos
Alumnos de la Edad de los alumnos
elegidos al azar de
Universidad de de la Universidad de
la Universidad de
Lima. Lima.
Lima
Condición externa
150 viviendas
Viviendas de la de la vivienda (muy
seleccionadas al
urbanización “Los buena, buena,
azar en toda la
Rosales”. mala).
urbanización.
6
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CAPÍTULO 2
TABLAS DE DISTRIBUCIÓN DE
FRECUENCIAS Y GRÁFICOS
SEGÚN TIPO DE VARIABLES
7
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Uso del software R Studio
R Studio es un software estadístico de libre distribución que abarca todos los aspectos necesarios para el
aprendizaje y la aplicación de la Estadística en general. El programa incorpora opciones vinculadas a las
principales técnicas de análisis estadístico (análisis descriptivo, contrastes de hipótesis, regresión lineal y no
lineal, series temporales, análisis de tiempos de fallo, control de calidad, análisis factorial, ANOVA, análisis
cluster, etc.), además de proporcionar un potente entorno gráfico y de ofrecer total compatibilidad con los
editores de texto, hojas de cálculo y bases de datos más usuales.
Tablas de distribución de frecuencia. - Una tabla de frecuencias (también conocida como distribución de
frecuencias) es una tabla en la que se organizan los datos en categorías o clases, es decir, en grupos de valores
que describen una característica de los datos y muestran el número de observaciones del conjunto de datos que
caen en cada una de las clases.
Cuadro Nº1
Medios de
Comunicación
utilizados fi hi hi%
Internet 15 0.30 30%
Periódicos 12 0.24 24%
Radio 8 0.16 16%
Revistas 5 0.10 10%
Televisión 5 0.10 10%
No respondió 5 0.10 10%
Total 50 1 100%
Fuente: Encuesta realizada por IKKF Marketing - Mayo
2015
Gráficos estadísticos. - Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se
pueda percibir fácilmente los hechos esenciales y compararlos con otros.
Gráfico Nº 1
Escuela de Negocios: Distribución de estudiantes se gún núme ro
de cursos de saprobados - Semestre ante rior
10
10
N ú m ero de estu dia ntes
9
8 7
7 6 6
6 5
5 4
4
3 2
2
1
0 1 2 3 4 5 6
Número de cursos desaprobados
Fuente: Archivo de notas de la Escuela de Negocios
Tablas de doble entrada.- son aquellas tablas de datos referentes a dos variables, estas tablas se forman por
filas y columnas y en la primera fila o primera columna, se ubican las categorías de las variables y en las
casillas la frecuencia o el número de elementos de las categorías de las variables en conjunto.
8
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 1: INDUSTRIAL TOOLS
9
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
1. En el contexto del caso presentado, identifique y defina lo siguiente:
Población: N = Todos los trabajadores de las de administración y operaciones de Industrial
Tools.
Indique cuáles son las variables cualitativas: Género, Area, Estado Civil, Condición Laboral,
AFP.
Indique cuáles son las variables cuantitativas: Sueldo, Edad, Tiempo de servicio.
10
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
4. Haga lo mismo que el ítem 4 con los datos de las columnas 2, 5, 6 y 8. Guarde los nuevos datos en su
respectiva columna.
# Observación: Recuerde que ya temenos instalado el paquete Car.
#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación de las
variables cualitativas: AREA (columna 2), ESTADO CIVIL (columna 5), CONDICION LABORAL
(columna 6), AFP (columna 8).
library(car)
#Ahora vamos a generar una variable CUALITATIVA que denominaremos NIVEL_ SUELDO a partir
de una variable CUANTITATIVA (SUELDO). Esto se hará con una recodificación por RANGOS.
library(car)
#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:
#Observación: Al haber denominado a la nueva variable cualitativa con un nombre distinto (en este caso
NIVEL_SUELDO) aparecerá en la base de datos una columna adicional con la nueva variable cualitativa
(FACTOR) NIVEL_SUELDO. Si se hubiera denominado a la variable recodificada con el mismo nombre
(SUELDO) se perderían los datos originales de la variable Sueldo.
11
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
6. Construya la tabla de distribución de frecuencias para la variable estado civil (columna 5) y complete
los datos de la siguiente tabla:
Tabla No. 7A
Distribución del personal según estado civil
Industrial Tools – Áreas Administración y Operaciones
ESTADO CIVIL CONTEO( f i) PORCENTAJE (hi %)
Casado 8 3.59
Divorciado 57 25.56
table(herramientasR$ECIVIL)
# Para obtener las freciencias relativas simples (hi) primero debemos guardar como un objeto las
frecuencias absolutas simples:
fi_ECIVIL<-table(herramientasR$ECIVIL)
#Observación: Ahora podemos observar en la ventana 2 de R Sudio el nuevo objeto creado que hemos
denominado fi (frecuencias absolutas simples correspondientes a la variable Estado Civil)
prop.table(fi_ECIVIL)
round(prop.table(fi_ECIVIL),4)
# Ahora guardamos las frecuencias relativas simples como un objeto (hi) de esta manera:
hi_ECIVIL <-round(prop.table(fi_ECIVIL),4)
#Observación: Ahora podemos observar en la ventana 2 de R Sudio el nuevo objeto creado que hemos
denominado hi (frecuencias relativas simples correspondientes a la variable Estado Civil)
# Acontinuación para tener las frecuencias relativas simples en porcentaje (%) creamos el nuevo
objeto que denomimos pi_ECIVIL:
pi_ECIVIL<- hi_ECIVIL*100
12
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
cbind(fi_ECIVIL, pi_ECIVIL)
table(herramientasR$ECIVIL)
fi_ECIVIL<-table(herramientasR$ECIVIL)
prop.table(fi_ECIVIL)
round(prop.table(fi_ECIVIL),4)
hi_ECIVIL <-round(prop.table(fi_ECIVIL),4)
pi_ECIVIL <- hi_ECIVIL*100
cbind(fi_ECIVIL, pi_ECIVIL)
De manera similar construya la tabla de distribución de frecuencias para la variable AFP a la que esté
inscrita el trabajador y para la variable nivel de sueldo.
table(herramientasR$AFP)
fi_AFP<-table(herramientasR$AFP)
prop.table(fi_AFP)
round(prop.table(fi_AFP),4)
hi_AFP<-round(prop.table(fi_AFP),4)
13
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
pi_AFP <- hi_AFP*100
cbind(fi_AFP, pi_AFP)
table(herramientasR$NIVEL_SUELDO)
fi_NIVEL_SUELDO<-table(herramientasR$NIVEL_SUELDO)
prop.table(fi_NIVEL_SUELDO)
round(prop.table(fi_NIVEL_SUELDO),4)
hi_NIVEL_SUELDO <-round(prop.table(fi_NIVEL_SUELDO),4)
pi_NIVEL_SUELDO <- hi_NIVEL_SUELDO *100
cbind(fi_NIVEL_SUELDO, pi_NIVEL_SUELDO)
a. De los 223 trabajadores 8 son casados; es decir, el 3.59 % del total de trabajadores son
casados.
c. De los 223 trabajadores 48 de ellos tienen un Nivel de Sueldo 2 o 3 lo cual representa el 21.52 %
OBSERVACIÓN: o es suma.
31 + 17 = 48 trabajadores tienen nivel de sueldo 2 o 3
48 / 223*100 = 21.52 %
Otra forma:
13.90 + 7.62 = 21.52 %
14
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
8. Recodifique convenientemente los datos de la columna años de servicio y luego complete el siguiente
enunciado:
De los 223 trabajadores el número de trabajadores que tienen 10 o más años de servicio en
la empresa es igual a 7 lo cual representa el 3.14 %
.
Se observan dos grupos según los años de servicio:
Primero vamos a
generar una variable CUALITATIVA que denominaremos
CATEGORÍA_TSERVICIO a partir de una variable CUANTITATIVA (TSERVICIO). Esto se
hará con una recodificación por RANGOS.
herramientasR$CATEGORÍA_TSERVICIO=recode(herramientasR$TSERVICIO,"0:9.999=
'GRUPO1';10:max(herramientasR$TSERVICIO)='GRUPO2'")
# De esta manera aparecerá en la base de datos una columna adicional con la nueva variable
cualitativa (FACTOR) CATEGORÍA_TSERVICIO.
.
# Después de la recodificación, se generan las frecuencias absolutas y relativas para la nueva
variable cualitativa denominada CATEGORÍA_TSERVICIO:
table(herramientasR$CATEGORÍA_TSERVICIO)
fi_CATEGORÍA_TSERVICIO<-table(herramientasR$CATEGORÍA_TSERVICIO)
prop.table(fi_CATEGORÍA_TSERVICIO)
round(prop.table(fi_CATEGORÍA_TSERVICIO),4)
hi_CATEGORÍA_TSERVICIO <-round(prop.table(fi_CATEGORÍA_TSERVICIO),4)
pi_CATEGORÍA_TSERVICIO<- hi_CATEGORÍA_TSERVICIO*100
cbind(fi_CATEGORÍA_TSERVICIO, pi_CATEGORÍA_TSERVICIO)
Tabla No. 9
Distribución del personal según género y área de trabajo
Industrial Tools – Áreas Administración y Operaciones
GÉNERO
ÁREA TOTAL
Femenino Masculino
Administración 21 27 48
table(herramientasR$AREA,herramientasR$GENERO)
# Para obtener la tabla con los totales en filas y columnas:
# primero guardamos la tabla como un objeto:
tabla10<- table(herramientasR$AREA,herramientasR$GENERO)
# A continuación:
addmargins(tabla10)
10. Complete la tabla No. 10 y los espacios en blanco del siguiente enunciado:
De los trabajadores varones 36 son casados o divorciados; es decir el 27.07 %
36 = 6 + 30
36 / 133*100 = 27.07 %
Del total de trabajadores en general, el número de trabajadores hombres que son casados
o divorciados es igual a 36 ; lo cual representa el 16.14 %
36 / 223* 100 = 16.14 %
16
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Tabla No. 10
Distribución del personal según género y estado civil
Industrial Tools – Áreas Administración y Operaciones
GÉNERO
ESTADO CIVIL TOTAL
Femenino Masculino
Casado 2 6 8
Divorciado 27 30 57
Soltero 60 94 154
Viudo 1 3 4
Total 90 133 223
table(herramientasR$ECIVIL,herramientasR$GENERO)
tabla11<- table(herramientasR$ECIVIL,herramientasR$GENERO)
addmargins(tabla11)
11. Genere las tablas de doble entrada que considere conveniente para completar los espacios en blanco de
los siguientes enunciados:
a. De los trabajadores del área de administración, 31 tienen nivel de sueldo 2; lo cual representa el
64.58 %
table(herramientasR$AREA,herramientasR$NIVEL_SUELDO)
tabla12<- table(herramientasR$AREA,herramientasR$NIVEL_SUELDO)
addmargins(tabla12)
b. Del total de trabajadores, 17 son del área de administración y tienen nivel de sueldo 3; lo cual
representa el 7.62 %
Variables de interés: AREA / NIVEL DE SUELDO (que obtuvimos recodificando)
17 / 223*100 = 7,62%
17
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
c. De los trabajadores solteros, 5 tienen 10 o más años de servicio; lo cual representa el 3.25 %
table(herramientasR$ECIVIL,herramientasR$CATEGORÍA_TSERVICIO)
tabla13<-table(herramientasR$ECIVIL,herramientasR$CATEGORÍA_TSERVICIO)
addmargins(tabla13)
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso herramientasR.
El archivo herramientasR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo herramientasR
18
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CAPÍTULO 3
19
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Medidas de Tendencia Central, dispersión, de cuantía y de asimetría
Las medidas estadísticas son aquellas que permiten resumir información proveniente de una muestra o
población y tienen por objeto, obtener un valor que resuma en sí todas las mediciones. Estas medidas
aplicadas a las características de las unidades de una muestra se denominan estadísticos o estadígrafos;
mientras que aplicadas a poblaciones se les denomina parámetros de la población.
- Medidas de tendencia central: Media aritmética, mediana y moda
- Medidas de posición: Cuartiles, percentiles
- Medidas estadísticas de variabilidad: Rango, rango intercuartil, varianza, desviación Estándar,
coeficiente de variación. medidas de forma: coeficiente de asimetría
ESTADIGRAFO DATOS NO AGRUPADOS
n
Media Aritmética
∑ xi
i=1
X̄ =
n
K ( n+1)
W=
100
Y : parte entera
Mediana
Z : parte decimal
K ( n+1)
W=
100
Y : parte entera
Percentiles
Z : parte decimal
P K = X(Y ) + Z [X Y +1−X ( Y ) ]
n
∑ x 2i − n x̄ 2
i=1
Varianza S2 = =
n−1
Coeficiente de S
CV X = × 100 %
| X|
variación
20
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3(X −M e )
Coeficiente de asimetría de Pearson : A Pearson=
S
X −Mo
A Pearson=
S
CASO 2: PARQUE AUTOMOTOR
Una entidad de gobierno está interesada en conocer la antigüedad del parque automotor de servicio de
transporte público en Lima Metropolitana con la finalidad de lanzar el proyecto de Chatarreo; en la
actualidad se han inscrito 8 empresas para acogerse a tal proyecto. Se ha elegido aleatoriamente 3
empresas inscritas para la verificación de la información presentada. Las variables que se han evaluado
son:
Column Notación de la Descripción de la Indique el tipo de variable
a variable variable (cuantitativa / cualitativa)
C1 MARCA Marca del vehículo Cualitativa nominal
antigüedad del
C2 ANTIGÜEDAD vehículo (en años). Cuantitativa
Tipo de vehículo:
C3 TIPO Cualitativa nominal
microbús, combi, bus
Número de asientos
C4 N_ASIENTOS por cada unidad Cuantitativa
automotriz
Tipo de combustible
utilizado por el
C5 T_COMBUSTIBLE Cualitativa nominal
vehículo (petróleo,
gasolina).
Los datos se encuentran en el archivo en Excel denominado chatarreo disponible en su aula virtual.
21
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
chatarreoR
Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: chatarreoR.
El conjunto de datos chatarreoR tiene 200 filas y 5 columnas.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.
ESTADÍSTICOS DE TENDENCIA
CENTRAL Número de datos
TIPO DE VEHÍCULO
Promedio (media) Mediana (Número de vehículos)
20.86076 21 79
Buses
22.51667 23 60
Combis
21.37705 21 61
Microbuses
200
TOTAL
50% 50%
22
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Mediana
Media
d. Menos del 50% de los datos tienen una antigüedad mayor a su promedio en los vehículos de
tipo microbuses.
Observación: Menos del 50% de los datos son mayores a la media cuando la media (promedio)
es mayor que la mediana.
50% 50%
Mediana
Media
Tabla No. 2A
Tabla No. 2B
Buses 25 9
Combis 26 9
16; 19; 5
Microbuses
22; 26
Hallaremos la moda con RStudio.
Instalar el paquete DescTools (en la ventana 4: Packges / Install / DescTools /
Install)
En la ventana No. 1 digitar:
# Para llamar al paquete antes instalado:
library(DescTools)
# Para hallar la moda para todos los vehículos (sin clasificar por grupos):
# Observación: escribir Mode con la primera letra mayúscula:
Mode(chatarreoR$ANTIGÜEDAD)
23
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar la moda clasificando por grupos:
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,Mode)
24
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3. Con la información de la variable antigüedad, desagregando por tipo de combustible y
marca, complete las tablas y los espacios en blanco de los enunciados que se presentan a
continuación:
TABLA No. 3A TABLA No. 3B
VEHÍCULOS GASOLINEROS VEHÍCULOS PETROLEROS
Medidas de tendencia central Medidas de tendencia central
MARCA MARCA
Promedio (media) Mediana Promedio (media) Mediana
# IMPORTANTE: No se debe escribir con tildes para nombrar los archivos, las variables, ni los niveles
de las variables categóricas.
25
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
d. En los vehículos petroleros de las marcas Mercedes Benz y Scania se tiene que más del 50%
de unidades tienen una antigüedad mayor a su promedio.
Observación: Esto ocurre cuando la media es menor que la mediana.
50% 50%
Mediana
Media
e. En los vehículos petroleros de la marca Dodge se tiene que menos del 50% de
unidades tienen una antigüedad mayor a su promedio.
Observación: Esto ocurre cuando la media es mayor que la mediana.
50% 50%
Mediana
Media
4. Suponer que el costo mensual de mantenimiento de un bus es, en promedio, 150 soles; de
una combi es, en promedio, 90 soles; y de un microbús es, en promedio, 120 soles..
Complete la tabla y los espacios en blanco del enunciado que se presentan a
continuación:
El costo promedio mensual GLOBAL mensual de mantenimiento de un vehículo es igual a :
……………… Soles.
TABLA No. 4
Números Hi Costo por Costo
Costo número de ponderado
de
TIPO DE VEHÍCULO
promedio vehículos (con (con hi)
vehículos
(datos) fi)
(fi: ni)
79 39.5 150 * 79 = 150 * 0.395 =
Buses 150 11850 59.25
60 30.0 90 * 60 = 90 * 0.30 =
Combis 90 5400 27
MEDIA TOTAL O
GLOBAL 24570 / 200 = 122.85 Soles
26
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar las frecuencias absolutas y relativas:
table(chatarreoR$TIPO)
fi_TIPO<-table(chatarreoR$TIPO)
prop.table(fi_TIPO)
round(prop.table(fi_TIPO),4)
hi_TIPO<-round(prop.table(fi_TIPO),4)
cbind(fi_TIPO, hi_TIPO)
MEDIA GLOBAL:
Forma 1: Con las frecuencias absolutas (ni)
MEDIA GLOBAL: (Costo promedio buses*n1 +Costo promedio combis*n2 + Costo promedio
microbuses*n3 ) / (n1 + n2 + n3 )
= 24570 / 200 = 122.85 Soles
# Para calcular los percentiles: P25, P50, P75 sin generar grupos: incluimos
sólo a la variable cuantitativa; en este caso: N_ASIENTOS.
quantile(chatarreoR$N_ASIENTOS,type=6)
# Si sólo quisiéramos calcular un percentil; por ejemplo el P25:
27
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
quantile(chatarreoR$N_ASIENTOS,0.25,type=6)
TABLA No. 5B
MEDIDAS DE POSICIÓN
TIPO DE
VEHÍCULO Q2 = Mediana =
Q1 = P25 Q3=P753
P50
Buses 40.000 42.000 44.000
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,quantile,type=6)
# Si sólo quisiéramos el percentil 25 por grupos.
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,quantile,0.25,type=6)
a. Para todos los vehículos: Analizando la variable número de asientos
El valor de Q1 (Percentil 25) es igual a 17.250 y representa el valor máximo
del 25% inferior (vehículos con el menor número de asientos) y también es
equivalente al valor mínimo del 75% superior (vehículos con el mayor número de
asientos).
P10
quantile(chatarreoR$ANTIGÜEDAD,0.10,type=6)
P20
quantile(chatarreoR$ANTIGÜEDAD,0.20,type=6)
P90
quantile(chatarreoR$ANTIGÜEDAD,0.90,type=6)
d. El 70% central de los datos de la variable antigüedad se encuentran entre 15 años y 28 años.
Estos valores representan los percentiles 15 y 85 respectivamente.
15% 70% 15%
P15 P85
quantile(chatarreoR$ANTIGÜEDAD,0.15,type=6)
quantile(chatarreoR$ANTIGÜEDAD,0.85,type=6)
29
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Hallaremos los percentiles con RStudio.
# Para hallar un percentil en particular de una variable cuantitativa clasificando por
grupos:
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$T_COMBUSTIBLE, quantile,valor del
percentil,type=6)
a. Para la variable antigüedad, en el caso de los vehículos gasolineros el valor mínimo del 10
% superior es equivalente al valor máximo del 90% inferior y es igual a 28 años; mientras
que para los vehículos petroleros es igual a 29.9 años. Este valor representa el Percentil 90
90% 10%
P90
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$T_COMBUSTIBLE,quantile,0.90,type=6)
b. Para la variable antigüedad de las combis el valor máximo del 20% inferior es equivalente al
valor mínimo del 80% superior y es igual a 17.2 años. Este valor representa el Percentil 20
20%
P20
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,quantile,0.20,type=6)
30
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar el cv para todos los vehículos (por grupos):
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,cv)
#observación: escribir cv en minúscula
mean(chatarreoR$N_ASIENTOS)
median(chatarreoR$N_ASIENTOS,tipe=6)
sd(chatarreoR$N_ASIENTOS)
3*(mean(chatarreoR$N_ASIENTOS)-median(chatarreoR$N_ASIENTOS))/
sd(chatarreoR$N_ASIENTOS)
# observación: escribir mean, median y sd en minúscula.
Tabla No. 9B
Tipo de
Desviación Coeficiente de asimetría
TIPO DE estándar asimetría
Media Mediana
VEHÍCULO (Pearson)
31
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Combis 15.73333 15 2.392550 0.9195212 Positiva
Microbuses 29.34426 30 4.003687 -0.4913504 Negativa
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median)
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
3*(tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)-
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median))/
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
# observación: escribir mean, median y sd en minúscula.
14. Con la información de la variable antigüedad, desagregada por marca, realice los
diagramas de cajas y complete los espacios en blanco de los enunciados que se presentan
a continuación:
a. Para la variable antigüedad, se observa mayor asimetría en la marca Scania(existe
mayor distancia entre la media y la mediana).
b. Para la variable antigüedad en la marca Scania se observa la mayor asimetría negativa
(la media es menor que la mediana).
c. Para la variable antigüedad, si consideramos en cada marca el cuarto (25%) superior, se
observa mayor homogeneidad en la marca Scania
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso chatarreoR.
El archivo chatarreoR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo chatarreoR
33
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 3: EMPRESA T_APOYO
Los datos recogidos se muestran en el archivo en Excel telefonia disponible en su aula virtual.
Inicie una sesión del programa R-Studio.
Inicie una sesión del programa R-Studio.
Cargar la base de datos: En la Ventana 2 (datos y objetos):
Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
telefoniaR
Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: telefoniaR.
El conjunto de datos telefoniaR tiene 300 filas y 6 columnas.
34
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.
CATEGORÍA DE GÉNERO
TOTAL
GASTO
Femenino Masculino
A1 15 15 30
A2 73 80 153
A3 56 61 117
library(car)
#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:
#Observación: Al haber denominado a la nueva variable cualitativa con un nombre distinto (en este
caso C_GASTO) aparecerá en la base de datos una columna adicional con la nueva variable
cualitativa: C_GASTO. Si se hubiera denominado a la variable recodificada con el mismo nombre
(GASTO) se perderían los datos originales de la variable Gasto.
35
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Elegir la variable cuantitativa a recodificar. En este caso: GASTO que se recodificará para generar la
variabla cualitativa (FACTOR) que denominaremos: C_GASTO.
table(telefoniaR$C_GASTO,telefoniaR$GENERO)
tabla1<- table(telefoniaR$C_GASTO,telefoniaR$GENERO)
addmargins(tabla1)
a. De los clientes de género masculino se encuentra que 95 de ellos tienen categoría de
gasto A1 o A2; lo cual representa el 60.89 %
OBSERVACION: o es suma.
(15 + 80) / 156 = 60.89 %
b. Del total de clientes se encuentra que 95 de ellos son de género masculino y tienen
categoría de gasto A1 o A2; lo cual representa el 31.67. %
OBSERVACION: o es suma.
(15 + 80) / 300 = 31.67 %
2. Considerando la información de las variables que correspondan, complete la tabla y los
espacios en blanco de los enunciados que se presentan a continuación:
Tabla No. 2
EMPRESA TOTAL
RANGO DE EDAD
Claro Nextell Telefónica Total
36
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Primero: Recodificamos la variable EDAD para generar la variabla cualitativa (FACTOR) Rango
de edad que denominaremos: R_EDAD, considerando los siguientes intervalos:
Menos de 25 años: [0 – 25 >
De 25 años a más: [ 25 – el mayor valor ]
# Llamar al paquete car
library(car)
#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:
table(telefoniaR$R_EDAD,telefoniaR$EMPRESA)
tabla1<-table(telefoniaR$R_EDAD,telefoniaR$EMPRESA)
addmargins(tabla1)
a. De entre los clientes que tienen menos de 25 años de edad se encuentra que 68 de
ellos usan teléfonos de la empresa Claro, lo cual representa el 58.12 %
68 / 117 = 58.12 %
b. Del total de clientes se encuentra que 68 de ellos tienen menos de 25 años de edad y
usan teléfonos de la empresa Claro; lo cual representa el 22.67. %
68 / 300 = 22.67 %
3. Considerando la información sobre las variables de estudio, halle el valor de las medidas
estadísticas para completar la tabla y los espacios en blanco de los enunciados que se
presentan a continuación:
Tabla No. 3
GASTO
Medidas de tendencia central
EMPRESA
Promedio (media) Mediana
Claro 84.93711 85
Nextell 82.12 82
50% 50%
NEXTEL:
Mediana
Media
Promedio
(media) Mediana
38
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
DIVDISTRITO=split(telefoniaR,telefoniaR$`DISTRITO`)
# Ahora con la función tapply se obtiene la media y la mediana de la variable antigüedad por
marca para los usuarios de telefonía de SAN ISIDRO.
En la ventana No. 1 digitar:
a. Considerando a los residentes del distrito de San Isidro, el gasto promedio de los
usuarios de telefonía de género masculino es igual a 90.24390 mientras que el gasto
promedio de los usuarios de telefonía de género femenino es igual a 89.41176 Entonces
podemos afirmar que el gasto de telefonía en mayor en los clientes de género masculino.
50% 50%
SAN ISIDRO:
MUJERES Mediana
Media
39
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
5. Considerando la información del gasto de los usuarios de telefonía, halle el valor de las
medidas estadísticas para completar la tabla y los espacios en blanco de los enunciados
que se presentan a continuación:
Tabla No. 4
GASTO
Medidas diversas de tendencia central, posición y dispersión
DISTRITO
DE No. de datos
RESIDENCI (No. de
A Promedio Mediana Desviación Coeficiente de usuarios de
CV (%) (media) =Q2 = estándar asimetría telefonía)
P50 (Pearson)
Procedimiento alternativo: Hallar las estadísticas con RStudio: CV, media, mediana, desviación estándar
y coeficiente de asimetría de Pearson.
40
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Calcular el coeficiente de asimetría de Paerson
3*(tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,mean)-
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,median))/
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,sd)
# En la ventana 1 de R Studio para hallar el número de usuarios de telefonía por Distrito (fi):
table(telefoniaR$DISTRITO)
a. Para la variable gasto de los usuarios de telefonía en el distrito de San Miguel se encuentra que
el promedio es igual a 87.95775 Soles y es menor que la mediana.
f. Si comparamos el gasto de los usuarios de telefonía residentes en los distritos de San Miguel y
Santiago de Surco podemos afirmar que el gasto de telefonía en el distrito de San Miguel tiene
una asimetría menor. (menor /igual/ mayor) a la asimetría que se observa en el Santiago de
Surco.
41
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
b. La distribución de las edades de los usuarios de la Empresa Nextell presenta asimetría
positiva (positiva / negativa) mientras que en los usuarios de la Empresa Telefónica se
observa una asimetría negativa (positiva / negativa)
c. En la distribución de las edades de los usuarios de la Empresa Telefónica se observa
mayor heterogeneidad en el 25% inferior (inferior / superior) de los datos en
comparación con el 25% superior. (inferior / superior). En el diagrama de cajas se
observa que el bigote inferior es más grande (pequeño / grande / del mismo tamaño) que
el bigote superior.
Con RStudio:
MEDIA:
Claro Nextell Telefónica
5.93711 24.60000 27.03448
MEDIANA:
Claro Nextell Telefónica
26 23 28
7. Considerando el gasto de los usuarios de telefonía, halle el valor de los percentiles para
completar los espacios en blanco de los enunciados que se presentan a continuación:
Hallamos los percentiles con RStudio.
# Para hallar un percentil en particular de una variable cuantitativa (sin clasificar por
grupos):
quantile(telefoniaR$GASTO,valor del percentil,type=6)
a. El gasto máximo del 10% de usuarios de telefonía que presentan el menor gasto es el
Percentil 10.y su valor es igual a 49.2 Soles.
10% 90%
P10
quantile(telefoniaR$GASTO,0.10,type=6)
# V. cuantitativa: GASTO / no se requiere generar grupos / estadística: P10
b. El gasto mínimo del 20% de usuarios de telefonía que presentan el mayor gasto es el
Percentil 80 y su valor es igual a 121.8 Soles.
80% 20%
P80
quantile(telefoniaR$GASTO,0.80,type=6)
c. El gasto mínimo del 20% de usuarios de telefonía hombres que presentan el mayor gasto
es el Percentil 80.y su valor es igual a 116 Soles.
80% 20%
usuarios hombres
P80
tapply(telefoniaR$GASTO,telefoniaR$GENERO,quantile,0.80,type=6)
V. cuantitativa: GASTO / se requiere generar grupos: V. cualitativa (factor): GENERO
d. Los valores del gasto entre los cuales se encuentran el 60% central de los usuarios de
telefonía son el Percentil 20.y el Percentil 80 El valor de estas medidas de posición son
57.8 Soles y 121.8 Soles, respectivamente.
20% 60% 20%
P20 P80
quantile(telefoniaR$GASTO,0.20,type=6)
quantile(telefoniaR$GASTO,0.80,type=6)
43
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
d. El valor del Rango Intercuartil para el gasto en telefonía es igual a 48 Soles y se
encuentra entre el Percentil 25 y el Percentil 75. El valor de estas medidas de posición
son 68 Soles y 116 Soles, respectivamente.
25% 50% 25%
P25 P75
quantile(telefoniaR$GASTO,0.25,type=6)
quantile(telefoniaR$GASTO,0.75,type=6)
IQR(telefoniaR$GASTO,type=6)
e. El valor del Rango Intercuatil para el gasto en telefonía de las usuarias mujeres es igual
a 47.25 Soles y se encuentra entre el Percentil 25 y el Percentil 75.
tapply(telefoniaR$GASTO,telefoniaR$GENERO,IQR,type=6)
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso telefoniaR.
El archivo telefoniaR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo telefoniaR
44
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 4: EMPRESA DATA SERVIS
La empresa “Data-Servis” realizó un estudio para una empresa automotriz con la finalidad de conocer
algunas características de los vehículos que utilizan los jefes de hogar tales como su categoría y precio; el
estudio se llevó a cabo en Lima Metropolitana.
1. ¿Se puede afirmar que la edad máxima de la mitad (50%) de los jefes del hogar que
tienen categoría de vehículo estándar es mayor que la de los jefes de hogar que tienen
categoría de vehículo lujoso? La mediana es mayor en los jefes del hogar que tienen
categoría de vehículo Lujoso (49.50).
2. ¿En qué categoría de los vehículos los precios son más heterogéneos? (justifique su
respuesta con la medida estadística que corresponda). En la categoría Lujoso porque el
CV es el mayor (36.36 %).
Categoría de Vehículo Coeficiente Variación
variable : Precio del vehículo
Económico 23.10
Estándar 21.09
Lujoso 36.36
45
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3. ¿Es la distribución de los precios de los automóviles más asimétrica en los clientes que tienen
vehículos de categoría estándar que los que tienen categoría lujosa? Si, porque el AS – Pearson es
mayor en la categoría Estándar (- 0.60).
Categoría de Vehículo Coeficiente Pearson
variable : Precio del vehículo
Económico 0.04 (asimetría positiva)
Estándar -0.60 (asimetría negativa)
Lujoso 0.49 (asimetría positiva)
5. ¿Entre que valores se encuentra el 70% central de datos de la distribución de la variable edad?¨
15% 70% 15%
P15 P85
P15: 27 años.
P85: 56 años.
6. Comente el diagrama de cajas de la variable precio del vehículo según categoría y responda:
¿En qué categorías de los vehículos, el precio promedio es mayor a los demás? Categoría
Lujoso.
80
Precio vehiculo
60
40
20
0
económico estándar lujoso
Categoria _vehic
46
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
7. Presentan los datos de la variable precio del vehículo, según categorías, valores atípicos u
outliers. Si es así, indique en qué categoría. ¿En este caso, qué medida de tendencia central sería
conveniente utilizar, la media o la mediana? No hay valores atípicos entonces mejor medida de
tendencia central es la media.
8. ¿En qué categoría de los vehículos la variable precio presenta mayor dispersión en el 50% central
de los datos? Justifique su respuesta. En la categoría Lujoso (el ancho de la caja es mayor).
9. ¿En qué categoría de los vehículos la variable precio presenta menor dispersión en el 25%
superior de los datos? Justifique su respuesta. En la categoría económico (el bigote superior es el
más pequeño).
10. ¿En qué categoría de los vehículos la variable precio presenta mayor dispersión en el 25%
inferior de los datos? Justifique su respuesta. En la categoría lujoso (el bigote inferior es el más
grande).
47
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 5: LOS PRACTICANTES
48
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.
1. Con las variables de estudio que considere conveniente genere las tablas de frecuencias y
complete los espacios en blanco de los enunciados que se presentan a continuación:
# Variables de estudio: fila: LINEA y columna: RENDIMIENTO
table(practicantesR$LINEA,practicantesR$RENDIMIENTO)
tabla1<- table(practicantesR$LINEA,practicantesR$RENDIMIENTO)
addmargins(tabla1)
2. Se sabe que los practicantes que elaboraron menos de 6 informes se les asignó la
categoría B (CB) y al resto de los practicantes a la categoría A (CA).
Con las variables de estudio que considere conveniente genere las tablas de frecuencias y
complete los espacios en blanco de los enunciados que se presentan a continuación:
Primero: Recodificamos:
# variable cuantitativa a recodificar: INFORMES que se recodificará para generar la variabla
cualitativa (FACTOR) que denominaremos: CATEGORIA.
library(car)
#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:
practicantesR$CATEGORIA=recode(practicantesR$INFORMES,"0:5.99='CB';6:max(practicantesR$INFO
RMES)= 'CA'")
#Observación: Al haber denominado a la nueva variable cualitativa con un nombre distinto (en este
caso CATEGORIA) aparecerá en la base de datos una columna adicional con la nueva variable
cualitativa: CATEGORIA. Si se hubiera denominado a la variable recodificada con el mismo nombre
(INFORMES) se perderían los datos originales de la variable Informes.
49
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Después: hallamos la tabla de frecuencias absolutas simples
3. Con las variables de estudio que considere conveniente halle las medidas estadísticas que
le permitan completar los espacios en blanco de los enunciados que se presentan a
continuación:
a. El menor PPA promedio corresponde a los practicantes asignados a un proyecto de la
Línea de investigación L1 ; este promedio es igual a 13.97500
# Media del PPA por grupos (con la variable cualitativa LINEA)
tapply(practicantesR$PPA,practicantesR$LINEA,mean)
P80
quantile(practicantesR$HORAS,0.80,type=6)
P90
tapply(practicantesR$PPA,practicantesR$CARRERA,quantile,0.90,type=6)
50
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
d. La variación relativa de las horas de dedicación de los practicantes de la Carrrea de
Negocios Internacionales es igual a 5.114909 % y para los practicantes de la Carrera
de Administración es igual a 5.324210 %. Por tanto, se puede afirmar que en la
distribución de los datos de la variable horas dedicación existe mayor (menor / igual /
mayor) homogeneidad en los practicantes de la Carrera de Negocios Internacionales en
comparación los practicantes de la Carrera de Administración.
library(raster)
# Coeficiente de Variación del PPA por grupos (con la variable cualitativa CARRERA)
tapply(practicantesR$HORAS, practicantesR$CARRERA,cv)
# las iniciales del Coeficiente de Variación se escriben en minúscula
Con RStudio:
DIV_LINEA =split(practicantesR,practicantesR$`LINEA`)
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso practicantesR.
El archivo practicantesR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo practicantesR
51
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 6: EVALUACIÓN DE PRACTICANTES
En un estudio realizado en la Empresa Alfa SRL para evaluar el desempeño de sus practicantes
(estudiantes universitarios y recién egresados) en las áreas operativas de las empresas del grupo (Calidad,
Compra, Logística, Producción) que operan a nivel nacional, se recabaron datos de una muestra,
considerándose las siguientes variables para el análisis:
Indique el tipo
Notación de la de variable
Columna Descripción de la variable
variable (cuantitativa /
cualitativa)
Área operativa de la empresa: Calidad,
C1 AREA Compras, Logística y Producción.
52
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
UNIDAD DE ANÁLISIS: Un practicante.
NOTA: Los niveles de pago a los practicantes corresponden a los siguientes rangos:
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.
1. Con las variables que considere conveniente genere las tablas de frecuencias y complete
los espacios en blanco de los enunciados que se presentan a continuación:
Primero: Realizamos dos recodificaciones:
Primera recodificación:
# Con la variable cuantitativa PAGO, realizando una recodificación por Rangos, generamos la
variabla cualitativa Nivel de Pago (FACTOR) que denominaremos: N_PAGO.
# Llamar al paquete car
library(car)
#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:
evaluacR$N_PAGO=recode(evaluacR$PAGO,"0: 1199.99='Nivel1';1200:1259.999='Nivel2';
1260:max(evaluacR$PAGO)= 'Nivel3'")
Segunda recodificación:
# Con la variable cuantitativa EDAD, realizando una recodificación por Rangos, generamos la
variabla cualitativa Rango de edad (FACTOR) que denominaremos: R_EDAD.
53
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Segundo: Generamos la tabla de frecuencias:
b. Del total de practicantes con un nivel de pago 2 (Nivel2), el número de practicantes que
tienen menos de 24 años es igual a 19 ; lo cual representa el 79.1667.%
2. Con las variables de estudio que considere conveniente calcule las medidas de tendencia
central y de posición para completar los espacios en blanco de los enunciados que se
presentan a continuación:
a. Para los practicantes en general, el pago promedio es igual a 1399.86 Soles y la
mediana es igual a 1415 Soles. Con estos resultados podemos afirmar que …………..
(menos / más) del 50% de los datos correspondientes al pago son menores que la media.
Esta situación ocurre cuando la media es menor que la mediana (mediana / varianza /
desviación estándar).
50% 50%
Mediana
Media
# Con RStudio:
mean(evaluacR$PAGO)
median(evaluacR$PAGO)
b. Para los practicantes del área de calidad el pago promedio es igual a 1421.364 Soles y
la mediana es igual a 1430 Soles. Con estos resultados podemos afirmar que menos .
(menos / más) del 50% de los datos correspondientes al pago son menores que la media.
Esta situación ocurre cuando la media es menor (menor / igual / mayor) que la mediana.
50% 50%
54
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Area:
calidad Mediana
Media
# Con RStudio:
tapply(evaluacR$PAGO,evaluacR$AREA,mean)
tapply(evaluacR$PAGO,evaluacR$AREA,median)
c. Para los practicantes en general, el pago (sin distinguir el nivel de pago), el 80%
central de los datos se encuentra entre 990 Soles y 1700 Soles; estas medidas de posición
representan el Percentil 10 y el Percentil 90
P10 P90
# Con RStudio:
quantile(evaluacR$PAGO,0.10,type=6)
quantile(evaluacR$PAGO,0.90,type=6)
d. De las practicantes mujeres, el tiempo de práctica mínimo por encima del cual se
encuentra el 25% de practicantes con mayor tiempo de práctica (25% superior) es igual a
6 años.
75% 25%
Mujeres
P75=Q3
Con RStudio:
tapply(evaluacR$TIEMPO,evaluacR$GENERO,quantile,0.75,type=6)
3. Con las variables de estudio que considere conveniente calcule las medidas de
dispersión para completar los espacios en blanco de los enunciados que se presentan a
continuación:
a. En el área de calidad se observa mayor homogeneidad en la distribución de la variable
pago a los practicantes con un Coeficiente de Variación igual a 18.06935 %.
# Con RStudio:
library(raster)
tapply(evaluacR$PAGO,evaluacR$AREA,cv)
55
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
b. Para las practicantes mujeres. En el área de logística se observa mayor homogeneidad
en la distribución de la variable pago a los practicantes con un Coeficiente de
Variación igual a 12.75819 %.
# Escribir cv (en minúscula)
# para obtener el cv primero fue necesario instalar el paquete raster y llamarlo:
# Con RStudio:
DIV_GENERO=split(evaluacR,evaluacR$`GENERO`)
library(raster)
tapply(DIV_GENERO$mujer$PAGO, DIV_GENERO$mujer$AREA, cv)
c. Supongamos que el grupo empresarial decide aumentar el pago a todos los practicantes en
general en 10% y otorgarles un bono por movilidad de S/. 100 soles. Entonces, la nueva media y
la nueva varianza del pago a los practicantes después de dicho aumento son iguales a 1639.846
Soles y 85987.7667 Soles2, respectivamente.
# Con RStudio:
mean(evaluacR$PAGO)
library(raster)
var(evaluacR$PAGO)
d. Supongamos que el grupo empresarial decide aumentar el pago a todos los practicantes del
área de calidad en 10% y otorgarles un bono por movilidad de S/. 100 soles. Entonces, la nueva
media y la nueva varianza del pago a los practicantes del área de calidad después de dicho
aumento son iguales a 1663.5004 Soles y 79814.3467 Soles 2, respectivamente.
Y = Nuevo pago a los practicantes del Área de Calidad después del incremento salarial.
Y = X + 0.10X + 100 = 1.10X + 100
M(X)= 1421.364 Soles
56
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
V(X) = 65962.27 Soles2
# Con RStudio:
# Para obtener la media y la varianza de la variable PAGO por AREA.
tapply(evaluacR$PAGO,evaluacR$AREA,mean)
library(raster)
tapply(evaluacR$PAGO,evaluacR$AREA,var)
Hallar la nueva media y varianza después del incremento salarial (Area de Calidad).
4. Con la información de la variable pago a los practicantes, generando grupos con la variable
cualitativa que considere conveniente, realice un diagrama de cajas y complete los espacios en
blanco de los enunciados que se presentan a continuación:
a. En la distribución del pago a los practicantes hombres …………..(si / no) se observan datos
atpipicos (outliers). Asimismo, se evidencia menor dispersión en el 25% ………….(superior
/ inferior) de los datos.
b. En la distribución del pago a los practicantes mujeres …………..(si / no) se observan datos
atpipicos (ortliers). Asimismo, se evidencia mayor dispersión en el 25% ………….(superior
/ inferior) de los datos.
Con RStudio:
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
57
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
nombre; en este caso evaluacR.
El archivo evaluacR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo evaluacR
CASO 7: PYMES
La importancia que tienen actualmente en la economía, tanto las pequeñas y medianas empresas
(PYMES) como los emprendedores, es fundamental, ya que su aporte en la generación de riqueza para
cualquier país es innegable, particularmente en la contribución a la apertura de puestos de trabajo, así lo
afirma la Organización para la Cooperación y el Desarrollo Económicos (OCDE). De acuerdo con el
reporte “Financiamiento de pymes y emprendedores 2018”, realizado por la OCDE, en sus países
miembros las pymes y los emprendedores constituyen la columna vertebral de las economías de esos
países y son fundamentales para fortalecer la productividad, generar un crecimiento más inclusivo y
adaptarse a mega tendencias como la nueva revolución industrial y un perfil cambiante del trabajo. A
continuación, se describe las variables de estudio correspondientes a una muestra de pequeñas y medianas
empresas (PYMES) dedicadas al sector construcción:
Indique el
Descripción de la variable tipo de
Column Notación de la
variable
a variable
(cuantitativa /
cualitativa)
Vigilancia de la salud: actividad preventiva que toda empresa.
C1 ESTADO Inspección de la estructura de la empresa.
1: vigilancia 2: inspección
El activo no corriente es una parte del activo y aparece dentro del
C2 ACTIVO_NO balance de situación de una empresa (maquinaria, construcciones,
CORRIENTE vehículos o terrenos). En soles.
El activo son los bienes, derechos y otros recursos de los que
C3 ACTIVO dispone una empresa (muebles). En soles.
El pasivo corriente o pasivo circulante es la parte del pasivo que
PASIVO_ contiene las obligaciones a corto plazo de una empresa, es decir, las
C4
CORRIENTE deudas y obligaciones que tienen una duración menor a un año. En
soles.
58
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
soles.
PASIVO_Y_ El Pasivo y patrimonio son las fuentes de financiación de la
C7
PATRIMONIO empresa. En soles.
La utilidad operacional es el resultado de tomar los
C8 ingresos operacionales y restarle los costos y gastos operacionales.
UTILIDAD En soles.
Tamaño de la PYME:
C9 TAMAÑO 1: Pequeña empresa 2: Mediana empresa
Los datos recopilados se presentan en el archivo en Excel PYMES disponible en su aula virtual.
UNIDAD DE ANÁLISIS:Una Pyme.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.
1. Con las variables de estudio que considere conveniente genere las tablas de frecuencias
y complete los espacios en blanco de los enunciados que se presentan a continuación:
tabla1<-table(pymesR$TAMAÑO,pymesR$ESTADO)
addmargins(tabla1)
2. Elabore la gráfica y elija las variables que considere conveniente para completar los
espacios en blanco en los enunciados que se presentan a continuación:
Con RStudio.
# Para generar el Diagrama de Cajas e identificar los datos atípicos:
59
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
gpymesR=boxplot(pymesR$UTILIDAD~pymesR$ESTADO)
gpymesR$out
Media:
inspeccion vigilancia
177192.2 171704.1
Mediana:
inspeccion vigilancia
169290.5 155102.0
3. Con las variables de estudio que considere conveniente halle el valor de las estadísticas
para completar los espacios en blanco de los enunciados que se presentan a
continuación:
60
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para obtener la media de la variable PATRIMONIO por TAMAÑO de la pyme
tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,mean)
50% 50%
PATRIMONIO:
Pequeñas Empresas Mediana
Media
tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,mean)
tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,median)
e. La utilidad operacional mínima del 15% de las empresas medianas que presentan
mayor utilidad es igual a 626282.1 Soles. Este valor es el Percentil 85
85% 15%
Mediana empresas
P85
61
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
tapply(pymesR$UTILIDAD, pymesR$TAMAÑO,quantile,0.85,type=6)
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso pymesR.
El archivo pymesR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo pymesR
CASO 8: ALFA
En la fábrica ALFA se seleccionaron a 200 operarios que fueron divididos en 2 grupos para participar en
un curso de capacitación; los operarios del grupo 1 fueron capacitados con la técnica A y los operarios del
grupo 2 con la técnica B. El objetivo de la capacitación fue disminuir el tiempo que emplean los
operarios para realizar una actividad considerada de gran importancia en el proceso de producción.
Terminada la capacitación, se le pidió a cada operario de cada grupo que procediese a realizar la actividad
y se registró el tiempo correspondiente. A continuación se indican las variables de este estudio:
Indique el tipo
Notación de Descripción de la variable de variable
Columna
la variable (cuantitativa /
cualitativa)
62
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Tiempo que demoró el operario en realizar la
C3 TIEMPO actividad (en minutos).
Utilizando la base de datos en Excel alfa disponible en el aula virtual, responda las siguientes
preguntas, justificando su respuesta numéricamente con las medidas estadísticas correspondientes.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.
63
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Instalar el paquete DescTools (en la ventana 4: Packges / Install / DescTools / Install)
# Para llamar al paquete antes instalado:
library(DescTools)
# Para hallar la moda por grupos:
tapply(alfaR$TIEMPO,alfaR$TECNICA,Mode)
# Escribir en mayúscula la primera letra de Mode
c. La distribución del tiempo correspondiente a los operarios capacitados con la técnica A presenta
una asimetría positiva (negativa / positiva) con un coeficiente de asimetría de Parson igual a
0.5092992
d. Los operarios que corresponden al 50% central de los datos, emplearon un tiempo de entre 31 y
39 minutos para realizar la actividad asignada. Estos valores representan el Percentil 25 y el
Percentil 75 respectivamente.
25% 25% 25% 25%
Todas los operarios
64
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
P25=Q1 P50=Q2=Me P75=Q3
Con RStudio:
quantile(alfaR$TIEMPO,0.25,type=6)
quantile(alfaR$TIEMPO,0.75,type=6)
e. Más del 50% de los operarios capacitados con la técnica A registraron un tiempo para
realizar la actividad menor. (menor / mayor / igual) a la media muestral. Esta situación
ocurre cuando la media es mayor que la mediana (mediana / desviación estánar / cv)
50% 50%
Técnica A:
Mediana
Media
3. Con la variable tiempo que demoró el operario en realizar la actividad asignada, halle los
percentiles que correspondan y complete los espacios en blanco que se presentan a
continuación:
Hallamos los percentiles con RStudio.
# Para hallar un percentil en particular de una variable cuantitativa (sin clasificar por
grupos):
quantile(alfaR$TIEMPO,valor del percentil,type=6)
65
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Operarios 10% 90%
hombres
P10
4. Realizando un diagrama de cajas del tiempo que demoraron los operarios en realizar
la tarea asignada, clasificando según la variable cualitativa GENERO, complete los
espacios en blanco que se presentan a continuación:
a. En la distribución del tiempo que demoraron los operarios hombres en realizar la tarea
asignada si (si / no) se observa la presencia de valores atípicos (outliers).
b. En la distribución del tiempo que demoraron las operarias mujeres en realizar la tarea
asignada no (si / no) se observa la presencia de valores atípicos (outliers). En este grupo
se observa asimetría positiva (negativa / positiva)
Con RStudio.
# Para generar el Diagrama de Cajas e identificar los datos atípicos:
galfaR=boxplot(alfaR$TIEMPO~alfaR$GENERO)
galfaR$out
# Para mostrar la media en el diagrama de caja
points(tapply(alfaR$TIEMPO,alfaR$GENERO,mean),col="Red",pch=19)
MEDIA:
Hombre Mujer
35.078 35.106
MEDIANA:
Hombre Mujer
35 34
66
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso alfaR.
El archivo alfaR será guardado en formato R y para usarlo en una próxima sesión deberá cargarse
de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo alfaR
1. La nota promedio general en un examen fue 12.6. Los aprobados obtuvieron un promedio de 14.4 y
los desaprobados, en promedio, obtuvieron 8.4. Si son 50 los alumnos que rindieron el examen.
Determine el porcentaje de desaprobados.
R: desaprobados= 30 % y aprobados= 70 %
2. En la empresa industrial REX. S.A. el personal de planta tiene un salario promedio mensual de 1800
soles con una varianza de 90000 soles2. En una negociación laboral con el sindicato se acordó un
incremento de un 20% en los salarios más una bonificación adicional de 80 soles por concepto de
movilidad. Calcule el salario promedio, la varianza y el coeficiente de variabilidad luego de
R: M(Y)= 2,240 Soles, V(Y)= 129,600 Soles2,, Sy=360 Soles, CV(Y)= 16.07 %
3. En una empresa de servicios generales, el salario promedio de sus trabajadores es 2360 soles, el
salario promedio del personal masculino es de 2500 soles y el salario promedio del personal
67
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
femenino es de 2100 soles. ¿Qué porcentaje del personal de esta empresa es masculino y que
porcentaje es femenino?
R: personal femenino= 35 % ; personal masculino= 65 %
4. En una empresa los pagos diarios a proveedores se pueden representar mediante una distribución
simétrica; se sabe que el monto pagado con mayor frecuencia es 500 soles y uno de los cuartiles
es 650. También se sabe que lo mínimo que se paga en un día es 200 soles y la desviación estándar
es 100 soles. Se pide:
a. Indique el valor de los cuartiles inferior, central y superior. R: Q1= 350, Q2=500, Q3=650
b. Se sabe que últimamente los pagos diarios se ha incrementado en un 10% más 25 soles. ¿Cuál es
el coeficiente de variación de los pagos diarios con el incremento?
R: CV= 19.13 %
5. En una empresa, 400 trabajadores forman el Grupo 1 y lo conforman: Operarios (sub grupo 1A) y
técnicos (subgrupo 1B). la cantidad de trabajadores del grupo 1 es el 80% del total de trabajadores de
la empresa, y tienen un sueldo mensual promedio de 2730.5 soles. El otro 20% de trabajadores de la
empresa lo conforman los ejecutivos y trabajadores administrativos (grupo 2), y tienen un sueldo
mensual promedio de 6500 soles.
a. Si se conoce que el sueldo mensual promedio de los operarios es 2270 soles y el sueldo mensual
promedio de los técnicos es 3498 soles; halle el número de operarios y técnicos que tiene la
empresa.
R: 250 operarios y 150 técnicos.
b. Si la dirección de la empresa establece una bonificación de 50 soles para los operarios, una
bonificación del 8% del sueldo mensual para los técnicos, y una bonificación de 200 soles para
los trabajadores del grupo 2; halle el sueldo promedio para todos los trabajadores de la empresa.
R: 3,633.352
6. En una empresa de servicios generales, el salario promedio de sus trabajadores es 3360 soles, el
salario promedio del personal masculino es de 3500 soles y el salario promedio del personal
femenino es de 3100 soles.
a. ¿Qué porcentaje del personal de esta empresa es masculino y que porcentaje es femenino?
R: personal femenino= 35 % ; personal masculino= 65 %
b. Para el próximo mes la empresa acordó aumentar 10% del salario al personal masculino y 7.5%
más una bonificación de 80 soles al salario del personal femenino, ¿Cuál es la nueva media
global, después del incremento salarial?
68
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
R: Nueva media global= S/. 3,696.88
c. ¿De qué monto debe disponer la empresa a fin de mes para hacer efectivo el pago a los 200
trabajadores de la empresa?
R: S/. 739,375
7. Desde hace dos años las compañías gastan en protección de la información. Estos gastos incluyen los
costos de personal, hardware, software, servicios externos y seguridad física. Se eligieron dos
empresas transnacionales y se registraron sus gastos mensuales, en miles de dólares,
correspondientes a la protección de la información de los últimos 6 meses. Luego de procesar los
datos se obtuvieron los siguientes resultados parciales.
6 6
∑ x i = 16 .8 ∑ x2i = 58.99
Empresa 1: i=1 i=1 Me = 3.0
6 6
∑ xi = 13.2 ∑ x2i = 36 . 88
Empresa 2: i=1 i=1 Me = 2.5
a. ¿Cuál de las dos empresas ha tenidos gastos mensuales más homogéneos en los últimos seis
meses?;
R: CV de la empresa 1= 55.2129 %; CV de la empresa 2= 56.9182 %. La empresa 2 ha
tenido gastos mensuales en protección de la información más homogéneos.
8. De una distribución se conoce la siguiente información: tamaño (n = 20); media ( x̄ = 400); mediana
(me = 450); min valor (X(1) = 100) y rango (R = 900). Al introducir los datos en la computadora se
ha cometido un error tipográfico sustituyendo el valor (único) X = 1000, por el de X = 10000.
¿Cómo afectará este error en el cálculo de la media, mediana y rango? Calcule los nuevos valores.
R: Rango: 9900; Me=450; Media=850
10. En una compañía los trabajadores están considerados en tres categorías, A, B y C. El ingreso
promedio de los 300 trabajadores de la categoría B es de S/. 6000 y de los 150 trabajadores de la
categoría C es de S/. 8000. A los trabajadores de la categoría A se les hace un aumento del 20% más
una bonificación de S/. 600, a los de la categoría B se les aumenta un 25% más una bonificación de
S/. 800 y a los de la categoría C se les hace un aumento del 35% más una bonificación de S/. 500. Si
el ingreso promedio de los 650 trabajadores de la compañía después del aumento es de S/. 8100,
¿cuál era el ingreso promedio de los trabajadores de la categoría A antes de los aumentos?
R: S/. 4,000
11. En una ciudad existen 3 grandes plantas de ensamblaje de artefactos eléctricos que llamaremos A, B
y C. La primera emplea a 54 personas y su salario medio es de 1,080 soles. En la segunda trabajan 84
empleados y su ingreso medio es de 860 soles. Finalmente, la paga media de los 153 trabajadores de
la planta C es de 815 soles. ¿Cuál es el salario medio de los empleados en la industria ensambladora
de artefactos de dicha ciudad? R: S/. 877.16
Desarrollado en el PPT Medidas de tendencia central y posición / Página 23
12. Sea X: el sueldo de los trabajadores de planta de una empresa. El sueldo promedio de una
muestra de trabajadores es de S/. 1,000 mensuales. Calcule el nuevo sueldo promedio para los
siguientes casos:
i. Propuesta 1: Se otorga un aumento de S/. 100 a todos los trabajadores.
ii. Propuesta 2: Se otorga un aumento de 20% a todos los trabajadores.
iii. Propuesta 3: Se otorga un aumento del 10% más una bonificación adicional de S/. 50 a todos los
trabajadores.
¿Cuál de las tres propuestas es la más conveniente para los trabajadores? R: Propuesta dos.
70
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Medidas estadísticas
∑ xi
Media aritmética X=
i=1
n
Varianza ∑ x 2i −n ( x )2
2 i=1
S=
n−1
Coeficiente de variación S
CV X = × 100 %
| X|
3( X−Me)
AS=
S
Coeficiente de asimetría
X −Mo
AS=
S
71
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
RESUMEN : APLICACIONES DE ESTADISTICA DESCRIPTIVA CON EL SOFTWARE R
Utilizaremos como ejemplo las siguientes notaciones:
NOMBRE DE BASE DE DATOS: empresas
VARIABLES PARA EL EJEMPLO:
CUANTITATIVA: VENTAS
CUALITATIVAS:
TIPO: T1, T2, T3.
SECTOR: industria, comercio, servicios.
TAMAÑO: grandes, medianas, pequeñas
GENERO: 1: Masculino 2: Femenino
RCOMANDER (Rcmdr)
OBSERVACIÓ
No OBJETIVO EJEMPLO COMANDOS
N
1 Realizar una Recodificar la Variable Género # Para realizar la recodificación, primero requerimos instalar el paquete Observación:
recodificación puntual para reemplazar cada número estadístico denominado car. Para esto:
(de número a texto) por el texto correspondiente, de # En la ventana 4: Packages / Install / incluir el nombre del paquete a instalar; es Factor = Variable
acuerdo a lo siguiente: cualitativa
este caso car / dar click en Install
1 = Masculino # A continuación en la ventana 1 (scripts) llamar al paquete car: library(car)
2 = Femenino # Seguidamente incluir la sentencia que nos permitirá realizar la recodificación:
empresasR$GENERO<-recode(empresasR$GENERO,"1 ='Masculino';
2='Femenino'")
73
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
cbind(fi_ECIVIL, pi_ECIVIL)
4 Generar una tabla de Del total de empresas del # Para obtener la tabla pero sin los totales en filas y columnas:
frecuencias cruzada con sector servicios, calcular table(empresasR$SECTOR,empresasR$TAMAÑO)
dos variables cuántas y que % de empresas # Para obtener la tabla con los totales en filas y columnas:
cualitativas (fi) son pequeñas. # Primero guardamos la tabla como un objeto:
tabla1<- table(empresasR$SECTOR,empresasR$TAMAÑO)
# A continuación:
addmargins(tabla1)
CASO A: tapply(empresasR$VENTAS,empresasR$TIPO,mean)
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,median)
Calcular la media, Calcular la media, mediana,
mediana, desviación desviación estándar y/o el cv
estándar y/o el cv para de la variable ventas de las # Para llamar al paquete antes instalado:
library(raster)
una variable empresas. # Para hallar el cv para todos los vehículos (sin clasificar por grupos):
5 cuantitativa: cv(chatarreoR$ANTIGÜEDAD)
# Para hallar el cv para todos los vehículos (por grupos):
Caso A: Sin clasificar
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,cv)
por grupos. #observación: escribir cv en minúscula
Caso B: Por grupos
con una variable CASO B: tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)
cualitativa. tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median)
Calcular la media, mediana,
desviación estándar y/o el cv tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
de la variable ventas de las 3*(tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)-
empresas grandes.
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median))/
74
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
Para hallar la asimetría sin Hallar la asimetría de las ventas # Para calcular el AS de Pearson hallar la media, mediana y desviación estándar.
generar grupos. en general. # Escribir en minúsculas mean, median, sd
# media
mean(empresas$VENTAS)
8 # mediana
median(empresas $VENTAS)
# desviación estándar
sd(empresas $VENTAS)
# Para calcular el coeficiente de asimetría de Paerson
3*(mean(empresas$VENTAS)-median(empresas$VENTAS))/
sd(empresas$VENTAS)
75
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
Para hallar la asimetría Hallar la asimetría de las ventas # Para calcular el AS de Pearson hallar la media, mediana y desviación estándar.
por grupos con una de las empresas pequeñas. # Escribir en minúsculas mean, median, sd
variable cuanlitativa.
# media
tapply(empresas$VENTAS,empresas$TAMAÑO,mean)
# mediana
tapply(empresas$VENTAS,empresas$TAMAÑO,median)
9 # desviación estándar
tapply(empresas$VENTAS,empresas$TAMAÑO,sd)
# Para calcular el coeficiente de asimetría de Paerson
3*(tapply(empresas$VENTAS,empresas$TAMAÑO,mean)-
tapply(empresas$VENTAS,empresas$TAMAÑO,median))/
tapply(empresas$VENTAS,empresas$TAMAÑO,sd)
76
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
variable cuantitativa Calcular el cv de la variable se requiere
generando grupos con ventas de las empresas en instalar el paquete
library(raster)
una variable cualitativa. general. raster (en la
11 # Para hallar el cv para todas las empresas (sin clasificar por grupos): ventana 4:
# Escribir en cv en minúscula Packges / Install /
raster / Install)
cv(empresas$VENTAS)
Para hallar un percentil de Calcular el valor mínimo, del 10% quantile(empresas$VENTAS,0.90, type=6) Ingresar el valor
una variable cuantitativa. superior (equivalente al valor del percentil en
máximo del 90% inferior) de las decimales.
13 ventas; es decir el percentil 90.
Escribir type=6
para que R realice
el cálculo del
Percentil
utilizando la
fórmula
(algoritmo) que
emplearemos en
el curso.
77
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
Para hallar un percentil de Calcular el valor mínimo, del 10% tapply(empresas$VENTAS,empresas$TAMAÑO,quantile,0.90,type=6) Ingresar el valor
una variable cuantitativa superior (equivalente al valor del percentil en
generando grupos con máximo del 90% inferior) de las decimales.
14 una variable cualitativa. ventas de las empresas grandes;
Escribir type=6
es decir el percentil 90.
para que R realice
el cálculo del
Prcentil utilizando
la fórmula
(algoritmo) que
emplearemos en
el curso.
El software estadístico R es un entorno informático estadístico que incluye herramientas de análisis de datos
generación de gráficas. Es un software libre y funciona bajo Windows, MAC OS y Linux. Es una herramienta ide
para docencia, ya que permite que los alumnos la descarguen y la utilicen en sus casas con toda libertad y sin cos
78
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
R alguno. R es un conjunto de módulos estadísticos que mediante cualquiera de sus interfaces, permite realiz
análisis de datos y representación de los mismos.
raster El paquete raster permite la lectura, escritura, manipulación, análisis y modelado de datos espacial
raster. El paquete implementa funciones básicas y de alto nivel. Además soporta el procesamiento d
archivos muy grandes. También hay soporte para operaciones de datos vectoriales como intersecciones.
79
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.