Está en la página 1de 79

FACULTAD DE CIENCIAS EMPRESARIALES Y ECONÓMICAS

CARRERA DE NEGOCIOS INTERNACIONALES


CARRERA DE ADMINISTRACIÓN
CARRERA DE CONTABILIDAD
CARRERA DE MARKETING

CURSO
ESTADÍSTICA EMPRESARIAL I

GUÍA DE PRÁCTICA Nº 1
Periodo Académico 2023-1

CASOS DE APLICACIÓN

Profesora Responsable:

Olga Lidia Solano Dávila

Abril a Julio 2023

1
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CAPÍTULO 1

TÉRMINOS BÁSICOS DE LA ESTADÍSTICA

2
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
TÉRMINOS BÁSICOS DE LA ESTADÍSTICA

Población.- Conjunto de elementos que conforman el universo a ser investigado, claramente definidos en el
espacio y el tiempo. Pueden ser personas, hogares, distritos, empresas, estudiantes universitarios, otros.

Muestra.- Es un subconjunto o una parte del universo, la que se ha seleccionado con el fin de estudiar una o
más características y obtener información acerca de la población de la cual proviene.

Unidad de análisis.- Es el elemento o unidad base de la población o de la muestra del cual se obtendrá datos
referidos a ciertas características o variables, que nos interesan para explicar un determinado fenómeno.

Unidad Reportante.- Es aquella persona que nos brinda la información que se le solicita.

Estadígrafo.- Es el valor calculado en base a los datos que se obtienen en la muestra y por lo tanto; es una
estimación o aproximación al parámetro.

Parámetro.- Es una medida de resumen de toda la población que, se expresa por ejemplo como total,
promedio, proporción, razón, etc.

Variable.- Es una característica de la unidad de análisis cuya medida puede cambiar de valor. Se representa
simbólicamente mediante las letras del alfabeto (X, Y, Z).

3
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
REPASO DE POBLACIÓN, MUESTRA, UNIDAD DE ANÁLISIS,
PARÁMETRO, ESTADÍGRAFO Y VARIABLE
CASOS DE APLICACIÓN

1. Clasifique cada una de las siguientes variables: nominal (N), ordinal (O), discreta (D), continua (C).

i) La comida favorita de una persona. N

ii) Edad del jefe de hogar (en años cumplidos). D

iii) Nivel socioeconómico del elector. O

iv) Suma de puntos obtenidos en el lanzamiento de un par de dados. D

v) Número de hijos de los trabajadores de una empresa. D

vi) Grado de satisfacción del servicio de los contribuyentes de SUNAT. O

vii) Saldo en el depósito de ahorro de los clientes de una institución bancaria. C

2. La gerencia de marketing de una empresa de galletas desea estimar el promedio de cajas de galletas que
se venden por bodega, durante un mes, en el Cercado de Lima. En base al resultado, la empresa debe
decidir si implementa una campaña publicitaria por medios radiales. Se seleccionó una muestra aleatoria
de 150 bodegas y se recolectó información aplicando una encuesta.
Responder las siguientes preguntas :

a. a. ¿Cuál es la población de estudio? N= Todas las bodegas ubicadas en el cercado de Lima.


b. ¿Cuál es la muestra? n= 150 bodegas ubicadas en el cercado de Lima.
c. ¿Cuál sería el marco muestral para el estudio? Relación o base de datos de las bocercado de
d. ¿Cuál es la unidad de análisis o elemental? Una bodega ubicada en el cercado de Lima.
e. Determine y clasifique la variable de interés en el estudio:
Variable: X: Número de cajas de galletas vendidas en una bodega del cercado de Lima en us.
f. Defina el parámetro de interés en el estudio: Media poblacional: promedio de cajas de galletas
g. Defina el estadístico de interés en el estudio: Media muestral: promedio de cajas de galletas
vendidas por las 150 bodegas ubicadas en el cercado de Lima que conforman la muestra.

4
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3. En cada uno de los siguientes enunciados, complete los espacios en blanco:

a. Para realizar un estudio sobre el grado de satisfacción laboral de la empresa ALFA (alto,
medio, bajo) se entrevista a 50 de sus trabajadores que vienen laborando por lo menos tres
años en la empresa.

Población: Todos los trabajadores de la empresa ALFA que vienen laborando por lo menos tres

años en la empresa (N).

Muestra: 150 trabajadores de la empresa ALFA que vienen laborando por lo menos tres años en la

empresa (n).

Unidad de análisis: Un trabajador de la empresa ALFA que viene laborando por lo menos tres

años en la empresa.

Variable: Grado de satisfacción laboral de la empresa ALFA (alto, medio, bajo) de un trabajador

que viene laborando por lo menos tres años en la empresa..

Tipo de variable: Cualitativa ordinal.

b. En una empresa distribuidora se ha obtenido que el monto promedio por factura


pagada es de 750 soles; este valor se obtuvo de una muestra de tamaño 100.
Población: Todas las facturas pagadas en la empresa distribuidora (N).

Muestra: 100 facturas pagadas en la empresa distribuidora (n=100).

Unidad de análisis: Una factura pagada en la empresa distribuidora.

Variable: Monto de una factura pagada en la empresa distribuidora.

Tipo de variable: Cuantitativa continua.

Estadígrafo: Monto PROMEDIO de las factura pagada en la empresa distribuidora que conforman

la muestra (n=100)….MEDIA MUESTRAL = 750 soles.

5
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
4. En el siguiente cuadro defina un parámetro y un estadígrafo para cada población y muestra
respectivamente según la variable de interés.
Población Muestra Variable Parámetro Estadígrafo
400 alumnos
Alumnos de la Edad de los alumnos
elegidos al azar de
Universidad de de la Universidad de
la Universidad de
Lima. Lima.
Lima
Condición externa
150 viviendas
Viviendas de la de la vivienda (muy
seleccionadas al
urbanización “Los buena, buena,
azar en toda la
Rosales”. mala).
urbanización.

Boletas de venta 60 boletas de Valor de la venta


del “Restaurante ventas elegidas de registrada en la
Delicias” en todo el mes de boleta (Soles).
Marzo 2018. marzo.

6
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CAPÍTULO 2

TABLAS DE DISTRIBUCIÓN DE
FRECUENCIAS Y GRÁFICOS
SEGÚN TIPO DE VARIABLES

7
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Uso del software R Studio
R Studio es un software estadístico de libre distribución que abarca todos los aspectos necesarios para el
aprendizaje y la aplicación de la Estadística en general. El programa incorpora opciones vinculadas a las
principales técnicas de análisis estadístico (análisis descriptivo, contrastes de hipótesis, regresión lineal y no
lineal, series temporales, análisis de tiempos de fallo, control de calidad, análisis factorial, ANOVA, análisis
cluster, etc.), además de proporcionar un potente entorno gráfico y de ofrecer total compatibilidad con los
editores de texto, hojas de cálculo y bases de datos más usuales.

Tablas de distribución de frecuencia. - Una tabla de frecuencias (también conocida como distribución de
frecuencias) es una tabla en la que se organizan los datos en categorías o clases, es decir, en grupos de valores
que describen una característica de los datos y muestran el número de observaciones del conjunto de datos que
caen en cada una de las clases.
Cuadro Nº1

Arequipa: Distribución de personas según medios de


comunicación utilizados - Mayo 2015

Medios de
Comunicación
utilizados fi hi hi%
Internet 15 0.30 30%
Periódicos 12 0.24 24%
Radio 8 0.16 16%
Revistas 5 0.10 10%
Televisión 5 0.10 10%
No respondió 5 0.10 10%
Total 50 1 100%
Fuente: Encuesta realizada por IKKF Marketing - Mayo
2015

Gráficos estadísticos. - Los gráficos estadísticos presentan los datos en forma de dibujo de tal modo que se
pueda percibir fácilmente los hechos esenciales y compararlos con otros.
Gráfico Nº 1
Escuela de Negocios: Distribución de estudiantes se gún núme ro
de cursos de saprobados - Semestre ante rior

10
10
N ú m ero de estu dia ntes

9
8 7
7 6 6
6 5
5 4
4
3 2
2
1

0 1 2 3 4 5 6
Número de cursos desaprobados
Fuente: Archivo de notas de la Escuela de Negocios

Tablas de doble entrada.- son aquellas tablas de datos referentes a dos variables, estas tablas se forman por
filas y columnas y en la primera fila o primera columna, se ubican las categorías de las variables y en las
casillas la frecuencia o el número de elementos de las categorías de las variables en conjunto.

8
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo
dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 1: INDUSTRIAL TOOLS

Industrial Tools es una empresa peruana dedicada a la producción de herramientas utilizadas en la


industria metal-mecánica, el gerente de Recursos Humanos le ha entregado los siguientes datos que
corresponden al personal que labora en las áreas de administración y operaciones con el propósito que
usted la procese y obtenga algunos resultados que serán de interés para la empresa. Los datos se presentan

en el archivo en Excel disponible en su aula virtual denominado: herramientas.

. La descripción de las variables se muestra a continuación:

Notación de la Indique el tipo de variable


Columna Descripción de la variable
variable (cuantitativa / cualitativa)
GENERO Género del trabajador:
C1 Cualitativa nominal
1: Masculino, 2: Femenino
Área de trabajo:
AREA
C2 1: Administración, Cualitativa nominal
2: Operaciones
Sueldo mensual en soles del
C3 SUELDO trabajador al momento de Cuantitativa continua
registrar los datos.
EDAD Edad del trabajador: edad del
C4 Cuantitativa discreta
trabajador en años cumplidos.
Estado Civil del trabajador:
1: Soltero
C5 ECIVIL 2: Casado Cualitativa nominal
3: Divorciado
4: Viudo
Condición laboral del
trabajador:
C6 CLABORAL Cualitativa nominal
1: Contratado
2: Estable
C7 TSERVICIO Permanencia, en años Cuantitativa discreta
cumplidos, del trabajador en
la empresa.
AFP a la que está inscrito el Cualitativa nominal
trabajador en el momento de
la investigación:
C8 AFP 1: Habitat
2: Integra
3: Prima
4: Profuturo

9
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
1. En el contexto del caso presentado, identifique y defina lo siguiente:
Población: N = Todos los trabajadores de las de administración y operaciones de Industrial
Tools.

Muestra: n = 223 trabajadores de las de administración y operaciones de Industrial Tools.

Unidad de análisis: ¿De quien recabo información? Un trabajador de las de administración u


operaciones de Industrial Tools.

Indique cuáles son las variables cualitativas: Género, Area, Estado Civil, Condición Laboral,
AFP.

Indique cuáles son las variables cuantitativas: Sueldo, Edad, Tiempo de servicio.

2. Inicie una sesión del programa R-Studio.


Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
herramientasR
 Dar clic en Import (que figura en la esquina inferior derecha)

Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: herramientas.


El conjunto de datos herramientasR tiene 223 filas y 8 columnas.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

3. Transforme los códigos numéricos de la columna 1 (variable: género) a sus nombres


respectivos y almacénelos en la misma columna.

 # Para realizar la recodificación, primero requerimos instalar el paquete estadístico


denominado car. Para esto:
# En la ventana 4: Packages / Install / incluir el nombre del paquete a instalar; es
este caso car / dar click en Install

 # A continuación en la ventana 1 (scripts) llamar al paquete car:


library(car)
 # Seguidamente incluir la sentencia que nos permitirá realizar la recodificación:

herramientasR$GENERO<-recode(herramientasR$GENERO,"1 ='Masculino'; 2='Femenino'")

#Observaciones: Recuerde que la instalación de un paquete estadístico en R Studio se realiza una


sola vez y cuando lo necesite utilizar debe llamarlo con library(nombre del paquete)
En R Studio una variable cualitativa se denomina Factor.

10
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
4. Haga lo mismo que el ítem 4 con los datos de las columnas 2, 5, 6 y 8. Guarde los nuevos datos en su
respectiva columna.
# Observación: Recuerde que ya temenos instalado el paquete Car.

#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación de las
variables cualitativas: AREA (columna 2), ESTADO CIVIL (columna 5), CONDICION LABORAL
(columna 6), AFP (columna 8).

library(car)

herramientasR$AREA<-recode(herramientasR$AREA,"1 ='Administracion'; 2='Operaciones'")

herramientasR$ECIVIL<-recode(herramientasR$ECIVIL,"1 ='Soltero'; 2='Casado'; 3='Divorciado';


4='Viudo'")

herramientasR$CLABORAL<-recode(herramientasR$CLABORAL,"1 ='Contratado'; 2='Estable'")

herramientasR$AFP<-recode(herramientasR$AFP,"1 ='Habitat'; 2='Integra';3='Prima';4='Profuturo'")

5. Utilice los datos de la variable cuantitativa sueldo (columna 3) y genere la variable


cualitativa nivel de sueldo (que denominaremos: NIVEL_SUELDO) guardando los datos en
la columna 9. Para la recodificación considere la siguiente clasificación:
 Nivel 1 : sueldos menores que 2500 soles.
 Nivel 2 : sueldos de 2500 o más pero inferiores a 7000 soles.
 Nivel 3 : sueldos de 7000 soles a más.

#Ahora vamos a generar una variable CUALITATIVA que denominaremos NIVEL_ SUELDO a partir
de una variable CUANTITATIVA (SUELDO). Esto se hará con una recodificación por RANGOS.

# Llamar al paquete car

library(car)

#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:

herramientasR$NIVEL_SUELDO=recode(herramientasR$SUELDO, "0:2499.99= 'Nivel1';


2500:6999.99= 'Nivel2';7000:max(herramientasR$SUELDO)= 'Nivel3'")

#Observación: Al haber denominado a la nueva variable cualitativa con un nombre distinto (en este caso
NIVEL_SUELDO) aparecerá en la base de datos una columna adicional con la nueva variable cualitativa
(FACTOR) NIVEL_SUELDO. Si se hubiera denominado a la variable recodificada con el mismo nombre
(SUELDO) se perderían los datos originales de la variable Sueldo.

11
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
6. Construya la tabla de distribución de frecuencias para la variable estado civil (columna 5) y complete
los datos de la siguiente tabla:

Tabla No. 7A
Distribución del personal según estado civil
Industrial Tools – Áreas Administración y Operaciones
ESTADO CIVIL CONTEO( f i) PORCENTAJE (hi %)
Casado 8 3.59

Divorciado 57 25.56

Soltero 154 69.06


Viudo 4 1.79

Total 223 100.00 

#Para generar únicamente las frecuencias absolutas simples (fi):

table(herramientasR$ECIVIL)

# Para obtener las freciencias relativas simples (hi) primero debemos guardar como un objeto las
frecuencias absolutas simples:

fi_ECIVIL<-table(herramientasR$ECIVIL)

#Observación: Ahora podemos observar en la ventana 2 de R Sudio el nuevo objeto creado que hemos
denominado fi (frecuencias absolutas simples correspondientes a la variable Estado Civil)

# Seguidamente con el comando prop.table obtenemos las frecuencias relativas

prop.table(fi_ECIVIL)

# Para redondear las frecuencias relativas simples con 4 decimales:

round(prop.table(fi_ECIVIL),4)

# Ahora guardamos las frecuencias relativas simples como un objeto (hi) de esta manera:

hi_ECIVIL <-round(prop.table(fi_ECIVIL),4)

#Observación: Ahora podemos observar en la ventana 2 de R Sudio el nuevo objeto creado que hemos
denominado hi (frecuencias relativas simples correspondientes a la variable Estado Civil)

# Acontinuación para tener las frecuencias relativas simples en porcentaje (%) creamos el nuevo
objeto que denomimos pi_ECIVIL:

pi_ECIVIL<- hi_ECIVIL*100

# Seguidamente integramos los objetos fi_ECIVIL y pi_ECIVIL en una sola table:

12
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
cbind(fi_ECIVIL, pi_ECIVIL)

Tabla No. 7A: VARIABLE ESTADO CIVIL (Denotada: ECIVIL)

EN CONCLUSIÓN: A continuación se preseta el resumen de las sentencias para completer la


tabla No. 7A:

table(herramientasR$ECIVIL)
fi_ECIVIL<-table(herramientasR$ECIVIL)
prop.table(fi_ECIVIL)
round(prop.table(fi_ECIVIL),4)
hi_ECIVIL <-round(prop.table(fi_ECIVIL),4)
pi_ECIVIL <- hi_ECIVIL*100
cbind(fi_ECIVIL, pi_ECIVIL)

De manera similar construya la tabla de distribución de frecuencias para la variable AFP a la que esté
inscrita el trabajador y para la variable nivel de sueldo.

Tabla No. 7B Tabla No. 7C


Distribución del personal según Distribución del personal según el Nivel de
afiliación a la AFP Sueldo
Industrial Tools – Áreas Administración y Industrial Tools – Áreas Administración y
Operaciones Operaciones
CONTEO PORCENTAJE NIVEL DE CONTEO PORCENTAJE
AFP
(fj) (hj%) SUELDO (fj) (hj%)
Habitat 40 17.94
Nivel 1 175 78.48
Integra 78 34.98
Nivel 2 31 13.90
Prima 70 31.39
Profuturo 35 15.70 Nivel 3 17 7.62
Total 223 100  Total 223  100

Tabla No. 7B: VARIABLE AFP (Denotada: AFP)

table(herramientasR$AFP)
fi_AFP<-table(herramientasR$AFP)
prop.table(fi_AFP)
round(prop.table(fi_AFP),4)
hi_AFP<-round(prop.table(fi_AFP),4)

13
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
pi_AFP <- hi_AFP*100
cbind(fi_AFP, pi_AFP)

Tabla No. 7C: VARIABLE NIVEL DE SUELDO (Denotada: NIVEL_SUELDO)

#Observación: La variable NIVEL_SUELDO se obtuvo recodificando la variable cuantitativa SUELDO.

table(herramientasR$NIVEL_SUELDO)
fi_NIVEL_SUELDO<-table(herramientasR$NIVEL_SUELDO)
prop.table(fi_NIVEL_SUELDO)
round(prop.table(fi_NIVEL_SUELDO),4)
hi_NIVEL_SUELDO <-round(prop.table(fi_NIVEL_SUELDO),4)
pi_NIVEL_SUELDO <- hi_NIVEL_SUELDO *100
cbind(fi_NIVEL_SUELDO, pi_NIVEL_SUELDO)

7. En base a los resultados mostrados en las tablas de distribución de frecuencias anteriores,


complete los siguientes enunciados empleando dos decimales:

a. De los 223 trabajadores 8 son casados; es decir, el 3.59 % del total de trabajadores son
casados.

b. De los 223 trabajadores, el 15.70 % de ellos están afiliados a la afiliados a la AFP


Profuturo.Asimismo, la mayoría de los trabajadores están afiliados a la AFP INTEGRA

c. De los 223 trabajadores 48 de ellos tienen un Nivel de Sueldo 2 o 3 lo cual representa el 21.52 %

OBSERVACIÓN: o es suma.
31 + 17 = 48 trabajadores tienen nivel de sueldo 2 o 3
48 / 223*100 = 21.52 %
Otra forma:
13.90 + 7.62 = 21.52 %

14
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
8. Recodifique convenientemente los datos de la columna años de servicio y luego complete el siguiente
enunciado:
De los 223 trabajadores el número de trabajadores que tienen 10 o más años de servicio en
la empresa es igual a 7 lo cual representa el 3.14 %
.
Se observan dos grupos según los años de servicio:

GRUPO1: Menos de 10 años de servicio: [0 – 10 )


GRUPO2: 10 o más años de servicio: [10 – a más)

Primero vamos a
generar una variable CUALITATIVA que denominaremos
CATEGORÍA_TSERVICIO a partir de una variable CUANTITATIVA (TSERVICIO). Esto se
hará con una recodificación por RANGOS.

# Llamar el paquete car


library(car)

herramientasR$CATEGORÍA_TSERVICIO=recode(herramientasR$TSERVICIO,"0:9.999=
'GRUPO1';10:max(herramientasR$TSERVICIO)='GRUPO2'")

# De esta manera aparecerá en la base de datos una columna adicional con la nueva variable
cualitativa (FACTOR) CATEGORÍA_TSERVICIO.
.
# Después de la recodificación, se generan las frecuencias absolutas y relativas para la nueva
variable cualitativa denominada CATEGORÍA_TSERVICIO:

table(herramientasR$CATEGORÍA_TSERVICIO)
fi_CATEGORÍA_TSERVICIO<-table(herramientasR$CATEGORÍA_TSERVICIO)
prop.table(fi_CATEGORÍA_TSERVICIO)
round(prop.table(fi_CATEGORÍA_TSERVICIO),4)
hi_CATEGORÍA_TSERVICIO <-round(prop.table(fi_CATEGORÍA_TSERVICIO),4)
pi_CATEGORÍA_TSERVICIO<- hi_CATEGORÍA_TSERVICIO*100
cbind(fi_CATEGORÍA_TSERVICIO, pi_CATEGORÍA_TSERVICIO)

9. Complete la tabla No. 9 y los espacios en blanco del siguiente enunciado:


15
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
21 de los 48 trabajadores del área de administración son mujeres; es decir el 43.75 % de los
trabajadores del área de administración son mujeres.

Tabla No. 9
Distribución del personal según género y área de trabajo
Industrial Tools – Áreas Administración y Operaciones

GÉNERO
ÁREA TOTAL
Femenino Masculino

Administración 21 27 48

Operaciones 69 106 175

Total 90 133 223

# Para obtener la tabla pero sin los totales en filas y columnas:

table(herramientasR$AREA,herramientasR$GENERO)
# Para obtener la tabla con los totales en filas y columnas:
# primero guardamos la tabla como un objeto:
tabla10<- table(herramientasR$AREA,herramientasR$GENERO)
# A continuación:
addmargins(tabla10)

10. Complete la tabla No. 10 y los espacios en blanco del siguiente enunciado:
 De los trabajadores varones 36 son casados o divorciados; es decir el 27.07 %
36 = 6 + 30
36 / 133*100 = 27.07 %
 Del total de trabajadores en general, el número de trabajadores hombres que son casados
o divorciados es igual a 36 ; lo cual representa el 16.14 %
36 / 223* 100 = 16.14 %

16
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Tabla No. 10
Distribución del personal según género y estado civil
Industrial Tools – Áreas Administración y Operaciones

GÉNERO
ESTADO CIVIL TOTAL
Femenino Masculino
Casado 2 6 8

Divorciado 27 30 57
Soltero 60 94 154
Viudo 1 3 4
Total 90 133 223

table(herramientasR$ECIVIL,herramientasR$GENERO)
tabla11<- table(herramientasR$ECIVIL,herramientasR$GENERO)
addmargins(tabla11)

11. Genere las tablas de doble entrada que considere conveniente para completar los espacios en blanco de
los siguientes enunciados:
a. De los trabajadores del área de administración, 31 tienen nivel de sueldo 2; lo cual representa el
64.58 %
table(herramientasR$AREA,herramientasR$NIVEL_SUELDO)
tabla12<- table(herramientasR$AREA,herramientasR$NIVEL_SUELDO)
addmargins(tabla12)

Variables de interés: AREA / NIVEL DE SUELDO (que obtuvimos recodificando)


31 / 48*100 = 64,58%
Administracion : 48

b. Del total de trabajadores, 17 son del área de administración y tienen nivel de sueldo 3; lo cual
representa el 7.62 %
Variables de interés: AREA / NIVEL DE SUELDO (que obtuvimos recodificando)
17 / 223*100 = 7,62%

17
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
c. De los trabajadores solteros, 5 tienen 10 o más años de servicio; lo cual representa el 3.25 %
table(herramientasR$ECIVIL,herramientasR$CATEGORÍA_TSERVICIO)
tabla13<-table(herramientasR$ECIVIL,herramientasR$CATEGORÍA_TSERVICIO)
addmargins(tabla13)

#Variables de interés: ECIVIL/CATEGORÍA_TSERVICIO (que obtuvimos recodificando)


5/ 154*100 = 3.25 %

OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso herramientasR.

El archivo herramientasR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo herramientasR

18
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CAPÍTULO 3

MEDIDAS DE TENDENCIA CENTRAL


MEDIDAS DE DISPERSIÓN
MEDIDAS DE CUANTÍA
MEDIDAS DE ASIMETRÍA

19
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Medidas de Tendencia Central, dispersión, de cuantía y de asimetría

Las medidas estadísticas son aquellas que permiten resumir información proveniente de una muestra o
población y tienen por objeto, obtener un valor que resuma en sí todas las mediciones. Estas medidas
aplicadas a las características de las unidades de una muestra se denominan estadísticos o estadígrafos;
mientras que aplicadas a poblaciones se les denomina parámetros de la población.
- Medidas de tendencia central: Media aritmética, mediana y moda
- Medidas de posición: Cuartiles, percentiles
- Medidas estadísticas de variabilidad: Rango, rango intercuartil, varianza, desviación Estándar,
coeficiente de variación. medidas de forma: coeficiente de asimetría
ESTADIGRAFO DATOS NO AGRUPADOS

n
Media Aritmética
∑ xi
i=1
X̄ =
n
K ( n+1)
W=
100

Y : parte entera
Mediana
Z : parte decimal

Me= X(Y ) +Z [ X Y +1−X ( Y )]

Moda El valor que más se repite de los datos

K ( n+1)
W=
100

Y : parte entera
Percentiles
Z : parte decimal

P K = X(Y ) + Z [X Y +1−X ( Y ) ]
n
∑ x 2i − n x̄ 2
i=1
Varianza S2 = =
n−1
Coeficiente de S
CV X = × 100 %
| X|
variación

20
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3(X −M e )
Coeficiente de asimetría de Pearson : A Pearson=
S
X −Mo
A Pearson=
S
CASO 2: PARQUE AUTOMOTOR

Una entidad de gobierno está interesada en conocer la antigüedad del parque automotor de servicio de
transporte público en Lima Metropolitana con la finalidad de lanzar el proyecto de Chatarreo; en la
actualidad se han inscrito 8 empresas para acogerse a tal proyecto. Se ha elegido aleatoriamente 3
empresas inscritas para la verificación de la información presentada. Las variables que se han evaluado
son:
Column Notación de la Descripción de la Indique el tipo de variable
a variable variable (cuantitativa / cualitativa)
C1 MARCA Marca del vehículo Cualitativa nominal
antigüedad del
C2 ANTIGÜEDAD vehículo (en años). Cuantitativa

Tipo de vehículo:
C3 TIPO Cualitativa nominal
microbús, combi, bus
Número de asientos
C4 N_ASIENTOS por cada unidad Cuantitativa
automotriz
Tipo de combustible
utilizado por el
C5 T_COMBUSTIBLE Cualitativa nominal
vehículo (petróleo,
gasolina).
Los datos se encuentran en el archivo en Excel denominado chatarreo disponible en su aula virtual.

Inicie una sesión del programa R-Studio.


Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).

21
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
chatarreoR
 Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: chatarreoR.
El conjunto de datos chatarreoR tiene 200 filas y 5 columnas.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

PARTE 1: Medidas de tendencia central y posición


1. Con la información de la variable antigüedad, desagregada por tipo de vehículo,
complete la tabla y los espacios en blanco de los enunciados que se presentan a
continuación:
Tabla No. 1

ESTADÍSTICOS DE TENDENCIA
CENTRAL Número de datos
TIPO DE VEHÍCULO
Promedio (media) Mediana (Número de vehículos)

20.86076 21 79
Buses
22.51667 23 60
Combis
21.37705 21 61
Microbuses
200
TOTAL

# En la ventana 1 de R Studio para hallar la media y la mediana:


tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,mean)
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,median)
a. La
# En la ventana 1 de R Studio para hallar el número de vehículos según el tipo (fi):
table(chatarreoR$TIPO)

antigüedad promedio de los buses es igual a 20.061 años.


b. Considerando la antigüedad de las combis, el valor que deja a su izquierda y a su
derecha el 50% de los datos es igual a 23 años.
c. Más del 50% de los datos tienen una antigüedad mayor a su promedio en los vehículos de tipo
buses y combi
Observación: Más del 50% de los datos son mayores a la media cuando la media (promedio) es
menor que la mediana.

50% 50%

22
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Mediana
Media
d. Menos del 50% de los datos tienen una antigüedad mayor a su promedio en los vehículos de
tipo microbuses.
Observación: Menos del 50% de los datos son mayores a la media cuando la media (promedio)
es mayor que la mediana.

50% 50%

Mediana
Media

2. Con la información de la variable antigüedad complete la tabla y los espacios en blanco


de los enunciados que se presentan a continuación:
a. El valor más frecuente es 26 y se repite 19 veces.
b. En las combis el valor más frecuente es 26 y se repite 9 veces.

Tabla No. 2A

ANTIGUEDAD Moda Número de veces que se repite el valor

Para todos los vehículos 26 19

Tabla No. 2B

TIPO DE VEHÍCULO Moda Número de veces que se repite el valor

Buses 25 9
Combis 26 9
16; 19; 5
Microbuses
22; 26
Hallaremos la moda con RStudio.
Instalar el paquete DescTools (en la ventana 4: Packges / Install / DescTools /
Install)
En la ventana No. 1 digitar:
# Para llamar al paquete antes instalado:
library(DescTools)
# Para hallar la moda para todos los vehículos (sin clasificar por grupos):
# Observación: escribir Mode con la primera letra mayúscula:
Mode(chatarreoR$ANTIGÜEDAD)

23
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar la moda clasificando por grupos:
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,Mode)

24
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3. Con la información de la variable antigüedad, desagregando por tipo de combustible y
marca, complete las tablas y los espacios en blanco de los enunciados que se presentan a
continuación:
TABLA No. 3A TABLA No. 3B
VEHÍCULOS GASOLINEROS VEHÍCULOS PETROLEROS
Medidas de tendencia central Medidas de tendencia central
MARCA MARCA
Promedio (media) Mediana Promedio (media) Mediana

Dodge 20.455 21.000 Dodge 20.607 20.000


Mercedes 20.519 21.000 Mercedes 22.641 24.000
Benz Benz
Scania 21.759 23.000 Scania 22.97 24.00

# Hallaremos la media y la mediana con RStudio.


# Variables de estudio: TIPO DE COMBUSTIBLE y MARCA DEL VEHICULO.
# Con la función split se divide la base de datos de acuerdo a la variable T_COMBUSTIBLE.
# Asi creamos la nueva base de datos que ponemos denominar DIVT_COMBUSTIBLE
# En la ventana No. 1 digitar:
DIVT_COMBUSTIBLE=split(chatarreoR,chatarreoR$`T_COMBUSTIBLE`)
# Ahora con la función tapply se obtiene la media y la mediana de la variable antigüedad por
marca para los vehículos gasolineros y petroleros.
En la ventana No. 1 digitar:
tapply(DIVT_COMBUSTIBLE$gasolina$ANTIGÜEDAD,DIVT_COMBUSTIBLE$gasolina$MARCA,
mean)
tapply(DIVT_COMBUSTIBLE$gasolina$ANTIGÜEDAD,DIVT_COMBUSTIBLE$gasolina$MARCA,median)
tapply(DIVT_COMBUSTIBLE$petroleo$ANTIGÜEDAD,DIVT_COMBUSTIBLE$petroleo$MARCA,mean)
tapply(DIVT_COMBUSTIBLE$petroleo$ANTIGÜEDAD,DIVT_COMBUSTIBLE$petroleo$MARCA,median)

# IMPORTANTE: No se debe escribir con tildes para nombrar los archivos, las variables, ni los niveles
de las variables categóricas.

a. La antigüedad promedio de los vehículos gasolineros de la marca Scania es igual a


21.75862 años.
b. La antigüedad promedio de los vehículos petroleros de la marca Dodge es igual a 20.60714
años.
c. Para la variable antigüedad de los vehículos gasolineros de la marca Dodge, el valor
que deja a su izquierda y a su derecha el 50% de los datos es igual a 21 años.

25
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
d. En los vehículos petroleros de las marcas Mercedes Benz y Scania se tiene que más del 50%
de unidades tienen una antigüedad mayor a su promedio.
Observación: Esto ocurre cuando la media es menor que la mediana.
50% 50%

Mediana
Media
e. En los vehículos petroleros de la marca Dodge se tiene que menos del 50% de
unidades tienen una antigüedad mayor a su promedio.
Observación: Esto ocurre cuando la media es mayor que la mediana.

50% 50%

Mediana
Media

4. Suponer que el costo mensual de mantenimiento de un bus es, en promedio, 150 soles; de
una combi es, en promedio, 90 soles; y de un microbús es, en promedio, 120 soles..
Complete la tabla y los espacios en blanco del enunciado que se presentan a
continuación:
El costo promedio mensual GLOBAL mensual de mantenimiento de un vehículo es igual a :
……………… Soles.
TABLA No. 4
Números Hi Costo por Costo
Costo número de ponderado
de
TIPO DE VEHÍCULO
promedio vehículos (con (con hi)
vehículos
(datos) fi)
(fi: ni)
79 39.5 150 * 79 = 150 * 0.395 =
Buses 150 11850 59.25

60 30.0 90 * 60 = 90 * 0.30 =
Combis 90 5400 27

61 30.5 120 * 61 = 120 * 0.305 =


Microbuses 120 7320 36.6

200 100 24570 122.85


TOTAL O
GLOBAL

MEDIA TOTAL O
GLOBAL 24570 / 200 = 122.85 Soles

26
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar las frecuencias absolutas y relativas:
table(chatarreoR$TIPO)
fi_TIPO<-table(chatarreoR$TIPO)
prop.table(fi_TIPO)
round(prop.table(fi_TIPO),4)
hi_TIPO<-round(prop.table(fi_TIPO),4)
cbind(fi_TIPO, hi_TIPO)

MEDIA GLOBAL:
Forma 1: Con las frecuencias absolutas (ni)
MEDIA GLOBAL: (Costo promedio buses*n1 +Costo promedio combis*n2 + Costo promedio
microbuses*n3 ) / (n1 + n2 + n3 )
= 24570 / 200 = 122.85 Soles

Forma 2: Con las frecuencias relativas (hi)


MEDIA GLOBAL: (Costo promedio buses*h1 + Costo promedio combis*h2 + Costo promedio
microbuses*h3 )
= 150*0.3950 + 90*0.30 + 120*0.305 = 122.85 Soles
5. Con la información de la variable número de asientos complete las tablas y los espacios en
blanco de los enunciados que se presentan a continuación:
TABLA No. 5A

VARIABLE MEDIDAS DE POSICIÓN


Q2 = Mediana =
NÚMERO DE ASIENTOS Q1 = P25 Q3 = P75
P50

Todos los vehículos 17.250 31.000 42.000

Hallaremos los percentiles con RStudio.


# El software R tiene 9 fórmulas diferentes para calcular los percentiles; utilizaremos el
algoritmo tipo 6

# Para calcular los percentiles: P25, P50, P75 sin generar grupos: incluimos
sólo a la variable cuantitativa; en este caso: N_ASIENTOS.
quantile(chatarreoR$N_ASIENTOS,type=6)
# Si sólo quisiéramos calcular un percentil; por ejemplo el P25:
27
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
quantile(chatarreoR$N_ASIENTOS,0.25,type=6)

TABLA No. 5B
MEDIDAS DE POSICIÓN
TIPO DE
VEHÍCULO Q2 = Mediana =
Q1 = P25 Q3=P753
P50
Buses 40.000 42.000 44.000

Combis 14.000 15.000 16.000

Microbuses 26.500 30.000 32.000

Hallaremos los percentiles con RStudio.


# Para calcular los percentiles: P25, P50, P75 generando grupos: incluimos a la variable
cuantitativa y a la variable cualitativa (que definirá los grupos); en este caso:
N_ASIENTOS y TIPO

tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,quantile,type=6)
# Si sólo quisiéramos el percentil 25 por grupos.
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,quantile,0.25,type=6)
a. Para todos los vehículos: Analizando la variable número de asientos
 El valor de Q1 (Percentil 25) es igual a 17.250 y representa el valor máximo
del 25% inferior (vehículos con el menor número de asientos) y también es
equivalente al valor mínimo del 75% superior (vehículos con el mayor número de
asientos).

 El valor de Q3 (Percentil 75) es igual a 42 y representa el valor mínimo del 25%


superior (vehículos con el mayor número de asientos) y también es equivalente al
valor máximo del 75% inferior (vehículos con el menor número de asientos).

b. Por tipo de vehículos: Analizando la variable número de asientos


 El valor de Q1 (Percentil 25) para los buses es igual a 40 y representa el valor
máximo del 25% inferior (buses con el menor número de asientos) y también es
equivalente al valor mínimo del 75% superior (buses con el mayor número de
asientos).
 El valor de Q3 (Percentil 75) para las combis es igual a 16 y representa el valor
mínimo del 25% superior (combis con el mayor número de asientos) y también
28
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
es equivalente al valor máximo del 75% inferior (combis con el menor número
de asientos).

6. Con la información de la variable antiguedad complete los enunciados que se presentan a


continuación:
# Para hallar un percentil en particular de una variable cuantitativa sin clasificar por
grupos:
quantile(chatarreoR$ANTIGÜEDAD,valor del percentil,type=6)

a. El Percentil 10 de la variable antigüedad es igual a 13 años; representa el valor máximo


del 10 % inferior y es equivalente al valor mínimo del 90 % superior.
10% 90%

P10
quantile(chatarreoR$ANTIGÜEDAD,0.10,type=6)

b. El Percentil 20 de la variable antigüedad es igual a 16 años; representa el valor


máximo del 20 % inferior y es equivalente al valor mínimo del 80 % superior.
20% 80%

P20
quantile(chatarreoR$ANTIGÜEDAD,0.20,type=6)

c. El Percentil 90 de la variable antigüedad es igual a 28.9 años; representa el valor


máximo del 90 % inferior y es equivalente al valor mínimo del 10 % superior.
90% 10%

P90
quantile(chatarreoR$ANTIGÜEDAD,0.90,type=6)

d. El 70% central de los datos de la variable antigüedad se encuentran entre 15 años y 28 años.
Estos valores representan los percentiles 15 y 85 respectivamente.
15% 70% 15%

P15 P85
quantile(chatarreoR$ANTIGÜEDAD,0.15,type=6)
quantile(chatarreoR$ANTIGÜEDAD,0.85,type=6)

7. Con la información de la variable antigüedad, desagregando con la variable cualitativa que


corresponda, complete los enunciados que se presentan a continuación:

29
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Hallaremos los percentiles con RStudio.
# Para hallar un percentil en particular de una variable cuantitativa clasificando por
grupos:
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$T_COMBUSTIBLE, quantile,valor del
percentil,type=6)

a. Para la variable antigüedad, en el caso de los vehículos gasolineros el valor mínimo del 10
% superior es equivalente al valor máximo del 90% inferior y es igual a 28 años; mientras
que para los vehículos petroleros es igual a 29.9 años. Este valor representa el Percentil 90
90% 10%

P90
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$T_COMBUSTIBLE,quantile,0.90,type=6)

b. Para la variable antigüedad de las combis el valor máximo del 20% inferior es equivalente al
valor mínimo del 80% superior y es igual a 17.2 años. Este valor representa el Percentil 20
20%

P20
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,quantile,0.20,type=6)

PARTE 2: sobre medidas de dispersión y diagrama de cajas

8. Con la información de la variable antigüedad, desagregando por marca de


combustible, complete la tabla y los espacios en blanco de los enunciados que se
presentan a continuación:
Tabla No. 8
MARCA DE VEHÍCULO Coeficiente de Variación (CV)
Dodge 24.50374
Mercedes Benz 25.95382
Scania 24.57443

Instalar el paquete raster (en la ventana 4: Packges / Install / raster / Install)


En la ventana No. 1 digitar:
# Para llamar al paquete antes instalado:
library(raster)
# Para hallar el cv para todos los vehículos (sin clasificar por grupos):
cv(chatarreoR$ANTIGÜEDAD)

30
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar el cv para todos los vehículos (por grupos):
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,cv)
#observación: escribir cv en minúscula

a. En todas las marcas de vehículos se observa para la variable antigüedad un CV menor


a 30% con lo cual podemos afirmar que existe homogeneidad en dichas distribuciones.
b. Se observa mayor homogeneidad en la distribución de la variable antigüedad en la
marca Dodge con un CV igual a 24.50374 %.

9. Con la información de la variable número de asientos complete la tabla y los espacios


en blanco de los enunciados que se presentan a continuación:
Tabla No. 9A

VARIABLE Desviación Coeficiente de Tipo de


NÚMERO DE Media Mediana estándar asimetría asimetría
ASIENTOS (Pearson)

Todos los vehículos 30.16 31 11.24217 -0.2241561 negativa

# No se requiere desagregar por grupos


Luego de haber hallado los estadísticos : X , M e, S , calculamos el Coeficiente de Asimetría de Pearson
3 ( X −M e )
con la siguiente fórmula: ASPearson =
S

mean(chatarreoR$N_ASIENTOS)
median(chatarreoR$N_ASIENTOS,tipe=6)
sd(chatarreoR$N_ASIENTOS)
3*(mean(chatarreoR$N_ASIENTOS)-median(chatarreoR$N_ASIENTOS))/
sd(chatarreoR$N_ASIENTOS)
# observación: escribir mean, median y sd en minúscula.

Tabla No. 9B
Tipo de
Desviación Coeficiente de asimetría
TIPO DE estándar asimetría
Media Mediana
VEHÍCULO (Pearson)

Buses 41.74684 42 3.031748 -0.2505135 Negativa

31
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Combis 15.73333 15 2.392550 0.9195212 Positiva
Microbuses 29.34426 30 4.003687 -0.4913504 Negativa

# Se requiere desagregar la variable cuantitativa número de asientos por tipo de vehículo.

Luego de haber hallado los estadísticos : X , M e, S , calculamos el Coeficiente de Asimetría de Pearson


3 ( X −M e )
con la siguiente fórmula: ASPearson =
S

tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median)
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
3*(tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)-
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median))/
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
# observación: escribir mean, median y sd en minúscula.

a. La distribución del número de asientos es más asimétrica en el tipo de vehículo combis


con un coeficiente de asimetría de Pearson igual a 0.9195212.
b. La distribución del número de asientos es menos asimétrica en el tipo de vehículo Buses
con un coeficiente de asimetría de Pearson igual a -0.2505135
c. En la distribución del número de asientos de los Microbuses se observa una asimetría
negativa con un coeficiente de asimetría de Pearson igual a -0.4913504

10. Con la información de la variable antigüedad realice un diagrama de cajas y complete


los espacios en blanco de los enunciados que se presentan a continuación:
11. En la distribución de la variable antigüedad no (si / no) se observan valores atípicos.
12. En la distribución de la variable antigüedad se observa asimetría negativa (negativa /
positiva) porque la media es menor (menor / igual / mayor) que la mediana.
13. En la distribución de la variable antigüedad, se observa menor (menor / igual / mayor)
variabilidad en el 25% superior de los datos en comparación con el 25% inferior.
# Para generar el Diagrama de Cajas e identificar los datos atípicos:
gchatarreo=boxplot(chatarreoR$ANTIGÜEDAD)
gchatarreo$out
#Para dibujar la media en el gráfico de cajas
points(mean(chatarreoR$ANTIGÜEDAD),col="Red",pch=19)

# Para obtener la media:


mean(chatarreoR$ANTIGÜEDAD)
# Para obtener la mediana:
32
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
median(chatarreoR$ANTIGÜEDAD)
MEDIA: 21.515
MEDIANA: 22
Media < Mediana: Se observa asimetría negativa

14. Con la información de la variable antigüedad, desagregada por marca, realice los
diagramas de cajas y complete los espacios en blanco de los enunciados que se presentan
a continuación:
a. Para la variable antigüedad, se observa mayor asimetría en la marca Scania(existe
mayor distancia entre la media y la mediana).
b. Para la variable antigüedad en la marca Scania se observa la mayor asimetría negativa
(la media es menor que la mediana).
c. Para la variable antigüedad, si consideramos en cada marca el cuarto (25%) superior, se
observa mayor homogeneidad en la marca Scania

# Para generar el Diagrama de Cajas e identificar los datos atípicos:


gchatarreoR=boxplot(chatarreoR$ANTIGÜEDAD~chatarreoR$MARCA)
gchatarreoR$out
# Para dibujar la media en el gráfico de cajas
points(tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,mean),col="Red",pch=19)

# Para obtener la media:


tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,mean)
# Para obtener la mediana:
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,median)

MEDIAge Mercedes Benz Scania


20.NA:

OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso chatarreoR.

El archivo chatarreoR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo chatarreoR

33
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 3: EMPRESA T_APOYO

La empresa de investigación de mercados “T_Apoyo” quiere evaluar algunas características de usuarios


de telefonía en la ciudad de Lima. Por esta razón se tomó información de una muestra de 300 usuarios de
la ciudad de Lima. Las variables que se consideraron en el estudio son las siguientes:

Notación de Indique el tipo de variable


Columna Descripción de la variable
la variable (cuantitativa / cualitativa)
Género del usuario de
C1 GENERO Cualitativa
telefonía celular.
Edad (en años cumplidos)
C2 EDAD del usuario de telefonía Cuantitativa
celular.
Distrito de residencia del
usuario de telefonía celular
C3 DISTRITO (Jesús María, Miraflores, Cualitativa
San Isidro, San Miguel,
Santiago de Surco).
Empresa a la que pertenece
el usuario de telefonía
C4 EMPRESA
celular (Claro, Nextell,
Cualitativa
Telefónica).
Gasto mensual en telefonía
C5 GASTO Cuantitativa
móvil del usuario (en soles).
Quejas sobre el servicio del
C6 QUEJAS Cualitativa
usuario de telefonía celular.
UNIDAD DE ANÁLISIS: Un usuario de telefonía en la Ciudad de Lima.

Los datos recogidos se muestran en el archivo en Excel telefonia disponible en su aula virtual.
 Inicie una sesión del programa R-Studio.
Inicie una sesión del programa R-Studio.
Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
telefoniaR
 Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: telefoniaR.
El conjunto de datos telefoniaR tiene 300 filas y 6 columnas.
34
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

1. La empresa de investigación de mercados “T_Apoyo” señala que el gasto en telefonía de


los usuarios se clasifica en las siguientes tres categorías:
 A1: usuarios con gastos inferiores a 50 soles: [Menor valor – 50 >
 A2: usuarios con gastos de 50 o más y menos de 100 soles : [50 - 100 >
 A3: usuarios con gastos de 100 soles a más: [100 - mayor valor ]
Considerando la información de las variables que correspondan, complete la tabla y los espacios en
blanco de los enunciados que se presentan a continuación:
Tabla No. 1

CATEGORÍA DE GÉNERO
TOTAL
GASTO
Femenino Masculino
A1 15 15 30

A2 73 80 153

A3 56 61 117

Total 144 156 300


Primero: Recodificamos:
Para generar, a partir de la variable cuantitativa GASTO, la variable cualitativa Categoría de gasto
que denominaremos C_GASTO.

# Llamar al paquete car

library(car)

#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:

telefoniaR$C_GASTO=recode(telefoniaR$GASTO,"0:49.99= 'A1'; 50:99.99=


'A2';100:max(telefoniaR$GASTO)= 'A3'")

#Observación: Al haber denominado a la nueva variable cualitativa con un nombre distinto (en este
caso C_GASTO) aparecerá en la base de datos una columna adicional con la nueva variable
cualitativa: C_GASTO. Si se hubiera denominado a la variable recodificada con el mismo nombre
(GASTO) se perderían los datos originales de la variable Gasto.

35
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Elegir la variable cuantitativa a recodificar. En este caso: GASTO que se recodificará para generar la
variabla cualitativa (FACTOR) que denominaremos: C_GASTO.

Nuevo nombre o prefijo para variables múltiples recodificadas: C_GASTO.


Introducir directrices de recofificación:
0:49.99=A1 50:99.99=A2 100:máximo valor=A3
Aceptar
De esta manera aparecerá en la base de datos una columna adicional con la nueva variable cualitativa
(FACTOR) C_GASTO.

Después: Generamos la tabla de frecuencias.


# Filas: C_GASTO ; Columnas: GENERO

table(telefoniaR$C_GASTO,telefoniaR$GENERO)

tabla1<- table(telefoniaR$C_GASTO,telefoniaR$GENERO)
addmargins(tabla1)
a. De los clientes de género masculino se encuentra que 95 de ellos tienen categoría de
gasto A1 o A2; lo cual representa el 60.89 %
OBSERVACION: o es suma.
(15 + 80) / 156 = 60.89 %

b. Del total de clientes se encuentra que 95 de ellos son de género masculino y tienen
categoría de gasto A1 o A2; lo cual representa el 31.67. %
OBSERVACION: o es suma.
(15 + 80) / 300 = 31.67 %
2. Considerando la información de las variables que correspondan, complete la tabla y los
espacios en blanco de los enunciados que se presentan a continuación:
Tabla No. 2

EMPRESA TOTAL
RANGO DE EDAD
Claro Nextell Telefónica Total

25 años a más años 91 10 82 183

Menos de 25 años 68 15 34 117

159 25 116 300


Total

36
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Primero: Recodificamos la variable EDAD para generar la variabla cualitativa (FACTOR) Rango
de edad que denominaremos: R_EDAD, considerando los siguientes intervalos:
Menos de 25 años: [0 – 25 >
De 25 años a más: [ 25 – el mayor valor ]
# Llamar al paquete car

library(car)

#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:

telefoniaR$R_EDAD=recode(telefoniaR$EDAD,"0:24.99= 'menos de 25 años';


25:max(telefoniaR$EDAD)= '25 a más años'")

Después: Generamos la tabla de frecuencias.


# Filas: Rango de edad (R_EDAD); Columnas: EMPRESA

table(telefoniaR$R_EDAD,telefoniaR$EMPRESA)

tabla1<-table(telefoniaR$R_EDAD,telefoniaR$EMPRESA)
addmargins(tabla1)
a. De entre los clientes que tienen menos de 25 años de edad se encuentra que 68 de
ellos usan teléfonos de la empresa Claro, lo cual representa el 58.12 %
68 / 117 = 58.12 %
b. Del total de clientes se encuentra que 68 de ellos tienen menos de 25 años de edad y
usan teléfonos de la empresa Claro; lo cual representa el 22.67. %
68 / 300 = 22.67 %

3. Considerando la información sobre las variables de estudio, halle el valor de las medidas
estadísticas para completar la tabla y los espacios en blanco de los enunciados que se
presentan a continuación:
Tabla No. 3
GASTO
Medidas de tendencia central
EMPRESA
Promedio (media) Mediana

Claro 84.93711 85

Nextell 82.12 82

Telefónica 103.92241 101.5

# Para hallar la media:


37
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
tapply(telefoniaR$GASTO,telefoniaR$EMPRESA,mean)
# Para hallar la mediana:
tapply(telefoniaR$GASTO,telefoniaR$EMPRESA,median)

a. El gasto promedio mensual de los usuarios de celular de la marca Telefónica es igual a


103.92241 Soles, mientras que el gasto promedio mensual de los usuarios de celular de la
marca Claro es igual a 84.93711 Soles. Entonces, se puede afirmar que el gasto promedio
mensual de los usuarios de celular de la marca Telefónica es mayor (menor / igual / mayor)
que el gasto promedio mensual de los usuarios de celular de la marca Claro.

b. Teniendo en cuenta la variable gasto mensual de los usuarios de celular de la marca


Nextell ; la media es igual a 82.12 Soles y la mediana igual a 82 Soles; es decir la
media es mayor (menor / igual / mayor) que la mediana. Entonces podemos afirmar que
menos (más / menos) del 50% de los datos son mayores que la media.

50% 50%
NEXTEL:
Mediana
Media

4. Considerando la información el gasto de los usuarios de telefonía, halle el valor de las


medidas estadísticas para completar la tabla y los espacios en blanco de los enunciados
que se presentan a continuación:
Tabla No. 4
GASTO EN TELEFONÍA
DISTRITO: SAN ISIDRO
Medidas de tendencia
GENERO central

Promedio
(media) Mediana

Femenino 89.41 82.00

Masculino 90.24 89.00


# Hallaremos la media y la mediana con RStudio.
# Variables de estudio: GENERO y DISTRITO.
# Con la función split se divide la base de datos de acuerdo a la variable DISTRITO.
# Asi creamos la nueva base de datos que ponemos denominar DIVDISTRITO
# En la ventana No. 1 digitar:

38
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
DIVDISTRITO=split(telefoniaR,telefoniaR$`DISTRITO`)
# Ahora con la función tapply se obtiene la media y la mediana de la variable antigüedad por
marca para los usuarios de telefonía de SAN ISIDRO.
En la ventana No. 1 digitar:

tapply(DIVDISTRITO$`San Isidro`$GASTO,DIVDISTRITO$`San Isidro`$GENERO,mean)


tapply(DIVDISTRITO$`San Isidro`$GASTO,DIVDISTRITO$`San Isidro`$GENERO,median)
# IMPORTANTE: No se debe escribir con tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

Observación: Cuando la denominación de la variable tiene un espacio entre dos palabras


como es el caso de San Isidro, después de poner el nombre de la base de datos es
necesario ingresar el signo dólar ($) y seleccionar la categoría de la variable de estudio
para que figuere entre comillas en la sentencia; es este caso: `San Isidro`

a. Considerando a los residentes del distrito de San Isidro, el gasto promedio de los
usuarios de telefonía de género masculino es igual a 90.24390 mientras que el gasto
promedio de los usuarios de telefonía de género femenino es igual a 89.41176 Entonces
podemos afirmar que el gasto de telefonía en mayor en los clientes de género masculino.

b. Considerando a los usuarios de telefonía hombres que residen en el distrito de San


Isidro, el valor que deja a su izquierda el 50% de los datos y a su derecha el otro 50% de
los datos es igual a 89 y corresponde a la estadística denominada mediana (media /
mediana / moda / varianza); su valor coincide con el percentil 50 y con el cuartil Q2

c. Considerando a las usuarias de telefonía mujeres que residen en el distrito de San


Isidro, el gasto promedio de telefonía es igual a 89.41176 mientras que la mediana del
gasto de telefonía es igual a 82. Entonces podemos afirmar que menos (menos / más) del
50% de los datos son mayores que la media.

50% 50%
SAN ISIDRO:
MUJERES Mediana
Media

39
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
5. Considerando la información del gasto de los usuarios de telefonía, halle el valor de las
medidas estadísticas para completar la tabla y los espacios en blanco de los enunciados
que se presentan a continuación:
Tabla No. 4

GASTO
Medidas diversas de tendencia central, posición y dispersión
DISTRITO
DE No. de datos
RESIDENCI (No. de
A Promedio Mediana Desviación Coeficiente de usuarios de
CV (%) (media) =Q2 = estándar asimetría telefonía)
P50 (Pearson)

Jesús María 31.63316 100.2000 96.00 31.69643 0.3975211 45

Miraflores 43.36853 92.81667 87.00 40.25322 0.4335057 60

San Isidro 36.03358 90.0000 87.00 32.43022 0.2775189 58

San Miguel 37.47539 87.95775 92.00 32.96251 -0.3678956 71


Santiago de 35.94746 91.96970 87.50 33.06077 0.4055892 66
Surco

# Se requiere hallar las estadísticas para cada nivel de la variable DISTRITO.

# Luego de haber hallado los estadísticos : X , M e, S , calculamos el Coeficiente de Asimetría de Pearson


3 ( X −M e )
con la siguiente fórmula: ASPearson =
S

Procedimiento alternativo: Hallar las estadísticas con RStudio: CV, media, mediana, desviación estándar
y coeficiente de asimetría de Pearson.

# Para hallar el CV instalar el paquete raster:


Instalar el paquete raster (en la ventana 4: Packges / Install / raster / Install)
En la ventana No. 1 digitar:
# Para llamar al paquete antes instalado:
library(raster)
# Para hallar el CV, la media, la mediana y la desviación estándar
# Escribir en minúsculas cv, mean, median, sd, mean
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,cv)
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,mean)
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,median)
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,sd)

40
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Calcular el coeficiente de asimetría de Paerson
3*(tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,mean)-
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,median))/
tapply(telefoniaR$GASTO,telefoniaR$DISTRITO,sd)

# En la ventana 1 de R Studio para hallar el número de usuarios de telefonía por Distrito (fi):
table(telefoniaR$DISTRITO)

a. Para la variable gasto de los usuarios de telefonía en el distrito de San Miguel se encuentra que
el promedio es igual a 87.95775 Soles y es menor que la mediana.

b. El CV del gasto de los usuarios de telefonía residentes en el distrito de Miraflores es igual a


43.36853 % y evidencia una distribución heterogénea (homogénea / asimétrica / heterogénea).

c. Si comparamos el gasto de los usuarios de telefonía residentes en los distritos de Miraflores y


Jesús María podemos afirmar que el gasto de telefonía en el distrito de Miraflores es más (más
/ menos / igual de) heterogéneo que el gasto de telefonía en el distrito de Jesús María.

d. El coeficiente de asimetría de Pearson para el gasto de los usuarios de telefonía residentes en


el distrito de San Miguel es igual a -0.3678956 y evidencia una distribución asimetrica
negativa (simetrica / asimetrica negativa / asimetrica positiva).

e. Analizando el coeficiente de asimetría de Pearson del gasto de los usuarios de telefonía,


desagregado por distrito, la mayor asimetría se observa en el distrito de Miraflores y la menor
asimetría en el distrito de San Isidro

f. Si comparamos el gasto de los usuarios de telefonía residentes en los distritos de San Miguel y
Santiago de Surco podemos afirmar que el gasto de telefonía en el distrito de San Miguel tiene
una asimetría menor. (menor /igual/ mayor) a la asimetría que se observa en el Santiago de
Surco.

6. Con la información de la variable edad, realice un diagrama de cajas y complete los


espacios en blanco de los enunciados que se presentan a continuación:
a. La mejor medida de tendencia central representativa de las edades en los usuarios de la
Empresa Claro es la media (media / moda / mediana / varianza / cv) porque no (si / no)
se observan valores extremos (outliers).

41
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
b. La distribución de las edades de los usuarios de la Empresa Nextell presenta asimetría
positiva (positiva / negativa) mientras que en los usuarios de la Empresa Telefónica se
observa una asimetría negativa (positiva / negativa)
c. En la distribución de las edades de los usuarios de la Empresa Telefónica se observa
mayor heterogeneidad en el 25% inferior (inferior / superior) de los datos en
comparación con el 25% superior. (inferior / superior). En el diagrama de cajas se
observa que el bigote inferior es más grande (pequeño / grande / del mismo tamaño) que
el bigote superior.
Con RStudio:

# Para generar el Diagrama de Cajas e identificar los datos atípicos:


gtelefoniaR=boxplot(telefoniaR$EDAD~ telefoniaR$EMPRESA)
gtelefoniaR$out
# Para colocar la media en el gráfico de cajas realizamos los siguiente
points(tapply(telefoniaR$EDAD,telefoniaR$EMPRESA,mean),col="Red",pch=19)

# Para obtener la media:


tapply(telefoniaR$EDAD,telefoniaR$EMPRESA,mean)
# Para obtener la mediana:
tapply(telefoniaR$EDAD,telefoniaR$EMPRESA,median)

MEDIA:
Claro Nextell Telefónica
5.93711 24.60000 27.03448
MEDIANA:
Claro Nextell Telefónica
26 23 28
7. Considerando el gasto de los usuarios de telefonía, halle el valor de los percentiles para
completar los espacios en blanco de los enunciados que se presentan a continuación:
Hallamos los percentiles con RStudio.
# Para hallar un percentil en particular de una variable cuantitativa (sin clasificar por
grupos):
quantile(telefoniaR$GASTO,valor del percentil,type=6)

# Para hallar un percentil en particular de una variable cuantitativa por grupos:


tapply(telefoniaR$GASTO,telefoniaR$GENERO,quantile, valor del percentil,type=6)

# El valor del percentil se debe escribir con decimales.


42
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para hallar el Rango Intercuartil de una variable cuantitativa (sin clasificar por
grupos):
IQR(telefoniaR$variable cuantitativa,type=6)

# Para hallar Rango Intercuartil de una variable cuantitativa por grupos:


tapply(telefoniaR$variable cuantitativa,telefoniaR$GENERO,IQR,type=6)

a. El gasto máximo del 10% de usuarios de telefonía que presentan el menor gasto es el
Percentil 10.y su valor es igual a 49.2 Soles.
10% 90%

P10
quantile(telefoniaR$GASTO,0.10,type=6)
# V. cuantitativa: GASTO / no se requiere generar grupos / estadística: P10
b. El gasto mínimo del 20% de usuarios de telefonía que presentan el mayor gasto es el
Percentil 80 y su valor es igual a 121.8 Soles.
80% 20%

P80
quantile(telefoniaR$GASTO,0.80,type=6)
c. El gasto mínimo del 20% de usuarios de telefonía hombres que presentan el mayor gasto
es el Percentil 80.y su valor es igual a 116 Soles.
80% 20%
usuarios hombres
P80
tapply(telefoniaR$GASTO,telefoniaR$GENERO,quantile,0.80,type=6)
V. cuantitativa: GASTO / se requiere generar grupos: V. cualitativa (factor): GENERO

d. Los valores del gasto entre los cuales se encuentran el 60% central de los usuarios de
telefonía son el Percentil 20.y el Percentil 80 El valor de estas medidas de posición son
57.8 Soles y 121.8 Soles, respectivamente.
20% 60% 20%

P20 P80
quantile(telefoniaR$GASTO,0.20,type=6)
quantile(telefoniaR$GASTO,0.80,type=6)

43
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
d. El valor del Rango Intercuartil para el gasto en telefonía es igual a 48 Soles y se
encuentra entre el Percentil 25 y el Percentil 75. El valor de estas medidas de posición
son 68 Soles y 116 Soles, respectivamente.
25% 50% 25%

P25 P75
quantile(telefoniaR$GASTO,0.25,type=6)
quantile(telefoniaR$GASTO,0.75,type=6)
IQR(telefoniaR$GASTO,type=6)
e. El valor del Rango Intercuatil para el gasto en telefonía de las usuarias mujeres es igual
a 47.25 Soles y se encuentra entre el Percentil 25 y el Percentil 75.
tapply(telefoniaR$GASTO,telefoniaR$GENERO,IQR,type=6)

OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso telefoniaR.

El archivo telefoniaR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo telefoniaR

44
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 4: EMPRESA DATA SERVIS

* No requiere base de datos

La empresa “Data-Servis” realizó un estudio para una empresa automotriz con la finalidad de conocer
algunas características de los vehículos que utilizan los jefes de hogar tales como su categoría y precio; el
estudio se llevó a cabo en Lima Metropolitana.

1. ¿Se puede afirmar que la edad máxima de la mitad (50%) de los jefes del hogar que
tienen categoría de vehículo estándar es mayor que la de los jefes de hogar que tienen
categoría de vehículo lujoso? La mediana es mayor en los jefes del hogar que tienen
categoría de vehículo Lujoso (49.50).

Categoría de Vehículo Valor Mediana


variable :edad del jefe de hogar
Económico 29.50
Estándar 40.50
Lujoso 49.50

2. ¿En qué categoría de los vehículos los precios son más heterogéneos? (justifique su
respuesta con la medida estadística que corresponda). En la categoría Lujoso porque el
CV es el mayor (36.36 %).
Categoría de Vehículo Coeficiente Variación
variable : Precio del vehículo
Económico 23.10
Estándar 21.09
Lujoso 36.36

45
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
3. ¿Es la distribución de los precios de los automóviles más asimétrica en los clientes que tienen
vehículos de categoría estándar que los que tienen categoría lujosa? Si, porque el AS – Pearson es
mayor en la categoría Estándar (- 0.60).
Categoría de Vehículo Coeficiente Pearson
variable : Precio del vehículo
Económico 0.04 (asimetría positiva)
Estándar -0.60 (asimetría negativa)
Lujoso 0.49 (asimetría positiva)

4. Interprete los percentiles (P15, P85) de la variable edad de los clientes.


P 15=27 Es el valor máximo del 15 % inferior (27 años es la edad máxima del 15% de clientes
de menor edad).
P 85=56 Es el valor mínimo del 15 % superior (56 años es la edad mínima del 15% de clientes
de mayor edad).

5. ¿Entre que valores se encuentra el 70% central de datos de la distribución de la variable edad?¨
15% 70% 15%

P15 P85
P15: 27 años.
P85: 56 años.

6. Comente el diagrama de cajas de la variable precio del vehículo según categoría y responda:
¿En qué categorías de los vehículos, el precio promedio es mayor a los demás? Categoría
Lujoso.

Boxplot of Precio vehiculo


100

80
Precio vehiculo

60

40

20

0
económico estándar lujoso
Categoria _vehic

46
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
7. Presentan los datos de la variable precio del vehículo, según categorías, valores atípicos u
outliers. Si es así, indique en qué categoría. ¿En este caso, qué medida de tendencia central sería
conveniente utilizar, la media o la mediana? No hay valores atípicos entonces mejor medida de
tendencia central es la media.

8. ¿En qué categoría de los vehículos la variable precio presenta mayor dispersión en el 50% central
de los datos? Justifique su respuesta. En la categoría Lujoso (el ancho de la caja es mayor).

9. ¿En qué categoría de los vehículos la variable precio presenta menor dispersión en el 25%
superior de los datos? Justifique su respuesta. En la categoría económico (el bigote superior es el
más pequeño).

10. ¿En qué categoría de los vehículos la variable precio presenta mayor dispersión en el 25%
inferior de los datos? Justifique su respuesta. En la categoría lujoso (el bigote inferior es el más
grande).

47
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 5: LOS PRACTICANTES

En una Escuela de Negocios Internacionales los estudiantes tienen la oportunidad de realizar


prácticas brindando soporte a los proyectos de investigación que realizan los profesores
investigadores. La coordinación académica ha recabado datos asociados a un conjunto de variables

relacionadas a los mencionados practicantes en el archivoen Excel practicantes disponible en su


aula virtual. Las variables de estudio se detallan a continuación:
Notación de la Indique el tipo de variable
Columna Descripción de la variable
variable (cuantitativa / cualitativa)
Línea de investigación a la que
C1 LINEA corresponde el proyecto al cual
ha sido asignado el practicante.
Carrera a la que pertenece el
C2 CARRERA
practicante.
Evaluación del desempeño del
C3 RENDIMIENTO
practicante.
Horas de dedicación durante la
C4 HORAS
duración del proyecto.
Promedio ponderado
C5 PPA
acumulado del practicante.
Cantidad de informes
C6 INFORMES presentados por el practicante
durante el proyecto.
UNIDAD DE ANÁLISIS: Un practicante.

 Inicie una sesión del programa R-Studio.


Inicie una sesión del programa R-Studio.
Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
practicantesR
 Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: practicantesR.
El conjunto de datos practicantesR tiene 180 filas y 6 columnas.

48
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

1. Con las variables de estudio que considere conveniente genere las tablas de frecuencias y
complete los espacios en blanco de los enunciados que se presentan a continuación:
# Variables de estudio: fila: LINEA y columna: RENDIMIENTO
table(practicantesR$LINEA,practicantesR$RENDIMIENTO)
tabla1<- table(practicantesR$LINEA,practicantesR$RENDIMIENTO)
addmargins(tabla1)

a. En la línea de investigación dos (L2) el número de practicantes con rendimiento


bueno es igual a 14; lo cual representa el 26.9231 %
b. De los practicantes con rendimiento bajo, 7 de ellos corresponden a la línea de
investigación 1 (L1); lo cual representa el 43.75 %
c. Del total de practicantes 23 de ellos corresponden a la línea de investigación 1 (L1) y
tienen rendimiento regular; lo cual representa el 12.7778 %

2. Se sabe que los practicantes que elaboraron menos de 6 informes se les asignó la
categoría B (CB) y al resto de los practicantes a la categoría A (CA).
Con las variables de estudio que considere conveniente genere las tablas de frecuencias y
complete los espacios en blanco de los enunciados que se presentan a continuación:
Primero: Recodificamos:
# variable cuantitativa a recodificar: INFORMES que se recodificará para generar la variabla
cualitativa (FACTOR) que denominaremos: CATEGORIA.

# Llamar al paquete car

library(car)

#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:

practicantesR$CATEGORIA=recode(practicantesR$INFORMES,"0:5.99='CB';6:max(practicantesR$INFO
RMES)= 'CA'")

#Observación: Al haber denominado a la nueva variable cualitativa con un nombre distinto (en este
caso CATEGORIA) aparecerá en la base de datos una columna adicional con la nueva variable
cualitativa: CATEGORIA. Si se hubiera denominado a la variable recodificada con el mismo nombre
(INFORMES) se perderían los datos originales de la variable Informes.

49
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Después: hallamos la tabla de frecuencias absolutas simples

# Variables de estudio: fila: CATEGORIA y columna: CARRERA


table(practicantesR$CATEGORIA,practicantesR$CARRERA)
tabla2<-table(practicantesR$CATEGORIA,practicantesR$CARRERA)
addmargins(tabla2)

a. Del total de practicantes, se encuentra que 72 de ellos pertenecen a la categoría A


(CA) y son de la carrera de Negocios Internacionales; lo cual representa el 40 %

b. Del total de practicantes de la Carrera de Negocios Internacionales, se encuentra que


72 de ellos pertenecen a la categoría A (CA); lo cual representa el 72 %

3. Con las variables de estudio que considere conveniente halle las medidas estadísticas que
le permitan completar los espacios en blanco de los enunciados que se presentan a
continuación:
a. El menor PPA promedio corresponde a los practicantes asignados a un proyecto de la
Línea de investigación L1 ; este promedio es igual a 13.97500
# Media del PPA por grupos (con la variable cualitativa LINEA)

tapply(practicantesR$PPA,practicantesR$LINEA,mean)

b. Analizando la variable horas de dedicación, hay un 20% de practicantes que dedicaron


más horas a los proyectos en los que fueron asignados (20% superior) a los que se les
denominó Grupo A . El tiempo mínimo de dedicación de un practicante de este grupo es
igual a 362.8 horas y representa el Percentil 80
80% 20%

P80
quantile(practicantesR$HORAS,0.80,type=6)

c. De los practicantes de la carrera de Negocios Internacionales, el PPA que debe tener


como mínimo un practicante para ser parte del décimo superior (10% de practicantes
con mayor PPA) es igual a 15.98 y representa el Percentil 90
90% 10%

P90
tapply(practicantesR$PPA,practicantesR$CARRERA,quantile,0.90,type=6)

50
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
d. La variación relativa de las horas de dedicación de los practicantes de la Carrrea de
Negocios Internacionales es igual a 5.114909 % y para los practicantes de la Carrera
de Administración es igual a 5.324210 %. Por tanto, se puede afirmar que en la
distribución de los datos de la variable horas dedicación existe mayor (menor / igual /
mayor) homogeneidad en los practicantes de la Carrera de Negocios Internacionales en
comparación los practicantes de la Carrera de Administración.
library(raster)
# Coeficiente de Variación del PPA por grupos (con la variable cualitativa CARRERA)

tapply(practicantesR$HORAS, practicantesR$CARRERA,cv)
# las iniciales del Coeficiente de Variación se escriben en minúscula

e. En la Línea de Investigación uno (L1), la variación relativa de las horas de


dedicación de los practicantes de la Carrrea de Negocios Internacionales es igual a
4.700298 % y evidencia homogeneidad .(homogeneidad / heterogeneidad / variabilidad)
en la distribución de la variable de estudio.
# Para llamar el CV instalar el paquete raster:
Instalar el paquete raster (en la ventana 4: Packges / Install / raster / Install)
En la ventana No. 1 digitar:

Con RStudio:
DIV_LINEA =split(practicantesR,practicantesR$`LINEA`)

# Para llamar al paquete antes instalado:


library(raster)
tapply(DIV_LINEA$L1$HORAS,DIV_LINEA$L1$CARRERA,cv)

OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso practicantesR.

El archivo practicantesR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo practicantesR

51
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
CASO 6: EVALUACIÓN DE PRACTICANTES

En un estudio realizado en la Empresa Alfa SRL para evaluar el desempeño de sus practicantes
(estudiantes universitarios y recién egresados) en las áreas operativas de las empresas del grupo (Calidad,
Compra, Logística, Producción) que operan a nivel nacional, se recabaron datos de una muestra,
considerándose las siguientes variables para el análisis:

Indique el tipo
Notación de la de variable
Columna Descripción de la variable
variable (cuantitativa /
cualitativa)
Área operativa de la empresa: Calidad,
C1 AREA Compras, Logística y Producción.

Tipo de universidad donde estudia el


TIPO
C2 practicante: nacional, privada.

Calificación del cumplimiento, asignado por el


responsable del área de recursos humanos, al
desempeño del practicante:
A: Muy por encima de las expectativas.
C3 EVALUACION
B: Por encima de las expectativas.
C: Por debajo de las expectativas.
D: Muy por debajo de las expectativas.

Tiempo (meses) de realización de las


C4 TIEMPO prácticas.

Monto de pago (nuevos soles) que brinda la


C5 PAGO empresa al practicante.

Género del practicante: Hombre, mujer.


C6 GENERO
Edad de practicante en años cumplidos.
C7 EDAD
Experiencia laboral previa del practicante: si,
C8 EXPERIENCIA
no.
Los datos recopilados se presentan en el archivo en Excel evaluac disponible en su aula virtual.

52
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
UNIDAD DE ANÁLISIS: Un practicante.

NOTA: Los niveles de pago a los practicantes corresponden a los siguientes rangos:

Pago Nivel pago


Menor a 1200 Soles Nivel1
Mayor o igual a 1200 Soles y
Nivel2
menor a 1260 Soles
Mayor o igual a 1260 Nivel3

 Inicie una sesión del programa R-Studio.


Inicie una sesión del programa R-Studio.
Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
evaluacR
 Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: evaluacR.
El conjunto de datos evaluacR tiene 200 filas y 8 columnas.

# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

1. Con las variables que considere conveniente genere las tablas de frecuencias y complete
los espacios en blanco de los enunciados que se presentan a continuación:
Primero: Realizamos dos recodificaciones:

Primera recodificación:
# Con la variable cuantitativa PAGO, realizando una recodificación por Rangos, generamos la
variabla cualitativa Nivel de Pago (FACTOR) que denominaremos: N_PAGO.
# Llamar al paquete car

library(car)

#Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la recodificación por
rangos:

evaluacR$N_PAGO=recode(evaluacR$PAGO,"0: 1199.99='Nivel1';1200:1259.999='Nivel2';
1260:max(evaluacR$PAGO)= 'Nivel3'")

Segunda recodificación:
# Con la variable cuantitativa EDAD, realizando una recodificación por Rangos, generamos la
variabla cualitativa Rango de edad (FACTOR) que denominaremos: R_EDAD.

evaluacR$R_EDAD=recode(evaluacR$EDAD,"0: 23.99='Menores de 24 años';


24:max(evaluacR$EDAD)= '24 años a más'")

53
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Segundo: Generamos la tabla de frecuencias:

# Variables de estudio: fila: N_PAGO y columna: R_EDAD


table(evaluacR$N_PAGO,evaluacR$R_EDAD)
tabla1<- table(evaluacR$N_PAGO,evaluacR$R_EDAD)
addmargins(tabla1)
a. Del total de practicantes que conforman la muestra el número de practicantes que tienen
nivel de pago 3 (Nivel3) y son menores a 24 años es igual a 122 ; lo cual representa el
61 %

b. Del total de practicantes con un nivel de pago 2 (Nivel2), el número de practicantes que
tienen menos de 24 años es igual a 19 ; lo cual representa el 79.1667.%

2. Con las variables de estudio que considere conveniente calcule las medidas de tendencia
central y de posición para completar los espacios en blanco de los enunciados que se
presentan a continuación:
a. Para los practicantes en general, el pago promedio es igual a 1399.86 Soles y la
mediana es igual a 1415 Soles. Con estos resultados podemos afirmar que …………..
(menos / más) del 50% de los datos correspondientes al pago son menores que la media.
Esta situación ocurre cuando la media es menor que la mediana (mediana / varianza /
desviación estándar).
50% 50%

Mediana
Media

# Con RStudio:
mean(evaluacR$PAGO)
median(evaluacR$PAGO)

b. Para los practicantes del área de calidad el pago promedio es igual a 1421.364 Soles y
la mediana es igual a 1430 Soles. Con estos resultados podemos afirmar que menos .
(menos / más) del 50% de los datos correspondientes al pago son menores que la media.
Esta situación ocurre cuando la media es menor (menor / igual / mayor) que la mediana.
50% 50%

54
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Area:
calidad Mediana
Media

# Con RStudio:
tapply(evaluacR$PAGO,evaluacR$AREA,mean)
tapply(evaluacR$PAGO,evaluacR$AREA,median)

c. Para los practicantes en general, el pago (sin distinguir el nivel de pago), el 80%
central de los datos se encuentra entre 990 Soles y 1700 Soles; estas medidas de posición
representan el Percentil 10 y el Percentil 90

10% 80% 10%

P10 P90
# Con RStudio:
quantile(evaluacR$PAGO,0.10,type=6)
quantile(evaluacR$PAGO,0.90,type=6)

d. De las practicantes mujeres, el tiempo de práctica mínimo por encima del cual se
encuentra el 25% de practicantes con mayor tiempo de práctica (25% superior) es igual a
6 años.
75% 25%
Mujeres
P75=Q3
Con RStudio:
tapply(evaluacR$TIEMPO,evaluacR$GENERO,quantile,0.75,type=6)

3. Con las variables de estudio que considere conveniente calcule las medidas de
dispersión para completar los espacios en blanco de los enunciados que se presentan a
continuación:
a. En el área de calidad se observa mayor homogeneidad en la distribución de la variable
pago a los practicantes con un Coeficiente de Variación igual a 18.06935 %.
# Con RStudio:
library(raster)
tapply(evaluacR$PAGO,evaluacR$AREA,cv)

55
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
b. Para las practicantes mujeres. En el área de logística se observa mayor homogeneidad
en la distribución de la variable pago a los practicantes con un Coeficiente de
Variación igual a 12.75819 %.
# Escribir cv (en minúscula)
# para obtener el cv primero fue necesario instalar el paquete raster y llamarlo:
# Con RStudio:
DIV_GENERO=split(evaluacR,evaluacR$`GENERO`)
library(raster)
tapply(DIV_GENERO$mujer$PAGO, DIV_GENERO$mujer$AREA, cv)

c. Supongamos que el grupo empresarial decide aumentar el pago a todos los practicantes en
general en 10% y otorgarles un bono por movilidad de S/. 100 soles. Entonces, la nueva media y
la nueva varianza del pago a los practicantes después de dicho aumento son iguales a 1639.846
Soles y 85987.7667 Soles2, respectivamente.

Y = Nuevo pago a los practicantes después del incremento salarial.


Y = X + 0.10X + 100 = 1.10X + 100
Hallar la media y la varianza antes del incremento salarial.

# Con RStudio:
mean(evaluacR$PAGO)
library(raster)
var(evaluacR$PAGO)

M(X)= 1399.86 Soles


V(X) = 71064.27 Soles2

Para hallar la nueva media y varianza después del incremento salarial.

M (Y) = M ( 1.10 X + 100) = 1.10M(X) + M(100) =

V (Y) = M ( 1.10 X + 100) = 1.102 V(X) + 0 =

d. Supongamos que el grupo empresarial decide aumentar el pago a todos los practicantes del
área de calidad en 10% y otorgarles un bono por movilidad de S/. 100 soles. Entonces, la nueva
media y la nueva varianza del pago a los practicantes del área de calidad después de dicho
aumento son iguales a 1663.5004 Soles y 79814.3467 Soles 2, respectivamente.

Y = Nuevo pago a los practicantes del Área de Calidad después del incremento salarial.
Y = X + 0.10X + 100 = 1.10X + 100
M(X)= 1421.364 Soles

56
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
V(X) = 65962.27 Soles2

# Con RStudio:
# Para obtener la media y la varianza de la variable PAGO por AREA.
tapply(evaluacR$PAGO,evaluacR$AREA,mean)
library(raster)
tapply(evaluacR$PAGO,evaluacR$AREA,var)
Hallar la nueva media y varianza después del incremento salarial (Area de Calidad).

M (Y) = M ( 1.10 X + 100) = 1.10M(X) + M(100) =

V (Y) = M ( 1.10 X + 100) = 1.102 V(X) + 0 =

4. Con la información de la variable pago a los practicantes, generando grupos con la variable
cualitativa que considere conveniente, realice un diagrama de cajas y complete los espacios en
blanco de los enunciados que se presentan a continuación:
a. En la distribución del pago a los practicantes hombres …………..(si / no) se observan datos
atpipicos (outliers). Asimismo, se evidencia menor dispersión en el 25% ………….(superior
/ inferior) de los datos.

b. En la distribución del pago a los practicantes mujeres …………..(si / no) se observan datos
atpipicos (ortliers). Asimismo, se evidencia mayor dispersión en el 25% ………….(superior
/ inferior) de los datos.
Con RStudio:

# Para generar el Diagrama de Cajas e identificar los datos atípicos:


gevaluacR=boxplot(evaluacR$PAGO~evaluacR$GENERO)
gevaluacR$out
# Para colocar el punto con el valor de la media en el gráfico
points(tapply(evaluacR$PAGO, evaluacR$GENERO,mean),col="Red",pch=19)

# Para hallar la media y la mediana


tapply(evaluacR$PAGO,evaluacR$GENERO,mean)
tapply(evaluacR$PAGO,evaluacR$GENERO,median)
MEDIA:
Hombres: 1405.407
Mujeres: 1383.220
MEDIANA:
Hombre: 1415
Mujer: 1415

OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo

57
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
nombre; en este caso evaluacR.

El archivo evaluacR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo evaluacR

CASO 7: PYMES

La importancia que tienen actualmente en la economía, tanto las pequeñas y medianas empresas
(PYMES) como los emprendedores, es fundamental, ya que su aporte en la generación de riqueza para
cualquier país es innegable, particularmente en la contribución a la apertura de puestos de trabajo, así lo
afirma la Organización para la Cooperación y el Desarrollo Económicos (OCDE). De acuerdo con el
reporte “Financiamiento de pymes y emprendedores 2018”, realizado por la OCDE, en sus países
miembros las pymes y los emprendedores constituyen la columna vertebral de las economías de esos
países y son fundamentales para fortalecer la productividad, generar un crecimiento más inclusivo y
adaptarse a mega tendencias como la nueva revolución industrial y un perfil cambiante del trabajo. A
continuación, se describe las variables de estudio correspondientes a una muestra de pequeñas y medianas
empresas (PYMES) dedicadas al sector construcción:

Indique el
Descripción de la variable tipo de
Column Notación de la
variable
a variable
(cuantitativa /
cualitativa)
Vigilancia de la salud: actividad preventiva que toda empresa.
C1 ESTADO Inspección de la estructura de la empresa.
1: vigilancia 2: inspección
El activo no corriente es una parte del activo y aparece dentro del
C2 ACTIVO_NO balance de situación de una empresa (maquinaria, construcciones,
CORRIENTE vehículos o terrenos). En soles.
El activo son los bienes, derechos y otros recursos de los que
C3 ACTIVO dispone una empresa (muebles). En soles.
El pasivo corriente o pasivo circulante es la parte del pasivo que
PASIVO_ contiene las obligaciones a corto plazo de una empresa, es decir, las
C4
CORRIENTE deudas y obligaciones que tienen una duración menor a un año. En
soles.

El pasivo está compuesto por la financiación de la empresa y las


C5 PASIVO obligaciones de pago frente a terceros. En soles.
C6 PATRIMONIO El patrimonio es el conjunto de bienes y derechos, cargas y
obligaciones, pertenecientes a una persona, física o jurídica. En

58
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
soles.
PASIVO_Y_ El Pasivo y patrimonio son las fuentes de financiación de la
C7
PATRIMONIO empresa. En soles.
La utilidad operacional es el resultado de tomar los
C8 ingresos operacionales y restarle los costos y gastos operacionales.
UTILIDAD En soles.
Tamaño de la PYME:
C9 TAMAÑO 1: Pequeña empresa 2: Mediana empresa
Los datos recopilados se presentan en el archivo en Excel PYMES disponible en su aula virtual.
UNIDAD DE ANÁLISIS:Una Pyme.

 Inicie una sesión del programa R-Studio.


Inicie una sesión del programa R-Studio.
Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre
pymesR
 Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: pymesR.
El conjunto de datos pymes tiene 136 filas y 9 columnas.

# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

1. Con las variables de estudio que considere conveniente genere las tablas de frecuencias
y complete los espacios en blanco de los enunciados que se presentan a continuación:

# Variables de estudio: fila: TAMAÑO y columna: ESTADO


table(pymesR$TAMAÑO,pymesR$ESTADO)

tabla1<-table(pymesR$TAMAÑO,pymesR$ESTADO)

addmargins(tabla1)

a. De las empresas medianas, 71 de ellas se encuentran en estado de vigilancia; lo cual


representa el 70.29703 %

b. Considerando solo a las empresas que se encuentran en estado de inspección, 6 de ellas


son empresas pequeñas; lo cual representa el 16.6667 %

2. Elabore la gráfica y elija las variables que considere conveniente para completar los
espacios en blanco en los enunciados que se presentan a continuación:

Con RStudio.
# Para generar el Diagrama de Cajas e identificar los datos atípicos:
59
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
gpymesR=boxplot(pymesR$UTILIDAD~pymesR$ESTADO)
gpymesR$out

# Para colocar el punto con el valor de la media en el gráfico


points(tapply(pymesR$UTILIDAD, pymesR$ESTADO,mean),col="Red",pch=19)

# Para obtener la media por ESTADO de la pyme:


tapply(pymesR$UTILIDAD,pymesR$ESTADO,mean)
# Para obtener la mediana por ESTADO de la pyme:
tapply(pymesR$UTILIDAD,pymesR$ESTADO,median)

Media:
inspeccion vigilancia
177192.2 171704.1
Mediana:
inspeccion vigilancia
169290.5 155102.0

a. En la distribución de la variable utilidad operacional de las empresas que presentan el


estado de vigilancia si (si / no) se observan valores atípicos u outliers por lo cual la
medida adecuada de tendencia central es la mediana (media, mediana, moda). Asimismo
se observa una asimetría positiva (negativa, positiva).

b. En la distribución de la variable utilidad operacional de las empresas que presentan el


estado de inspección si (si / no) se observan valores atípicos u outliers por lo cual la
medida adecuada de tendencia central es la mediana (media, mediana, moda). Asimismo
se observa una asimetría positiva (negativa, positiva).

3. Con las variables de estudio que considere conveniente halle el valor de las estadísticas
para completar los espacios en blanco de los enunciados que se presentan a
continuación:

a. Se tiene conocimiento que el patrimonio de las medianas empresas se ha incrementado en un


15 % más 10000 Soles, Entonces después de este incremento del patrimonio de las medianas
empresas la nueva media es igual a 2086113.4 Soles.
Y = Nuevo Patrimonio de las medianas empresas después del incremento.
Y = 1.15X + 10000.
M(X)= 1805316 Soles

60
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
# Para obtener la media de la variable PATRIMONIO por TAMAÑO de la pyme

tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,mean)

b. Para las empresas pequeñas, el patrimonio promedio es igual a 2600595 Soles y la


mediana es igual a 2281062 Soles. Entonces podemos afirmar que menos (más, menos)
del 50% de los datos son mayores que la media.

50% 50%
PATRIMONIO:
Pequeñas Empresas Mediana
Media
tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,mean)
tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,median)

c. La distribución de la variable patrimonio presenta mayor heterogeneidad en las


empresas de tamaño mediano (pequeño / mediano) con un coeficiente de variación
igual a 59.28144 %

Procedimiento alternative con RStudio


Instalar el paquete raster (en la ventana 4: Packges / Install / raster / Install)
En la ventana No. 1 digitar:
# Para llamar al paquete antes instalado:
library(raster)
# Para hallar la moda clasificando por grupos:
tapply(pymesR$PATRIMONIO,pymesR$TAMAÑO,cv)
#observación: escribir cv en minúscula
d. La utilidad operacional mínima del 10% de las empresas que presentan mayor
utilidad es igual a 647249.2 Soles. Este valor es el Percentil 90
90% 10%
Todas las empresas
P90
quantile(pymesR$UTILIDAD,0.90,type=6)

e. La utilidad operacional mínima del 15% de las empresas medianas que presentan
mayor utilidad es igual a 626282.1 Soles. Este valor es el Percentil 85
85% 15%
Mediana empresas
P85

61
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
tapply(pymesR$UTILIDAD, pymesR$TAMAÑO,quantile,0.85,type=6)

OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso pymesR.
El archivo pymesR será guardado en formato R y para usarlo en una próxima sesión deberá
cargarse de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo pymesR

CASO 8: ALFA

En la fábrica ALFA se seleccionaron a 200 operarios que fueron divididos en 2 grupos para participar en
un curso de capacitación; los operarios del grupo 1 fueron capacitados con la técnica A y los operarios del
grupo 2 con la técnica B. El objetivo de la capacitación fue disminuir el tiempo que emplean los
operarios para realizar una actividad considerada de gran importancia en el proceso de producción.
Terminada la capacitación, se le pidió a cada operario de cada grupo que procediese a realizar la actividad
y se registró el tiempo correspondiente. A continuación se indican las variables de este estudio:

Indique el tipo
Notación de Descripción de la variable de variable
Columna
la variable (cuantitativa /
cualitativa)

C1 GENERO Género del operario: hombre, mujer.

C2 TECNICA Técnica con la que fue capacitado el


operario: A, B.

62
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Tiempo que demoró el operario en realizar la
C3 TIEMPO actividad (en minutos).

Utilizando la base de datos en Excel alfa disponible en el aula virtual, responda las siguientes
preguntas, justificando su respuesta numéricamente con las medidas estadísticas correspondientes.

 Inicie una sesión del programa R-Studio.


Inicie una sesión del programa R-Studio.
Cargar la base de datos: En la Ventana 2 (datos y objetos):
 Import Dataset / From Excel / Browse (elegir de la PC el archivo en Excel que se desea
cargar).
 Name: Puede dejar el mismo nombre o poner otro distinto, pondremos el nombre alfaR
 Dar clic en Import (que figura en la esquina inferior derecha)
Ahora en la Ventana 2 (datos y objetos) aparece la base de datos cargada: alfaR.
El conjunto de datos alfaR tiene 200 filas y 3 columnas.

# IMPORTANTE: No se deben usar tildes para nombrar los archivos, las variables, ni los niveles de
las variables categóricas.

1. Identifique la población, la muestra y la unidad de análisis que corresponden a este caso.


a. Población (N): Todos los operarios de la Fábrica Alfa.
b. Muestra (n): 200 operarios de la Fábrica Alfa.
c. Unidad de análisis: Un operario de la Fábrica Alfa.

2. Con la variable Tiempo que demoró el operario en realizar la actividad asignada,


complete la tabla y los espacios en blanco que se presentan a continuación:
Coeficient Desviació Coeficient
TECNICA e de Moda(s) Media Median n e de
de variación a Estándar asimetría
Capacitació de Pearson
n

A 17.80724 33 35.5754 34.5 6.335009 0.509299


7 2

B 16.30846 29, 34, 35, 34.5425 34 5.633359 0.288932


36 5 4
(multimodal
)

Luego de haber hallado los estadísticos : X , M e, S , calculamos el Coeficiente de Asimetría de Pearson


3 ( X −M e )
con la siguiente fórmula: ASPearson =
S

# Para calcular la Moda instalar el paquete DescTools:

63
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Instalar el paquete DescTools (en la ventana 4: Packges / Install / DescTools / Install)
# Para llamar al paquete antes instalado:
library(DescTools)
# Para hallar la moda por grupos:
tapply(alfaR$TIEMPO,alfaR$TECNICA,Mode)
# Escribir en mayúscula la primera letra de Mode

# Para calcular el CV instalar el paquete raster:


Instalar el paquete raster (en la ventana 4: Packges / Install / raster / Install)
En la ventana No. 1 digitar:
# Para llamar al paquete antes instalado:
library(raster)

# Para hallar el coeficiente de variación, la media, la mediana y la desviación estándar


# Escribir en minúsculas cv, mean, median, sd
# Para hallar el coeficiente de variación, la media, mediana y desviación estándar por grupos:
tapply(alfaR$TIEMPO,alfaR$TECNICA,cv)
tapply(alfaR$TIEMPO,alfaR$TECNICA,mean)
tapply(alfaR$TIEMPO,alfaR$TECNICA,median)
tapply(alfaR$TIEMPO,alfaR$TECNICA,sd)

# Para calcular el coeficiente de asimetría de Paerson


3*(tapply(alfaR$TIEMPO,alfaR$TECNICA,mean)-
tapply(alfaR$TIEMPO,alfaR$TECNICA,median))/
tapply(alfaR$TIEMPO,alfaR$TECNICA,sd)
a. La distribución del tiempo correspondiente a los operarios capacitados con la técnica A es
menos (más, menos, igual de) homogénea que la distribución del tiempo correspondiente a los
operarios capacitados con la técnica B, con un coeficiente de variación igual a 17.80724 %.

b. La distribución del tiempo correspondiente a los operarios capacitados con la técnica A


es más (más, menos, igual de) asimétrica que la distribución del tiempo correspondiente
a los operarios capacitados con la técnica B.

c. La distribución del tiempo correspondiente a los operarios capacitados con la técnica A presenta
una asimetría positiva (negativa / positiva) con un coeficiente de asimetría de Parson igual a
0.5092992
d. Los operarios que corresponden al 50% central de los datos, emplearon un tiempo de entre 31 y
39 minutos para realizar la actividad asignada. Estos valores representan el Percentil 25 y el
Percentil 75 respectivamente.
25% 25% 25% 25%
Todas los operarios
64
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
P25=Q1 P50=Q2=Me P75=Q3
Con RStudio:
quantile(alfaR$TIEMPO,0.25,type=6)
quantile(alfaR$TIEMPO,0.75,type=6)

e. Más del 50% de los operarios capacitados con la técnica A registraron un tiempo para
realizar la actividad menor. (menor / mayor / igual) a la media muestral. Esta situación
ocurre cuando la media es mayor que la mediana (mediana / desviación estánar / cv)
50% 50%
Técnica A:
Mediana
Media

3. Con la variable tiempo que demoró el operario en realizar la actividad asignada, halle los
percentiles que correspondan y complete los espacios en blanco que se presentan a
continuación:
Hallamos los percentiles con RStudio.
# Para hallar un percentil en particular de una variable cuantitativa (sin clasificar por
grupos):
quantile(alfaR$TIEMPO,valor del percentil,type=6)

# Para hallar un percentil en particular de una variable cuantitativa por grupos:


tapply(alfaR$TIEMPO,alfaR$TECNICA,quantile, valor del percentil,type=6)
# El valor del percentil se debe escribir en decimales.

a. El tiempo máximo que demoraron el 10 % de los operarios considerados más eficientes


en realizar la tarea asignada fue igual a 28 minutos. Este valor representa el Percentil
10.
quantile(alfaR$TIEMPO,0.10,type=6)
10% 90%
Todos los
operarios P10

b. El tiempo máximo que demoraron el 10 % de los operarios hombres considerados más


eficientes en realizar la tarea asignada fue igual a 28.6 minutos. Este valor representa el
Percentil 10
tapply(alfaR$TIEMPO,alfaR$GENERO,quantile,0.10 ,type=6)

65
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Operarios 10% 90%
hombres
P10

c. El 70% central de los operarios hombres demoraron un tiempo de entre 29 minutos y


42 minutos en realizar la tarea asignada. Estos valores representan el Percentil 15 y el
Percentil 85, respectivamente.
Operarios 15% 70% 15%
hombres
P15 P85
tapply(alfaR$TIEMPO,alfaR$GENERO,quantile,0.15,type=6)
tapply(alfaR$TIEMPO,alfaR$GENERO,quantile,0.85 ,type=6)

4. Realizando un diagrama de cajas del tiempo que demoraron los operarios en realizar
la tarea asignada, clasificando según la variable cualitativa GENERO, complete los
espacios en blanco que se presentan a continuación:
a. En la distribución del tiempo que demoraron los operarios hombres en realizar la tarea
asignada si (si / no) se observa la presencia de valores atípicos (outliers).
b. En la distribución del tiempo que demoraron las operarias mujeres en realizar la tarea
asignada no (si / no) se observa la presencia de valores atípicos (outliers). En este grupo
se observa asimetría positiva (negativa / positiva)
Con RStudio.
# Para generar el Diagrama de Cajas e identificar los datos atípicos:
galfaR=boxplot(alfaR$TIEMPO~alfaR$GENERO)
galfaR$out
# Para mostrar la media en el diagrama de caja
points(tapply(alfaR$TIEMPO,alfaR$GENERO,mean),col="Red",pch=19)

# Para obtener la media por GENERO del operario:


tapply(alfaR$TIEMPO,alfaR$GENERO,mean)
# Para obtener la mediana por GENERO del operario:
tapply(alfaR$TIEMPO,alfaR$GENERO,median)

MEDIA:
Hombre Mujer
35.078 35.106
MEDIANA:
Hombre Mujer
35 34

66
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
OBSERVACIÓN: Guardar el archivo Recodificado que podrá ser usado en otra sesión.
En la ventada 2 de R Studio / Icono del diskette (Save workspace as) / Guardar con el mismo
nombre; en este caso alfaR.

El archivo alfaR será guardado en formato R y para usarlo en una próxima sesión deberá cargarse
de la siguiente manera desde la ventana 2 de R Studio:
Ícono abrir documento (Load workspace) / seleccionar el archivo alfaR

CASO 9: EJERCICIOS DE APLICACIÓN DIVERSOS

1. La nota promedio general en un examen fue 12.6. Los aprobados obtuvieron un promedio de 14.4 y
los desaprobados, en promedio, obtuvieron 8.4. Si son 50 los alumnos que rindieron el examen.
Determine el porcentaje de desaprobados.
R: desaprobados= 30 % y aprobados= 70 %

2. En la empresa industrial REX. S.A. el personal de planta tiene un salario promedio mensual de 1800
soles con una varianza de 90000 soles2. En una negociación laboral con el sindicato se acordó un
incremento de un 20% en los salarios más una bonificación adicional de 80 soles por concepto de
movilidad. Calcule el salario promedio, la varianza y el coeficiente de variabilidad luego de

aplicadas las modificaciones.

R: M(Y)= 2,240 Soles, V(Y)= 129,600 Soles2,, Sy=360 Soles, CV(Y)= 16.07 %
3. En una empresa de servicios generales, el salario promedio de sus trabajadores es 2360 soles, el
salario promedio del personal masculino es de 2500 soles y el salario promedio del personal

67
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
femenino es de 2100 soles. ¿Qué porcentaje del personal de esta empresa es masculino y que
porcentaje es femenino?
R: personal femenino= 35 % ; personal masculino= 65 %
4. En una empresa los pagos diarios a proveedores se pueden representar mediante una distribución
simétrica; se sabe que el monto pagado con mayor frecuencia es 500 soles y uno de los cuartiles
es 650. También se sabe que lo mínimo que se paga en un día es 200 soles y la desviación estándar
es 100 soles. Se pide:

a. Indique el valor de los cuartiles inferior, central y superior. R: Q1= 350, Q2=500, Q3=650
b. Se sabe que últimamente los pagos diarios se ha incrementado en un 10% más 25 soles. ¿Cuál es
el coeficiente de variación de los pagos diarios con el incremento?
R: CV= 19.13 %
5. En una empresa, 400 trabajadores forman el Grupo 1 y lo conforman: Operarios (sub grupo 1A) y
técnicos (subgrupo 1B). la cantidad de trabajadores del grupo 1 es el 80% del total de trabajadores de
la empresa, y tienen un sueldo mensual promedio de 2730.5 soles. El otro 20% de trabajadores de la
empresa lo conforman los ejecutivos y trabajadores administrativos (grupo 2), y tienen un sueldo
mensual promedio de 6500 soles.
a. Si se conoce que el sueldo mensual promedio de los operarios es 2270 soles y el sueldo mensual
promedio de los técnicos es 3498 soles; halle el número de operarios y técnicos que tiene la
empresa.
R: 250 operarios y 150 técnicos.
b. Si la dirección de la empresa establece una bonificación de 50 soles para los operarios, una
bonificación del 8% del sueldo mensual para los técnicos, y una bonificación de 200 soles para
los trabajadores del grupo 2; halle el sueldo promedio para todos los trabajadores de la empresa.
R: 3,633.352
6. En una empresa de servicios generales, el salario promedio de sus trabajadores es 3360 soles, el
salario promedio del personal masculino es de 3500 soles y el salario promedio del personal
femenino es de 3100 soles.

a. ¿Qué porcentaje del personal de esta empresa es masculino y que porcentaje es femenino?
R: personal femenino= 35 % ; personal masculino= 65 %

b. Para el próximo mes la empresa acordó aumentar 10% del salario al personal masculino y 7.5%
más una bonificación de 80 soles al salario del personal femenino, ¿Cuál es la nueva media
global, después del incremento salarial?
68
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
R: Nueva media global= S/. 3,696.88
c. ¿De qué monto debe disponer la empresa a fin de mes para hacer efectivo el pago a los 200
trabajadores de la empresa?
R: S/. 739,375
7. Desde hace dos años las compañías gastan en protección de la información. Estos gastos incluyen los
costos de personal, hardware, software, servicios externos y seguridad física. Se eligieron dos
empresas transnacionales y se registraron sus gastos mensuales, en miles de dólares,
correspondientes a la protección de la información de los últimos 6 meses. Luego de procesar los
datos se obtuvieron los siguientes resultados parciales.
6 6
∑ x i = 16 .8 ∑ x2i = 58.99
Empresa 1: i=1 i=1 Me = 3.0
6 6
∑ xi = 13.2 ∑ x2i = 36 . 88
Empresa 2: i=1 i=1 Me = 2.5
a. ¿Cuál de las dos empresas ha tenidos gastos mensuales más homogéneos en los últimos seis
meses?;
R: CV de la empresa 1= 55.2129 %; CV de la empresa 2= 56.9182 %. La empresa 2 ha
tenido gastos mensuales en protección de la información más homogéneos.

b. ¿Cuál de ellas ha tenido gastos más asimétricos?


R: AS de la empresa 1= -0.39; AS de la empresa 2= -0.72. La empresa 2 presenta mayor
asimetría negativa en la distribución de sus gastos mensuales en protección de la
información.

c. Si como resultado de la inseguridad actual, el directorio de la empresa 2 acordó aumentar sus


gastos en protección en un 5% más 800 dólares, ¿cuál será el coeficiente de variación de los
gastos en protección para esta empresa el próximo mes?
R: CV= 42.2768 %

8. De una distribución se conoce la siguiente información: tamaño (n = 20); media ( x̄ = 400); mediana
(me = 450); min valor (X(1) = 100) y rango (R = 900). Al introducir los datos en la computadora se
ha cometido un error tipográfico sustituyendo el valor (único) X = 1000, por el de X = 10000.
¿Cómo afectará este error en el cálculo de la media, mediana y rango? Calcule los nuevos valores.
R: Rango: 9900; Me=450; Media=850

9. Complete los espacios según corresponda:


a. En una distribución sesgada a la derecha, la mediana es …………. que la media. R: Menor
69
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
b. Cuando un conjunto se datos hay datos atípicos u outliers entonces no resulta adecuado trabajar
con la ……………………………porque ésta se ve afectada por dichos valores; una mejor
medida de tendencia central sería la ……………………… .R: media / mediana.
c. En una distribución sesgada a la derecha, la mediana es …………. que la media. R: Menor
d. La nota promedio de los 40 alumnos que rindieron un examen de Cálculo II fue 11.75. Los 25
aprobados obtuvieron una nota promedio de 14, luego la nota promedio de los desaprobados fue
…………. R: 08

10. En una compañía los trabajadores están considerados en tres categorías, A, B y C. El ingreso
promedio de los 300 trabajadores de la categoría B es de S/. 6000 y de los 150 trabajadores de la
categoría C es de S/. 8000. A los trabajadores de la categoría A se les hace un aumento del 20% más
una bonificación de S/. 600, a los de la categoría B se les aumenta un 25% más una bonificación de
S/. 800 y a los de la categoría C se les hace un aumento del 35% más una bonificación de S/. 500. Si
el ingreso promedio de los 650 trabajadores de la compañía después del aumento es de S/. 8100,
¿cuál era el ingreso promedio de los trabajadores de la categoría A antes de los aumentos?
R: S/. 4,000

11. En una ciudad existen 3 grandes plantas de ensamblaje de artefactos eléctricos que llamaremos A, B
y C. La primera emplea a 54 personas y su salario medio es de 1,080 soles. En la segunda trabajan 84
empleados y su ingreso medio es de 860 soles. Finalmente, la paga media de los 153 trabajadores de
la planta C es de 815 soles. ¿Cuál es el salario medio de los empleados en la industria ensambladora
de artefactos de dicha ciudad? R: S/. 877.16
Desarrollado en el PPT Medidas de tendencia central y posición / Página 23

12. Sea X: el sueldo de los trabajadores de planta de una empresa. El sueldo promedio de una
muestra de trabajadores es de S/. 1,000 mensuales. Calcule el nuevo sueldo promedio para los
siguientes casos:
i. Propuesta 1: Se otorga un aumento de S/. 100 a todos los trabajadores.
ii. Propuesta 2: Se otorga un aumento de 20% a todos los trabajadores.
iii. Propuesta 3: Se otorga un aumento del 10% más una bonificación adicional de S/. 50 a todos los
trabajadores.
¿Cuál de las tres propuestas es la más conveniente para los trabajadores? R: Propuesta dos.

70
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
Medidas estadísticas

∑ xi
Media aritmética X=
i=1
n

Varianza ∑ x 2i −n ( x )2
2 i=1
S=
n−1

Coeficiente de variación S
CV X = × 100 %
| X|

3( X−Me)
AS=
S
Coeficiente de asimetría
X −Mo
AS=
S

71
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia
con lo dispuesto por la legislación sobre los derechos de autor: Decreto Legislativo 822.
RESUMEN : APLICACIONES DE ESTADISTICA DESCRIPTIVA CON EL SOFTWARE R
Utilizaremos como ejemplo las siguientes notaciones:
NOMBRE DE BASE DE DATOS: empresas
VARIABLES PARA EL EJEMPLO:

 CUANTITATIVA: VENTAS
 CUALITATIVAS:
 TIPO: T1, T2, T3.
 SECTOR: industria, comercio, servicios.
 TAMAÑO: grandes, medianas, pequeñas
 GENERO: 1: Masculino 2: Femenino
RCOMANDER (Rcmdr)
OBSERVACIÓ
No OBJETIVO EJEMPLO COMANDOS
N

1 Realizar una Recodificar la Variable Género # Para realizar la recodificación, primero requerimos instalar el paquete Observación:
recodificación puntual para reemplazar cada número estadístico denominado car. Para esto:
(de número a texto) por el texto correspondiente, de # En la ventana 4: Packages / Install / incluir el nombre del paquete a instalar; es Factor = Variable
acuerdo a lo siguiente: cualitativa
este caso car / dar click en Install
1 = Masculino # A continuación en la ventana 1 (scripts) llamar al paquete car: library(car)
2 = Femenino # Seguidamente incluir la sentencia que nos permitirá realizar la recodificación:

empresasR$GENERO<-recode(empresasR$GENERO,"1 ='Masculino';
2='Femenino'")

2 Recodificar una Con la variable VENTAS # Llamar al paquete car


library(car)
72
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
variable cuantitativa generar la variable categoría #Seguidamente en la ventana 1, incluir la sentencia que nos permitirá realizar la
para generar una de las ventas que denotaremos recodificación por rangos:
variable cualitativa. como CATEGORIA: empresasR$CATEGORIA=recode(empresasR$VENTAS, "0:999.99= 'A';
1000:1999.99= 'B';2000:max(empresasR$VENTAS)= 'C'")
A: Ventas menores a 1000
Soles
B: Ventas iguales o mayores a
1000 Soles pero menores a
2000 Soles.
C: Ventas de 2000 Soles a más
3 Generar una tabla de Del total de empresas, calcular #Para generar únicamente las frecuencias absolutas simples (fi):
frecuencias para una el número y % de empresas table(empresasR$TAMAÑO)
variable cualitativa (fi, pequeñas. # Para obtener las freciencias relativas simples (hi) primero debemos
hi) guardar como un objeto las frecuencias absolutas simples:
fi_ECIVIL<-table(herramientasR$ECIVIL)
# Seguidamente con el comando prop.table obtenemos las frecuencias
relativas
prop.table(fi_ECIVIL)
# Para redondear las frecuencias relativas simples con 4 decimales:
round(prop.table(fi_ECIVIL),4)
# Ahora guardamos las frecuencias relativas simples como un objeto (hi) de
esta manera:
hi_ECIVIL<-round(prop.table(fi_ECIVIL),4)
# Acontinuación para tener las frecuencias relativas simples en porcentaje
(%) creamos el nuevo objeto que denominamos pi_ECIVIL:
pi_ECIVIL<- hi_ECIVIL*100
# Seguidamente integramos los objetos fi_ECIVIL y pi_ECIVIL en una sola
table:

73
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
cbind(fi_ECIVIL, pi_ECIVIL)

4 Generar una tabla de Del total de empresas del # Para obtener la tabla pero sin los totales en filas y columnas:
frecuencias cruzada con sector servicios, calcular table(empresasR$SECTOR,empresasR$TAMAÑO)
dos variables cuántas y que % de empresas # Para obtener la tabla con los totales en filas y columnas:
cualitativas (fi) son pequeñas. # Primero guardamos la tabla como un objeto:
tabla1<- table(empresasR$SECTOR,empresasR$TAMAÑO)
# A continuación:
addmargins(tabla1)

CASO A: tapply(empresasR$VENTAS,empresasR$TIPO,mean)
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$TIPO,median)
Calcular la media, Calcular la media, mediana,
mediana, desviación desviación estándar y/o el cv
estándar y/o el cv para de la variable ventas de las # Para llamar al paquete antes instalado:
library(raster)
una variable empresas. # Para hallar el cv para todos los vehículos (sin clasificar por grupos):
5 cuantitativa: cv(chatarreoR$ANTIGÜEDAD)
# Para hallar el cv para todos los vehículos (por grupos):
Caso A: Sin clasificar
tapply(chatarreoR$ANTIGÜEDAD,chatarreoR$MARCA,cv)
por grupos. #observación: escribir cv en minúscula
Caso B: Por grupos
con una variable CASO B: tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)
cualitativa. tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median)
Calcular la media, mediana,
desviación estándar y/o el cv tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)
de la variable ventas de las 3*(tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,mean)-
empresas grandes.
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,median))/

74
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
tapply(chatarreoR$N_ASIENTOS,chatarreoR$TIPO,sd)

Para hallar la media, la Calcular la media, mediana, # media Escribir en


mediana, la desviación desviación estándar y/o varianza mean(empresas$VENTAS) minúsculas cv,
estándar y la varianza de de la variable ventas # mediana mean, median, sd,
una variable cuantitativa median(empresas$VENTAS) mean
sin generar grupos. # desviación estándar
6 sd(empresas $VENTAS)
# desviación estándar
var(empresas $VENTAS)

Para hallar la media, Calcular la media, mediana, # media Escribir en


mediana, desviación desviación estándar y/o la tapply(empresas$VENTAS,empresas$TAMAÑO,mean) minúsculas cv,
estándar y la varianza de varianza de la variable ventas de # mediana mean, median, sd,
una variable cuantitativa las empresas grandes. tapply(empresas$VENTAS,empresas$TAMAÑO,median) mean
por grupos con una # desviación estándar
7 variable cualitativa. tapply(empresas$VENTAS,empresas$TAMAÑO,sd)
# varianza
tapply(empresas$VENTAS,empresas$TAMAÑO,var)

Para hallar la asimetría sin Hallar la asimetría de las ventas # Para calcular el AS de Pearson hallar la media, mediana y desviación estándar.
generar grupos. en general. # Escribir en minúsculas mean, median, sd

# media
mean(empresas$VENTAS)
8 # mediana
median(empresas $VENTAS)
# desviación estándar
sd(empresas $VENTAS)
# Para calcular el coeficiente de asimetría de Paerson
3*(mean(empresas$VENTAS)-median(empresas$VENTAS))/
sd(empresas$VENTAS)
75
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
Para hallar la asimetría Hallar la asimetría de las ventas # Para calcular el AS de Pearson hallar la media, mediana y desviación estándar.
por grupos con una de las empresas pequeñas. # Escribir en minúsculas mean, median, sd
variable cuanlitativa.
# media
tapply(empresas$VENTAS,empresas$TAMAÑO,mean)
# mediana
tapply(empresas$VENTAS,empresas$TAMAÑO,median)
9 # desviación estándar
tapply(empresas$VENTAS,empresas$TAMAÑO,sd)
# Para calcular el coeficiente de asimetría de Paerson
3*(tapply(empresas$VENTAS,empresas$TAMAÑO,mean)-
tapply(empresas$VENTAS,empresas$TAMAÑO,median))/
tapply(empresas$VENTAS,empresas$TAMAÑO,sd)

Para Hallar la moda CASO A: Para hallar la


Calcular la moda de la variable # Para llamar al paquete DescTools. Moda se requiere
ventas de las empresas en instalar el
general. library(DescTools) paquete
# Para hallar la moda para todas las empresas (sin clasificar por grupos): DescTools (en la
Mode(empresas$VENTAS) ventana 4:
Packges /
10 CASO B: # Para llamar al paquete DescTools. Install /
DescTools /
Calcular la moda de la variable library(DescTools) Install)
ventas de las empresas grandes. # Para hallar la moda clasificando por grupos:
tapply(empresas$VENTAS,empresas$TAMAÑO,Mode)
Escribir en
mayúscula la
primera letra de
Mode
Para hallar el CV de una CASO A: # Para llamar al paquete raster: Para hallar el CV

76
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
variable cuantitativa Calcular el cv de la variable se requiere
generando grupos con ventas de las empresas en instalar el paquete
library(raster)
una variable cualitativa. general. raster (en la
11 # Para hallar el cv para todas las empresas (sin clasificar por grupos): ventana 4:
# Escribir en cv en minúscula Packges / Install /
raster / Install)
cv(empresas$VENTAS)

CASO B: # Para llamar al paquete raster:


library(raster)
Calcular el cv de la variable
ventas de las empresas grandes. # Para hallar el cv clasificando por grupos:
# Escribir en cv en minúscula
tapply(empresas$VENTAS,empresas$TAMAÑO,cv)
Para hallar a la vez el Calcular el valor mínimo, máximo
valor minimo, todos los , Q1, Q2 y Q3 de la variable quantile(empresas$VENTAS,type=6)
12
cuartiles y el valor ventas.
máximo de una variable
cuantitativa.

Para hallar un percentil de Calcular el valor mínimo, del 10% quantile(empresas$VENTAS,0.90, type=6) Ingresar el valor
una variable cuantitativa. superior (equivalente al valor del percentil en
máximo del 90% inferior) de las decimales.
13 ventas; es decir el percentil 90.
Escribir type=6
para que R realice
el cálculo del
Percentil
utilizando la
fórmula
(algoritmo) que
emplearemos en
el curso.

77
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
Para hallar un percentil de Calcular el valor mínimo, del 10% tapply(empresas$VENTAS,empresas$TAMAÑO,quantile,0.90,type=6) Ingresar el valor
una variable cuantitativa superior (equivalente al valor del percentil en
generando grupos con máximo del 90% inferior) de las decimales.
14 una variable cualitativa. ventas de las empresas grandes;
Escribir type=6
es decir el percentil 90.
para que R realice
el cálculo del
Prcentil utilizando
la fórmula
(algoritmo) que
emplearemos en
el curso.

Generar un diagrama de caja gempresas=boxplot(empresas$VENTAS)


(boxplot) de una variable gempresas$out
cuantitativa e identificar outliers
15 (observaciones atípicaa) 89 21.77273
Para generar un diagrama Generar un diagrama de caja gempresas=boxplot(empresas$VENTAS~ empresas$TAMAÑO)
de cajas (boxplot) de una variable gempresas$out
cuantitativa por grupos (variable points(tapply(telefonia$EDAD,telefonia$EMPRESA,mean),col="Red",pch=19)
cualitativa) e identificar outliers
(observaciones atípicaa)

El software estadístico R es un entorno informático estadístico que incluye herramientas de análisis de datos
generación de gráficas. Es un software libre y funciona bajo Windows, MAC OS y Linux. Es una herramienta ide
para docencia, ya que permite que los alumnos la descarguen y la utilicen en sus casas con toda libertad y sin cos

78
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.
R alguno. R es un conjunto de módulos estadísticos que mediante cualquiera de sus interfaces, permite realiz
análisis de datos y representación de los mismos.

RStudio es un entorno de desarrollo integrado (IDE) para el lenguaje de programación R, dedicado a


computación estadística y gráficos.
RStudio
DescTools DescTools es una colección extensa de diversas funciones estadísticas básicas , es una caja d
herramientas que permite calcular estadísticas descriptivas, dibujar resúmenes gráficos y reportar lo
resultados.

raster El paquete raster permite la lectura, escritura, manipulación, análisis y modelado de datos espacial
raster. El paquete implementa funciones básicas y de alto nivel. Además soporta el procesamiento d
archivos muy grandes. También hay soporte para operaciones de datos vectoriales como intersecciones.

ACTUALIZADO: AL 23 DE MARZO 2023.

79
Este material de apoyo académico se reproduce para uso exclusivo de los alumnos de la Universidad de Lima y en concordancia con lo dispuesto por la legislación sobre los derechos de autor:
Decreto Legislativo 822.

También podría gustarte