Está en la página 1de 75

Unidad I

GENERALIDADES Y ESTADÍSTICA DESCRIPTIVA

Coordinación Análisis Estadístico para


Ingeniería

Módulo Básico de Ingeniería

Departamento de Matemática y Ciencia de la Computación


Facultad de Ciencia

Segundo semestre 2023


Índice
....................................................................................................................................................................... 1
Introducción .................................................................................................................................................. 3
CONCEPTOS FUNDAMENTALES ..................................................................................................................... 4
Clasificación de variables............................................................................................................................... 7
Según el nivel de medición ........................................................................................................................ 8
Ejercicios I ................................................................................................................................................ 11
Estadística Descriptiva Univariada .............................................................................................................. 13
Descripción estadística de una variable cualitativa ................................................................................ 13
Descripción estadística de una variable cuantitativa .............................................................................. 17
CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS Y GRÁFICOS ................................................................... 18
TABLAS DE FRECUENCIAS Y GRÁFICOS ................................................................................................ 20
Formas de histogramas ....................................................................................................................... 24
OTROS GRÁFICOS .................................................................................................................................... 25
Ejercicios II ............................................................................................................................................... 26
Estadística Descriptiva Bivariada ................................................................................................................ 28
Ejercicios 1 ............................................................................................................................................... 32
Medidas de Resumen .................................................................................................................................. 35
Tendencia Central: .................................................................................................................................. 35
Moda (Mo): Es el valor de la variable que ocurre más frecuentemente ................................................ 35
Promedio Aritmético (o media Aritmética) ............................................................................................. 36
Mediana (Me) ........................................................................................................................................... 39
Comparación entre Promedio, Mediana y Moda ....................................................................................... 40
Ejercicios III .............................................................................................................................................. 41
Cuartiles – Quintiles – Deciles - PERCENTILES ............................................................................................. 43
MEDIDAS DE DISPERSIÓN (O VARIABILIDAD) ........................................................................................... 48
Ejercicios IV.............................................................................................................................................. 54
Descripción conjunta de dos variables cuantitativas .................................................................................. 59
Significado de la correlación........................................................................................................................ 61
Ejercicios V (varios)................................................................................................................................. 63

UNIDAD 1 Página 2
Introducción
Qué es la Estadística:
Actualmente la Estadística es una ciencia que:
 proporciona procedimientos precisos para obtener información* (recogida
y descripción de datos).
 proporciona métodos para el análisis de la información y posteriores
inferencias.
¿Por qué hay que estudiar Estadística en Ingeniería o en carreras de
Ciencias?
La principal razón es que el rol más destacado de la Estadística es la
recopilación, presentación, análisis e interpretación de un conjunto de datos, a
partir de los cuales se obtienen conclusiones y se toman decisiones.
Saber Estadística es de gran utilidad en cualquier área del conocimiento y en
particular en Ingeniería o en Ciencia.
Ejemplos:
- Estudios de fatiga de metales.
- Fiabilidad de máquinas herramientas.
- Estudios de corrosión.
- Diseño y desarrollo y mejora en los proceso productivos como control de
calidad, control de la variabilidad del proceso, …
- Estudios de materiales en cuanto a duración, dureza, elasticidad, ….
- Control de inventarios, con la estadística se analiza la tendencia de flujo de
ciertos materiales y ciertos productos.
- Determinar la longitud promedio de los tiempos muertos en un PC.
- Analizar si el nivel de plomo en el suministro de agua potable se encuentra
dentro de los estándares de seguridad.
- Evaluar la efectividad de productos comerciales
- ………

El objetivo fundamental de la Estadística es analizar datos y


transformarlos en información útil para tomar decisiones.
La mayor contribución de la Estadística en la resolución de problemas en ingeniería es su
utilización como herramienta de aprendizaje. El aprendizaje que se obtiene mediante la
estadística forma parte del denominado “Método Científico”
El método científico es la estrategia de la investigación científica: afecta a todo ciclo completo
de investigación y es independiente del tema en estudio.
Al ser la Ingeniería la aplicación del conocimiento científico, todo proyecto en ingeniería debe
contener los rasgos del método científico.

UNIDAD 1 Página 3
La Estadística posee un conjunto de técnicas que se emplean para la recopilación,
organización, presentación, análisis e interpretación de los datos para tomar decisiones y
resolver problemas, la estadística se puede clasificar como:
Tiene como objetivo, describir, representar y extraer
Estadística
conclusiones sobre una muestra de datos o de la población
descriptiva de interés (Población≡ conjunto de todos los elementos de interés) .
Mide la incertidumbre, deduce las leyes que rigen a los
Probabilidad fenómenos que se investigan.
Es la herramienta a partir de la que se desarrolla la
inferencia estadística
La inferencia estadística es un conjunto de procedimientos, que
Estadística consisten en utilizar los resultados de una muestra (subconjunto
representativo de la población) para llegar a conclusiones acerca
Inferencial de las características de la población (requiere cálculo de
probabilidades)

La Estadística Descriptiva utiliza, tablas,


gráficos y resúmenes numéricos

Para realizar cualquier estudio estadístico,


hay que tener en cuenta:
Cómo y de donde se recolectó la
información
Qué se midió ¿atributos o cantidades?

Conocer los conceptos fundamentales

CONCEPTOS FUNDAMENTALES
Población: Conjunto total de objetos u unidades que son de interés para un
problema dado. Los objetos pueden ser personas, animales, productos fabricados,
etc. Cada uno de ellos recibe el nombre de ELEMENTO O INDIVIDUO O UNIDAD
DE OBSERVACIÓN.
Tamaño población: N unidades (si es finita)
- Todos los estudiantes de nuestra universidad
- Todas las personas activa en Chile (población activa)
- Todos los libros en una biblioteca

UNIDAD 1 Página 4
Censo: estudio que considera la población de interés
Población Estadística: es el conjunto de todas las mediciones correspondientes
a cada unidad de la población, acerca de la cual se busca información.
A las medidas de resúmenes poblacionales como la media poblacional μ,
desviación estándar poblacional σ, …, se les denominan parámetros.
Un PARÁMETRO es cualquier medida de resumen de una población.
Ejemplo: El ingreso medio (o ingreso promedio) de todos los trabajadores de la fábrica
AB es $800.000,0.
µX = 800.000 $ (X = Ingreso)

Muestra: subconjunto de elementos seleccionados de la población estadística


sobre el cual se va a llevar el estudio.
Tamaño muestra: n unidades. La muestra debería ser “representativa”
Está formada por *unidades “seleccionadas” de la población
*
En Estadística unidades ≡ individuos ≡ unidades de estudio≡ unidades de observación
¡De una población existen muchas muestras posibles para realizar un estudio!

A las medidas de resúmenes muestrales como la media de la muestra


“ x ”, desviación estándar de la muestra “s”…, se les denomina
ESTADÍSTICOS.
Ejemplo: Ingreso (X) promedio de 10 trabajadores de la fábrica AB es x = $730.000,0
Un ESTADÍSTICO es cualquier característica medible de una muestra.
Nota: A la hora de decidir sobre la forma de recoger la información de la muestra se utilizan
distintos criterios, originando distintos tipos de muestreos.
Encuesta: Técnica de investigación para obtener información de grupos de
personas mediante el uso de instrumentos como cuestionarios diseñados en
forma previa.
Diseño de experimentos: planificación de un conjunto de pruebas
experimentales, de forma que los datos generados puedan analizarse
estadísticamente para obtener conclusiones válidas y objetivas acerca del
problema establecido.
Variable: es una misma característica observable que varía entre los diferentes
individuos de una población. La información que disponemos de una misma
característica en los diferentes individuos constituye la variable. Se acostumbra a
denotar una variable con letra mayúscula.

Dato: valor de la variable asociado a un elemento de la población o muestra.


(los valores de las variables se denotan con letras minúsculas)

UNIDAD 1 Página 5
Ejemplo: En la población de estudiantes de Ingeniería de una universidad,
son variables: Especialidad, Edad (años) ….

Se acostumbra denotar a las variables con letras mayúsculas


(X1≡ Especialidad , …, X5 ≡ Tamaño de la familia)
estudiante de Ingeniería, es la unidad de observación
La primera observación (estudiante 1) indica que el elemento de la población, estudia
Ing. Industrial, tiene 21 años, nivel de estudio de su padre E. Media, Ingreso
mensual de la familia $1.200.000 y su familia está compuesta por tres miembros.
Cada una de estas mediciones es un dato para cada una de las variables medidas
para el estudiante1.

PARA ANALIZAR ADECUADAMENTE LOS DATOS DE LAS VARIABLES


(resumir en tablas, gráficos, medidas estadísticas) HAY QUE
CONOCER EL TIPO DE VARIABLE

Distinguiremos:
Datos primarios
Son aquellos que el investigador obtiene directamente de la realidad, recolectándolos
con sus propios instrumentos.
Datos secundarios
Son registros escritos que proceden también de un contacto con la práctica,
pero que ya han sido elegidos y procesados por otros investigadores.
Las fuentes son información de datos secundarios deben ser fidedignas.
Los datos primarios y secundarios no son dos clases esencialmente diferentes
de información, sino partes de una misma secuencia: todo dato secundario ha
sido primario en sus orígenes, y todo dato primario, a partir del momento en
que el investigador concluye su trabajo, se convierte en dato secundario para
los demás.

UNIDAD 1 Página 6
Clasificación de variables
Para realizar un análisis de datos, es indispensable saber cómo es la variable
que consideramos, pues ello determina el tipo de método estadístico que se
debe utilizar. Las variables se clasifican:

Según su naturaleza

Cualitativas o atributos Cuantitativas


No toman valores numéricos Sus valores son numéricos (tiene
(modalidades o categorías) y describen sentido hacer operaciones algebraicas
cualidades. (no se pueden hacer con ellos).
operaciones algebraicas con ellos).
Ejemplos:
Ejemplos: - Estatura en cm.
- Estado Civil - Número de asignaturas
- Profesión aprobadas

Según tamaño del recorrido

Dicotómicas Discretas Continuas


Toman uno de dos Puede tomar un Entre dos valores, son
valores. número finito de posibles infinitos valores

Ejemplos: valores, o infinito intermedios. Tamaño del

- Lateralidad de un numerable. recorrido es infinito no


sujeto (zurdo, diestro) Ejemplos numerable.
- Condición final de - Número de cargas Ejemplos:
un producto familiares.
(aceptado, rechazado) - Altura en cm de
- Número de
sujetos
unidades
- Profundidad en
defectuosas
metros del agua de
diariamente.
cierto lago.
- Estado civil

UNIDAD 1 Página 7
Según el nivel de medición
La medición es el proceso mediante el cual se les asignan valores numéricos
o categóricos a objetos siguiendo unas determinadas reglas. Los instrumentos
que se utilizan para llevar a cabo tal medición se les denominan escalas de
medición. El criterio utilizado convencionalmente para clasificar las escalas de
medida es el propuesto por Stevens (1946), quien establece cuatro tipos de
escala: nominal, ordinal, de intervalo y de razón.

Ejemplos

Factor RH
Únicamente permiten
establecer relaciones de Positivo (1)
igualdad/desigualdad Negativo (2)
entre los objetos que se
están midiendo. PROFESIÓN:
Ingeniero (1)
NO INDICA ORDEN O Profesor (2)
JERARQUÍA Médico (3)

RAZÓN

INTERVALAR

ORDINAL

UNIDAD 1 Página 8
Ejemplo
Además de permitir relaciones
NIVEL EDUCACIONAL:
de igualdad /desigualdad,
permite establecer relaciones Univ. con doctorado (5)
de orden (mayor o menor que) Univ. con Magister (4)
Superior (3)
entre los objetos que se están
Media (2)
midiendo.
Básica (1)
EXISTE UN ORDEN O
JERARQUÍA
RAZÓN

INTERVALAR

NOMINAL

RAZÓN

ORDINAL

NOMINAL

Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala permite
establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden.
Los intervalos entre los números de la escala son iguales, por lo tanto se puede realizar las
operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no
están permitidas ni la multiplicación ni la división entre los números de la escala. Una
escala de intervalo es, por ejemplo, la utilizada para medir la temperatura en °C. Como los
intervalos de la escala son iguales, se puede afirmar que la diferencia de temperatura que
existe entre 25 y 28 grados es la misma que existe entre 30 y 33 grados. Sin embargo,
dado que el punto 0 de la escala es arbitrario -no existe ausencia de temperatura- no se
puede afirmar, por ejemplo, que 20 grados es exactamente la mitad de 40 grados.

UNIDAD 1 Página 9
INTERVALAR

ORDINAL

NOMINAL

Es la escala que permite el nivel más alto de medición. Además de las


operaciones que permiten las escalas anteriores, en una escala de razón
existe el cero (0) empírico, por lo cual se puede efectuar cualquier
operación aritmética con los números de la escala. El tiempo de reacción,
por ejemplo es una variable medida en escala de razón. No sólo se
puede afirmar que la diferencia entre 3 y 6 segundos es la misma que
entre 6 y 9 segundos (afirmación válida también en la escala de
intervalos), sino, además, que 6 s es el doble de 3 s Afirmación que es
posible establecer gracias a que en la escala de tiempo de reacción existe
el cero absoluto: cero significa ausencia de tiempo de reacción.

Clasificación de variables según su función

VI VD
Independiente Dependiente
Introduce o manipula el Se observa y se miden los
investigador cambios

Interviniente
Es la que puede mediar en la
relación entre VI y VD y que
puede influir en los resultados
Ejemplo: Los hábitos de estudios influyen en el rendimiento académico de los
Estudiantes
VD = Rendimiento académico VI = hábitos de estudio
V interv. = Aptitud personal, Nivel nutricional, …

UNIDAD 1 Página 10
Ejercicios I
Ejercicio I-1. Se quiere analizar el número de horas de estudio semanal que dedican los o
las estudiantes de postgrado del área Ingeniería de esta Universidad. Para ello se
selecciona a 50 estudiantes que están participando en postgrado.
Indique cual es la:
Unidad de observación, población, población estadística, muestra y la variable de interés.
Ejercicio I-2. El coeficiente intelectual (CI) promedio en la población adulta chilena es 100
puntos. Un investigador educacional está interesado en probar que las personas adultas
que hablan más de un idioma tienen un CI superior a la media poblacional.
En una muestra de 250 personas que hablan más de un idioma se obtuvo un promedio
(CI medio) de 102.
Complete:
Clasificación de la variable
Variable
Naturaleza Recorrido N_Medición

Promedio poblacional μ Promedio muestral x

Ejercicio I-3. ¿Qué situaciones se representan estadísticamente con una variable discreta
y cuáles con una variable continua?
a) El Número diario de defectuosos en la fabricación de cierto producto.
b) Los Tipos de defectos encontrados mensualmente en la fabricación de cierto producto
c) El Tiempo de vida de las unidades que se fabrican
d) El Nivel de satisfacción de clientes de un banco
e) El Tiempo que transcurre desde que llega un pedido hasta que llega el siguiente
f) Esfuerzo de ruptura de vigas de concreto
Ejercicio I-4. En el departamento de personal de una empresa con 10.000 trabajadores/as
se quiere estimar sus gastos familiares en salud para determinar la posibilidad de
proporcionarles un plan de seguro médico.
Si el gasto mensual (miles $) en salud entre 10 elegidos al azar fue:
71 234 159 549 329 134 112 275 204 116

Indique: Unidad de observación: ______________________


Población: _______________________ Tamaño N =
Variable: X = _____________________ Muestra: ___________________ Tamaño: n =
n

n x i n
Calcule e interprete  xi 
i 1
i=1
n
= Calcule x
i 1
2
i

UNIDAD 1 Página 11
Ejercicio I-5. La siguiente información corresponde al peso en kg y la estatura en cm de 10
empleados públicos varones:
sujeto 1 2 3 4 5 6 7 8 9 10
Estatura (X) 172 175 168 173 159 166 176 180 179 168
Peso (Y) 78 75 70 68 44 66 72 98 70 74

 Población: _____________________ Unidad de observación:_____________


 Muestra: _________________________ Tamaño: n =
 Clasifique las variables según: naturaleza, tamaño del recorrido, nivel de medición y
función.
n n

n 10 x i n 10 y i
 Interprete x
i 1
i  i=1
n
= y
i 1
i  i=1
n
=
n 10 n 10 n=10
 Calcule  x i2 
i 1

i 1
y i2  xy=
i=1
i i

Ejercicio I-6. Cierto tipo de resistencias de película de óxido metálico son agrupadas en
paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de
resistencias que no cumplían con las especificaciones, resultando la siguiente tabla
N° de resistencia defectuosas en cada paquete 0 1 2 3 4 5 6 Total
Cantidad de paquetes (ni) 5 10 16 15 9 3 2 60

 Unidad de observación:_____________ Variable de interés X= ________________


 Clasifique la variable según: naturaleza, tamaño del recorrido, nivel de medición.
7

7 x n i i
 Tamaño de la muestra: n = Determine e interprete:  x i ni 
i 1
i 1
n

Ejercicio I-7. Clasifique la variables siguientes según nivel de medición:


 La Escala de Mohs (escala con diez grados de dureza de los minerales, basada en el principio de
que un mineral duro puede rayar uno blando pero no recíprocamente. La escala comienza con el talco
al que se le asigna dureza 1 y termina con el diamante, al que le hizo corresponder dureza 10)
 Escala de Richter
 El PH de cierto detergente líquido.
 Temperatura en escala Kelvin
 Marcas de autos que se venden en Chile

UNIDAD 1 Página 12
Estadística Descriptiva Univariada← ¿qué dicen los datos?
Organización de los datos
La estadística descriptiva, entrega las técnicas que permiten condensar grandes
grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas
de resumen como media, desviación estándar, correlación.
Nota: Para resumir los datos siempre hay que tener en cuenta de qué tipo es la variable
que queremos analizar
Datos “en bruto” o directos
Cuando la información es recolectada, sea de una muestra o de una población,
esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos
registrados se encuentra desorganizada, lo que no permite extraer información
fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de
los datos.
Datos en bruto: Datos registrados en la secuencia en que fueron recolectados, antes de
ser procesados u ordenados.

Descripción estadística de una variable cualitativa

Gráficos Medida de resumen


Moda: es el dato o
- Sectorial modalidad de mayor
- Barras frecuencia ≡ dato
separadas más representativo
- Diagrama de
Pareto
- Pictograma

Tabla o distribución de La presentación gráfica


frecuencias puede revelar de un
Es una tabla que constituye vistazo las
el resumen básico de principales
los datos. características
de los datos.

UNIDAD 1 Página 13
Ejemplo: El reporte de la inspección final del defecto principal de 150 productos
rechazados de la línea de armado A12 se muestra en la tabla siguiente:
Defecto principal del producto
Defecto principal en línea de armado A12
Rayado Manchado Manchado Manchado Manchado (150 productos examinados)
Abollado Rayado Astillado Doblado Manchado Defecto del
Astillado Rayado Rayado Manchado Rayado producto Frecuencia Porcentaje
Abollado 8 5,3
Astillado Manchado Astillado Manchado Manchado
Astillado 23 15,3
Otros Manchado Astillado Astillado Abollado
Doblado 12 8,0
Manchado Doblado Manchado Rayado Astillado
Manchado 56 37,3
Rayado Manchado Rayado Manchado Manchado Otros 6 4,0
Astillado Manchado Rayado Abollado Manchado Rayado 45 30,0
Doblado Manchado Manchado Manchado Astillado Total 150 100,0
Rayado Rayado Manchado Manchado Doblado
Rayado Astillado Manchado Doblado Abollado
Manchado Rayado Manchado Astillado Manchado 60

56
Manchado Otros Manchado Astillado Rayado
50
Otros Astillado Otros Rayado Doblado
45

Abollado Rayado Rayado Manchado Astillado 40


Frecuencia

Manchado Rayado Manchado Astillado Manchado


Rayado Rayado Manchado Rayado Rayado 30

Manchado Doblado Rayado Manchado Rayado 23


20
Otros Manchado Astillado Manchado Astillado
Rayado Manchado Rayado Abollado Manchado 10
12

8
Doblado Manchado Astillado Manchado Rayado 6

Doblado Rayado Manchado Abollado Rayado 0


Abollado Astillado Doblado Manchado Rayado Otro
Defecto del producto
Rayado Otros Manchado Rayado Rayado
Manchado Rayado Doblado Manchado Rayado
Defecto principal en línea de armado A12
Manchado Doblado Manchado Manchado Manchado (150 productos examinados)
Rayado Manchado Astillado Astillado Rayado GRÁFICO DE BARRAS SEPARADAS
Abollado Rayado Manchado Rayado Manchado
Manchado Rayado Manchado Rayado Rayado
El defecto más frecuente en la
Rayado Doblado Manchado Manchado Rayado
línea de armado es Manchado
Rayado Rayado Astillado Astillado Astillado
Moda = manchado

UNIDAD 1 Página 14
Tabla de distribución de frecuencias de una variable cualitativa
Defectos_Linea A12
Frecuencia Frecuencia Relativa Porcentaje
Defecto principal absoluta %
n
del producto ni fi = i
n
Abollado 8 0,053 05,33
Astillado 23 0,153 15,33
Doblado 12 0,080 08,00
Manchado 56 0,373 37,33
Rayado 45 0,300 30,00
Otros 6 0,040 04,00
Total 150 1,00 100%
Obs: La tabla debe contener frecuencia relativa o porcentaje

Frecuencia absoluta (ni): Número de veces que ocurre la modalidad i. i = 1,2, …,k
Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del
total de datos.
0 < fi < 1 ; i = 1,2, …,k

OTROS GRÁFICOS ADECUADOS para variables cualitativas

Defecto principal del producto en línea de armado A12


Gráfico sectorial: (150 productos examinados)

Círculo dividido en Otros Abollado Astillado


porciones que 4,00% 5,33% 15,33%
representan las
Rayado
frecuencias relativas o 30,00% Doblado
porcentajes de una 8,00%
población o muestra
perteneciente a diferentes Manchado
categorías. 37,33%

Como sabemos, un círculo


contiene 360 grados. Para
construir un gráfico sectorial,
se multiplica por 360 la
frecuencia relativa de cada Defecto del producto
categoría, para obtener la
medida del ángulo ¿Cuál es Defecto más frecuente?
correspondiente

UNIDAD 1 Página 15
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las
causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las causas producen
la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas
“vitales” para actuar prioritariamente sobre él.
Defecto principal del producto en línea de armado A12

UNIDAD 1 Página 16
Descripción estadística de una variable cuantitativa
Caso: Variables discretas

Ejemplo 2: Cantidad (N°) de averías en Febrero.2023 de 40 centrales Eléctricas

Tabla de frecuencias
0 1 0 0 2
2 1 3 1 1 Cantidad Frecuencia
de (N° de Porcentaje
0 1 1 3 1 averías centrales) Porcentaje acumulado
2 0 0 0 1 0 13 32,5 32,5
0 0 1 1 0 1 13 32,5 65,0
3 1 1 1 0 2 8 20,0 85,0
3 5 12,5 97,5
0 2 3 4 2
4 1 2,5 100,0
2 0 3 2 2
Total 40 100,0

Centrales eléctricas (40). Febrero 2023

Estadísticos (Medidas de resumen)

N° de averías
Gráfico n Válidos 40
Perdidos 0
14 13 13 Media 1,20
Mediana 1,00
12
Moda 0a
Desv. típ. 1,114
10
Asimetría ,637
8
Error típ. de asimetría ,374
Recuento

8
Curtosis -,445
6 5 Error típ. de curtosis ,733
Mínimo 0
4 Máximo 4
Percentiles 25 ,00
2 1
50 1,00
75 2,00
0 a. Existen varias modas. Se mostrará el menor de los
0 1 2 3 4
N° de averías
valores.

Centrales eléctricas (40). Febrero 2023 Centrales eléctricas (40). Febrero 2023

UNIDAD 1 Página 17
CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS Y GRÁFICOS
Variables cuantitativas discretas

Si las observaciones en un conjunto de datos cuantitativos son discretos (contables) o


si los valores de la variable asumen sólo unos pocos valores distintos, puede ser
apropiado armar tablas de frecuencia con valores únicos.
La distribución de frecuencias (tabla)
- La distribución de frecuencias para variables cuantitativas discretas es similar a
la de variables cualitativas. Los valores que toma la variable se ordenan de menor
a mayor lo que permite registrar en la tabla las frecuencias acumuladas. La
representación gráfica que se utiliza para este tipo de variables es “barras
separadas”
Distribución de frecuencias de la variable X
Nombre de la Frec. Frec. Relativa Frec. Abs. Frec. Relat.
variable Absoluta ni Acumulada Acumulada
X ni fi = Ni Ni
n Fi =
n
x1 n1 f1 N1 = n1 F1
x2 n2 f2 N2 = n1 + n2 F2
x3 n3 f3 N3 = n1 + n2 + n3 F3
. . . . .
. . . . .
. . . . .
xk nk fk Nk = n Fk = 1
Total n 1
xi= valor que toma la variable. i= 1,2, …,k
Ejemplo: Datos sobre Cantidad de averías de 40 centrales eléctricas en Feb.2019
DISTRIBUCIÓN DE FRECUENCIAS
N° de averías Frec. Frec. Frec. Abs. Frec. Relat.
X Absoluta Relativa Acumulada Acumulada
ni fi Ni Fi
0 13 0,325 13 0,325
1 13 0,325 26 0,650
2 8 0,200 34 0,850
3 5 0,125 39 0,975
4 1 0,025 40 1,000
Total 40 1,000
Gráfico adecuado: barras separadas o varas separadas
Cando la variable es continua o el número de valores distintos posibles de una
variable discreta sea grande, para construir la tabla de frecuencias, conviene
agrupar los datos intervalos reales, también se le denomina intervalos de clase.
Éstos agrupan todos aquellos casos contenidos entre dos valores, conocidos
como el límite superior e inferior.

UNIDAD 1 Página 18
Ejemplo 3: Nota de Estadística. 400 estudiantes. Semestre 2 - 2022

Tabla de frecuencias

Nota de Estadística

Porcentaje
Frecuencia Porcentaje acumulado
Válidos 1- 2 30 7,5 7,5
2- 3 53 13,3 20,8
3- 4 74 18,5 39,3
4- 5 96 24,0 63,3
5- 6 86 21,5 84,8
6- 7 61 15,3 100,0
Total 400 100,0

Semestre 2 - 2022

Gráficos
Nota de Estadística
Semestre 2 - 2021

Histograma

100 96

86
80
74

61
Frecuencia

60
53

40

30

20

Medidas de resumen
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0
Nota

Nota de Estadística
Semestre 2 - 2022

UNIDAD 1 Página 19
TABLAS DE FRECUENCIAS Y GRÁFICOS
Variables cuantitativas continuas
Ejemplo 4 (variable contínua): En marzo. 2022 se recolectó información sobre la edad
(en años) de 50 estudiantes seleccionados de una casa de estudio superior. El valor de
los datos, en el orden en que fueron recolectados se presenta a continuación.
21 24 29 26 36
18 19 19 25 25
25 31 23 23 23
22 21 22 21 19
25 18 27 21 21
19 25 34 27 33
20 22 19 22 23
19 19 18 19 26
28 20 22 20 21
23 36 23 25 24

Construyendo tablas de frecuencias (intervalos de igual amplitud)


Al construir tablas de frecuencias es necesario tomar las siguientes 3 decisiones:
i) Número de clases (intervalos)
Usualmente el número de intervalos de una distribución de frecuencias varía entre 5 y
20, dependiendo principalmente del número de casos con los cuales se cuente. La
decisión del número de clases es decidida arbitrariamente por quien organiza la
información.
Reglas que puede ayudar a decidir el número de clases o intervalos:
- Número de intervalos = n ; n = número de datos, o
- Número de intervalos = [1 + 3,3· log n] (fórmula de Sturge)
ii) Amplitud de intervalo:
Para determinar esta amplitud (clases o intervalos tienen igual amplitud), primero se debe encontrar
la diferencia entre el mayor y el menor de los datos en los datos. Luego, la amplitud aproximada
es obtenida dividiendo esta diferencia por el número deseado de clases o intervalos.
valor máximo - valor mínimo
Amplitud del intervalo =
número de intervalos

iii) Límite inferior de la primera clase o punto de partida


Cualquier número que sea igual o menor que el más bajo de los valores del conjunto de
datos será conveniente para ser usado como el límite inferior del primer intervalo.
En el ejemplo (Edad): n = 50 máx = 36 mín = 18
Si utilizamos número de intervalos = [1 + 3,3· log (50)] = 6
𝟑𝟔−𝟏𝟖
Amplitud = =3
𝟔

UNIDAD 1 Página 20
Los intervalos de clase se leen Edad n° de alumnos
14 alumnos con edades entre 18 y menos de 21 años 18 – 21 14
17 alumnos con edades entre 21 y menos de 24 años 21 – 24 17
24 – 27 10
27 – 30 4
30 – 33 1
4 alumnos con edades entre 33 y 36 años 33 – 36 4
Total = 50

Frecuencias relativas y porcentaje


Es posible calcular la frecuencia relativa y el porcentaje de las distribuciones cuantitativas del
la misma forma que en las distribuciones cualitativas o discretas.
Edad Marca de clase Frec. Absoluta Frec. Relativa Porcentaje
xi ni fi
18 – 21 19,5 14 0,28 28
21 – 24 22,5 17 0,34 34
24 – 27 25,5 10 0,20 20
27 – 30 28,5 4 0,08 8
30 – 33 31,5 1 0,02 2
33 – 36 34,5 4 0,08 8
Total = 50 1,00 100%
También se pueden registrar las frecuencias acumuladas

limite inferior + limite superior


marca de clase =
2

Representación gráfica de distribuciones de frecuencias con datos en intervalos


Las representaciones gráficas más frecuentes de una tabla de frecuencias donde los
datos han sido agrupados en intervalos son el histograma o el polígono de
frecuencias.
Donde cada rectángulo corresponde
con una clase y su superficie es
proporcional a la frecuencia de dicha
Histograma
clase o intervalo.
aihi=kni o aihi=kfi
N° estudiantes

20
k puede ser cualquier constante, en
17
la práctica se suele utilizar k=1, por lo
15
14 tanto, se puede utilizar en las alturas
de los rectángulos
𝐟𝐢
10
10
hi = ≡ densidad
𝒂𝒊
- Si los intervalos de clase tienen
5
distintas amplitud, se debe utilizar la
4 4
densidad para graficar el histograma
1
- Si todos los intervalos de clase
0
15 18 21 24 27 30 33 36 39 tienen la misma amplitud, se puede
Edad
graficar las alturas de los rectángulos
Muestra de 50 estudiantes de una universidad (marzo 2022)
con las frecuencias absolutas o
relativas o densidad.

Un histograma es un gráfico que da una idea de la “forma o estructura” de los datos de una variable,
indicando las regiones donde los puntos están concentrados y las regiones donde son escasos.

UNIDAD 1 Página 21
Del ejemplo edad:
Tabla de frecuencias (todos los intervalos tienen amplitud 3)
Edad Frec. Absoluta Frec. Relativa Densidad
ni fi fi / amplitudi
18 – 21 14 0,28 0,0933
21 – 24 17 0,34 0,1133
24 – 27 10 0,20 0,0667
27 – 30 4 0,08 0,0267
30 – 33 1 0,02 0,0067
33 – 36 4 0,08 0,0267
50 1,00

Cuando todos los intervalos tienen el mismo ancho o amplitud, no cambia


la estructura del histograma, si en la altura de los rectángulos se utilizan
las frecuencias absolutas o frecuencias relativas o la densidad de cada
clase

frecuencia relativa
Densidad =
amplitud

UNIDAD 1 Página 22
Aunque no es común tener clases o intervalos de distintas amplitud, algunas
veces se utilizan cuando alguna clase la frecuencia absoluta es cero o con muy
pocas unidades de observación.
TABLA DE DISTRIBUCIÓN DE FRECUECIA E HISTOGRAMA CON INTERVALOS DE CLASE CON
DISTINTA AMPLITUD
Ejemplo: Los datos que se muestran en la tabla de frecuencias, corresponden a
las ventas mensuales de n= 1000 empresas de cierto sector.
Ventas Amplitud de cada Frec. Absoluta Frec. Relativa
mensuales intervalo ni fi fi
(Millones $) ai densidadi =
ai
0 – 50 50 100 0,10 0,002
50 – 100 50 250 0,25 0,005
100 – 200 100 400 0,40 0,004
200 – 400 200 200 0,20 0,001
400 – 800 400 50 0,05 0,000125
1000 1,00

HISTOGRAMA INCORRECTO HISTOGRAMA CORRECTO

Cuando se utiliza densidad, el histograma, tienen las propiedades siguientes:


- El área de cada rectángulo representa la proporción de los datos
observados que está en el intervalo de clase correspondiente.
- La altura de cada rectángulo representa la densidad de los datos
observados en el intervalo de clase correspondiente.
- El área total bajo el histograma es igual a 1.
frecuencia relativa
Densidad =
amplitud

UNIDAD 1 Página 23
El propósito de la densidad es ajustar la frecuencia relativa con el ancho de la
clase. Al dividir la frecuencia relativa con el ancho de la clase se ajusta esta
tendencia.
Formas de histogramas
Un histograma puede asumir diferentes formas. Las más comunes son: simétricos,
asimétricos y uniforme o rectangular.
Simétrico Asimetría Positiva Asimetría Negativa
10 10
10
Simétrica
8 8
8

6
6 6

4
4 4

2
2 2

0
0 0
2.5 7.5 12.5 17.5 22.5 27.5 32.5
2.5 7.5 12.5 17.5 22.5 27.5 32.5 2.5 7.5 12.5 17.5 22.5 27.5 32.5

X
x X

Interprete los tres histogramas


Observación: Describir datos utilizando gráficos puede ayudar a iluminarnos acerca de las
características principales de la información. Desafortunadamente, también pueden ser
utilizados, casual o intencionadamente, para distorsionar información y desorientar a quien la
recibe. Las siguientes son dos formas de hacerlo:
1. Cambiar la escala en uno o en ambos ejes (esto es alargando o acortando los ejes)
2. Truncando las frecuencias, es decir, comenzando el eje en un número mayor que cero.

Polígono de frecuencias
Gráfico alternativo al histograma
Los polígonos de frecuencias se realizan trazando los puntos formados por las marcas
de clase y las frecuencias, y uniéndolos mediante segmentos.

Polígono de frecuencias (Edad en años)


N° alumnos

20

17

15
14

10
10

5
4 4

0 0
0
15,0 16,5 18,0 19,5 21,0 22,5 24,0 25,5 27,0 28,5 30,0 31,5 33,0 34,5 36,0 37,5 39,0
Edad

Muestra de 50 estudiantes de una universidad (marzo 2021)


Para construir un polígono de frecuencia se puede utilizar frecuencia absoluta (ni) o frecuencia
relativa (fi) (no la densidad)

UNIDAD 1 Página 24
OTROS GRÁFICOS
DIAGRAMA DE PUNTOS (caso: pocos datos)

Ejemplo: Se determinó la cantidad de contaminación por aluminio (ppm) en plástico de


cierto tipo, con una muestra de 26 probetas. Se obtuvieron los siguientes datos:

30 30 60 63 70 79 87 90 101
105 112 115 119 119 125 125 125 138
148 168 178 184 202 214 221 275

Dot-Plot (gráfico de puntos)

GRAFICO DE TENDENCIA

- Determine la variación porcentual entre los años 2005 y 2006.

Variación porcentual =  
Final
- 1 100

Inicial 

UNIDAD 1 Página 25
Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cuál es: unidad de observación, la
variable de interés y clasificarla según naturaleza, T_recorrido , N_medición y según
función cuando corresponda (variable dependiente – variable independiente.
Ejercicio II-1
En un centro de computación, el número de veces que el computador se detiene, por error
de máquina, diariamente, fue recolectado por un período de 70 días. Los datos obtenidos
fueron los siguientes.
Nº de detenciones del computador por día.
0 0 2 0 0 0 3 3 0 0 1 0 0 0
1 8 5 0 0 4 3 0 6 2 0 2 3 0
0 3 1 1 0 1 0 1 1 0 2 2 1 0
2 2 0 0 0 1 2 1 2 0 0 5 2 1
0 1 6 4 3 3 1 2 4 0 2 0 0 4

- Construya una distribución de frecuencias y un gráfico adecuado con los datos.


- ¿Cuál es la proporción de días en que ocurren más de 3 detenciones?

Ejercicio II-2
Un fabricante de envases de plástico desea analizar cuáles son las causas principales que
generan envases defectuosos que se producen. Se observan 248 envases defectuosos
obteniendo:

Diagrama de Pareto

99,60% 100,00%
100 97,18% 100%
92,34%

80 76,61% 80%

60,48%
Porcentaje
Frecuencia

60 60%

40 40%

20 20%

0 0%
Aplastamiento Desbalanceo Rotura Rosca Fuera de Color
medida
Defectos

Coloque el correspondiente valor de ni (frecuencia absoluta) en cada barra. Interprete el gráfico

UNIDAD 1 Página 26
Ejercicio II-3
Con el propósito de mejorar el tiempo de entrega desde una embotelladora de refrescos a máquinas
vendedoras de una universidad, se ha obtenido 40 datos.
X:Tiempo de entrega en minutos
9,45 9,45 9,60 10,02 10,30 11,66 14,38 14,88 16,86 16,97
17,08 17,73 17,89 21,15 21,65 21,84 22,13 24,35 24,45 24,45
24,45 25,02 29,41 31,75 33,66 34,93 35,00 37,00 37,10 37,50
39,73 41,95 44,29 44,88 46,59 54,12 55,12 56,63 56,63 69,45

Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un gráfico
adecuado
Frecuencia Absoluta (ni) Porcentaje
Tiempo de entrega (min) xi
9,45 - 19,45 14,45 13 32,5

59,45 - 69,45 64,45 1 2,5


Total 40 100,0

Ejercicio II-4
En el desarrollo de un nuevo producto alimenticio se desea comparar el efecto del tipo de
envase sobre la vida de anaquel1 del producto. Para ello existen dos tipos de envases: envase
D, fabricado por la industria DIKA y el envase L fabricado por la industria LOGE. Para decidir
cuál utilizar, envasaron el producto alimenticio en 10 envases de la industria DIKA y en otros 10
envases de la Industria LOGE. Las duración del producto en cada envase se muestra a
continuación:
Duración del producto (días)
Envase D 31 36 34 24 30 28 34 29 31 24
Envase L 38 43 40 46 38 39 43 41 37 45

Elabore un gráfico adecuado. Realice comentarios.

1
Vida de anaquel de un alimento: tiempo en el cual éste conservará sus propiedades fisicoquímicas,
organolépticas y nutricionales.

UNIDAD 1 Página 27
Estadística Descriptiva Bivariada
Tablas - Gráficos
Los datos que tratamos de analizar pueden incluir valores de dos variables relacionadas
entre sí, por lo que es interesante su estudio conjunto.
Los elementos de una muestra o de una población pueden clasificarse con dos criterios
o variables diferentes.
Observación: Se pueden analizar en forma conjunta más de dos variables.

Caso 1: Descripción conjunta de dos variables cualitativas


- Tabla de doble entrada o tabla de contingencia
Existen dos tipos de tablas de contingencia:
i) Cuando el objetivo es analizar la posible relación entre dos
variables cualitativas
ii) Comparar dos o más grupos en una variable cualitativa
- Gráficos adecuados: Barras agrupadas, Sectorial, Barras divididas.
- Medidas de resumen: Asociación (se estudiarán en la unidad de Inferencia)

Ejemplo i) La información que se presenta a continuación en la tabla y gráfico,


corresponde a una parte de un estudio realizado con una muestra de
400 trabajadores de una industria metalúrgica con el objeto de
investigar si el “desempeño en el programa de capacitación” y el
“rendimiento en el trabajo” están relacionados.
Tabla 1
Desempeño en el
Calificación programa de capacitación
en el trabajo Bajo Medio Alto Total
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy buena 9 49 63 121
Total 60 188 152 400

- De los trabajadores que obtuvieron bajo desempeño en el programa de capacitación,


¿qué porcentaje tiene calificación deficiente en el trabajo?
- De los trabajadores que obtuvieron un desempeño alto en el programa de
capacitación, ¿qué porcentaje tiene calificación muy buena en el trabajo?
- De los trabajadores que obtuvieron un desempeño alto en el programa de
capacitación, ¿qué porcentaje tiene calificación deficiente en el trabajo?

UNIDAD 1 Página 28
Ejemplo ii) Se desarrollan dos métodos para fabricar discos de un material
superconductor. Se elaboran 50 discos con cada método y se
comprueba su superconductividad al enfriarlos con nitrógeno líquido.
Superconductores
Fallas Total
(Sin fallas)
Método 1 31 19 50
Método 2 42 8 50
Total 73 27 100

UNIDAD 1 Página 29
Caso 2: Una variable cuantitativa y una variable cualitativa (grupo)
Tabla de de distribución de frecuencias (si n es grande)
Gráficos adecuados:
- Diagrama de puntos paralelos (muestras pequeñas)
- Diagramas de cajas paralelas (datos directos, es un gráfico
basado en los cuartiles de Tukey)
- Polígonos de frecuencias en un mismo gráfico (hay que tener los
datos tabulados en intervalos, para comparar los grupos es
conveniente utilizar porcentaje)
Ejemplo: Los datos que se muestran a continuación son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

Ejemplo : Una industria metalúrgica compra grandes cantidades de alambre de


acero en rollos de 150 metros, hasta la fecha esta compra la realiza en
la empresa Alfha, otra empresa llamada Delta quiere también vender
sus productos y hace una oferta bastante interesante porque el precio
de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia (Y) a la tracción.
Por ello se toman muestras al azar de rollos de acero provenientes de
ambas empresas.
Los resultados se presentan en la tabla de frecuencias siguiente:

UNIDAD 1 Página 30
Resistencia Marca de Empresa
(en Newton) clase
Alfha Delta %A %D
Y yi
10,00 – 10,25 10,125 2 0 4,17 0
10,25 – 10,50 10,375 12 17 25,00 22,97
10,50 – 10,75 10,625 14 25 27,17 33,78
10,75 – 11,00 10,875 11 11 22,92 14,86
11,00 – 11,25 11,125 5 9 10,42 12,16
11,25 – 11,50 11,375 4 9 8,83 12,16
11,50 – 11,75 11,625 0 3 0 4,05

nA= 48 nD= 74 100% 100%

Gráfico adecuado para representar la distribución de la resistencia de los


alambres de acero fabricado por cada una de las empresas.

Polígonos de frecuencias (%)

UNIDAD 1 Página 31
Caso 3: Dos variables cuantitativas.
Objetivo: Analizar existencia de relación lineal.
Ejemplo: La tabla siguiente presenta la estatura en cm. y el peso en kg. de una
muestra aleatoria de 22 estudiantes
El primer paso de todo análisis estadístico es dibujar los datos para
Peso Estatura
Sujeto tener una idea intuitiva de la relación:
Y X
1 82 185 Diagrama de dispersión Simple (Estatura y Peso)
2 75 185
90
3 70 180
4 68 178 85

5 44 159 80

6 66 172 75

7 72 176 70
8 85 183
65
9 70 179
60
10 75 186
11 58 169 55

12 69 172 50

13 68 176
PESO

45

14 75 174 40
150 155 160 165 170 175 180 185 190 195 200
15 70 177
16 68 170 ESTATURA
17 57 161 En el gráfico se observa una relación aproximadamente
18 63 170 lineal (asociación lineal directa)
19 80 190
20 70 172
21 54 162
22 54 165

Ejercicios 1
1. El ingeniero a cargo del control de calidad del agua de una ciudad, es responsable
del nivel de cloración del agua. Dicho nivel debe cumplir con lo que exige el
Departamento de Sanidad (entre 0,2 y 2,0 mg/L). Para vigilar el cloro, sin necesidad
de verificar toda el agua que sale de la planta, el ingeniero diariamente toma 30
muestras de agua en envases iguales que cumplen con la norma de nuestro país,
mide la concentración residual de cloro y saca una conclusión sobre el nivel
promedio de cloración que tiene el agua tratada ese día. La tabla anexa exhibe las
concentraciones de cloro correspondiente a cierto día. A partir de los datos
obtenidos el ingeniero obtiene sus conclusiones respecto a la población total a la
que se le aplicó la cloración.

UNIDAD 1 Página 32
Tabla de Concentraciones residuales
de Cloro (mg/L) Diagrama de “tallo-hojas”
Stem-and-Leaf Plot
1,62 1,57 1,64 1,54 1,64 1,5.8 1,60 1,52 Frequency Stem & Leaf
1,57 1,66 1,58 1,62 1,59 1,59 1,56 1,58
1,61 1,59 1,60 1,56 1,63 1,68 1,59 1,63 ,00 15 .
1,70 1,56 1,60 1,68 1,60 1,63 1,00 15 . 2
1,00 15 . 4
5,00 15 . 66677
Construya una tabla completa de 7,00 15 . 8889999
distribución de frecuencias y un gráfico 5,00 16 . 00001
5,00 16 . 22333
(histograma o polígono de frecuencias) 2,00 16 . 44
1,00 16 . 6
Utilice 6 intervalos de clases 2,00 16 . 88
1,00 17 . 0

Stem width: 1,0


Each leaf: 1 case(s)
Multiplicar por 10-2

X: Conc. Cloro xi ni fi Ni Fi
mg/L

30 1

Total 30 1

Bosqueje un gráfico adecuado

UNIDAD 1 Página 33
2. La siguiente tabla corresponde a los resultados de una escala de
responsabilidad que fue aplicada a una muestra de 200 profesionales de
nuestro país:
2.a) Si se clasifica como "muy
Puntaje ni Fi Ni %
responsable" a toda persona con
acumulado
más de 75 puntos. ¿Qué
00 - 20 2
porcentaje de profesionales
20 - 30 8 evaluados son clasificados como
30 - 40 17 muy responsable?
40 - 50 34
50 - 60 41 2.b) Si se quiere seleccionar al 25% de
60 - 70 57 los profesionales evaluados con
70 – 80 23 mayor puntaje, indique el
80 - 90 12 intervalo donde se encuentra
90-100 6 puntaje que realiza el corte para
200 la clasificación.
> puntaje → > responsabilidad

UNIDAD 1 Página 34
Medidas de Resumen
Entre las medidas que permiten describir en forma resumida datos provenientes
de una población o una muestra de esa población, podemos considerar: medidas
de posición (ubicación), de dispersión o variabilidad, de forma y de asociación
Medidas de posición: Tendencia Central - Percentiles

Tendencia Central: Moda - Promedio - Mediana


Son índices de localización central, empleados en la descripción de las
distribuciones de frecuencias. Las más usadas son la moda, la mediana y el
promedio.

Moda (Mo): Es el valor de la variable que ocurre más frecuentemente

Ejemplo (variable cualitativa): En una empresa se ha medido la satisfacción


laboral de una muestra de empleados.

Satisfacción Laboral Nº de empleados


Muy satisfechos 20
Satisfechos 25
Moderadamente satisfechos 22
Insatisfechos 18
Muy insatisfechos 10

En este caso la moda corresponde a la categoría “satisfechos”. Mo = satisfechos


Si la variable se encuentra es cuantitativa, la moda será la magnitud más frecuente.
Ejemplo (variable cuantitativa) : En la medición de responsabilidad en un grupo de
postulante a un cargo de ejecutivo, se han encontrado los siguientes puntajes : 81, 83,
83, 85, 86, 86, 87, 88, 90, 91, 92, 94, 95, 95, 95, 95, 96, 96, 97, 99, 101, 105, 107, 108,
109, 110, 115, 118, 120.
En este caso, la moda corresponde al puntaje 95.
Y si los datos están agrupados en intervalos de clase, la moda será el punto medio del
intervalo más frecuente. La moda para datos agrupados en intervalos en tablas de

UNIDAD 1 Página 35
frecuencia, no es un valor exacto porque varía con las diferentes maneras de agrupar
una distribución.
Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como
indica la tabla a continuación.

Sueldo Marca de clase Nº de trabajadores


xi ni
600 – 650 625 15
650 – 700 675 20
700 – 750 725 26
750 – 800 775 22
800 – 850 825 17

En este caso la moda es 725.000 pesos, por ser el punto medio del intervalo más
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
Limitación de la moda: no sabemos qué ocurre con el resto de la distribución de
datos.

Promedio Aritmético (o media Aritmética)


La media aritmética o promedio aritmético:
En general se utiliza letras mayúsculas para denotar a las variables, y
letras minúsculas para los valores que toma las variables (datos).
Sea X la variable cuantitativa de interés y sea x1, x2, …, xn los n valores
muestrales que de dicha variable. El promedio aritmético muestral se
obtiene sumando los valores de X y dividiendo luego por el número de
datos.
n
xi
x +x +x ...+x n total
x= 1 2 3 = i =1
n n n
La media aritmética sintetiza la información existente en los n datos, en un
número que da una idea clara sobre la posición de los mismos

Ejemplo: Los siguientes valores indican el tiempo necesario en minutos para


llegar a su trabajo de un grupo (muestra) de 15 empleados de un ministerio
público.
25 30 50 60 35 65 48 90 75 50 22 45 25 35 50
UNIDAD 1 Página 36
X = Tiempo necesario en min. para llegar al trabajo
705
n x=
n = 15 Sumatoria =  x i = 705 15
i 1
= 47 min

Observación: La media o promedio de la población se define de la misma forma


que la media muestral pero se utiliza el símbolo  para denotarla:
N

x i
x1 +x 2 +x 3 ...+x N total
  i 1
 
N N N

Si los datos se encuentran en una distribución de frecuencias (no están


disponibles los datos directos), es necesario modificar la fórmula:
k

x n i i
x i 1
donde xi representa el valor de la variable si es discreta o
n
la marca de clase si los datos están agrupados en k intervalos.

Ejemplo: En un estudio de consumo de frutas, se entrevistó a 250 personas, una


de las preguntas realizadas fue ¿aproximadamente, cuantas frutas consumes
diariamente? La información obtenida a esa pregunta se muestra a
continuación:
Cantidad de frutas nº de personas n = 250
Xi ni x i ni xini 546
Total
0 22 0 i
1 50 50 546
2 90 180 x =
250
3 49 147
4 26 104
= 2,184 frutas
5 13 65
Total n = 250 546

UNIDAD 1 Página 37
Ejemplo: Datos agrupados en intervalos

Sueldo mensual (X) de un grupo de trabajadores de una empresa textil.


Sueldo Marca de clase Nº de trabajadores
(miles de $) xi ni xini
600 – 650 625 15 9375
650 – 700 675 20 13500
700 – 750 725 26 18850
750 – 800 775 22 17050
800 – 850 825 17 14025
Total 100 72800

X = Sueldo mensual

n Total = xini x
i
72800
90 72800 = 728 ≡ $728000
100
Propiedades de la media aritmética o promedio aritmético:
i. mínimo < x < máximo
ii. El promedio de una constante es la constante. (demostración tarea)
iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en
esa misma magnitud. (demostración tarea)
iv. Si los valores de una variable son multiplicados por una constante, el promedio se
amplificarán en la misma magnitud constante.
v. Si Y = a + bX  Y = a + bX ; a, b ctes.
n

vi. (x i -x) 0
i=1
vi

n
vii. (xi - a)2 es mínima cuando a = x
i=1
Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:
Complete
Caso 1 $150.000,0 Caso 2 15% Caso 3 10% + un bono
Sueldo actual
fijo de $80.000
Y(C1) = X + 50 Y(C2) = 1,15X Y(C3) = 1,1X + 30
x = 728 (miles $)
y C1 = y C2 = y C3 =
Y = Sueldo aumentado

UNIDAD 1 Página 38
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.

Para el cálculo de la mediana la variable debe ser por lo menos ordinal

En datos no agrupados (directos), con n impar, el valor central es la mediana.


Ejemplo: 2,3, 5, 7, 8, 9, 12, 13, 15, 20, 22. N = 11 datos. La mediana es el
valor 9.
1+ n
Se puede observar que si n es impar, la mediana es el valor que ocupa el lugar
2
En datos no agrupados con n par, el valor de la mediana será el punto medio
entre los dos valores centrales.
Ejemplo: 5, 7, 9, 10, 14, 16, 17, 18. N = 8 datos; la mediana es el valor 12.
Es preciso ordenar los datos de menor a mayor para hacer el cálculo.

Ejemplo: Datos tabulados. Variable discreta


“X: Número de avería diarias en un taller
Frec. Abs. Frec. Abs. acum.
ni Ni n=90 es par, la Me es el promedio de
X
los dos valores centrales
0 40 40
1 26 66 Mediana = 1 avería.
2 14
Interpretación:
3 6
4 3
5 0
6 1
Total n = 90

El valor de la mediana en datos tabulados (agrupados) en intervalos


se analizará junto con el tema PERCENTILES. El cálculo de la Me es
aproximado y se determina a través de una fórmula que se obtiene de
la tabla de distribución de frecuencias acumuladas.

UNIDAD 1 Página 39
Comparación entre Promedio, Mediana y Moda
Desde un punto de vista descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son distintas:
Estadísticos de tendencia central Observaciones
- El nivel de medición de la
variable X sea por lo menos en
escala de intervalos.
n - La media es muy sensible
Media xi cuando existen datos atípicos
aritmética total
x= i =1
= o extremos.
x n n - Es preferible utilizar el promedio
aritmético como medida de
resumen si los datos son
homogéneos.
- La mediana utiliza menos
Es un valor tal que, ordenados información que la media, ya
en magnitud los n datos de que solo tiene en cuenta el
una variable X, el 50% es orden de los datos y no su
menor o igual que ella, y el magnitud, por lo tanto, para
Mediana 50% es mayor o igual. poder calcular la mediana el
Me nivel de medición de la variable
X debe ser por lo menos en
escala ordinal.
- La mediana se ve menos
alterada por los datos atípicos o
extremos.
- Para el cálculo de la moda la
variable puede tener cualquier
nivel de medición, luego es la
Moda Es el valor de la variable que
única medida de tendencia
Mo ocurre más frecuentemente
central que se puede calcular si
el nivel de medición de la
variable X es en escala nominal.
x  Mediana  asimetría, lo que sugiere heterogeneidad en los datos.
 en este caso la Mediana es la medida de tendencia central
adecuada para resumir los datos.

UNIDAD 1 Página 40
Simétrica Asimetría positiva Asimetría Negativa
10

10
Simétrica 8
10

8
6
8

6
4 6

4
4
2

2
2
0
2.5 7.5 12.5 17.5 22.5 27.5 32.5
0
0
2.5 7.5 12.5 17.5 22.5 27.5 32.5 X 2.5 7.5 12.5 17.5 22.5 27.5 32.5

x X

X = Me = Mo Mo < Me < X X < Me < Mo

Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda
que la vida útil de su producto es superior a 5 años.
Una muestra aleatoria de 140 unidades vendidas hace 10 años, reveló la siguiente
distribución de las duraciones:
Duración Frecuencia
0- 2 20
2–4 30
4–6 35
6–8 32
8 – 10 23
Total 140
a. Determine la duración promedio.
b. ¿Qué porcentaje de unidades duraron más de 5 años?
Ejercicio III-2
En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el
silicio de la parte trasera de las obleas antes de la metalización. En este proceso es importante la
rapidez con la que actúa la sustancia. Se han comparado dos soluciones químicas, utilizando para
ello dos muestras de obleas para cada solución. La rapidez (Y) de acción observada es la siguiente

Solución 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
Solución 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3

a. Indique la unidad de observación y cuáles son las variables involucradas en el


problema y clasifíquelas.

UNIDAD 1 Página 41
b. Complete el cuadro siguiente (realice comentarios):
Solución n yi Promedio Mediana
i

1
2

Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x1 ,x2,....,xn , n datos y sea los número w1 ,w2,....,wn, los pesos correspondiente a
cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los

datos, está dado por:

Si cada observación tiene la misma ponderación, entonces el promedio y el promedio


ponderado son iguales.
Ejemplo: Las notas parciales de Estadística I de un alumno son:

P1 (25%) P2 (35%) P3 (40%)


4,2 5,7 2,1

Promedio =

Ejercicio III-4
Promedio estratificado

X = Sueldo mensual (miles de $)


Planta Santiago (1) Concepción (2) Antofagasta (3)
Promedio x1 = 568,320 x 2 = 665,210 x3 = 480,715
N° de trabajadores n1 = 215 n2 = 180 n3 = 96
n = n1 + n2+ n3
(suponga que se observó una muestra representativa en cada planta)

n x
i=1
i i
x estr = =
n

UNIDAD 1 Página 42
Cuartiles – Quintiles – Deciles - PERCENTILES
Son medidas estadísticas de ubicación.

 Si dividimos un conjunto de datos en cuartas partes, a los puntos de división


resultantes se le llama cuartiles (Qk) 1, 2 y 3. Cada parte le corresponde un
25%.
25% 25% 25% 25%
| | | | |
Mín Q1 Q2 Q3 Máx

 quintiles (qk) 1, 2, 3 y 4. Cada parte le corresponde un 20%.


20% 20% 20% 20% 20%
| | | | | |
Mín q1 q2 q3 q4 Máx

 Deciles (Dk) 1,2,3, …,9. Cada parte le corresponde un 10%.

 El Percentil Pp de un conjunto de datos es un valor tal que al menos


100p% de las observaciones están por debajo de ese valor, y cuando
menos 100(1-p)% están en o sobre ese valor.

p% (100 - p)%
| | |
x(1) Pp x(n)
Mín Máx

Entre mín y Pp se encuentra el p% de los datos o entre Pp y máx se


encuentra el (100 – p)% de los datos.

Tenemos: Q1 = P25 Me = Q2 = D5 = P50 Q3 = P75


q1 = D2 = P20
q2 =
q3 =
q4 =
Cálculo de Percentiles (datos directos)

Ejemplo: Los siguientes datos corresponden a los puntajes obtenidos por 14


alumnos en un examen de Física II. (0 – 100 puntos)

UNIDAD 1 Página 43
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos

Un diagrama de puntos es un gráfico que se puede utilizar para tener una impresión
aproximada de la forma de los datos observados. Es útil cuando el tamaño de la muestra no es
demasiado grande.
Cálculo percentiles Pp
En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los
datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”,
puede que ningún valor cumpla exactamente la definición. Existen diversas formas de
interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL
explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery
y George C. Runger (1996)
1ro) Se ordenan los n datos de menor a mayor

np
2do) Pp es el valor que ocupa el lugar j = . El método AEMPIRAL asigna la media
100
de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la
np
posición siguiente a la parte entera de j cuando j = es un número decimal
100

Del ejemplo: P50 n = 14 p = 50 → percentil 50 está se encuentra en el


14  50 65  68
lugar j= =7 → P50 = = 66,5 = Me ≡ “el 50% de los estudiante
100 2
obtuvieron puntaje entre 52 y 66,5 puntos”
- ¿Entre qué valores e encuentra el 25% de los mejores puntajes?
- Determine el percentil 75 e interprete. (Resp: P75 = 76 AEMPIRAL)

Cálculo de percentiles datos tabulados en intervalos:


Los valores que toman los percentiles cuando tenemos la información agrupada
(intervalos reales) en una tabla de frecuencias de una variable cuantitativa son

aproximados.
Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se
llega a la fórmula del percentil Pp.

UNIDAD 1 Página 44
np - Nj-1
Pp se encuentra en
np
el
100 intervalo j → lugar
Pp = liminf j +amplitudj 100
nj liminfj = valor inferior de
intervalo j
Nj-1 frec. Abs. acumulada
anterior al intervalo j
nj= frecuencia absoluta del
Ejemplo: cálculo percentil 50 (mediana) intervalo j
Intervalo j

Puntaje en un test de aptitud


n = 40
N° de Frecuencias acumuladas
Puntaje np n  50
sujetos Ni Fi lugar =  20
X (relativa) 100 100
ni (absoluta)
el percentil 50 o
15 – 20 8 8 0,200 mediana
20 – 25 7 15 0,375 aproximadamente se
25 - 30 14 29 0,725 encuentra en el lugar 20,
observando la columna Ni
30 – 35 6 35 0,875
de frec. acumuladas o el
35 – 40 3 38 0,950 gráfico ojiva, el valor que
40 – 45 2 40 1,000 ocupa el lugar 20 se
n = 40 encuentra en el tercer
intervalo.
P50 = Me  [25, 30)

DISTRIBUCIÓN DE FRECUENCIA ACUMULADA

Puntaje Frec. Abs. Acumulada


X Ni
< 15 0
< 20 8
< 25 15
< 30 29
< 35 35
< 40 38
< 45 40

UNIDAD 1 Página 45
OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)

Interpolando
Linealmente

Puntaje
P50  [25, 30) ← 25 es el límite inferior del intervalo j
30 – 25 = 5 es la amplitud del intervalo j
intervalo j
Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j
frec. abs. acumulada anterior al intervalo j es 15
La fórmula que entrega la interpolación lineal para el cálculo de percentiles con
datos agrupados en intervalos reales es:
Se utiliza
np
100 - Nj-1
cuando no se
tienen los datos
Pp = liminf j +amplitudj de cada unidad
nj de observación,
es decir, no se
tienen los datos
directos
Aplicando la fórmula de percentil para datos agrupados

 20  15 
P50  25  5     26,79 puntos
 14 
Interpretación: …………………………….

- Suponga que al 10% de los puntajes más altos pasan a una segunda etapa,
¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos
sujetos?

- Determine e interprete el valor del percentil 10.


UNIDAD 1 Página 46
Box plot o Diagrama de caja (Tukey fue su creador)
Es un gráfico que suministra información sobre los valores mínimo y máximo, los
cuartiles (bisagras) de Tukey Q1, Q2 o mediana, Q3, la existencia de valores
atípicos y la simetría de una distribución unimodal.

Se sabe que un dato es


atípico, si su valor no se
encuentra en el intervalo

(Q1 – 1,5RI , Q3 + 1,5RI)

RI = Q3 – Q1

 Es necesario tener datos directos (sin agrupar en intervalos) para realizar


el gráfico de cajas.
 Este gráfico es útil para hacer comparaciones rápidas entre 2 o más
conjuntos de datos.
 La primera bisagra de Tukey (similar al cuartil 1) es el valor que ocupa la
posición intermedia entre la mediana el valor más pequeño de la
distribución; la segunda bisagra es la mediana; la tercera bisagra (similar
al cuartil 3) es el valor que ocupa la posición intermedia entre la mediana y
el valor más grande de la distribución.
Ejemplo: Se determinó la cantidad de contaminación por aluminio (ppm) en
plástico de cierto tipo, con una muestra de 26 probetas. Se obtuvieron los
siguientes datos:

30 30 60 63 70 79 87 90 101
102 115 118 119 120 120 125 140 145
172 182 183 191 222 244 291 511

Percentiles o Bisagras de Tukey

Percentiles

25 50 75 RI 1,5*RI
Bisagras de Tukey Cantidad de contaminación por aluminio (ppm) 87,00 119,50 182,00 95 142.5

119+120
Me= = 119,5 Q1(Tukey) ≡ 87 Q3(Tukey) ≡ 87
2

UNIDAD 1 Página 47
Diagrama de caja de caja de la variable:
“cantidad de contaminación por aluminio (ppm) en plástico de cierto tipo”

Realice comentarios del resumen gráfico


MEDIDAS DE DISPERSIÓN (O VARIABILIDAD)
Las medidas de tendencia central (promedio, mediana, moda) y los percentiles,
dan información incompleta, acerca de las observaciones.
Ejemplo: Los puntajes (X) obtenidos en una Test que mide capacidad de
abstracción por 2 grupos de alumnos son los siguientes:
Grupo 1 4 3 5 6 4 5 5 7 5 6
Grupo 2 1 4 3 5 6 8 2 7 5 9

En ambos casos el promedio aritmético o media aritmética es 5 (x = 5) , pero


sus gráficos son distintos

Diagramas de puntos (Dot-Plot)

UNIDAD 1 Página 48
Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente
respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los
grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las
unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo.
Cuando están altamente dispersos se dice que es heterogéneo.
Las medidas de dispersión más utilizadas son las siguientes:
Amplitud o rango o recorrido, rango intercuartílico, desviación estándar,
varianza y coeficiente de variación.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor. Rango = valor máximo – valor mínimo
En el grupo 1: rango es 7 – 3 = 4 y en el grupo 2 rango es 9 – 1 = 8 lo que implica que el
segundo grupo tiene puntajes más dispersos.
El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribución
se tendrá la impresión de que la dispersión es grande, cuando en realidad si omitiésemos ese
valor podríamos concluir que es una distribución compacta.
Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer
cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos
Q3 = P75 Q1 = P25

RI se usa con mayor frecuencia acompañando a la mediana cuando la presencia de


valores extremos hace poco recomendable el uso del promedio.
Defectos. No permite hacer una interpretación precisa de un valor dentro de una distribución.
No interviene en relaciones matemáticas importantes en la inferencia estadística.

Desviación estándar o desviación típica


(medida de dispersión asociada al promedio aritmético)

Es la raíz cuadrada del promedio de las desviaciones al cuadrado.


Dado un conjunto de datos x1, x2, …,xn de una variable X con nivel de
medición en escala de intervalos o de razón, se define la desviación estándar o
desviación típica como la raíz cuadrada del promedio de las desviaciones di=
(xi - x ) al cuadrado.
Las desviaciones
di = (xi - x )
se elevan al cuadrado para
n convertirlas en positivas,
(xi - x)2 además recuerde que
n
i =1
Desviación estándar: s = (xi - x) = 0
n i =1
y se extrae la raíz cuadrada
La desviación estándar toma valores no para que la medida resultante
negativos y mide la dispersión: a mayor tenga la misma unidad de
desviación estándar mayor dispersión. medición de la variable.

UNIDAD 1 Página 49
El cuadrado de la desviación estándar s2, se denomina varianza.
n

 (x i  x) 2
s2  i 1
n
N
(xi μ)2
Notación de la varianza poblacional σ 2 i 1
N
 = media de la población N = tamaño de la población

Observación:
En la casi todos textos actuales de Estadística la fórmula de la
varianza (s2) de una muestra representativa de una población
viene dada por:
n Llamada varianza corregida o cuasivarianza y
(xi -x)2 se utiliza en Inferencia Estadística como la
s2 = i=1 estimación de la varianza poblacional 2, es la
n -1 fórmula que vamos a utilizar en este curso
como varianza muestral

n 2

n
xi
n 2 i=1
(xi -x)2 x -
i
n
s =
2 i=1 i=1
n -1 n-1
Del ejemplo Puntaje de un Test:
Grupo 1 Grupo 2
x x-x (x - x) 2 x x-x (x - x) 2
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60

UNIDAD 1 Página 50
Desviación Varianza
Grupo n Promedio estándar
50 12
1 10  5 ptos = 1,1547 ptos (1,1547)2
10 9
50 60
2 10  5 ptos = 2,5820 ptos (2,5820)2
10 9
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersión o variabilidad.

Ventajas de la desviación estándar


- Permite una interpretación precisa de los valores dentro de una distribución.
- La desviación como el promedio pertenece a un sistema matemático que
permite su uso en métodos estadísticos más avanzados.
Propiedades de la desviación estándar (demostración tarea)
- Si se suman a todos los valores de la variable un valor constante, el
promedio queda aumentado en ese valor, pero la desviación estándar
permanece igual.
- Si se multiplica cada valor original por una constante, tanto el promedio
como la desviación estándar queda amplificados por ese valor.
- La desviación estándar de una constante es cero.
- Si Y = a + bX  SY = bSX ; a, b ctes.
Si los datos para resumir están tabulados las fórmulas de la varianza y
desviación estándar son:
k 2

k
xi ni
k 2 i=1
(xi -x)2 ni x ni -
i
n
Varianza: s = 2 i=1
= i=1
n -1 n-1

Desviación estandar
k 2

k
xi ni
k 2 i=1
(xi -x)2 ni x i ni -
n
s= i=1
= i=1
n -1 n -1

xi es el valor de la variable discreta en una tabla o la marca de clase en el


intervalo i (datos agrupados en k intervalos reales): i = 1,2,.., k

UNIDAD 1 Página 51
Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas
en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el
número de resistencias que no cumplían con las especificaciones, resultando la
siguiente tabla
X = N° de resistencia defectuosas en cada paquete
X ni xi  ni (x i - x)2  n i
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150 125,00
150 125
x= s2 = = 2,119 ← varianza
60 59
Desviación estándar s = varianza
= 2,119  1,456
Del ejemplo de resistencia de película de óxido metálico, es más cómodo utilizar los
xn x n
2
totales i i
= 150 ; i = 500
i

(150)2
500 
s 60  1,456
59
Pero es mucho más rápido el cálculo con el modo estadístico de la calculadora.

Ejercicio : El óxido de azufre es un gas que tiene efectos nocivos en la salud humana, vegetal
y en otros materiales, este se produce por combustión de carbón y petróleo y por la metalurgia.
En una estación de monitoreo de un complejo metalúrgico se realizan mediciones diarias del
óxido de azufre (ug/m2), que emanan de los procesos. La norma indica que la cantidad máxima
de óxido de azufre permitida es 300 (ug/m2). Al tomar una muestra de 120 de dichas
mediciones, se obtuvo:
X: Cantidad de
200 - 240 240 - 280 280 - 320 320 - 360 360 - 400 400 - 440 440 - 480
óxido de azufre
N° de días 8 14 18 44 17 13 6

a. ¿Qué porcentaje de días, la cantidad de óxido de azufre detectada en el complejo


metalúrgico supera el límite permitido?
b. Determine e interprete el valor del rango intercuartílico (RI= Q3- Q1)
c. Determine e interprete el valor de la desviación estándar.

UNIDAD 1 Página 52
Coeficiente de variación (CV):
Es una medida relativa de variabilidad

sX
CVX =
|x|

Se utiliza para comparar la dispersión variables con datos en unidades


distintas de medición, ya que no depende de la unidad de medición de las
variables.
También se utiliza para comparar dispersión de variables con la misma
unidad de medición, pero con promedios diferentes.

Ejemplo: La tabla siguiente muestra el peso en kg y la estatura en cm de 10 sujetos

sujeto 1 2 3 4 5 6 7 8 9 10
X: Estatura (cm.) 172 175 168 178 159 166 176 180 179 171
Y: Peso (kg.) 78 75 70 68 44 66 72 95 70 74

Para analizar cuál distribución de datos es más homogénea, se debe determinar los
coeficientes de variación de cada variable

Variable Media Desv. típ. CV 100*CV


X: Estatura (cm.) 172,40 6,620 0,038 3,840%
Y: Peso (kg.) 71,20 12,541 0,176 17,614%

Interpretación: La variable estatura es más homogénea (menor % de variabilidad respecto al


promedio)

UNIDAD 1 Página 53
Ejercicios IV
Ejercicio IV-1
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un proceso
químico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se
puede sustituir por el catalizador 2, más barato, pero que, según el fabricante provoca un descenso
del rendimiento. Se llevan a cabo 24 reacciones obteniendo para cada catalizador los rendimientos
en porcentaje:
Y = rendimiento (%) y i y 2
i
Catalizador i i

93,1 91,7 99,9 90,3 96,2 92,7 92,7 89,0


1 92,0 94,0 98,2 96,1 97,9 87,0 89,4 92,6 2237,6 208924,80
93,8 90,3 92,8 91,1 91,1 89,4 94,2 102,1
91,5 89,2 92,8 95,3 95,1 96,4 87,0 91,7
2 87,2 90,9 91,3 92,6 91,4 91,5 91,4 95,5 2196,3 201164,17
90,6 88,2 87,8 89,9 90,4 90,6 91,0 97,0
a. Se aceptaría el cambio de catalizador, si los resultados de la pruebas arrojan un una
diferencia promedio entre el catalizador 1 y catalizador 2 inferior a 4 (%) y el catalizador
alternativo debe tener rendimiento más homogéneo del que se utiliza actualmente. Con los
resultados muestrales, ¿es aconsejable realizar el cambio?
b. Sabiendo que el 75% de las reacciones obtenidas con el Catalizador 2 tienen un rendimiento
igual o superior a 90,15. Determine si existe algún resultado (reacción) atípica. Utilice regla
de Tukey.
Ejercicio IV-2
La siguiente tabla de frecuencia presenta el díametro (en milímetros) de un producto destinado para
el ensamblaje de cierto proceso de construcción, fabricados por una máquina durante un día
determinado.
Diámetro (X) N° de productos
4,95 – 7,25 15
7,25 – 9,55 26
9,55 – 11,85 34
11,85 – 14,15 68
14,15 – 16,45 30
16,45 – 18,75 27
Total 200
a. Una norma establece que aquellos productos cuyos diámetros fluctúan entre 5 y 17
milímetros son clasificados como aceptables. Según la norma, obtenga el porcentaje de
productos aceptables fabricados durante ese día por la máquina.
b. Un ingeniero debe decidir respecto de la simetría de la distribución del diámetro del
producto destinado a ensamblaje, estableciendo que la distribución es simétrica si el
Mediana
índice I= , fluctúa entre 0,9 y 1,1. ¿Qué concluye usted en base a la
Promedio
información de la tabla de frecuencias?
c. Con la información de la tabla de frecuencias, aproximadamente, ¿cuál es el porcentaje
de productos con diámetros atípico (outlier)? (utilice regla de Tukey, pág. 47).

UNIDAD 1 Página 54
Ejercicio IV-3
Los datos que se muestran a continuación son los grados de dureza Brinell
obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2

COMPLETE E INTERPRETE
Percentiles (bisagras de tukey)
ALEACION 25 50 75 RI 1,5·RI (P25 – 1,5RI, P75 + 1,5RI)
1 63,5 64,6 65,1 1,6 2,4 (61,1 ; 67,5)
2 63,9 66,0 68,9

Informe: dureza Brinell


ALEACION n Media Desv. típ. C. V. Mín. Máx.
1 10 64,670 1,787
2 10 66,280 3,484

UNIDAD 1 Página 55
Ejercicio IV-4 (PEP)
Una industria metalúrgica compra grandes cantidades de alambre de acero en
rollos de 150 metros, hasta la fecha esta compra la realiza en la empresa Alfha,
otra empresa llamada Delta quiere también vender sus productos y hace una oferta
bastante interesante porque el precio de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia (Y) a la tracción. Por ello se
toman muestras al azar de rollos de acero provenientes de ambas empresas.
Los resultados se presentan en la tabla siguiente:

Resistencia Marca de Empresa


(en Newton) clase
yi Alfha Delta
Y
10,00 – 10,25 10,125 2 0
10,25 – 10,50 10,375 12 17
10,50 – 10,75 10,625 14 25
10,75 – 11,00 10,875 11 11
11,00 – 11,25 11,125 5 9
11,25 – 11,50 11,375 4 9
11,50 – 11,75 11,625 0 3

- Si la variabilidad de la resistencia del alambre de la empresa Delta no es superior


a la de la empresa Alfha y además la resistencia promedio es superior en al
menos 1,5 Newton sería aconsejable cambiar de proveedor.
¿Qué decisión se debería tomar en base a la información obtenida?
Fundamente con cálculo de medidas adecuadas.

Media Desv. C.V.


EMPRESA n % de variabilidad
(promedio) estandar
Alfha 10,71354 48 0,32815 0,03063 3,063%
Delta 74

Respuesta: _______________

- ¿Qué porcentaje de los rollos de alambre de acero de la empresa Delta supera la


resistencia media de los rollos de alambre de acero de la empresa Alfha

UNIDAD 1 Página 56
Ejercicio IV-5
Un Gerente de producción de una gran industria automovilística norteamericana cree
que los trabajadores de la planta A hacen un promedio salarial por hora menor con una
mayor variabilidad que los trabajadores de la planta B. Muestras de 12 trabajadores de
la planta A y 10 trabajadores de la planta B dieron los siguientes valores:
Salario (um ) por hora de un trabajador (Y)
Planta A (1) 12,2 18,2 19,4 15,3 18,6 16,4 15,5 18,7 17,1 18,3 14,5 15,8
Planta B (2) 15,1 14,8 16,9 17,2 18,2 18,5 18,7 19,3 19.2 19,8
a. ¿Apoyan los datos al Gerente de producción? (utilice medidas de resumen)
Planta n Promedio Desv. Estandar C.V.
A
B
b. Corrobore la conclusión de (a) con Box-Plots paralelos (diagrama de caja)
c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:

Determine (después del aumento):


Planta Aumento Promedio Desviación estándar C.V
aritmético (sn-1)

A 5% + 0.8 um

B 1,5 um
Ejercicio IV-6
La velocidad máxima de circulación permitida para automóviles en un tramo determinado de
cierta autopista es de 75 km/h, debido a trabajos de reparación de pavimento. Para una muestra
seleccionada aleatoriamente de 32 automóviles, el radar señaló las siguientes velocidades en
km/hr., en este tramo:
X = velocidad de circulación de automóviles
x1 = 79 (y1 = 1) 71 68 77 86 71 69 72
x2 = 82 (y2 =1) 60 65 75 67 74 80 81
x3 = 66 (y3 = 0) 72 63 78 63 74 61 64
x4 = 60 (y4 = 0) 64 79 62 65 66 73 73

a. Determine: la varianza y la media aritmética de la velocidad de circulación de los 32


automóviles en dicho tramo.
b. Recodifique la variable X como:
1 el automóvil no cumple con la velocidad permitida
yi=
0 el automóvil cumple con la velocidad permitida
i=1,2, .., n

UNIDAD 1 Página 57
n
yi
i =1
Determine e interprete el valor de ≡
n
c. Muestre la información de la variable Y en un gráfico adecuado.

Ejercicio IV-7 (PEP)


La Junta de Aeronáutica Civil emite anualmente un informe de puntualidad de las empresas
aéreas para los vuelos nacionales realizados. Cuando el retraso en el despegue es inferior
a 20 minutos, la empresa aérea queda exenta de pago de multa, si sobrepasa dicho tiempo
debe pagar 200 dólares por minuto de exceso más un cargo fijo de 140 dólares (M = 200(X-
20) +140).
En la tabla adjunta se muestra el tiempo de retraso, en minutos, en el que el despegue de
solo 5115 vuelos nacionales:
Minutos de retraso (X) 0 - 15 15 - 30 30 - 45 45 - 60 60 - 75
Cantidad de vuelos 450 1500 1605 1260 300
a. ¿En qué porcentaje de los vuelos no se pagó multa por retraso y en qué porcentaje de
los vuelos se pagaron menos de 6340 dólares de multa por retraso?
b. Si una nueva exigencia obliga a las empresas a aumentar el tiempo de retraso de sus
vuelos en 8 minutos. Determine el porcentaje de variación respecto al promedio del
tiempo de los vuelos antes de la nueva exigencia y realice una proyección del porcentaje
de variación después de la nueva exigencia.

Ejercicio IV-8 (PEP)


El responsable en control de calidad de una empresa debe evaluar un prototipo de
dispositivo electrónico, para ello se dispone de las duraciones de 200 dispositivos Los
datos se presentan a continuación:
X = duración en horas del dispositivo (tiempo hasta fallo en horas)
Duración 600 - 700 700 - 800 800 - 900 900 - 1000 1000-1100 Total
Frecuencia 15 32 42 49 62 200

a. Determine el porcentaje de dispositivos con duraciones entre 720 y 980 horas.


Justifique utilizando medidas adecuadas.
b. Analice la asimetría de la distribución de los datos a través de Coeficiente de
asimetría de Pearson CAP:

(𝑥 − 𝑀𝑜𝑑𝑎)
CAP =
𝑠

Determine su valor numérico e interprete el CAP


c. Determine e interprete la medida de tendencia central adecuada para representar
los datos de la variable X. Justifique su respuesta.

UNIDAD 1 Página 58
Descripción conjunta de dos variables cuantitativas
Es frecuente que se pueda determinar el grado de relación entre 2 (o más)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir una
variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables están
relacionadas, es necesario calcular un coeficiente de correlación.
Coeficiente de correlación lineal poblacional : ρ
Coeficiente de correlación lineal muestral: r
Un coeficiente de correlación para variables cuantitativas: es un número
que indica el grado de asociación y la dirección de esa asociación. Indica
cómo varía o cambia una característica cuando la otra característica o
variable asociada cambia.
Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer
predicciones. La predicción sólo es posible basándose en el conocimiento de la
relación que hay entre 2 variables.
Un coeficiente de correlación lineal (con variables por lo menos intervalar) nos
proporciona 3 datos principales:
- La existencia o no de una relación entre las variables estudiadas.
- La dirección de la relación.
- El grado de esta relación.
Como por ejemplo:
 estatura y peso
 el ingreso familiar y los gastos en educación
Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan alguna
forma de relación)
Tabla de datos:

Sujeto 1 2 3 n La tabla contiene n


Variable X x1 x2 x3 … xn pares ordenados
Variable Y y1 y2 y3 … yn

Gráfico adecuado: Diagrama de dispersión, muestra si hay relación lineal entre


las variables.

UNIDAD 1 Página 59
Ejemplos

a) Una correlación lineal positiva perfecta


X Y
2 4 r=1
4 6
5 7
6 8
7 9
8 10
9 11
10 12
12 14
13 15

b) Una correlación lineal elevada positiva (+0,76) (relación directa)


X Y
13 11
12 14
10 11
10 7
8 9
6 11
6 3
5 7
3 6
2 1

En general, personas con alto puntaje en x también tendrán alto puntaje en y.

c) Una baja correlación lineal positiva (+0,14)


X Y
13 7
12 11
10 3
8 7
7 2
6 12
6 6
4 2
3 9
1 6

UNIDAD 1 Página 60
d) Un caso de alta correlación lineal negativa (-0,758) (relación inversa)

X Y
12 5
10 3
9 1
8 5
7 7
7 12
6 10
5 9
4 13
2 11

El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con
la dirección de relación entre dos cosas, ya sea directa o inversa.
Significado de la correlación
El valor de la correlación puede variar desde -1 (lo que indica correlación
negativa perfecta), pasando por el 0 (que indica ninguna relación), hasta +1
(que significa perfecta correlación positiva)
La magnitud se relaciona con la intensidad o estrechez de la relación.

Coeficiente de correlación lineal de Pearson


s xy
r ; -1 < r < 1
sxs y
n

 (x -x)(y -y)
Covarianza de una muestra representativa de la
i i población objeto, indica la dirección de la relación.
sxy  i 1
X e Y variables cuantitativas
n -1

COVARIANZA
 n  n 
  x i   yi 
(x i -x)(yi -y)  x i yi -  i=1  i=1 
n n

 n
sxy  i=1 = i=1
n -1 n-1

UNIDAD 1 Página 61
Ejemplo:
sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y )
1 13 11 5,5 3 30,25 9 16,5
2 12 14 4,5 6 20,25 36 27
3 10 11 2,5 3 6,25 9 7,5
4 10 7 2,5 -1 6,25 1 -2,5
5 8 9 0,5 1 0,25 1 0,5
6 6 11 -1,5 3 2,25 9 -4,5
7 6 3 -1,5 -5 2,25 25 7,5
8 5 7 -2,5 -1 6,25 1 2,5
9 3 6 -4,5 -2 20,25 4 9
10 2 1 -5,5 -7 30,25 49 38,5
Total 75 80 124,5 144 102
promedio x =7,5 y = 8,0

RESUMEN DE LA MUESTRA (estadísticos)

Desviación estándar de X: sx =  (x - x) 2


124,5
 3,719
n-1 9

Desviación estándar de Y: s y =  (y - y) 2


144
 4,000
n-1 9

 (x -x)(y -y) 102


Covarianza positiva
Interpretación: si hubiese
Covarianza de (x,y): sxy  = = 11,333 relación lineal, esta sería
n-1 9
directa

11,333
Coeficiente de correlación lineal de Pearson: rxy  = 0,762
(3,719)(4,000)

Interpretación: _________________________________________

UNIDAD 1 Página 62
Ejercicios V (varios)
Ejercicio V-1
Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere
investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de
experiencia laboral”. Se seleccionaron al azar diez empleados de entre lo que tienen ese
trabajo. Los datos de años de experiencia y medición de productividad son los siguientes:

Empleado 01 02 03 04 05 06 07 08 09 10
Años de experiencia laboral 4 6 10 2 12 6 5 10 13 9
Productividad 80 82 88 81 92 85 83 86 91 90
Realice el diagrama de dispersión, calcule e interprete el coeficiente r de Pearson.

Ejercicio V-2
El ingeniero a cargo de la producción de cierto tipo de rodamientos esféricos de 100 mm
de diámetro del agujero, debe realizar un análisis estadístico descriptivo con el objeto de
verificar que el proceso de producción entregue rodamientos con diámetros adecuados, es
decir, entre 99 mm y 101 mm para que no presenten dificultad en su uso. Se midieron 85
rodamientos de la producción de cierto día y se anotó la variación (X), en milímetros, del
diámetro respecto a 100 mm, los datos obtenidos se presentan a continuación:
Variación (X) del diámetro Cantidad de
de rodamientos de 100 mm rodamientos
-1,3 < X < -0,9 4
-0,9 < X < -0,5 8
-0,5 < X < -0,1 17
-0,1 < X < 0,3 32
0,3 < X < 0,7 15
0,7 < X < 1,1 6
1,1 < X < 1,5 3
Total 85

El ingeniero entrega los siguientes resúmenes estadísticos:


i) El porcentaje de rodamientos que presentan dificultad para su uso es inferior a 10%.
ii) El diámetro promedio se encuentra a una distancia inferior a 0,1 mm respecto a 100.
iii) Se obtuvo una dispersión relativa del diámetro menor a 1%.

¿usted está de acuerdo con los resultados del ingeniero? Justifique su respuesta con las
medidas estadísticas adecuadas.

UNIDAD 1 Página 63
Ejercicio V-3
Una Compañía petrolera informó al Subcomité de Contaminación Ambiental sobre la
eficiencia de un nuevo filtro para reducir la emisión de gases contaminantes en
automóviles. Una de las desventajas de este nuevo filtro es que aumenta el nivel de
ruido producido por el automóvil.
La Compañía petrolera solicitó un estudio para ver la factibilidad de utilizar el nuevo
filtro, para lo cual seleccionaron una muestra representativa de 120 automóviles con
características similares y a 60 de ellos les instaló el nuevo filtro.
Las mediciones del nivel de ruido resultantes, en decibeles, en los automóviles con y
sin el nuevo filtro, se muestran en el siguiente gráfico:

a. La Compañía estaría dispuesta a utilizar el nuevo filtro si:


i. El promedio del nivel de ruido en los automóviles con el nuevo filtro no
supera en 18 decibeles al de los automóviles sin dicho filtro,
ii. El cociente entre las varianzas del nivel de ruido en los automóviles, con y
sin el nuevo filtro fluctúa entre 0,57 y 1,12
¿A qué conclusión se llega después de este estudio?. Justifique su respuesta.

b. Compare el mínimo nivel de ruido que se registró en el 15,5% de los


automóviles que emitieron mayor ruido, entre los con el nuevo filtro y los sin el
nuevo filtro.

UNIDAD 1 Página 64
Ejercicio V-4 (PEP)
En una planta embotelladora de bebidas de fantasía, utilizan envases fabricados con 2
tipos de plástico biodegradable, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plástico se midió la resistencia
(en psi). Algunos resultados parciales se encuentran a continuación:

Resist_A Stem-and-Leaf Plot Resist_B Stem-and-Leaf Plot


Freq Stem & Leaf Freq Stem & Leaf

1,00 18 . 2 1,00 Extremes (171)


2,00 18 . 59 2,00 17 . 38
1,00 19 . 0 3,00 18 . 349
4,00 19 . 5679 11,00 19 . 22344556679
7,00 20 . 1222234 5,00 20 . 35668
4,00 20 . 5689 2,00 21 . 05
2,00 21 . 01 1,00 22 . 4
1,00 21 . 9 Stem width: 10
2,00 22 . 14 Each leaf: 1 case(s)
1,00 22 . 5
Dato atípico o dato extremo= 171
Stem width: 10
Each leaf: 1 case(s)
X = Resistencia
n x  x2 Promedio aritmético Desv. estándar
Plástico A 25 5087 1038093 203,48
Plástico B 25 4898 963332 195,92
a. Se estima que las botellas fabricadas con el plástico biodegrabable B presentan una
resistencia más homogénea, que las fabricadas con el plástico biodegradable A.
Utilizando una medida estadística adecuada, ¿qué puede comentar de esta estimación?

b. Determine para cada tipo de envase entre que valores (psi) se encuentran el 50% de
las botellas con mayor resistencia

A 182 185 189 190 195 196 197 199 201 202 202 202 202 203 204 … 225
B 171 173 178 183 184 189 192 192 193 … 224

UNIDAD 1 Página 65
Ejercicio V-5 (PEP1 2019-1)

El departamento de control de calidad de una industria decide revisar el funcionamiento


de la máquina que fabrica pernos de cabeza hexagonal. Considerando las variables:
Diámetro mayor y Diámetro de paso, ambas en centímetros, selecciona una muestra
de 200 pernos de la fabricación mensual, cuya información se muestra a continuación:

Diámetro mayor Diámetro de paso (cm)


(cm) 5,00 - 5,001 5,001 - 5,002 5,002 - 5,003 Total
12,00 - 12,01 6 24 4 34
12,01 - 12,02 9 11 12 32
12,02 - 12,03 18 15 20 53
12,03 - 12,04 10 27 14 51
12,04 - 12,05 4 21 5 30
Total 47 98 55 200

a. La máquina es sometida a mantención si se cumplen las siguientes dos


condiciones:

- De los tornillos que tienen un diámetro de paso igual o superior a 5,002 cm, el
porcentaje de tornillos que tengan un diámetro mayor superior a 12,028 sea
menor de 63%.

- El porcentaje de variabilidad del diámetro mayor sea superior de 0,082%

De acuerdo a lo anterior, ¿qué decisión debe tomarse, en relación a la mantención


de la máquina? Justifique con medidas estadísticas adecuadas

b. Para los pernos con Diámetro mayor entre 12,01 y 12,04. ¿Es posible
concluir, con una medida adecuada, que las variables en estudio están
asociadas linealmente? Interprete la fuerza de dicha asociación.

UNIDAD 1 Página 66
Ejercicio V-6 (PEP1 2016-2)

Históricamente en Chile se han utilizado principalmente los combustibles fósiles para


satisfacer la demanda energética, los cuales son importados casi en su totalidad. Se
realizó un estudio piloto en dos zonas del norte del país para analizar la factibilidad de
utilizar la energía solar como principal fuente energética para satisfacer la demanda
térmica en los hogares. Para ello se registró en diferentes horarios, la temperatura
ambiente (°C) y la Radiación Solar Global (RSG) en Watts/m2, durante los meses de
julio, agosto y septiembre del año 2015. En la tabla siguiente solo se presenta la
información registrada diariamente a las 9:00 A.M.:

Radiación Solar Temperatura en °C Total


Global (Watt/m2) 7-11 11-15 15-19
Zona 1 Zona 2 Zona 1 Zona 2 Zona 1 Zona 2
4,5 - 9,5 11 8 9 7 0 4 39
9,5 - 14,5 7 7 9 7 3 6 39
14,5 - 19,5 5 7 11 5 3 8 39
19,5 - 24,5 3 5 8 4 5 9 34
24,5 - 34,5 1 0 3 4 14 11 33
Total 27 27 40 27 25 38 184

a. Compare la dispersión de la Radiación Solar Global diaria entre las dos zonas.

b. La RSG diaria es óptima si es al menos de 20 watts/m 2.


Cuando la temperatura diaria es de por lo menos 11 grados Celsius. ¿En qué
porcentaje de esos días la Radiación Solar Global es óptima en la zona 1?

UNIDAD 1 Página 67
Ejercicio V-7 (Evaluación 2020-2)

La siguiente información corresponde a parte de un estudio que se realizó en


Estados Unidos, que tiene como objetivo analizar la utilidad anual en dólares por
tarjeta de crédito, emitidas por cierta empresa.
En el estudio se consideraron:
Muestra 1: 50 tarjeta de personas titulares, con ingreso anual inferior a 35000
US$.

Muestra 2: 30 tarjetas de personas titulares, con ingreso anual igual o superior a


35000 US$.

Datos de la muestra 1
Utilidad (US $) N° de tarjetas de crédito
-
200 - -100 4
-
100 - 0 6
0 - 100 10
100 - 200 15
200 - 300 8
300 - 400 7
Total 50

Datos de la muestra 2
Utilidad (US $)
-89 140 120 362 227 465 153 367 -120 269
80 83 190 242 147 191 159 209 213 376
335 60 206 505 96 74 229 -79 93 139

5.a. Determine en cada muestra el porcentaje de las tarjetas de crédito cuya


utilidad supera el promedio anual de la empresa, de acuerdo a la información
entregada.
5.b. Compare e interprete, en el contexto del problema, la dispersión de las
utilidades en las tarjetas de crédito, entre personas con ingreso anual inferior
a 35000 US$ y con ingresos anual igual o superior a US$ 35000. Indique cuál
distribución es más homogénea.

UNIDAD 1 Página 68
jercicio V-8 (Evaluación 1 2020-1)
El producto estrella de la Fábrica A, de iluminación, es una ampolleta LED de 10 w que
según el fabricante, sus ampolletas superan en duración el funcionamiento ininterrumpido al
modelo similar de otra Fabrica B, mucho más barato.
Para comparar la duración de ambas ampolletas, en el laboratorio de iluminación de la fábrica
A, probaron muestras de 30 ampolletas de cada fabricante, los resultados en meses se
muestran a continuación:

Fábrica A
Duración en meses de las ampolletas LED de 10 w
46,2 42,9 40,4 45,4 46,7 43,6 39,9 46,0 40,2 44,3
46,5 49,3 53,3 44,5 42,5 45,5 47,3 43,9 45,7 47,9
50,2 45,5 52,7 48,4 50,4 45,9 40,1 41,8 44,0 53,4

Fábrica B
Duración en meses de las ampolletas LED de 10 w
35,6 35,7 36,1 37,1 37,2 37,3 37,4 38,3 38,3 39,1
39,1 39,5 39,6 39,9 40,0 40,4 40,7 40,7 40,8 41,1
41,4 41,8 42,0 42,2 44,1 44,2 45,9 46,2 47,9 50,1

A usted como estudiante en práctica en la fábrica A, le asignaron la tarea de realizar el


análisis exploratorio de datos, que permita comparar las ampolletas de ambas
fábricas, su informe debe contener:

i. Definición y clasificación según tamaño del recorrido y nivel de medición de la


variable de interés, indicando unidad de información.

ii. Las medidas de tendencia central y de dispersión. Interpretación en el contexto


del problema.
iii. Análisis de existencia de datos atípicos según regla de Tukey.

iv. Presentación y organización de los datos en una tabla de frecuencias y


construcción de un gráfico adecuado (comience el primer intervalo en 35,5; con
amplitud de las clases de 3 meses.

v. Conclusión final del análisis descriptivo de datos.

UNIDAD 1 Página 69
Ejercicio V-9 (Evaluación 1 2021-1)
El costo mensual en mano de obra, en millones de pesos (MILL $), correspondiente a
35 de las empresas del sector productivo A y a 98 de las empresas del sector
productivo B, en Diciembre 2019, se presenta a continuación:

Tallo Hojas: Costo Mano de Obra (MILL $) Sector A

Frecuencia Tallo y Hojas

2 7. 06
7 8. 1222679
10 9. 2446667788
13 10 . 0011344455679
1 11 . 0
1 12 . 3
1 13 . 0

SECTOR B
Costo (MILL $) Número de empresas
95 – 105 7
105 – 115 23
115 – 125 37
125 – 135 21
135 – 145 10
Total 98

a. Determine porcentaje de las empresas del sector B, cuyo costo mensual en mano
de obra supera al costo medio más una desviación estándar del sector A?
Utilice medidas adecuadas e interprete.
b. Compare la dispersión del costo mensual en mano de obra entre los dos sectores
productivos. Utilice una medida estadística adecuada, interprete y justifique su
elección.
c. Construya el gráfico de cajas, correspondiente al costo mensual en mano de obra,
en mes de diciembre 2019 en sector A. Determine el intervalo que no contiene los
valores atípicos. Justifique su respuesta.

UNIDAD 1 Página 70
Ejercicio V-10 (Evaluación 1 2021-2)

El monto (Y) de las ventas, en millones de pesos (Mill $), en el mes de septiembre 2021,
realizadas por ciertos profesionales de Tecnologías de Información y Comunicaciones (TIC) y
los años (X) de experiencia en las ventas de TIC correspondiente a 200 de dichos profesionales,
se presenta en la distribución de frecuencias conjunta siguiente:

Monto de venta (Y) Años de experiencia como vendedor de TIC (X) Total
(Mill $) <4 4- 7 7 - 10 > 10
12 - 18 5 3 0 0 8
18 - 24 10 6 2 1 19
24 - 30 14 17 10 3 44
30 - 36 10 18 15 13 56
36 - 42 3 15 16 9 43
42 - 48 1 3 8 8 20
48 - 54 0 2 3 5 10
Total 43 64 54 39 200
El ingreso (W) de cada vendedor está determinado por un sueldo base de
$700.000 (0,7 Mill $) más 6% del monto de sus ventas realizadas.
Utilizando propiedades, medidas estadísticas adecuadas y en base a la información disponible:
a. Determine varianza de los ingresos mensuales y además el ingreso mínimo del 32% de
los profesionales que más vendieron en septiembre 2021. Justifique sus respuestas.
b. ¿Qué porcentaje de estos profesionales con menos de 7 años de experiencia laboral en
ventas de TIC, obtuvieron sueldo entre 1,57 Mill $ y 2,95 Mill $ en septiembre 2021?
Justifique su respuesta.
c. Compare el promedio y la dispersión, del monto de las ventas de los vendedores con
menos de 7 años de experiencia en ventas de TIC, con el de los vendedores con siete o
más años de experiencia. Analice e interprete los valores obtenidos.

d. Indique nombre del gráfico que sería adecuado construir para:


d.i) Comparar el Monto de las ventas mensuales entre los vendedores que tienen menos 4
años de experiencia con los que tienen al menos 10 años.
d.ii) Mostrar los años de experiencia de los profesionales que vendieron menos de 30 (Mill
$), en el mes.
Fundamente en cada caso su elección

UNIDAD 1 Página 71
Solución Ejercicio V-10
a)
Variable n Promedio Varianza
Monto de Venta Y 200 33,2100 Mill $ 73,2220 (Mill $)2
Ingreso W= 0,7+0,06*Y 200 2,6926 Mill $ 0,2636 (Mill $)2

2
Varianza de la variable Ingreso : 𝐬𝑊 = 0,2636 (Mill $)2
136−127
P(Y)68 = 36 + 6 ( ) = 37,2558 Mill $ ≡ venta mínima de 32% que más vendieron.
43
El ingreso mínimo del 32% de los profesionales que más vendieron en septiembre2021 es
W= 0,7+0,06*37,2558 ≡ 2,9353 Mill$
b)
X<7
w=1,57 ≡ y= 14,5 w=2,95 ≡ y= 37,5
107𝑝1
Monto (Y) ni Ni −0
Pp1 = 14,5 = 12 + 6 ( 100
) → p1= 3,11526%
8
12 - 18 8 8
107𝑝2
−83
18 - 24 16 24 Pp2 = 37,5= 36 + 6 ( 100
) → p2= 81,7757%
18
24 - 30 31 55 p2 – p1= 78,6604%

30 - 36 28 83 El 78,6604% de los profesionales con menos de 7 años de


36 - 42 18 101 experiencia laboral en ventas de TIC, obtuvieron sueldo
entre 1,57 Mill $ y 2,95 Mill $ en septiembre 2021.
42 - 48 4 105

48 - 54 2 107

Total 107 --
c)
Monto (Y) n Promedio s CV
X<7 107 29,9159 8,0483 0,2690 CVY/ X > 7 < CVY/ X < 7
X>7 93 37,0000 7,5239 0,2033
Los profesionales con 7 o más años de experiencia en ventas de TIC obtuvieron montos de ventas
superiores en promedio y más homogéneos que los montos de ventas de los profesionales con menos
de siete años de experiencia.
Resp d.i: La variable monto es continua y los datos se encuentran agrupados en intervalos, luego para
comparar el Monto de las ventas mensuales entre los vendedores que tienen menos 4 años de
experiencia con los que tienen al menos 10 años de experiencia, en venta de TIC, se puede construir dos
polígonos de porcentuales en un mismo gráfico.
Resp d.ii: El primer intervalo de la variable “años de experiencia en ventas de TIC” se encuentra
abierto, no se puede graficar histograma o polígono de frecuencias, luego se puede construir un gráfico
de barras separadas o sectorial con los 55 profesionales que vendieron menos de 30 Mill $.

UNIDAD 1 Página 72
Ejercicio V-11 (Evaluación 1 2022-1)

La siguiente información corresponde al diámetro, expresado en milímetros, de los productos


fabricados por una industria, para el ensamblaje de cierta pieza.
Se eligen 118 productos fabricados en el Turno I y 82 de los productos fabricados en turno II,
obteniendo

Cantidad de productos
Diámetro (X) Turno I Turno II Total
6,01 – 6,02 5 3 8
6,02 – 6,03 12 10 22
6,03 – 6,05 22 16 38
6,05 – 6,07 30 20 50
6,07 – 6,09 24 18 42
6,09 – 6,10 19 12 31
6,10 – 6,11 6 3 9
Total 118 82 200

Responda en base a la información, utilizando medidas estadísticas adecuadas:


a. Por norma, los productos cuyos diámetros fluctúan entre 6,017 y 6,102 milímetros, son
clasificados como aceptables, el resto de los productos se desechan.
Determine porcentaje del total de los productos, con diámetro considerados aceptable, en la
industria, según la información disponible.

Respuesta: El 93,6% del total de productos, tiene diámetros aceptables


b. ¿En cuál de los Turnos la distribución del diámetro de los productos fabricados es más
homogénea? Justifique su respuesta.

Respuesta: CVT1= 0,0043, CVT2= 0,0042, luego, se desprende que la distribución de diámetros es más
homogénea, en el turno 2, al tener menor Coeficiente de variación, en relación a la distribución de los
diámetros de los productos fabricados en el turno 1.

UNIDAD 1 Página 73
Ejercicio V-12 (PEP 1 2022-2)

La siguiente distribución de frecuencias conjuntas, se obtuvo en una muestra de 100


semanas de trabajo, en una empresa manufacturera

Y: Relación de X: Producción semanal, en toneladas


productividad 200-400 400-600 600-800 800-1000 TOTAL
0,6 - 0,8 6 3 0 0 9
0,8 -1,0 8 8 6 1 23
1,0 - 1,2 3 8 10 10 31
1,2 - 1,4 0 5 8 13 26
1,4 - 1,6 0 0 2 9 11
TOTAL 17 24 26 33 100
𝑪𝒂𝒏𝒕𝒊𝒅𝒂𝒅 𝒅𝒆 𝒆𝒎𝒃𝒂𝒓𝒒𝒖𝒆𝒔
*Relación de productividad =
𝑪𝒐𝒔𝒕𝒐 𝒅𝒆 𝒎𝒂𝒏𝒐 𝒅𝒆 𝒐𝒃𝒓𝒂 𝒅𝒊𝒓𝒆𝒄𝒕𝒂+𝑪𝒐𝒔𝒕𝒐 𝒅𝒆 𝒎𝒂𝒏𝒐 𝒅𝒆 𝒐𝒃𝒓𝒂 𝒊𝒏𝒅𝒊𝒓𝒆𝒄𝒕𝒂+𝑪𝒐𝒔𝒕𝒐 𝒅𝒆 𝒎𝒂𝒕𝒆𝒓𝒊𝒂𝒍

a. Cuando la producción es inferior a 800 toneladas , ¿entre que valores se ubica la


relación de productividad, del 40% de las semanas con mayor relación de
productividad, según la información disponible.
Resp. entre 1,0876 y 1,6

b. Compare la dispersión de la relación de productividad de semanas con menos de 600


toneladas producidas, con la de semanas de 600 o más toneladas producidas. Indique
cuál distribución es más homogénea. (Utilice medias estadísticas adecuadas).

Resp. CV(Y/ X > 600) = 0,1520 < CV(Y/ X < 600) = 0,1993
La relación de productividad de las semanas en que se producen 600 o más unidades
producidas es más homogéneo, ya que su coeficiente de variación es menor

c. Analice la posible asociación lineal entre la producción semanal de al menos 400


toneladas con la Relación de productividad cuando fluctúa entre 0,8 y menos de 1,4.
Interprete el valor obtenido.

Resp. r = 0,34605

UNIDAD 1 Página 74
Ejercicio V-13 (PEP 1 2023-1)

La información que se presenta, es parte de un estudio de la cantidad (X) de horas anuales de trabajo
perdidas por accidentes laborales, en empresas con presencia y carencia de programas de seguridad.
Para este estudio se seleccionaron 160 de las empresas: 65 empresas que no tienen un programa activo
de seguridad y 95 empresas que si tienen un programa activo de seguridad.
La información reunida durante un año en estas empresas es la siguiente:
Programa de seguridad = No Programa de seguridad = Si
Cantidad de horas de trabajo perdidas

Media 83,80496
Mediana 87
Moda 80
Varianza de la muestra 982,9581
Cuartil 1 54,9037
Cuartil 3 111,8073
n 95
Mínimo 20
Máximo 135

a. Compare, analice e interprete, promedio anual de horas de trabajo perdidas por accidentes
laborales y la dispersión, entre estos dos tipos de empresas, utilizando medidas adecuadas.

b. En cada una de estos dos tipos de empresas, determine entre qué valores se ubica la cantidad
de horas anuales de trabajo perdidas por accidentes laborales del 25% de las empresas con
más perdidas horas de trabajo perdidas.

UNIDAD 1 Página 75

También podría gustarte