Documentos de Académico
Documentos de Profesional
Documentos de Cultura
UNIDAD 1 Página 2
Introducción
Qué es la Estadística:
Actualmente la Estadística es una ciencia que:
proporciona procedimientos precisos para obtener información* (recogida
y descripción de datos).
proporciona métodos para el análisis de la información y posteriores
inferencias.
¿Por qué hay que estudiar Estadística en Ingeniería o en carreras de
Ciencias?
La principal razón es que el rol más destacado de la Estadística es la
recopilación, presentación, análisis e interpretación de un conjunto de datos, a
partir de los cuales se obtienen conclusiones y se toman decisiones.
Saber Estadística es de gran utilidad en cualquier área del conocimiento y en
particular en Ingeniería o en Ciencia.
Ejemplos:
- Estudios de fatiga de metales.
- Fiabilidad de máquinas herramientas.
- Estudios de corrosión.
- Diseño y desarrollo y mejora en los proceso productivos como control de
calidad, control de la variabilidad del proceso, …
- Estudios de materiales en cuanto a duración, dureza, elasticidad, ….
- Control de inventarios, con la estadística se analiza la tendencia de flujo de
ciertos materiales y ciertos productos.
- Determinar la longitud promedio de los tiempos muertos en un PC.
- Analizar si el nivel de plomo en el suministro de agua potable se encuentra
dentro de los estándares de seguridad.
- Evaluar la efectividad de productos comerciales
- ………
UNIDAD 1 Página 3
La Estadística posee un conjunto de técnicas que se emplean para la recopilación,
organización, presentación, análisis e interpretación de los datos para tomar decisiones y
resolver problemas, la estadística se puede clasificar como:
Tiene como objetivo, describir, representar y extraer
Estadística
conclusiones sobre una muestra de datos o de la población
descriptiva de interés (Población≡ conjunto de todos los elementos de interés) .
Mide la incertidumbre, deduce las leyes que rigen a los
Probabilidad fenómenos que se investigan.
Es la herramienta a partir de la que se desarrolla la
inferencia estadística
La inferencia estadística es un conjunto de procedimientos, que
Estadística consisten en utilizar los resultados de una muestra (subconjunto
representativo de la población) para llegar a conclusiones acerca
Inferencial de las características de la población (requiere cálculo de
probabilidades)
CONCEPTOS FUNDAMENTALES
Población: Conjunto total de objetos u unidades que son de interés para un
problema dado. Los objetos pueden ser personas, animales, productos fabricados,
etc. Cada uno de ellos recibe el nombre de ELEMENTO O INDIVIDUO O UNIDAD
DE OBSERVACIÓN.
Tamaño población: N unidades (si es finita)
- Todos los estudiantes de nuestra universidad
- Todas las personas activa en Chile (población activa)
- Todos los libros en una biblioteca
UNIDAD 1 Página 4
Censo: estudio que considera la población de interés
Población Estadística: es el conjunto de todas las mediciones correspondientes
a cada unidad de la población, acerca de la cual se busca información.
A las medidas de resúmenes poblacionales como la media poblacional μ,
desviación estándar poblacional σ, …, se les denominan parámetros.
Un PARÁMETRO es cualquier medida de resumen de una población.
Ejemplo: El ingreso medio (o ingreso promedio) de todos los trabajadores de la fábrica
AB es $800.000,0.
µX = 800.000 $ (X = Ingreso)
UNIDAD 1 Página 5
Ejemplo: En la población de estudiantes de Ingeniería de una universidad,
son variables: Especialidad, Edad (años) ….
Distinguiremos:
Datos primarios
Son aquellos que el investigador obtiene directamente de la realidad, recolectándolos
con sus propios instrumentos.
Datos secundarios
Son registros escritos que proceden también de un contacto con la práctica,
pero que ya han sido elegidos y procesados por otros investigadores.
Las fuentes son información de datos secundarios deben ser fidedignas.
Los datos primarios y secundarios no son dos clases esencialmente diferentes
de información, sino partes de una misma secuencia: todo dato secundario ha
sido primario en sus orígenes, y todo dato primario, a partir del momento en
que el investigador concluye su trabajo, se convierte en dato secundario para
los demás.
UNIDAD 1 Página 6
Clasificación de variables
Para realizar un análisis de datos, es indispensable saber cómo es la variable
que consideramos, pues ello determina el tipo de método estadístico que se
debe utilizar. Las variables se clasifican:
Según su naturaleza
UNIDAD 1 Página 7
Según el nivel de medición
La medición es el proceso mediante el cual se les asignan valores numéricos
o categóricos a objetos siguiendo unas determinadas reglas. Los instrumentos
que se utilizan para llevar a cabo tal medición se les denominan escalas de
medición. El criterio utilizado convencionalmente para clasificar las escalas de
medida es el propuesto por Stevens (1946), quien establece cuatro tipos de
escala: nominal, ordinal, de intervalo y de razón.
Ejemplos
Factor RH
Únicamente permiten
establecer relaciones de Positivo (1)
igualdad/desigualdad Negativo (2)
entre los objetos que se
están midiendo. PROFESIÓN:
Ingeniero (1)
NO INDICA ORDEN O Profesor (2)
JERARQUÍA Médico (3)
RAZÓN
INTERVALAR
ORDINAL
UNIDAD 1 Página 8
Ejemplo
Además de permitir relaciones
NIVEL EDUCACIONAL:
de igualdad /desigualdad,
permite establecer relaciones Univ. con doctorado (5)
de orden (mayor o menor que) Univ. con Magister (4)
Superior (3)
entre los objetos que se están
Media (2)
midiendo.
Básica (1)
EXISTE UN ORDEN O
JERARQUÍA
RAZÓN
INTERVALAR
NOMINAL
RAZÓN
ORDINAL
NOMINAL
Al igual que los dos tipos de escalas anteriores (nominal u ordinal), esta escala permite
establecer relaciones de igualdad /desigualdad y de orden entre los objetos que se miden.
Los intervalos entre los números de la escala son iguales, por lo tanto se puede realizar las
operaciones suma y resta. Este tipo de escala carece de un cero absoluto, por lo que no
están permitidas ni la multiplicación ni la división entre los números de la escala. Una
escala de intervalo es, por ejemplo, la utilizada para medir la temperatura en °C. Como los
intervalos de la escala son iguales, se puede afirmar que la diferencia de temperatura que
existe entre 25 y 28 grados es la misma que existe entre 30 y 33 grados. Sin embargo,
dado que el punto 0 de la escala es arbitrario -no existe ausencia de temperatura- no se
puede afirmar, por ejemplo, que 20 grados es exactamente la mitad de 40 grados.
UNIDAD 1 Página 9
INTERVALAR
ORDINAL
NOMINAL
VI VD
Independiente Dependiente
Introduce o manipula el Se observa y se miden los
investigador cambios
Interviniente
Es la que puede mediar en la
relación entre VI y VD y que
puede influir en los resultados
Ejemplo: Los hábitos de estudios influyen en el rendimiento académico de los
Estudiantes
VD = Rendimiento académico VI = hábitos de estudio
V interv. = Aptitud personal, Nivel nutricional, …
UNIDAD 1 Página 10
Ejercicios I
Ejercicio I-1. Se quiere analizar el número de horas de estudio semanal que dedican los o
las estudiantes de postgrado del área Ingeniería de esta Universidad. Para ello se
selecciona a 50 estudiantes que están participando en postgrado.
Indique cual es la:
Unidad de observación, población, población estadística, muestra y la variable de interés.
Ejercicio I-2. El coeficiente intelectual (CI) promedio en la población adulta chilena es 100
puntos. Un investigador educacional está interesado en probar que las personas adultas
que hablan más de un idioma tienen un CI superior a la media poblacional.
En una muestra de 250 personas que hablan más de un idioma se obtuvo un promedio
(CI medio) de 102.
Complete:
Clasificación de la variable
Variable
Naturaleza Recorrido N_Medición
Ejercicio I-3. ¿Qué situaciones se representan estadísticamente con una variable discreta
y cuáles con una variable continua?
a) El Número diario de defectuosos en la fabricación de cierto producto.
b) Los Tipos de defectos encontrados mensualmente en la fabricación de cierto producto
c) El Tiempo de vida de las unidades que se fabrican
d) El Nivel de satisfacción de clientes de un banco
e) El Tiempo que transcurre desde que llega un pedido hasta que llega el siguiente
f) Esfuerzo de ruptura de vigas de concreto
Ejercicio I-4. En el departamento de personal de una empresa con 10.000 trabajadores/as
se quiere estimar sus gastos familiares en salud para determinar la posibilidad de
proporcionarles un plan de seguro médico.
Si el gasto mensual (miles $) en salud entre 10 elegidos al azar fue:
71 234 159 549 329 134 112 275 204 116
n x i n
Calcule e interprete xi
i 1
i=1
n
= Calcule x
i 1
2
i
UNIDAD 1 Página 11
Ejercicio I-5. La siguiente información corresponde al peso en kg y la estatura en cm de 10
empleados públicos varones:
sujeto 1 2 3 4 5 6 7 8 9 10
Estatura (X) 172 175 168 173 159 166 176 180 179 168
Peso (Y) 78 75 70 68 44 66 72 98 70 74
n 10 x i n 10 y i
Interprete x
i 1
i i=1
n
= y
i 1
i i=1
n
=
n 10 n 10 n=10
Calcule x i2
i 1
i 1
y i2 xy=
i=1
i i
Ejercicio I-6. Cierto tipo de resistencias de película de óxido metálico son agrupadas en
paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el número de
resistencias que no cumplían con las especificaciones, resultando la siguiente tabla
N° de resistencia defectuosas en cada paquete 0 1 2 3 4 5 6 Total
Cantidad de paquetes (ni) 5 10 16 15 9 3 2 60
7 x n i i
Tamaño de la muestra: n = Determine e interprete: x i ni
i 1
i 1
n
UNIDAD 1 Página 12
Estadística Descriptiva Univariada← ¿qué dicen los datos?
Organización de los datos
La estadística descriptiva, entrega las técnicas que permiten condensar grandes
grupos de datos mediante el uso de tablas de frecuencias, gráficos y medidas
de resumen como media, desviación estándar, correlación.
Nota: Para resumir los datos siempre hay que tener en cuenta de qué tipo es la variable
que queremos analizar
Datos “en bruto” o directos
Cuando la información es recolectada, sea de una muestra o de una población,
esta se organiza en la secuencia en que fue obtenida. Esta secuencia de datos
registrados se encuentra desorganizada, lo que no permite extraer información
fácilmente, siendo difícil detectar cualquier patrón de variabilidad o estructura de
los datos.
Datos en bruto: Datos registrados en la secuencia en que fueron recolectados, antes de
ser procesados u ordenados.
UNIDAD 1 Página 13
Ejemplo: El reporte de la inspección final del defecto principal de 150 productos
rechazados de la línea de armado A12 se muestra en la tabla siguiente:
Defecto principal del producto
Defecto principal en línea de armado A12
Rayado Manchado Manchado Manchado Manchado (150 productos examinados)
Abollado Rayado Astillado Doblado Manchado Defecto del
Astillado Rayado Rayado Manchado Rayado producto Frecuencia Porcentaje
Abollado 8 5,3
Astillado Manchado Astillado Manchado Manchado
Astillado 23 15,3
Otros Manchado Astillado Astillado Abollado
Doblado 12 8,0
Manchado Doblado Manchado Rayado Astillado
Manchado 56 37,3
Rayado Manchado Rayado Manchado Manchado Otros 6 4,0
Astillado Manchado Rayado Abollado Manchado Rayado 45 30,0
Doblado Manchado Manchado Manchado Astillado Total 150 100,0
Rayado Rayado Manchado Manchado Doblado
Rayado Astillado Manchado Doblado Abollado
Manchado Rayado Manchado Astillado Manchado 60
56
Manchado Otros Manchado Astillado Rayado
50
Otros Astillado Otros Rayado Doblado
45
8
Doblado Manchado Astillado Manchado Rayado 6
UNIDAD 1 Página 14
Tabla de distribución de frecuencias de una variable cualitativa
Defectos_Linea A12
Frecuencia Frecuencia Relativa Porcentaje
Defecto principal absoluta %
n
del producto ni fi = i
n
Abollado 8 0,053 05,33
Astillado 23 0,153 15,33
Doblado 12 0,080 08,00
Manchado 56 0,373 37,33
Rayado 45 0,300 30,00
Otros 6 0,040 04,00
Total 150 1,00 100%
Obs: La tabla debe contener frecuencia relativa o porcentaje
Frecuencia absoluta (ni): Número de veces que ocurre la modalidad i. i = 1,2, …,k
Frecuencia relativa (fi): Es la proporción de la categoría o modalidad respecto del
total de datos.
0 < fi < 1 ; i = 1,2, …,k
UNIDAD 1 Página 15
Diagrama de Pareto
Herramienta básica de la mejora de calidad. Muy útil para priorizar los problemas o las
causas que los generan.
Su fundamento parte de considerar que un pequeño porcentaje de las causas producen
la mayoría de los efectos. Se tratar de identificar ese pequeño porcentaje de causas
“vitales” para actuar prioritariamente sobre él.
Defecto principal del producto en línea de armado A12
UNIDAD 1 Página 16
Descripción estadística de una variable cuantitativa
Caso: Variables discretas
Tabla de frecuencias
0 1 0 0 2
2 1 3 1 1 Cantidad Frecuencia
de (N° de Porcentaje
0 1 1 3 1 averías centrales) Porcentaje acumulado
2 0 0 0 1 0 13 32,5 32,5
0 0 1 1 0 1 13 32,5 65,0
3 1 1 1 0 2 8 20,0 85,0
3 5 12,5 97,5
0 2 3 4 2
4 1 2,5 100,0
2 0 3 2 2
Total 40 100,0
N° de averías
Gráfico n Válidos 40
Perdidos 0
14 13 13 Media 1,20
Mediana 1,00
12
Moda 0a
Desv. típ. 1,114
10
Asimetría ,637
8
Error típ. de asimetría ,374
Recuento
8
Curtosis -,445
6 5 Error típ. de curtosis ,733
Mínimo 0
4 Máximo 4
Percentiles 25 ,00
2 1
50 1,00
75 2,00
0 a. Existen varias modas. Se mostrará el menor de los
0 1 2 3 4
N° de averías
valores.
Centrales eléctricas (40). Febrero 2023 Centrales eléctricas (40). Febrero 2023
UNIDAD 1 Página 17
CONSTRUCCIÓN DE TABLAS DE FRECUENCIAS Y GRÁFICOS
Variables cuantitativas discretas
UNIDAD 1 Página 18
Ejemplo 3: Nota de Estadística. 400 estudiantes. Semestre 2 - 2022
Tabla de frecuencias
Nota de Estadística
Porcentaje
Frecuencia Porcentaje acumulado
Válidos 1- 2 30 7,5 7,5
2- 3 53 13,3 20,8
3- 4 74 18,5 39,3
4- 5 96 24,0 63,3
5- 6 86 21,5 84,8
6- 7 61 15,3 100,0
Total 400 100,0
Semestre 2 - 2022
Gráficos
Nota de Estadística
Semestre 2 - 2021
Histograma
100 96
86
80
74
61
Frecuencia
60
53
40
30
20
Medidas de resumen
0
1,0 2,0 3,0 4,0 5,0 6,0 7,0
Nota
Nota de Estadística
Semestre 2 - 2022
UNIDAD 1 Página 19
TABLAS DE FRECUENCIAS Y GRÁFICOS
Variables cuantitativas continuas
Ejemplo 4 (variable contínua): En marzo. 2022 se recolectó información sobre la edad
(en años) de 50 estudiantes seleccionados de una casa de estudio superior. El valor de
los datos, en el orden en que fueron recolectados se presenta a continuación.
21 24 29 26 36
18 19 19 25 25
25 31 23 23 23
22 21 22 21 19
25 18 27 21 21
19 25 34 27 33
20 22 19 22 23
19 19 18 19 26
28 20 22 20 21
23 36 23 25 24
UNIDAD 1 Página 20
Los intervalos de clase se leen Edad n° de alumnos
14 alumnos con edades entre 18 y menos de 21 años 18 – 21 14
17 alumnos con edades entre 21 y menos de 24 años 21 – 24 17
24 – 27 10
27 – 30 4
30 – 33 1
4 alumnos con edades entre 33 y 36 años 33 – 36 4
Total = 50
20
k puede ser cualquier constante, en
17
la práctica se suele utilizar k=1, por lo
15
14 tanto, se puede utilizar en las alturas
de los rectángulos
𝐟𝐢
10
10
hi = ≡ densidad
𝒂𝒊
- Si los intervalos de clase tienen
5
distintas amplitud, se debe utilizar la
4 4
densidad para graficar el histograma
1
- Si todos los intervalos de clase
0
15 18 21 24 27 30 33 36 39 tienen la misma amplitud, se puede
Edad
graficar las alturas de los rectángulos
Muestra de 50 estudiantes de una universidad (marzo 2022)
con las frecuencias absolutas o
relativas o densidad.
Un histograma es un gráfico que da una idea de la “forma o estructura” de los datos de una variable,
indicando las regiones donde los puntos están concentrados y las regiones donde son escasos.
UNIDAD 1 Página 21
Del ejemplo edad:
Tabla de frecuencias (todos los intervalos tienen amplitud 3)
Edad Frec. Absoluta Frec. Relativa Densidad
ni fi fi / amplitudi
18 – 21 14 0,28 0,0933
21 – 24 17 0,34 0,1133
24 – 27 10 0,20 0,0667
27 – 30 4 0,08 0,0267
30 – 33 1 0,02 0,0067
33 – 36 4 0,08 0,0267
50 1,00
frecuencia relativa
Densidad =
amplitud
UNIDAD 1 Página 22
Aunque no es común tener clases o intervalos de distintas amplitud, algunas
veces se utilizan cuando alguna clase la frecuencia absoluta es cero o con muy
pocas unidades de observación.
TABLA DE DISTRIBUCIÓN DE FRECUECIA E HISTOGRAMA CON INTERVALOS DE CLASE CON
DISTINTA AMPLITUD
Ejemplo: Los datos que se muestran en la tabla de frecuencias, corresponden a
las ventas mensuales de n= 1000 empresas de cierto sector.
Ventas Amplitud de cada Frec. Absoluta Frec. Relativa
mensuales intervalo ni fi fi
(Millones $) ai densidadi =
ai
0 – 50 50 100 0,10 0,002
50 – 100 50 250 0,25 0,005
100 – 200 100 400 0,40 0,004
200 – 400 200 200 0,20 0,001
400 – 800 400 50 0,05 0,000125
1000 1,00
UNIDAD 1 Página 23
El propósito de la densidad es ajustar la frecuencia relativa con el ancho de la
clase. Al dividir la frecuencia relativa con el ancho de la clase se ajusta esta
tendencia.
Formas de histogramas
Un histograma puede asumir diferentes formas. Las más comunes son: simétricos,
asimétricos y uniforme o rectangular.
Simétrico Asimetría Positiva Asimetría Negativa
10 10
10
Simétrica
8 8
8
6
6 6
4
4 4
2
2 2
0
0 0
2.5 7.5 12.5 17.5 22.5 27.5 32.5
2.5 7.5 12.5 17.5 22.5 27.5 32.5 2.5 7.5 12.5 17.5 22.5 27.5 32.5
X
x X
Polígono de frecuencias
Gráfico alternativo al histograma
Los polígonos de frecuencias se realizan trazando los puntos formados por las marcas
de clase y las frecuencias, y uniéndolos mediante segmentos.
20
17
15
14
10
10
5
4 4
0 0
0
15,0 16,5 18,0 19,5 21,0 22,5 24,0 25,5 27,0 28,5 30,0 31,5 33,0 34,5 36,0 37,5 39,0
Edad
UNIDAD 1 Página 24
OTROS GRÁFICOS
DIAGRAMA DE PUNTOS (caso: pocos datos)
30 30 60 63 70 79 87 90 101
105 112 115 119 119 125 125 125 138
148 168 178 184 202 214 221 275
GRAFICO DE TENDENCIA
Variación porcentual =
Final
- 1 100
Inicial
UNIDAD 1 Página 25
Ejercicios II
En cada uno de los siguientes ejercicios debe indicar cuál es: unidad de observación, la
variable de interés y clasificarla según naturaleza, T_recorrido , N_medición y según
función cuando corresponda (variable dependiente – variable independiente.
Ejercicio II-1
En un centro de computación, el número de veces que el computador se detiene, por error
de máquina, diariamente, fue recolectado por un período de 70 días. Los datos obtenidos
fueron los siguientes.
Nº de detenciones del computador por día.
0 0 2 0 0 0 3 3 0 0 1 0 0 0
1 8 5 0 0 4 3 0 6 2 0 2 3 0
0 3 1 1 0 1 0 1 1 0 2 2 1 0
2 2 0 0 0 1 2 1 2 0 0 5 2 1
0 1 6 4 3 3 1 2 4 0 2 0 0 4
Ejercicio II-2
Un fabricante de envases de plástico desea analizar cuáles son las causas principales que
generan envases defectuosos que se producen. Se observan 248 envases defectuosos
obteniendo:
Diagrama de Pareto
99,60% 100,00%
100 97,18% 100%
92,34%
80 76,61% 80%
60,48%
Porcentaje
Frecuencia
60 60%
40 40%
20 20%
0 0%
Aplastamiento Desbalanceo Rotura Rosca Fuera de Color
medida
Defectos
UNIDAD 1 Página 26
Ejercicio II-3
Con el propósito de mejorar el tiempo de entrega desde una embotelladora de refrescos a máquinas
vendedoras de una universidad, se ha obtenido 40 datos.
X:Tiempo de entrega en minutos
9,45 9,45 9,60 10,02 10,30 11,66 14,38 14,88 16,86 16,97
17,08 17,73 17,89 21,15 21,65 21,84 22,13 24,35 24,45 24,45
24,45 25,02 29,41 31,75 33,66 34,93 35,00 37,00 37,10 37,50
39,73 41,95 44,29 44,88 46,59 54,12 55,12 56,63 56,63 69,45
Organice los datos en una tabla de frecuencias con igual amplitud y confecciones un gráfico
adecuado
Frecuencia Absoluta (ni) Porcentaje
Tiempo de entrega (min) xi
9,45 - 19,45 14,45 13 32,5
Ejercicio II-4
En el desarrollo de un nuevo producto alimenticio se desea comparar el efecto del tipo de
envase sobre la vida de anaquel1 del producto. Para ello existen dos tipos de envases: envase
D, fabricado por la industria DIKA y el envase L fabricado por la industria LOGE. Para decidir
cuál utilizar, envasaron el producto alimenticio en 10 envases de la industria DIKA y en otros 10
envases de la Industria LOGE. Las duración del producto en cada envase se muestra a
continuación:
Duración del producto (días)
Envase D 31 36 34 24 30 28 34 29 31 24
Envase L 38 43 40 46 38 39 43 41 37 45
1
Vida de anaquel de un alimento: tiempo en el cual éste conservará sus propiedades fisicoquímicas,
organolépticas y nutricionales.
UNIDAD 1 Página 27
Estadística Descriptiva Bivariada
Tablas - Gráficos
Los datos que tratamos de analizar pueden incluir valores de dos variables relacionadas
entre sí, por lo que es interesante su estudio conjunto.
Los elementos de una muestra o de una población pueden clasificarse con dos criterios
o variables diferentes.
Observación: Se pueden analizar en forma conjunta más de dos variables.
UNIDAD 1 Página 28
Ejemplo ii) Se desarrollan dos métodos para fabricar discos de un material
superconductor. Se elaboran 50 discos con cada método y se
comprueba su superconductividad al enfriarlos con nitrógeno líquido.
Superconductores
Fallas Total
(Sin fallas)
Método 1 31 19 50
Método 2 42 8 50
Total 73 27 100
UNIDAD 1 Página 29
Caso 2: Una variable cuantitativa y una variable cualitativa (grupo)
Tabla de de distribución de frecuencias (si n es grande)
Gráficos adecuados:
- Diagrama de puntos paralelos (muestras pequeñas)
- Diagramas de cajas paralelas (datos directos, es un gráfico
basado en los cuartiles de Tukey)
- Polígonos de frecuencias en un mismo gráfico (hay que tener los
datos tabulados en intervalos, para comparar los grupos es
conveniente utilizar porcentaje)
Ejemplo: Los datos que se muestran a continuación son los grados de dureza
Brinell obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
UNIDAD 1 Página 30
Resistencia Marca de Empresa
(en Newton) clase
Alfha Delta %A %D
Y yi
10,00 – 10,25 10,125 2 0 4,17 0
10,25 – 10,50 10,375 12 17 25,00 22,97
10,50 – 10,75 10,625 14 25 27,17 33,78
10,75 – 11,00 10,875 11 11 22,92 14,86
11,00 – 11,25 11,125 5 9 10,42 12,16
11,25 – 11,50 11,375 4 9 8,83 12,16
11,50 – 11,75 11,625 0 3 0 4,05
UNIDAD 1 Página 31
Caso 3: Dos variables cuantitativas.
Objetivo: Analizar existencia de relación lineal.
Ejemplo: La tabla siguiente presenta la estatura en cm. y el peso en kg. de una
muestra aleatoria de 22 estudiantes
El primer paso de todo análisis estadístico es dibujar los datos para
Peso Estatura
Sujeto tener una idea intuitiva de la relación:
Y X
1 82 185 Diagrama de dispersión Simple (Estatura y Peso)
2 75 185
90
3 70 180
4 68 178 85
5 44 159 80
6 66 172 75
7 72 176 70
8 85 183
65
9 70 179
60
10 75 186
11 58 169 55
12 69 172 50
13 68 176
PESO
45
14 75 174 40
150 155 160 165 170 175 180 185 190 195 200
15 70 177
16 68 170 ESTATURA
17 57 161 En el gráfico se observa una relación aproximadamente
18 63 170 lineal (asociación lineal directa)
19 80 190
20 70 172
21 54 162
22 54 165
Ejercicios 1
1. El ingeniero a cargo del control de calidad del agua de una ciudad, es responsable
del nivel de cloración del agua. Dicho nivel debe cumplir con lo que exige el
Departamento de Sanidad (entre 0,2 y 2,0 mg/L). Para vigilar el cloro, sin necesidad
de verificar toda el agua que sale de la planta, el ingeniero diariamente toma 30
muestras de agua en envases iguales que cumplen con la norma de nuestro país,
mide la concentración residual de cloro y saca una conclusión sobre el nivel
promedio de cloración que tiene el agua tratada ese día. La tabla anexa exhibe las
concentraciones de cloro correspondiente a cierto día. A partir de los datos
obtenidos el ingeniero obtiene sus conclusiones respecto a la población total a la
que se le aplicó la cloración.
UNIDAD 1 Página 32
Tabla de Concentraciones residuales
de Cloro (mg/L) Diagrama de “tallo-hojas”
Stem-and-Leaf Plot
1,62 1,57 1,64 1,54 1,64 1,5.8 1,60 1,52 Frequency Stem & Leaf
1,57 1,66 1,58 1,62 1,59 1,59 1,56 1,58
1,61 1,59 1,60 1,56 1,63 1,68 1,59 1,63 ,00 15 .
1,70 1,56 1,60 1,68 1,60 1,63 1,00 15 . 2
1,00 15 . 4
5,00 15 . 66677
Construya una tabla completa de 7,00 15 . 8889999
distribución de frecuencias y un gráfico 5,00 16 . 00001
5,00 16 . 22333
(histograma o polígono de frecuencias) 2,00 16 . 44
1,00 16 . 6
Utilice 6 intervalos de clases 2,00 16 . 88
1,00 17 . 0
X: Conc. Cloro xi ni fi Ni Fi
mg/L
30 1
Total 30 1
UNIDAD 1 Página 33
2. La siguiente tabla corresponde a los resultados de una escala de
responsabilidad que fue aplicada a una muestra de 200 profesionales de
nuestro país:
2.a) Si se clasifica como "muy
Puntaje ni Fi Ni %
responsable" a toda persona con
acumulado
más de 75 puntos. ¿Qué
00 - 20 2
porcentaje de profesionales
20 - 30 8 evaluados son clasificados como
30 - 40 17 muy responsable?
40 - 50 34
50 - 60 41 2.b) Si se quiere seleccionar al 25% de
60 - 70 57 los profesionales evaluados con
70 – 80 23 mayor puntaje, indique el
80 - 90 12 intervalo donde se encuentra
90-100 6 puntaje que realiza el corte para
200 la clasificación.
> puntaje → > responsabilidad
UNIDAD 1 Página 34
Medidas de Resumen
Entre las medidas que permiten describir en forma resumida datos provenientes
de una población o una muestra de esa población, podemos considerar: medidas
de posición (ubicación), de dispersión o variabilidad, de forma y de asociación
Medidas de posición: Tendencia Central - Percentiles
UNIDAD 1 Página 35
frecuencia, no es un valor exacto porque varía con las diferentes maneras de agrupar
una distribución.
Ejemplo: El sueldo mensual de un grupo de trabajadores textiles se distribuye como
indica la tabla a continuación.
En este caso la moda es 725.000 pesos, por ser el punto medio del intervalo más
frecuente.
A menudo encontramos distribuciones bimodales (con dos modas).
Limitación de la moda: no sabemos qué ocurre con el resto de la distribución de
datos.
x i
x1 +x 2 +x 3 ...+x N total
i 1
N N N
x n i i
x i 1
donde xi representa el valor de la variable si es discreta o
n
la marca de clase si los datos están agrupados en k intervalos.
UNIDAD 1 Página 37
Ejemplo: Datos agrupados en intervalos
X = Sueldo mensual
n Total = xini x
i
72800
90 72800 = 728 ≡ $728000
100
Propiedades de la media aritmética o promedio aritmético:
i. mínimo < x < máximo
ii. El promedio de una constante es la constante. (demostración tarea)
iii. Si a los valores de una variable se les suma una constante, el promedio aumenta en
esa misma magnitud. (demostración tarea)
iv. Si los valores de una variable son multiplicados por una constante, el promedio se
amplificarán en la misma magnitud constante.
v. Si Y = a + bX Y = a + bX ; a, b ctes.
n
vi. (x i -x) 0
i=1
vi
n
vii. (xi - a)2 es mínima cuando a = x
i=1
Del ejemplo anterior: Si a los trabajadores de la empresa textil le aumentan el sueldo en:
Complete
Caso 1 $150.000,0 Caso 2 15% Caso 3 10% + un bono
Sueldo actual
fijo de $80.000
Y(C1) = X + 50 Y(C2) = 1,15X Y(C3) = 1,1X + 30
x = 728 (miles $)
y C1 = y C2 = y C3 =
Y = Sueldo aumentado
UNIDAD 1 Página 38
Mediana (Me)
Mediana: es un valor tal que, ordenados en magnitud los n datos de una
variable X, el 50% es menor o igual que ella, y el 50% es mayor o igual.
UNIDAD 1 Página 39
Comparación entre Promedio, Mediana y Moda
Desde un punto de vista descriptivo las tres medidas proporcionan
información complementaria, sus propiedades son distintas:
Estadísticos de tendencia central Observaciones
- El nivel de medición de la
variable X sea por lo menos en
escala de intervalos.
n - La media es muy sensible
Media xi cuando existen datos atípicos
aritmética total
x= i =1
= o extremos.
x n n - Es preferible utilizar el promedio
aritmético como medida de
resumen si los datos son
homogéneos.
- La mediana utiliza menos
Es un valor tal que, ordenados información que la media, ya
en magnitud los n datos de que solo tiene en cuenta el
una variable X, el 50% es orden de los datos y no su
menor o igual que ella, y el magnitud, por lo tanto, para
Mediana 50% es mayor o igual. poder calcular la mediana el
Me nivel de medición de la variable
X debe ser por lo menos en
escala ordinal.
- La mediana se ve menos
alterada por los datos atípicos o
extremos.
- Para el cálculo de la moda la
variable puede tener cualquier
nivel de medición, luego es la
Moda Es el valor de la variable que
única medida de tendencia
Mo ocurre más frecuentemente
central que se puede calcular si
el nivel de medición de la
variable X es en escala nominal.
x Mediana asimetría, lo que sugiere heterogeneidad en los datos.
en este caso la Mediana es la medida de tendencia central
adecuada para resumir los datos.
UNIDAD 1 Página 40
Simétrica Asimetría positiva Asimetría Negativa
10
10
Simétrica 8
10
8
6
8
6
4 6
4
4
2
2
2
0
2.5 7.5 12.5 17.5 22.5 27.5 32.5
0
0
2.5 7.5 12.5 17.5 22.5 27.5 32.5 X 2.5 7.5 12.5 17.5 22.5 27.5 32.5
x X
Ejercicios III
Ejercicio III-1
Un fabricante de un dispositivo para cierto artículo electrónico informa en su propaganda
que la vida útil de su producto es superior a 5 años.
Una muestra aleatoria de 140 unidades vendidas hace 10 años, reveló la siguiente
distribución de las duraciones:
Duración Frecuencia
0- 2 20
2–4 30
4–6 35
6–8 32
8 – 10 23
Total 140
a. Determine la duración promedio.
b. ¿Qué porcentaje de unidades duraron más de 5 años?
Ejercicio III-2
En la fabricación de semiconductores, a menudo se utiliza una sustancia química para quitar el
silicio de la parte trasera de las obleas antes de la metalización. En este proceso es importante la
rapidez con la que actúa la sustancia. Se han comparado dos soluciones químicas, utilizando para
ello dos muestras de obleas para cada solución. La rapidez (Y) de acción observada es la siguiente
Solución 1: 9,9 9,4 9,3 9,6 10,2 10,6 10,3 10,0 10,3 10,1
Solución 2: 10,2 10,6 10,7 10,4 10,5 10,0 10,2 10,7 10,4 10,3
UNIDAD 1 Página 41
b. Complete el cuadro siguiente (realice comentarios):
Solución n yi Promedio Mediana
i
1
2
Ejercicio III-3
Media Ponderada o Promedio Ponderado
Sean x1 ,x2,....,xn , n datos y sea los número w1 ,w2,....,wn, los pesos correspondiente a
cada xi i = 1,2,....n; con a lo menos un wi > 0. Entonces el promedio ponderado de los
Promedio =
Ejercicio III-4
Promedio estratificado
n x
i=1
i i
x estr = =
n
UNIDAD 1 Página 42
Cuartiles – Quintiles – Deciles - PERCENTILES
Son medidas estadísticas de ubicación.
p% (100 - p)%
| | |
x(1) Pp x(n)
Mín Máx
UNIDAD 1 Página 43
84 52 85 61 74 77 65 63 57 64 72 55 68 76
Diagrama de puntos
Un diagrama de puntos es un gráfico que se puede utilizar para tener una impresión
aproximada de la forma de los datos observados. Es útil cuando el tamaño de la muestra no es
demasiado grande.
Cálculo percentiles Pp
En la definición de percentil en un conjunto de datos “es el valor tal que el p% de los
datos es menor o igual que él y el (100 – p)% de los datos es superior o igual a él”,
puede que ningún valor cumpla exactamente la definición. Existen diversas formas de
interpolar para el cálculo del Pp, en este curso vamos a utilizar el método AEMPIRAL
explicado en la página 22 de texto “Probabilidad y Estadística”. Douglas C. Montgomery
y George C. Runger (1996)
1ro) Se ordenan los n datos de menor a mayor
np
2do) Pp es el valor que ocupa el lugar j = . El método AEMPIRAL asigna la media
100
de x(j) y x(j+1) cuando j es un número entero, y asigna el valor que ocupa la
np
posición siguiente a la parte entera de j cuando j = es un número decimal
100
aproximados.
Mediante interpolación lineal en el gráfico de frecuencias acumulada (ojiva) se
llega a la fórmula del percentil Pp.
UNIDAD 1 Página 44
np - Nj-1
Pp se encuentra en
np
el
100 intervalo j → lugar
Pp = liminf j +amplitudj 100
nj liminfj = valor inferior de
intervalo j
Nj-1 frec. Abs. acumulada
anterior al intervalo j
nj= frecuencia absoluta del
Ejemplo: cálculo percentil 50 (mediana) intervalo j
Intervalo j
UNIDAD 1 Página 45
OJIVA (POLÍGONO DE FRECUENCIAS ACUMULADAS)
Interpolando
Linealmente
Puntaje
P50 [25, 30) ← 25 es el límite inferior del intervalo j
30 – 25 = 5 es la amplitud del intervalo j
intervalo j
Hay 14 sujetos (frec, abs.) con puntaje en el intervalo j
frec. abs. acumulada anterior al intervalo j es 15
La fórmula que entrega la interpolación lineal para el cálculo de percentiles con
datos agrupados en intervalos reales es:
Se utiliza
np
100 - Nj-1
cuando no se
tienen los datos
Pp = liminf j +amplitudj de cada unidad
nj de observación,
es decir, no se
tienen los datos
directos
Aplicando la fórmula de percentil para datos agrupados
20 15
P50 25 5 26,79 puntos
14
Interpretación: …………………………….
- Suponga que al 10% de los puntajes más altos pasan a una segunda etapa,
¿a partir de qué puntaje se va a realizar el corte para seleccionar a dichos
sujetos?
RI = Q3 – Q1
30 30 60 63 70 79 87 90 101
102 115 118 119 120 120 125 140 145
172 182 183 191 222 244 291 511
Percentiles
25 50 75 RI 1,5*RI
Bisagras de Tukey Cantidad de contaminación por aluminio (ppm) 87,00 119,50 182,00 95 142.5
119+120
Me= = 119,5 Q1(Tukey) ≡ 87 Q3(Tukey) ≡ 87
2
UNIDAD 1 Página 47
Diagrama de caja de caja de la variable:
“cantidad de contaminación por aluminio (ppm) en plástico de cierto tipo”
UNIDAD 1 Página 48
Los diagramas de ambos grupos muestran que los puntajes se distribuyen simétricamente
respecto al 5, pero en el grupo 1 existe una menor dispersión que en el grupo 2, es decir, los
grupos tienen igual promedio pero la variabilidad de los puntajes respecto a la media es distinta.
Las medidas de variabilidad indican la dispersión de los datos obtenidos por los sujetos o las
unidades de medición. Cuando los datos están con baja dispersión se dice que es homogéneo.
Cuando están altamente dispersos se dice que es heterogéneo.
Las medidas de dispersión más utilizadas son las siguientes:
Amplitud o rango o recorrido, rango intercuartílico, desviación estándar,
varianza y coeficiente de variación.
Rango o recorrido: Es la distancia en la escala de medidas entre los valores
mayor y menor. Rango = valor máximo – valor mínimo
En el grupo 1: rango es 7 – 3 = 4 y en el grupo 2 rango es 9 – 1 = 8 lo que implica que el
segundo grupo tiene puntajes más dispersos.
El rango utiliza poco debido a marcada inestabilidad. Si hay un valor extremo en la distribución
se tendrá la impresión de que la dispersión es grande, cuando en realidad si omitiésemos ese
valor podríamos concluir que es una distribución compacta.
Rango Intercuatílico (RI): se define como la diferencia entre el tercer y el primer
cuartel, RI = Q3 – Q1, es la longitud del 50% central de la distribución de datos
Q3 = P75 Q1 = P25
UNIDAD 1 Página 49
El cuadrado de la desviación estándar s2, se denomina varianza.
n
(x i x) 2
s2 i 1
n
N
(xi μ)2
Notación de la varianza poblacional σ 2 i 1
N
= media de la población N = tamaño de la población
Observación:
En la casi todos textos actuales de Estadística la fórmula de la
varianza (s2) de una muestra representativa de una población
viene dada por:
n Llamada varianza corregida o cuasivarianza y
(xi -x)2 se utiliza en Inferencia Estadística como la
s2 = i=1 estimación de la varianza poblacional 2, es la
n -1 fórmula que vamos a utilizar en este curso
como varianza muestral
n 2
n
xi
n 2 i=1
(xi -x)2 x -
i
n
s =
2 i=1 i=1
n -1 n-1
Del ejemplo Puntaje de un Test:
Grupo 1 Grupo 2
x x-x (x - x) 2 x x-x (x - x) 2
3 -2 4 1 -4 16
4 -1 1 2 -3 9
4 -1 1 3 -2 4
5 0 0 4 -1 1
5 0 0 5 0 0
5 0 0 5 0 0
5 0 0 6 1 1
6 1 1 7 2 4
6 1 1 8 3 9
7 2 4 9 4 16
Total 50 0 12 50 0 60
UNIDAD 1 Página 50
Desviación Varianza
Grupo n Promedio estándar
50 12
1 10 5 ptos = 1,1547 ptos (1,1547)2
10 9
50 60
2 10 5 ptos = 2,5820 ptos (2,5820)2
10 9
Se observa que ambos grupos tienen igual promedio pero los datos del grupo dos tienen mayor
dispersión o variabilidad.
k
xi ni
k 2 i=1
(xi -x)2 ni x ni -
i
n
Varianza: s = 2 i=1
= i=1
n -1 n-1
Desviación estandar
k 2
k
xi ni
k 2 i=1
(xi -x)2 ni x i ni -
n
s= i=1
= i=1
n -1 n -1
UNIDAD 1 Página 51
Ejemplo: Cierto tipo de resistencias de película de óxido metálico son agrupadas
en paquetes de 50 unidades. Se seleccionaron 60 paquetes y se contó el
número de resistencias que no cumplían con las especificaciones, resultando la
siguiente tabla
X = N° de resistencia defectuosas en cada paquete
X ni xi ni (x i - x)2 n i
0 5 0 31,25
1 10 10 22,50
2 16 32 4,00
3 15 45 3,75
4 9 36 20,25
5 3 15 18,75
6 2 12 24,50
Total n = 60 150 125,00
150 125
x= s2 = = 2,119 ← varianza
60 59
Desviación estándar s = varianza
= 2,119 1,456
Del ejemplo de resistencia de película de óxido metálico, es más cómodo utilizar los
xn x n
2
totales i i
= 150 ; i = 500
i
(150)2
500
s 60 1,456
59
Pero es mucho más rápido el cálculo con el modo estadístico de la calculadora.
Ejercicio : El óxido de azufre es un gas que tiene efectos nocivos en la salud humana, vegetal
y en otros materiales, este se produce por combustión de carbón y petróleo y por la metalurgia.
En una estación de monitoreo de un complejo metalúrgico se realizan mediciones diarias del
óxido de azufre (ug/m2), que emanan de los procesos. La norma indica que la cantidad máxima
de óxido de azufre permitida es 300 (ug/m2). Al tomar una muestra de 120 de dichas
mediciones, se obtuvo:
X: Cantidad de
200 - 240 240 - 280 280 - 320 320 - 360 360 - 400 400 - 440 440 - 480
óxido de azufre
N° de días 8 14 18 44 17 13 6
UNIDAD 1 Página 52
Coeficiente de variación (CV):
Es una medida relativa de variabilidad
sX
CVX =
|x|
sujeto 1 2 3 4 5 6 7 8 9 10
X: Estatura (cm.) 172 175 168 178 159 166 176 180 179 171
Y: Peso (kg.) 78 75 70 68 44 66 72 95 70 74
Para analizar cuál distribución de datos es más homogénea, se debe determinar los
coeficientes de variación de cada variable
UNIDAD 1 Página 53
Ejercicios IV
Ejercicio IV-1
Se analizan dos catalizadores para determinar la forma en que afecta el rendimiento de un proceso
químico. El catalizador 1 es el que se viene empleando en la fábrica y se quiere averiguar si se
puede sustituir por el catalizador 2, más barato, pero que, según el fabricante provoca un descenso
del rendimiento. Se llevan a cabo 24 reacciones obteniendo para cada catalizador los rendimientos
en porcentaje:
Y = rendimiento (%) y i y 2
i
Catalizador i i
UNIDAD 1 Página 54
Ejercicio IV-3
Los datos que se muestran a continuación son los grados de dureza Brinell
obtenidos para muestras de dos aleaciones de magnesio:
Y = grado de dureza Brinell
Aleación 1 66,3 63,5 64,9 61,8 64,3 64,7 65,1 64,5 68,4 63,2
Aleación 2 71,3 60,4 62,6 63,9 68,8 70,1 64,8 68,9 65,8 66,2
COMPLETE E INTERPRETE
Percentiles (bisagras de tukey)
ALEACION 25 50 75 RI 1,5·RI (P25 – 1,5RI, P75 + 1,5RI)
1 63,5 64,6 65,1 1,6 2,4 (61,1 ; 67,5)
2 63,9 66,0 68,9
UNIDAD 1 Página 55
Ejercicio IV-4 (PEP)
Una industria metalúrgica compra grandes cantidades de alambre de acero en
rollos de 150 metros, hasta la fecha esta compra la realiza en la empresa Alfha,
otra empresa llamada Delta quiere también vender sus productos y hace una oferta
bastante interesante porque el precio de cada rollo es muy inferior.
Sin embargo es importante considerar la resistencia (Y) a la tracción. Por ello se
toman muestras al azar de rollos de acero provenientes de ambas empresas.
Los resultados se presentan en la tabla siguiente:
Respuesta: _______________
UNIDAD 1 Página 56
Ejercicio IV-5
Un Gerente de producción de una gran industria automovilística norteamericana cree
que los trabajadores de la planta A hacen un promedio salarial por hora menor con una
mayor variabilidad que los trabajadores de la planta B. Muestras de 12 trabajadores de
la planta A y 10 trabajadores de la planta B dieron los siguientes valores:
Salario (um ) por hora de un trabajador (Y)
Planta A (1) 12,2 18,2 19,4 15,3 18,6 16,4 15,5 18,7 17,1 18,3 14,5 15,8
Planta B (2) 15,1 14,8 16,9 17,2 18,2 18,5 18,7 19,3 19.2 19,8
a. ¿Apoyan los datos al Gerente de producción? (utilice medidas de resumen)
Planta n Promedio Desv. Estandar C.V.
A
B
b. Corrobore la conclusión de (a) con Box-Plots paralelos (diagrama de caja)
c. Si a los trabajadores se les aumenta el sueldo hora de la siguiente forma:
A 5% + 0.8 um
B 1,5 um
Ejercicio IV-6
La velocidad máxima de circulación permitida para automóviles en un tramo determinado de
cierta autopista es de 75 km/h, debido a trabajos de reparación de pavimento. Para una muestra
seleccionada aleatoriamente de 32 automóviles, el radar señaló las siguientes velocidades en
km/hr., en este tramo:
X = velocidad de circulación de automóviles
x1 = 79 (y1 = 1) 71 68 77 86 71 69 72
x2 = 82 (y2 =1) 60 65 75 67 74 80 81
x3 = 66 (y3 = 0) 72 63 78 63 74 61 64
x4 = 60 (y4 = 0) 64 79 62 65 66 73 73
UNIDAD 1 Página 57
n
yi
i =1
Determine e interprete el valor de ≡
n
c. Muestre la información de la variable Y en un gráfico adecuado.
(𝑥 − 𝑀𝑜𝑑𝑎)
CAP =
𝑠
UNIDAD 1 Página 58
Descripción conjunta de dos variables cuantitativas
Es frecuente que se pueda determinar el grado de relación entre 2 (o más)
variables cuantitativas, ya que al tener este conocimiento, se puede predecir una
variable a partir de la otra.
Para expresar cuantitativamente el grado en que dos variables están
relacionadas, es necesario calcular un coeficiente de correlación.
Coeficiente de correlación lineal poblacional : ρ
Coeficiente de correlación lineal muestral: r
Un coeficiente de correlación para variables cuantitativas: es un número
que indica el grado de asociación y la dirección de esa asociación. Indica
cómo varía o cambia una característica cuando la otra característica o
variable asociada cambia.
Sin el conocimiento de cómo una cosa varía con otra sería imposible hacer
predicciones. La predicción sólo es posible basándose en el conocimiento de la
relación que hay entre 2 variables.
Un coeficiente de correlación lineal (con variables por lo menos intervalar) nos
proporciona 3 datos principales:
- La existencia o no de una relación entre las variables estudiadas.
- La dirección de la relación.
- El grado de esta relación.
Como por ejemplo:
estatura y peso
el ingreso familiar y los gastos en educación
Para el cálculo de “r” (correlación muestral) es preciso tener 2 conjuntos de
medidas de los mismos individuos (o parejas de individuos que tengan alguna
forma de relación)
Tabla de datos:
UNIDAD 1 Página 59
Ejemplos
UNIDAD 1 Página 60
d) Un caso de alta correlación lineal negativa (-0,758) (relación inversa)
X Y
12 5
10 3
9 1
8 5
7 7
7 12
6 10
5 9
4 13
2 11
El signo algebraico del coeficiente de correlación tiene que ver, por lo tanto, con
la dirección de relación entre dos cosas, ya sea directa o inversa.
Significado de la correlación
El valor de la correlación puede variar desde -1 (lo que indica correlación
negativa perfecta), pasando por el 0 (que indica ninguna relación), hasta +1
(que significa perfecta correlación positiva)
La magnitud se relaciona con la intensidad o estrechez de la relación.
(x -x)(y -y)
Covarianza de una muestra representativa de la
i i población objeto, indica la dirección de la relación.
sxy i 1
X e Y variables cuantitativas
n -1
COVARIANZA
n n
x i yi
(x i -x)(yi -y) x i yi - i=1 i=1
n n
n
sxy i=1 = i=1
n -1 n-1
UNIDAD 1 Página 61
Ejemplo:
sujeto x y (x - x ) (y - y ) (x - x )2 (y - y )2 (x - x )(y - y )
1 13 11 5,5 3 30,25 9 16,5
2 12 14 4,5 6 20,25 36 27
3 10 11 2,5 3 6,25 9 7,5
4 10 7 2,5 -1 6,25 1 -2,5
5 8 9 0,5 1 0,25 1 0,5
6 6 11 -1,5 3 2,25 9 -4,5
7 6 3 -1,5 -5 2,25 25 7,5
8 5 7 -2,5 -1 6,25 1 2,5
9 3 6 -4,5 -2 20,25 4 9
10 2 1 -5,5 -7 30,25 49 38,5
Total 75 80 124,5 144 102
promedio x =7,5 y = 8,0
Desviación estándar de X: sx = (x - x) 2
124,5
3,719
n-1 9
Desviación estándar de Y: s y = (y - y) 2
144
4,000
n-1 9
11,333
Coeficiente de correlación lineal de Pearson: rxy = 0,762
(3,719)(4,000)
Interpretación: _________________________________________
UNIDAD 1 Página 62
Ejercicios V (varios)
Ejercicio V-1
Para determinada tarea en una fábrica, donde se necesita mucha destreza, se quiere
investigar si “la productividad en el trabajo debe ser mayor al aumentar los años de
experiencia laboral”. Se seleccionaron al azar diez empleados de entre lo que tienen ese
trabajo. Los datos de años de experiencia y medición de productividad son los siguientes:
Empleado 01 02 03 04 05 06 07 08 09 10
Años de experiencia laboral 4 6 10 2 12 6 5 10 13 9
Productividad 80 82 88 81 92 85 83 86 91 90
Realice el diagrama de dispersión, calcule e interprete el coeficiente r de Pearson.
Ejercicio V-2
El ingeniero a cargo de la producción de cierto tipo de rodamientos esféricos de 100 mm
de diámetro del agujero, debe realizar un análisis estadístico descriptivo con el objeto de
verificar que el proceso de producción entregue rodamientos con diámetros adecuados, es
decir, entre 99 mm y 101 mm para que no presenten dificultad en su uso. Se midieron 85
rodamientos de la producción de cierto día y se anotó la variación (X), en milímetros, del
diámetro respecto a 100 mm, los datos obtenidos se presentan a continuación:
Variación (X) del diámetro Cantidad de
de rodamientos de 100 mm rodamientos
-1,3 < X < -0,9 4
-0,9 < X < -0,5 8
-0,5 < X < -0,1 17
-0,1 < X < 0,3 32
0,3 < X < 0,7 15
0,7 < X < 1,1 6
1,1 < X < 1,5 3
Total 85
¿usted está de acuerdo con los resultados del ingeniero? Justifique su respuesta con las
medidas estadísticas adecuadas.
UNIDAD 1 Página 63
Ejercicio V-3
Una Compañía petrolera informó al Subcomité de Contaminación Ambiental sobre la
eficiencia de un nuevo filtro para reducir la emisión de gases contaminantes en
automóviles. Una de las desventajas de este nuevo filtro es que aumenta el nivel de
ruido producido por el automóvil.
La Compañía petrolera solicitó un estudio para ver la factibilidad de utilizar el nuevo
filtro, para lo cual seleccionaron una muestra representativa de 120 automóviles con
características similares y a 60 de ellos les instaló el nuevo filtro.
Las mediciones del nivel de ruido resultantes, en decibeles, en los automóviles con y
sin el nuevo filtro, se muestran en el siguiente gráfico:
UNIDAD 1 Página 64
Ejercicio V-4 (PEP)
En una planta embotelladora de bebidas de fantasía, utilizan envases fabricados con 2
tipos de plástico biodegradable, de similares condiciones. ( A y B ).
Con muestras de 25 botellas fabricadas con cada tipo de plástico se midió la resistencia
(en psi). Algunos resultados parciales se encuentran a continuación:
b. Determine para cada tipo de envase entre que valores (psi) se encuentran el 50% de
las botellas con mayor resistencia
A 182 185 189 190 195 196 197 199 201 202 202 202 202 203 204 … 225
B 171 173 178 183 184 189 192 192 193 … 224
UNIDAD 1 Página 65
Ejercicio V-5 (PEP1 2019-1)
- De los tornillos que tienen un diámetro de paso igual o superior a 5,002 cm, el
porcentaje de tornillos que tengan un diámetro mayor superior a 12,028 sea
menor de 63%.
b. Para los pernos con Diámetro mayor entre 12,01 y 12,04. ¿Es posible
concluir, con una medida adecuada, que las variables en estudio están
asociadas linealmente? Interprete la fuerza de dicha asociación.
UNIDAD 1 Página 66
Ejercicio V-6 (PEP1 2016-2)
a. Compare la dispersión de la Radiación Solar Global diaria entre las dos zonas.
UNIDAD 1 Página 67
Ejercicio V-7 (Evaluación 2020-2)
Datos de la muestra 1
Utilidad (US $) N° de tarjetas de crédito
-
200 - -100 4
-
100 - 0 6
0 - 100 10
100 - 200 15
200 - 300 8
300 - 400 7
Total 50
Datos de la muestra 2
Utilidad (US $)
-89 140 120 362 227 465 153 367 -120 269
80 83 190 242 147 191 159 209 213 376
335 60 206 505 96 74 229 -79 93 139
UNIDAD 1 Página 68
jercicio V-8 (Evaluación 1 2020-1)
El producto estrella de la Fábrica A, de iluminación, es una ampolleta LED de 10 w que
según el fabricante, sus ampolletas superan en duración el funcionamiento ininterrumpido al
modelo similar de otra Fabrica B, mucho más barato.
Para comparar la duración de ambas ampolletas, en el laboratorio de iluminación de la fábrica
A, probaron muestras de 30 ampolletas de cada fabricante, los resultados en meses se
muestran a continuación:
Fábrica A
Duración en meses de las ampolletas LED de 10 w
46,2 42,9 40,4 45,4 46,7 43,6 39,9 46,0 40,2 44,3
46,5 49,3 53,3 44,5 42,5 45,5 47,3 43,9 45,7 47,9
50,2 45,5 52,7 48,4 50,4 45,9 40,1 41,8 44,0 53,4
Fábrica B
Duración en meses de las ampolletas LED de 10 w
35,6 35,7 36,1 37,1 37,2 37,3 37,4 38,3 38,3 39,1
39,1 39,5 39,6 39,9 40,0 40,4 40,7 40,7 40,8 41,1
41,4 41,8 42,0 42,2 44,1 44,2 45,9 46,2 47,9 50,1
UNIDAD 1 Página 69
Ejercicio V-9 (Evaluación 1 2021-1)
El costo mensual en mano de obra, en millones de pesos (MILL $), correspondiente a
35 de las empresas del sector productivo A y a 98 de las empresas del sector
productivo B, en Diciembre 2019, se presenta a continuación:
2 7. 06
7 8. 1222679
10 9. 2446667788
13 10 . 0011344455679
1 11 . 0
1 12 . 3
1 13 . 0
SECTOR B
Costo (MILL $) Número de empresas
95 – 105 7
105 – 115 23
115 – 125 37
125 – 135 21
135 – 145 10
Total 98
a. Determine porcentaje de las empresas del sector B, cuyo costo mensual en mano
de obra supera al costo medio más una desviación estándar del sector A?
Utilice medidas adecuadas e interprete.
b. Compare la dispersión del costo mensual en mano de obra entre los dos sectores
productivos. Utilice una medida estadística adecuada, interprete y justifique su
elección.
c. Construya el gráfico de cajas, correspondiente al costo mensual en mano de obra,
en mes de diciembre 2019 en sector A. Determine el intervalo que no contiene los
valores atípicos. Justifique su respuesta.
UNIDAD 1 Página 70
Ejercicio V-10 (Evaluación 1 2021-2)
El monto (Y) de las ventas, en millones de pesos (Mill $), en el mes de septiembre 2021,
realizadas por ciertos profesionales de Tecnologías de Información y Comunicaciones (TIC) y
los años (X) de experiencia en las ventas de TIC correspondiente a 200 de dichos profesionales,
se presenta en la distribución de frecuencias conjunta siguiente:
Monto de venta (Y) Años de experiencia como vendedor de TIC (X) Total
(Mill $) <4 4- 7 7 - 10 > 10
12 - 18 5 3 0 0 8
18 - 24 10 6 2 1 19
24 - 30 14 17 10 3 44
30 - 36 10 18 15 13 56
36 - 42 3 15 16 9 43
42 - 48 1 3 8 8 20
48 - 54 0 2 3 5 10
Total 43 64 54 39 200
El ingreso (W) de cada vendedor está determinado por un sueldo base de
$700.000 (0,7 Mill $) más 6% del monto de sus ventas realizadas.
Utilizando propiedades, medidas estadísticas adecuadas y en base a la información disponible:
a. Determine varianza de los ingresos mensuales y además el ingreso mínimo del 32% de
los profesionales que más vendieron en septiembre 2021. Justifique sus respuestas.
b. ¿Qué porcentaje de estos profesionales con menos de 7 años de experiencia laboral en
ventas de TIC, obtuvieron sueldo entre 1,57 Mill $ y 2,95 Mill $ en septiembre 2021?
Justifique su respuesta.
c. Compare el promedio y la dispersión, del monto de las ventas de los vendedores con
menos de 7 años de experiencia en ventas de TIC, con el de los vendedores con siete o
más años de experiencia. Analice e interprete los valores obtenidos.
UNIDAD 1 Página 71
Solución Ejercicio V-10
a)
Variable n Promedio Varianza
Monto de Venta Y 200 33,2100 Mill $ 73,2220 (Mill $)2
Ingreso W= 0,7+0,06*Y 200 2,6926 Mill $ 0,2636 (Mill $)2
2
Varianza de la variable Ingreso : 𝐬𝑊 = 0,2636 (Mill $)2
136−127
P(Y)68 = 36 + 6 ( ) = 37,2558 Mill $ ≡ venta mínima de 32% que más vendieron.
43
El ingreso mínimo del 32% de los profesionales que más vendieron en septiembre2021 es
W= 0,7+0,06*37,2558 ≡ 2,9353 Mill$
b)
X<7
w=1,57 ≡ y= 14,5 w=2,95 ≡ y= 37,5
107𝑝1
Monto (Y) ni Ni −0
Pp1 = 14,5 = 12 + 6 ( 100
) → p1= 3,11526%
8
12 - 18 8 8
107𝑝2
−83
18 - 24 16 24 Pp2 = 37,5= 36 + 6 ( 100
) → p2= 81,7757%
18
24 - 30 31 55 p2 – p1= 78,6604%
48 - 54 2 107
Total 107 --
c)
Monto (Y) n Promedio s CV
X<7 107 29,9159 8,0483 0,2690 CVY/ X > 7 < CVY/ X < 7
X>7 93 37,0000 7,5239 0,2033
Los profesionales con 7 o más años de experiencia en ventas de TIC obtuvieron montos de ventas
superiores en promedio y más homogéneos que los montos de ventas de los profesionales con menos
de siete años de experiencia.
Resp d.i: La variable monto es continua y los datos se encuentran agrupados en intervalos, luego para
comparar el Monto de las ventas mensuales entre los vendedores que tienen menos 4 años de
experiencia con los que tienen al menos 10 años de experiencia, en venta de TIC, se puede construir dos
polígonos de porcentuales en un mismo gráfico.
Resp d.ii: El primer intervalo de la variable “años de experiencia en ventas de TIC” se encuentra
abierto, no se puede graficar histograma o polígono de frecuencias, luego se puede construir un gráfico
de barras separadas o sectorial con los 55 profesionales que vendieron menos de 30 Mill $.
UNIDAD 1 Página 72
Ejercicio V-11 (Evaluación 1 2022-1)
Cantidad de productos
Diámetro (X) Turno I Turno II Total
6,01 – 6,02 5 3 8
6,02 – 6,03 12 10 22
6,03 – 6,05 22 16 38
6,05 – 6,07 30 20 50
6,07 – 6,09 24 18 42
6,09 – 6,10 19 12 31
6,10 – 6,11 6 3 9
Total 118 82 200
Respuesta: CVT1= 0,0043, CVT2= 0,0042, luego, se desprende que la distribución de diámetros es más
homogénea, en el turno 2, al tener menor Coeficiente de variación, en relación a la distribución de los
diámetros de los productos fabricados en el turno 1.
UNIDAD 1 Página 73
Ejercicio V-12 (PEP 1 2022-2)
Resp. CV(Y/ X > 600) = 0,1520 < CV(Y/ X < 600) = 0,1993
La relación de productividad de las semanas en que se producen 600 o más unidades
producidas es más homogéneo, ya que su coeficiente de variación es menor
Resp. r = 0,34605
UNIDAD 1 Página 74
Ejercicio V-13 (PEP 1 2023-1)
La información que se presenta, es parte de un estudio de la cantidad (X) de horas anuales de trabajo
perdidas por accidentes laborales, en empresas con presencia y carencia de programas de seguridad.
Para este estudio se seleccionaron 160 de las empresas: 65 empresas que no tienen un programa activo
de seguridad y 95 empresas que si tienen un programa activo de seguridad.
La información reunida durante un año en estas empresas es la siguiente:
Programa de seguridad = No Programa de seguridad = Si
Cantidad de horas de trabajo perdidas
Media 83,80496
Mediana 87
Moda 80
Varianza de la muestra 982,9581
Cuartil 1 54,9037
Cuartil 3 111,8073
n 95
Mínimo 20
Máximo 135
a. Compare, analice e interprete, promedio anual de horas de trabajo perdidas por accidentes
laborales y la dispersión, entre estos dos tipos de empresas, utilizando medidas adecuadas.
b. En cada una de estos dos tipos de empresas, determine entre qué valores se ubica la cantidad
de horas anuales de trabajo perdidas por accidentes laborales del 25% de las empresas con
más perdidas horas de trabajo perdidas.
UNIDAD 1 Página 75