Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Civil, electrónica y
mecatrónica
CURSO : ESTADÍSTICA
CÓDIGO : MA444
ÁREA : CIENCIAS
CICLO : 2020-02
MA44 Estadística 2
TABLA DE CONTENIDO
1.1 Estadística......................................................................................................................................... 5
Estadística descriptiva ............................................................................................................................................. 5
Estadística inferencial .............................................................................................................................................. 5
1.3 Variables........................................................................................................................................... 9
Clasificación de variables ......................................................................................................................................... 9
Escalas de medición de las variables ..................................................................................................................... 11
UPCPC
MA44 Estadística 3
2.13 Otros modelos de probabilidad aplicados en la teoría de la confiabilidad e hidrología ........................... 110
Distribución Exponencial 𝒕~𝑬𝒙𝒑𝒐𝒏𝒆𝒏𝒄𝒊𝒂𝒍 (𝜷) ............................................................................................... 111
UPCPC
MA44 Estadística 4
UPCPC
MA44 Estadística 5
Estadística descriptiva
Es la rama de la Estadística que se dedica al análisis, descripción y representación de un
conjunto de datos. Obteniéndose conclusiones sobre las características de dicho conjunto.
Estadística inferencial
Es la rama de la Estadística que desarrolla los procesos de estimación, análisis y pruebas de
hipótesis de un conjunto de datos extraídos de una muestra, con el propósito de llegar a
tener conclusiones acerca de una población.
UPCPC
MA44 Estadística 6
Población (N)
Es un conjunto de elementos, (personas, objetos, etc.), que tienen una o más características
observables que se pueden medir en ellos.
Elemento
(unidad
elemental)
Población Todos
Muestra Un subconjunto
Elemento Un
UPCPC
MA44 Estadística 7
Ejemplo
Para conocer la opinión que tienen los estudiantes de ingeniería sobre el servicio que ofrece el
Centro de Información, se puede considerar como población a todos los estudiantes de
ingeniería de la UPC matriculados en el semestre anterior.
Ejemplo
Para conocer la opinión que tienen los estudiantes de ingeniería acerca del servicio que ofrece
el Centro de Información, se puede considerar como elemento a un estudiante de ingeniería de
la UPC matriculado en el presente semestre académico.
Ejercicios
UPCPC
MA44 Estadística 8
Encuesta de vivienda
1. Tiempo de antigüedad de la vivienda
• Menos de 10 años
• Entre 10 y 20 años
• Más de 20 años
Población: __________________________________________________________________
Muestra: ___________________________________________________________________
UPCPC
MA44 Estadística 9
Clasificación de variables
Variable cualitativa
Es la característica cuyos valores se expresan en escala nominal u ordinal. Por ejemplo,
carreras universitarias, materiales de construcción y tipos de resistencias.
Variable cuantitativa
Es la característica cuyos valores se expresan en escala de intervalo o de razón. Se dividen
en discretas y continuas
UPCPC
MA44 Estadística 10
Ejemplo
a. Ing. Civil
b. Ing. Electrónica categorías de la variable (Alternativas)
c. Ing. mecatrónica
a. Primaria
d. Secundaria categorías de la variable
b. Superior
c. Post grado
Z= número de hermanos
Tipo de variable: Cuantitativa discreta
X= Año de nacimiento
Tipo de variable: Cuantitativa discreta
Escala: intervalo (el calendario de todos no es lo mismo)
X= Temperatura (°C)
Tipo de variable: Cuantitativa continua
X= edad de tu hijo
Ejemplo
1. Complete lo solicitado:
Y= Carrera profesional
Escala: …………………………………………………………………………………………………………………………………..
UPCPC
MA44 Estadística 12
N° de barra: ___________
UPCPC
MA44 Estadística 13
Población
Muestra
Identifique las
características e
indique el tipo y la
escala de medida
Ejercicios
UPCPC
MA44 Estadística 14
Población:
Tipo de servicio
• Años de construcción.
• Tipo de vivienda (1 = Cemento, 2 = Adobe, 3 = Quincha, 4: Material prefabricado)
• Número de habitaciones por vivienda.
• Área del terreno en donde se construyó la vivienda.
a. De acuerdo con el enunciado anterior identifique la población y la muestra.
b. Identifique el tipo y escala de medición de las variables mencionadas.
UPCPC
MA44 Estadística 15
Material de la tubería
Año de instalación
UPCPC
MA44 Estadística 16
Ejemplo
Muestra
La siguiente base de datos contiene información de una muestra de 10 usuarios de internet de
un determinado distrito de la ciudad capital.
UPCPC
MA44 Estadística 17
Nombre de la medida de
Parámetro Estadístico
resumen
N n
Promedio x i x i
= i =1
x= i =1
mú N n
Moda Mo mo
A a
Proporción p= pˆ =
N n
A= La parte
Ejemplo
UPCPC
MA44 Estadística 18
Ejemplo
UPCPC
MA44 Estadística 19
Ejemplo
Se tiene información para una muestra de instituciones peruanas sobre los dominios de
segundo nivel registrados bajo la categoría .pe.
Título: Distribución de instituciones peruanas según los dominios de segundo nivel registrados
bajo la categoría .pe.
UPCPC
MA44 Estadística 20
Ejemplo
1. La empresa “PC Review – Perú” está interesada en conocer cuál es el programa de Microsoft
Office que más utilizan los empleados de las empresas de la ciudad de Lima. Por tal motivo
se seleccionó una muestra de 500 empleados y se les pidió que indicaran el programa que
más usaba diariamente. La información se presenta a continuación:
Tipo de programa de
Número de empleados (fi) hi = fi/n pi% = hi *100%
Microsoft
Access 50
MS Excel 101
MS Power Point 90
MS Word 113
Outlook 101
Otros 45
Total 500
Fuente: PC-Review-Perú Fuente: Municipalidad distrital
120 Categoría
Access
Ms Excel
Ms Power Point
100
Numero de empleados
Ms Word
Otros
Outlook
80
60
40
20
0
Access Ms Excel Ms Power Point Ms Word Otros Outlook
UPCPC
MA44 Estadística 21
UPCPC
MA44 Estadística 22
Comente
Gráfico de Pareto
El gráfico de Pareto es un gráfico de barras ordenado por frecuencia, en orden descendente.
También se dice, ordenado por orden de prioridad.
Permite mostrar gráficamente el principio de Pareto: “el 80% de los problemas se pueden
solucionar, si se eliminan el 20% de las causas que los originan” (pocos vitales, muchos
triviales). Por ejemplo, en control de calidad, se puede mostrar que la mayoría de los
defectos surgen de un número pequeño de causas.
Este diagrama es un caso particular de gráfico de barras y es utilizado básicamente para:
• Conocer cuál es el factor o los factores más importantes en un problema.
UPCPC
MA44 Estadística 23
Ejercicios
1. La siguiente tabla muestra información sobre los defectos observados con mayor frecuencia
en los puentes vecinales construidos en estructura de madera de cierta localidad del interior
del país:
Distribución de puentes vecinales según defectos observados
Defectos observados fi
Pandeos y rajaduras 40
Pudrimiento de las piezas de madera 30
Efectos del desgaste mecánico 20
Otros 5
Deformaciones 15
Ataques de insectos y crustáceos 10
Acción de fuego 5
Fuente: Municipalidad distrital
Elabore el diagrama de Pareto para identificar qué defectos deben priorizarse en este tipo de
puentes.
UPCPC
MA44 Estadística 24
El Departamento de Control de Calidad tiene por norma priorizar los problemas que resuelvan
alrededor del 80% del total casos. Sin embargo, si estos problemas son más de tres, dicho
departamento ordenará realizar una revisión total del proceso de producción.
estar
3. El jefe de control de calidad de la empresa “Mundo” está interesado en conocer cuáles son
las principales causas que están afectando la producción. Al seleccionar una muestra de 450
artículos fallados obtuvo los siguientes resultados:
ser
Características
Causas que afectan la producción Cantidad
Inestabilidad máquina 56
Cambios ambientales 191
UPCPC
MA44 Estadística 25
Rotura máquina 35
Cansancio operador 11
Desgaste del equipo 3
Desviación del material 5
Fluctuación energía 9
Error de medición 10
Partida fría 8
Rotura de operador 122
Total 450
UPCPC
MA44 Estadística 26
Distribución de los artículos fallados de la empresa Mundo según las causas que afectan
la producción
100.0%
450 89.8% 92.2% 100.0%
300
60.0%
250
42.4%
200 191
40.0%
150 122
100 20.0%
56
50 35 35
11
0 0.0%
Cambios Rotura de Inestabilidad Rotura máquina Cansancio Otros
ambientales operador máquina operador
Solucionamos:
Principal causa
El 80 %
Distribución de …………………………………………………………………………………………………………………..
Problema observado Número de piezas fabricadas
Recalentamiento 3
Corrosión 6
Rajadura 8
Deformación 9
No cumple estándar 4
UPCPC
MA44 Estadística 27
Tabulaciones cruzadas
También llamadas tablas de contingencia o tablas de doble entrada. Se usan para resumir de
manera simultánea los datos de dos variables.
Ejercicio
1. Un estudio realizado por A&C Consultores sobre los tipos de riesgos asociados a las
excavaciones de zanjas y tipo de terreno, arrojó los siguientes resultados en base a una
muestra de 500 obras de construcción:
Distribución de las obras de construcción según tipo de terreno y riesgo más importante
Tipo de riesgo más importante
Tipo de
Caída de
terreno Atrapamiento Derrumbe Inundaciones Otros Total
personal
Roca blanda 27 66 51 9 25 178
Roca dura 15 53 38 3 9 118
Tierra
9 31 17 1 10 68
arcillosa
Tierra fuerte 17 55 36 10 18 136
Total 68 205 142 23 62 500
Fuente: Consultores A&C
• El número de obras de construcción cuyo tipo de terreno son de roca dura y presentan riesgo
de derrumbe es: …………………………………………………………………………………………………………….……
• Del total de obras que presentan riesgo de atrapamiento, el ……………………..…….% son de
tierra fuerte.
• ¿Cuál es el porcentaje de obras de construcción con riesgo de inundación y roca dura? …..….
2. Uno de los requisitos que toda represa debe tener es poder conservar las condiciones de
funcionalidad y de seguridad que permita su utilización a lo largo de su vida útil, sufriendo
las menores incidencias posibles y dando cumplimiento a la legislación de seguridad y
mantenimiento vigentes. La Confiep sospecha que existe un alto porcentaje de represas de
tipo terraplén en mal y muy mal estado de conservación. De comprobarse que este
porcentaje supera el 10%, la represa será declarada en emergencia. La información de la
tabla fue obtenida al término de la inspección de las represas.
Estado de conservación
Tipo de represa
Bueno Regular Malo Muy Malo Total
Cimiento 16 17 12 12 57
Excavación 5 8 5 11 29
Terraplén 7 9 13 5 34
Total 28 34 30 28 120
Fuente: Andino S.A.
UPCPC
MA44 Estadística 28
d. Interprete el valor de la celda sombreada con respecto al total de fila, columna y gran total.
UPCPC
MA44 Estadística 29
Un gráfico de barras apiladas muestra todas las series apiladas en una sola barra para cada
categoría. El alto de cada barra es proporcional a la frecuencia de cada categoría.
Un gráfico de barras apiladas 100% muestra todas las series apiladas en una sola barra para
cada categoría. El alto de cada barra es el mismo para cada categoría.
UPCPC
MA44 Estadística 30
Ejercicio
A continuación, se muestra la información de una tabla de contingencia y un gráfico incompleto
para las variables lugar de destino y nacionalidad.
100%
90% 17.9%
33.3% 31.3%
80%
50.0%
70%
60% 77.8%
50% Extranjero
40%
Peruana
30%
20%
10%
0%
Arequipa Cuzco Miami México D.F Piura Río de
Janeiro
Interprete
UPCPC
MA44 Estadística 31
18%
16%
14%
12%
10%
Peruano
8%
Extranjero
6%
4%
2%
0%
Arequipa Cuzco Miami México D.F Piura Río de
Janeiro
Interprete
100%
90% 25.6%
80% Río de Janeiro
70% 2.2%
24.4% Piura
60%
50% México D.F
40% Miami
22.2%
30%
Cuzco
20% 16.7%
10% Arequipa
8.9% 13.3%
0%
Peruana Extranjero
UPCPC
MA44 Estadística 32
Interprete
Ejercicios propuestos
1. La empresa “PC Review Perú” realizó un estudio a una muestra a 500 directores de
empresas de la ciudad de Lima. Los resultados obtenidos a la pregunta ¿cuál de los
programas de Office usaba con mayor frecuencia? se resumen a continuación:
UPCPC
MA44 Estadística 33
Construya un diagrama de Pareto para identificar las fallas estructurales que tienen mayor
incidencia en las edificaciones en la ciudad de Ica debido al último sismo mencionado.
4. A una muestra de 95 hombres y 155 mujeres se formuló la siguiente pregunta: ¿Por qué
usa el servicio de taxi mediante una aplicación? Los resultados obtenidos se muestran en
los siguientes gráficos:
Gráfico 2 Gráfico 3
1.0 100%
0.9
0.32 0.36 80%
0.8
59% 65%
0.7 D
60% Masculino
0.6 A
0.15 Reunión Femenino
0.5 Estudio 40%
0.4 Trabajo
20% C E
0.3 33%
0.56
B
0.2 0%
0.1 Trabajo Estudio Reunión
0.0
Masculino Femenino
UPCPC
MA44 Estadística 34
100%
90%
% de barras de construcción
UPCPC
MA44 Estadística 35
Título
Variable fi hi Fi Hi
0 f1 h1 F1 H1
1 f2 h2 F2 H2
2 f3 h3 F3 H3
. . . . .
k fk hk n 1
Total n 1
Fuente: ………………………………..………………………………….…..
Ejemplo
UPCPC
MA44 Estadística 36
Ejercicios
1. El jefe de Recursos Humanos desea información de la cantidad de faltas que han tenido los
trabajadores en el mes anterior. Por tal razón, seleccionó al azar a 30 trabajadores y registró
el número de faltas.
0 0 0 0 1 1 1 1 1 1 1 1 2 2 2
2 2 2 2 2 2 2 3 3 3 3 3 3 4 4
Título: ……………………………………………………………………………………………………………………………
Número de faltas fi hi Fi Hi
0 4 4
1 8 12
2 10 22
3 28
4 30
Total
Fuente: ………………………………………….………..
UPCPC
MA44 Estadística 37
Interpretación
Si se encuentra al menos un ladrillo defectuoso, en más de 40 días, el Gerente de Rex S.A deberá
revisar su sistema de fabricación. ¿Se deberá revisar el sistema?
UPCPC
MA44 Estadística 38
Ejercicios
1. Se ha llevado a cabo un estudio para evaluar el tiempo, en horas, que utiliza cada
trabajador de una planta hidroeléctrica para verificar el normal funcionamiento de la
tubería de presión y las válvulas de control. Para ello se eligieron al azar 30 de ellos.
0.08 0.15 0.19 0.71 0.75 0.82 0.84 0.92 0.96 1.16 1.17 1.19 1.23 1.4 1.47
1.59 1.61 2.01 2.16 2.38 2.42 3.07 3.22 3.53 3.76 3.94 4.5 4.59 4.75 5.41
UPCPC
MA44 Estadística 39
Título: Distribución de los trabajadores de una planta hidroeléctrica según las horas que
utiliza para verificar el normal funcionamiento de la tubería de presión y las válvulas de
control
i Intervalo x’i fi Fi h Hi
1 [0,08 – 0,97] 0,525 9 9 0,3 0,3
2 ]0,97 – 1,86] 1,415 8 17 0,2667 0,5667
3 ]1,86 – 2.75] 2,305 4 21 0,1333 0,7
4 ]2.75 –3,64] 3,195 3 24 0,1 0,8
5 ]3,64 –4,53] 4,085 3 27 0,1 0,9
6 ]4,53–5,42] 4,975 3 30 0,1 1
Son 24 de una planta hidroeléctrica que han empleado un tiempo como máximo
F4 3.64 horas para verificar el funcionamiento de la tubería de presión y válvulas
de control.
El 80% de una planta hidroeléctrica que han empleado un tiempo como máximo
H4 (%) 3.64 horas para verificar el funcionamiento de la tubería de presión y válvulas
de control.
UPCPC
MA44 Estadística 40
2. Use la regla de Sturges para construir la tabla de distribución de frecuencias del monto de
venta diario, en cientos de soles, de la empresa Beta Systems S.A.
52.0 94.7 95.1 97.5 102.5 104.1 106.0 125.2 125.6 146.0
146.8 158.6 158.7 162.6 166.2 166.2 166.2 166.2 168.2 169.7
196.0 204.9 204.9 204.9 204.9 208.3 215.2 217.5 218.1 218.1
218.1 218.1 220.9 226.2 235.0 239.7 242.2 259.6 261.6 277.2
286.5 287.0 297.8 313.9 315.0 316.2 338.6 359.9 363.1 398.3
Variable en estudio
Elemento
Cálculos
Título: ………………………………………………………………………………………………………………………………
Lim Inf Lim Sup x´i fi hi Fi Hi
Fuente: ……………………………………………………………………………
f2
h3 (%)
F4
H2 (%)
UPCPC
MA44 Estadística 41
Son gráficas que representan las observaciones obtenidas de la variable cuantitativa continua.
POLÍGONO
OJIVA
Numero acumulado de trabajadores
UPCPC
24 trabajadores han empleado como máximo 3,64 horas para verificar… Hi o Fi
MA44 Estadística 42
Ejercicios propuestos
30
Fuente: Metronics S.A.
UPCPC
MA44 Estadística 43
UPCPC
MA44 Estadística 44
1.9.1 Definiciones
Parámetro
Es una medida de resumen que caracteriza a la población. Para obtener su valor se hace
necesario contar con toda la información que brinda los elementos de una población. Por
ejemplo, el promedio poblacional (µ), varianza poblacional (σ 2).
Estadístico
Es una medida de resumen que caracteriza a la muestra. Para obtener su valor se utiliza la
información muestral. A los valores obtenidos de un estimador se conoce como estimación.
Por ejemplo: el promedio muestral (𝑥̅ ), varianza muestral (s2).
Los parámetros y estadísticos de mayor uso son:
Promedio Xi X i
μ= i =1
X= i =1
N n
Varianza (X i − μ) 2
2
∑𝑛𝑖=1(𝑋𝑖 − 𝑋)
2
σ2 = i =1 𝑠 =
n-1
N
Desviación estándar σ s
Nº de éxitos Nº de éxitos
Proporción p= p̂ =
N n
Son aquellas que localizan el “centro” de una distribución, indicando el valor alrededor del
cual tienden a concentrarse ó distribuirse las demás observaciones. Lo que se persigue es
conseguir un valor que sea representativo del conjunto de datos que se está analizando.
UPCPC
MA44 Estadística 45
• La mayor desventaja es que se ve afectado por valores extremos, es decir si hay valores muy
pequeños o grandes, la media no los representaría adecuadamente.
x i
Para datos simples (no agrupados) se calcula por x= i =1
n
k
fx i i
Para datos discretos (agrupados) se calcula por x= i =1
n
k
fx i i
/
Ejemplo
Los siguientes datos son medidas de la resistencia al rompimiento (en onzas) de una muestra
de hilos de lino:
15,2 15,8 16,2 18,5 19,4 20,6 21,2 21,9 25,4 27,3 28,3 29,5 32,5 33,7 36,9
n
x i
(15,2 + 15,8 + 16,2 + ... + 32,5 + 33,7 + 36,9)
x= i =1
= x= = 24,16
n 15
Interpretación: La resistencia promedio al rompimiento de los hilos es de 24,16 onzas.
Ejercicio
discretos (agrupados)
1. Calcule e interprete la media para el número de hijos obtenida a partir de una muestra de 35
familias.
Número de hijos fi
0 13
1 6
2 8
3 6
4 2
UPCPC
MA44 Estadística 46
Intervalos fi x’i
0.02 - 0.81 6
0.81 - 1.60 13
1.60 - 2.39 4
2.39 - 3.18 3
3.18 - 3.97 2
3.97 - 4.76 2
El promedio de horas …
Mediana
Es el valor que ocupa el lugar central de un conjunto de datos ordenados. Por tanto, es el valor
que divide en dos partes a dicho conjunto de datos.
Características de la mediana
• Se puede calcular para variables medidas en escala intervalo o razón.
• La mediana no se ve afectada por valores “extremos” (mínimo y máximo).
• Fórmula para datos no agrupados:
Si denotamos las observaciones ordenadas por x1, x2, x3, ... , xn , la mediana pude representarse
por:
me = x n +1 Si n es impar
2
Los datos corresponden a una muestra de baterías cuyas lecturas de voltaje (en voltios) son:
9.84 9.96 9.98 9.99 10.00 10.00 10.05 10.12 10.26 25.00
UPCPC
MA44 Estadística 47
x n +x n
+1 x 5 +x 6
Me = 2 2
= = 10
2 2
Ejercicio
Los siguientes datos corresponden a la distribución del número de piezas defectuosas
producidas en una muestra de 150 días. Calcule e interprete el valor de la mediana.
Variable fi
Número de piezas defectuosas Número de días Fi
0 50 50
1 60 110
2 25 135
3 10 145
4 5 150
El 50% de los días se han producido como máximo una pieza defectuosa.
Características de la moda
• La moda se puede calcular para cualquier escala de medición.
• El valor de la moda no se ve afectada por valores extremos.
• La moda no siempre es un valor único.
• Un conjunto de datos puede tener dos modas (bimodal) o más de dos modas (multimodal o
polimodal).
• Se puede dar el caso de que el conjunto de datos no tenga moda.
Ejemplo
Los siguientes datos corresponden a una muestra de baterías cuyas lecturas de voltaje se
presentan a continuación:
9,84 9,92 9,98 9,99 10,00 10,00 10,05 10,12 10,26 25,00
Moda = 10
UPCPC
MA44 Estadística 48
Ejercicio
Renacer S.A fabrica Hornos de Microondas, encargo al jefe de control de calidad que informe
cual es el problema más frecuente encontrado en los hornos microondas. Se tomó una muestra
del área de reparaciones y estos fueron los resultados:
Se define así a un número real que divide a un conjunto de datos en dos partes con porcentajes
especificados debajo y sobre este valor. Para su cálculo, los datos deben estar previamente
ordenados.
Cuartil (Q)
Divide al conjunto de datos en 4 partes porcentualmente iguales. Se denotan Q1, Q2 y Q3 que
son los correspondientes percentiles P25 , P50 y P75 .
Decil (D)
Divide al conjunto de datos en 10 partes porcentualmente iguales, hay nueve deciles D1, D2,
…, D9 que son los correspondientes percentiles P10 , P20 , .., y P90 .
Percentil (P)
Divide un conjunto de datos en 100 partes porcentualmente iguales. Dado un percentil Pk,
este divide el conjunto de datos en dos partes, la inferior que contiene el K% de datos y la
superior que contiene el (100-k)% de datos.
UPCPC
MA44 Estadística 49
K% (100-K)%
P
K
Primero debe ordenarse los datos en orden creciente o decreciente. Luego, para hallar el
percentil Pk se sugiere los siguientes pasos:
• Luego, Pk = X ( E ) + 0, d * ( X ( E +1) − X ( E ) )
Ejercicio
1. Suponga que los promedios ponderados de una muestra de 12 ingenieros civiles egresados
se muestran a continuación:
14.5 15.5 15.5 16.2 16.2 16.5 16.5 17.0 17.1 17.3 17.5 17.6
b. Si se desea contratar a un egresado que pertenezca al quinto superior, ¿Qué percentil debe
calcular y cuál es la nota mínima que debería de tener?
UPCPC
MA44 Estadística 50
31.5 32.5 32.5 33.4 33.9 34.0 35.6 35.6 35.9 35.9
36.3 36.4 36.9 37.0 37.3 37.3 37.4 37.5 38.0 38.9
39.2 39.3 39.4 39.7 40.2 40.3 41.5 42.4 42.8 44.5
a. ¿Cuál es el tiempo mínimo registrado por el 18% de trabajadores que emplearon más tiempo
en la evacuación de la plataforma?
b. ¿Cuál es tiempo máximo empleado por el 28% de trabajadores que emplearon menos tiempo
en la evacuación de la plataforma?
Título: ………………………………………………………………………………………………………………………..
UPCPC
MA44 Estadística 51
Número de exposiciones fi hi Fi Hi
1
2
3
4
6
Total
1.9.4 Medidas de variación o dispersión Que tan próximos o alejados se encuentran los datos
respecto a su promedio.
Son aquellas que cuantifican que tan dispersos o concentrados se encuentran los datos respecto
de una medida de tendencia central. Los datos que están relativamente cercanos entre sí,
tienen bajas medidas de variabilidad, mientras que los que están más alejados entre sí tienen
medidas de variación más grandes.
Varianza
Es una medida del grado de dispersión o variación de los valores de una variable con
respecto a su media aritmética.
Las unidades en las que queda expresada la varianza son unidades al cuadrado. Esta medida
no tiene interpretación.
La varianza de una muestra se denota por s2, mientras que la de una población se denota
por 2
UPCPC
MA44 Estadística 52
Varianza poblacional
N
(x − )
2
i
2 = i =1
N
Varianza muestral para datos simples
(x − x)
2
i
s2 = i =1
n −1
2 2
f (x − x)
k k
f (x − x)
i i i i
/
s =2 i =1
s =
2 i =1
n −1 n −1
Desviación estándar
La desviación estándar es la raíz cuadrada positiva de la varianza
Se denota por s cuando es calculada de una muestra y por cuando es poblacional.
Ejemplo
Calcule la varianza y la desviación estándar para la cantidad de plomo en una muestra de agua
potable en miligramos por litro.
35 73 30 15 36 60 47 19 15 38 10 35 31 21 22 20
Nro de accidentes
0 1 2 3 4
automovilísticos
UPCPC
MA44 Estadística 53
fi 10 15 30 35 10
Ejemplo
UPCPC
MA44 Estadística 54
120 123 29
123 126 16
Tecnología
138 126 125 124 119 119 137 110 119 155 123 124 126 126 129
WAN
Determine para qué tipo de Tecnología utilizada los tiempos de transmisión de datos son más
homogéneos. Justifique numéricamente su respuesta.
s=
s = 10,45
x = 126,67 x=
cv = 8,25%
cv =
Interpretación: La tecnología que presenta los tiempos de transmisión de datos más
homogéneos es …………………………………………………………………………………………………………………
Ejercicio
1. La empresa Electro, dedicada a la venta de artefactos electrónicos para el hogar, opera 200
tiendas en diferentes lugares del país. Los últimos informes indican que las ventas
mensuales han descendido a tal punto que se han tenido que cerrar algunas tiendas. El
gerente, con el fin de enfrentar el problema, ha determinado que es necesario un estudio
estadístico de las ventas semanales (en miles de soles) de un producto electrónico en tres
de sus principales tiendas: Aptao, Azufral y Brento. Las muestras tomadas al azar de cada
tienda arrojaron los siguientes resultados:
Número de Número de
Ventas Aptao Ventas Brento
semanas semanas
100 – 200 5 20 2
200 – 300 14 40 8
300 – 400 21 60 25
400 – 500 7 80 20
500 – 600 3 100 8
Total 50 Total 63
UPCPC
MA44 Estadística 55
Ventas Azufral 120 200 100 50 45 120 100 100 90 75 100 210 100 50 120
b. Determine en cuál de las tiendas las ventas realizadas son más homogéneas. Justifique
numéricamente su respuesta.
2. En el medio local hay dos plantas (Planta 1 y Planta 2) que se dedican a la fabricación de
barras de acero para la construcción. Las empresas proveedoras de barras de acero para la
construcción, que abastecen al mercado constructor, desean averiguar acerca de la
resistencia media a la tracción y la desviación estándar, para ello, se tomaron muestras
aleatorias en ambas plantas y la información registrada acerca de la resistencia a la tracción
(en Kg/cm2) se muestra en las siguientes tablas:
Realice el análisis adecuado para la dispersión y responda ¿qué planta es más heterogénea en
las resistencias a la tracción? Sustente su respuesta estadísticamente.
UPCPC
MA44 Estadística 56
• Condición 1: La densidad promedio del terreno con impacto ambiental (regular o fuerte)
donde se ubica la represa debe ser por lo menos 17,5 gr/cm3 para que ésta no se derrumbe.
• Condición 2: La densidad del terreno donde se ubica la represa con impacto ambiental
(regular o fuerte) debe tener una variabilidad relativa de a lo más 34%.
Verifique las condiciones de tal manera que pueda presentar un informe que ayude a identificar
qué tipo de represa (con impacto ambiental fuerte o regular) está habilitada para su normal
funcionamiento.
UPCPC
MA44 Estadística 57
UPCPC
MA44 Estadística 58
UPCPC
MA44 Estadística 59
x − Mediana
As = 3
s
Ejercicio
• Si un grupo de datos tiene un coeficiente de asimetría negativo, esto significa que hay una
concentración de datos en los valores ………………………………………………………………..………………………………
• Si un grupo de datos tiene un coeficiente de asimetría positivo, esto significa que hay una
concentración de datos en los valores ……………………………………………………………………..…………………………
• En un país como el Perú, los sueldos de las personas seguramente tienen un coeficiente de asimetría
……………………………………………….………..…….., porque ………………………………..…………………………………………
• En un examen de Estadística, los tiempos que toman los alumnos en resolverlo seguramente tienen
un coeficiente de asimetría …………………………………….., porque ……………………………………………………………
Ejercicio
UPCPC
MA44 Estadística 60
1. COMASA S.A. es una empresa que produce artículos pesados de acero y dispone de un
equipo especializado de operarios que se capacitan constantemente. El último año se ha
observado un aumento en el número de accidentes, incrementándose así el costo de
atención inmediata. Con el propósito de implementar estrategias de prevención de
accidentes, se analizarán los costos de la planta de producción de Lima Sur. A continuación,
se presenta la información, en miles de soles:
8 9 10 11 11 12 12 13 13 13 13 14
14 15 15 16 17 17 18 18 19 19 20 21
22 23 24 25 25 26 27 28 28 29 30
2. COVISA, empresa de construcción civil, compra actualmente los ladrillos al proveedor FAX
S.A. Para continuar con el proveedor o cambiarlo, ha decidido realizar un análisis de la
resistencia transversal de los ladrillos, en Mn/m2. A continuación se presentan los resultados
de una muestra de 40 ladrillos fabricados por el proveedor:
3 4 4 4 5 5 6 6 6 7
8 8 8 8 8 9 9 9 10 11
11 11 11 11 11 12 12 12 12 13
13 13 14 15 15 17 17 18 19 20
UPCPC
MA44 Estadística 61
0.045 0.036 0.045 0.049 0.064 0.07 0.079 0.088 0.091 0.118 0.13 0.136
0.136 0.136 0.145 0.179 0.182 0.182 0.194 0.209 0.209 0.227 0.242 0.258
0.258 0.258 0.291 0.327 0.333 0.336 0.361 0.379 0.394 0.412 0.445 0.506
0.554 0.567 0.579 0.6 0.67 0.912 1.055 1.07 1.267 1.639 1.894 3.046
3.888 3.985 4.170 8.788
UPCPC
MA44 Estadística 62
5. A continuación, se presenta la Distribución del número de camiones enviados a cada obra desde Lurín
16
distribución del número de camiones 15
14
que atendió la planta de Lurín en cada
12
11
obra con el objetivo de “Evaluar
Número de obras
10
9
indicadores en las atenciones que 8
7
realiza la planta de Lurín”. 6
6
4
Calcule las medidas de tendencia 4
3
0
1 2 3 4 5 6 7
Número de camiones
Fuente: Tricon S.A.
6. Cuando se diseña un puente los ingenieros deben determinar la tensión que el concreto
puede soportar. En lugar de probar cada pulgada cúbica de concreto para determinar su
capacidad de resistencia, los ingenieros toman una muestra, la prueban y llegan a la
conclusión sobre qué tanta tensión, en promedio, puede resistir este tipo de concreto. A
continuación, se presenta la tensión (en kg/cm2) obtenidos de una muestra de 30 bloques
de concreto que se utilizarán para construir un puente.
1.2 2.1 2.2 2.2 2.5 2.5 2.6 2.6 2.7 2.8
3.0 3.0 3.2 3.2 3.2 3.4 3.4 3.5 3.5 3.6
3.6 3.6 3.6 3.7 3.8 3.9 3.9 4.0 4.0 4.0
Unidad 2. Probabilidades
2.1 Definiciones
Experimento aleatorio ()
Es una operación cuyo resultado no se puede predecir con certeza y que se realiza bajo las
siguientes condiciones:
Se puede repetir indefinidamente donde los resultados dependen del azar, por lo que no se
pueden predecir con certeza.
Se puede describir el conjunto de todos los resultados posibles.
Cuando se repite un gran número de veces, aparece un modelo definido de regularidad.
Ejemplos
UPCPC
MA44 Estadística 63
Espacio muestral ( ó S)
Es el conjunto de todos los posibles resultados de un experimento aleatorio. Cada elemento de
este conjunto se le denomina punto muestral y se le denota con w.
Ejemplos
1= {1,2,3,4,5,6}
2= {cc,cs,sc,ss}
3 = {defectuoso, no defectuoso}
4 = {t/ t ≥ 0}
Evento
Es todo subconjunto del espacio muestral y representa cierta característica de ella.
Se denotan mediante las letras de nuestro alfabeto y en mayúsculas: A, B, C,…
Evento simple
Formado por un sólo un punto muestral. No se puede descomponer.
Ejemplos
Evento compuesto
Formado por más de un punto muestral.
Ejemplos
Si 2= {cc,cs,sc,ss}, entonces B= {cs,sc} o B: obtener dos valores diferentes en las caras
superiores de las dos monedas es un evento compuesto.
UPCPC
MA44 Estadística 64
Intersección
Unión
La unión de dos eventos A y B es el evento que ocurre si A o B, o ambos ocurren en una sola
realización del experimento. La unión de los eventos A y B se denota mediante el símbolo
A B
Son aquellos eventos donde la ocurrencia de uno de ellos excluye la ocurrencia del otro,
esto es no pueden ocurrir los dos a la vez.
Ejemplo
Ejemplo
Estos eventos son mutuamente excluyentes, dado que ambos a la vez no pueden ocurrir, esto
es AB = , es decir la intersección de los eventos no tienen elementos en común.
UPCPC
MA44 Estadística 65
Ejercicio
2.3 Probabilidad
• 0 P(A) 1
• P() = 1
• Sea {Ai},Ai, i=1,2,3,..,n una sucesión de eventos mutuamente excluyentes, entonces
n
P(A1A2A3…An) = P( A )
i =1
i
En un espacio muestral finito la suma de las probabilidades de todos los eventos simples Ei
debe ser igual a 1.
UPCPC
MA44 Estadística 66
P( E ) = 1
i =1
i i = 1,2,3,..., k
Sea un experimento aleatorio cuyo correspondiente espacio muestral está formado por un
número n finito de posibles resultados distintos y con la misma probabilidad de ocurrir,
entonces definimos la probabilidad de un evento A como sigue:
n ( A ) número de casos favorables al evento A
P ( A) = =
n () número total de casos
Eventos complementarios
P( A) + P( Ac ) = 1
P( A B) = P( A) + P( B) − P( A B)
A B B
ABC A∩B
UPCPC
MA44 Estadística 67
P( A B) = P( A) + P( B)
Ejemplo
b. ¿Cuál es la probabilidad de que el accidente se haya producido por solo un tipo de falla?
P ( E M´ ) = P ( E) - P ( E M ) = 0,24 - 0,03 = 0,21 o
P ( E´ M ) = P ( M) - P ( E M ) = 0,18 - 0,03 = 0,15
P ( E M´ ) + P ( E´ M ) = 0,36
Ejercicio
b. ¿Cuál es la probabilidad de que se haya producido solo uno de los tipos de defectos?
UPCPC
MA44 Estadística 68
2: números pares de tres cifras que se pueden formar con los dígitos 1,2,3,4,5,6,7,8,9
2= {174,148,184,198,194,144, …} ya no es fácil listar y contar los posibles resultados
Ante esta situación es necesario utilizar técnicas que nos faciliten el conteo de estos posibles
resultados.
Principio de la multiplicación
Ejemplo
Principio de la adición
UPCPC
MA44 Estadística 69
Ejemplo
Ejercicios
2. De un grupo de ocho pequeñas empresas se sabe que dos no cumplen con sus obligaciones
tributarias. La Tunat revisará el cumplimiento de los tributos de todas las pequeñas
empresas si al seleccionar tres empresas, la probabilidad de que por lo menos una no
UPCPC
MA44 Estadística 70
cumple con sus obligaciones tributarias sea superior a 0.62 ¿Qué le recomendaría usted a
la Tunat?
Ejercicios propuestos
1. Una caja contiene 24 resistencias con etiqueta negra y 24 con etiqueta roja; de los de
etiqueta negra cinco son de 5 ohmios y el resto de 8 ohmios; mientras que los de etiqueta
roja doce son de 5 ohmios y el resto de 8 ohmios:
3. En una competencia para construir una pared participan cuatro obreros A, B, C y D. Uno de
ellos necesariamente debe ganar. Si la probabilidad de que gane A es el doble de la de B, la
de B es la mitad de C y la de D es el triple de A, ¿cuál es la probabilidad que gane A?
P(A∩B)
P (A/B) = , siendo P (B) > 0
P (B )
P(A) = A/ n(omega)
UPCPC
MA44 Estadística 71
Ejemplo
Egresado de ingeniería
No egresado de
Años de experiencia Mecánica Total
Industrial (I) universidad (N)
(M)
Al menos tres años de experiencia (A) 14 4 9 27
Menos de tres años de experiencia (B) 25 11 27 63
Total 39 15 36 90
25
P (B ∩ M) = 90 = 0,278
39 27 14
P (M U A) = P (M) + P (A) - P (M A) = 90 + − = 0,578
90 90
c. No sea egresado de universidad si se sabe que tiene menos de tres años de experiencia.
27
(90)
P (N / B) = 63 = 0,429
(90)
d. Tenga al menos tres años de experiencia dado que es egresado de ingeniería industrial.
4
(90)
P (A / I) = 15 = 0, 267
(90)
Ejercicios
17
1. La probabilidad que la construcción de un edificio termine a tiempo es , la probabilidad
20
3
que no haya huelga es 4 , y la probabilidad que la construcción se termine a tiempo dado que
14
no hubo huelga es ; la probabilidad que haya huelga y no se termine la construcción a
15
1
tiempo es , Defina los eventos y calcule las siguientes probabilidades:
10
UPCPC
MA44 Estadística 72
2. Una empresa constructora emplea a tres ingenieros de ventas. El ingeniero 1 hace el trabajo
de estimar costos en 60% de las cotizaciones solicitadas a la empresa, el ingeniero 2 hace lo
mismo en 30% de las cotizaciones y el ingeniero 3 en el resto. Se sabe que la tasa de error
para el ingeniero 1 es tal que la probabilidad de encontrar un error en su trabajo es 0.02, la
probabilidad de encontrar un error en el trabajo del ingeniero 2 es 0.04 y la probabilidad de
encontrar un error en el ingeniero 3 es de 0.03. Suponga que al revisar una solicitud de
cotización se encuentra un error grave en la estimación de los costos. ¿Qué ingeniero
supondría usted que hizo los cálculos?
UPCPC
MA44 Estadística 73
P( A B) = P( A | B) P( B) = P( B A) P( A)
Ejemplo
Si A y B son eventos tales que P(A) = 0.4,P(B) = 0.2 y P(A/B) = 0.5. Calcule: P(A B) y P(Ac B)
P( A B ) = P( A) P( B)
UPCPC
MA44 Estadística 74
P( E1 E2 ...Ek ) = P( E1 ) P( E2 ) P( Ek )
Propiedades
P(AB)C = P(ACBC)
P(AB)C = P(ACBC)
Ejemplo
Un sistema electrónico está compuesto por tres subsistemas A, B y C, de tal manera que las
probabilidades de fallar de cada uno son 0,15; 0,20 y 0,35. Si los subsistemas funcionan de
manera independiente, definir los eventos y calcular:
S = {al menos uno de los sistemas falle} S´ = {Ningún de los sistemas falle}
UPCPC
MA44 Estadística 75
Ejemplo
Ejemplo
UPCPC
MA44 Estadística 76
Ejercicio
UPCPC
MA44 Estadística 77
Sean los eventos A1 , A2 ,..., Ak ,los cuales forman una partición del espacio muestral
mutuamente excluyentes y exhaustivos y sea E otro evento cualquiera de , se cumple:
P( E ) = P( A1 ) P( E / A1 ) + P( A2 ) P( E / A2 ) + ......... + P( Ak ) P( E / Ak )
Teorema de Bayes
Si los eventos A1 , A2 ,..., Ak , constituyen una partición del espacio muestral , entonces para
cualquier evento E de la P(Ai|E) es:
P( Ai E )
P( Ai | E ) = para i = 1, 2 , , k
P( E )
P( Ai ) P( E Ai )
P( Ai | E ) =
P( A1 ) P( E A1 ) + P( A2 ) P( E A2 ) + ... + P( Ak ) P( E Ak )
Ejemplo
UPCPC
MA44 Estadística 78
c. Si un cliente regresa a la tienda con un teodolito que necesita reparación dentro de garantía,
¿cuál es la probabilidad de que sea un teodolito marca 1? ¿Un teodolito marca 2? ¿Un
teodolito marca 3?
Ejercicio
UPCPC
MA44 Estadística 79
estimando dichas alternativas con las siguientes probabilidades: 0,55; 0,35 y 0,10
respectivamente. La probabilidad de importar el nuevo modelo de celular es 0,25 si existiera
inflación, 0,40 si existiera estabilidad y 0,65 si existiera crecimiento.
2. Consideremos que tres máquinas Alpha, Beta y Gamma producen respectivamente el 50%,
el 30% y el 20% del número total de artículos de una fábrica. Si la proporción de artículos
UPCPC
MA44 Estadística 80
defectuosos que produce cada una de estas máquinas es 0,03 0,04 y 0,05 respectivamente y
se selecciona un artículo aleatoriamente:
b. Calcule la probabilidad de que el artículo seleccionado al azar haya sido producido por la
máquina Alpha si se sabe que es defectuoso.
c. Calcule la probabilidad de que el artículo seleccionado al azar haya sido producido por la
máquina Alpha o la máquina Beta, si se sabe que es defectuoso.
P((AUB)/D) =
P(A/D) = 0.405
P(B/D) =
P(AnB/D) = 0 (mutuamente excluyente)
d. Si se seleccionan cinco artículos, ¿cuál es la probabilidad que sólo dos sean defectuosos?
0.05
Ejercicios propuestos
1. Una empresa vende tres tipos de maquinaria pesada para la industria textil A, B y C. El 70%
de las máquinas son del tipo A, el 20% del tipo B y el 10% son del tipo C. Las máquinas A
tienen una probabilidad de 0,10 de producir una pieza defectuosa a lo largo de un año, las
máquinas B tienen una probabilidad de 0,30 y las máquinas C tienen una probabilidad 0,60
de producir una de tales piezas defectuosas a lo largo de un año. Una de estas máquinas ha
UPCPC
MA44 Estadística 81
estado funcionando durante un año de prueba y ha producido una pieza defectuosa. ¿De
cuál tipo de máquina es más probable que provenga la pieza defectuosa?
2. Una de las medidas que se consideran para regular el volumen de agua en m3 en las represas,
es abrir las compuertas para que las represas no rebalsen. Las compuertas operan en forma
independiente de acuerdo con dos tipos de sistemas. Estos sistemas operan solo si hay una
trayectoria de dispositivos funcionales de izquierda a derecha. Su funcionamiento es muy
importante por lo que el ingeniero de mantenimiento recomendará utilizar aquel sistema
que presente mayor probabilidad de flujo de funcionamiento continuo.
Sistema 1 Sistema 2
¿Cuál de los dos sistemas deberá elegir para ser instalado en una compuerta? Suponga que
cada dispositivo funciona de manera independiente con una probabilidad de 0,85.
5. Electronic Systems Company que brinda soporte especializado en la instalación de redes con
Tecnología LAN o WAN en diferentes empresas, sabe que el 15% de las empresas prefieren
como medio físico de transporte los cables de cobre de par trenzado, el 35% prefiere los
cables coaxiales, el 40% fibras ópticas y 10% el aire. Además, si la empresa elige los cables de
cobre de par trenzado como medio físico, la probabilidad que elija la Tecnología WAN es
0,62. Las empresas que eligen cables coaxiales tienen una probabilidad de 0,45 de elegir la
Tecnología LAN; las empresas que eligen la fibra óptica tienen una probabilidad de 0,55 de
elegir la Tecnología WAN y las empresas que eligen el aire como medio físico de transporte
tienen una probabilidad de 0,5 de elegir la Tecnología LAN.
a. Calcule la probabilidad que una empresa elija para su Red la Tecnología LAN.
UPCPC
MA44 Estadística 82
b. Si se selecciona al azar una empresa que utiliza Tecnología WAN, ¿cuál es la probabilidad
que utilice como medio físico de transporte cables de cobre de par trenzado?
6. Si la probabilidad de que cada llave esté cerrada dejando pasar corriente es p=0,6 y las llaves
se cierran y se abren en forma independiente, calcular la probabilidad de que pase corriente
de I hacia O en el siguiente circuito:
7. Una empresa produce piezas en tres máquinas, M1, M2 y M3, que pueden presentar
desajustes de manera independiente, con probabilidades 0,02; 0,01 y 0,06 respectivamente.
Al inicio de un día de operación se realiza una prueba en cada máquina. Si se observan
desajustes en una máquina, ésta debe pasar el día en revisión técnica. Para cumplir el nivel
mínimo de producción diaria se necesita que al menos dos de las tres máquinas funcionen.
a. ¿Cuál es la probabilidad de que alguna de las tres máquinas deba pasar el día en revisión
técnica?
Sea Ω un espacio muestral. Una variable aleatoria es una función X, que transforma cada
resultado w del espacio muestral en un número real X(w).
UPCPC
MA44 Estadística 83
Ejemplo
Al lanzar dos monedas para registrar los posibles resultados se obtiene el espacio muestral
siguiente: = {cc, cs, sc, ss}
Si ahora definimos la variable aleatoria X como número de caras que se obtiene, entonces a
cada resultado de, es posible asignarle un número real de la siguiente manera:
S
R
▪ cc, se le asigna el número real 2 •CC
▪ cs, se le asigna el número real 1 •CS 2
▪ sc, se le asigna el número real 1 •SC
1
▪ ss, se le asigna el número real 0 •SS
0
Ejemplos
a. Número de circuitos electrónicos producidos por una empresa que cumplen con las
especificaciones técnicas.
b. Número de llamadas que recibe una central telefónica.
Ejemplos
Sea X una variable aleatoria discreta. La función de probabilidad de una variable aleatoria
discreta representa la probabilidad de que la variable aleatoria tome un valor genérico igual
a x y se denotará de la siguiente manera: f (x) = P( X = x)
UPCPC
MA44 Estadística 84
• f ( x) 0
• f ( x) = 1
Rango X
Ejercicio
x 0 1 2 3 4
f(x) 0.25 a 0.10 0.25 0.25
Solución
𝑷(𝒙=𝟏)+𝑷(𝒙=𝟐) 𝟎,𝟏𝟓+𝟎,𝟏𝟎
d. P (X < 3 / X ≥ 1) = = = 0,3333
𝟏−𝑷(𝒙=𝟎) 𝟏−𝟎,𝟐𝟓
Ejercicio
UPCPC
MA44 Estadística 85
x 0 1 2
f(x) 0.7158 0.2684 0.0158
c. En relación con la regla planteada en (b), si el lote es aceptado, ¿cuál es la probabilidad que
la muestra contenga un defectuoso?
UPCPC
MA44 Estadística 86
Sea X una variable aleatoria discreta con función de probabilidad f(x). Entonces el valor
esperado o medio de X es:
= E( X ) = xf ( x)
Rango x
Sea X una variable discreta con función de probabilidad f(x). Entonces, la varianza de X es:
= 2
Ejemplo
1. El número de fallas de energía eléctrica que afectan a cierta región en cualquier año dado
se considera una variable aleatoria, que tiene la siguiente función de probabilidad:
x 0 1 2 3
P(X = x) 0,38 0,24 k 0,08
Solución
En primer lugar, hallaremos el valor de k para que la distribución sea función de probabilidad:
UPCPC
MA44 Estadística 87
Ejemplo
x 4 5 7 8 9
f(x) 0.20 0.25 0.10 0.15 0.30
E (X) = 6,65 → Un cliente esperaría pagar por una vivienda 98 090 soles.
Ejercicios
Si el valor esperado de X es 1,71 fallas por cable, ¿cuál es la probabilidad de que un cable
presente a lo más 2 fallas?
a+b+0.27+0.16+0.01=1
a= 0.2
b= 0.36
UPCPC
MA44 Estadística 88
x 0 1 2 3 4
f(x) a 0.37 0.16 b 0.01
3. Una librería necesita hacer el pedido semanal de una revista especializada de ingeniería.
Por registros históricos, se sabe que las frecuencias relativas de vender una cantidad de
ejemplares es la siguiente:
Demanda de ejemplares 1 2 3 4 5 6
Frecuencia relativa 1/15 2/15 3/15 4/15 3/15 2/15
Calcule la media y varianza de la demanda de ejemplares.
UPCPC
MA44 Estadística 89
f ( x ) = P( X = x) = Cxn p x (1 − p )
n− x
, x = 0, 1, 2, ... , n
Donde:
Media = E(X) = np
Varianza 2 = Var(X) = np(1-p)
(Desviación estándar) DS(X)= Raiz de o2
Ejemplo
El supervisor de una obra ha determinado que un proveedor entrega los pedidos a tiempo
alrededor del 94% de las veces. Para su última obra, el supervisor seleccionó una muestra de 12
pedidos.
a. Calcule la probabilidad de que el proveedor entregue 11 pedidos a tiempo.
b. Calcule el valor esperado del número de pedidos entregados a tiempo.
Solución:
X: Número de pedidos entregados a tiempo en una muestra de 12 pedidos
X ~ B (n = 12, p = 0,94)
UPCPC
MA44 Estadística 90
a. P (X = 11) = 𝑪𝟏𝟐
𝟏𝟏 ∗ 𝟎. 𝟗𝟒
𝟏𝟏
∗ (𝟏 − 𝟎. 𝟗𝟒)𝟏 = ……………………….
b. E(X) = n*p = ………………………….
Ejercicio
Distribución Poisson
El experimento consiste en realizar el conteo del número X de veces que ocurre un evento
en particular durante una unidad de tiempo, área, volumen, peso, distancia o cualquier otra
unidad de medida dada.
La probabilidad de que un evento ocurra en una unidad dada de tiempo, área, etc.; es la
misma para todas las unidades.
UPCPC
MA44 Estadística 91
e − x
f ( x) = P( X = x ) = x = 0,1, 2, 3,...
x!
Donde:
Notación:
Si la variable aleatoria X sigue una distribución Poisson con parámetro se denota: X ~ P (
)
Media 𝜇 = 𝐸(𝑋) = 𝜆
Varianza 2 = V (X ) =
Ejemplo
En la inspección del pavimento y asfalto de una carretera recién construida se ha detectado que
hay, en promedio 1,25 baches o fisuras cada cuatro kilómetros. Asumiendo una distribución de
Poisson, determine:
Solución
𝑒 −0.3125 ∗0.31252
P(X=2) = = 0,03572
2!
UPCPC
MA44 Estadística 92
Ejercicio
UPCPC
MA44 Estadística 93
b. ¿Qué probabilidad hay de que entre las 5:25 pm y 5:28 pm lleguen más de dos autos?
c. Si en un minuto llegaron más de tres autos, ¿cuál es la probabilidad que como máximo sean
cinco los autos que llegaron en ese minuto?
2. Cierto tipo de azulejo puede tener un número X de puntos defectuosos con media de 3
puntos defectuosos por azulejo. Calcule la probabilidad de que se presenten 5 defectos en
un azulejo elegido al azar.
Ejercicios
UPCPC
MA44 Estadística 94
4. El número de averías semanales de una cierta máquina de una fábrica es una variable
aleatoria con distribución de Poisson con media 0,3.
a) ¿Cuál es la probabilidad de que la máquina tenga a lo más dos averías en una semana?
b) Si se tienen 5 de estas máquinas. ¿Cuál es la probabilidad de que al menos 2 de estas no
tengan averías en dos semanas
Se denomina función de densidad f(x) de una variable aleatoria continua X a la función f(x)
integrable que satisface:
UPCPC
MA44 Estadística 95
f(x)
f ( x) 0
∞
∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
b
P(a X b) = f ( x)dx
a
a b
VC Discreta VC Continua
X → Variable X → Variable
Ejemplo
Sea K una constante y consideremos la función de densidad de la vida útil, en años, de cierto
tipo de computadora:
kx 0 x 2
f ( x) =
0 c.c.
Solución
a. Para que f(x) sea función de densidad debe de satisfacer la siguiente condición:
2 2
∫0 𝑘𝑥𝑑𝑥 = 1 K ∫0 𝑥𝑑𝑥 = 1 k (2) = 1 k=½
UPCPC
MA44 Estadística 96
1
x 0 x2
f ( x) = 2
0 c.c.
1.8 1
b. P (0,5 < X < 1,8) = ∫0.5 2 𝑥𝑑𝑥 = 0,7475
21
c. P (X > 1) = ∫1 2 𝑥𝑑𝑥 = 0,75
Ejecicio
𝑓(𝑥) = 𝑘(𝑥 − 8) 8 ≤ 𝑥 ≤ 10
X= el peso, en onzas.
c. Los artículos con un peso menor a 8,5 onzas son separados. ¿Cuál es la probabilidad que un
artículo, seleccionado al azar, sea separado?
La función de distribución acumulativa F(x) para una variable aleatoria continua X se define:
x
F ( x) = P( X x) = f (t ) dt
−
dF ( x )
f ( x) =
dx
UPCPC
MA44 Estadística 97
Ejemplo
El tiempo, en minutos, que un tren se retrasa es una variable aleatoria continua X con la
siguiente función de densidad:
3
(25 − x 2 ) 0 x5
f ( x ) = 250
0 c.c.
Solución
▪ Si X ≤ 0 F(X) = 0
𝒙 𝟑 𝟕𝟓𝒙− 𝒙𝟑
▪ Si 0 < X < 5 F(X) = ∫𝟎 (𝟐𝟓 − 𝒕𝟐 )𝒅𝒕 =
𝟐𝟓𝟎 𝟐𝟓𝟎
▪ Si X ≥ 5 F(X) = 1
Finalmente,
0 x ≤ 0
75𝑥− 𝑥 3
F(x) = { 0 < x < 5
250
1 x ≥ 5
𝟕𝟓(𝟐)−𝟐𝟑
b. P (X > 2) = 1 – P(X ≤ 2) = 1 – F(2) = 1 – [ ] = 𝟎, 𝟒𝟑𝟐
𝟐𝟓𝟎
𝟕𝟓(𝟑.𝟓)−𝟑.𝟓𝟑 𝟕𝟓(𝟏.𝟓)−𝟏.𝟓𝟑
c. Calcule P (1,5 < X < 3,5) = F (3.5) – F(1.5) = − = 0,442
𝟐𝟓𝟎 𝟐𝟓𝟎
Ejercicio
UPCPC
MA44 Estadística 98
Xmáx= ¿?
50%= 0.5 50%= 0.5
Me= ¿?
‘
P (X<= X máx.) = 0.5
F (X máx.) = 0.5
2. SAP Ingeniería, es una empresa que desarrolla soluciones específicas y busca ofrecer
servicios de telecomunicaciones, independientemente del tamaño y desempeño del sector
o actividad empresarial. De estudios anteriores se conoce que el tiempo de atención de un
servicio, en minutos, para cada tamaño de empresa, se tiene la función de densidad y la
función de distribución acumulada; respectivamente.
UPCPC
MA44 Estadística 99
Sea X una variable aleatoria continua con función de densidad f(x), entonces el valor esperado
de X es la siguiente:
µ= E ( X ) = xf ( x)dx
−
Sea X una variable aleatoria continua con función de densidad f(x). Entonces, la varianza de
X es
𝜎 2 = V(X) = E [X - 𝜇]2 = E(X2) - 𝜇 2
+
Dónde: E(X2) = ∫− 𝑥 2 𝑓 (𝑥 )𝑑𝑥
= 2
𝜎
El coeficiente de variabilidad es: 𝐶𝑉 = µ 𝑥100%
Ejemplo
El tiempo de anticipación (-) o retraso (+) en minutos, de la llegada de un tren sobre su tiempo
establecido, es una variable aleatoria continua X con la siguiente función de densidad:
UPCPC
MA44 Estadística 100
3
(25 − x 2 ) − 5 x 5
f ( x) = 500
0 c.c.
+𝟓 𝟑 𝟑 𝟐𝟓𝟐 𝟓𝟒 𝟐𝟓𝟐 𝟓𝟒
E(X) = ∫−𝟓 (𝟐𝟓 − 𝒙𝟐 )𝒙𝒅𝒙 = [ − − + ]=0
𝟓𝟎𝟎 𝟓𝟎𝟎 𝟐 𝟒 𝟐 𝟒
El tiempo promedio de anticipación o retraso que tiene el tren sobre su hora establecida es
0 minutos, es decir llega en promedio puntual.
b. Los supervisores de la estación ferroviaria han notado que últimamente los trenes no están
llegando en su hora establecida, para lo cual han fijado como norma que un tren puede llegar
en a lo más ± 𝟎, 𝟓 𝑺, siendo S la desviación estándar. ¿Qué porcentaje de trenes cumplen la
norma fijada?
+𝟓 𝟑 𝟑 𝟓𝟑 𝟓𝟓 −𝟓𝟑 −𝟓𝟓
E(X2) = ∫−𝟓 (𝟐𝟓 − 𝒙𝟐 )𝒙𝟐 𝒅𝒙 = [𝟐𝟓 ∗ − − 𝟐𝟓 ∗ + ]=5
𝟓𝟎𝟎 𝟓𝟎𝟎 𝟑 𝟓 𝟑 𝟓
V(X) = 5 – (0)2 = 5
S = √𝟓 = 2,236068
P (-0,5S ≤ X ≤ 0,5S) = P (-1,118 ≤ X ≤1.118) = 0,32981
UPCPC
MA44 Estadística 101
Ejercicios
𝑓(𝑥) = 𝑘(𝑥 − 8) 8 ≤ 𝑥 ≤ 10
K → 0,5 (del ejercicio anterior.)
a. Calcule el peso máximo que debe tener un artículo de manera que el 25% de los artículos
tengan pesos menores o iguales a dicho peso.
P(25)=?
P(X< x máx.) = 0,25
10
µ= 𝐸(𝑋) = ∫8 𝑥. 0,5(𝑥 − 8)𝑑𝑥= 9,33 onzas
10
µ= 𝐸(𝑋) = ∫8 𝒙. 0,5(𝑥 − 8)𝑑𝑥= 9,33 onzas
10
𝜎 2 = V(X) = E(X2) – 𝜇 2 = ∫8 𝑥 2 . 0,5(𝑥 − 8)𝑑𝑥 − µ2 = 87,33 − (9,33)2 = 0,2811
𝜎 = 0,5302
𝟎, 𝟓𝟑𝟎𝟐
𝑪𝑽 = × 𝟏𝟎𝟎% = 𝟓, 𝟔𝟖%
𝟗, 𝟑𝟑
2. Las utilidades netas, en miles de soles, de los propietarios de stands en una galería comercial
es una variable aleatoria con la siguiente función de densidad:
𝑥
𝑓(𝑥) = {8 0 < 𝑥 ≤ 4
0 𝑜𝑡𝑟𝑜𝑐𝑎𝑠𝑜
X= Utilidades netas en miles de soles
Elemento: Propietarios
a. ¿Estaría usted en condiciones de afirmar que más de la mitad de los propietarios tiene
utilidades superiores al promedio? Justifique.
4 𝑥
𝐸(𝑋) = ∫0 𝑥 𝑑𝑥 = 2,67
8
UPCPC
MA44 Estadística 102
𝟑𝒙𝟐
, 𝟎<𝒙<𝟐
𝒇(𝒙) = { 𝟐𝟎
𝒙
, 𝟐≤𝒙≤𝟒
𝟏𝟎
1
𝑓(𝑥) = {6 (17 − 𝑥) 1,8 ≤ 𝑥 ≤ 2,2
0 𝑐𝑐
Distribución exponencial
UPCPC
MA44 Estadística 103
Notación: Si X sigue una distribución exponencial con parámetro 1/ se denota por: X ~ Exp
( )
Grafica de la Distribución Exponencial
1,0
0,8
0,6
Density
0,4
0,2
0,0
0 1 2 3 4 5
X
Media: 𝜇 = 𝐸(𝑋) = 𝛽
Varianza: 𝜎 2 = 𝑉(𝑋) = 𝛽2
𝒙
F(x) = P(X ≤x) = ∫−∞ 𝒇(𝒙) 𝒅𝒙
Características:
▪ La variable puede tomar valores de 0 a +, no toma valores negativos.
▪ La gráfica es descendente con sesgo a la derecha.
▪ Existe una curva para cada valor de .
Ejemplo
La duración, en miles de millas, que obtienen los dueños de automóviles con cierto tipo de
neumático es una variable aleatoria con la siguiente función de densidad:
1 − 201 x
e si x 0
f ( x) = 20
0 si x 0
Determine la probabilidad de que uno de estos neumáticos dure
a. Como máximo10 000 millas
b. entre 16 000 y 24 000 millas
c. al menos 30 000 millas.
UPCPC
MA44 Estadística 104
Ejemplo
𝑥
1
f(x)= 𝑒 −500 x > 0
500
Ejercicio
a) ¿Cuál es la probabilidad que una llamada dure entre tres y diez minutos?
c) ¿Cuánto debe durar como mínimo una llamada para estar considerada dentro del 10% de
las de mayor duración?
d) Si la llamada dura más de 5 minutos ¿cuál es la probabilidad de que dure a lo más 8 minutos?
UPCPC
MA44 Estadística 105
2. Suponga que la vida útil, en horas, de cierta marca de foco electrónico, es una variable
aleatoria X cuya función de densidad de probabilidad es:
− 8000
x
ce x0
f ( x) =
0 c.c.
a. Calcule el valor de la constante c para que f(x) sea función de densidad. Si se selecciona
un foco electrónico al azar, calcule la probabilidad de dure más de 10 000 horas.
b. Calcule la probabilidad de que por lo menos dos de ellos duren más de 10 000 horas.
3. La vida, en horas, de un dispositivo electrónico es una variable aleatoria que tiene la siguiente
función de densidad:
1
1 − 50 x
f (x) = e para x 0
50
a. Calcule e interprete la mediana. Si un lote tiene 20 de estos dispositivos, ¿cuántos se
esperaría que duren más que la mediana?
b. Si el dispositivo duró 80 horas, ¿cuál es la probabilidad de que dure 25 horas más?
Distribución normal
1 1 𝑥−𝜇 2
𝑓(𝑥) = 𝑒 −2( 𝜎 ) −∞ <𝑥 <∞
√2𝜋 𝜎
Notación: Si la variable aleatoria tiene distribución normal con parámetros 𝜇 y 𝜎 2 se denota:
X ~ N(, 2)
Media E(X) =
Varianza Var(X) = 2
UPCPC
MA44 Estadística 106
UPCPC
MA44 Estadística 107
UPCPC
MA44 Estadística 108
-0.2 0.38591 0.38974 0.39358 0.39743 0.40129 0.40517 0.40905 0.41294 0.41683 0.42074
-0.1 0.42465 0.42858 0.43251 0.43644 0.44038 0.44433 0.44828 0.45224 0.45620 0.46017
-0.0 0.46414 0.46812 0.47210 0.47608 0.48006 0.48405 0.48803 0.49202 0.49601 0.50000
UPCPC
MA44 Estadística 109
3.9 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967
Ejercicio
UPCPC
MA44 Estadística 110
d. ¿Cuál será el valor máximo de Z tal que el 15,87% de los valores son menores a Z?
Percentil 15,78
0,1587
Z= -1.00
e. ¿Cuál será el valor mínimo de Z tal que el 15,87% de los valores son mayores a Z?
0,8413
Z= 1.00
Ejercicio
1. Un fabricante de televisores asegura que el tiempo medio de funcionamiento sin fallas de los
aparatos es de 2 años con una desviación estándar de 0,25 años. Si el tiempo de vida de los
aparatos sigue una distribución normal.
a. ¿Cuál es la probabilidad de que el tiempo de buen funcionamiento sea menor que 2,5 años?
b. Determine la probabilidad de que el tiempo de funcionamiento este entre 1 año y 1,75 años
c. El fabricante garantiza que remplazará gratis cualquier aparato de TV cuya duración sin fallas
sea menor que k años. Aproximar k de tal modo que sólo el 1% de los aparatos vendidos
tenga que ser reemplazado.
UPCPC
MA44 Estadística 111
Ejercicio
1. Una máquina llena recipientes con determinado producto. Se sabe que el peso de llenado
de dicho producto tiene distribución normal. Se sabe, de acuerdo con los datos históricos,
que la media es 20,23 y la desviación estándar de pesos de llenado es de 0,6 onzas.
0.62
20.23
UPCPC
MA44 Estadística 112
c. Se dice que la máquina funciona correctamente si el peso de llenado del producto está entre
19,03 y 21,43 ¿Qué tan probable es que la máquina no funcione correctamente?
e. ¿Cuál debe ser el tiempo de llenado mínimo para pertenecer al 25% de recipientes con
mayor peso de llenado?
Xmax=?
75% = 0.75 25%
Xmin=?
2. Una máquina automática para el llenado de paquetes de arroz puede regularse de modo
que la cantidad media de arroz llenado sea la que se desee. Si la cantidad de arroz
depositada se distribuye normalmente con desviación estándar igual a 10 gramos, ¿cuál
debe ser la regulación media de modo que sólo el 1% de los paquetes tengan un peso neto
inferior a 990 gramos?
UPCPC
MA44 Estadística 113
a. Menor de 1 pulgada.
c. ¿Cuál es el valor de la excentricidad por debajo del cual se encuentra el 70% de los
árboles de leva?
d. ¿Cuál es el valor de la excentricidad por encima del cual se encuentra el 80% de los
árboles de leva?
4. La duración de las llamadas telefónicas de larga distancia realizadas desde una central
telefónica tiene distribución aproximadamente normal con media y desviación estándar
iguales a 130 segundos y 30 segundos respectivamente. ¿Cuál es la probabilidad que una
llamada realizada desde la central telefónica haya durado entre 90 y 170 segundos?
5. Un tubo fluorescente tiene una duración distribuida normalmente con una media de 7000
horas y una desviación estándar de 1000 horas. Un competidor ha inventado un sistema de
UPCPC
MA44 Estadística 114
1
Si la tasa de falla es constante, 𝑍(𝑡) = 𝛽 T: tiempo hasta que falle o tiempo entre fallas tiene
UPCPC
MA44 Estadística 115
𝛼 𝛼−1 𝛼 𝑡
−𝛽 ∫0 𝑡 𝛼−1 𝑑𝑡
𝑍(𝑡) = 𝑡 𝑅(𝑡) = 𝑒
𝛽
−𝑡 𝛼⁄
𝑑𝑒𝑠𝑎𝑟𝑟𝑜𝑙𝑙𝑎𝑛𝑑𝑜 𝑙𝑎 𝑖𝑛𝑡𝑒𝑔𝑟𝑎𝑙 𝑅(𝑡) = 𝑒 𝛽
𝛼 𝛼−1 −𝑡 𝛼⁄𝛽
𝑓 (𝑡 ) = 𝑡 𝑒
𝛽
2⁄ [Γ(𝛼+2)−Γ2 (𝛼+1 )]
𝜎2 = 𝛽 𝛼 𝛼 𝛼
𝜎 2 = 𝛼𝛽2
UPCPC
MA44 Estadística 116
ajustarán a Gauss, sino probablemente a la campana asimétrica descrita por Gumbel o alguna
similar.
Este modelo se utiliza para el estudio de los valores extremos. Por ejemplo, el día más caudaloso
o de mayor precipitación de cada aña de una serie de años.
−𝑏 𝜎𝑦 𝜇𝑦
𝐹(𝑥) = 𝑒 −𝑒 𝑏 = 𝛼(𝑥 − 𝜇) 𝛼 = 𝜇 = 𝑥̅ −
𝑆𝑥 𝛼
𝑥̅ = 𝑀𝑒𝑑𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑆𝑥 = 𝑑𝑒𝑠𝑣𝑖𝑎𝑐𝑖ó𝑛 𝑒𝑠𝑡á𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝜎𝑦 , 𝜇𝑦 = 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑡𝑎𝑏𝑙𝑎 𝑠𝑒𝑔ú𝑛 𝑒𝑙 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
UPCPC
MA44 Estadística 117
Unidad 3. Muestreo
Unidad elemental Es el objeto sobre el cual se hace la medición. También llamada unidad de
observación, unidad de análiisis, unidad estadística o elemento. Por ejemplo,
en estudios de poblaciones humanas, con frecuencia ocurre que la unidad
elemental es cada individuo.
Marco Es una lista de las unidades de muestreo que estan disponibles para
muestral elección.
Para las encuestas telefónicas el marco de muestreo podría ser una lista de todos los números
telefónicos residenciales de la ciudad; para las entrevistas personales una lista de las
direcciones de todas las calles; para una encuesta de agricultura una lista de todas las granjas
o un mapa con todas las áreas que contienen granjas.
UPCPC
MA44 Estadística 118
3.1 Censo
Es una investigación estadística que consiste en el recuento de la totalidad de los elementos
que componen la población por investigar. Es necesario que se especifique el espacio y el
tiempo al que se refiere el recuento.
Por ejemplo, el 22 de octubre del 2017 se realizaron los Censos Nacionales 2017: XII de
Población, VII de Vivienda y III de Comunidades Indígenas. Su finalidad es proveer información
sobre la composición, distribución geográfica y crecimiento de la población, los patrones de la
concentración urbana y rural, las características y servicios básicos de la vivienda para la
ejecución de las políticas públicas.
Tomado: http://www.censos2017.pe/etapas-censo/
3.2 Muestreo
Cuando se opta por una investigación usando una muestra en vez de la población, el estudio
estadístico comprende por lo menos cuatro etapas:
UPCPC
MA44 Estadística 119
Por ejemplo, la Asociación Peruana de Empresas de Investigación realizaba una encuesta para
determinar el nivel socioeconómico de una persona. Hoy en día, ya no encuesta, si no más
bien usa la Encuesta Nacional de Hogares (ENAHO) realizada por el Instituto Nacional de
Estadística e Informática (INEI).
• La persona informante fue el jefe de familia, definido como aquella persona que
más aporta económicamente en el hogar.
Marco muestral
Para el desarrollo de la investigación se consideró como marco muestral:
Tamaño de la muestra
UPCPC
MA44 Estadística 120
• Dentro de esta muestra se realizaron 200 entrevistas en Distritos con predominio de los
N.S.E. Muy Alto/Alto con el propósito de obtener una submuestra estadísticamente
significativa para este segmento.
• El total de entrevistas fue desagregado proporcionalmente a la distribución poblacional de
cada uno de los distritos de Lima Metropolitana.
Selección de la muestra
Si queremos estimar el
porcentaje de dueños que
llevan todos los meses a
su perro al veterinario ¿a
cuántos dueños se debe
entrevistar?
UPCPC
MA44 Estadística 121
N= 120
𝑧(1−𝛼) × 𝑠 2
2
𝑛=( )
𝑒
X= Tiempo de servicio
Trabajador Posición
(meses)
1
2
3
4
5
6
7
8
9
10
11
12
promedio
UPCPC
MA44 Estadística 122
Varianza poblacional
Cuando una población es más homogénea la varianza es menor y el número de entrevistas
necesarias será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a
partir de datos de estudios previos.
La fórmula para determinar el tamaño de muestra n es:
2
Z s
1−
n = 2 → Redondeo a más
e
• El valor de s puede ser estimada a partir de una muestra preliminar o piloto.
• Si la población es finita; es decir, se conoce el tamaño de la población, el tamaño de muestra
se corrige con la siguiente fórmula:
UPCPC
MA44 Estadística 123
n
nc =
1+
n ➔ Redondeo a más
N
UPCPC
MA44 Estadística 124
3.8 0.999928 0.999931 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950
3.9 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967
Ejemplo
1. El jefe de la oficina de seguridad del distrito de San Martin de Porres desea realizar una
estimación de cuánto tiempo, en promedio, estarían dispuestos a permanecer en las charlas
sobre rondas vecinales los vecinos del distrito. En estudios anteriores se estimó que el tiempo
medio era de 45,25 minutos con una varianza de 18,75 minutos2, ¿A cuántas personas se
debería entrevistar si se estima un error máximo de 1,25 minutos y una confianza del 95%?
Suponga que esta variable se distribuye normalmente.
Solución
2. Universal es una nueva emisora de carácter político y a una semana de estar al aire cuenta
ya con 3000 radioescuchas. El gerente de Universal desea realizar un estudio para estimar el
tiempo de conexión medio de los oyentes. ¿Cuál debe ser el tamaño de muestra de oyentes
que se necesita si desea tener un error de estimación de 0,15 horas con un nivel de confianza
del 95%?
3,2 4,8 5,3 9,1 6,3 8,2 6,5 9,6 10,3 8,6
6,3 7,9 8,2 7,9 6,9 9,3 8,6 6,8 10,1 9,0
Solución
El margen de error es e = 0,15 y la desviación estándar s = 1,8597
Confianza=95% → Significancia 5%
El valor de Z(0.975) = 1,96
UPCPC
MA44 Estadística 125
3. ¿Cuál debe ser el tamaño de muestra si se desea estimar el tiempo promedio, en horas, que
demoran los estudiantes en llegar a la universidad con un nivel de confianza del 94% y con
un error de estimación de 0,1 horas? Una muestra piloto de 8 alumnos arrojó los siguientes
resultados:
Solución
El margen de error es e = 0,1 y la desviación estándar s = 0,56
4. La gerencia de un diario local desea estimar el gasto promedio mensual que las familias
destinan a la compra de diarios. La gerencia desea que sus resultados tengan un nivel de
confianza del 95% y un error de estimación no mayor a tres soles. Si la desviación estándar
de los gastos en compra de diarios en una muestra piloto fue de 20 soles ¿Qué tamaño de
muestra deberá seleccionar?
Solución
Ejercicios de aplicación
1. Se desea realizar una encuesta para estimar el número promedio de amigos que los jóvenes
tienen en su cuenta de Facebook. Con un error de estimación de cinco amigos y con un nivel
de confianza del 95%, determine el tamaño de muestra adecuado si en una muestra piloto
se obtuvo que el valor de la desviación estándar del número de amigos es igual a 42.
Rpta: 272
2. El jefe de la oficina de seguridad del distrito de San Borja desea realizar una estimación de
cuánto tiempo, en promedio, estarían dispuestos a permanecer los vecinos escuchando
UPCPC
MA44 Estadística 126
charlas sobre seguridad vecinal. En estudios anteriores se estimó que el tiempo promedio
era de 45,25 minutos con una varianza de 18,75 minutos2, ¿A cuántas personas se debería
entrevistar si se estima un error máximo de un minuto y una confianza del 95%? Suponga
que esta variable se distribuye normalmente. Rpta: 73
3. La máquina de refrescos de una universidad está ajustada de tal manera que la cantidad de
líquido despachada se distribuye aproximadamente en forma normal. ¿Qué tan grande se
requiere que sea la muestra si se desea tener una confianza de 98% de que su media muestral
esté dentro de 0,05 centilitros del promedio real? Se cuenta con la siguiente información de
una muestra preliminar o piloto de tamaño 24. Rpta: 60
1,99 1,98 2,04 1,97 2,18 2,04 2,13 2,03 2,08 2,72 2,04 2,09
2,11 2,13 2,14 1,98 2,29 2,02 1,94 1,82 2,02 2,10 2,19 2.13
4. Una editorial desea evaluar la media muestral del tiempo de distribución de su último best
seller en cada uno de sus 400 puntos de venta. Para este estudio se desea tener un error de
estimación de tres minutos con un nivel de confianza del 90%. Además, se sabe que la
desviación estándar de los tiempos de distribución es de 17 minutos. ¿Qué tamaño de
muestra debe emplearse para el estudio? Rpta: 72
5. La gerencia de un diario local quiere determinar la cantidad mensual promedio que las
familias gastan en compra de diarios. En una muestra piloto se obtuvo que la desviación
estándar de los gastos fue de 20 soles. Si la gerencia desea tener una confianza del 93% en
la información recopilada y no quiere que el error de tolerancia sea mayor a tres soles. ¿Qué
tamaño de muestra deberá seleccionar para determinar el gasto familiar mensual promedio?
Rpta: 146
Si p̂ se utiliza como una estimación de p podemos tener una confianza del ( 1 − )x100% de
que el error será menor de una cantidad específica e cuando el tamaño de la muestra es
aproximadamente:
z 2 pˆ (1 − pˆ)
1−
n= 2
e2
UPCPC
MA44 Estadística 127
El valor de pˆ(1 − pˆ ) se hace máximo cuando pˆ = 0,5 ; por lo tanto la fórmula para calcular el
tamaño de muestra queda de la siguiente manera:
z 2 0,5(1 − 0,5)
1−
n= 2
e2
Ejemplos
1. En cierto estudio piloto, el 32% de los 1 600 adultos encuestados dijeron que el programa
espacial debe enfatizar la exploración científica. ¿Qué tan grande se necesita que sea la
muestra definitiva de adultos en la encuesta si se desea tener una confianza del 95% de que
el porcentaje estimado esté dentro del 2% del porcentaje real?
Solución
El valor de z = 1,96 y la estimación del porcentaje de adultos que manifiestan que se debe
1−
2
enfatizar en la exploración científica es del 32%.
Solución
UPCPC
MA44 Estadística 128
1. En una muestra aleatoria de 300 personas mayores de edad de una gran ciudad se encontró
que 105 leían un determinado periódico. De acuerdo con los datos se pretende seleccionar
una nueva muestra para conseguir un error de estimación de 0,03 como máximo, con un
nivel de confianza del 98% para la estimación de la proporción de lectores de ese periódico.
Encuentre el número de individuos de la población que, como mínimo, debe tener la
muestra.
Solución
Solución
3. En una muestra piloto de 500 familias en la ciudad de Lima, se encuentra que 340 están
suscritas a HBO. ¿Qué tan grande se requiere que sea una muestra si se quiere tener 95%
de confianza de que la estimación de la proporción de familias suscritas a HBO esté dentro
de 0,02 de la proporción verdadera?
Solución
UPCPC
MA44 Estadística 129
Solución
UPCPC
MA44 Estadística 130
Rpta: 784
2. Se realiza un estudio para estimar la proporción de residentes en una ciudad que están a
favor de la construcción de una vía expresa. ¿Qué tan grande deber ser una muestra si se
quiere una confianza de 97% de que la estimación estará dentro de 0,03 de la proporción
real de residentes de la ciudad que están a favor de la construcción de la vía expresa?
Rpta: 1309
3. Una empresa desea estimar la proporción de trabajadores del área de diseño publicitario
que están a favor de que se corrija el programa de capacitación que se viene dando
actualmente en el área. La estimación debe quedar a menos de 0,08 de la proporción
verdadera de los que favorecen el programa de capacitación. Con una confianza del 95%
¿cuántos trabajadores se deben seleccionar? Rpta: 151
5. Una reportera de la revista Byte desea realizar una encuesta para estimar la verdadera
proporción de estudiantes universitarios que poseen tablet y quiere tener una confianza del
96% con un margen de error de 0,035. Suponga que en un estudio previo obtuvo un estimado
de la proporción que reveló un porcentaje del 29% de estudiantes universitarios que poseen
tablet. ¿A cuántos estudiantes universitarios deberá encuestar? Rpta: 707
UPCPC
MA44 Estadística 131
Ficha técnica
UPCPC
MA44 Estadística 132
Ejercicio
UPCPC
MA44 Estadística 133
Complete:
Elección de la muestra
Se seleccionará los elementos del marco de muestreo que conformarán la muestra aplicando la
técnica de muestreo apropiada para el estudio que se desea llevar a cabo.
Es el procedimiento por el cual se selecciona una muestra en forma aleatoria y sin reemplazo a
n unidades de muestreo de una población que contiene un total de N unidades.
Se garantiza que cada una de las muestras posibles tiene la misma probabilidad de ser elegida.
Por ejemplo, hacer una encuesta a los votantes marcando números de teléfono al azar es un
método no representativo pues no tiene en cuenta a los votantes que no disponen de teléfono
y cuenta varias veces a los que tienen varios números.
UPCPC
MA44 Estadística 134
Ejercicio
1. Una empresa de tiene un total de 150 empleados y ha registrado información acerca de las
variables: ingreso mensual, en soles (Ingreso) y años cumplidos en la empresa (Años).
UPCPC
MA44 Estadística 135
Solución
a. Elabore un listado con el número seleccionado y el valor del ingreso mensual y años en la
empresa:
Posición
Ingreso mensual
Años en la empresa
Posición
Ingreso mensual
UPCPC
MA44 Estadística 136
Años en la empresa
UPCPC
MA44 Estadística 137
UPCPC
MA44 Estadística 138
b. Con la muestra obtenida estime e interprete las medidas de tendencia central para la
variable ingreso mensual.
Media
Mediana
Moda
Muestreo sistemático
En el muestreo sistemático se debe elegir un elemento del marco muestral cada cierto intervalo.
Este muestreo supone que se cuenta con una enumeración completa de los elementos de la
población.
Una característica importante del muestreo sistemático es que presenta menos variabilidad que
el muestreo aleatorio simple, esto debido a la presencia de una estratificación innata en el
diseño del muestreo sistemático.
𝑁
Calcule el valor de k, donde 𝑘 = 𝑛 . El valor de k se redondea al valor del entero menor.
Seleccione aleatoriamente un número entero entre 1 y k llamado arranque aleatorio (A)
Para encontrar el valor de A, la cantidad de columnas a usar de la tabla de números
aleatorios dependerá de la cantidad de dígitos que tenga k. Por ejemplo, si el valor de k es
un número de dos cifras, entonces deberá agregar a la columna dada por enunciado una
columna correlativa para completar un número de 2 cifras.
A partir de este número elegido, seleccione el siguiente que ocupa la posición (A + k) del
listado del marco muestral y así sucesivamente hasta completar la muestra.
UPCPC
MA44 Estadística 139
Ejemplo
Posición 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Edad 12 15 23 10 32 65 34 23 43 54 22 34 56 34 25
Solución
N 15
Calculemos el valor de k, donde k = = = 3,75 . El valor de k se redondea al valor del entero
n 4
menor, luego k = 3. Seleccionemos aleatoriamente un número entero entre 1 y k = 3, llamado
arranque aleatorio (A). Observando la columna C3 de la tabla de números aleatorios tenemos
que A = 2.
UPCPC
MA44 Estadística 140
Posición 2 5 8 11
Edad 15 32 23 22
3.2.1.1 Ejercicio
Solución
UPCPC
MA44 Estadística 141
Posición
Sexo
Edad
Estatura
UPCPC
MA44 Estadística 142
Solución
UPCPC
MA44 Estadística 143
Posición
Años en la
empresa
Nivel educativo
Media =
Mediana =
Proporción =
UPCPC
MA44 Estadística 144
Contraste de hipótesis
Tipos de errores
Información muestral
No rechazar H0 Rechazar H0
H0 es cierta No hay error Error tipo I
La realidad
H0 es falsa Error tipo II No hay error
Error tipo I
El valor es fijado por la persona que realiza la investigación. Por lo general, 1%, 5% o 10%
Error tipo II
Ocurre cuando se acepta una hipótesis H0 que es falsa, la probabilidad de cometer error tipo
II es la probabilidad de no rechazar H0 cuando ésta es falsa.
UPCPC
MA44 Estadística 145
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado.
Paso 6
Paso 5 •Concluir
𝐻 : 𝜇 = 𝜇0 𝐻0 : 𝜇 ≥ 𝜇0 𝐻0 : 𝜇 ≤ 𝜇0
{ 0 { {
𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 > 𝜇0
Prueba bilateral Pruebas unilaterales
UPCPC
MA44 Estadística 146
Bilateral H1: 0
-T(a; n-1)
T(a; n-1)
UPCPC
MA44 Estadística 147
1. Se sabe que el rendimiento promedio (en porcentaje) de un proceso químico es 12. Sin
embargo, últimamente se observa muchos valores menores. Para comprobar que
efectivamente el rendimiento promedio ha disminuido, se toma una muestra aleatoria de un
lote de materia prima y se registra las siguientes observaciones:
9.7 12.8 8.7 13.4 8.3 11.7 10.7 8.1 9.1 10,5
- 4. Regiones críticas:
UPCPC
MA44 Estadística 148
-T(0.04;9)= -1.9727
- 5. Decisión: Rechazo la H0
- 6. Conclusión: Con un nivel de significancia del 4%, sí es posible afirmar que el
rendimiento promedio del proceso químico ha disminuido.
2. Las bombillas LED poseen un rendimiento promedio luminoso superior a todas las tecnologías
existentes. La Empresa SOLARI afirma que el rendimiento luminoso de las bombillas LED que
produce es de 70 lumens/watio, sin embargo, debido a la competencia en el mercado,
introduce nuevos cambios en su tecnología con la finalidad de lograr un mejor rendimiento.
Para poder comprobar los nuevos resultados, toma una muestra aleatoria de 61 bombillas
actuales, sometiéndolas a pruebas rigurosas, obteniendo un promedio de 75 lumens/watio y
una desviación estándar de 6.8 lumens/watio. Con un nivel de significación del 4%, ¿Se puede
afirmar que los nuevos cambios mejoraron el rendimiento promedio luminoso de las bombillas
LED?
X= Rendimiento de las bombillas
1. Hipótesis
H0: u<=70 (F)
H1: u>70 (V)
2. α = 0,04.
3. Estadísticos de la prueba
4. Regiones críticas:
UPCPC
MA44 Estadística 149
5. Decisión: Rechazo H0
6. Conclusión: Con un nivel de significancia del 4%, sí es posible afirmar que los cambios
mejoraron el rendimiento promedio luminoso de las bombillas LED.
Ejercicios
2. La densidad de ciertos fluidos es muy volátil por lo que se requiere que la densidad promedio
sobrepase al valor de 0.031 para poder utilizarlo. La empresa 3C Ingenieros, encargada de
realizar los análisis fisicoquímicos, debe evaluar la densidad de la sustancia XP90. Para estos
fines se selecciona aleatoriamente 10 muestras de distintos lotes de producción y se registra
la densidad. Los datos se muestran a continuación:
Muestra 1 2 3 4 5 6 7 8 9 10
Densidad 0.033 0.040 0.031 0.034 0.036 0.031 0.036 0.034 0.034 0.032
Suponiendo que la intensidad luminosa tiene distribución normal ¿Visual Systems S.A.
deberá decidir realizar la exportación del lote? Use un nivel de significación de 3%.
2) Según las últimas investigaciones en hidrografía, los ingenieros civiles usan actualmente
telémetros de láser manuales de bajo peso debido a su gran precisión al momento de
realizar una medición. Un ingeniero civil de una importante constructora está encargado de
analizar la eficiencia de una marca de estos aparatos, por lo que decide realizar pruebas con
este equipo, obteniendo los siguientes resultados del error de lectura, en milímetros, en la
localización de un objeto situado a 500 metros.
5.1 5.4 4.9 5.2 5.4 5.1 5.3 5 4.8
UPCPC
MA44 Estadística 150
𝐻 : 𝑝 = 𝑝0 𝐻 : 𝑝 ≥ 𝑝0 𝐻 : 𝑝 ≤ 𝑝0
{ 0 { 0 { 0
𝐻1 : 𝑝 ≠ 𝑝0 𝐻1 : 𝑝 < 𝑝0 𝐻1 : 𝑝 > 𝑝0
Zona de
Zona de Bilateral H1 : p p 0
rechazo
rechazo
-Z(1-a/2) 0 Z(1-a/2)
Zona de
rechazo Unilateral
H1 : p < p 0
Izquierda
-Z(1-a) 0
UPCPC
MA44 Estadística 151
Unilateral H1 : p > p 0
Zona de Derecha
rechazo
0 Z(1-a)
6. Concluir.
Ejemplo
7. La Municipalidad de Lima ampliará el presupuesto para fiscalizar las obras si más del 30% de
las obras de Lima no cumplen o cumplen parcialmente con las normas de seguridad y
acabados en las obras de construcción civil. Se selecciona al azar 94 obras y se obteniendo la
siguiente gráfica:
60
50
40
22
30
20 8
10
0
No cumplen Cumplen parcialmente Cumplen totalemnte
1. Hipótesis:
H0: p <= 0.3 (V)
H1:¿ p > 0.3 ? (F)
UPCPC
MA44 Estadística 152
2. Nivel de significancia: 2%
3. Estadístico de la prueba:
̂
𝟑𝟎
̂ − 𝒑𝒐
𝒑 − 𝟎. 𝟑
𝒁= = 𝟗𝟒 = 𝟎. 𝟒𝟎𝟓𝟏
√ 𝒑 𝒐 (𝟏 − 𝒑 𝒐 ) √ 𝟎. 𝟑(𝟏 − 𝟎. 𝟑)
𝒏 𝟗𝟒
4. Regiones criticas
Unilateral H1 : p > p 0
Zona de Derecha
rechazo
Z(1-0.02)= 0.98
Z(0.98)= 2.05
Ejercicios
1. Un fabricante sostiene que al menos el 95% de los equipos que envió a una fábrica está
acorde con las especificaciones técnicas. Una revisión de una muestra de 200 piezas reveló
que 18 eran defectuosas. Asumiendo normalidad, pruebe la afirmación del fabricante al nivel
de significancia de 1%.
2. En cierta universidad se estima que a lo más el 25% de los estudiantes van a bicicleta a la
universidad. ¿Esta parece ser una estimación válida si, en una muestra aleatoria de 90
estudiantes universitarios, se encuentra que 28 van en bicicleta a la universidad? Utilice un
nivel de significancia de 0,05.
UPCPC
MA44 Estadística 153
3. Los usuarios de la sustancia XP90 indican que cuando esta sustancia no es óptima ocurre un
fenómeno conocido como licuefacción y se requiere un reproceso. La certificadora,
encargada de la realización de los análisis fisicoquímicos, asegura que la proporción de
reprocesos disminuye cuando la sustancia está certificada por lo tanto una de las metas de
la empresa es tener más del 20% de sustancias certificadas. De una muestra de 120
reprocesos se identificó que 26 usaron sustancias certificadas. En base a esta información
podemos afirmar que ¿la empresa ha logrado la meta? Use α=0,03
5. Una encuestadora realizó una consulta a los pobladores de la urbanización Lomas para saber
si están de acuerdo o no con la construcción de un nuevo centro comercial en el lugar. Al
seleccionar una muestra al azar de 250 pobladores de dicha urbanización, se obtuvo que 85
de ellos apoyaban la construcción del nuevo centro comercial. La construcción empezará solo
si más del 30% de los ciudadanos apoyan el proyecto, de lo contrario se debe optar por otras
urbanizaciones vecinas. Realice la prueba estadística respectiva a un nivel de significación del
3%
UPCPC
MA44 Estadística 154
H 0 : 1 = 2
2 2
H 1 : 1 2
2 2
3. Estadístico de la prueba:
𝑆2
𝐹𝑐 = 𝑆12 𝐹(𝑛1−1,𝑛2−1)
2
5. Concluir
Ejemplo
Un ingeniero desea probar si la variabilidad entre los tiempos usados por ambas técnicas no es
similar. Use =0,05
UPCPC
MA44 Estadística 155
3. Estadístico de la prueba:
Mínimo 4 decimales
Bilateral H1 :
Unilateral
Izquierda H1 :
-T (a; n1+n2-2)
UPCPC
MA44 Estadística 156
Unilateral
H1 :
Derecha
T (a; n1+n2-2)
6. Concluir
3. Estadístico de la prueba:
2
𝑆2 𝑆2
(𝑥1 −𝑥2)−𝑘 (𝑛1 +𝑛2 ) Redondeo a
1 2
𝑡𝑐 = 𝜐= 2 2 menos
𝑆2 𝑆2
𝑆2 2
1 + 𝑆2 (𝑛1 ) (𝑛2 )
√ 1 2
𝑛 1 𝑛2 +
(𝑛1 −1) (𝑛2−1)
El valor de debe ser entero pues son grados de libertad, si se obtiene un valor decimal se
deberá redondear al entero menor del número obtenido. Por ejemplo, si = 18,1260827 18
Bilateral
H1 :
UPCPC
MA44 Estadística 157
-T (a/2; v) T (a/2; v)
Unilateral
Izquierda H1 :
-T (a; v)
Unilateral
Derecha
T (a; v)
6. Concluir
Ejemplo
El tiempo de exposición, en minutos, de un metal con una sustancia química hasta lograr un
adherido perfecto es parte de un proceso de producción. Se considera que el menor tiempo de
exposición es mejor. Como parte de la mejora del proceso se somete a prueba dos
procedimientos y se mide el tiempo de exposición para dos muestras independientes.
UPCPC
MA44 Estadística 158
a. Asumiendo que los tiempos de exposición tienen distribución normal, ¿se puede afirmar que
hay diferencia en la variación de los tiempos? Use un nivel de significación del 5%.
- Planteamiento de hipótesis
𝐻0 : 𝜎12 = 𝜎22
{
𝐻1 : 𝜎12 ≠ 𝜎22
- Estadístico de la prueba:
b. Asumiendo que los tiempos de exposición tienen distribución normal y usando un nivel de
significación del 5%, ¿recomendaría el procedimiento B?
UPCPC
MA44 Estadística 159
Ejercicio
UPCPC
MA44 Estadística 160
2. La exactitud obtenida en mediciones con GPS depende del equipo receptor. Uno de los
fabricantes de receptores está realizando un estudio para comparar la exactitud de dos
modelos, GPSMAP (1) y Oregón (2). Según información del departamento de control de
calidad, la exactitud del modelo GPSMAP es menor que la de Oregón, por lo cual se sugiere
dejar de fabricarla. El jefe de producción selecciona al azar dos muestras de receptores de
ambos modelos con la finalidad de realizar la prueba correspondiente y registra la exactitud,
en mm, obtenida por ambos receptores. Considerando que la exactitud se distribuye
normalmente y con un nivel de significación del 4%, ¿la empresa debe dejar de fabricar el
modelo GPSMAP.
4. Un componente de los satélites son los paneles solares. La compañía INTELSAT está
probando dos tipos de paneles solares: el EQM y el EM3, los cuales deben pasar un estricto
control de calidad. Según información del departamento de calidad si la potencia de los
paneles solares EQM supera en más de 2 Kw (K=2) a los de EM3, se sugiere dejar de fabricar
UPCPC
MA44 Estadística 161
el modelo EM3. El jefe de producción selecciona al azar dos muestras de paneles de ambos
modelos y registra las potencias de estos. A continuación, se presenta la siguiente
información:
UPCPC
MA44 Estadística 162
a. Diseño de experimentos
Un experimento diseñado es una prueba o serie de pruebas en las cuales se inducen cambios
deliberados en las variables de entrada (factores controlables) de un proceso o sistema, de
manera que sea posible observar e identificar las causas de los cambios en la variable de salida
(variable respuesta).
Conceptos generales
Factor: Variable independiente que afecta los resultados del experimento: controlables o
no controlables. En un experimento se puede evaluar uno o más factores.
Tratamientos: Un tratamiento corresponde a los niveles de un factor o a la combinación de
los niveles de dos o más factores. Es un conjunto de procedimientos cuyo efecto sobre la
variable respuesta nos interesa estudiar. Su efecto se mide y se compara con otros
tratamientos.
Variable respuesta: Es la variable en la cual se evaluarán los efectos de los tratamientos.
Unidad experimental: Es la unidad (sujeto u objeto) sobre el cual se le aplica un tratamiento.
Ejemplo
Complete lo solicitado:
UPCPC
MA44 Estadística 163
Variable respuesta Tiempo, en minutos, que tomó ensamblar las piezas en los
equipos electrónicos.
Factor Programas de capacitación
Tratamientos Capacitación A, B y C.
Los datos para analizar pueden arreglarse en una tabla como la que se muestra a continuación:
Tratamientos
Repeticiones 1 2 … i … k
1 Y11 Y21 … Yi1 … Yk1
2 Y12 Y22 … Yi2 … Yk2
3 Y13 Y23 … Yi3 … Yk3
… … … … … …
j Y1j Y2j … Yij … Ykj
… … … … … … …
ni Y1 n1 Y2 n2 … Yi ni … Yk nk
Total Y1. Y2. … Yi. … Yk.
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales
se harán varias suposiciones. Con más precisión, se supondrá que las poblaciones son normales
y que tienen varianzas iguales.
UPCPC
MA44 Estadística 164
Bartlett's Test
Con un p valor de 0,988, el resultado de esta prueba indica que no hay suficiente evidencia
estadística para rechazar el supuesto de homogeneidad de varianzas al 5% de nivel de
significancia.
60
50
40
30
20
10
5
1
-2 -1 0 1 2
RESI1
UPCPC
MA44 Estadística 165
Con un p valor de 0,150, el resultado de esta prueba indica que no hay suficiente evidencia
estadística para rechazar el supuesto de normalidad al 5% de nivel de significancia.
donde:
yij
: valor observado del i- ésimo tratamiento en la j-ésima repetición
: Media poblacional
i : Efecto del i-ésimo tratamiento
ij : Error experimental asociado a la observación yij, donde ij ~ N(0, 2 )
Ejemplo:
Una importante compañía de construcciones desea comparar tres marcas de taladros para
determinar cuánto tiempo pasa antes de necesitar una reparación; si los tiempos de vida de
los taladros de cada marca se distribuyen normalmente. ¿Las marcas de taladro tienen un
tiempo de vida útil promedio similar a las otras marcas antes de requerir una reparación?
Un ingeniero civil residente de una obra desea evaluar el efecto que tiene las técnicas de
mezclado de concreto sobre la resistencia (kg/cm2) a la compresión. Para ello evalúa cuatro
técnicas diferentes y para realizar la prueba produce especímenes de concreto. ¿La
resistencia promedio a la compresión es la misma para cada técnica de mezclado?
Suponga que una empresa constructora brinda capacitación con diferentes métodos a sus
operarios. ¿El rendimiento promedio de los operarios en la empresa es el mismo según los
métodos de adiestramiento recibido por el operario?
UPCPC
MA44 Estadística 166
Análisis de la varianza
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar tres o más
medias. Se desea medir el efecto del factor en estudio (variable independiente de naturaleza
cualitativa o cuantitativa) sobre la variable respuesta (variable dependiente de naturaleza
cuantitativa).
Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fc
variación
k
yi2• y•2•
𝑆𝑀𝑇𝑅
Tratamientos k–1 SCTR = − 𝐶𝑀𝑇𝑅 =
i =1 ni n• 𝑘−1
𝑆CE CMTR
Error n. – k SCE = SCT − SCTR 𝐶𝑀𝐸 = CME
𝑛• − 𝑘
k n
y •2•
Total n. – 1 SCT =
i =1 j =1
y ij2 −
n•
UPCPC
MA44 Estadística 167
Hipótesis estadística
El factor en estudio no
Ho: 1= 2=…= K No hay diferencia en las
afecta a la variable
medias poblacionales
respuesta
H1: Al menos un i es Hay diferencia en las medias El factor en estudio afecta a
diferente a los demás poblacionales la variable respuesta
Ho: A = B =…= K
H1: Al menos un i es diferente a los demás
𝐂𝐌𝐓𝐑
Fc = 𝐂𝐌𝐄
Paso 5: Conclusión
Ejemplo
La gerente de mercadeo de un banco planea poner en marcha cierto tipo de promociones para
atraer nuevos clientes en cuatro sucursales del banco. Ella está convencida que diferentes tipos
de promociones atraerán a personas de diferentes grupos de ingreso, por lo que, de haber
diferencias entre los ingresos medios de los clientes de cada sucursal, se optará por un
programa de promociones distinto para cada una.
Considere a los montos de los depósitos, en miles de soles, como una medida representativa de
los ingresos de los clientes. Se presentan datos para una muestra de siete depósitos de cada
sucursal ¿Debe la gerente optar por un programa de promociones distinto para cada sucursal?
Evalúe esta posibilidad con un nivel de significación del 5%.
Identifique:
Variable respuesta
UPCPC
MA44 Estadística 168
Factor
Tratamientos
Unidad experimental
k =4
y i2• y•2• 27,32 23,82 25,82 23,12
• SCTR =
i =1
−
ni n• 7
= +
7
+
7
+
7
− (357 ,1429 ) = 1,568
UPCPC
MA44 Estadística 169
Hipótesis estadística
El factor en estudio no
Ho: 1= 2=…= K No hay diferencia en las
afecta a la variable
medias poblacionales
respuesta
H1: Al menos un i es diferente Hay diferencia en las El factor en estudio afecta a
a los demás medias poblacionales la variable respuesta
Ho: A = B = C
H1: Al menos un i es diferente a los demás
= 0,05
Fc = 0,49
Cuando el experimentador desea determinar todos los pares de medias que se puede concluir
que difieren de otro (µi versus µj) se utilizan las pruebas de comparaciones múltiples, como la
de Tukey - Kramer. Con esta prueba, con el fin de probar todas las hipótesis nulas simultaneas
H0: µi - µj = 0
H0: µi - µj ≠ 0
UPCPC
MA44 Estadística 170
𝐶𝑀𝐸 1 1
√ 2 (𝑟 + 𝑟 )
𝑖 𝑗
donde:
Ejemplo
Los siguientes datos corresponden a las mediciones de los pesos de recubrimiento de estaño
de discos por cuatro laboratorios diferentes.
Determine qué medias difieren de las otras. Use un nivel de significación = 0,05 .
Solución
UPCPC
MA44 Estadística 171
µB µC µD µA
0,227 0,230 0,250 0,272
Ejemplo
Una importante compañía de construcciones desea comparar tres marcas de taladros para
determinar cuánto tiempo pasa antes de necesitar una reparación; si los tiempos de vida de
los taladros de cada marca se distribuyen normalmente. Los datos de los tiempos de vida útil
(decenas de horas) para cada marca se encuentran en la siguiente tabla.
Tratamientos Marca A, B y C
Parámetro: Promedio
Yij: es el tiempo de vida útil del jésimo taladro perteneciente a la iésima marca
UPCPC
MA44 Estadística 172
a. ¿Sugieren los datos que el tiempo promedio de vida es el mismo para cada marca de taladro
antes de una reparación? Utilice nivel de significación de 5%.
b. Si la prueba resulta significativa, ¿qué marca de taladro recomendaría utilizar?
Solución
a. ¿Sugieren los datos que el tiempo promedio de vida es el mismo para cada marca de taladro
antes de una reparación? Utilice nivel de significación de 5%.
Paso 1: Formular la hipótesis de trabajo
Ho: A = B = C
H1: Al menos un i es diferente a los demás.
= 0,05
Fc = 7,037
Paso 5: Conclusión
Luego, ordenando las medias en forma ascendente según las medias muestrales, y colocando
una línea debajo de las medias no se ha encontrado diferencias significativas entre las marcas
UPCPC
MA44 Estadística 173
Ejercicio
1. Un ingeniero civil residente de una obra desea evaluar el efecto que tienen las técnicas de
mezclado de concreto sobre la resistencia (kg/cm2) a la compresión. Para ello evalúa cuatro
técnicas diferentes y para realizar la prueba produce especímenes de concreto. Si la
resistencia a la compresión del concreto de cada técnica se distribuye normalmente y tienen
la misma varianza. Los datos recabados son los siguientes:
Tratamientos Técnicas 1, 2, 3 y4
UPCPC
MA44 Estadística 174
rechaza Ho
Paso 5: Conclusión
2. Una compañía que produce ladrillos efectuó un experimento para determinar si cuatro
temperaturas (en °F) de cocción específicas afectan la densidad (gr/cm3) de cierto tipo de
ladrillo. La densidad de los ladrillos para cada temperatura se distribuye normalmente y
tienen la misma varianza.
Temperaturas
100°F (1) 125°F (2) 150°F (3) 175°F (4)
19,9 21,7 20,9 21,8
19,7 21,4 20,8 21,9
19,8 21,5 20,8 21,7
19,7 21,5 20,6 21,6
UPCPC
MA44 Estadística 175
20,0 21,7
Variable respuesta
Factor
Tratamientos
Unidad experimental
Fuente de
Grados de libertad Suma de cuadrados Cuadrado medio Fc
variación
Tratamientos
Error
Total
𝐲𝟐
TC =− 𝐧•• =
•
UPCPC
MA44 Estadística 176
Ho:
H1:
Fc =
Paso 5: Conclusión
Ejercicios
1. Importación Bombardera desea determinar si el tipo de chip (A, B, C) que tienen laptops
que ellos importan influye en el tiempo de respuesta (microsegundos). Si el tiempo de
respuesta para cada tipo de chip se distribuye normalmente y tienen la misma varianza.
Para esto, prueba 5 laptops con cada chip. A continuación, se muestran los resultados, en
microsegundos:
UPCPC
MA44 Estadística 177
21 30 19
18 27 20
24 38 17
2. Un empresario debe elegir la alternativa más eficiente para fabricar un mismo producto. Se
analiza el costo por unidad (en soles) de tres alternativas. Si el costo por unidad para cada
alternativa se distribuye normalmente y tienen la misma varianza, ¿qué alternativa deberá
elegirse?
a. Pruebe si existe alguna diferencia significativa en los costos unitarios de las tres
alternativas de fabricación. Utilice nivel de significación de 5%.
b. Si existen diferencias, ¿entre qué grupos están las diferencias? Utilice nivel de
significación de 5%.
UPCPC
MA44 Estadística 178
Variable respuesta
Factor
Tratamientos
Unidad experimental
A continuación, se muestra la tabla del ANVA con algunos datos faltantes. Asimismo, se
muestran los resultados del análisis de comparaciones múltiples de Tukey.
Error
Total 13 54150
Explique y fundamente, con un nivel de significación del 5%, ¿con qué tipo de estructura se
debería construir la represa?
UPCPC
MA44 Estadística 179
¿Qué es el análisis de
regresión lineal?
Yi = 0 + 1 X i + ei i = 1, 2,…, n
El primer paso en el análisis de regresión es registrar simultáneamente los valores de las dos
variables asociadas (X, Y) en una gráfica bidimensional para ver si existe una tendencia lineal
que podría explicar la relación entre estas dos variables
UPCPC
MA44 Estadística 180
X vs Y
X vs Y
1600
9
Modelo lineal
1400
8
1200
Buen ajuste
7 1000
800
Y
Y
6
600
X vs Y
60 X vs Y
140
130
50
120
110
40 100
Y
Y
90
80
30
70
60
50
20
20 25 30 35 40 45 50200 400 600 800 1000 1200
X X
Mediante este método es posible seleccionar la recta que se ajuste mejor a los datos. La
recta resultante tiene dos características importantes:
• La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
• La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta daría
una menor suma de cuadrados de tales desviaciones).
n
Es decir: (y
i =1
i − yˆ i ) 2 es mínima
Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
n
n
y
i =1
= nˆ 0 + ˆ1 xi
i
i =1
n
n
ˆ n 2
i =1
x y
i i = ˆ 0 i + 1 xi
x
i =1 i =1
Este método nos permite estimar los parámetros del modelo de regresión. Resolviendo las
ecuaciones simultáneas para 0 y 1 tenemos:
UPCPC
MA44 Estadística 181
n
n
n
n
x y − x y
i i i i
y ˆ0 = y − ˆ1 x
ˆ1 = i =1 i =1 i =1
2
n
n
n
i =1
xi2 −
x
i =1
i
Donde:
• ˆ1 es la pendiente de la recta o coeficiente de regresión
Ejemplo
• Relación: Directa
• Pendiente: Positiva
A mayor experiencia profesional, mayor ingreso
Interpretación de los coeficientes:
b0 = 2500 → x=0 → Cuando no se tenga experiencia profesional, el valor del ingreso mensual
será 2500 soles.
b1 = 450 → Por cada año de experiencia profesional, el valor del ingreso mensual aumentará
en 450 soles.
x = 1 → y = 2950
x = 3 → y = 3400
UPCPC
MA44 Estadística 182
Ejercicio
Se desea modelar la vida útil (en años) de un satélite en función de la cantidad de combustible
(en kg) requerido para moverlo de su posición orbital, usando un modelo lineal. Los datos se
muestran a continuación:
Vida útil (años) 10,8 11,5 12 12,4 13,2 13,7 13,9 14,1 14,8 15
Cantidad de combustible (kg) 150,4 156,3 162,5 165,8 172,5 168,9 184,5 185,9 187,2 199,4
14
Vida útil
13
12
11
UPCPC
MA44 Estadística 183
ˆ1 = b1 Por cada kilogramo de combustible, la vida útil aumenta en 0.087 por año
Análisis de varianza
n
2
n
2
n
yi
n
xi
Donde: SCTot =
i =1
2
yi −
i =1
n
, SC Re g = ˆ12 .
i =1
xi2 − i =1
n
y
SCE = SCTot − SC Re g
ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor
libertad cuadrados cuadrados F crítico de F
Regresión 1 16.5077 16.5077 85.9622 0.0000
Residuos 8 1.5363 0.1920
Total 9 18.0440
Este análisis permite realizar la prueba de hipótesis para validar el modelo de regresión
obtenido a un nivel de significación α.
UPCPC
MA44 Estadística 184
1. H 0 : 1 = 0
H1 : 1 0
2. Nivel de significancia: α
3. Prueba estadística
CMReg
Fcal =
CMError
4. Criterios de decisión
Si Fcal > Fcrit. (α, 1, n-2) → se rechaza Ho; por lo tanto, el modelo es válido o
ZR.
Si Fcal ≤ Fcrit. (α, 1, n-2) → no se rechaza Ho; el modelo no es válido
α
ZNR
Fcrit=
5. Conclusión
Ejercicio
c. A un nivel de significación del 5%, valide el modelo de regresión lineal del ejercicio anterior.
ANÁLISIS DE VARIANZA
Grados de libertad Suma de cuadrados
Promedio de los cuadrados F
Regresión 1 16.50772225 16.50772225 85.96217596
Residuos 8 1.536277747 0.192034718
Total 9 18.044
1. H 0 : 1 = 0
H1 : 1 0
2. α = 0.05
3. Prueba estadística
Fcal= 85.96
Fcri(0.05 ; 1 ; 8) = 5.32 → RH0
UPCPC
MA44 Estadística 185
4. Decisión:
ZR.
α
ZNR
Fcrit=
RH0
5. Conclusión:
Con un nivel de significancia del 5%, el modelo es válido.
Coeficiente de determinación
Es una medida de bondad de ajuste del modelo. Nos indica que tan bueno es el modelo para
explicar el porcentaje de variabilidad de la variable dependiente Y.
El coeficiente de determinación R2 indica el porcentaje de la variabilidad de la variable
dependiente Y que es explicada por el modelo de regresión lineal.
También nos ayuda a saber la precisión con la que se puede predecir o pronosticar el valor
de la variable dependiente, si se conocen los valores de la variable dependiente.
El coeficiente de determinación R2 se calcula de la siguiente manera:
SCReg
R2 = 100%
SCTot
Coeficiente de correlación
El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y.
Se calcula como la raíz cuadrada del coeficiente de determinación:
R 2 si ˆ1 0
r=
− R 2 si ˆ 0
1
Si el coeficiente de correlación está cerca de cero entonces indicará que no existe relación
lineal significativa entre las dos variables
Si el coeficiente de correlación se acerca a 1 o a -1 indicará que existe una relación lineal
fuerte pudiendo ser directa o inversa. Valores que se pueden tomar como referencia para
determinar si no existe relación lineal o si existe una relación lineal fuerte, directa o inversa,
se muestra a continuación:
UPCPC
MA44 Estadística 186
Relación Relación
Correlación
lineal No existe lineal Correlación
nula
moderada
fuerte e Relación fuerte y
inversa Lineal directa Correlación
moderada
-1.0 -0.65 -0.2 0.2 0.65 1.0
6.4.2.1.1
Estos valores pueden variar de acuerdo con el campo de estudio.
Ejercicio
r2
Ejercicio
Indique qué valor de r2 y r le corresponde a cada gráfico, considerando los siguientes valores: r
= 0,95; r = 0,78 y r = 0,52. Además, indique el tipo de relación entre las variables.
Situación 1
El coeficiente de determinación es r2= 27.04%
El coeficiente de correlación es r= 0.52 por tanto, la relación entre las variables es moderado.
y Directo
Situación 2
El coeficiente de determinación es r2= 90.25%
El coeficiente de correlación es r=0.95, por tanto, la relación entre las variables es fuerte y
Directo
UPCPC
MA44 Estadística 187
Situación 3
El coeficiente de determinación es r2=60.84%
El coeficiente de correlación es r= -0.78 por tanto, la relación entre las variables es Fuerte e
Inverso
Ejercicios
Temperatura(ºC) 24 20 18 16 10 12 13 28 16 15 23
Vida útil(en años) 8,0 6,4 5,5 4,6 3,8 3,9 5,6 8,5 6,6 4,5 8,8
8
Vida útil(en años)
10 15 20 25 30
Temperatura
̂ 0
UPCPC
MA44 Estadística 188
Densidad del
300 400 500 600 700 800 900 1000 1100 1200 1400 1600
concreto
Conductividad
térmica 0.065 0.08 0.095 0.115 0.13 0.15 0.175 0.205 0.23 0.27 0.346 0.436
(watts/metros.Kelvin)
0,40
0,35
Conductividad
0,30
0,25
0,20
0,15
0,10
0,05
200 400 600 800 1000 1200 1400 1600
Densidad
UPCPC
MA44 Estadística 189
Temperatura (oC) 18 18 18 22 22 26 30 30 34
Tiempo de operación 1200 1215 1150 1000 974 810 583 612 240
UPCPC
MA44 Estadística 190
1200
1000
Tiempo de operación
800
600
400
200
20 24 28 32 36
Temperatura (oC)
UPCPC
MA44 Estadística 191
UPCPC